Add BERTopic model
Browse files- .gitattributes +1 -0
- README.md +161 -0
- config.json +16 -0
- ctfidf.safetensors +3 -0
- ctfidf_config.json +3 -0
- topic_embeddings.safetensors +3 -0
- topics.json +0 -0
.gitattributes
CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
ctfidf_config.json filter=lfs diff=lfs merge=lfs -text
|
README.md
ADDED
@@ -0,0 +1,161 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
|
2 |
+
---
|
3 |
+
tags:
|
4 |
+
- bertopic
|
5 |
+
library_name: bertopic
|
6 |
+
pipeline_tag: text-classification
|
7 |
+
---
|
8 |
+
|
9 |
+
# BERTopic_ArXiv
|
10 |
+
|
11 |
+
This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
|
12 |
+
BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
|
13 |
+
|
14 |
+
## Usage
|
15 |
+
|
16 |
+
To use this model, please install BERTopic:
|
17 |
+
|
18 |
+
```
|
19 |
+
pip install -U bertopic
|
20 |
+
```
|
21 |
+
|
22 |
+
You can use the model as follows:
|
23 |
+
|
24 |
+
```python
|
25 |
+
from bertopic import BERTopic
|
26 |
+
topic_model = BERTopic.load("Ah7med/BERTopic_ArXiv")
|
27 |
+
|
28 |
+
topic_model.get_topic_info()
|
29 |
+
```
|
30 |
+
|
31 |
+
## Topic overview
|
32 |
+
|
33 |
+
* Number of topics: 92
|
34 |
+
* Number of training documents: 30721
|
35 |
+
|
36 |
+
<details>
|
37 |
+
<summary>Click here for an overview of all topics.</summary>
|
38 |
+
|
39 |
+
| Topic ID | Topic Keywords | Topic Frequency | Label |
|
40 |
+
|----------|----------------|-----------------|-------|
|
41 |
+
| -1 | رقم مليار - السمو - السمو الملكي - رقم رقم مليار - الملكي الأمير | 53 | -1_رقم مليار_السمو_السمو الملكي_رقم رقم مليار |
|
42 |
+
| 0 | النادي - اللاعبين - اللاعب - القدم - نادي | 9656 | 0_النادي_اللاعبين_اللاعب_القدم |
|
43 |
+
| 1 | عدن - المقاومة - الحوثيين - اليمن - الحوثي | 2984 | 1_عدن_المقاومة_الحوثيين_اليمن |
|
44 |
+
| 2 | التحرش - الكتاب - الشاعر - الشعر - الرواية | 1111 | 2_التحرش_الكتاب_الشاعر_الشعر |
|
45 |
+
| 3 | يونايتد - الدوري - الموسم - مانشستر - سيتي | 898 | 3_يونايتد_الدوري_الموسم_مانشستر |
|
46 |
+
| 4 | إيران - النووي - الإيراني - الاتفاق النووي - أوباما | 819 | 4_إيران_النووي_الإيراني_الاتفاق النووي |
|
47 |
+
| 5 | المرورية - وإنشاء - البلدية - الأمانة - المشروعات | 756 | 5_المرورية_وإنشاء_البلدية_الأمانة |
|
48 |
+
| 6 | بشرطة - التحقيق - القبض - مقطع - التحرش | 543 | 6_بشرطة_التحقيق_القبض_مقطع |
|
49 |
+
| 7 | الفعاليات - المهرجان - فعاليات - مهرجان - الشعبية | 496 | 7_الفعاليات_المهرجان_فعاليات_مهرجان |
|
50 |
+
| 8 | تركيا - التركية - داعش - الكردستاني - العمال الكردستاني | 471 | 8_تركيا_التركية_داعش_الكردستاني |
|
51 |
+
| 9 | الهاتف - أبل - الذكية - الهواتف - ويندوز | 456 | 9_الهاتف_أبل_الذكية_الهواتف |
|
52 |
+
| 10 | الباحثون - القلب - الجسم - الدم - الإصابة | 431 | 10_الباحثون_القلب_الجسم_الدم |
|
53 |
+
| 11 | البلدية - الانتخابية - للانتخابات - الانتخابات - الناخبين | 391 | 11_البلدية_الانتخابية_للانتخابات_الانتخابات |
|
54 |
+
| 12 | الإسكان - العقاري - العقارية - نزع - نزع ملكية | 360 | 12_الإسكان_العقاري_العقارية_نزع |
|
55 |
+
| 13 | - - - - | 357 | 13____ |
|
56 |
+
| 14 | قوات الطوارئ - الإرهابي - الشهداء - استهدف - قوات | 354 | 14_قوات الطوارئ_الإرهابي_الشهداء_استهدف |
|
57 |
+
| 15 | الحرارة - الموج - الرياح - السطحية - غربية | 340 | 15_الحرارة_الموج_الرياح_السطحية |
|
58 |
+
| 16 | داعش - إرهابية - الإرهابية - محكمة - تنظيم داعش | 318 | 16_داعش_إرهابية_الإرهابية_محكمة |
|
59 |
+
| 17 | النفط - برميل - الخام - للبرميل - مليون برميل | 297 | 17_النفط_برميل_الخام_للبرميل |
|
60 |
+
| 18 | الشهيد - العزاء - الفقيد - الشهداء - عسير | 292 | 18_الشهيد_العزاء_الفقيد_الشهداء |
|
61 |
+
| 19 | الاحتلال - الإسرائيلية - الفلسطيني - الإسرائيلي - الفلسطينية | 291 | 19_الاحتلال_الإسرائيلية_الفلسطيني_الإسرائيلي |
|
62 |
+
| 20 | نائب خادم - نائب خادم الحرمين - الصافي - الفيصل - قهوجي | 288 | 20_نائب خادم_نائب خادم الحرمين_الصافي_الفيصل |
|
63 |
+
| 21 | الطلاب - موهبة - العلمية - هارفارد - جامعة هارفارد | 274 | 21_الطلاب_موهبة_العلمية_هارفارد |
|
64 |
+
| 22 | مجلس الوزراء - العهد - الاستقبال - وزير الدفاع - جمهورية | 270 | 22_مجلس الوزراء_العهد_الاستقبال_وزير الدفاع |
|
65 |
+
| 23 | داعش - الإرهاب - الفكر - الإرهابية - الإسلام | 266 | 23_داعش_الإرهاب_الفكر_الإرهابية |
|
66 |
+
| 24 | القبول - الجامعة - والتسجيل - القبول والتسجيل - رقم رقمهـ | 229 | 24_القبول_الجامعة_والتسجيل_القبول والتسجيل |
|
67 |
+
| 25 | الطفلة - المستشفى - المتوفاة - الشؤون الصحية - الصحية بمنطقة | 227 | 25_الطفلة_المستشفى_المتوفاة_الشؤون الصحية |
|
68 |
+
| 26 | الاستقدام - العمالة - وزارة العمل - الهندسية - مكاتب | 227 | 26_الاستقدام_العمالة_وزارة العمل_الهندسية |
|
69 |
+
| 27 | احتفل - بزواج - كريمة - والأصدقاء - تهانينا | 227 | 27_احتفل_بزواج_كريمة_والأصدقاء |
|
70 |
+
| 28 | الفيلم - فيلم - أفلام - الأفلام - السينما | 210 | 28_الفيلم_فيلم_أفلام_الأفلام |
|
71 |
+
| 29 | السويس - قناة السويس - القناة - السويس الجديدة - قناة السويس الجديدة | 206 | 29_السويس_قناة السويس_القناة_السويس الجديدة |
|
72 |
+
| 30 | كلينتون - ترامب - الحزب - بوش - الجمهوري | 201 | 30_كلينتون_ترامب_الحزب_بوش |
|
73 |
+
| 31 | سرير - رقم سرير - بسعة - بسعة رقم - العيادات | 196 | 31_سرير_رقم سرير_بسعة_بسعة رقم |
|
74 |
+
| 32 | اليونان - اليورو - اليونانية - الأوروبي - النقد الدولي | 196 | 32_اليونان_اليورو_اليونانية_الأوروبي |
|
75 |
+
| 33 | مطار - الطيران - المطار - للطيران - المسافرين | 195 | 33_مطار_الطيران_المطار_للطيران |
|
76 |
+
| 34 | معايدة - التهاني - بمناسبة عيد - حفل معايدة - بمناسبة عيد الفطر | 190 | 34_معايدة_التهاني_بمناسبة عيد_حفل معايدة |
|
77 |
+
| 35 | العبادي - الفساد - العراقي - البرلمان - رئيس الوزراء | 178 | 35_العبادي_الفساد_العراقي_البرلمان |
|
78 |
+
| 36 | روسيا - التصفيات - كأس العالم - القرعة - كأس | 174 | 36_روسيا_التصفيات_كأس العالم_القرعة |
|
79 |
+
| 37 | المدارس - الدراسي - العام الدراسي - مدارس - وزير التعليم | 165 | 37_المدارس_الدراسي_العام الدراسي_مدارس |
|
80 |
+
| 38 | الطب - الجامعة - تبوك - القبول - كلية | 163 | 38_الطب_الجامعة_تبوك_القبول |
|
81 |
+
| 39 | الحريق - حريق - الدفاع المدني - للدفاع المدني - الحادث | 162 | 39_الحريق_حريق_الدفاع المدني_للدفاع المدني |
|
82 |
+
| 40 | حادث - الهلال الأحمر - الهلال - الحادث - الأحمر السعودي | 162 | 40_حادث_الهلال الأحمر_الهلال_الحادث |
|
83 |
+
| 41 | الفيفا - بلاتر - فيفا - بلاتيني - الاتحاد الدولي | 161 | 41_الفيفا_بلاتر_فيفا_بلاتيني |
|
84 |
+
| 42 | الفائدة - الدولار - الأسهم - أسعار الفائدة - الصين | 150 | 42_الفائدة_الدولار_الأسهم_أسعار الفائدة |
|
85 |
+
| 43 | التصحيح - اليمنيين - تصحيح - تصحيح أوضاع - الجوازات | 138 | 43_التصحيح_اليمنيين_تصحيح_تصحيح أوضاع |
|
86 |
+
| 44 | بلدية - البلدية - الغذائية - الرقابة - المطعم | 134 | 44_بلدية_البلدية_الغذائية_الرقابة |
|
87 |
+
| 45 | النادي - سوق عكاظ - الأدبي - الثقافي - الأدبية | 133 | 45_النادي_سوق عكاظ_الأدبي_الثقافي |
|
88 |
+
| 46 | المرضى - المنومين - المستشفى - المرضى المنومين - الهدايا | 122 | 46_المرضى_المنومين_المستشفى_المرضى المنومين |
|
89 |
+
| 47 | المهاجرين - كاليه - مهاجر - اللاجئين - النفق | 121 | 47_المهاجرين_كاليه_مهاجر_اللاجئين |
|
90 |
+
| 48 | للأوقية - الذهب - رقم للأوقية - رقم رقم للأوقية - بالمئة | 121 | 48_للأوقية_الذهب_رقم للأوقية_رقم رقم للأوقية |
|
91 |
+
| 49 | أغنية - الأغنية - كلمات - الفنان - وألحان | 119 | 49_أغنية_الأغنية_كلمات_الفنان |
|
92 |
+
| 50 | التمور - الأسعار - الاستراحات - الصيد - ريالا | 118 | 50_التمور_الأسعار_الاستراحات_الصيد |
|
93 |
+
| 51 | رقم رقم المائة - الربع - اليورو - النمو - منطقة اليورو | 117 | 51_رقم رقم المائة_الربع_اليورو_النمو |
|
94 |
+
| 52 | الخيرية - الأيتام - التطوعي - بسمتهم - نرسم | 113 | 52_الخيرية_الأيتام_التطوعي_بسمتهم |
|
95 |
+
| 53 | الأسهم - أسهم رقم - أسهم شركات - للتأمين - بنسبة رقم رقم | 111 | 53_الأسهم_أسهم رقم_أسهم شركات_للتأمين |
|
96 |
+
| 54 | الربع - صافي - أرباح - ريال - النصف الأول | 110 | 54_الربع_صافي_أرباح_ريال |
|
97 |
+
| 55 | النار - براون - هولمز - بولاية - سينما | 107 | 55_النار_براون_هولمز_بولاية |
|
98 |
+
| 56 | البلدين - محمد سلمان - الأمير محمد - الأمير محمد سلمان - سلمان عبدالعزيز | 107 | 56_البلدين_محمد سلمان_الأمير محمد_الأمير محمد سلمان |
|
99 |
+
| 57 | المتنزه - القرش - بالمر - الحيوان - الحيوانات | 104 | 57_المتنزه_القرش_بالمر_الحيوان |
|
100 |
+
| 58 | الفيضانات - الزلزال - الأمطار - باكستان - الإعصار | 102 | 58_الفيضانات_الزلزال_الأمطار_باكستان |
|
101 |
+
| 59 | الفضاء - ناسا - الكوكب - كوكب - سطح | 101 | 59_الفضاء_ناسا_الكوكب_كوكب |
|
102 |
+
| 60 | المقابلات - المعلمين - شؤون المعلمين - المقابلات الشخصية - المرشحين | 96 | 60_المقابلات_المعلمين_شؤون المعلمين_المقابلات الشخصية |
|
103 |
+
| 61 | الأراضي اليمنية - اليمنية - داخل الأراضي اليمنية - داخل الأراضي - الدفاع المدني | 96 | 61_الأراضي اليمنية_اليمنية_داخل الأراضي اليمنية_داخل الأراضي |
|
104 |
+
| 62 | المعرض - والفنون - المفتاحة - الفنانين - التشكيلي | 96 | 62_المعرض_والفنون_المفتاحة_الفنانين |
|
105 |
+
| 63 | المعارضة - قوات النظام - السوري - المرصد - الزبداني | 94 | 63_المعارضة_قوات النظام_السوري_المرصد |
|
106 |
+
| 64 | أشعة الشمس - أشعة - الشمس - وزارة العمل - مكتب العمل | 94 | 64_أشعة الشمس_أشعة_الشمس_وزارة العمل |
|
107 |
+
| 65 | وأطيب التمنيات - التهاني وأطيب التمنيات - التهاني وأطيب - التمنيات - وأطيب | 93 | 65_وأطيب التمنيات_التهاني وأطيب التمنيات_التهاني وأطيب_التمنيات |
|
108 |
+
| 66 | السيارة - جي - الكهربائية - رقمررقم - للسيارات | 92 | 66_السيارة_جي_الكهربائية_رقمررقم |
|
109 |
+
| 67 | الحفل - الأهالي - بلدية - بعيد الفطر - الاحتفال | 90 | 67_الحفل_الأهالي_بلدية_بعيد الفطر |
|
110 |
+
| 68 | الرمادي - الأنبار - داعش - تنظيم داعش - القوات | 88 | 68_الرمادي_الأنبار_داعش_تنظيم داعش |
|
111 |
+
| 69 | المالكي - العراق - العراقية - نوري - نوري المالكي | 87 | 69_المالكي_العراق_العراقية_نوري |
|
112 |
+
| 70 | سموه - أمير منطقة - استقبل - أمير منطقة الرياض - منطقة الرياض | 79 | 70_سموه_أمير منطقة_استقبل_أمير منطقة الرياض |
|
113 |
+
| 71 | موبايلي - العملاء - خدمات الاتصالات - هيئة الاتصالات - التجمعات | 77 | 71_موبايلي_العملاء_خدمات الاتصالات_هيئة الاتصالات |
|
114 |
+
| 72 | الفيصل - سعود الفيصل - الأمير سعود - الأمير سعود الفيصل - الدبلوماسية | 76 | 72_الفيصل_سعود الفيصل_الأمير سعود_الأمير سعود الفيصل |
|
115 |
+
| 73 | سهم - رقم نقطة - المئة - رقم المئة - رقم رقم المائة | 74 | 73_سهم_رقم نقطة_المئة_رقم المئة |
|
116 |
+
| 74 | طالبان - الأفغانية - حركة طالبان - أفغانستان - كابول | 73 | 74_طالبان_الأفغانية_حركة طالبان_أفغانستان |
|
117 |
+
| 75 | الكشافة - الكشفي - الكشفية - المخيم - رسل السلام | 72 | 75_الكشافة_الكشفي_الكشفية_المخيم |
|
118 |
+
| 76 | العسل - النحل - الباحة - المهرجان - عسل | 72 | 76_العسل_النحل_الباحة_المهرجان |
|
119 |
+
| 77 | المسرحية - المسرحي - العرض المسرحي - مسرحية - المسرح | 71 | 77_المسرحية_المسرحي_العرض المسرحي_مسرحية |
|
120 |
+
| 78 | تفجير - مسجد - قوات الطوارئ - عسير - صلاة الظهر | 69 | 78_تفجير_مسجد_قوات الطوارئ_عسير |
|
121 |
+
| 79 | حرس - حرس الحدود - البحث والإنقاذ - والإنقاذ - الحدود بالمنطقة | 69 | 79_حرس_حرس الحدود_البحث والإنقاذ_والإنقاذ |
|
122 |
+
| 80 | الطائرة - لادن - الطيران - طائرة - تحطم | 68 | 80_الطائرة_لادن_الطيران_طائرة |
|
123 |
+
| 81 | المطعم - مطعم - لندن - الطعام - الأطباق | 66 | 81_المطعم_مطعم_لندن_الطعام |
|
124 |
+
| 82 | الحج - حجاج الداخل - الحجاج - حجاج - وزارة الحج | 65 | 82_الحج_حجاج الداخل_الحجاج_حجاج |
|
125 |
+
| 83 | سيناء - زويد - المصرية - العريش - الشيخ زويد | 64 | 83_سيناء_زويد_المصرية_العريش |
|
126 |
+
| 84 | الوقود - الغاز - البنزين - الإمارات - أسعار الوقود | 64 | 84_الوقود_الغاز_البنزين_الإمارات |
|
127 |
+
| 85 | الجمارك - تهريب - جمرك - رجال الجمارك - مخبأة | 63 | 85_الجمارك_تهريب_جمرك_رجال الجمارك |
|
128 |
+
| 86 | المنتدى - المعارض - والمؤتمرات - المعرض - غرفة الشرقية | 63 | 86_المنتدى_المعارض_والمؤتمرات_المعرض |
|
129 |
+
| 87 | الملا - طالبان - الملا عمر - الأفغانية - حركة طالبان | 63 | 87_الملا_طالبان_الملا عمر_الأفغانية |
|
130 |
+
| 88 | كورونا - وزارة الصحة - الحالة الأولى - رقم حالة - والتحكم | 62 | 88_كورونا_وزارة الصحة_الحالة الأولى_رقم حالة |
|
131 |
+
| 89 | الماليزية - الطائرة - الحطام - حطام - طائرة | 61 | 89_الماليزية_الطائرة_الحطام_حطام |
|
132 |
+
| 90 | سوق العمل - الوظائف - التوظيف - الاستقدام - فرص العمل | 55 | 90_سوق العمل_الوظائف_التوظيف_الاستقدام |
|
133 |
+
|
134 |
+
</details>
|
135 |
+
|
136 |
+
## Training hyperparameters
|
137 |
+
|
138 |
+
* calculate_probabilities: True
|
139 |
+
* language: None
|
140 |
+
* low_memory: False
|
141 |
+
* min_topic_size: 10
|
142 |
+
* n_gram_range: (1, 1)
|
143 |
+
* nr_topics: None
|
144 |
+
* seed_topic_list: None
|
145 |
+
* top_n_words: 10
|
146 |
+
* verbose: True
|
147 |
+
* zeroshot_min_similarity: 0.7
|
148 |
+
* zeroshot_topic_list: None
|
149 |
+
|
150 |
+
## Framework versions
|
151 |
+
|
152 |
+
* Numpy: 1.26.4
|
153 |
+
* HDBSCAN: 0.8.40
|
154 |
+
* UMAP: 0.5.7
|
155 |
+
* Pandas: 2.2.2
|
156 |
+
* Scikit-Learn: 1.2.2
|
157 |
+
* Sentence-transformers: 3.3.1
|
158 |
+
* Transformers: 4.47.0
|
159 |
+
* Numba: 0.60.0
|
160 |
+
* Plotly: 5.24.1
|
161 |
+
* Python: 3.10.12
|
config.json
ADDED
@@ -0,0 +1,16 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"calculate_probabilities": true,
|
3 |
+
"language": null,
|
4 |
+
"low_memory": false,
|
5 |
+
"min_topic_size": 10,
|
6 |
+
"n_gram_range": [
|
7 |
+
1,
|
8 |
+
1
|
9 |
+
],
|
10 |
+
"nr_topics": null,
|
11 |
+
"seed_topic_list": null,
|
12 |
+
"top_n_words": 10,
|
13 |
+
"verbose": true,
|
14 |
+
"zeroshot_min_similarity": 0.7,
|
15 |
+
"zeroshot_topic_list": null
|
16 |
+
}
|
ctfidf.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:d6d4281fa2fe90571d995284eea9276146ea3172678c5abd0269d2f37ed4ff79
|
3 |
+
size 16291196
|
ctfidf_config.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:fb159bb18495cc7086a491c14d216670abdc41bb40aab5a03659a95667b0a911
|
3 |
+
size 15797045
|
topic_embeddings.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:cb3dea4ec4d268bbcc0cba68f424a484a59141d1cb139bd24f008869b746f6f4
|
3 |
+
size 282712
|
topics.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|