Ah7med commited on
Commit
1e47910
·
verified ·
1 Parent(s): e829827

Add BERTopic model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ ctfidf_config.json filter=lfs diff=lfs merge=lfs -text
README.md ADDED
@@ -0,0 +1,161 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ ---
3
+ tags:
4
+ - bertopic
5
+ library_name: bertopic
6
+ pipeline_tag: text-classification
7
+ ---
8
+
9
+ # BERTopic_ArXiv
10
+
11
+ This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
12
+ BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
13
+
14
+ ## Usage
15
+
16
+ To use this model, please install BERTopic:
17
+
18
+ ```
19
+ pip install -U bertopic
20
+ ```
21
+
22
+ You can use the model as follows:
23
+
24
+ ```python
25
+ from bertopic import BERTopic
26
+ topic_model = BERTopic.load("Ah7med/BERTopic_ArXiv")
27
+
28
+ topic_model.get_topic_info()
29
+ ```
30
+
31
+ ## Topic overview
32
+
33
+ * Number of topics: 92
34
+ * Number of training documents: 30721
35
+
36
+ <details>
37
+ <summary>Click here for an overview of all topics.</summary>
38
+
39
+ | Topic ID | Topic Keywords | Topic Frequency | Label |
40
+ |----------|----------------|-----------------|-------|
41
+ | -1 | رقم مليار - السمو - السمو الملكي - رقم رقم مليار - الملكي الأمير | 53 | -1_رقم مليار_السمو_السمو الملكي_رقم رقم مليار |
42
+ | 0 | النادي - اللاعبين - اللاعب - القدم - نادي | 9656 | 0_النادي_اللاعبين_اللاعب_القدم |
43
+ | 1 | عدن - المقاومة - الحوثيين - اليمن - الحوثي | 2984 | 1_عدن_المقاومة_الحوثيين_اليمن |
44
+ | 2 | التحرش - الكتاب - الشاعر - الشعر - الرواية | 1111 | 2_التحرش_الكتاب_الشاعر_الشعر |
45
+ | 3 | يونايتد - الدوري - الموسم - مانشستر - سيتي | 898 | 3_يونايتد_الدوري_الموسم_مانشستر |
46
+ | 4 | إيران - النووي - الإيراني - الاتفاق النووي - أوباما | 819 | 4_إيران_النووي_الإيراني_الاتفاق النووي |
47
+ | 5 | المرورية - وإنشاء - البلدية - الأمانة - المشروعات | 756 | 5_المرورية_وإنشاء_البلدية_الأمانة |
48
+ | 6 | بشرطة - التحقيق - القبض - مقطع - التحرش | 543 | 6_بشرطة_التحقيق_القبض_مقطع |
49
+ | 7 | الفعاليات - المهرجان - فعاليات - مهرجان - الشعبية | 496 | 7_الفعاليات_المهرجان_فعاليات_مهرجان |
50
+ | 8 | تركيا - التركية - داعش - الكردستاني - العمال الكردستاني | 471 | 8_تركيا_التركية_داعش_الكردستاني |
51
+ | 9 | الهاتف - أبل - الذكية - الهواتف - ويندوز | 456 | 9_الهاتف_أبل_الذكية_الهواتف |
52
+ | 10 | الباحثون - القلب - الجسم - الدم - الإصابة | 431 | 10_الباحثون_القلب_الجسم_الدم |
53
+ | 11 | البلدية - الانتخابية - للانتخابات - الانتخابات - الناخبين | 391 | 11_البلدية_الانتخابية_للانتخابات_الانتخابات |
54
+ | 12 | الإسكان - العقاري - العقارية - نزع - نزع ملكية | 360 | 12_الإسكان_العقاري_العقارية_نزع |
55
+ | 13 | - - - - | 357 | 13____ |
56
+ | 14 | قوات الطوارئ - الإرهابي - الشهداء - استهدف - قوات | 354 | 14_قوات الطوارئ_الإرهابي_الشهداء_استهدف |
57
+ | 15 | الحرارة - الموج - الرياح - السطحية - غربية | 340 | 15_الحرارة_الموج_الرياح_السطحية |
58
+ | 16 | داعش - إرهابية - الإرهابية - محكمة - تنظيم داعش | 318 | 16_داعش_إرهابية_الإرهابية_محكمة |
59
+ | 17 | النفط - برميل - الخام - للبرميل - مليون برميل | 297 | 17_النفط_برميل_الخام_للبرميل |
60
+ | 18 | الشهيد - العزاء - الفقيد - الشهداء - عسير | 292 | 18_الشهيد_العزاء_الفقيد_الشهداء |
61
+ | 19 | الاحتلال - الإسرائيلية - الفلسطيني - الإسرائيلي - الفلسطينية | 291 | 19_الاحتلال_الإسرائيلية_الفلسطيني_الإسرائيلي |
62
+ | 20 | نائب خادم - نائب خادم الحرمين - الصافي - الفيصل - قهوجي | 288 | 20_نائب خادم_نائب خادم الحرمين_الصافي_الفيصل |
63
+ | 21 | الطلاب - موهبة - العلمية - هارفارد - جامعة هارفارد | 274 | 21_الطلاب_موهبة_العلمية_هارفارد |
64
+ | 22 | مجلس الوزراء - العهد - الاستقبال - وزير الدفاع - جمهورية | 270 | 22_مجلس الوزراء_العهد_الاستقبال_وزير الدفاع |
65
+ | 23 | داعش - الإرهاب - الفكر - الإرهابية - الإسلام | 266 | 23_داعش_الإرهاب_الفكر_الإرهابية |
66
+ | 24 | القبول - الجامعة - والتسجيل - القبول والتسجيل - رقم رقمهـ | 229 | 24_القبول_الجامعة_والتسجيل_القبول والتسجيل |
67
+ | 25 | الطفلة - المستشفى - المتوفاة - الشؤون الصحية - الصحية بمنطقة | 227 | 25_الطفلة_المستشفى_المتوفاة_الشؤون الصحية |
68
+ | 26 | الاستقدام - العمالة - وزارة العمل - الهندسية - مكاتب | 227 | 26_الاستقدام_العمالة_وزارة العمل_الهندسية |
69
+ | 27 | احتفل - بزواج - كريمة - والأصدقاء - تهانينا | 227 | 27_احتفل_بزواج_كريمة_والأصدقاء |
70
+ | 28 | الفيلم - فيلم - أفلام - الأفلام - السينما | 210 | 28_الفيلم_فيلم_أفلام_الأفلام |
71
+ | 29 | السويس - قناة السويس - القناة - السويس الجديدة - قناة السويس الجديدة | 206 | 29_السويس_قناة السويس_القناة_السويس الجديدة |
72
+ | 30 | كلينتون - ترامب - الحزب - بوش - الجمهوري | 201 | 30_كلينتون_ترامب_الحزب_بوش |
73
+ | 31 | سرير - رقم سرير - بسعة - بسعة رقم - العيادات | 196 | 31_سرير_رقم سرير_بسعة_بسعة رقم |
74
+ | 32 | اليونان - اليورو - اليونانية - الأوروبي - النقد الدولي | 196 | 32_اليونان_اليورو_اليونانية_الأوروبي |
75
+ | 33 | مطار - الطيران - المطار - للطيران - المسافرين | 195 | 33_مطار_الطيران_المطار_للطيران |
76
+ | 34 | معايدة - التهاني - بمناسبة عيد - حفل معايدة - بمناسبة عيد الفطر | 190 | 34_معايدة_التهاني_بمناسبة عيد_حفل معايدة |
77
+ | 35 | العبادي - الفساد - العراقي - البرلمان - رئيس الوزراء | 178 | 35_العبادي_الفساد_العراقي_البرلمان |
78
+ | 36 | روسيا - التصفيات - كأس العالم - القرعة - كأس | 174 | 36_روسيا_التصفيات_كأس العالم_القرعة |
79
+ | 37 | المدارس - الدراسي - العام الدراسي - مدارس - وزير التعليم | 165 | 37_المدارس_الدراسي_العام الدراسي_مدارس |
80
+ | 38 | الطب - الجامعة - تبوك - القبول - كلية | 163 | 38_الطب_الجامعة_تبوك_القبول |
81
+ | 39 | الحريق - حريق - الدفاع المدني - للدفاع المدني - الحادث | 162 | 39_الحريق_حريق_الدفاع المدني_للدفاع المدني |
82
+ | 40 | حادث - الهلال الأحمر - الهلال - الحادث - الأحمر السعودي | 162 | 40_حادث_الهلال الأحمر_الهلال_الحادث |
83
+ | 41 | الفيفا - بلاتر - فيفا - بلاتيني - الاتحاد الدولي | 161 | 41_الفيفا_بلاتر_فيفا_بلاتيني |
84
+ | 42 | الفائدة - الدولار - الأسهم - أسعار الفائدة - الصين | 150 | 42_الفائدة_الدولار_الأسهم_أسعار الفائدة |
85
+ | 43 | التصحيح - اليمنيين - تصحيح - تصحيح أوضاع - الجوازات | 138 | 43_التصحيح_اليمنيين_تصحيح_تصحيح أوضاع |
86
+ | 44 | بلدية - البلدية - الغذائية - الرقابة - المطعم | 134 | 44_بلدية_البلدية_الغذائية_الرقابة |
87
+ | 45 | النادي - سوق عكاظ - الأدبي - الثقافي - الأدبية | 133 | 45_النادي_سوق عكاظ_الأدبي_الثقافي |
88
+ | 46 | المرضى - المنومين - المستشفى - المرضى المنومين - الهدايا | 122 | 46_المرضى_المنومين_المستشفى_المرضى المنومين |
89
+ | 47 | المهاجرين - كاليه - مهاجر - اللاجئين - النفق | 121 | 47_المهاجرين_كاليه_مهاجر_اللاجئين |
90
+ | 48 | للأوقية - الذهب - رقم للأوقية - رقم رقم للأوقية - بالمئة | 121 | 48_للأوقية_الذهب_رقم للأوقية_رقم رقم للأوقية |
91
+ | 49 | أغنية - الأغنية - كلمات - الفنان - وألحان | 119 | 49_أغنية_الأغنية_كلمات_الفنان |
92
+ | 50 | التمور - الأسعار - الاستراحات - الصيد - ريالا | 118 | 50_التمور_الأسعار_الاستراحات_الصيد |
93
+ | 51 | رقم رقم المائة - الربع - اليورو - النمو - منطقة اليورو | 117 | 51_رقم رقم المائة_الربع_اليورو_النمو |
94
+ | 52 | الخيرية - الأيتام - التطوعي - بسمتهم - نرسم | 113 | 52_الخيرية_الأيتام_التطوعي_بسمتهم |
95
+ | 53 | الأسهم - أسهم رقم - أسهم شركات - للتأمين - بنسبة رقم رقم | 111 | 53_الأسهم_أسهم رقم_أسهم شركات_للتأمين |
96
+ | 54 | الربع - صافي - أرباح - ريال - النصف الأول | 110 | 54_الربع_صافي_أرباح_ريال |
97
+ | 55 | النار - براون - هولمز - بولاية - سينما | 107 | 55_النار_براون_هولمز_بولاية |
98
+ | 56 | البلدين - محمد سلمان - الأمير محمد - الأمير محمد سلمان - سلمان عبدالعزيز | 107 | 56_البلدين_محمد سلمان_الأمير محمد_الأمير محمد سلمان |
99
+ | 57 | المتنزه - القرش - بالمر - الحيوان - الحيوانات | 104 | 57_المتنزه_القرش_بالمر_الحيوان |
100
+ | 58 | الفيضانات - الزلزال - الأمطار - باكستان - الإعصار | 102 | 58_الفيضانات_الزلزال_الأمطار_باكستان |
101
+ | 59 | الفضاء - ناسا - الكوكب - كوكب - سطح | 101 | 59_الفضاء_ناسا_الكوكب_كوكب |
102
+ | 60 | المقابلات - المعلمين - شؤون المعلمين - المقابلات الشخصية - المرشحين | 96 | 60_المقابلات_المعلمين_شؤون المعلمين_المقابلات الشخصية |
103
+ | 61 | الأراضي اليمنية - اليمنية - داخل الأراضي اليمنية - داخل الأراضي - الدفاع المدني | 96 | 61_الأراضي اليمنية_اليمنية_داخل الأراضي اليمنية_داخل الأراضي |
104
+ | 62 | المعرض - والفنون - المفتاحة - الفنانين - التشكيلي | 96 | 62_المعرض_والفنون_المفتاحة_الفنانين |
105
+ | 63 | المعارضة - قوات النظام - السوري - المرصد - الزبداني | 94 | 63_المعارضة_قوات النظام_السوري_المرصد |
106
+ | 64 | أشعة الشمس - أشعة - الشمس - وزارة العمل - مكتب العمل | 94 | 64_أشعة الشمس_أشعة_الشمس_وزارة العمل |
107
+ | 65 | وأطيب التمنيات - التهاني وأطيب التمنيات - التهاني وأطيب - التمنيات - وأطيب | 93 | 65_وأطيب التمنيات_التهاني وأطيب التمنيات_التهاني وأطيب_التمنيات |
108
+ | 66 | السيارة - جي - الكهربائية - رقمررقم - للسيارات | 92 | 66_السيارة_جي_الكهربائية_رقمررقم |
109
+ | 67 | الحفل - الأهالي - بلدية - بعيد الفطر - الاحتفال | 90 | 67_الحفل_الأهالي_بلدية_بعيد الفطر |
110
+ | 68 | الرمادي - الأنبار - داعش - تنظيم داعش - القوات | 88 | 68_الرمادي_الأنبار_داعش_تنظيم داعش |
111
+ | 69 | المالكي - العراق - العراقية - نوري - نوري المالكي | 87 | 69_المالكي_العراق_العراقية_نوري |
112
+ | 70 | سموه - أمير منطقة - استقبل - أمير منطقة الرياض - منطقة الرياض | 79 | 70_سموه_أمير منطقة_استقبل_أمير منطقة الرياض |
113
+ | 71 | موبايلي - العملاء - خدمات الاتصالات - هيئة الاتصالات - التجمعات | 77 | 71_موبايلي_العملاء_خدمات الاتصالات_هيئة الاتصالات |
114
+ | 72 | الفيصل - سعود الفيصل - الأمير سعود - الأمير سعود الفيصل - الدبلوماسية | 76 | 72_الفيصل_سعود الفيصل_الأمير سعود_الأمير سعود الفيصل |
115
+ | 73 | سهم - رقم نقطة - المئة - رقم المئة - رقم رقم المائة | 74 | 73_سهم_رقم نقطة_المئة_رقم المئة |
116
+ | 74 | طالبان - الأفغانية - حركة طالبان - أفغانستان - كابول | 73 | 74_طالبان_الأفغانية_حركة طالبان_أفغانستان |
117
+ | 75 | الكشافة - الكشفي - الكشفية - المخيم - رسل السلام | 72 | 75_الكشافة_الكشفي_الكشفية_المخيم |
118
+ | 76 | العسل - النحل - الباحة - المهرجان - عسل | 72 | 76_العسل_النحل_الباحة_المهرجان |
119
+ | 77 | المسرحية - المسرحي - العرض المسرحي - مسرحية - المسرح | 71 | 77_المسرحية_المسرحي_العرض المسرحي_مسرحية |
120
+ | 78 | تفجير - مسجد - قوات الطوارئ - عسير - صلاة الظهر | 69 | 78_تفجير_مسجد_قوات الطوارئ_عسير |
121
+ | 79 | حرس - حرس الحدود - البحث والإنقاذ - والإنقاذ - الحدود بالمنطقة | 69 | 79_حرس_حرس الحدود_البحث والإنقاذ_والإنقاذ |
122
+ | 80 | الطائرة - لادن - الطيران - طائرة - تحطم | 68 | 80_الطائرة_لادن_الطيران_طائرة |
123
+ | 81 | المطعم - مطعم - لندن - الطعام - الأطباق | 66 | 81_المطعم_مطعم_لندن_الطعام |
124
+ | 82 | الحج - حجاج الداخل - الحجاج - حجاج - وزارة الحج | 65 | 82_الحج_حجاج الداخل_الحجاج_حجاج |
125
+ | 83 | سيناء - زويد - المصرية - العريش - الشيخ زويد | 64 | 83_سيناء_زويد_المصرية_العريش |
126
+ | 84 | الوقود - الغاز - البنزين - الإمارات - أسعار الوقود | 64 | 84_الوقود_الغاز_البنزين_الإمارات |
127
+ | 85 | الجمارك - تهريب - جمرك - رجال الجمارك - مخبأة | 63 | 85_الجمارك_تهريب_جمرك_رجال الجمارك |
128
+ | 86 | المنتدى - المعارض - والمؤتمرات - المعرض - غرفة الشرقية | 63 | 86_المنتدى_المعارض_والمؤتمرات_المعرض |
129
+ | 87 | الملا - طالبان - الملا عمر - الأفغانية - حركة طالبان | 63 | 87_الملا_طالبان_الملا عمر_الأفغانية |
130
+ | 88 | كورونا - وزارة الصحة - الحالة الأولى - رقم حالة - والتحكم | 62 | 88_كورونا_وزارة الصحة_الحالة الأولى_رقم حالة |
131
+ | 89 | الماليزية - الطائرة - الحطام - حطام - طائرة | 61 | 89_الماليزية_الطائرة_الحطام_حطام |
132
+ | 90 | سوق العمل - الوظائف - التوظيف - الاستقدام - فرص العمل | 55 | 90_سوق العمل_الوظائف_التوظيف_الاستقدام |
133
+
134
+ </details>
135
+
136
+ ## Training hyperparameters
137
+
138
+ * calculate_probabilities: True
139
+ * language: None
140
+ * low_memory: False
141
+ * min_topic_size: 10
142
+ * n_gram_range: (1, 1)
143
+ * nr_topics: None
144
+ * seed_topic_list: None
145
+ * top_n_words: 10
146
+ * verbose: True
147
+ * zeroshot_min_similarity: 0.7
148
+ * zeroshot_topic_list: None
149
+
150
+ ## Framework versions
151
+
152
+ * Numpy: 1.26.4
153
+ * HDBSCAN: 0.8.40
154
+ * UMAP: 0.5.7
155
+ * Pandas: 2.2.2
156
+ * Scikit-Learn: 1.2.2
157
+ * Sentence-transformers: 3.3.1
158
+ * Transformers: 4.47.0
159
+ * Numba: 0.60.0
160
+ * Plotly: 5.24.1
161
+ * Python: 3.10.12
config.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "calculate_probabilities": true,
3
+ "language": null,
4
+ "low_memory": false,
5
+ "min_topic_size": 10,
6
+ "n_gram_range": [
7
+ 1,
8
+ 1
9
+ ],
10
+ "nr_topics": null,
11
+ "seed_topic_list": null,
12
+ "top_n_words": 10,
13
+ "verbose": true,
14
+ "zeroshot_min_similarity": 0.7,
15
+ "zeroshot_topic_list": null
16
+ }
ctfidf.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d6d4281fa2fe90571d995284eea9276146ea3172678c5abd0269d2f37ed4ff79
3
+ size 16291196
ctfidf_config.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fb159bb18495cc7086a491c14d216670abdc41bb40aab5a03659a95667b0a911
3
+ size 15797045
topic_embeddings.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cb3dea4ec4d268bbcc0cba68f424a484a59141d1cb139bd24f008869b746f6f4
3
+ size 282712
topics.json ADDED
The diff for this file is too large to render. See raw diff