Upload folder using huggingface_hub
Browse files- 1_Pooling/config.json +10 -0
- README.md +732 -3
- config.json +25 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +37 -0
- tokenizer.json +0 -0
- tokenizer_config.json +86 -0
- vocab.txt +0 -0
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
CHANGED
@@ -1,3 +1,732 @@
|
|
1 |
-
---
|
2 |
-
|
3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model: aubmindlab/bert-base-arabertv02
|
3 |
+
language:
|
4 |
+
- ar
|
5 |
+
library_name: sentence-transformers
|
6 |
+
license: apache-2.0
|
7 |
+
pipeline_tag: sentence-similarity
|
8 |
+
tags:
|
9 |
+
- sentence-transformers
|
10 |
+
- sentence-similarity
|
11 |
+
- feature-extraction
|
12 |
+
- generated_from_trainer
|
13 |
+
- dataset_size:550000
|
14 |
+
- loss:Matryoshka2dLoss
|
15 |
+
- loss:MatryoshkaLoss
|
16 |
+
- loss:MultipleNegativesRankingLoss
|
17 |
+
widget:
|
18 |
+
- source_sentence: من هو عتلة الدهون
|
19 |
+
sentences:
|
20 |
+
- واحدة من الأسلحة التي لطالما أردت الحصول عليها كانت بندقية Marlin 39A ذات الحركة
|
21 |
+
الرافعة .22. صدق أو لا تصدق ، بدأت هذه الرغبة بلعبة أركيد. عندما كنت مراهقًا ،
|
22 |
+
اعتدت أن ألعب لعبة رماية في معرض الرماية تحاكي زجاجات الرماية ببندقية رافعة ،
|
23 |
+
وبعد إعادة تجميع البندقية ، كان قياس الزناد 2 رطل ، وكان من السهل رفع البندقية.
|
24 |
+
لقد سحبت الرصاص والمسحوق من 0.22 ثانية كان علي أن أختبر ما إذا كان زنبرك المطرقة
|
25 |
+
الأخف سيظل ينبثق من البرايمر. من بين الأنواع الثلاثة المختلفة من 0.22 ثانية التي
|
26 |
+
اختبرتها ، أطلقت البندقية المركب الأولي دون أي مشاكل.
|
27 |
+
- يشمل أعداء الولب الطيور الجارحة مثل نسر wedgetail ، والذي غالبًا ما يمكن ملاحظته
|
28 |
+
وهي تنقض على مستعمرات من أنواع مختلفة من الولاب الصخري عندما تتعرض على الأسطح
|
29 |
+
الصخرية العارية. شغوفًا بكل الأشياء الأسترالية ، أتجول في جميع أنحاء WikiAnswers
|
30 |
+
، وأجيب على الأسئلة التي لها اتصال بعيدًا بأستراليا ... وبعضها الآخر ... لأن اهتماماتي
|
31 |
+
بعيدة وواسعة.
|
32 |
+
- لافاييت فات ليفر (من مواليد 18 أغسطس 1960 في باين بلاف أركنساس) هو لاعب كرة سلة
|
33 |
+
أمريكي محترف متقاعد لعب في الدوري الاميركي للمحترفين. وهو حاليًا مدير تطوير اللاعبين
|
34 |
+
في سكرامنتو كينغز.
|
35 |
+
- source_sentence: ما هو الشكل المناسب في الفن
|
36 |
+
sentences:
|
37 |
+
- طهي الحلزونات جيدًا يمكن أن يقضي على الديدان المثقوبة. تشمل أعراض طفيل الكبد الخمول
|
38 |
+
، وضعف الشهية ، آلام في البطن ، وركود صفراوي ، وهي حالة لا يمكن أن تتدفق فيها
|
39 |
+
العصارة الصفراوية من الكبد إلى الأمعاء. هذه المضاعفات الأخيرة هي التي تجعل الجلد
|
40 |
+
يتحول إلى اللون الأخضر.
|
41 |
+
- حددت حركة الباروك المتوترة والفاخرة فن القرن السابع عشر. تميزت فترة الباروك بالديناميكية
|
42 |
+
المبالغ فيها والتفاصيل الواضحة التي تهدف إلى خلق الدراما والعظمة في النحت والرسم
|
43 |
+
والعمارة ، وعلى الرغم من كونها فنانًا من القرن السادس عشر تقنيًا ، إلا أن كارافاجيو
|
44 |
+
الإيطالي أثر بشكل كبير على الفن الباروكي. كانت لوحاته خروجًا واضحًا عن التقاليد
|
45 |
+
الفنية في Mannerism - - الشكل الفني السائد في القرن السادس عشر - مع استخدامه الدرامي
|
46 |
+
للضوء والظل وتصويره الواقعي للأشياء والأشخاص.
|
47 |
+
- الشكل هو أحد العناصر السبعة للفن وهي الأدوات المرئية التي يستخدمها الفنان لتأليف
|
48 |
+
عمل فني. بالإضافة إلى الشكل ، فهي تشمل الخط والشكل والقيمة واللون والملمس والفضاء.
|
49 |
+
كعنصر من عناصر الفن ، يشير الشكل إلى شيء ثلاثي الأبعاد ويحيط بالحجم ، الطول والعرض
|
50 |
+
والارتفاع ، مقابل الشكل ثنائي الأبعاد أو المسطح. الشكل هو شكل ثلاثي الأبعاد ،
|
51 |
+
ومثل الأشكال ، يمكن أن يكون هندسيًا أو عضويًا.
|
52 |
+
- source_sentence: تعريف وحدة حرارية بريطانية
|
53 |
+
sentences:
|
54 |
+
- وحدة حرارية بريطانية. الوحدة الحرارية البريطانية ، أو BTU ، هي وحدة طاقة. إنها
|
55 |
+
تقريبًا الطاقة اللازمة لتسخين رطل واحد من الماء بدرجة فهرنهايت واحدة. 1 وحدة حرارية
|
56 |
+
بريطانية = 1055 جول ، 252 سعرة حرارية ، 0.293 واط / ساعة أو الطاقة الناتجة عن
|
57 |
+
حرق عود ��قاب واحد. 1 واط تساوي حوالي 3.412 وحدة حرارية بريطانية في الساعة. غالبًا
|
58 |
+
ما يتم استخدام BTU كنقطة مرجعية لمقارنة أنواع الوقود المختلفة. على الرغم من أنها
|
59 |
+
سلع مادية ويتم قياسها وفقًا لذلك ، مثل الحجم أو البراميل ، يمكن تحويلها إلى وحدات
|
60 |
+
حرارية بريطانية اعتمادًا على ...
|
61 |
+
- وحدة حرارية بريطانية ، اختصار للوحدة الحرارية البريطانية ، هي مقياس أساسي للطاقة
|
62 |
+
الحرارية (الحرارية). وحدة حرارية بريطانية هي كمية الطاقة اللازمة لرفع درجة حرارة
|
63 |
+
رطل واحد (0.45 كجم) من الماء بمقدار 1 درجة فهرنهايت (0.55 درجة مئوية).
|
64 |
+
- قانون مساهمات التأمين الفيدرالي (FICA) FICA هو عمل للحكومة الفيدرالية يتطلب من
|
65 |
+
أصحاب العمل والموظفين دفع ضرائب لبرامج مزايا الضمان الاجتماعي والرعاية الطبية
|
66 |
+
وفقًا للأسعار التي تحددها الحكومة الفيدرالية.
|
67 |
+
- source_sentence: ما هو الغرض من المعجل الدائري
|
68 |
+
sentences:
|
69 |
+
- 'هناك نوعان أساسيان من مسرعات الجسيمات: المعجلات الخطية والمسرعات الدائرية. تدفع
|
70 |
+
المسرعات الخطية الجسيمات على طول خط شعاع خطي أو مستقيم. تدفع المسرعات الدائرية
|
71 |
+
الجسيمات حول مسار دائري.'
|
72 |
+
- مرحبا جميعا. جاكلين هوارد هنا. أنا ¢ Ã'ââ ؟؟ m 330 قدمًا تحت الأرض في مختبر Fermi
|
73 |
+
National Accelerator Laboratory في إلينوي. إنه المكان الذي يبحث فيه العلماء عن
|
74 |
+
أصغر اللبنات الأساسية لكل مادة ، والتي يمكن أن تعزز فهمنا لكل شيء نراه من حولنا
|
75 |
+
، وحتى أنفسنا.
|
76 |
+
- من المتوقع أن تساعد اللوائح في تعزيز الخدمات الصحية وتلبية احتياجات المرضى من
|
77 |
+
خلال تخفيف الازدحام وتقليل أعباء العمل ، خاصة في المناطق الريفية. غالبية NPs في
|
78 |
+
بريتش كولومبيا لديهم التعليم والكفاءات المطلوبة للقبول والتسريح ، ولكن لم يكن
|
79 |
+
لديهم القدرة التشريعية. كولومبيا البريطانية هي الولاية القضائية الثانية في كندا
|
80 |
+
التي لديها ممرضات ممرضات مؤهلات يقبلن ويخرجن المرضى من المستشفيات ، بعد أونتاريو.
|
81 |
+
تم تقديم الممرضات الممارسات إلى بريتش كولومبيا. في عام 2005 للمساعدة في تحسين
|
82 |
+
الوصول إلى خدمات الرعاية الصحية الأولية.
|
83 |
+
- source_sentence: هل يغطي العلاج الطبي (أ) أو (ب) تكلفة المعينات السمعية
|
84 |
+
sentences:
|
85 |
+
- يتم تعريف الإعاقة غير المرئية ، أو الإعاقة الخفية ، على أنها إعاقات لا تظهر على
|
86 |
+
الفور. قد لا يكون من الواضح أن بعض الأشخاص الذين يعانون من إعاقات بصرية أو سمعية
|
87 |
+
لا يرتدون نظارات أو أجهزة سمعية أو أجهزة سمعية سرية. قد يرتدي بعض الأشخاص الذين
|
88 |
+
يعانون من فقدان البصر العدسات اللاصقة.
|
89 |
+
- يغطي الجزء ب من برنامج Medicare (التأمين الطبي) فحوصات السمع والتوازن التشخيصية
|
90 |
+
إذا طلب طبيبك أو مقدم رعاية صحية آخر هذه الاختبارات لمعرفة ما إذا كنت بحاجة إلى
|
91 |
+
علاج طبي. لا يغطي برنامج Medicare فحوصات السمع الروتينية أو المعينات السمعية أو
|
92 |
+
اختبارات تركيب المعينات السمعية.
|
93 |
+
- '"أمثلة من Similes From The Odyssey. Homeric Similes ، المعروفة أيضًا باسم Epic
|
94 |
+
Similes ، هي مقارنات تفصيلية بين كائنين مختلفين باستخدام مثل أو مثل. غالبًا ما
|
95 |
+
نستخدم التشبيهات القصيرة في الكلام اليومي ، مثل المثال ، à¢Ã''€ÂŠ'' إنها صعبة
|
96 |
+
مثل المسامير. في الواقع ، نحن نستخدمها كثيرًا حتى يمكن أن تصبح مصطلحات. • الانتباه
|
97 |
+
بطرق غير متوقعة ، فكاهية ، مروعة أو بطولية. وهي أيضًا أطول من ذلك بكثير. فيما
|
98 |
+
يلي بعض الأمثلة المتشابهة لهوميري من أحد أشهر أعمال هوميروس: الأوديسة. استخدم
|
99 |
+
التشبيهات القصيرة في الكلام اليومي ، مثل المثال ، ""إنها صعبة مثل الأظافر."" حقيقة
|
100 |
+
، نحن نستخدمها كثيرًا بحيث يمكن أن تصبح مصطلحات. ومع ذلك ، يتم استخدام Homeric
|
101 |
+
Simile لإعادة توجيه انتباه القارئ بطرق غير متوقعة أو روح الدعابة أو مروعة أو بطولية."'
|
102 |
+
---
|
103 |
+
|
104 |
+
# BERT base trained on 500k Arabic NLI triplets
|
105 |
+
|
106 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [aubmindlab/bert-base-arabertv02](https://huggingface.co/aubmindlab/bert-base-arabertv02). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
107 |
+
|
108 |
+
## Model Details
|
109 |
+
|
110 |
+
### Model Description
|
111 |
+
- **Model Type:** Sentence Transformer
|
112 |
+
- **Base model:** [aubmindlab/bert-base-arabertv02](https://huggingface.co/aubmindlab/bert-base-arabertv02) <!-- at revision 016fb9d6768f522a59c6e0d2d5d5d43a4e1bff60 -->
|
113 |
+
- **Maximum Sequence Length:** 512 tokens
|
114 |
+
- **Output Dimensionality:** 768 tokens
|
115 |
+
- **Similarity Function:** Cosine Similarity
|
116 |
+
<!-- - **Training Dataset:** Unknown -->
|
117 |
+
- **Language:** ar
|
118 |
+
- **License:** apache-2.0
|
119 |
+
|
120 |
+
### Model Sources
|
121 |
+
|
122 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
123 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
124 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
125 |
+
|
126 |
+
### Full Model Architecture
|
127 |
+
|
128 |
+
```
|
129 |
+
SentenceTransformer(
|
130 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
|
131 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
132 |
+
)
|
133 |
+
```
|
134 |
+
|
135 |
+
## Usage
|
136 |
+
|
137 |
+
### Direct Usage (Sentence Transformers)
|
138 |
+
|
139 |
+
First install the Sentence Transformers library:
|
140 |
+
|
141 |
+
```bash
|
142 |
+
pip install -U sentence-transformers
|
143 |
+
```
|
144 |
+
|
145 |
+
Then you can load this model and run inference.
|
146 |
+
```python
|
147 |
+
from sentence_transformers import SentenceTransformer
|
148 |
+
|
149 |
+
# Download from the 🤗 Hub
|
150 |
+
model = SentenceTransformer("sentence_transformers_model_id")
|
151 |
+
# Run inference
|
152 |
+
sentences = [
|
153 |
+
'هل يغطي العلاج الطبي (أ) أو (ب) تكلفة المعينات السمعية',
|
154 |
+
'يغطي الجزء ب من برنامج Medicare (التأمين الطبي) فحوصات السمع والتوازن التشخيصية إذا طلب طبيبك أو مقدم رعاية صحية آخر هذه الاختبارات لمعرفة ما إذا كنت بحاجة إلى علاج طبي. لا يغطي برنامج Medicare فحوصات السمع الروتينية أو المعينات السمعية أو اختبارات تركيب المعينات السمعية.',
|
155 |
+
'يتم تعريف الإعاقة غير المرئية ، أو الإعاقة الخفية ، على أنها إعاقات لا تظهر على الفور. قد لا يكون من الواضح أن بعض الأشخاص الذين يعانون من إعاقات بصرية أو سمعية لا يرتدون نظارات أو أجهزة سمعية أو أجهزة سمعية سرية. قد يرتدي بعض الأشخاص الذين يعانون من فقدان البصر العدسات اللاصقة.',
|
156 |
+
]
|
157 |
+
embeddings = model.encode(sentences)
|
158 |
+
print(embeddings.shape)
|
159 |
+
# [3, 768]
|
160 |
+
|
161 |
+
# Get the similarity scores for the embeddings
|
162 |
+
similarities = model.similarity(embeddings, embeddings)
|
163 |
+
print(similarities.shape)
|
164 |
+
# [3, 3]
|
165 |
+
```
|
166 |
+
|
167 |
+
<!--
|
168 |
+
### Direct Usage (Transformers)
|
169 |
+
|
170 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
171 |
+
|
172 |
+
</details>
|
173 |
+
-->
|
174 |
+
|
175 |
+
<!--
|
176 |
+
### Downstream Usage (Sentence Transformers)
|
177 |
+
|
178 |
+
You can finetune this model on your own dataset.
|
179 |
+
|
180 |
+
<details><summary>Click to expand</summary>
|
181 |
+
|
182 |
+
</details>
|
183 |
+
-->
|
184 |
+
|
185 |
+
<!--
|
186 |
+
### Out-of-Scope Use
|
187 |
+
|
188 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
189 |
+
-->
|
190 |
+
|
191 |
+
<!--
|
192 |
+
## Bias, Risks and Limitations
|
193 |
+
|
194 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
195 |
+
-->
|
196 |
+
|
197 |
+
<!--
|
198 |
+
### Recommendations
|
199 |
+
|
200 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
201 |
+
-->
|
202 |
+
|
203 |
+
## Training Details
|
204 |
+
|
205 |
+
### Training Hyperparameters
|
206 |
+
#### Non-Default Hyperparameters
|
207 |
+
|
208 |
+
- `eval_strategy`: steps
|
209 |
+
- `per_device_train_batch_size`: 16
|
210 |
+
- `per_device_eval_batch_size`: 16
|
211 |
+
- `learning_rate`: 2e-05
|
212 |
+
- `num_train_epochs`: 1
|
213 |
+
- `warmup_ratio`: 0.1
|
214 |
+
- `fp16`: True
|
215 |
+
- `batch_sampler`: no_duplicates
|
216 |
+
|
217 |
+
#### All Hyperparameters
|
218 |
+
<details><summary>Click to expand</summary>
|
219 |
+
|
220 |
+
- `overwrite_output_dir`: False
|
221 |
+
- `do_predict`: False
|
222 |
+
- `eval_strategy`: steps
|
223 |
+
- `prediction_loss_only`: True
|
224 |
+
- `per_device_train_batch_size`: 16
|
225 |
+
- `per_device_eval_batch_size`: 16
|
226 |
+
- `per_gpu_train_batch_size`: None
|
227 |
+
- `per_gpu_eval_batch_size`: None
|
228 |
+
- `gradient_accumulation_steps`: 1
|
229 |
+
- `eval_accumulation_steps`: None
|
230 |
+
- `torch_empty_cache_steps`: None
|
231 |
+
- `learning_rate`: 2e-05
|
232 |
+
- `weight_decay`: 0.0
|
233 |
+
- `adam_beta1`: 0.9
|
234 |
+
- `adam_beta2`: 0.999
|
235 |
+
- `adam_epsilon`: 1e-08
|
236 |
+
- `max_grad_norm`: 1.0
|
237 |
+
- `num_train_epochs`: 1
|
238 |
+
- `max_steps`: -1
|
239 |
+
- `lr_scheduler_type`: linear
|
240 |
+
- `lr_scheduler_kwargs`: {}
|
241 |
+
- `warmup_ratio`: 0.1
|
242 |
+
- `warmup_steps`: 0
|
243 |
+
- `log_level`: passive
|
244 |
+
- `log_level_replica`: warning
|
245 |
+
- `log_on_each_node`: True
|
246 |
+
- `logging_nan_inf_filter`: True
|
247 |
+
- `save_safetensors`: True
|
248 |
+
- `save_on_each_node`: False
|
249 |
+
- `save_only_model`: False
|
250 |
+
- `restore_callback_states_from_checkpoint`: False
|
251 |
+
- `no_cuda`: False
|
252 |
+
- `use_cpu`: False
|
253 |
+
- `use_mps_device`: False
|
254 |
+
- `seed`: 42
|
255 |
+
- `data_seed`: None
|
256 |
+
- `jit_mode_eval`: False
|
257 |
+
- `use_ipex`: False
|
258 |
+
- `bf16`: False
|
259 |
+
- `fp16`: True
|
260 |
+
- `fp16_opt_level`: O1
|
261 |
+
- `half_precision_backend`: auto
|
262 |
+
- `bf16_full_eval`: False
|
263 |
+
- `fp16_full_eval`: False
|
264 |
+
- `tf32`: None
|
265 |
+
- `local_rank`: 0
|
266 |
+
- `ddp_backend`: None
|
267 |
+
- `tpu_num_cores`: None
|
268 |
+
- `tpu_metrics_debug`: False
|
269 |
+
- `debug`: []
|
270 |
+
- `dataloader_drop_last`: False
|
271 |
+
- `dataloader_num_workers`: 0
|
272 |
+
- `dataloader_prefetch_factor`: None
|
273 |
+
- `past_index`: -1
|
274 |
+
- `disable_tqdm`: False
|
275 |
+
- `remove_unused_columns`: True
|
276 |
+
- `label_names`: None
|
277 |
+
- `load_best_model_at_end`: False
|
278 |
+
- `ignore_data_skip`: False
|
279 |
+
- `fsdp`: []
|
280 |
+
- `fsdp_min_num_params`: 0
|
281 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
282 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
283 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
284 |
+
- `deepspeed`: None
|
285 |
+
- `label_smoothing_factor`: 0.0
|
286 |
+
- `optim`: adamw_torch
|
287 |
+
- `optim_args`: None
|
288 |
+
- `adafactor`: False
|
289 |
+
- `group_by_length`: False
|
290 |
+
- `length_column_name`: length
|
291 |
+
- `ddp_find_unused_parameters`: None
|
292 |
+
- `ddp_bucket_cap_mb`: None
|
293 |
+
- `ddp_broadcast_buffers`: False
|
294 |
+
- `dataloader_pin_memory`: True
|
295 |
+
- `dataloader_persistent_workers`: False
|
296 |
+
- `skip_memory_metrics`: True
|
297 |
+
- `use_legacy_prediction_loop`: False
|
298 |
+
- `push_to_hub`: False
|
299 |
+
- `resume_from_checkpoint`: None
|
300 |
+
- `hub_model_id`: None
|
301 |
+
- `hub_strategy`: every_save
|
302 |
+
- `hub_private_repo`: False
|
303 |
+
- `hub_always_push`: False
|
304 |
+
- `gradient_checkpointing`: False
|
305 |
+
- `gradient_checkpointing_kwargs`: None
|
306 |
+
- `include_inputs_for_metrics`: False
|
307 |
+
- `eval_do_concat_batches`: True
|
308 |
+
- `fp16_backend`: auto
|
309 |
+
- `push_to_hub_model_id`: None
|
310 |
+
- `push_to_hub_organization`: None
|
311 |
+
- `mp_parameters`:
|
312 |
+
- `auto_find_batch_size`: False
|
313 |
+
- `full_determinism`: False
|
314 |
+
- `torchdynamo`: None
|
315 |
+
- `ray_scope`: last
|
316 |
+
- `ddp_timeout`: 1800
|
317 |
+
- `torch_compile`: False
|
318 |
+
- `torch_compile_backend`: None
|
319 |
+
- `torch_compile_mode`: None
|
320 |
+
- `dispatch_batches`: None
|
321 |
+
- `split_batches`: None
|
322 |
+
- `include_tokens_per_second`: False
|
323 |
+
- `include_num_input_tokens_seen`: False
|
324 |
+
- `neftune_noise_alpha`: None
|
325 |
+
- `optim_target_modules`: None
|
326 |
+
- `batch_eval_metrics`: False
|
327 |
+
- `eval_on_start`: False
|
328 |
+
- `eval_use_gather_object`: False
|
329 |
+
- `batch_sampler`: no_duplicates
|
330 |
+
- `multi_dataset_batch_sampler`: proportional
|
331 |
+
|
332 |
+
</details>
|
333 |
+
|
334 |
+
### Training Logs
|
335 |
+
<details><summary>Click to expand</summary>
|
336 |
+
|
337 |
+
| Epoch | Step | Training Loss | loss |
|
338 |
+
|:------:|:-----:|:-------------:|:------:|
|
339 |
+
| 0.0032 | 100 | 4.5441 | - |
|
340 |
+
| 0.0064 | 200 | 3.7811 | - |
|
341 |
+
| 0.0096 | 300 | 3.0045 | - |
|
342 |
+
| 0.0128 | 400 | 2.3688 | - |
|
343 |
+
| 0.016 | 500 | 2.0872 | - |
|
344 |
+
| 0.0192 | 600 | 1.7032 | - |
|
345 |
+
| 0.0224 | 700 | 1.3272 | - |
|
346 |
+
| 0.0256 | 800 | 1.4802 | - |
|
347 |
+
| 0.0288 | 900 | 1.3168 | - |
|
348 |
+
| 0.032 | 1000 | 1.2066 | - |
|
349 |
+
| 0.0352 | 1100 | 1.0177 | - |
|
350 |
+
| 0.0384 | 1200 | 1.1351 | - |
|
351 |
+
| 0.0416 | 1300 | 1.113 | - |
|
352 |
+
| 0.0448 | 1400 | 1.0942 | - |
|
353 |
+
| 0.048 | 1500 | 0.9924 | - |
|
354 |
+
| 0.0512 | 1600 | 1.0132 | - |
|
355 |
+
| 0.0544 | 1700 | 0.8718 | - |
|
356 |
+
| 0.0576 | 1800 | 0.9367 | - |
|
357 |
+
| 0.0608 | 1900 | 0.9507 | - |
|
358 |
+
| 0.064 | 2000 | 0.8332 | - |
|
359 |
+
| 0.0672 | 2100 | 0.8204 | - |
|
360 |
+
| 0.0704 | 2200 | 0.8115 | - |
|
361 |
+
| 0.0736 | 2300 | 0.7847 | - |
|
362 |
+
| 0.0768 | 2400 | 0.8075 | - |
|
363 |
+
| 0.08 | 2500 | 0.7763 | - |
|
364 |
+
| 0.0832 | 2600 | 0.795 | - |
|
365 |
+
| 0.0864 | 2700 | 0.7992 | - |
|
366 |
+
| 0.0896 | 2800 | 0.6968 | - |
|
367 |
+
| 0.0928 | 2900 | 0.7747 | - |
|
368 |
+
| 0.096 | 3000 | 0.7388 | - |
|
369 |
+
| 0.0992 | 3100 | 0.7452 | - |
|
370 |
+
| 0.1024 | 3200 | 0.7636 | - |
|
371 |
+
| 0.1056 | 3300 | 0.7317 | - |
|
372 |
+
| 0.1088 | 3400 | 0.6955 | - |
|
373 |
+
| 0.112 | 3500 | 0.618 | - |
|
374 |
+
| 0.1152 | 3600 | 0.6321 | - |
|
375 |
+
| 0.1184 | 3700 | 0.72 | - |
|
376 |
+
| 0.1216 | 3800 | 0.6134 | - |
|
377 |
+
| 0.1248 | 3900 | 0.6527 | - |
|
378 |
+
| 0.128 | 4000 | 0.6359 | - |
|
379 |
+
| 0.1312 | 4100 | 0.6293 | - |
|
380 |
+
| 0.1344 | 4200 | 0.7077 | - |
|
381 |
+
| 0.1376 | 4300 | 0.6344 | - |
|
382 |
+
| 0.1408 | 4400 | 0.7153 | - |
|
383 |
+
| 0.144 | 4500 | 0.5617 | - |
|
384 |
+
| 0.1472 | 4600 | 0.5975 | - |
|
385 |
+
| 0.1504 | 4700 | 0.6195 | - |
|
386 |
+
| 0.1536 | 4800 | 0.6643 | - |
|
387 |
+
| 0.1568 | 4900 | 0.5301 | - |
|
388 |
+
| 0.16 | 5000 | 0.6004 | 0.5724 |
|
389 |
+
| 0.1632 | 5100 | 0.5675 | - |
|
390 |
+
| 0.1664 | 5200 | 0.6142 | - |
|
391 |
+
| 0.1696 | 5300 | 0.6126 | - |
|
392 |
+
| 0.1728 | 5400 | 0.5825 | - |
|
393 |
+
| 0.176 | 5500 | 0.5813 | - |
|
394 |
+
| 0.1792 | 5600 | 0.5297 | - |
|
395 |
+
| 0.1824 | 5700 | 0.5582 | - |
|
396 |
+
| 0.1856 | 5800 | 0.4837 | - |
|
397 |
+
| 0.1888 | 5900 | 0.6209 | - |
|
398 |
+
| 0.192 | 6000 | 0.5778 | - |
|
399 |
+
| 0.1952 | 6100 | 0.5522 | - |
|
400 |
+
| 0.1984 | 6200 | 0.5854 | - |
|
401 |
+
| 0.2016 | 6300 | 0.6199 | - |
|
402 |
+
| 0.2048 | 6400 | 0.5157 | - |
|
403 |
+
| 0.208 | 6500 | 0.5153 | - |
|
404 |
+
| 0.2112 | 6600 | 0.5249 | - |
|
405 |
+
| 0.2144 | 6700 | 0.5053 | - |
|
406 |
+
| 0.2176 | 6800 | 0.5894 | - |
|
407 |
+
| 0.2208 | 6900 | 0.5541 | - |
|
408 |
+
| 0.224 | 7000 | 0.4542 | - |
|
409 |
+
| 0.2272 | 7100 | 0.5183 | - |
|
410 |
+
| 0.2304 | 7200 | 0.6235 | - |
|
411 |
+
| 0.2336 | 7300 | 0.5005 | - |
|
412 |
+
| 0.2368 | 7400 | 0.5946 | - |
|
413 |
+
| 0.24 | 7500 | 0.5288 | - |
|
414 |
+
| 0.2432 | 7600 | 0.5249 | - |
|
415 |
+
| 0.2464 | 7700 | 0.5884 | - |
|
416 |
+
| 0.2496 | 7800 | 0.5656 | - |
|
417 |
+
| 0.2528 | 7900 | 0.4746 | - |
|
418 |
+
| 0.256 | 8000 | 0.5057 | - |
|
419 |
+
| 0.2592 | 8100 | 0.4832 | - |
|
420 |
+
| 0.2624 | 8200 | 0.508 | - |
|
421 |
+
| 0.2656 | 8300 | 0.5462 | - |
|
422 |
+
| 0.2688 | 8400 | 0.4673 | - |
|
423 |
+
| 0.272 | 8500 | 0.5126 | - |
|
424 |
+
| 0.2752 | 8600 | 0.5257 | - |
|
425 |
+
| 0.2784 | 8700 | 0.4994 | - |
|
426 |
+
| 0.2816 | 8800 | 0.5081 | - |
|
427 |
+
| 0.2848 | 8900 | 0.5148 | - |
|
428 |
+
| 0.288 | 9000 | 0.4887 | - |
|
429 |
+
| 0.2912 | 9100 | 0.4843 | - |
|
430 |
+
| 0.2944 | 9200 | 0.4671 | - |
|
431 |
+
| 0.2976 | 9300 | 0.5234 | - |
|
432 |
+
| 0.3008 | 9400 | 0.5028 | - |
|
433 |
+
| 0.304 | 9500 | 0.527 | - |
|
434 |
+
| 0.3072 | 9600 | 0.4727 | - |
|
435 |
+
| 0.3104 | 9700 | 0.472 | - |
|
436 |
+
| 0.3136 | 9800 | 0.5004 | - |
|
437 |
+
| 0.3168 | 9900 | 0.4835 | - |
|
438 |
+
| 0.32 | 10000 | 0.4233 | 0.4415 |
|
439 |
+
| 0.3232 | 10100 | 0.4619 | - |
|
440 |
+
| 0.3264 | 10200 | 0.4404 | - |
|
441 |
+
| 0.3296 | 10300 | 0.4706 | - |
|
442 |
+
| 0.3328 | 10400 | 0.481 | - |
|
443 |
+
| 0.336 | 10500 | 0.4546 | - |
|
444 |
+
| 0.3392 | 10600 | 0.4369 | - |
|
445 |
+
| 0.3424 | 10700 | 0.4431 | - |
|
446 |
+
| 0.3456 | 10800 | 0.5086 | - |
|
447 |
+
| 0.3488 | 10900 | 0.4436 | - |
|
448 |
+
| 0.352 | 11000 | 0.4651 | - |
|
449 |
+
| 0.3552 | 11100 | 0.4281 | - |
|
450 |
+
| 0.3584 | 11200 | 0.487 | - |
|
451 |
+
| 0.3616 | 11300 | 0.5097 | - |
|
452 |
+
| 0.3648 | 11400 | 0.4658 | - |
|
453 |
+
| 0.368 | 11500 | 0.3955 | - |
|
454 |
+
| 0.3712 | 11600 | 0.4575 | - |
|
455 |
+
| 0.3744 | 11700 | 0.4383 | - |
|
456 |
+
| 0.3776 | 11800 | 0.456 | - |
|
457 |
+
| 0.3808 | 11900 | 0.4728 | - |
|
458 |
+
| 0.384 | 12000 | 0.4027 | - |
|
459 |
+
| 0.3872 | 12100 | 0.51 | - |
|
460 |
+
| 0.3904 | 12200 | 0.4521 | - |
|
461 |
+
| 0.3936 | 12300 | 0.433 | - |
|
462 |
+
| 0.3968 | 12400 | 0.4233 | - |
|
463 |
+
| 0.4 | 12500 | 0.5328 | - |
|
464 |
+
| 0.4032 | 12600 | 0.4671 | - |
|
465 |
+
| 0.4064 | 12700 | 0.4673 | - |
|
466 |
+
| 0.4096 | 12800 | 0.4387 | - |
|
467 |
+
| 0.4128 | 12900 | 0.4661 | - |
|
468 |
+
| 0.416 | 13000 | 0.4499 | - |
|
469 |
+
| 0.4192 | 13100 | 0.4379 | - |
|
470 |
+
| 0.4224 | 13200 | 0.438 | - |
|
471 |
+
| 0.4256 | 13300 | 0.4037 | - |
|
472 |
+
| 0.4288 | 13400 | 0.4679 | - |
|
473 |
+
| 0.432 | 13500 | 0.4373 | - |
|
474 |
+
| 0.4352 | 13600 | 0.3899 | - |
|
475 |
+
| 0.4384 | 13700 | 0.4288 | - |
|
476 |
+
| 0.4416 | 13800 | 0.4388 | - |
|
477 |
+
| 0.4448 | 13900 | 0.4482 | - |
|
478 |
+
| 0.448 | 14000 | 0.3733 | - |
|
479 |
+
| 0.4512 | 14100 | 0.4127 | - |
|
480 |
+
| 0.4544 | 14200 | 0.3715 | - |
|
481 |
+
| 0.4576 | 14300 | 0.4738 | - |
|
482 |
+
| 0.4608 | 14400 | 0.4168 | - |
|
483 |
+
| 0.464 | 14500 | 0.4323 | - |
|
484 |
+
| 0.4672 | 14600 | 0.4472 | - |
|
485 |
+
| 0.4704 | 14700 | 0.4264 | - |
|
486 |
+
| 0.4736 | 14800 | 0.4593 | - |
|
487 |
+
| 0.4768 | 14900 | 0.4702 | - |
|
488 |
+
| 0.48 | 15000 | 0.5111 | 0.3809 |
|
489 |
+
| 0.4832 | 15100 | 0.4558 | - |
|
490 |
+
| 0.4864 | 15200 | 0.4334 | - |
|
491 |
+
| 0.4896 | 15300 | 0.4352 | - |
|
492 |
+
| 0.4928 | 15400 | 0.412 | - |
|
493 |
+
| 0.496 | 15500 | 0.4105 | - |
|
494 |
+
| 0.4992 | 15600 | 0.4489 | - |
|
495 |
+
| 0.5024 | 15700 | 0.4335 | - |
|
496 |
+
| 0.5056 | 15800 | 0.4561 | - |
|
497 |
+
| 0.5088 | 15900 | 0.4023 | - |
|
498 |
+
| 0.512 | 16000 | 0.4175 | - |
|
499 |
+
| 0.5152 | 16100 | 0.4041 | - |
|
500 |
+
| 0.5184 | 16200 | 0.3707 | - |
|
501 |
+
| 0.5216 | 16300 | 0.4348 | - |
|
502 |
+
| 0.5248 | 16400 | 0.5013 | - |
|
503 |
+
| 0.528 | 16500 | 0.4745 | - |
|
504 |
+
| 0.5312 | 16600 | 0.3618 | - |
|
505 |
+
| 0.5344 | 16700 | 0.3334 | - |
|
506 |
+
| 0.5376 | 16800 | 0.4493 | - |
|
507 |
+
| 0.5408 | 16900 | 0.3965 | - |
|
508 |
+
| 0.544 | 17000 | 0.3775 | - |
|
509 |
+
| 0.5472 | 17100 | 0.4476 | - |
|
510 |
+
| 0.5504 | 17200 | 0.3626 | - |
|
511 |
+
| 0.5536 | 17300 | 0.3892 | - |
|
512 |
+
| 0.5568 | 17400 | 0.4296 | - |
|
513 |
+
| 0.56 | 17500 | 0.4048 | - |
|
514 |
+
| 0.5632 | 17600 | 0.3933 | - |
|
515 |
+
| 0.5664 | 17700 | 0.3831 | - |
|
516 |
+
| 0.5696 | 17800 | 0.413 | - |
|
517 |
+
| 0.5728 | 17900 | 0.4691 | - |
|
518 |
+
| 0.576 | 18000 | 0.3932 | - |
|
519 |
+
| 0.5792 | 18100 | 0.3794 | - |
|
520 |
+
| 0.5824 | 18200 | 0.4369 | - |
|
521 |
+
| 0.5856 | 18300 | 0.3538 | - |
|
522 |
+
| 0.5888 | 18400 | 0.3838 | - |
|
523 |
+
| 0.592 | 18500 | 0.4549 | - |
|
524 |
+
| 0.5952 | 18600 | 0.3524 | - |
|
525 |
+
| 0.5984 | 18700 | 0.3645 | - |
|
526 |
+
| 0.6016 | 18800 | 0.3574 | - |
|
527 |
+
| 0.6048 | 18900 | 0.4043 | - |
|
528 |
+
| 0.608 | 19000 | 0.4237 | - |
|
529 |
+
| 0.6112 | 19100 | 0.3954 | - |
|
530 |
+
| 0.6144 | 19200 | 0.4416 | - |
|
531 |
+
| 0.6176 | 19300 | 0.3497 | - |
|
532 |
+
| 0.6208 | 19400 | 0.3876 | - |
|
533 |
+
| 0.624 | 19500 | 0.4796 | - |
|
534 |
+
| 0.6272 | 19600 | 0.3652 | - |
|
535 |
+
| 0.6304 | 19700 | 0.3674 | - |
|
536 |
+
| 0.6336 | 19800 | 0.3957 | - |
|
537 |
+
| 0.6368 | 19900 | 0.3798 | - |
|
538 |
+
| 0.64 | 20000 | 0.3862 | 0.3410 |
|
539 |
+
| 0.6432 | 20100 | 0.3603 | - |
|
540 |
+
| 0.6464 | 20200 | 0.3934 | - |
|
541 |
+
| 0.6496 | 20300 | 0.4268 | - |
|
542 |
+
| 0.6528 | 20400 | 0.4032 | - |
|
543 |
+
| 0.656 | 20500 | 0.432 | - |
|
544 |
+
| 0.6592 | 20600 | 0.4231 | - |
|
545 |
+
| 0.6624 | 20700 | 0.34 | - |
|
546 |
+
| 0.6656 | 20800 | 0.3865 | - |
|
547 |
+
| 0.6688 | 20900 | 0.3877 | - |
|
548 |
+
| 0.672 | 21000 | 0.3416 | - |
|
549 |
+
| 0.6752 | 21100 | 0.3774 | - |
|
550 |
+
| 0.6784 | 21200 | 0.3859 | - |
|
551 |
+
| 0.6816 | 21300 | 0.4284 | - |
|
552 |
+
| 0.6848 | 21400 | 0.4059 | - |
|
553 |
+
| 0.688 | 21500 | 0.3968 | - |
|
554 |
+
| 0.6912 | 21600 | 0.3213 | - |
|
555 |
+
| 0.6944 | 21700 | 0.3995 | - |
|
556 |
+
| 0.6976 | 21800 | 0.3936 | - |
|
557 |
+
| 0.7008 | 21900 | 0.4261 | - |
|
558 |
+
| 0.704 | 22000 | 0.3689 | - |
|
559 |
+
| 0.7072 | 22100 | 0.403 | - |
|
560 |
+
| 0.7104 | 22200 | 0.3405 | - |
|
561 |
+
| 0.7136 | 22300 | 0.3736 | - |
|
562 |
+
| 0.7168 | 22400 | 0.3704 | - |
|
563 |
+
| 0.72 | 22500 | 0.4128 | - |
|
564 |
+
| 0.7232 | 22600 | 0.3856 | - |
|
565 |
+
| 0.7264 | 22700 | 0.3509 | - |
|
566 |
+
| 0.7296 | 22800 | 0.3937 | - |
|
567 |
+
| 0.7328 | 22900 | 0.3195 | - |
|
568 |
+
| 0.736 | 23000 | 0.3048 | - |
|
569 |
+
| 0.7392 | 23100 | 0.3909 | - |
|
570 |
+
| 0.7424 | 23200 | 0.3446 | - |
|
571 |
+
| 0.7456 | 23300 | 0.3051 | - |
|
572 |
+
| 0.7488 | 23400 | 0.4251 | - |
|
573 |
+
| 0.752 | 23500 | 0.3653 | - |
|
574 |
+
| 0.7552 | 23600 | 0.3629 | - |
|
575 |
+
| 0.7584 | 23700 | 0.3462 | - |
|
576 |
+
| 0.7616 | 23800 | 0.3623 | - |
|
577 |
+
| 0.7648 | 23900 | 0.3816 | - |
|
578 |
+
| 0.768 | 24000 | 0.3861 | - |
|
579 |
+
| 0.7712 | 24100 | 0.4037 | - |
|
580 |
+
| 0.7744 | 24200 | 0.4009 | - |
|
581 |
+
| 0.7776 | 24300 | 0.3985 | - |
|
582 |
+
| 0.7808 | 24400 | 0.3682 | - |
|
583 |
+
| 0.784 | 24500 | 0.3544 | - |
|
584 |
+
| 0.7872 | 24600 | 0.3623 | - |
|
585 |
+
| 0.7904 | 24700 | 0.4221 | - |
|
586 |
+
| 0.7936 | 24800 | 0.4016 | - |
|
587 |
+
| 0.7968 | 24900 | 0.3713 | - |
|
588 |
+
| 0.8 | 25000 | 0.3749 | 0.3171 |
|
589 |
+
| 0.8032 | 25100 | 0.3561 | - |
|
590 |
+
| 0.8064 | 25200 | 0.3136 | - |
|
591 |
+
| 0.8096 | 25300 | 0.422 | - |
|
592 |
+
| 0.8128 | 25400 | 0.3248 | - |
|
593 |
+
| 0.816 | 25500 | 0.3054 | - |
|
594 |
+
| 0.8192 | 25600 | 0.3646 | - |
|
595 |
+
| 0.8224 | 25700 | 0.3846 | - |
|
596 |
+
| 0.8256 | 25800 | 0.3679 | - |
|
597 |
+
| 0.8288 | 25900 | 0.3224 | - |
|
598 |
+
| 0.832 | 26000 | 0.3422 | - |
|
599 |
+
| 0.8352 | 26100 | 0.3401 | - |
|
600 |
+
| 0.8384 | 26200 | 0.3546 | - |
|
601 |
+
| 0.8416 | 26300 | 0.3626 | - |
|
602 |
+
| 0.8448 | 26400 | 0.3567 | - |
|
603 |
+
| 0.848 | 26500 | 0.3375 | - |
|
604 |
+
| 0.8512 | 26600 | 0.361 | - |
|
605 |
+
| 0.8544 | 26700 | 0.3525 | - |
|
606 |
+
| 0.8576 | 26800 | 0.3264 | - |
|
607 |
+
| 0.8608 | 26900 | 0.3663 | - |
|
608 |
+
| 0.864 | 27000 | 0.3662 | - |
|
609 |
+
| 0.8672 | 27100 | 0.3852 | - |
|
610 |
+
| 0.8704 | 27200 | 0.3932 | - |
|
611 |
+
| 0.8736 | 27300 | 0.3092 | - |
|
612 |
+
| 0.8768 | 27400 | 0.3259 | - |
|
613 |
+
| 0.88 | 27500 | 0.3676 | - |
|
614 |
+
| 0.8832 | 27600 | 0.3636 | - |
|
615 |
+
| 0.8864 | 27700 | 0.34 | - |
|
616 |
+
| 0.8896 | 27800 | 0.417 | - |
|
617 |
+
| 0.8928 | 27900 | 0.3417 | - |
|
618 |
+
| 0.896 | 28000 | 0.2964 | - |
|
619 |
+
| 0.8992 | 28100 | 0.3654 | - |
|
620 |
+
| 0.9024 | 28200 | 0.3434 | - |
|
621 |
+
| 0.9056 | 28300 | 0.308 | - |
|
622 |
+
| 0.9088 | 28400 | 0.3453 | - |
|
623 |
+
| 0.912 | 28500 | 0.3325 | - |
|
624 |
+
| 0.9152 | 28600 | 0.3709 | - |
|
625 |
+
| 0.9184 | 28700 | 0.3526 | - |
|
626 |
+
| 0.9216 | 28800 | 0.3644 | - |
|
627 |
+
| 0.9248 | 28900 | 0.315 | - |
|
628 |
+
| 0.928 | 29000 | 0.3538 | - |
|
629 |
+
| 0.9312 | 29100 | 0.3551 | - |
|
630 |
+
| 0.9344 | 29200 | 0.3523 | - |
|
631 |
+
| 0.9376 | 29300 | 0.3401 | - |
|
632 |
+
| 0.9408 | 29400 | 0.3935 | - |
|
633 |
+
| 0.944 | 29500 | 0.3787 | - |
|
634 |
+
| 0.9472 | 29600 | 0.3352 | - |
|
635 |
+
| 0.9504 | 29700 | 0.3143 | - |
|
636 |
+
| 0.9536 | 29800 | 0.3983 | - |
|
637 |
+
| 0.9568 | 29900 | 0.3086 | - |
|
638 |
+
| 0.96 | 30000 | 0.3317 | 0.3043 |
|
639 |
+
| 0.9632 | 30100 | 0.3117 | - |
|
640 |
+
| 0.9664 | 30200 | 0.3562 | - |
|
641 |
+
| 0.9696 | 30300 | 0.372 | - |
|
642 |
+
| 0.9728 | 30400 | 0.3217 | - |
|
643 |
+
| 0.976 | 30500 | 0.3232 | - |
|
644 |
+
| 0.9792 | 30600 | 0.3881 | - |
|
645 |
+
| 0.9824 | 30700 | 0.321 | - |
|
646 |
+
| 0.9856 | 30800 | 0.3582 | - |
|
647 |
+
| 0.9888 | 30900 | 0.3284 | - |
|
648 |
+
| 0.992 | 31000 | 0.3274 | - |
|
649 |
+
| 0.9952 | 31100 | 0.3201 | - |
|
650 |
+
| 0.9984 | 31200 | 0.373 | - |
|
651 |
+
|
652 |
+
</details>
|
653 |
+
|
654 |
+
### Framework Versions
|
655 |
+
- Python: 3.10.12
|
656 |
+
- Sentence Transformers: 3.1.1
|
657 |
+
- Transformers: 4.44.2
|
658 |
+
- PyTorch: 2.4.1+cu121
|
659 |
+
- Accelerate: 0.34.2
|
660 |
+
- Datasets: 3.0.1
|
661 |
+
- Tokenizers: 0.19.1
|
662 |
+
|
663 |
+
## Citation
|
664 |
+
|
665 |
+
### BibTeX
|
666 |
+
|
667 |
+
#### Sentence Transformers
|
668 |
+
```bibtex
|
669 |
+
@inproceedings{reimers-2019-sentence-bert,
|
670 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
671 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
672 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
673 |
+
month = "11",
|
674 |
+
year = "2019",
|
675 |
+
publisher = "Association for Computational Linguistics",
|
676 |
+
url = "https://arxiv.org/abs/1908.10084",
|
677 |
+
}
|
678 |
+
```
|
679 |
+
|
680 |
+
#### Matryoshka2dLoss
|
681 |
+
```bibtex
|
682 |
+
@misc{li20242d,
|
683 |
+
title={2D Matryoshka Sentence Embeddings},
|
684 |
+
author={Xianming Li and Zongxi Li and Jing Li and Haoran Xie and Qing Li},
|
685 |
+
year={2024},
|
686 |
+
eprint={2402.14776},
|
687 |
+
archivePrefix={arXiv},
|
688 |
+
primaryClass={cs.CL}
|
689 |
+
}
|
690 |
+
```
|
691 |
+
|
692 |
+
#### MatryoshkaLoss
|
693 |
+
```bibtex
|
694 |
+
@misc{kusupati2024matryoshka,
|
695 |
+
title={Matryoshka Representation Learning},
|
696 |
+
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
|
697 |
+
year={2024},
|
698 |
+
eprint={2205.13147},
|
699 |
+
archivePrefix={arXiv},
|
700 |
+
primaryClass={cs.LG}
|
701 |
+
}
|
702 |
+
```
|
703 |
+
|
704 |
+
#### MultipleNegativesRankingLoss
|
705 |
+
```bibtex
|
706 |
+
@misc{henderson2017efficient,
|
707 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
708 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
709 |
+
year={2017},
|
710 |
+
eprint={1705.00652},
|
711 |
+
archivePrefix={arXiv},
|
712 |
+
primaryClass={cs.CL}
|
713 |
+
}
|
714 |
+
```
|
715 |
+
|
716 |
+
<!--
|
717 |
+
## Glossary
|
718 |
+
|
719 |
+
*Clearly define terms in order to be accessible across audiences.*
|
720 |
+
-->
|
721 |
+
|
722 |
+
<!--
|
723 |
+
## Model Card Authors
|
724 |
+
|
725 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
726 |
+
-->
|
727 |
+
|
728 |
+
<!--
|
729 |
+
## Model Card Contact
|
730 |
+
|
731 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
732 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,25 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "aubmindlab/bert-base-arabertv02",
|
3 |
+
"architectures": [
|
4 |
+
"BertModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"classifier_dropout": null,
|
8 |
+
"hidden_act": "gelu",
|
9 |
+
"hidden_dropout_prob": 0.1,
|
10 |
+
"hidden_size": 768,
|
11 |
+
"initializer_range": 0.02,
|
12 |
+
"intermediate_size": 3072,
|
13 |
+
"layer_norm_eps": 1e-12,
|
14 |
+
"max_position_embeddings": 512,
|
15 |
+
"model_type": "bert",
|
16 |
+
"num_attention_heads": 12,
|
17 |
+
"num_hidden_layers": 12,
|
18 |
+
"pad_token_id": 0,
|
19 |
+
"position_embedding_type": "absolute",
|
20 |
+
"torch_dtype": "float32",
|
21 |
+
"transformers_version": "4.44.2",
|
22 |
+
"type_vocab_size": 2,
|
23 |
+
"use_cache": true,
|
24 |
+
"vocab_size": 64000
|
25 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.1.1",
|
4 |
+
"transformers": "4.44.2",
|
5 |
+
"pytorch": "2.4.1+cu121"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:f44c923bcda89e015c0a9d7a7f5b7062cdfaf9e543e67112fa2a134116e1a53c
|
3 |
+
size 540795752
|
modules.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
}
|
14 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,37 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"cls_token": {
|
3 |
+
"content": "[CLS]",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"mask_token": {
|
10 |
+
"content": "[MASK]",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"pad_token": {
|
17 |
+
"content": "[PAD]",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"sep_token": {
|
24 |
+
"content": "[SEP]",
|
25 |
+
"lstrip": false,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"unk_token": {
|
31 |
+
"content": "[UNK]",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
}
|
37 |
+
}
|
tokenizer.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
tokenizer_config.json
ADDED
@@ -0,0 +1,86 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "[PAD]",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "[UNK]",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "[CLS]",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "[SEP]",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"4": {
|
36 |
+
"content": "[MASK]",
|
37 |
+
"lstrip": false,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
},
|
43 |
+
"5": {
|
44 |
+
"content": "[رابط]",
|
45 |
+
"lstrip": false,
|
46 |
+
"normalized": true,
|
47 |
+
"rstrip": false,
|
48 |
+
"single_word": true,
|
49 |
+
"special": true
|
50 |
+
},
|
51 |
+
"6": {
|
52 |
+
"content": "[بريد]",
|
53 |
+
"lstrip": false,
|
54 |
+
"normalized": true,
|
55 |
+
"rstrip": false,
|
56 |
+
"single_word": true,
|
57 |
+
"special": true
|
58 |
+
},
|
59 |
+
"7": {
|
60 |
+
"content": "[مستخدم]",
|
61 |
+
"lstrip": false,
|
62 |
+
"normalized": true,
|
63 |
+
"rstrip": false,
|
64 |
+
"single_word": true,
|
65 |
+
"special": true
|
66 |
+
}
|
67 |
+
},
|
68 |
+
"clean_up_tokenization_spaces": true,
|
69 |
+
"cls_token": "[CLS]",
|
70 |
+
"do_basic_tokenize": true,
|
71 |
+
"do_lower_case": false,
|
72 |
+
"mask_token": "[MASK]",
|
73 |
+
"max_len": 512,
|
74 |
+
"model_max_length": 512,
|
75 |
+
"never_split": [
|
76 |
+
"[بريد]",
|
77 |
+
"[مستخدم]",
|
78 |
+
"[رابط]"
|
79 |
+
],
|
80 |
+
"pad_token": "[PAD]",
|
81 |
+
"sep_token": "[SEP]",
|
82 |
+
"strip_accents": null,
|
83 |
+
"tokenize_chinese_chars": true,
|
84 |
+
"tokenizer_class": "BertTokenizer",
|
85 |
+
"unk_token": "[UNK]"
|
86 |
+
}
|
vocab.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|