Static Embeddings with BERT Multilingual uncased tokenizer finetuned on Moroccan Darija.

This is a sentence-transformers model trained on the sentence-transformers-triplet-morocco-darija dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Maximum Sequence Length: inf tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
  • Language: ar
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): StaticEmbedding(
    (embedding): EmbeddingBag(151665, 1024, mode='mean')
  )
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("atlasia/Qwen2.5-72B-bs-4096-lr-0.075-ep-40-wp-0.05-gacc-1-gnm-1.0-v0.1")
# Run inference
sentences = [
    'شكون لي خترع القرص المزخرف؟',
    'يوشيرو ناكاماتسو من بين الاختراعات الأولى ديال ناكاماسو هي شويو تشورو تشورو، وهي مضخة ديال السبوهيون كتستعمل فالدار باش تنقل صلصة الصويا من الحاويات الكبيرة لأوعية صغيرة للطبخ والخدمة. الاختراعات ديالو المسجلة كتشمل: بناءً على براءة اختراع صدرت في 1952، ناكاماتسو كتدعي أنها اخترعات أول قرص فلوبي قبل ما تقدم براءة اختراع القرص الفلوبي ديال IBM في 1969. ولكن، شنو اللي كانت براءة اختراع ناكاماتسو في 1952 كانت ورقة للاعب الصوت البصري. على عكس القرص الفلوبي، هاد البراءة ديال ناكاماتسو كتكشف على استخدام الورق المطبوع للتخزين عوض المادة المغناطيسية ديال القرص الفلوبي. ماشي قابلة لإعادة الكتابة وما فيهاش معظم العناصر ديال براءة اختراع القرص الفلوبي ديال IBM. بما أن الورقة كانت مادة \'floppy\'، كيقول بلي اخترع القرص الفلوبي (بعض المرات كيستعمل عبارة "الوسائط الفلوبي")؛ ولكن، خاصنا نعرفو بلي وسائل التسجيل المغناطيسي المرنة كانت معروفة مزيان قبل 1952، فالتسجيل والتسجيل السلكي.',
    'لقطات أحادية الجوانب من فورما ديال القرص الفلوري بدات ولات قديمة بعد إدخال IBM PC DOS 1.1 ف1982، اللي زاد الدعم ديال الأقراص ثنائية الجوانب بسعة 320 كيلوبايت ل PC ديال IBM 5150. ف1983 PC DOS 2.0 دفع القدرة على التنسيق ل 180 كيلوبايت أحادية الجانب ولا 360 كيلوبايت مزدوجة الجوانب باستخدام 9 بدلا من غير 8 قطاعات لكل مسار.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

sentence-transformers-triplet-morocco-darija

  • Dataset: sentence-transformers-triplet-morocco-darija at 2f7cba9
  • Size: 12,863 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 11 characters
    • mean: 49.66 characters
    • max: 147 characters
    • min: 89 characters
    • mean: 1386.28 characters
    • max: 2242 characters
    • min: 11 characters
    • mean: 1367.86 characters
    • max: 2397 characters
  • Samples:
    anchor positive negative
    شكون اللي لعب صوت السيدة بريسبي فسر NIMH؟ سر NIMH Goldman وصف عملية التصوير بأنها "مثيرة، ممتعة، وأحيانا غريبة". قال بلي التركيز على خصائص كل شخصية، والأصوات، والقدرات التمثيلية كانو مهمين، وقال بلي استخدام الأصوات اللي زادت لملمس الفيلم كان جزء من الفلسفة ديال الفريق فتطوير فيلم. غولدمان لقا أغرب قرار توجيه هو دوم ديلويز لجيرمي الغراب، اللي كان غولدمان، وبلوث، وبوميروي خداوه بعين الاعتبار من بعد ما شافو فيلم 1978 "The End". إليزابيث هارتمان تم تصويرها كالسيدة بريسبي، وغولدمان كان كيسميها الأداء ديالها ف "Patch of Blue" "بزاف وصادق بزاف حيت كلنا شعرنا بلي هي مناسبة للدور." بوميروي اقترح على ديريك جاكوبي، اللي كان كيلعب دور بطولة في المينيسترات "I Cloudius"، باش يلعب دور نيكوديس. بيتر ستراوس، اللي كان الفريق شاف قبل في مينيرات أخرى من 1976، "Rich Man, Pooper Man"، كان كيلعب دور جوستينر. بول شنار تعين باش يلعب دور "dark، صوت قوي". الممثل شكسبيران جون كارادين كان "مؤثر على البول الكبير المظلم، المخيف"، بينما الريدو تعين لسوليفان، اللي قال غولدمان "كان عندو صوت مميز بزاف". نيل موريسي نيل أنطوني موريسي (ولد فـ4 يوليوز 1962) هو ممثل إنجليزي، ممثل صوتي، كوميدي، مغني، ورجل أعمال. معروف بدوره كطوني فـ "رجال كيتصرفو بزاف". أدوار تمثيلية أخرى مهمة كتشمل إيدي لوسون فـ "واترلو رود"؛ نايجل مورتون فـ "جنب الواجب"، وروكي فـ "بون". موريسي كيعطي صوت بزاف ديال الشخصيات الكرتونية، بما فيهم بوب، روولي، لوفتي، السيد فاثيرغيل والفلاحة بيكلز فـ النسخة ديال المملكة المتحدة فـ "بوب البناي".
    شنو هو الرأي اللي كيقدم فالنص بخصوص فكرة الموت؟ قبل إدخال الموت الدماغي للقانون فمنتصف السبعينات حتى أواخر السبعينات، جميع عمليات زرع الأعضاء من المتبرعين الكادافيريين جاو من المتبرعين اللي ما كيضربوش القلب (NHBDs). المتبرعين بعد الموت الدماغي (DBD) (القلب كيضرب الجثث)، ولكن، أدى لنتائج أفضل حيت الأعضاء كانو مغطيين بالدم الأكسجيني حتى لنقطة التشتت والتبريد فاسترجاع الأعضاء، وبالتالي لم يعدو كيتستعملو NHBDs بشكل عام غير فاليابان، فين الموت الدماغي ما كانش قانوني، حتى وقت قريب بزاف، ولا معترف بيه ثقافيا. ولكن، الفرق المتزايد بين الطلب على الأعضاء وتوفرها من DBDs أدى لإعادة دراسة استخدام التبرعات اللي ما كتضرب القلب، DCD (التبرع بعد الموت الدائري، أو التبرع بعد الموت الكاردياك)، وبزاف ديال المراكز دابا كيستعملو هاد التبرعات لتوسيع مجموعة الأعضاء المحتملة ديالهم. التبرع بالأنسجة (الكورنيا، صمامات القلب، الجلد، العظام) كان دائما ممكن بالنسبة لل NHBDs، وبزاف ديال المراكز دابا أسسو برامج لزرع الكلى من هاد المتبرعين. بعض المراكز تنقلو حتى للكبد وزرع الرئة ديال DCD. بزاف ديال الدروس تعلمو من السبعينات، والنتائج من عمليات زرع DCD الحالية مشاب... فدين تينريكيو، هي دراسة البشرية وعلاقتها بالله فسياق اللاهوت ديال تينريكيو. هادشي ما خاصوش يتخلط مع العلم الاجتماعي ديال الأنثروبولوجيا. شي حاجة عارات، حاجة استعارت التعليم الأساسي المتعلق بالعلاقة بين البشر والله هي "شي حاجة معارة، حاجة مستعارة" ( )، وهادشي هو الاعتقاد بأن جسم الإنسان هو "شي حاجة معارة" من الله و"شي حاجة مستعارة" من طرف الإنسان. غير العقل مملوك للفرد؛ إذن، فهم تينريكيو للطبيعة البشرية هو ذهني أساسا. المفهوم مرتبط بشكل وثيق بالتعاليم الأخرى المتعلقة بالإنثروبولوجيا بحال غبار العقل، ولادة جديدة، وسببية. العقل راقد فمكان ما داخل جسم الإنسان والعقل كيشوف العالم من خلالها. تعاليم تينريكيو ما كتعرفش بالضبط شنو هو العقل (مثلا الوعي، الذات، الدماغ)، ولا كتشرح كيفاش، بالضبط، العقل هو ديالو. ولكن، كيوصفو خصائص وميزات العقل - مثلا، العقل يمكن حلو، تبديلو، روحو، أو كئيب. تعاليم تينريكيو كتحافظ على أن الطبيعة الأصلية والأساسية ديال العقل البشري واضحة ونظيفة. ما كانش سقوط ديال الراجل اللي خرب طبيعته. ولكن، بسبب الحرية المعطية للعقل البشري، العقل كينسى بانتظام طبيعته الأصلية ويتصرف ...
    متي تأسسات "أغواس دو سان بيدرو"؟ أغواس دو ساو بيدرو اعترافا بأهمية الربيع الحراري في المنطقة، حكومة ولاية ساو باولو في 19 يونيو 1940 أسسات (Hydromineral و Climatic Sapa ديال أغواس دو ساو بيدرو). رغم هاد الشي، المدينة كتحتفل بعيد ميلادها في 25 يوليوز، تاريخ تأسيس أول بناية كبيرة في المدينة، "فندق غراندي" (الآن "فندق غراند ساو بيدرو"). بلدية أغواس دو ساو بيدرو تأسست بموجب قانون الولاية رقم 233، المؤرخ 24 كانون الأول/ديسمبر 1948. سبا حراري ديال بيسو تم شراؤها فـ8 يونيو 1884 من أنطونيو جوليو إستيفز وزوجته من طرف أنطونيو أوغوستو دو سوسا إي كاسترو، وتم تسجيلها فورا فالسلطة البلدية فـ14 غشت باش تستغل المياه الطبية ديال بيسو (من طرف فيليكس توماس دي باروس أراوخو، بنتو ماريا باربوسا، أنطونيو أوغستو دي سوسا إي كاسترو وفيكتورينو أوغوستو دوس سانتوس ليما). فالطلب ديالهم، أشارو لـ "المياه الطبية القلوية الغازية" بحال الحمامات العامة فالمنطقة اللي كيتسمى كالداس، فـ أبرشية برادو. بعد سلسلة من المراجعات، فـ13 أكتوبر، تم تشكيل مجتمع لاستكشاف المياه الحرارية، لي تشكل من طرف بينتو ماريا باربوسا، فيليكس توماس دو باراروس دي أراوخو، أنتونيو أوغوسا أوغوسا إي كاسترو، فيكتورينو دوس سانتوس ليما، أبيليو أوغستو دي سوسا، خوسيه فرانسيسكو دي ألميدا فاراغوسو، أوريليا سافيدرا إي سيلفا، الدكتورة أنطونيو جواكيم دوراس، مانويل بينتو دا روشا جونيور والدكتور أنطونيو بيريرا دي سوسا.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            1024,
            512,
            256,
            128,
            64,
            32
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

sentence-transformers-triplet-morocco-darija

  • Dataset: sentence-transformers-triplet-morocco-darija at 2f7cba9
  • Size: 12,863 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 16 characters
    • mean: 47.71 characters
    • max: 107 characters
    • min: 212 characters
    • mean: 1415.89 characters
    • max: 2126 characters
    • min: 159 characters
    • mean: 1411.18 characters
    • max: 2127 characters
  • Samples:
    anchor positive negative
    فوقاش لعب روبرت جوزيف كوسي لبوسطن سلتيك؟ روبرت جوزيف كوسي (ولد فـ9 غشت 1928) هو لاعب كرة السلة أمريكي محترف سابق. كوسي لعب دور الحارس الرئيسي مع لاعبين بوسطن السلتيك من 1950 حتى 1963، وبختام مع سينسيناتي رويالز فـ موسم 1969-70. خلا الفريق ديالو فالجامعة الثانوية مبتدئ، مشى باش يحصل على منحة دراسية لكلية الصليب المقدس، فين قاد الصليبيين باش يفرجو عليهم فـ1948 جولة NCAAA و1950 جولة NCAA، وربح تكريمات NCAA All-American لتلاتة مواسم. كوسي كان فـ البداية من طرف Tri-Cities Blackhooks كـ ثالث اختيار عام فـ الجولة الأولى من مسودة NBA، ولكن من بعد ما رفض التقرير، تم اختيارو من طرف بوسطن. كان عندو مهنة ناجحة بزاف مع Celtics، وقاد الدوري 8 سنين متتالية غير مسبوقة فـ المساعدة، لعب على ستة فرق بطولة NBA، وتم التصويت عليه فـ13 ألعاب NBA All-Star فـ13 موسم NBA كامل ديالو. تاني سمي بـ12 فريق All-NBA الأول والثاني وربح جائزة NBA Fonth Falable Plaer ديال 1957. الطريق للسلسلة المساعدة ديالو اللي ماتشش بعدد ديال التاجات ولا السنين المتتالية، كوزي قدم مزيج جديد من مهارات التعامل مع الكرة ونقلها ل NBA اللي ربحاتو اللقب "The Hodini of the Hardwood"... مايكل أنطوني جيروم "سبود" ويب (ولد فـ13 يوليوز 1963) هو لاعب كرة السلة أمريكي محترف سابق. ويب، اللي لعب فـ National Basketball Association (NBA)، معروف بأنه ربح مسابقة Slam Dunk رغم أنه واحد من أقصر اللاعبين فـ تاريخ NBA، مدرج فالطول. حاليا هو رئيس عمليات كرة السلة لـ Texas Legends، فريق NBA G Lague لـ Dalas Maverix فـ Frisco، تكساس. السنوات الأولى ولد ويب فـ الفقر فـ Dalasas، تكساس. تربى فـ دار صغيرة فيها جوج غرف نوم وشاف كرة السلة كإلهام. ويب ما كانش طويل، ولكن استخدم القدرة ديالو على السرعة والقفز باش يلعب دور الدراري الكبار. بدا فالصف السابع، تقال لـ Wibbb بلي كان قصير بزاف باش يلعب كرة السلة. حصل على فرصة باش يلعب فـ الفريق الثانوي الجديد ديالو غير بعدما جوج لاعبين ما كملوش متطلبات الامتحان البدني فالوقت المحدد للعبة الأولى. ويب سجل 22 نقطة فالملعبة الأولى ديالو. كان يقدر يغرق الكرة ملي كان طويل. فـ Wilmer-Hutchins Huchins Shighychan Schooly، لعب فـ الفريق ديال Farsity وتاخد تأثير كبير؛ ملي دار الفريق ديال Farsity، كان عندو 26 نقطة فاللعبة كواحد السجل الدراسي العالي المثير للإعجاب...
    شنو كانت الخاصية الرئيسية ديال تطبيق Mobile ESPN؟ ESPN كانت شركة ديال الشبكات الافتراضية ديال الموبايل (MVNO) كتشغلها شركة Walt Disney باستخدام الشبكة اللاسلكية ديال EVDO ديال Sprint من 25 نوفمبر 2005 حتى دجنبر 2006. الخدمة كانت كتعتبر غالية بزاف وفشل. الخاصية الرئيسية ديال ESPN ديال التطبيق كانت تطبيق رياضي لي يقدر يوصل للأخبار والملامح والدرجات. التطبيق ديال Java كان قادر يعطي نتائج فالوقت الحقيقي، بحيث أن التيليفون كان غالبا خمس ثواني ولا أكثر قبل البث التلفزيوني ف تحديث النتائج. التطبيق تزاد حتى مع خدمة SMS، باش المستخدم قدر يستقبل تنبيه فين كيسجل فريق مفضل ولا شي حدث آخر مهم. المحتوى تدار من طرف فريق تحريري لي خلق محتوى أصلي ومحتوى جديد من موقع ESPN.com على الويب باش يناسب فورما التيليفون. أغلبية المحتوى على ESPN.com كان متوفر حتى على Mobile ESPN. ذكرات على الهواء ديال ESPN عبر الموبايل خلال البرمجة بحال SportCenter، خاصة شرائح التيليفون (التي كانت فيها رسومات ديال ESPN Mobile ed بدلا من النسخات العامة الشائعة ديال التيليفونات اللي كيستعملوها معظم المنظمات الإخبارية)، اقترحو بلي الموظفين ديال الشبكة كانو ملزمين تعاقديا باش يستعمل... شبكة تلفزيون كابل ESPN كانت كتبث من وقت لآخر أحداث ملاكمة على أغلبية تاريخها، كجزء من عدة ترتيبات، بما فيهم عقود مع بروفايات واتحادات محددة بحال Golden Buy Provements و Perminer Boxing Champions و Top Rank، وكذلك Jourday Night Wight Wights - سلسلة شبه منتظمة تبثها ESPN2 من 1998 حتى 2015. Top Rank Boxing من 1980 حتى 1996، ESPN كتبث شجارات من Ruber Top Rank من خلال سلسلة أسبوعية كتسمى Top Rank Boxing؛ كانت جزء أساسي مبكر من برمجة ESPN في الثمانينات. Top Rank و ESPN خرجو من الشراكة؛ Top Rank بدل التركيز ديالو على استهداف الجماهير الإسبانية في الولايات المتحدة، بينما ESPN نجح فالبث بسلسلة جديدة، Friday Night Wight Wights، اللي غادي تكون فيها bouts من رواد آخرين. في 2009، ESPN و Top Rank بداو يناقشو صفقة متجددة؛ المؤسس المشارك بوب آروم عبر على عدم الرضا فالباكاج السابق ديال الترقية ل Versusus، اللي كان فيه عدد كبير من النوبات منخفضة الجودة. آروم شرح بلي غادي يكون أكثر احتمالا يتعامل مع ESPN للمعارك الفردية بدل عقد طويل المدى، وشرح بلي "ما غادي نجي ليهم يقولو، 'ويل شريتي هاد المعركة ولا هاد ...
    شنو كان العدد الإجمالي ديال مسدسات مارك آي برين لي كينتجها Enfield؟ مدفع برين كان سلسلة ديال الرشاشات الخفيفة (LMG) اللي صنعاتها بريطانيا في الثلاثينات وستعملات في أدوار مختلفة حتى 1992. رغم أنه معروف بزاف بدورو كمشاة أساسية LMG ديال القوات البريطانية والكومنولث في الحرب العالمية الثانية، كان كيتستعمل حتى في الحرب الكورية وشاف الخدمة خلال النصف الثاني من القرن العشرين، بما فيهم حرب فولكلاند في 1982. رغم أنه كان مجهز بـ Bipod، يمكن تاني يتركب على tripod ولا يتركب على طوموبيلات. سلاح برين كان نسخة مرخصة من مدفع رشاش التشيكوسلوفاك ZGB 33 خفيف، لي بدوره كان نسخة معدلة من ZB vz 26، اللي جربو مسؤولي الجيش البريطاني خلال مسابقة لخدمة الأسلحة النارية في الثلاثينات. سلاح برين في وقت لاحق كان فيه مجلة صندوق منحني مميزة، مخبية فلاش ملونة، وبرميل تغيير سريع. سميت برين مشت من برنو، المدينة التشيكوسلوفاكية في مورافيا، فين تصميم Zb vz 26 (في مصنع زبروجوفيكا) وإنفيلد، موقع مصنع الأسلحة الصغيرة الملكي البريطاني. المصمم كان فاكلاف هوليك، مخترع ومهندس تصميم السلاح. في الخمسينيات، تم تجديد بزاف ديال البنادق في برين باش يقبلو الطوموريد ديال 7.62×51 ملم الناتو وعدلو باش يتغ... سيج باتري 46 كانت وحدة Howitzer ثقيلة ديال المدفعية الملكية البريطانية (RGA) فالحرب العالمية الأولى، مكونة فتينموث بنواة ديال المدفعين الساحليين ديال القوات الإقليمية من كورنوال. خدمت فالسوم والأنكري، فأريس وهال 70، قبل ما تمشي لإيفريس خلال المعارك ديال أوتومن 1917. من بعد حاربت ضد الهجوم ديال الربيع الألماني وشاركت فالهجوم الأخير ديال أيام الحلفاء الهوندريند. تم امتصاص البطارية فالجيش النظامي بعد الحرب. التعبئة والتدريب على اندلاع الحرب ف غشت 1914، تم دعوة وحدات من القوات الإقليمية غير الدائمة (TF) للتطوع للخدمة الخارجية وأغلبية القوات المسلحة الملكية (Duk of Cornwalls) غاريسون آرتيلي (CRGA) لهاد الشي. هادي كانت وحدة ديال الموانئ الملغمة مع الشركات اللي متمركزين فالموانئ الصغيرة على ساحل كورنوال. فأكتوبر 1914، الحملة على الجبهة الغربية كانت كتغرق فحرب الترينش وكانت هناك حاجة ملحة لإرسال بطاريات المدفعية للحصارة لتعزيز القوة الاستكشافية البريطانية (BEF). مكتب الحرب قرر أن المدفعيين الساحليين ديال TF مدربين بما فيه الكفاية باش ياخدو بزاف ديال الواجبات فالدفاعات الساحلية، يطلقو سلاحات RG...
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            1024,
            512,
            256,
            128,
            64,
            32
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 4096
  • per_device_eval_batch_size: 4096
  • learning_rate: 0.075
  • num_train_epochs: 40
  • warmup_ratio: 0.05
  • bf16: True
  • fp16_full_eval: True
  • load_best_model_at_end: True
  • gradient_checkpointing: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 4096
  • per_device_eval_batch_size: 4096
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 0.075
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 40
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.05
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: True
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss
0.25 1 48.5368 -
1.25 5 34.7814 -
2.25 10 31.4274 22.5819
3.25 15 25.2494 -
4.25 20 19.8346 21.4726
5.25 25 16.2696 -
6.25 30 13.4658 19.9480
7.25 35 11.1794 -
8.25 40 9.3989 19.3249
9.25 45 7.9495 -
10.25 50 6.795 19.0099
11.25 55 5.8551 -
12.25 60 5.0894 18.8919
13.25 65 4.4666 -
14.25 70 3.9487 18.9340
15.25 75 3.5228 -
16.25 80 3.1713 19.0256
17.25 85 2.883 -
18.25 90 2.6418 19.1233
19.25 95 2.4378 -
20.25 100 2.2639 19.2092
21.25 105 2.118 -
22.25 110 1.9948 19.2839
23.25 115 1.8884 -
24.25 120 1.8004 19.3435
25.25 125 1.728 -
26.25 130 1.6666 19.3908
27.25 135 1.616 -
28.25 140 1.5749 19.4285
29.25 145 1.5422 -
30.25 150 1.5174 19.4503
31.25 155 1.4999 -
32.25 160 1.4895 19.4583

Framework Versions

  • Python: 3.12.3
  • Sentence Transformers: 3.3.1
  • Transformers: 4.47.1
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.1.1
  • Datasets: 3.1.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.