Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper
•
1908.10084
•
Published
•
9
This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("cuadron11/multilingual-e5-large-finetuned")
# Run inference
sentences = [
'Zein da Nahitaezko Desjabetzeari buruzko Erregelamenduaren 56.2 artikuluak xedatutakoa?',
'Bigarrena. Zerrenda horretan ageri diren jabeei dei egitea, bertan zehaztutako egun eta orduetan, eta Eibarko Udalean pertsonatu eta gero, desjabetu behar diren ondasun eta eskubideak atzeman aurreko aktak egiteko, eta, behar bada, horiek formalki okupatzeko. Guzti horrek ez du eragotziko terrenoetara joatea, interesdunek hala eskatuz gero.\nEgintza horretara interesdunek pertsonalki agertu beharko dute, edo haien izenean jarduteko behar bezala baimendutakoek ordezkatuta, eta titulartasuna egiaztatzeko agiriak (eskritura publikoak, Jabetza Erregistroaren ziurtagiriak edo ohar informatiboak, eta abar) eraman beharko dituzte, baita haien eskubideak egiaztatzeko beste ezein agiri ere; hala nahi izanez gero, peritu edo notario batek lagunduta ere joan daitezke.\nHalaber, Nahitaezko Desjabetzeari buruzko Erregelamenduaren 56.2 artikuluan xedatutakoarekin bat, aurreko aktak egiteko egunera arte, interesdunek alegazioak aurkeztu ahal izango dituzte akats posibleak zuzentzeko; alegazioak Etxebizitza, Herri Lan eta Garraio Saileko Garraio Azpiegituraren Zuzendaritzan aurkeztu beharko dira (Donostia kalea 1, Lakua I, Vitoria-Gasteiz).\nEbazpen honen aurka, gora jotzeko errekurtsoa aurkeztu ahal izango da organo honetan edo Garraio eta Herri Lanetako sailburuordeari, hilabeteko epean, ebazpena jakinarazi edo argitaratu eta biharamunetik aurrera.\nEta horrela jakinarazten da jendeak horren berri izan dezan.\nVitoria-Gasteiz, 2012ko urriaren 31.\nGarraio Azpiegituraren zuzendaria,\nJESÚS MARÍA BENAITO VILLAGARCÍA.\nEibarko udal mugartea.\nFinka zenbakia: 01.\nErref. Katastro-erref.: Bidea/herri jabaria.\nJabea: Eibarko Udala.\nOkupazio iraunkorra: OI 0 m2/MI 0 m2.\nAldi baterako okupazioa: ABO 0 m2/ABM 2.458 m2.\nZortasuna: BZ 0 m2.\nIzaera: hiri-lurra.\nAurreko aktak egitea: abendua.\nTokia: Eibarko Udala. Eguna: 12. Ordua: 13:30a.\nFinka zenbakia: 02.',
'Dedikazio bereziko osagarriaren lehen maila egiaztatu duten ikuskariek urtean 1.068,95 euro gehiago jasoko dituzte, goian aipatu kopuruez gain.\n3. artikulua\nJarraian adieraziko diren lanpostuak dituzten ikuskariek berariazko osagarri gehigarriak izango dituzte, urteko guztizko kopuru hauetan:\nLanpostua Urteko kopurua (eurotan)\nIkuskari nagusia 15.186,36\nIkuskari zentrala 7.098,80\nLurraldeburua 5.447,86\n4. artikulua\nIkuskaritza-zonalde guztietan zonaldeburu bat egongo da Zonaldeburutzaren egitekoak betetzeko. Horregatik, urtean 2.750,69 euroko berariazko osagarri gehigarria jasoko du. Zonaldeburu hauek merezimendu-lehiaketen bidez hautatuak izango dira ikuskaritza-zonalde bakoitzeko Euskal Autonomia Erkidegoko Hezkuntzako Ikuskatzaileen Kidegoko eta Hezkuntza Administrazioaren Zerbitzurako Ikuskarien Kidegoko funtzionarioen artetik, eta izendapena sei urterako izango da.\n5. artikulua\nBerariazko osagarriaren barne, urteko guztizko kopuruak hilero banatuko dira, abenduaren 28ko 15/2007 Legeak, Euskal Autonomia Erkidegoko 2008ko Aurrekontu Orokorrak onartu dituena, 8. atalaren 21. artikuluan edo ondorengo aurrekontu-legeetan arautzen den moduan.\n6. artikulua\nZerbitzu-eginkizunaren erregimenean Hezkuntza Ikuskaritzan lanpostua duten irakasleek jatorriko kidegoari dagokion ordainsaria jasoko dute. Horrez gain, osagarri gehigarri bat kobratuko dute, jatorriko ordainsari horren eta Hezkuntza Ikuskariaren lanpostuari dagokionaren arteko aldea berdintze aldera.\n7. artikulua\nEuskal Autonomia Erkidegoko Hezkuntzako Ikuskatzaileen Kidegoko eta Hezkuntza Administrazioaren Zerbitzurako Ikuskarien Kidegoko ikuskariak 2. hizkuntza-eskakizuna indarrean duten lanpostuetara atxikiak geratuko dira dagokien Lurralde Historikoko lantokian, irakaskuntzarako 2. hizkuntza-eskakizuna edo horren baliokideren bat egiaztatzen ez dutenak izan ezik; azken horiek nahitaezkotasun-data 2011ra atzeratu zaien lanpostuetara atxikiak geratuko dira.\nXEDAPEN INDARGABETZAILEAK',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 1.0000, 1.0000],
# [1.0000, 1.0000, 1.0000],
# [1.0000, 1.0000, 1.0000]])
multilingual-e5-largeTripletEvaluator| Metric | Value |
|---|---|
| cosine_accuracy | 0.4001 |
anchor, positive, and negative| anchor | positive | negative | |
|---|---|---|---|
| type | string | string | string |
| details |
|
|
|
| anchor | positive | negative |
|---|---|---|
Zein da epea Osakidetzako lanpostuaz jabetzeko behar diren agiriak aurkezteko? |
Destinoa normaltasunez betetzeko behar den gaitasun psikofisikoa egiaztatzen duen azterketa medikoaren agiria, Osakidetza-Euskal osasun zerbitzuko Prebentzio Zerbitzuak emana. |
Hamar eguneko epea emango da erreklamazioak aurkezteko eta eskabidea zuzentzeko. Ebazpen hori Osakidetzako web orrian argitaratuko da. |
Zein da epea administrazioarekiko auzi-errekurtsoa aurkezteko Euskal Autonomia Erkidegoko Auzitegi Nagusiko Administrazioarekiko Auzien Salan agindu honen aurka? |
Hori guztia kontuan hartuta, hau |
Bestela, administrazioarekiko auzi-errekurtsoa aurkez daiteke Euskal Autonomia Erkidegoko Auzitegi Nagusiko Administrazioarekiko Auzien Salan, bi hilabeteko epean. |
Zein da epea Herri Arduralaritzaren Euskal Erakundeko zuzendariaren ebazpen honen aurka gora jotzeko errekurtsoa jartzeko? |
13. artikulua |
Laugarren artikulua |
TripletLoss with these parameters:{
"distance_metric": "TripletDistanceMetric.EUCLIDEAN",
"triplet_margin": 5
}
anchor, positive, and negative| anchor | positive | negative | |
|---|---|---|---|
| type | string | string | string |
| details |
|
|
|
| anchor | positive | negative |
|---|---|---|
Nork zuzentzen ditu Euskal Herriko Agintaritzaren Aldizkarian argitaratutako testuetako hutsak edo omisioak? |
Euskal Herriko Agintaritzaren Aldizkaria arautzen duen abenduaren 23ko 217/2008 Dekretuaren 18.2.b) artikuluan xedatzen denez, argitaratzeko bidalitako testuan dauden hutsak edo omisioak Jaurlaritzaren Idazkaritzako eta Legebiltzarrarekiko Harremanetarako Zuzendaritzak zuzenduko ditu, baldin eta nabarmenak badira, dokumentuen esanahia aldatzen ez badute, eta nahasbiderik ez sortzeko komeni bada. Zuzenketa egiteko eskaria testua argitaratzeko agindua eman duen organoak egingo du. |
Okupatu aurreko aktak honekin batera doan zerrendan jarritako egun eta tokietan egingo dira. Horren berri emateko, zitazio-zedula bana bidaliko zaio titular bakoitzari, eta bertan adieraziko zaio bileraren tokia, eguna eta ordua. Horrez gain, Nahitaezko Desjabetzari buruzko Legearen 52. artikuluan xedatutako gainontzeko iragarkiak ere egingo dira. |
Zein dira deialdi honetan parte hartzeko bete behar diren baldintzak? |
Kudeaketako eta Ikerketako arduradun lanpostua hutsik dagoenez 512501 kodea, 2 dotazioa , EAEko sektore publikoaren esparruan Arau-hausteen berri emateko eta informatzaileak babesteko Barneko informazio-sisteman, Euskal Enplegu Publikoaren abenduaren 1eko 11/2022 Legearen 94.9 eta 102.2 artikuluetan xedatutakoari jarraituz eta Enplegu Publikoko Zuzendaritzak aldeko txostena eman duenez, eranskinean azaltzen den lanpostua izendapen askeko sistema erabiliz hornitzeko deialdi publikoa iragartzea erabaki du sail honek. Hona hemen deialdiaren |
Lau (4) laguntzaile, hautaketa prozesuetako deialdi bateratuetan zein IVAPeko deialdi orokorretan parte hartzeko, honako jardute-egutegiarekin urtean zehar: |
Zein espezie daude Europar Batasunaren interesekoak diren habitatetan, eta mehatxatuta edo galtzear daudenak? |
c) Ingurune horietako berezko habitaten artean badaude lehentasunezko zenbait habitat; esaterako, 91E0 habitata (haltzadiak eta lizardiak) edo 2130 habitata (duna finko grisak); oso zatikatuta daude, erkidegoan oso leku jakinetan eta leku gutxitan daude, eta, oro har, kontserbazio kaskarra eta galtzeko joera dute. |
Bertako gatz-larrainetan, gatz-ustiapen tradizionala egiten da; eta oso bitxiak diren ornogabeak eta flora halofiloak daude, bertan. Biotopo Babestuan, Batasunaren intereseko 14 habitat daude. |
TripletLoss with these parameters:{
"distance_metric": "TripletDistanceMetric.EUCLIDEAN",
"triplet_margin": 5
}
eval_strategy: stepswarmup_ratio: 0.1fp16: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 8per_device_eval_batch_size: 8per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 3max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | Validation Loss | multilingual-e5-large_cosine_accuracy |
|---|---|---|---|---|
| 0.0412 | 100 | 4.5393 | 3.8541 | 0.2011 |
| 0.0824 | 200 | 3.8485 | 3.8240 | 0.1992 |
| 0.1236 | 300 | 3.8296 | 3.8231 | 0.1996 |
| 0.1648 | 400 | 3.8066 | 3.8204 | 0.2070 |
| 0.2060 | 500 | 3.8125 | 3.8198 | 0.2023 |
| 0.2472 | 600 | 4.5343 | 5.0000 | 0.2965 |
| 0.2884 | 700 | 4.4741 | 5.0000 | 0.2927 |
| 0.3296 | 800 | 4.0743 | 5.0000 | 0.3051 |
| 0.3708 | 900 | 4.129 | 5.0000 | 0.2849 |
| 0.4120 | 1000 | 4.0201 | 5.0000 | 0.2851 |
| 0.4532 | 1100 | 4.1405 | 5.0000 | 0.2829 |
| 0.4944 | 1200 | 3.9947 | 5.0000 | 0.2874 |
| 0.5356 | 1300 | 4.0507 | 5.0000 | 0.2886 |
| 0.5768 | 1400 | 4.0247 | 5.0000 | 0.2930 |
| 0.6180 | 1500 | 4.0876 | 5.0000 | 0.2738 |
| 0.6593 | 1600 | 4.0044 | 5.0000 | 0.2977 |
| 0.7005 | 1700 | 3.9655 | 5.0000 | 0.2998 |
| 0.7417 | 1800 | 4.0394 | 5.0000 | 0.2938 |
| 0.7829 | 1900 | 4.0662 | 5.0000 | 0.2971 |
| 0.8241 | 2000 | 4.0266 | 5.0000 | 0.3389 |
| 0.8653 | 2100 | 4.036 | 5.0000 | 0.3265 |
| 0.9065 | 2200 | 4.0421 | 5.0000 | 0.3319 |
| 0.9477 | 2300 | 4.0102 | 5.0000 | 0.3410 |
| 0.9889 | 2400 | 4.2605 | 5.0000 | 0.3290 |
| 1.0301 | 2500 | 4.0387 | 5.0000 | 0.3700 |
| 1.0713 | 2600 | 3.9887 | 5.0000 | 0.3300 |
| 1.1125 | 2700 | 3.9732 | 5.0000 | 0.3059 |
| 1.1537 | 2800 | 4.0287 | 5.0000 | 0.3123 |
| 1.1949 | 2900 | 4.0481 | 5.0000 | 0.3393 |
| 1.2361 | 3000 | 4.029 | 5.0000 | 0.3177 |
| 1.2773 | 3100 | 3.9893 | 5.0000 | 0.3249 |
| 1.3185 | 3200 | 4.0889 | 5.0000 | 0.3272 |
| 1.3597 | 3300 | 3.9904 | 5.0000 | 0.3350 |
| 1.4009 | 3400 | 3.9418 | 5.0000 | 0.3583 |
| 1.4421 | 3500 | 4.0014 | 5.0000 | 0.3696 |
| 1.4833 | 3600 | 3.907 | 5.0000 | 0.3799 |
| 1.5245 | 3700 | 4.0159 | 5.0000 | 0.4137 |
| 1.5657 | 3800 | 3.9943 | 5.0000 | 0.4015 |
| 1.6069 | 3900 | 3.9941 | 5.0000 | 0.3953 |
| 1.6481 | 4000 | 3.9292 | 5.0000 | 0.3929 |
| 1.6893 | 4100 | 4.0318 | 5.0000 | 0.3964 |
| 1.7305 | 4200 | 4.0032 | 5.0000 | 0.3912 |
| 1.7717 | 4300 | 3.9279 | 5.0000 | 0.3768 |
| 1.8129 | 4400 | 4.1296 | 5.0000 | 0.3935 |
| 1.8541 | 4500 | 4.0029 | 5.0000 | 0.3791 |
| 1.8953 | 4600 | 4.0268 | 5.0000 | 0.3805 |
| 1.9365 | 4700 | 4.0007 | 5.0000 | 0.3855 |
| 1.9778 | 4800 | 3.9787 | 5.0000 | 0.3766 |
| 2.0190 | 4900 | 3.9344 | 5.0000 | 0.3834 |
| 2.0602 | 5000 | 3.9822 | 5.0000 | 0.3890 |
| 2.1014 | 5100 | 3.944 | 5.0000 | 0.4087 |
| 2.1426 | 5200 | 3.9144 | 5.0000 | 0.3997 |
| 2.1838 | 5300 | 3.95 | 5.0000 | 0.3686 |
| 2.2250 | 5400 | 3.9793 | 5.0000 | 0.3962 |
| 2.2662 | 5500 | 3.9144 | 5.0000 | 0.4028 |
| 2.3074 | 5600 | 3.9627 | 5.0000 | 0.3988 |
| 2.3486 | 5700 | 3.8888 | 5.0000 | 0.3941 |
| 2.3898 | 5800 | 3.9516 | 5.0000 | 0.4083 |
| 2.4310 | 5900 | 3.9254 | 5.0000 | 0.4017 |
| 2.4722 | 6000 | 3.9438 | 5.0000 | 0.4094 |
| 2.5134 | 6100 | 3.9385 | 5.0000 | 0.3772 |
| 2.5546 | 6200 | 3.8764 | 5.0000 | 0.3813 |
| 2.5958 | 6300 | 3.9067 | 5.0000 | 0.3984 |
| 2.6370 | 6400 | 3.9988 | 5.0000 | 0.3982 |
| 2.6782 | 6500 | 3.865 | 5.0000 | 0.3723 |
| 2.7194 | 6600 | 3.9609 | 5.0000 | 0.3785 |
| 2.7606 | 6700 | 3.9445 | 5.0000 | 0.4021 |
| 2.8018 | 6800 | 3.9274 | 5.0000 | 0.4071 |
| 2.8430 | 6900 | 3.9373 | 5.0000 | 0.3869 |
| 2.8842 | 7000 | 3.8491 | 5.0000 | 0.3793 |
| 2.9254 | 7100 | 3.8907 | 5.0000 | 0.3970 |
| 2.9666 | 7200 | 3.9383 | 5.0000 | 0.4001 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{hermans2017defense,
title={In Defense of the Triplet Loss for Person Re-Identification},
author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
year={2017},
eprint={1703.07737},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
Base model
intfloat/multilingual-e5-largeTotally Free + Zero Barriers + No Login Required