SentenceTransformer based on intfloat/multilingual-e5-base

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-base on the grag-go-idf-pos-neg dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Lettria/idf-chunk_embedder-contrastive-after_epoch_0")
# Run inference
sentences = [
    'Procédures et démarches: Dépôt du dossier de candidature sur la plateforme des aides régionales (mesdemarches.iledefrance.fr).\nBénéficiaires: Collectivité ou institution - Communes de < 2000 hab, Collectivité ou institution - Communes de 2000 à 10 000 hab, Collectivité ou institution - Communes de 10 000 à 20 000 hab, Collectivité ou institution - Communes de > 20 000 hab, Collectivité ou institution - EPCI, Collectivité ou institution - EPT / Métropole du Grand Paris, Collectivité ou institution - Département, Collectivité ou institution - Bailleurs sociaux, Collectivité ou institution - Autre (GIP, copropriété, EPA...)\nPrécision sure les bénéficiaires: Toutes les structures de droit public ou de droit privé',
    '[Collectivité ou institution - Communes de < 2000 hab] (collectivité)',
    "[petites entreprises innovantes franciliennes](bénéficiaire) --- INCLUT ---> [Professionnel - Créateur d'entreprise](bénéficiaire)",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.5444
spearman_cosine 0.4893

Binary Classification

Metric Value
cosine_accuracy 0.8604
cosine_accuracy_threshold 0.8193
cosine_f1 0.9166
cosine_f1_threshold 0.8193
cosine_precision 0.8751
cosine_recall 0.9623
cosine_ap 0.9557

Training Details

Training Dataset

grag-go-idf-pos-neg

  • Dataset: grag-go-idf-pos-neg at ecbf53b
  • Size: 6,260 training samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string int
    details
    • min: 16 tokens
    • mean: 192.75 tokens
    • max: 414 tokens
    • min: 8 tokens
    • mean: 24.08 tokens
    • max: 79 tokens
    • 0: ~15.70%
    • 1: ~84.30%
  • Samples:
    sentence1 sentence2 label
    Procédures et démarches: Les porteurs de projet peuvent déposer leurs dossiers de candidature toute l’année sur la plateforme des aides régionales mesdemarches.iledefrance.fr. Après examen par les services de la Région, les élus du Conseil régional désignent les initiatives lauréates et le montant de la dotation régionale prévisionnelle.
    Bénéficiaires: Collectivité ou institution - Autre (GIP, copropriété, EPA...), Collectivité ou institution - Bailleurs sociaux, Collectivité ou institution - Communes de 10 000 à 20 000 hab, Collectivité ou institution - Communes de 2000 à 10 000 hab, Collectivité ou institution - Communes de < 2000 hab, Collectivité ou institution - Communes de > 20 000 hab, Collectivité ou institution - Département, Collectivité ou institution - EPCI, Collectivité ou institution - EPT / Métropole du Grand Paris, Collectivité ou institution - Office de tourisme intercommunal, Association - Régie par la loi de 1901, Établissement d'enseignement secondaire, Établissemen...
    [dotation régionale prévisionnelle] (inferred) 1
    Type de project: Pour l'investissement, les dépenses éligibles concernent les aménagements et les rénovations de bâtiments, les constructions et les acquisitions de locaux ainsi que les gros travaux immobiliers.Pour l'équipement, les dépenses éligibles portent sur l'acquisition, la mise en conformité et le renouvellement des équipements destinés à un usage pédagogique, administratif ou destiné aux étudiants. investissement --- CONCERNE ---> gros travaux immobiliers 1
    . Pour les demandes avec devis, transmettez votre demande de versement avec les factures acquittées (dans un délai maximal d'un an). Les factures indiquent un n° de chèque, un règlement CB, un virement,... Le versement prend la forme d'un paiement unique ou d’un paiement en 2 fois. Les dépenses prises en compte en HT portent sur une période maximale de 12 mois. DIM --- ASSURER ---> financement 0
  • Loss: ContrastiveLoss with these parameters:
    {
        "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
        "margin": 0.5,
        "size_average": true
    }
    

Evaluation Dataset

grag-go-idf-pos-neg

  • Dataset: grag-go-idf-pos-neg at ecbf53b
  • Size: 1,662 evaluation samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string int
    details
    • min: 24 tokens
    • mean: 178.38 tokens
    • max: 394 tokens
    • min: 8 tokens
    • mean: 25.03 tokens
    • max: 136 tokens
    • 0: ~19.60%
    • 1: ~80.40%
  • Samples:
    sentence1 sentence2 label
    Type de project: Le Fonds régional pour le tourisme est destiné aux actions ayant l'un de ces objectifs : La création, l’adaptation et le développement de l’offre d’activités et de loisirs ainsi que le renforcement de la sécurisation des sites touristiques et des visiteurs,La digitalisation de l’offre touristique pour accélérer la transformation numérique et favoriser l’innovation,La création d’offres d’hébergements touristiques durables contribuant à l’enrichissement de l’offre touristique régionale,Le soutien aux évènements gastronomiques d’envergure régionale. Afin que les professionnels du tourisme s’adaptent et contribuent à la transition durable de la destination Paris Île-de-France, l’aide régionale est attribuée sur la base de critères d’éco-conditionnalité. Fonds régional pour le tourisme --- DESTINÉ ---> professionnels du tourisme 1
    Type de project: Les projets éligibles doivent être basés sur un projet de développement pluriannuel élaboré par chaque structure bénéficiaire concernée. Le projet de développement s’inscrit dans les orientations de sa fédération.Les formations doivent être professionnalisantes, diplômantes ou continues, en ce qui concerne l’encadrement éducatif et technique et les dirigeants bénévoles et officiels.Une attention particulière est portée sur les formations sur les thématiques de la prévention contre toutes violences, de discrimination et de radicalisation. dépôt des dossiers --- DÉLAI ---> Commission 0
    Type de project: Les thématiques abordées, au titre du programme, comprennent la santé numérique et les risques de dépendance, la protection des données personnelles et la prévention des situations de harcèlement et de cyberharcèlement ; les interventions questionnent aussi les aspects numériques de la vie affective et sexuelle et son corollaire de risques tels que le "sexting", le "Revenge porn", le chantage sexuel et l'impact de la pornographie sur les jeunes.   A la demande des établissements, des focus thématiques peuvent être réalisés sur d'autres sujets comme la prévention des phénomènes de prostitution des mineurs, les problématiques liées aux jeux d'argent et de hasard en ligne ou encore la lutte contre la désinformation à travers une approche d'éducation aux médias et à l'information.   Les établissements bénéficiaires peuvent choisir jusqu'à deux thématiques qu'ils identifient comme prioritaires. [sexting] (risque) 1
  • Loss: ContrastiveLoss with these parameters:
    {
        "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
        "margin": 0.5,
        "size_average": true
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • gradient_accumulation_steps: 8
  • num_train_epochs: 10
  • warmup_steps: 626

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 8
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 10
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 626
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss EmbeddingSimEval_spearman_cosine BinaryClassifEval_cosine_ap
0.0051 1 0.0194 - - -
0.0102 2 0.0198 - - -
0.0153 3 0.0146 - - -
0.0204 4 0.017 - - -
0.0256 5 0.0193 - - -
0.0307 6 0.0164 - - -
0.0358 7 0.0188 - - -
0.0409 8 0.0185 - - -
0.0460 9 0.0168 - - -
0.0511 10 0.0148 - - -
0.0562 11 0.0149 - - -
0.0613 12 0.018 - - -
0.0665 13 0.0149 - - -
0.0716 14 0.0189 - - -
0.0767 15 0.0206 - - -
0.0818 16 0.0138 - - -
0.0869 17 0.0193 - - -
0.0920 18 0.0169 - - -
0.0971 19 0.014 - - -
0.1022 20 0.0151 - - -
0.1073 21 0.0157 - - -
0.1125 22 0.0127 - - -
0.1176 23 0.0159 - - -
0.1227 24 0.0184 - - -
0.1278 25 0.0188 - - -
0.1329 26 0.0191 - - -
0.1380 27 0.012 - - -
0.1431 28 0.0142 - - -
0.1482 29 0.0131 - - -
0.1534 30 0.0153 - - -
0.1585 31 0.0123 - - -
0.1636 32 0.0127 - - -
0.1687 33 0.0186 - - -
0.1738 34 0.0112 - - -
0.1789 35 0.0149 - - -
0.1840 36 0.0174 - - -
0.1891 37 0.0115 - - -
0.1942 38 0.0106 - - -
0.1994 39 0.0138 - - -
0.2045 40 0.0161 - - -
0.2096 41 0.0134 - - -
0.2147 42 0.0138 - - -
0.2198 43 0.0083 - - -
0.2249 44 0.0094 - - -
0.2300 45 0.0097 - - -
0.2351 46 0.012 - - -
0.2403 47 0.0131 - - -
0.2454 48 0.0146 - - -
0.2505 49 0.0162 - - -
0.2556 50 0.0113 - - -
0.2607 51 0.0111 - - -
0.2658 52 0.0099 - - -
0.2709 53 0.0128 - - -
0.2760 54 0.0072 - - -
0.2812 55 0.0118 - - -
0.2863 56 0.0069 - - -
0.2914 57 0.0143 - - -
0.2965 58 0.0129 - - -
0.3016 59 0.0103 - - -
0.3067 60 0.0187 - - -
0.3118 61 0.0128 - - -
0.3169 62 0.0138 - - -
0.3220 63 0.021 - - -
0.3272 64 0.0142 - - -
0.3323 65 0.0144 - - -
0.3374 66 0.0164 - - -
0.3425 67 0.0115 - - -
0.3476 68 0.0122 - - -
0.3527 69 0.0125 - - -
0.3578 70 0.0119 - - -
0.3629 71 0.0098 - - -
0.3681 72 0.0112 - - -
0.3732 73 0.011 - - -
0.3783 74 0.0142 - - -
0.3834 75 0.0106 - - -
0.3885 76 0.0186 - - -
0.3936 77 0.011 - - -
0.3987 78 0.0125 - - -
0.4038 79 0.0115 - - -
0.4089 80 0.0155 - - -
0.4141 81 0.0093 - - -
0.4192 82 0.017 - - -
0.4243 83 0.0106 - - -
0.4294 84 0.0115 - - -
0.4345 85 0.0105 - - -
0.4396 86 0.0105 - - -
0.4447 87 0.0117 - - -
0.4498 88 0.0104 - - -
0.4550 89 0.0093 - - -
0.4601 90 0.0125 - - -
0.4652 91 0.012 - - -
0.4703 92 0.0077 - - -
0.4754 93 0.0095 - - -
0.4805 94 0.0087 - - -
0.4856 95 0.0072 - - -
0.4907 96 0.0142 - - -
0.4958 97 0.0053 - - -
0.5010 98 0.0072 - - -
0.5061 99 0.0096 - - -
0.5112 100 0.0082 - - -
0.5163 101 0.0053 - - -
0.5214 102 0.0072 - - -
0.5265 103 0.007 - - -
0.5316 104 0.0088 - - -
0.5367 105 0.0084 - - -
0.5419 106 0.0057 - - -
0.5470 107 0.0092 - - -
0.5521 108 0.0074 - - -
0.5572 109 0.0043 - - -
0.5623 110 0.0092 - - -
0.5674 111 0.0114 - - -
0.5725 112 0.0094 - - -
0.5776 113 0.0073 - - -
0.5827 114 0.0103 - - -
0.5879 115 0.0091 - - -
0.5930 116 0.0064 - - -
0.5981 117 0.011 - - -
0.6032 118 0.0085 - - -
0.6083 119 0.0061 - - -
0.6134 120 0.0036 - - -
0.6185 121 0.0087 - - -
0.6236 122 0.0072 - - -
0.6288 123 0.0028 - - -
0.6339 124 0.0116 - - -
0.6390 125 0.0156 - - -
0.6441 126 0.0048 - - -
0.6492 127 0.0049 - - -
0.6543 128 0.0048 - - -
0.6594 129 0.0021 - - -
0.6645 130 0.0085 - - -
0.6696 131 0.0058 - - -
0.6748 132 0.0067 - - -
0.6799 133 0.0162 - - -
0.6850 134 0.0056 - - -
0.6901 135 0.0035 - - -
0.6952 136 0.0069 - - -
0.7003 137 0.0018 - - -
0.7054 138 0.0026 - - -
0.7105 139 0.0111 - - -
0.7157 140 0.0041 - - -
0.7208 141 0.0098 - - -
0.7259 142 0.0045 - - -
0.7310 143 0.0059 - - -
0.7361 144 0.0068 - - -
0.7412 145 0.0065 - - -
0.7463 146 0.0085 - - -
0.7514 147 0.0077 - - -
0.7565 148 0.0047 - - -
0.7617 149 0.005 - - -
0.7668 150 0.0031 - - -
0.7719 151 0.0042 - - -
0.7770 152 0.0054 - - -
0.7821 153 0.0021 - - -
0.7872 154 0.004 - - -
0.7923 155 0.0027 - - -
0.7974 156 0.0033 - - -
0.8026 157 0.0044 - - -
0.8077 158 0.0063 - - -
0.8128 159 0.0078 - - -
0.8179 160 0.0046 - - -
0.8230 161 0.0076 - - -
0.8281 162 0.0136 - - -
0.8332 163 0.0048 - - -
0.8383 164 0.0049 - - -
0.8435 165 0.0048 - - -
0.8486 166 0.0064 - - -
0.8537 167 0.0038 - - -
0.8588 168 0.0087 - - -
0.8639 169 0.0067 - - -
0.8690 170 0.0011 - - -
0.8741 171 0.0067 - - -
0.8792 172 0.0054 - - -
0.8843 173 0.0069 - - -
0.8895 174 0.0084 - - -
0.8946 175 0.0038 - - -
0.8997 176 0.0029 - - -
0.9048 177 0.002 - - -
0.9099 178 0.0073 - - -
0.9150 179 0.0069 - - -
0.9201 180 0.0042 - - -
0.9252 181 0.0037 - - -
0.9304 182 0.0034 - - -
0.9355 183 0.0038 - - -
0.9406 184 0.0038 - - -
0.9457 185 0.007 - - -
0.9508 186 0.0019 - - -
0.9559 187 0.0073 - - -
0.9610 188 0.0054 - - -
0.9661 189 0.0082 - - -
0.9712 190 0.0058 - - -
0.9764 191 0.0028 - - -
0.9815 192 0.0036 - - -
0.9866 193 0.0046 - - -
0.9917 194 0.0066 - - -
0.9968 195 0.0056 0.0152 0.4893 0.9557

Framework Versions

  • Python: 3.11.9
  • Sentence Transformers: 3.3.1
  • Transformers: 4.45.2
  • PyTorch: 2.4.1+cu121
  • Accelerate: 1.2.1
  • Datasets: 3.2.0
  • Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

ContrastiveLoss

@inproceedings{hadsell2006dimensionality,
    author={Hadsell, R. and Chopra, S. and LeCun, Y.},
    booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)},
    title={Dimensionality Reduction by Learning an Invariant Mapping},
    year={2006},
    volume={2},
    number={},
    pages={1735-1742},
    doi={10.1109/CVPR.2006.100}
}
Downloads last month
5
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported third-party Inference Providers, and the model is not deployed on the HF Inference API.

Model tree for Lettria/idf-go_embedder-contrastive-after_epoch_0

Quantized
(27)
this model

Evaluation results