metadata
base_model: aubmindlab/bert-base-arabertv02
language:
- ar
library_name: sentence-transformers
license: apache-2.0
metrics:
- cosine_accuracy
- dot_accuracy
- manhattan_accuracy
- euclidean_accuracy
- max_accuracy
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:550000
- loss:MultipleNegativesRankingLoss
widget:
- source_sentence: ما هو متوسط مزايا الضمان الاجتماعي
sentences:
- >-
الغرض الرئيسي من الدورة الشهرية هو تحضير الجسد الأنثوي للتكاثر أو الحمل.
خلال هذا الوقت ، يتم تخصيب بويضة جديدة. إذا لم تكن المرأة حاملاً ، فسوف
يسفك الرحم.
- >-
ما هو معدل الاستحقاق الشهري للعامل المتقاعد؟ متوسط استحقاق تقاعد
الضمان الاجتماعي الشهري لشهر يناير 2016 هو 1،341 دولارًا. المبلغ يتغير
شهريا. عندما تكون جاهزًا للتقدم بطلب للحصول على مزايا التقاعد ، استخدم
تطبيق التقاعد عبر الإنترنت ، وهو الطريقة الأسرع والأسهل والأكثر ملاءمة
للتقدم. معلومات اكثر. حقائق أساسية عن الضمان الاجتماعي.
- >-
لإعطائك فكرة عما قد تتلقاه ، لعام 2015 ، يبلغ متوسط مبلغ مخصصات SSDI
1165 دولارًا أمريكيًا في الشهر ، ولكن يمكنك الحصول على ما يصل إلى 2663
دولارًا أمريكيًا ، إذا كنت مهتمًا بكيفية حساب الضمان الاجتماعي لـ AIME و
PIA ، فإليك الطريقة . كم ستعتمد إعانة إعاقة الضمان الاجتماعي على أرباحك
المغطاة - الأجور التي دفعت عليها ضرائب الضمان الاجتماعي - قبل أن تصبح
معاقًا.
- source_sentence: ما هو الراتب الابتدائي لمن يلتحق بالجيش
sentences:
- >-
كان الراتب المبدئي لجندي في الجيش الأمريكي بدرجة رواتب E-1 هو 1،491
دولارًا شهريًا اعتبارًا من السنة المالية 2012 ، وفقًا لموقع
ArmyTimes.com. جندي برتبة أجر E-4 وله أكثر من أربع سنوات في الخدمة تلقى
2،266.50 دولارًا شهريًا. الجندي الأعلى رتبة في الجيش الأمريكي هو الرقيب
الرائد ، الذي يحمل رتبة أجر من E-9. كان الراتب الأساسي الشهري للجندي
بدرجة رواتب E-9 مع 20 عامًا في الخدمة هو 5،523.60 دولارًا.
- >-
17 التعليقات. Meclizine هو الاسم العام للدواء المسمى Antivert والأدوية
التي لا تستلزم وصفة طبية (OTC) المعروفة باسم Dramamine و Bonine. يستخدم
ميكليزين لعلاج دوار الحركة والدوخة. ينتمي الدواء إلى فئة من العقاقير
تسمى مضادات الهيستامين ، والتي تستخدم بشكل عام لعلاج الحساسية ، ومع ذلك
، يعمل الميكليزين بشكل مختلف قليلاً ، حيث يقلل من الغثيان وتشنجات
العضلات ، ويستخدم عقار كليزين لعلاج دوار الحركة والدوخة. ينتمي الدواء
إلى فئة من العقاقير تسمى مضادات الهيستامين ، والتي تستخدم بشكل عام لعلاج
الحساسية.
- >-
تأسيس حزمة الراتب الخاص بك. جنود الخدمة الفعلية وجنود الاحتياط في الجيش
النشطين يكسبون رواتب الجيش الأساسية. الراتب الأساسي هو راتبك الأساسي
كجندي في الخدمة الفعلية ويتم احتسابه فقط كجزء من إجمالي دخلك ، ويتم
توزيعه في اليوم الأول والخامس عشر من كل شهر ، على غرار العديد من الوظائف
المدنية. جنود الخدمة الفعلية وجنود الاحتياط في الجيش النشطين يكسبون
رواتب الجيش الأساسية. الراتب الأساسي هو راتبك الأساسي كجندي في الخدمة
الفعلية وهو يُحتسب فقط كجزء من إجمالي دخلك.
- source_sentence: إدانة والد جاريد كوشنر
sentences:
- >-
تم تعيين صهر دونالد ترامب جاريد كوشنر `` مستشارًا كبيرًا للرئيس '' يوم
الاثنين وكان كوشنر فعالًا في حملة ترامب وأشار إلى أنه يخطط للانتقال إلى
واشنطن والعمل لصالح الرئيس المنتخب.
- >-
تشارلز كوشنر. تشارلز كوشنر (من مواليد 16 مايو 1954) هو مطور عقاري أمريكي
ومجرم مدان. أسس شركات كوشنر في عام 1985. وفي عام 2005 ، أدين بالمساهمات
غير القانونية في الحملة ، والتهرب الضريبي ، والتلاعب بالشهود ، وقضى فترة
في السجن الفيدرالي. بعد إطلاق سراحه ، استأنف مسيرته المهنية في مجال
العقارات.
- >-
191 متابع. ج: بشكل عام ، يجب إصلاح الفتق المعرضة لخطر حدوث مضاعفات ، أو
التي تسبب الألم ، أو التي تحد من النشاط. إذا لم يتم إصلاحها ، فهناك خطر
من أن عملية جراحية طارئة قد تكون مطلوبة في وقت لاحق. في بعض الأحيان ،
يمكن السيطرة على الفتق مؤقتًا عن طريق ارتداء جهاز يشبه الحزام يطبق ضغطًا
خارجيًا ، مما يدفع الأنسجة مرة أخرى إلى البطن ويحملها هناك ، وهذا الجهاز
يسمى الجمالون ، وفي بعض الأحيان ، يمكن التحكم في الفتق مؤقتًا عن طريق
ارتداء جهاز يشبه الحزام يطبق ضغطًا خارجيًا ، والذي يدفع الأنسجة مرة أخرى
إلى البطن ويثبتها هناك. هذا الجهاز يسمى الجمالون.
- source_sentence: لماذا اتسعت الاقدام؟
sentences:
- >-
لأن الجمال تمشي لمسافات طويلة للعثور على الماء ، إذا كانت أقدامها واسعة
فإنها تجد أنه من الأسهل أن تمشي لمسافات طويلة. كما أن الأرجل العريضة
تساعد الجمل على عدم الغرق في الرمال العميقة.
- >-
دليل لزراعة نبات الخشخاش المائي. كان خشخاش الأفيون ، Papaver somniferum
، يزرعه الإنسان منذ عصور ما قبل التاريخ. تنمو اليوم P. somniferum في
الحدائق والبراري في معظم أنحاء العالم ، بما في ذلك الولايات المتحدة
وأوروبا. لا يكاد يوجد سوبر ماركت في العالم لا يبيع بذوره. دليل لزراعة
نبات الخشخاش المائي. كان خشخاش الأفيون ، Papaver somniferum ، يزرعه
الإنسان منذ عصور ما قبل التاريخ. تنمو اليوم P. somniferum في الحدائق
والبراري في معظم أنحاء العالم ، بما في ذلك الولايات المتحدة وأوروبا. لا
يكاد يوجد سوبر ماركت في العالم لا يبيع بذوره.
- >-
نشأت الجمال من أمريكا الشمالية. تشير الأدلة الأحفورية إلى أن كاميلوبس ،
رائد الجمل الحديث ، ظهر في الحي الذي كان يعيش فيه قبل 2.5 مليون سنة ،
وقد انتقلت هذه الحيوانات من الأمريكتين منذ 10000 عام ، لكن أقاربها
هاجروا إلى آسيا ثم أفريقيا ، حيث بقوا على قيد الحياة. اليوم ، هذه هي
الإبل الحقيقية ، الدروماري والبكتريا. نحن نعلم أيضًا أن الإبل في أمريكا
الجنوبية ، بما في ذلك اللاما ، والألبكة ، وغواناكو ، وفيكونا ، فيكو ،
نشأت من. يمكن العثور على روابط Camelops للمزيد. معلومة
- source_sentence: هل توجد مخازن في الجهاز الهضمي
sentences:
- >-
كازينو - لعبة ورق يتم فيها أخذ البطاقات على الطاولة وبطاقات مؤهلة في
اليد. كاسينو. لعبة الورق ، البطاقات - لعبة تلعب بأوراق اللعب. الكازينو
الملكي - أحد أشكال الكازينو حيث تحتوي بطاقات الوجه على قيم نقاط إضافية.
كازينو الأشياء بأسمائها الحقيقية - أحد أشكال الكازينو حيث تكون قيمة
البستوني نقطة واحدة.
- >-
بي دي إف. نص. أصلي. الإنسان كائن معقد لأن الإنسان يتكون من تريليونات من
الخلايا والكثير من الأجهزة والأعضاء ، ومن بعض الأجهزة الرئيسية أجهزة
الدورة الدموية والجهاز الهيكلي والجهاز الهضمي والجهاز العصبي والجهاز
التنفسي. نص. أصلي. الإنسان كائن حي معقد لأن الإنسان يتكون من تريليونات
من الخلايا والكثير من الأجهزة والأعضاء ، ومن بعض الأجهزة الرئيسية أجهزة
الدورة الدموية والجهاز الهيكلي والجهاز الهضمي والجهاز العصبي والجهاز
التنفسي.
- >-
1 إطلاق الماء والأحماض والإنزيمات والمخازن بواسطة الجهاز الهضمي والأعضاء
الملحقة في تجويف الجهاز الهضمي. 2 الامتصاص. 3 حركة الجزيئات العضوية
الصغيرة ، والإلكتروليتات ، والفيتامينات ، والمياه عبر ظهارة الجهاز
الهضمي وإلى الدم والجهاز الليمفاوي والجهاز الهضمي (وتسمى أيضًا القناة
الهضمية أو الجهاز الهضمي). 1 الجهاز الهضمي عبارة عن أنبوب مستمر يمتد من
الفم إلى فتحة الشرج. 2 ويشمل الأعضاء التالية: 3 فم. 4 بلعوم. 5 مريء. 6
بطن. 7 ـ الأمعاء الدقيقة. 8 الأمعاء الغليظة.
model-index:
- name: BERT base trained on Arabic NLI triplets
results:
- task:
type: triplet
name: Triplet
dataset:
name: ar nli dev
type: ar-nli-dev
metrics:
- type: cosine_accuracy
value: 0.738
name: Cosine Accuracy
- type: dot_accuracy
value: 0.295
name: Dot Accuracy
- type: manhattan_accuracy
value: 0.763
name: Manhattan Accuracy
- type: euclidean_accuracy
value: 0.708
name: Euclidean Accuracy
- type: max_accuracy
value: 0.763
name: Max Accuracy
BERT base trained on Arabic NLI triplets
This is a sentence-transformers model finetuned from aubmindlab/bert-base-arabertv02. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: aubmindlab/bert-base-arabertv02
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 tokens
- Similarity Function: Cosine Similarity
- Language: ar
- License: apache-2.0
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'هل توجد مخازن في الجهاز الهضمي',
'1 إطلاق الماء والأحماض والإنزيمات والمخازن بواسطة الجهاز الهضمي والأعضاء الملحقة في تجويف الجهاز الهضمي. 2 الامتصاص. 3 حركة الجزيئات العضوية الصغيرة ، والإلكتروليتات ، والفيتامينات ، والمياه عبر ظهارة الجهاز الهضمي وإلى الدم والجهاز الليمفاوي والجهاز الهضمي (وتسمى أيضًا القناة الهضمية أو الجهاز الهضمي). 1 الجهاز الهضمي عبارة عن أنبوب مستمر يمتد من الفم إلى فتحة الشرج. 2 ويشمل الأعضاء التالية: 3 فم. 4 بلعوم. 5 مريء. 6 بطن. 7 ـ الأمعاء الدقيقة. 8 الأمعاء الغليظة.',
'بي دي إف. نص. أصلي. الإنسان كائن معقد لأن الإنسان يتكون من تريليونات من الخلايا والكثير من الأجهزة والأعضاء ، ومن بعض الأجهزة الرئيسية أجهزة الدورة الدموية والجهاز الهيكلي والجهاز الهضمي والجهاز العصبي والجهاز التنفسي. نص. أصلي. الإنسان كائن حي معقد لأن الإنسان يتكون من تريليونات من الخلايا والكثير من الأجهزة والأعضاء ، ومن بعض الأجهزة الرئيسية أجهزة الدورة الدموية والجهاز الهيكلي والجهاز الهضمي والجهاز العصبي والجهاز التنفسي.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Triplet
- Dataset:
ar-nli-dev
- Evaluated with
TripletEvaluator
Metric | Value |
---|---|
cosine_accuracy | 0.738 |
dot_accuracy | 0.295 |
manhattan_accuracy | 0.763 |
euclidean_accuracy | 0.708 |
max_accuracy | 0.763 |
Training Details
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 16per_device_eval_batch_size
: 16learning_rate
: 2e-05num_train_epochs
: 1warmup_ratio
: 0.1fp16
: Truebatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseeval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseeval_use_gather_object
: Falsebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | ar-nli-dev_max_accuracy |
---|---|---|---|
0 | 0 | - | 0.763 |
0.0640 | 100 | 1.2212 | - |
0.1280 | 200 | 0.4768 | - |
0.1919 | 300 | 0.4315 | - |
0.2559 | 400 | 0.3696 | - |
0.3199 | 500 | 0.3762 | - |
0.3839 | 600 | 0.327 | - |
0.4479 | 700 | 0.3332 | - |
0.5118 | 800 | 0.3227 | - |
0.5758 | 900 | 0.3311 | - |
0.6398 | 1000 | 0.2997 | - |
0.7038 | 1100 | 0.2991 | - |
0.7678 | 1200 | 0.2823 | - |
0.8317 | 1300 | 0.2663 | - |
0.8957 | 1400 | 0.2776 | - |
0.9597 | 1500 | 0.2651 | - |
Framework Versions
- Python: 3.10.14
- Sentence Transformers: 3.1.1
- Transformers: 4.44.2
- PyTorch: 2.4.0
- Accelerate: 0.34.2
- Datasets: 3.0.0
- Tokenizers: 0.19.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}