metadata
language: []
library_name: sentence-transformers
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- dataset_size:10K<n<100K
- loss:ContrastiveLoss
base_model: rufimelo/Legal-BERTimbau-large
widget:
- source_sentence: Critério, cobrança, Taxa de juros, Cheque especial
sentences:
- >-
Critério, limitação, Taxa de juros, cheque especial, cartão de crédito,
Instituição Financeira.
- >-
Alteração, Lei Antifumo, teor alcoólico, bebida alcoólica, propaganda
comercial, rótulo, embalagem, advertência.
- >-
Alteração, Código Penal, tipicidade, crime, exercício ilegal da
profissão, tecnólogo, técnico em radiologia, falta, habilitação
profissional.
- source_sentence: Inclusão, Cerrado, Caatinga, Patrimônio da União.
sentences:
- Inclusão, cerrado, caatinga, patrimônio da União.
- >-
Título de Capital Nacional, Capital Nacional do Alimento, Marília (SP),
São Paulo (Estado), Título de Topônimo.
- >-
Proibição, Robocalls, Empresa de call center, telemarketing,
procedimento, ligação telefônica, infração, multa.
- source_sentence: Regulamentação, profissão, Terapeuta Ocupacional.
sentences:
- >-
Alteração, Lei Orgânica da Saúde, Assistência terapêutica integral,
critério, Dispensação de medicamento.
- >-
Alteração, Código de Processo Civil, critérios, adjudicação, bens
imóveis, autorização, aplicação, bens móveis.
- >-
Alteração, Código Penal, tipicidade penal, desrespeito à ordem de
vacinação, violação, ordem de prioridade, vacinação.
- source_sentence: Isenção, taxa, pedágio, rodovia federal, motocicleta.
sentences:
- >-
Alteração, decreto-lei federal, concessão, isenção, pagamento, pedágio,
motocicleta, ciclomotor, triciclo.
- "Suspensão, cobrança, juros, cheque especial, cartão de crédito, pandemia, coronavírus. Emergência social.\r\n\r\n"
- Oferta, Absorvente feminino, unidade de saúde, Atenção primária à saúde.
- source_sentence: Criação, Dia Nacional, Verdade, comemoração, outubro.
sentences:
- 'Criação, Dia Nacional do Perito Odontolegista, comemoração, setembro. '
- >-
Alteração, Lei de Participação nos Lucros das Empresas, garantia,
autorização, abertura, comércio, domingo, feriado.
- >-
Alteração, Estatuto do Idoso, requisito, exercício profissional,
cuidador de idosos. _Poder público, estímulo, adoção, idoso, campanha
educativa.
pipeline_tag: sentence-similarity
SentenceTransformer based on rufimelo/Legal-BERTimbau-large
This is a sentence-transformers model finetuned from rufimelo/Legal-BERTimbau-large. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: rufimelo/Legal-BERTimbau-large
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 1024 tokens
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("josedossantos/urf-txtIndexacao-legalbertimbau")
# Run inference
sentences = [
'Criação, Dia Nacional, Verdade, comemoração, outubro.',
'Criação, Dia Nacional do Perito Odontolegista, comemoração, setembro. ',
'Alteração, Lei de Participação nos Lucros das Empresas, garantia, autorização, abertura, comércio, domingo, feriado. ',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
Unnamed Dataset
- Size: 10,962 training samples
- Columns:
sentence_0
,sentence_1
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 label type string string int details - min: 10 tokens
- mean: 51.67 tokens
- max: 402 tokens
- min: 13 tokens
- mean: 53.91 tokens
- max: 402 tokens
- 0: ~51.50%
- 1: ~48.50%
- Samples:
sentence_0 sentence_1 label Alteração, prorrogação, prazo, anistia, estrangeiro, ilegalidade, País, Brasil, requerimento, órgão público, registro provisório, visto de passaporte, regularização, permanência, território nacional.
Alteração, Lei de Anistia ao Servidor Público, inclusão, beneficiário, anistia, ex-servidor, empregado, órgão público, empresa estatal, vinculação, Administração Pública.
0
Alteração, Código Civil (2002), extinção, cobrança, laudêmio, transmissão, bem aforado.
Alteração, Código Civil, autorização, cobrança, laudêmio, transmissão, bens, aforamento, aplicação de recursos, manutenção, entidade, instituição assistencial, instituição religiosa, obra filantrópica.
1
Alteração, Código Penal, crime contra a liberdade sexual, tipicidade penal, violação sexual mediante fraude, utilização, sedação, reclusão.
Alteração, Lei Caó, crime, fabricação, comercialização, distribuição, símbolo, emblema, divulgação, nazismo, fascismo, racismo, xenofobia, separatismo.
0
- Loss:
ContrastiveLoss
with these parameters:{ "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE", "margin": 0.5, "size_average": true }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size
: 2per_device_eval_batch_size
: 2num_train_epochs
: 1multi_dataset_batch_sampler
: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseprediction_loss_only
: Trueper_device_train_batch_size
: 2per_device_eval_batch_size
: 2per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falsefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: round_robin
Training Logs
Epoch | Step | Training Loss |
---|---|---|
0.0912 | 500 | 0.033 |
0.1824 | 1000 | 0.0247 |
0.2737 | 1500 | 0.0227 |
0.3649 | 2000 | 0.0194 |
0.4561 | 2500 | 0.0177 |
0.5473 | 3000 | 0.0173 |
0.6386 | 3500 | 0.0138 |
0.7298 | 4000 | 0.0127 |
0.8210 | 4500 | 0.0111 |
0.9122 | 5000 | 0.0107 |
Framework Versions
- Python: 3.10.14
- Sentence Transformers: 3.0.0
- Transformers: 4.39.3
- PyTorch: 2.2.0
- Accelerate: 0.30.1
- Datasets: 2.14.4
- Tokenizers: 0.15.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
ContrastiveLoss
@inproceedings{hadsell2006dimensionality,
author={Hadsell, R. and Chopra, S. and LeCun, Y.},
booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)},
title={Dimensionality Reduction by Learning an Invariant Mapping},
year={2006},
volume={2},
number={},
pages={1735-1742},
doi={10.1109/CVPR.2006.100}
}