Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper
• 1908.10084 • Published
• 12
This is a sentence-transformers model finetuned from AITeamVN/Vietnamese_Embedding. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("Savoxism/vietnamese-legal-embedding-finetuned")
# Run inference
sentences = [
'Khu Quản lý đường bộ 1 trực thuộc Cục Đường bộ Việt Nam có nhiệm vụ và quyền hạn gì trong công tác giao thông địa phương?',
'c) Tham gia ý kiến về chuyển đổi giữa đường địa phương và quốc lộ. 7. Về quản lý vận tải, phương tiện và người lái: a) Quản lý, cấp phát phôi giấy phép vận tải đường bộ quốc tế, phôi giấy phép lái xe theo ủy quyền của Cục trưởng; cấp giấy phép lưu hành cho xe quá tải trọng, quá khổ giới hạn, xe bánh xích, xe vận chuyển hàng siêu trường, siêu trọng theo quy định của pháp luật; b) Tham gia hướng dẫn, kiểm tra việc thực hiện quy định về kinh doanh, điều kiện kinh doanh vận tải bằng xe ô tô và dịch vụ hỗ trợ vận tải đường bộ tại các địa phương trong khu vực quản lý; c) Tham gia kiểm tra, giám sát công tác quản lý phương tiện, đào tạo, sát hạch, cấp giấy phép lái xe cơ giới đường bộ và chứng chỉ bồi dưỡng kiến thức pháp luật cho người điều khiển xe máy chuyên dùng tham gia giao thông đường bộ; ...',
'Vị trí và chức năng\n1. Khu Quản lý đường bộ I là tổ chức trực thuộc Cục Đường bộ Việt Nam, thực hiện chức năng tham mưu, giúp Cục trưởng Cục Đường bộ Việt Nam (sau đây gọi tắt là Cục trưởng) quản lý nhà nước về giao thông đường bộ trong khu vực quản lý; trực tiếp quản lý, bảo trì, khai thác, sử dụng kết cấu hạ tầng giao thông các tuyến quốc lộ và đường khác được giao trong khu vực quản lý, gồm các tỉnh, thành phố: Hà Nội, Hà Nam, Ninh Bình, Nam Định, Thái Bình, Hưng Yên, Hải Dương, Hải Phòng, Quảng Ninh, Bắc Ninh, Bắc Giang, Lạng Sơn, Cao Bằng, Bắc Kạn, Thái Nguyên, Vĩnh Phúc, Phú Thọ, Tuyên Quang, Hà Giang, Yên Bái, Lào Cai, Lai Châu, Điện Biên, Sơn La, Hòa Bình.\n2. Khu Quản lý đường bộ I là tổ chức hành chính tương đương chi cục, có tư cách pháp nhân, có con dấu, được mở tài khoản tại Kho bạc Nhà nước và có trụ sở tại thành phố Hà Nội.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
legal_dev_evalInformationRetrievalEvaluator| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.425 |
| cosine_accuracy@3 | 0.6446 |
| cosine_accuracy@5 | 0.7228 |
| cosine_accuracy@10 | 0.8038 |
| cosine_precision@1 | 0.425 |
| cosine_precision@3 | 0.2149 |
| cosine_precision@5 | 0.1446 |
| cosine_precision@10 | 0.0804 |
| cosine_recall@1 | 0.425 |
| cosine_recall@3 | 0.6446 |
| cosine_recall@5 | 0.7228 |
| cosine_recall@10 | 0.8038 |
| cosine_ndcg@10 | 0.6131 |
| cosine_mrr@10 | 0.5521 |
| cosine_map@100 | 0.5587 |
sentence_0, sentence_1, and sentence_2| sentence_0 | sentence_1 | sentence_2 | |
|---|---|---|---|
| type | string | string | string |
| details |
|
|
|
| sentence_0 | sentence_1 | sentence_2 |
|---|---|---|
Hồ sơ thanh toán trực tiếp được pháp luật quy định như thế nào? |
"Điều 28. Hồ sơ đề nghị thanh toán trực tiếp |
Nội dung giám định hồ sơ thanh toán trực tiếp |
Hạn chót đăng ký nguyện vọng 2023 là ngày bao nhiêu? Hết hạn đăng ký nguyện vọng thì thí sinh còn đăng ký được nữa không? |
thoại hỗ trợ công tác tuyển sinh để được hướng dẫn. |
ngày hết thời hạn nộp hồ sơ đăng ký dự thi hoặc xét thăng hạng. |
Các trường hợp nào bị tạm hoãn xuất cảnh? |
bị dịch bệnh nguy hiểm lây lan, truyền nhiễm và xét thấy cần ngăn chặn ngay, không để dịch bệnh lây lan, truyền nhiễm ra cộng đồng, trừ trường hợp được phía nước ngoài cho phép nhập cảnh. 9. Bộ trưởng Bộ Quốc phòng, Bộ trưởng Bộ Công an có thẩm quyền quyết định tạm hoãn xuất cảnh đối với trường hợp quy định tại khoản 9 Điều 36 của Luật này. 10. Người có thẩm quyền quy định tại các khoản 1, 2, 3, 4, 5, 6 và 7 Điều này chỉ được ra quyết định tạm hoãn xuất cảnh trong phạm vi nhiệm vụ, quyền hạn của mình và đối với trường hợp liên quan đến vụ án, vụ việc đang thuộc thẩm quyền giải quyết. 11. Người có thẩm quyền ra quyết định tạm hoãn xuất cảnh thì có thẩm quyền ra quyết định gia hạn, hủy bỏ quyết định tạm hoãn xuất cảnh và phải chịu trách nhiệm trước pháp luật về quyết định của mình. 12. Trong trường hợp đặc biệt, Bộ trưởng Bộ Công an thống nhất với người ra quyết định tạm hoãn xuất cảnh về việc cho phép người bị tạm hoãn xuất cảnh được xuất cảnh. |
Các trường hợp bị tạm hoãn xuất cảnh 1. Bị can, bị cáo; người bị tố giác, người bị kiến nghị khởi tố mà qua kiểm tra, xác minh có căn cứ xác định người đó bị nghi thực hiện tội phạm và xét thấy cần ngăn chặn ngay việc người đó trốn hoặc tiêu hủy chứng cứ theo quy định của Bộ luật Tố tụng hình sự. 2. Người được hoãn chấp hành án phạt tù, người được tạm đình chỉ chấp hành án phạt tù, người được tha tù trước thời hạn có điều kiện trong thời gian thử thách, người được hưởng án treo trong thời gian thử thách, người chấp hành án phạt cải tạo không giam giữ trong thời gian chấp hành án theo quy định của Luật Thi hành án hình sự. 3. Người có nghĩa vụ theo quy định của pháp luật về tố tụng dân sự nếu có căn cứ cho thấy việc giải quyết vụ án có liên quan đến nghĩa vụ của họ đối với Nhà nước, cơ quan, tổ chức, cá nhân và việc xuất cảnh của họ ảnh hưởng đến việc giải quyết vụ án, lợi ích của Nhà nước, quyền và lợi ích hợp pháp của cơ quan, tổ chức, cá nhân hoặc để bảo đảm việc thi hành án. 4. Ngườ... |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
eval_strategy: stepsper_device_train_batch_size: 4per_device_eval_batch_size: 4num_train_epochs: 1multi_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 4per_device_eval_batch_size: 4per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: round_robin| Epoch | Step | legal_dev_eval_cosine_ndcg@10 |
|---|---|---|
| 0.0178 | 200 | 0.6131 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}