SentenceTransformer based on vinai/phobert-base-v2

This is a sentence-transformers model finetuned from vinai/phobert-base-v2 on the dataset_full_fixed dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: vinai/phobert-base-v2
  • Maximum Sequence Length: 256 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("phobert-base-v2-mnr")
# Run inference
sentences = [
    'Chỉ thỉnh thoảng e mới mang thôi, còn lại thì\r\nem chỉ mang giày đề bệt hoặc mang dép. Em cũng không hề làm việc gì nặng nhọc. Xin bác sĩ hãy giải thích giùm em và có cách nào để chữa trị không ạ? Em xin\r\ncám ơn. (Phương Mai-Đà nẵng) BS Châu Thị Kiều Oanh: Phương Mai mến, Chân nổi gân xanh, tức nổi tĩnh mạch\r\nlà do giãn tĩnh mạch. Nguyên nhân có thể do di truyền, do làm việc chân tay\r\nnhiều, do mang thai, do nghề nghiệp phải đứng ngồi lâu (thợ cắt tóc, thợ dệt,\r\ncảnh sát giao thông, thợ may, tài xế)... Thường gặp ở nữ nhiều hơn nam do ảnh\r\nhưởng của nội tiết tố oestrogen. Ngoài việc mất thẫm mỹ, dãn tĩnh\r\nmạch còn gây phù, đau nhức, đứng lâu nặng trĩu chân rất khó chịu. Điều trị có nhiều biện pháp: - Dùng băng ép nhằm giảm đường kính\r\nlòng tĩnh mạch để tăng khả năng lưu thông máu. - Uống các thuốc làm vững bền thành\r\nmạch như daflon, rutin C... , các thuốc làm xơ hóa lòng mạch. - Tiêm gây xơ tại chỗ. - Phẫu thuật lấy bỏ các tĩnh mạch\r\nnông bị giãn. Hạn chế bệnh nặng hơn bằng cách\r\nkhông đứng ngồi lâu (nếu cần phải thay đổi công việc), tránh ngồi xổm, hoặc đi\r\ngiày cao gót; khi nằm ngồi nên kê chân cao; cần giảm trọng lượng nếu béo phì;\r\năn nhiều chất xơ uống nhiều nước để tránh táo bón; mang vớ y khoa nhằm ép tĩnh\r\nmạch nông, giúp cho tuần hoàn máu được tốt hơn; cần tập thể dục… Em nên đi khám để được siêu âm mạch\r\nmáu tay chân và điều trị nhé.',
    '(AloBacsi) - Năm nay em 25 tuổi, không hiểu sao dạo gần đây tay chân em lại nổi gân lên, mặc dù em rất ít mang giày cao gót',
    'Thưa BS,\r\n\r\nCháu năm nay 18 tuổi, giới tính nam. Trước đây cháu có bị mồ hôi nách sau đó cháu có sử dụng phèn chua và gừng đề chà xát vào nách. Sau đó mồ hôi nách cháu có biểu hiện ra nhiều hơn và đau rát nách nhưng vùng nách của cháu không xuất hiện nốt hay biểu hiện gì.\r\n\r\nVà sau đó cháu còn bị kèm thêm triệu chứng hay bị ra mồ hôi ở trán và toàn thân hoạt động 1 lúc thì mồ hôi ra rất nhiều.\r\n\r\nCháu đã đi khám ở nhiều BV khoa da liễu nhưng vẫn không khỏi bệnh. Cháu mong BS tư vấn cho cháu. Cháu xin cảm ơn!\r\n\r\n(Đặng Đình Đ. - Hà Nội)',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.643
cosine_accuracy@3 0.7683
cosine_accuracy@5 0.8125
cosine_accuracy@10 0.8696
cosine_precision@1 0.643
cosine_precision@3 0.2561
cosine_precision@5 0.1625
cosine_precision@10 0.087
cosine_recall@1 0.643
cosine_recall@3 0.7683
cosine_recall@5 0.8125
cosine_recall@10 0.8696
cosine_ndcg@10 0.7538
cosine_mrr@10 0.717
cosine_map@100 0.7221

Training Details

Training Dataset

dataset_full_fixed

  • Dataset: dataset_full_fixed at ef2e7fd
  • Size: 54,755 training samples
  • Columns: positive and query
  • Approximate statistics based on the first 1000 samples:
    positive query
    type string string
    details
    • min: 46 tokens
    • mean: 187.53 tokens
    • max: 256 tokens
    • min: 6 tokens
    • mean: 74.57 tokens
    • max: 256 tokens
  • Samples:
    positive query
    Thưa bác Nguyễn Hân, Đau lưng là triệu chứng chung chung của nhiều bệnh lý, là triệu chứng thông thường mà bệnh nhân thường than thở với thầy thuốc, có thể là đau lưng sinh lý, xuất hiện sau một ngày làm việc mệt nhọc, hoặc do tư thế ngồi một chỗ, ít vận động, ít tập thể dục. Tuy nhiên, đau lưng cũng có thể là biểu hiện của một số bệnh đáng lo ngại. Các nguyên nhân thường gặp: thoái hóa cột sống, đau thần kinh tọa, thoát vị đĩa đệm, sỏi thận, loãng xương…Đau lưng chưa hẳn là do thận, bác đã siêu âm kết quả không sỏi, không ứ nước thì đau lưng của bác không phải do thận. Bác nên cố gắng vận động tập thể dục dưỡng sinh mỗi ngày khoảng 30 phút để tăng cường sức đề kháng, tăng sức bền, cột sống được dẻo dai. Để phòng ngừa loãng xương do thiếu canxi bác uống thêm sữa canxi mỗi ngày một ly và ăn nhiều hải sản (nếu bác không bị gout). Nếu bác thấy bệnh không thuyên giảm bác nên đi BV khám, tùy theo bệnh lý, các BS sẽ cho bác làm một số xét nghiệm để hổ trợ cho việc chẩn đoán và điều trị. Chúc... Thưa bác sĩ,


    Tôi 59 tuổi (nữ), 2 tháng gần đây tôi thấy mỏi vùng lưng chỗ 2 quả thận, nghe nặng nặng, khó chịu. Lấy tay xoa xoa thì đỡ mỏi. Đi siêu âm thì thận không ứ nước. Tôi vẫn đi tiểu bình thường. Tôi có bị gì không, có cần làm xét nghiệm không? Xin cám ơn BS.
    - nguồn internet Chào bạn Nhung, Bạn được chẩn đoán cường giáp (dựa vào các dấu hiệu lâm sàng và xét nghiệm bạn cung cấp cho AloBacsi: TSH giảm, FT3 FT4 tăng). Các chỉ nói lên tình trạng tuyến giáp tăng hoạt động… chứ không đánh giá sức khỏe nói chung của bệnh nhân. Các chỉ số này thay đổi tùy phòng xét nghiệm, và không chỉ dựa vào mỗi một chỉ số để kết luận sức khỏe ổn hay không, các BS còn phải dựa vào lâm sàng nữa. Tóm lại, bạn nhớ tái khám định kỳ theo hẹn, vì Thyrozol không uống liều cố định mà sẽ giảm liều (hay tăng liều) theo lâm sàng và xét nghiệm nội tiết tố tuyến giáp của bệnh nhân. Thân mến, Chào BS,


    Đầu tháng 4 em thấy người mệt mỏi, cổ họng khó nuốt và chảy máu ít, lười ăn, chân tay mỏi, khó ngủ, sụt cân nhiều nên đi khám ở BV Đại học Y dược. BS chẩn đoán em bị cường giáp.


    Kết quả xét nghiệm:

    TSH < 0.005, trị số bình thường 0.27 - 4.5 uIU/ml

    FT4.23.82, trị số bình thường 12-22 pmol/l


    Hiện em uống thuốc Thyrozol, 6 viên/ ngày. AloBacsi cho em hỏi chỉ số trên nói lên điều gì về tình trạng sức khỏe của người mắc cường giáp? Và chỉ số bao nhiêu là sức khỏe ổn định? Chân thành cảm ơn BS.
    Tìm hiểu chung hội chứng người sói Hội chứng người sói là bệnh lý gì? Hội chứng người sói (Hypertrichosis) là một tình trạng hiếm gặp, đặc trưng bởi tình trạng lông mọc quá mức, có thể mọc khắp cơ thể hoặc chỉ mọc riêng lẻ ở một số vùng cụ thể. Hội chứng người sói có thể là bẩm sinh (tức là xuất hiện khi mới sinh) hoặc mắc phải (tức là phát sinh sau này trong cuộc sống). Phân loại trong hội chứng người sói bao gồm như: Hội chứng người sói bẩm sinh với lông tơ: Lần đầu tiên nó xuất hiện dưới dạng lông tơ bình thường, sợi lông mịn được tìm thấy trên em bé khi mới sinh. Nhưng thay vì biến mất trong những tuần tiếp theo, những sợi lông mềm mịn vẫn tiếp tục mọc ở nhiều nơi trên cơ thể bé. Hội chứng người sói bẩm sinh với lông Terminal: Sự phát triển lông bất thường bắt đầu từ khi sinh ra và tiếp tục trong suốt cuộc đời của người mắc. Lông thường dài và dày, che phủ khuôn mặt và cơ thể của người đó. Hội chứng người sói Nevoid: Sự phát triển quá mức của bất kỳ loại lông nào xuất hiện ở một kh... Tìm hiểu chung hội chứng người sói
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 20
  • per_device_eval_batch_size: 20
  • learning_rate: 1e-06
  • num_train_epochs: 5
  • lr_scheduler_type: constant_with_warmup
  • warmup_ratio: 0.1
  • bf16: True
  • tf32: False
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 20
  • per_device_eval_batch_size: 20
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 1e-06
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: constant_with_warmup
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: False
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss dim_768_cosine_ndcg@10
0.0456 100 2.7448 -
0.0913 200 2.6352 -
0.1369 300 2.2428 -
0.1826 400 1.4994 -
0.2282 500 0.739 -
0.2738 600 0.4447 -
0.3195 700 0.3981 -
0.3651 800 0.3488 -
0.4108 900 0.3181 -
0.4564 1000 0.2791 -
0.5021 1100 0.2307 -
0.5477 1200 0.2203 -
0.5933 1300 0.2233 -
0.6390 1400 0.2094 -
0.6846 1500 0.1915 -
0.7303 1600 0.1533 -
0.7759 1700 0.1625 -
0.8215 1800 0.1947 -
0.8672 1900 0.1638 -
0.9128 2000 0.1603 -
0.9585 2100 0.1717 -
1.0 2191 - 0.6736
1.0041 2200 0.1485 -
1.0497 2300 0.1354 -
1.0954 2400 0.1479 -
1.1410 2500 0.1407 -
1.1867 2600 0.1546 -
1.2323 2700 0.1287 -
1.2780 2800 0.117 -
1.3236 2900 0.118 -
1.3692 3000 0.1334 -
1.4149 3100 0.1251 -
1.4605 3200 0.1164 -
1.5062 3300 0.1219 -
1.5518 3400 0.1146 -
1.5974 3500 0.1145 -
1.6431 3600 0.1251 -
1.6887 3700 0.1187 -
1.7344 3800 0.108 -
1.7800 3900 0.0967 -
1.8257 4000 0.1114 -
1.8713 4100 0.1154 -
1.9169 4200 0.1102 -
1.9626 4300 0.1119 -
2.0 4382 - 0.7210
2.0082 4400 0.0917 -
2.0539 4500 0.0913 -
2.0995 4600 0.0925 -
2.1451 4700 0.0854 -
2.1908 4800 0.1079 -
2.2364 4900 0.084 -
2.2821 5000 0.1035 -
2.3277 5100 0.0902 -
2.3733 5200 0.1084 -
2.4190 5300 0.0989 -
2.4646 5400 0.0795 -
2.5103 5500 0.1156 -
2.5559 5600 0.0831 -
2.6016 5700 0.0808 -
2.6472 5800 0.0872 -
2.6928 5900 0.1014 -
2.7385 6000 0.0897 -
2.7841 6100 0.0666 -
2.8298 6200 0.0979 -
2.8754 6300 0.0866 -
2.9210 6400 0.0733 -
2.9667 6500 0.1008 -
3.0 6573 - 0.7379
3.0123 6600 0.0931 -
3.0580 6700 0.0872 -
3.1036 6800 0.0906 -
3.1492 6900 0.0778 -
3.1949 7000 0.0813 -
3.2405 7100 0.0848 -
3.2862 7200 0.0813 -
3.3318 7300 0.0678 -
3.3775 7400 0.0905 -
3.4231 7500 0.0697 -
3.4687 7600 0.0838 -
3.5144 7700 0.0763 -
3.5600 7800 0.0706 -
3.6057 7900 0.0598 -
3.6513 8000 0.0772 -
3.6969 8100 0.0729 -
3.7426 8200 0.0887 -
3.7882 8300 0.0745 -
3.8339 8400 0.0823 -
3.8795 8500 0.083 -
3.9251 8600 0.0636 -
3.9708 8700 0.0636 -
4.0 8764 - 0.7499
4.0164 8800 0.0855 -
4.0621 8900 0.0732 -
4.1077 9000 0.0637 -
4.1534 9100 0.0709 -
4.1990 9200 0.0772 -
4.2446 9300 0.0791 -
4.2903 9400 0.0747 -
4.3359 9500 0.067 -
4.3816 9600 0.0703 -
4.4272 9700 0.0681 -
4.4728 9800 0.0591 -
4.5185 9900 0.0793 -
4.5641 10000 0.0755 -
4.6098 10100 0.0629 -
4.6554 10200 0.0659 -
4.7010 10300 0.0657 -
4.7467 10400 0.0762 -
4.7923 10500 0.0608 -
4.8380 10600 0.085 -
4.8836 10700 0.0646 -
4.9293 10800 0.0605 -
4.9749 10900 0.0713 -
5.0 10955 - 0.7538
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.16
  • Sentence Transformers: 3.4.1
  • Transformers: 4.51.3
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.5.2
  • Datasets: 3.3.2
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
7
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for thang1943/phobert-base-v2-mnr

Finetuned
(291)
this model

Dataset used to train thang1943/phobert-base-v2-mnr

Evaluation results