SentenceTransformer based on vinai/phobert-base-v2

This is a sentence-transformers model finetuned from vinai/phobert-base-v2. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: vinai/phobert-base-v2
  • Maximum Sequence Length: 256 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("phobert-base-v2-c-loss")
# Run inference
sentences = [
    'Xin bác sĩ cho tôi hỏi: Cách đây 1 tháng tôi có đi kiểm tra xét nghiệm máu kết quả:   - Anti- HCV nhanh -   Dương tính   - AST                22 /37U/L   - ALT                20/ 40 U/L   - GGT                60/50 U/L   - Sắt              556.1 / 4.6 -275.0 ng/ml Bệnh viện quận chuyển tuyến tôi lên tỉnh và tôi xét nghiệm chuyên sâu để điều trị; Huyết học, sinh hoá, siêu âm tổng quát , định lượng HCV-RNA, định genotype kết quả tất cả men gan điều trong ngưỡng ( tốt), sắt cao, siêu âm các bộ phận đều tốt, riêng gan nhiễm mỡ. - Định lượng HCV–RNA kết quả dưới ngưỡng phát hiện - Định genotype  kết quả không định được Bác sĩ nói kết quả dưới ngưỡng không có chỉ định điều trị theo phác đồ, và cho tôi toa thuốc hổ trợ gan và hẹn tôi 3-4 tháng xuống xét nghiệm lại. Xin hỏi bác sĩ: Tôi bị viêm gan C cấp tính hay mãn tính. Tôi tìm hiểu trên mạng khi bị viêm gan C phải kiểm tra luôn định tính của bệnh (HCV-RNA) nhưng bác sĩ ở tỉnh không chỉ định xét nghiệm. Vậy virus viêm gan C của tôi còn không? Và lượng sắt trong máu cao có nguy hiểm không mà bác sĩ không chỉ định điều trị. Hiện nay cơ thể tôi hơi mệt, ăn chậm tiêu, hay buồn ngủ. Kính mong bác sĩ tư vấn giúp tôi. Xin thành thật cảm ơn. (Trần Long - Đông Nai)',
    'Xin chào Quốc Ngọc, Bạn chưa cho AloBacsi biết đã bao nhiêu tuổi? Và triệu chứng tê tay của bạn cũng còn sơ sài quá: - Tê đều cả hai tay, hai chân cả ngày hay chỉ tê tay chân một vùng nào đó như bàn tay, bàn chân? - Mức độ tê nhiều hay ít? - Có giảm cảm giác nhiều không? - Khi nào tê xuất hiện? Tê tăng khi nào? -Tê ngày một nhiều hơn không? - Tê có kèm yếu tay chân không? Tê tay chân do nhiều nguyên nhân như: viêm dây thần kinh, tê do chèn ép thần kinh (hội chứng ống cổ tay, thoát vị đĩa đệm), tê ở bệnh nhân đái tháo đường có biến chứng thần kinh, do thiếu canxi huyết,… Bạn nên tái khám tại chuyên khoa Thần kinh để được khám trực tiếp, chẩn đoán nguyên nhân và điều trị. Thân ái chào bạn!',
    'Thế Anh thân mến! Vùng mũi họng có một hệ thống các tổ chức lympho gồm các amydale (amidan) là: - Amygdale vòm (gọi là VA hay bị viêm lúc nhỏ, khi có biến chứng BS phải nạo đi) - Amygdale quanh lỗ tai vòi (là đường thông từ tai giữa xuống mũi) - Amygdale họng (là bộ phận hay viêm, mổ BS sẽ lấy nó đi) - Amygdale lưỡi (khi sờ tay vào sâu trong lưỡi có cảm giác sờ vào các hạt) - Các amygdale trên tạo thành một vòng bạch huyết, là tuyến đầu giúp cơ thể phát hiện, cảnh báo, ngăn chặn sự xâm nhập của các tác nhân gây bệnh từ ngoài vào. Hoạt động mạnh từ khi sinh ra cho tới 5-7 tuổi, khi lượng kháng thể đã đáp ứng cho nhu cầu bảo vệ của cơ thể thì chức năng sinh học của chúng giảm dần và sẽ teo đi. Bạn viêm amygdale mạn kéo dài nhiều tháng, nay tái phát hồi viêm (bị đau họng, nhức lắm: tức đang bị viêm cấp, hay viêm tấy quanh amygdale) nên làm cho hạch cổ sưng to, đồng thời làm cho viêm mũi xoang (không loại trừ viêm phế quản): khạc ra dịch nhầy, đôi khi có lẫn chút máu đỏ. Bạn đã có biến chứng (mũi, xoang, họng...), bệnh kéo dài và tái phát nhanh, mặc dù đã điều trị tích cực nhưng đáp ứng kém với điều trị nội khoa, đây là một trong những chỉ định của cắt amygdale. Năm nay bạn 18 tuổi nên việc cắt amygdale viêm mạn sẽ không ảnh hưởng tới sức khỏe (nếu amygdale là ổ nhiễm trùng, viêm thường xuyên thì việc cắt bỏ là cần thiết). Tuy nhiên bạn nên tới BS chuyên khoa Tai mũi họng để có chỉ định điều trị cụ thể. Trước khi thực hiện phẫu thuật các BS sẽ khám kỹ về tai mũi họng, khám nội khoa: tim mạch, hô hấp dưới, huyết học, dị ứng..., các tiền căn cá nhân, gia đình để đánh giá tổng trạng chung, phát hiện các bệnh lý và các bất thường về sức khỏe khác đi kèm, nếu được BS mới tiến hành phẫu thuật, nên bạn yên tâm. Tai biến trong và sau phẫu thuật có tỷ lệ cực nhỏ, rất hiếm gặp. Theo tài liệu của bộ môn Tai mũi họng, ĐH Y Dược TPHCM, tỷ lệ tử vong do cắt amygdale từ 1/10.000 -1/40.000. Bạn tham khảo thêm câu hỏi sau nhé: >> Chúc bạn mau chóng bình phục sức khỏe!',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.4934
cosine_accuracy@3 0.641
cosine_accuracy@5 0.6958
cosine_accuracy@10 0.7772
cosine_precision@1 0.4934
cosine_precision@3 0.2137
cosine_precision@5 0.1392
cosine_precision@10 0.0777
cosine_recall@1 0.4934
cosine_recall@3 0.641
cosine_recall@5 0.6958
cosine_recall@10 0.7772
cosine_ndcg@10 0.6291
cosine_mrr@10 0.5824
cosine_map@100 0.5904

Training Details

Training Dataset

Unnamed Dataset

  • Size: 87,606 training samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string int
    details
    • min: 5 tokens
    • mean: 78.24 tokens
    • max: 256 tokens
    • min: 31 tokens
    • mean: 185.13 tokens
    • max: 256 tokens
    • 0: ~47.90%
    • 1: ~52.10%
  • Samples:
    sentence1 sentence2 label
    Chào các BS ạ,Xin hỏi BS tôi đi khám nội soi đại tràng bệnh viện kết luận bị carcinnom biệt hoá kém, xâm nhập mô mỡ sợi là gì xin BS tư vấn giùm cảm ơn ạ! Carcinoma tức là ung thư dạng biểu mô, biệt hóa kém nghĩa là mức độ biệt hóa của tế bào ung thư Chào em, Kết quả này là hơi buồn đó bạn à, vì đây là bệnh ung thư đại tràng. "Carcinnom biệt hoá kém " là ung thư biểu mô tuyến ở đại tràng, là bệnh lý ác tính, nguy hiểm. Loại ung thư này thường xâm nhập sâu và gây di căn sớm ở hạch lympho tại chỗ. Bệnh ung thư đại tràng cần điều trị càng sớm càng tốt khi phát hiện ra bệnh. Điều trị ung thư đại tràng chủ yếu là ngoại khoa. Xạ trị và hoá trị liệu thường có tính chất hỗ trợ, có thể sử dụng đồng thời hay sau khi phẫu thuật. Bước tiếp theo BS sẽ đề nghị bạn làm thêm 1 số xét nghiệm để xác định giai đoạn của bệnh (kiểm tra thêm di căn hạch vùng, di căn xa), từ đó sẽ lên liệu trình điều trị phù hợp cho bạn, bạn nhé. 1
    Chào bác sĩ,


    Tôi có 2 cháu, cháu đầu được 13 tuổi và cháu sau được 8 tuổi, cả hai cháu khi sanh ra đều bị bất đồng nhóm máu với mẹ. Cháu đầu thì thay máu và cháu sau thì chiếu đèn. Hai cháu đều được đều trị kịp thời nên cũng không có tình trạng gòng người hay co giật. Nhưng nói chung thể trạng của 2 cháu so với những cháu bằng tuổi thì yếu hơn và không lanh lẹ.


    Bác sĩ cho tôi hỏi tôi nghe nói là bệnh vàng da nhân nếu đều trị kịp thời thì không có sao đúng không bác sĩ? Nhưng tôi thấy con tôi cháu học rất kém hầu như không tiếp thu được, có phải đó là di chứng của bệnh vàng da không?


    Tôi muốn sanh thêm 1 cháu nữa thì khả năng sanh cháu ra có bị vàng da nữa không? Người ta nói nếu sanh con gái là không bị vàng da có đúng không bác sĩ? Xin bác sĩ tư vấn, chân thành cám ơn bác sĩ rất nhiều!


    (Mỹ Hạnh - Bình Phước)
    Bạn Mỹ Hạnh thân mến, Bệnh lý giữa mẹ và con là một bệnh

    lý cần được phát hiện sớm và điều trị kịp thời. Nếu như bé được điều trị kịp thời

    (một bé phải thay máu và một bé phải chiếu đèn) như bạn trình bày sẽ không ảnh

    hưởng đến sự phát triển trí não của bé và không để lại di chứng. Còn nếu như bạn muốn tiếp tục sanh thêm bé nữa thì bệnh

    lý vẫn tiếp tục xuất hiện (dù bé đó là trai hay gái) vì một

    khi kháng thể được tạo ra thì kháng thể đó sẽ tồn tại vĩnh viễn trong máu của mẹ.
    1
    Chào BS,


    Tôi đi khám và được chẩn đoán bị nhiễm khuẩn tiết niệu và được cấp 3 loại thuốc uống là Metronidazol, Nalidixic axid, Rotudin. Nhưng khi uống 2 loại Metro và Nali thì tôi có cảm giác mệt, hoa mắt, chóng mặt giống tác dụng phụ mà trong toa thuốc đã nêu. BS cho tôi hỏi nếu tiếp tục uống thì có nguy hiểm không? Nếu đổi sang thuốc khác thì nên uống thuốc gì? Mong BS tư vấn. Cám ơn BS! (Minh Hậu – Nha Trang).
    Chào bạn, Nếu kết quả xét nghiệm của bạn về , gồm HBsAg âm tính và Anti HBs dương tính thì bạn hoàn toàn có thể hiến máu trở lại. Khi đi hiến máu bạn cần đem theo kết quả của 2 xét nghiệm trên để làm bằng chứng. Ngoài ra, như thường lệ, bạn vẫn cần phải hội tụ đủ các yêu cầu an toàn về hiến máu thì mới được tham gia hiến máu , bạn nhé. Điều kiện để được hiến máu là người hiến máu phải có: tuổi từ 18 đến 60 với nam,

    18 đến 55 với nữ. Cân nặng trên 45kg với nam và trên 43kg với nữ. Mạch

    và huyết áp đều bình thường, không cao quá cũng không thấp quá. Phụ nữ

    đang mang thai, đang "đèn đỏ", điều hòa kinh nguyệt, đang cho con bú, và

    người mới hiến máu cách đó dưới 3 tháng với nam và 4 tháng với nữ thì

    không được hiến máu, Đang / vừa khỏi cảm cúm hoặc đang uống thuốc trị

    bệnh,  Mới chích ngừa chưa được 3 tháng, Mới bị vết thương, vết cắt, nhổ

    răng dưới 1 tháng, Đang bị bệnh ngoài da thì phải tạm hoãn hiến máu. Thân mến. Câu tư vấn trước: BS.CK1 Cao Thị Lan Hương Cổng thông tin Tư...
    0
  • Loss: ContrastiveLoss with these parameters:
    {
        "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
        "margin": 0.5,
        "size_average": true
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 40
  • per_device_eval_batch_size: 40
  • learning_rate: 1e-06
  • num_train_epochs: 5
  • lr_scheduler_type: constant_with_warmup
  • warmup_ratio: 0.1
  • bf16: True
  • tf32: False
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 40
  • per_device_eval_batch_size: 40
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 1e-06
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: constant_with_warmup
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: False
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss dim_768_cosine_ndcg@10
0.0456 100 0.0331 -
0.0913 200 0.0311 -
0.1369 300 0.0286 -
0.1826 400 0.0244 -
0.2282 500 0.0198 -
0.2738 600 0.0154 -
0.3195 700 0.013 -
0.3651 800 0.0114 -
0.4108 900 0.0106 -
0.4564 1000 0.0098 -
0.5021 1100 0.0092 -
0.5477 1200 0.0093 -
0.5933 1300 0.0089 -
0.6390 1400 0.0088 -
0.6846 1500 0.0081 -
0.7303 1600 0.0086 -
0.7759 1700 0.0082 -
0.8215 1800 0.0079 -
0.8672 1900 0.0078 -
0.9128 2000 0.0076 -
0.9585 2100 0.0077 -
1.0 2191 - 0.5328
1.0041 2200 0.0072 -
1.0497 2300 0.0073 -
1.0954 2400 0.0073 -
1.1410 2500 0.0073 -
1.1867 2600 0.0065 -
1.2323 2700 0.0073 -
1.2780 2800 0.007 -
1.3236 2900 0.0069 -
1.3692 3000 0.0066 -
1.4149 3100 0.0065 -
1.4605 3200 0.0066 -
1.5062 3300 0.0067 -
1.5518 3400 0.0064 -
1.5974 3500 0.0065 -
1.6431 3600 0.0063 -
1.6887 3700 0.0064 -
1.7344 3800 0.0062 -
1.7800 3900 0.0063 -
1.8257 4000 0.0066 -
1.8713 4100 0.0063 -
1.9169 4200 0.0061 -
1.9626 4300 0.0066 -
2.0 4382 - 0.5817
2.0082 4400 0.0062 -
2.0539 4500 0.006 -
2.0995 4600 0.0059 -
2.1451 4700 0.0061 -
2.1908 4800 0.0061 -
2.2364 4900 0.0057 -
2.2821 5000 0.0059 -
2.3277 5100 0.0056 -
2.3733 5200 0.0053 -
2.4190 5300 0.0057 -
2.4646 5400 0.0054 -
2.5103 5500 0.0055 -
2.5559 5600 0.0055 -
2.6016 5700 0.0057 -
2.6472 5800 0.0054 -
2.6928 5900 0.0055 -
2.7385 6000 0.0058 -
2.7841 6100 0.0056 -
2.8298 6200 0.0054 -
2.8754 6300 0.0054 -
2.9210 6400 0.0062 -
2.9667 6500 0.0053 -
3.0 6573 - 0.6051
3.0123 6600 0.0054 -
3.0580 6700 0.0054 -
3.1036 6800 0.005 -
3.1492 6900 0.0051 -
3.1949 7000 0.0055 -
3.2405 7100 0.0052 -
3.2862 7200 0.0048 -
3.3318 7300 0.0054 -
3.3775 7400 0.0052 -
3.4231 7500 0.0054 -
3.4687 7600 0.0048 -
3.5144 7700 0.0052 -
3.5600 7800 0.005 -
3.6057 7900 0.0051 -
3.6513 8000 0.0051 -
3.6969 8100 0.005 -
3.7426 8200 0.005 -
3.7882 8300 0.005 -
3.8339 8400 0.005 -
3.8795 8500 0.005 -
3.9251 8600 0.0049 -
3.9708 8700 0.0049 -
4.0 8764 - 0.6182
4.0164 8800 0.005 -
4.0621 8900 0.0047 -
4.1077 9000 0.0045 -
4.1534 9100 0.0046 -
4.1990 9200 0.0049 -
4.2446 9300 0.0047 -
4.2903 9400 0.0049 -
4.3359 9500 0.0046 -
4.3816 9600 0.0046 -
4.4272 9700 0.0043 -
4.4728 9800 0.0046 -
4.5185 9900 0.0048 -
4.5641 10000 0.0049 -
4.6098 10100 0.0046 -
4.6554 10200 0.0044 -
4.7010 10300 0.0046 -
4.7467 10400 0.0048 -
4.7923 10500 0.0044 -
4.8380 10600 0.0048 -
4.8836 10700 0.0049 -
4.9293 10800 0.0045 -
4.9749 10900 0.0046 -
5.0 10955 - 0.6291
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.16
  • Sentence Transformers: 3.4.1
  • Transformers: 4.51.3
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.5.2
  • Datasets: 3.3.2
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

ContrastiveLoss

@inproceedings{hadsell2006dimensionality,
    author={Hadsell, R. and Chopra, S. and LeCun, Y.},
    booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)},
    title={Dimensionality Reduction by Learning an Invariant Mapping},
    year={2006},
    volume={2},
    number={},
    pages={1735-1742},
    doi={10.1109/CVPR.2006.100}
}
Downloads last month
-
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for thang1943/phobert-base-v2-c-loss

Finetuned
(291)
this model

Paper for thang1943/phobert-base-v2-c-loss

Evaluation results