SentenceTransformer based on vinai/phobert-base-v2
This is a sentence-transformers model finetuned from vinai/phobert-base-v2 on the dataset_full_fixed dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: vinai/phobert-base-v2
- Maximum Sequence Length: 256 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("phobert-base-v2-mnr")
# Run inference
sentences = [
'Chỉ thỉnh thoảng e mới mang thôi, còn lại thì\r\nem chỉ mang giày đề bệt hoặc mang dép. Em cũng không hề làm việc gì nặng nhọc. Xin bác sĩ hãy giải thích giùm em và có cách nào để chữa trị không ạ? Em xin\r\ncám ơn. (Phương Mai-Đà nẵng) BS Châu Thị Kiều Oanh: Phương Mai mến, Chân nổi gân xanh, tức nổi tĩnh mạch\r\nlà do giãn tĩnh mạch. Nguyên nhân có thể do di truyền, do làm việc chân tay\r\nnhiều, do mang thai, do nghề nghiệp phải đứng ngồi lâu (thợ cắt tóc, thợ dệt,\r\ncảnh sát giao thông, thợ may, tài xế)... Thường gặp ở nữ nhiều hơn nam do ảnh\r\nhưởng của nội tiết tố oestrogen. Ngoài việc mất thẫm mỹ, dãn tĩnh\r\nmạch còn gây phù, đau nhức, đứng lâu nặng trĩu chân rất khó chịu. Điều trị có nhiều biện pháp: - Dùng băng ép nhằm giảm đường kính\r\nlòng tĩnh mạch để tăng khả năng lưu thông máu. - Uống các thuốc làm vững bền thành\r\nmạch như daflon, rutin C... , các thuốc làm xơ hóa lòng mạch. - Tiêm gây xơ tại chỗ. - Phẫu thuật lấy bỏ các tĩnh mạch\r\nnông bị giãn. Hạn chế bệnh nặng hơn bằng cách\r\nkhông đứng ngồi lâu (nếu cần phải thay đổi công việc), tránh ngồi xổm, hoặc đi\r\ngiày cao gót; khi nằm ngồi nên kê chân cao; cần giảm trọng lượng nếu béo phì;\r\năn nhiều chất xơ uống nhiều nước để tránh táo bón; mang vớ y khoa nhằm ép tĩnh\r\nmạch nông, giúp cho tuần hoàn máu được tốt hơn; cần tập thể dục… Em nên đi khám để được siêu âm mạch\r\nmáu tay chân và điều trị nhé.',
'(AloBacsi) - Năm nay em 25 tuổi, không hiểu sao dạo gần đây tay chân em lại nổi gân lên, mặc dù em rất ít mang giày cao gót',
'Thưa BS,\r\n\r\nCháu năm nay 18 tuổi, giới tính nam. Trước đây cháu có bị mồ hôi nách sau đó cháu có sử dụng phèn chua và gừng đề chà xát vào nách. Sau đó mồ hôi nách cháu có biểu hiện ra nhiều hơn và đau rát nách nhưng vùng nách của cháu không xuất hiện nốt hay biểu hiện gì.\r\n\r\nVà sau đó cháu còn bị kèm thêm triệu chứng hay bị ra mồ hôi ở trán và toàn thân hoạt động 1 lúc thì mồ hôi ra rất nhiều.\r\n\r\nCháu đã đi khám ở nhiều BV khoa da liễu nhưng vẫn không khỏi bệnh. Cháu mong BS tư vấn cho cháu. Cháu xin cảm ơn!\r\n\r\n(Đặng Đình Đ. - Hà Nội)',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Information Retrieval
- Dataset:
dim_768 - Evaluated with
InformationRetrievalEvaluator
| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.643 |
| cosine_accuracy@3 | 0.7683 |
| cosine_accuracy@5 | 0.8125 |
| cosine_accuracy@10 | 0.8696 |
| cosine_precision@1 | 0.643 |
| cosine_precision@3 | 0.2561 |
| cosine_precision@5 | 0.1625 |
| cosine_precision@10 | 0.087 |
| cosine_recall@1 | 0.643 |
| cosine_recall@3 | 0.7683 |
| cosine_recall@5 | 0.8125 |
| cosine_recall@10 | 0.8696 |
| cosine_ndcg@10 | 0.7538 |
| cosine_mrr@10 | 0.717 |
| cosine_map@100 | 0.7221 |
Training Details
Training Dataset
dataset_full_fixed
- Dataset: dataset_full_fixed at ef2e7fd
- Size: 54,755 training samples
- Columns:
positiveandquery - Approximate statistics based on the first 1000 samples:
positive query type string string details - min: 46 tokens
- mean: 187.53 tokens
- max: 256 tokens
- min: 6 tokens
- mean: 74.57 tokens
- max: 256 tokens
- Samples:
positive query Thưa bác Nguyễn Hân, Đau lưng là triệu chứng chung chung của nhiều bệnh lý, là triệu chứng thông thường mà bệnh nhân thường than thở với thầy thuốc, có thể là đau lưng sinh lý, xuất hiện sau một ngày làm việc mệt nhọc, hoặc do tư thế ngồi một chỗ, ít vận động, ít tập thể dục. Tuy nhiên, đau lưng cũng có thể là biểu hiện của một số bệnh đáng lo ngại. Các nguyên nhân thường gặp: thoái hóa cột sống, đau thần kinh tọa, thoát vị đĩa đệm, sỏi thận, loãng xương…Đau lưng chưa hẳn là do thận, bác đã siêu âm kết quả không sỏi, không ứ nước thì đau lưng của bác không phải do thận. Bác nên cố gắng vận động tập thể dục dưỡng sinh mỗi ngày khoảng 30 phút để tăng cường sức đề kháng, tăng sức bền, cột sống được dẻo dai. Để phòng ngừa loãng xương do thiếu canxi bác uống thêm sữa canxi mỗi ngày một ly và ăn nhiều hải sản (nếu bác không bị gout). Nếu bác thấy bệnh không thuyên giảm bác nên đi BV khám, tùy theo bệnh lý, các BS sẽ cho bác làm một số xét nghiệm để hổ trợ cho việc chẩn đoán và điều trị. Chúc...Thưa bác sĩ,
Tôi 59 tuổi (nữ), 2 tháng gần đây tôi thấy mỏi vùng lưng chỗ 2 quả thận, nghe nặng nặng, khó chịu. Lấy tay xoa xoa thì đỡ mỏi. Đi siêu âm thì thận không ứ nước. Tôi vẫn đi tiểu bình thường. Tôi có bị gì không, có cần làm xét nghiệm không? Xin cám ơn BS.- nguồn internet Chào bạn Nhung, Bạn được chẩn đoán cường giáp (dựa vào các dấu hiệu lâm sàng và xét nghiệm bạn cung cấp cho AloBacsi: TSH giảm, FT3 FT4 tăng). Các chỉ nói lên tình trạng tuyến giáp tăng hoạt động… chứ không đánh giá sức khỏe nói chung của bệnh nhân. Các chỉ số này thay đổi tùy phòng xét nghiệm, và không chỉ dựa vào mỗi một chỉ số để kết luận sức khỏe ổn hay không, các BS còn phải dựa vào lâm sàng nữa. Tóm lại, bạn nhớ tái khám định kỳ theo hẹn, vì Thyrozol không uống liều cố định mà sẽ giảm liều (hay tăng liều) theo lâm sàng và xét nghiệm nội tiết tố tuyến giáp của bệnh nhân. Thân mến,Chào BS,
Đầu tháng 4 em thấy người mệt mỏi, cổ họng khó nuốt và chảy máu ít, lười ăn, chân tay mỏi, khó ngủ, sụt cân nhiều nên đi khám ở BV Đại học Y dược. BS chẩn đoán em bị cường giáp.
Kết quả xét nghiệm:
TSH < 0.005, trị số bình thường 0.27 - 4.5 uIU/ml
FT4.23.82, trị số bình thường 12-22 pmol/l
Hiện em uống thuốc Thyrozol, 6 viên/ ngày. AloBacsi cho em hỏi chỉ số trên nói lên điều gì về tình trạng sức khỏe của người mắc cường giáp? Và chỉ số bao nhiêu là sức khỏe ổn định? Chân thành cảm ơn BS.Tìm hiểu chung hội chứng người sói Hội chứng người sói là bệnh lý gì? Hội chứng người sói (Hypertrichosis) là một tình trạng hiếm gặp, đặc trưng bởi tình trạng lông mọc quá mức, có thể mọc khắp cơ thể hoặc chỉ mọc riêng lẻ ở một số vùng cụ thể. Hội chứng người sói có thể là bẩm sinh (tức là xuất hiện khi mới sinh) hoặc mắc phải (tức là phát sinh sau này trong cuộc sống). Phân loại trong hội chứng người sói bao gồm như: Hội chứng người sói bẩm sinh với lông tơ: Lần đầu tiên nó xuất hiện dưới dạng lông tơ bình thường, sợi lông mịn được tìm thấy trên em bé khi mới sinh. Nhưng thay vì biến mất trong những tuần tiếp theo, những sợi lông mềm mịn vẫn tiếp tục mọc ở nhiều nơi trên cơ thể bé. Hội chứng người sói bẩm sinh với lông Terminal: Sự phát triển lông bất thường bắt đầu từ khi sinh ra và tiếp tục trong suốt cuộc đời của người mắc. Lông thường dài và dày, che phủ khuôn mặt và cơ thể của người đó. Hội chứng người sói Nevoid: Sự phát triển quá mức của bất kỳ loại lông nào xuất hiện ở một kh...Tìm hiểu chung hội chứng người sói - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: epochper_device_train_batch_size: 20per_device_eval_batch_size: 20learning_rate: 1e-06num_train_epochs: 5lr_scheduler_type: constant_with_warmupwarmup_ratio: 0.1bf16: Truetf32: Falseload_best_model_at_end: Trueoptim: adamw_torch_fusedbatch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: epochprediction_loss_only: Trueper_device_train_batch_size: 20per_device_eval_batch_size: 20per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 1e-06weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 5max_steps: -1lr_scheduler_type: constant_with_warmuplr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Truefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Falselocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional
Training Logs
Click to expand
| Epoch | Step | Training Loss | dim_768_cosine_ndcg@10 |
|---|---|---|---|
| 0.0456 | 100 | 2.7448 | - |
| 0.0913 | 200 | 2.6352 | - |
| 0.1369 | 300 | 2.2428 | - |
| 0.1826 | 400 | 1.4994 | - |
| 0.2282 | 500 | 0.739 | - |
| 0.2738 | 600 | 0.4447 | - |
| 0.3195 | 700 | 0.3981 | - |
| 0.3651 | 800 | 0.3488 | - |
| 0.4108 | 900 | 0.3181 | - |
| 0.4564 | 1000 | 0.2791 | - |
| 0.5021 | 1100 | 0.2307 | - |
| 0.5477 | 1200 | 0.2203 | - |
| 0.5933 | 1300 | 0.2233 | - |
| 0.6390 | 1400 | 0.2094 | - |
| 0.6846 | 1500 | 0.1915 | - |
| 0.7303 | 1600 | 0.1533 | - |
| 0.7759 | 1700 | 0.1625 | - |
| 0.8215 | 1800 | 0.1947 | - |
| 0.8672 | 1900 | 0.1638 | - |
| 0.9128 | 2000 | 0.1603 | - |
| 0.9585 | 2100 | 0.1717 | - |
| 1.0 | 2191 | - | 0.6736 |
| 1.0041 | 2200 | 0.1485 | - |
| 1.0497 | 2300 | 0.1354 | - |
| 1.0954 | 2400 | 0.1479 | - |
| 1.1410 | 2500 | 0.1407 | - |
| 1.1867 | 2600 | 0.1546 | - |
| 1.2323 | 2700 | 0.1287 | - |
| 1.2780 | 2800 | 0.117 | - |
| 1.3236 | 2900 | 0.118 | - |
| 1.3692 | 3000 | 0.1334 | - |
| 1.4149 | 3100 | 0.1251 | - |
| 1.4605 | 3200 | 0.1164 | - |
| 1.5062 | 3300 | 0.1219 | - |
| 1.5518 | 3400 | 0.1146 | - |
| 1.5974 | 3500 | 0.1145 | - |
| 1.6431 | 3600 | 0.1251 | - |
| 1.6887 | 3700 | 0.1187 | - |
| 1.7344 | 3800 | 0.108 | - |
| 1.7800 | 3900 | 0.0967 | - |
| 1.8257 | 4000 | 0.1114 | - |
| 1.8713 | 4100 | 0.1154 | - |
| 1.9169 | 4200 | 0.1102 | - |
| 1.9626 | 4300 | 0.1119 | - |
| 2.0 | 4382 | - | 0.7210 |
| 2.0082 | 4400 | 0.0917 | - |
| 2.0539 | 4500 | 0.0913 | - |
| 2.0995 | 4600 | 0.0925 | - |
| 2.1451 | 4700 | 0.0854 | - |
| 2.1908 | 4800 | 0.1079 | - |
| 2.2364 | 4900 | 0.084 | - |
| 2.2821 | 5000 | 0.1035 | - |
| 2.3277 | 5100 | 0.0902 | - |
| 2.3733 | 5200 | 0.1084 | - |
| 2.4190 | 5300 | 0.0989 | - |
| 2.4646 | 5400 | 0.0795 | - |
| 2.5103 | 5500 | 0.1156 | - |
| 2.5559 | 5600 | 0.0831 | - |
| 2.6016 | 5700 | 0.0808 | - |
| 2.6472 | 5800 | 0.0872 | - |
| 2.6928 | 5900 | 0.1014 | - |
| 2.7385 | 6000 | 0.0897 | - |
| 2.7841 | 6100 | 0.0666 | - |
| 2.8298 | 6200 | 0.0979 | - |
| 2.8754 | 6300 | 0.0866 | - |
| 2.9210 | 6400 | 0.0733 | - |
| 2.9667 | 6500 | 0.1008 | - |
| 3.0 | 6573 | - | 0.7379 |
| 3.0123 | 6600 | 0.0931 | - |
| 3.0580 | 6700 | 0.0872 | - |
| 3.1036 | 6800 | 0.0906 | - |
| 3.1492 | 6900 | 0.0778 | - |
| 3.1949 | 7000 | 0.0813 | - |
| 3.2405 | 7100 | 0.0848 | - |
| 3.2862 | 7200 | 0.0813 | - |
| 3.3318 | 7300 | 0.0678 | - |
| 3.3775 | 7400 | 0.0905 | - |
| 3.4231 | 7500 | 0.0697 | - |
| 3.4687 | 7600 | 0.0838 | - |
| 3.5144 | 7700 | 0.0763 | - |
| 3.5600 | 7800 | 0.0706 | - |
| 3.6057 | 7900 | 0.0598 | - |
| 3.6513 | 8000 | 0.0772 | - |
| 3.6969 | 8100 | 0.0729 | - |
| 3.7426 | 8200 | 0.0887 | - |
| 3.7882 | 8300 | 0.0745 | - |
| 3.8339 | 8400 | 0.0823 | - |
| 3.8795 | 8500 | 0.083 | - |
| 3.9251 | 8600 | 0.0636 | - |
| 3.9708 | 8700 | 0.0636 | - |
| 4.0 | 8764 | - | 0.7499 |
| 4.0164 | 8800 | 0.0855 | - |
| 4.0621 | 8900 | 0.0732 | - |
| 4.1077 | 9000 | 0.0637 | - |
| 4.1534 | 9100 | 0.0709 | - |
| 4.1990 | 9200 | 0.0772 | - |
| 4.2446 | 9300 | 0.0791 | - |
| 4.2903 | 9400 | 0.0747 | - |
| 4.3359 | 9500 | 0.067 | - |
| 4.3816 | 9600 | 0.0703 | - |
| 4.4272 | 9700 | 0.0681 | - |
| 4.4728 | 9800 | 0.0591 | - |
| 4.5185 | 9900 | 0.0793 | - |
| 4.5641 | 10000 | 0.0755 | - |
| 4.6098 | 10100 | 0.0629 | - |
| 4.6554 | 10200 | 0.0659 | - |
| 4.7010 | 10300 | 0.0657 | - |
| 4.7467 | 10400 | 0.0762 | - |
| 4.7923 | 10500 | 0.0608 | - |
| 4.8380 | 10600 | 0.085 | - |
| 4.8836 | 10700 | 0.0646 | - |
| 4.9293 | 10800 | 0.0605 | - |
| 4.9749 | 10900 | 0.0713 | - |
| 5.0 | 10955 | - | 0.7538 |
- The bold row denotes the saved checkpoint.
Framework Versions
- Python: 3.10.16
- Sentence Transformers: 3.4.1
- Transformers: 4.51.3
- PyTorch: 2.6.0+cu124
- Accelerate: 1.5.2
- Datasets: 3.3.2
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 7
Model tree for thang1943/phobert-base-v2-mnr
Base model
vinai/phobert-base-v2Dataset used to train thang1943/phobert-base-v2-mnr
Evaluation results
- Cosine Accuracy@1 on dim 768self-reported0.643
- Cosine Accuracy@3 on dim 768self-reported0.768
- Cosine Accuracy@5 on dim 768self-reported0.812
- Cosine Accuracy@10 on dim 768self-reported0.870
- Cosine Precision@1 on dim 768self-reported0.643
- Cosine Precision@3 on dim 768self-reported0.256
- Cosine Precision@5 on dim 768self-reported0.162
- Cosine Precision@10 on dim 768self-reported0.087
- Cosine Recall@1 on dim 768self-reported0.643
- Cosine Recall@3 on dim 768self-reported0.768