🧠 Persian BERT-Tiny (FineWiki Pretrained)

✨ معرفی

این مدل یک نسخه‌ی BERT-Tiny است که از صفر بر اساس دیتاست بزرگ فارسی FineWiki آموزش داده شده است.
دیتاست FineWiki شامل حدود ۱ میلیون صفحه فارسی ویکی‌پدیا (حدود ۲ گیگابایت متن) است و به عنوان یک مرجع عمومی برای پیش‌تمرین مدل‌های زبانی فارسی طراحی شده است.

مدل پایه‌ی استفاده‌شده prajjwal1/bert-tiny است که یک نسخه‌ی سبک و کوچک از BERT بوده و برای تحقیقات سریع و محیط‌های با منابع محدود مناسب است.


🎯 اهداف

  • بررسی کارایی مدل‌های سبک BERT در زبان فارسی
  • تست و ارزیابی کیفیت دیتاست FineWiki برای پیش‌تمرین مدل‌های زبانی
  • ایجاد یک baseline تحقیقاتی برای پروژه‌های NLP فارسی
  • فراهم کردن مدلی سبک برای پژوهشگران و دانشجویان جهت آزمایش سریع

📚 دیتاست FineWiki

  • منبع: HuggingFaceFW/finewiki
  • حجم: حدود ۲ گیگابایت
  • تعداد صفحات: نزدیک به ۱ میلیون صفحه فارسی ویکی‌پدیا
  • اهداف:
    • ایجاد مرجع متنی بزرگ برای زبان فارسی
    • پشتیبانی از پروژه‌های پیش‌تمرین (pretraining)
    • کمک به توسعه‌ی مدل‌های درک معنایی و شباهت متنی

🧩 مدل پایه BERT-Tiny

  • منبع: prajjwal1/bert-tiny
  • ویژگی‌ها:
    • نسخه‌ی کوچک و سبک از BERT
    • آموزش از صفر روی داده‌های عمومی
    • مناسب برای baseline و تحقیقات سریع
  • اهداف:
    • فراهم کردن baseline سبک برای پژوهشگران
    • امکان تست سریع روی دیتاست‌های جدید
    • بررسی کارایی معماری BERT در مقیاس کوچک

🚀 کاربردها

  • پیش‌تمرین و fine-tuning برای وظایف NLP فارسی
  • پروژه‌های تحقیقاتی در حوزه‌ی semantic similarity، text classification و language modeling
  • تست کیفیت دیتاست‌های فارسی بزرگ
  • توسعه‌ی مدل‌های سبک و کاربردی برای زبان فارسی

📌 نکات مهم

  • این مدل صرفاً برای اهداف تحقیقاتی ساخته شده است.
  • نتایج و عملکرد آن باید در وظایف مختلف ارزیابی شود.
  • استفاده از آن آزاد است، اما توصیه می‌شود در پروژه‌های حساس از مدل‌های بزرگ‌تر و داده‌های واقعی نیز استفاده شود.

🙌 تشکر

این پروژه بخشی از فعالیت‌های تحقیقاتی در حوزه‌ی NLP فارسی است و با هدف ارتقای دانش و تست دیتاست‌های بزرگ منتشر شده است.

Downloads last month
36
Safetensors
Model size
6.67M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for IRI2070/fa-bert-tiny-finewiki

Finetuned
(78)
this model

Dataset used to train IRI2070/fa-bert-tiny-finewiki