🧠 Persian BERT-Tiny (FineWiki Pretrained)
✨ معرفی
این مدل یک نسخهی BERT-Tiny است که از صفر بر اساس دیتاست بزرگ فارسی FineWiki آموزش داده شده است.
دیتاست FineWiki شامل حدود ۱ میلیون صفحه فارسی ویکیپدیا (حدود ۲ گیگابایت متن) است و به عنوان یک مرجع عمومی برای پیشتمرین مدلهای زبانی فارسی طراحی شده است.
مدل پایهی استفادهشده prajjwal1/bert-tiny است که یک نسخهی سبک و کوچک از BERT بوده و برای تحقیقات سریع و محیطهای با منابع محدود مناسب است.
🎯 اهداف
- بررسی کارایی مدلهای سبک BERT در زبان فارسی
- تست و ارزیابی کیفیت دیتاست FineWiki برای پیشتمرین مدلهای زبانی
- ایجاد یک baseline تحقیقاتی برای پروژههای NLP فارسی
- فراهم کردن مدلی سبک برای پژوهشگران و دانشجویان جهت آزمایش سریع
📚 دیتاست FineWiki
- منبع: HuggingFaceFW/finewiki
- حجم: حدود ۲ گیگابایت
- تعداد صفحات: نزدیک به ۱ میلیون صفحه فارسی ویکیپدیا
- اهداف:
- ایجاد مرجع متنی بزرگ برای زبان فارسی
- پشتیبانی از پروژههای پیشتمرین (pretraining)
- کمک به توسعهی مدلهای درک معنایی و شباهت متنی
🧩 مدل پایه BERT-Tiny
- منبع: prajjwal1/bert-tiny
- ویژگیها:
- نسخهی کوچک و سبک از BERT
- آموزش از صفر روی دادههای عمومی
- مناسب برای baseline و تحقیقات سریع
- اهداف:
- فراهم کردن baseline سبک برای پژوهشگران
- امکان تست سریع روی دیتاستهای جدید
- بررسی کارایی معماری BERT در مقیاس کوچک
🚀 کاربردها
- پیشتمرین و fine-tuning برای وظایف NLP فارسی
- پروژههای تحقیقاتی در حوزهی semantic similarity، text classification و language modeling
- تست کیفیت دیتاستهای فارسی بزرگ
- توسعهی مدلهای سبک و کاربردی برای زبان فارسی
📌 نکات مهم
- این مدل صرفاً برای اهداف تحقیقاتی ساخته شده است.
- نتایج و عملکرد آن باید در وظایف مختلف ارزیابی شود.
- استفاده از آن آزاد است، اما توصیه میشود در پروژههای حساس از مدلهای بزرگتر و دادههای واقعی نیز استفاده شود.
🙌 تشکر
این پروژه بخشی از فعالیتهای تحقیقاتی در حوزهی NLP فارسی است و با هدف ارتقای دانش و تست دیتاستهای بزرگ منتشر شده است.
- Downloads last month
- 36
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for IRI2070/fa-bert-tiny-finewiki
Base model
prajjwal1/bert-tiny