🧠 Persian BERT-Tiny (FineWiki Pretrained)

✨ معرفی

این مدل یک نسخه‌ی BERT-Tiny است که از صفر بر اساس دیتاست بزرگ فارسی FineWiki آموزش داده شده است.
دیتاست FineWiki شامل حدود ۱ میلیون صفحه فارسی ویکی‌پدیا (حدود ۲ گیگابایت متن) است و به عنوان یک مرجع عمومی برای پیش‌تمرین مدل‌های زبانی فارسی طراحی شده است.

مدل پایه‌ی استفاده‌شده prajjwal1/bert-tiny است که یک نسخه‌ی سبک و کوچک از BERT بوده و برای تحقیقات سریع و محیط‌های با منابع محدود مناسب است.

🎯 اهداف

بررسی کارایی مدل‌های سبک BERT در زبان فارسی
تست و ارزیابی کیفیت دیتاست FineWiki برای پیش‌تمرین مدل‌های زبانی
ایجاد یک baseline تحقیقاتی برای پروژه‌های NLP فارسی
فراهم کردن مدلی سبک برای پژوهشگران و دانشجویان جهت آزمایش سریع

📚 دیتاست FineWiki

منبع: HuggingFaceFW/finewiki
حجم: حدود ۲ گیگابایت
تعداد صفحات: نزدیک به ۱ میلیون صفحه فارسی ویکی‌پدیا
اهداف:
- ایجاد مرجع متنی بزرگ برای زبان فارسی
- پشتیبانی از پروژه‌های پیش‌تمرین (pretraining)
- کمک به توسعه‌ی مدل‌های درک معنایی و شباهت متنی

🧩 مدل پایه BERT-Tiny

منبع: prajjwal1/bert-tiny
ویژگی‌ها:
- نسخه‌ی کوچک و سبک از BERT
- آموزش از صفر روی داده‌های عمومی
- مناسب برای baseline و تحقیقات سریع
اهداف:
- فراهم کردن baseline سبک برای پژوهشگران
- امکان تست سریع روی دیتاست‌های جدید
- بررسی کارایی معماری BERT در مقیاس کوچک

🚀 کاربردها

پیش‌تمرین و fine-tuning برای وظایف NLP فارسی
پروژه‌های تحقیقاتی در حوزه‌ی semantic similarity، text classification و language modeling
تست کیفیت دیتاست‌های فارسی بزرگ
توسعه‌ی مدل‌های سبک و کاربردی برای زبان فارسی

📌 نکات مهم

این مدل صرفاً برای اهداف تحقیقاتی ساخته شده است.
نتایج و عملکرد آن باید در وظایف مختلف ارزیابی شود.
استفاده از آن آزاد است، اما توصیه می‌شود در پروژه‌های حساس از مدل‌های بزرگ‌تر و داده‌های واقعی نیز استفاده شود.

🙌 تشکر

این پروژه بخشی از فعالیت‌های تحقیقاتی در حوزه‌ی NLP فارسی است و با هدف ارتقای دانش و تست دیتاست‌های بزرگ منتشر شده است.

Downloads last month: 36

Safetensors

Model size

6.67M params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for IRI2070/fa-bert-tiny-finewiki

Base model

prajjwal1/bert-tiny

Finetuned

(78)

this model

Dataset used to train IRI2070/fa-bert-tiny-finewiki

Evaluation results

Metadata error: specify a dataset to view leaderboard