LLM Course

0. Configurare

1. Modele Transformer

2. Folosirea 🤗 Transformers

3. Fine-tuning unui model preantrenat

4. Partajarea modelelor și a tokenizatoarelor

5. Biblioteca 🤗 Datasets

Introducere Ce fac dacă dataset-ul meu nu este pe Hub?E timpul să tăiem și să analizăm datele Big data? 🤗 Datasets vine în ajutor!Creează propriul tău dataset Căutare semantică cu FAISS 🤗 Datasets, verificare!Quiz de final de capitol

6. Biblioteca 🤗 Tokenizers

7. Sarcini clasice NLP

8. Cum să ceri ajutor

9. Construirea și partajarea demo-urilor

10. Curățați seturi de date de înaltă calitate

11. Fine-tuning pentru modele mari de limbaj

12. Construiește Modele de Raționament new

Evenimente Curs

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Introducere

În Capitolul 3 ați încercat biblioteca 🤗Datasets și ați văzut că existau trei pași principali atunci când vine vorba de fine-tuningul unui model:

Încărcați un dataset din Hugging Face Hub.
Preprocesați datele cu Dataset.map().
Încărcați și calculați metricele.

Dar aceasta este doar o mică parte a ceea ce poate face 🤗 Datasets! În acest capitol, ne vom aprofunda în această bibliotecă. Pe parcurs, vom găsi răspunsuri la următoarele întrebări:

Ce faceți atunci când datasetul tău nu este pe Hub?
Cum puteți tăia și împărți un dataset? (Și ce dacă tu really trebuie să folosești Pandas?)
Ce faceți atunci când datasetul este uriaș și va topi RAM-ul laptopului dumneavoastră?
Ce este “memory mapping” și Apache Arrow?
Cum puteți crea propriul dataset și să-l trimiteți pe Hub?

Tehnicile pe care le veți învăța aici vă vor pregăti pentru sarcinile avansate de tokenizare și fine-tuning din Capitolul 6 și Capitolul 7 — deci luați o cafea sau două și să începem!

Update on GitHub

←Quiz la final de capitol Ce fac dacă dataset-ul meu nu este pe Hub?→