LLM Course documentation
Introducere
0. Configurare
1. Modele Transformer
2. Folosirea 🤗 Transformers
3. Fine-tuning unui model preantrenat
4. Partajarea modelelor și a tokenizatoarelor
5. Biblioteca 🤗 Datasets
IntroducereCe fac dacă dataset-ul meu nu este pe Hub?E timpul să tăiem și să analizăm dateleBig data? 🤗 Datasets vine în ajutor!Creează propriul tău datasetCăutare semantică cu FAISS🤗 Datasets, verificare!Quiz de final de capitol
6. Biblioteca 🤗 Tokenizers
7. Sarcini clasice NLP
8. Cum să ceri ajutor
9. Construirea și partajarea demo-urilor
10. Curățați seturi de date de înaltă calitate
11. Fine-tuning pentru modele mari de limbaj
12. Construiește Modele de Raționament new
Evenimente Curs
Introducere
În Capitolul 3 ați încercat biblioteca 🤗Datasets și ați văzut că existau trei pași principali atunci când vine vorba de fine-tuningul unui model:
- Încărcați un dataset din Hugging Face Hub.
- Preprocesați datele cu
Dataset.map(). - Încărcați și calculați metricele.
Dar aceasta este doar o mică parte a ceea ce poate face 🤗 Datasets! În acest capitol, ne vom aprofunda în această bibliotecă. Pe parcurs, vom găsi răspunsuri la următoarele întrebări:
- Ce faceți atunci când datasetul tău nu este pe Hub?
- Cum puteți tăia și împărți un dataset? (Și ce dacă tu really trebuie să folosești Pandas?)
- Ce faceți atunci când datasetul este uriaș și va topi RAM-ul laptopului dumneavoastră?
- Ce este “memory mapping” și Apache Arrow?
- Cum puteți crea propriul dataset și să-l trimiteți pe Hub?
Tehnicile pe care le veți învăța aici vă vor pregăti pentru sarcinile avansate de tokenizare și fine-tuning din Capitolul 6 și Capitolul 7 — deci luați o cafea sau două și să începem!
Update on GitHub