LLM Course documentation
🤗 Datasets, итоги!
0. Установка
1. Трансформеры
2. Использование 🤗 Transformers
3. Fine-tuning предобученной модели
4. Hugging Face Hub
5. Библиотека 🤗 Datasets
ВведениеЧто делать, если моего датасета на нет на Hub?Препарируем 🤗 DatasetsBig data? 🤗 Datasets спешат на помощь!Семантический поиск с помощью FAISS🤗 Datasets, итоги!Тест в конце главы
6. Бибилиотека 🤗 Tokenizers
7. Основные задачи NLP
8. Как попросить о помощи
9. Создание и распространение демо
События курса
Глоссарий
🤗 Datasets, итоги!
Что ж, это было настоящее путешествие по библиотеке 🤗 Datasets — поздравляем, вы зашли так далеко! Со знаниями, которые вы получили из этой главы, вы сможете:
- Загружать наборы данных из любого места, будь то Hugging Face Hub, ваш ноутбук или удаленный сервер в вашей компании.
- Обрабатывать свои данные, используя сочетание функций
Dataset.map()иDataset.filter(). - Быстро переключаться между форматами данных, такими как Pandas и NumPy, с помощью
Dataset.set_format(). - Создавать свой собственный набор данных и отправлять его в Hugging Face Hub.
- Строить свои эмбеддинги документов с помощью модели Transformer и создавать семантический поисковик с помощью FAISS.
В Главе 7 мы будем использовать все это с пользой, поскольку мы углубимся в основные задачи NLP, для которых отлично подходят модели Transformer. Однако, прежде чем идти вперед, проверьте свои знания о 🤗 Datasets с помощью быстрого теста!
Update on GitHub