LLM Course documentation
🤗 Datasets,完结!
0. 安装
1. Transformer 模型
2. 使用 🤗 Transformers
3. 微调一个预训练模型
4. 分享你的模型和标记器
5. 🤗 Datasets库
6. 🤗 Tokenizers库
7. 主要的 NLP 任务
8. 如何寻求帮助
9. 构建并分享你的模型
课程活动
🤗 Datasets,完结!
这是对 🤗 Datasets 库的一次完整的探索——祝贺你走到这一步!凭借从本章中获得的知识,你应该能够:
- 从任何地方加载数据集,无论是 Hugging Face Hub、你的笔记本电脑还是你公司的远程服务器。
- 混合使用
Dataset.map()和Dataset.filter()函数来整理数据。 - 使用
Dataset.set_format()在 Pandas 和 NumPy 等数据格式之间快速切换。 - 创建你自己的数据集并将其推送到 Hugging Face Hub。
- 使用 Transformer 模型为你的文档创建文本嵌入,并使用 FAISS 构建语义搜索引擎。
在 第七章 ,我们将把所有这些用于深入研究 Transformer 模型擅长的核心 NLP 任务。不过,在跳到下一步之前,先用一次快速的小测验来检验你对 🤗 Datasets 的了解!
Update on GitHub