# 章末小测试 [[章末小测验]]

### 1. 自然语言处理流程的顺序是什么？

### 2. Transformer 模型的输出有的张量多少个维度，每个维度分别是什么？

### 3．下列哪一个是子词分词的例子（从分词的颗粒度来划分）？

### 4．什么是模型头（Haed 层）？

{#if fw === 'pt'}
### 5．什么是 AutoModel？
AutoTrain 产品相混淆了？"
		},
		{
			text: "一个根据 checkpoint(检查点)返回模型体系结构的对象",
			explain: "确切地说：AutoModel只需要知道初始化的 checkpoint(检查点)名称就可以返回正确的体系结构。",
			correct: true
		},
		{
			text: "一种可以自动检测输入语言来加载正确权重的模型",
			explain: "不正确；虽然有些 checkpoint(检查点)和模型能够处理多种语言，但是没有内置的工具可以根据语言自动选择 checkpoint(检查点)。你应该前往 Model Hub 寻找完成所需任务的最佳 checkpoint(检查点)！"
		} 
	]}
/>

{:else}
### 5．什么是 TFAutoModel？
AutoTrain 产品相混淆了？"
		},
		{
			text: "一个根据 checkpoint(检查点)返回模型体系结构的对象",
			explain: "确切地说：TFAutoModel只需要知道初始化的 checkpoint(检查点)名称就可以返回正确的体系结构。",
			correct: true
		},
		{
			text: "一种可以自动检测输入语言来加载正确权重的模型",
			explain: "不正确；虽然有些 checkpoint(检查点)和模型能够处理多种语言，但是没有内置的工具可以根据语言自动选择 checkpoint(检查点)。你应该前往 Model Hub 寻找完成所需任务的最佳 checkpoint(检查点)！"
		} 
	]}
/>

{/if}

### 6．当将不同长度的句子序列在一起批处理时，需要进行哪些处理？

### 7．使用 SoftMax 激活函数对序列分类(Sequence Classification)模型的 logits 输出进行处理有什么意义？

### 8.Tokenizer API 的核心方法是哪一个？
encode 因为它可以将文本编码为 ID，将预测的 ID 解码为文本",
			explain: "错！虽然 encode 方法确实是 Tokenizer 中的方法之一，但是它并不是核心的方法，此外将预测 ID 解码为文本的是 decode。"
		},
		{
			text: "直接调用 Tokenizer 对象。",
			explain: "完全正确！ tokenizer (Tokenizer) 的 __call__方法是一个非常强大的方法，可以处理几乎任何事情。它同时也可以从模型中获取预测。",
			correct: true
		},
		{
			text: "pad(填充)",
			explain: "错！pad(填充)非常有用，但它只是 Tokenizer API 的一部分。"
		},
		{
			text: "tokenize",
			explain: "可以说，tokenize方法是最有用的方法之一，但它不是 Tokenizer API 的核心方法。"
		}
	]}
/>

### 9．这个代码示例中的 `result` 变量包含什么？
```py
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
result = tokenizer.tokenize("Hello!")
```

__call__ 或 convert_tokens_to_ids方法的作用！"
		},
		{
			text: "包含所有分词后的的字符串",
			explain: "这将是次优的答案，因为 tokenize 方法会将字符串拆分为多个 tokens 的列表。"
		}
	]}
/>

{#if fw === 'pt'}
### 10．下面的代码有什么错误吗？
```py
from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
model = AutoModel.from_pretrained("gpt2")

encoded = tokenizer("Hey!", return_tensors="pt")
result = model(**encoded)
```

{:else}
### 10．下面的代码有什么错误吗？
```py
from transformers import AutoTokenizer, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
model = TFAutoModel.from_pretrained("gpt2")

encoded = tokenizer("Hey!", return_tensors="pt")
result = model(**encoded)
```

{/if}