Update README.md
Browse files
README.md
CHANGED
|
@@ -117,68 +117,8 @@ wiki_cate_schema_zh = {
|
|
| 117 |
|
| 118 |
|
| 119 |
|
| 120 |
-
# 4.现成数据集
|
| 121 |
|
| 122 |
-
|
| 123 |
-
| 名称 | 下载 | 数量 | 描述 |
|
| 124 |
-
| ------------------- | ---------------------------------------------------------------------------------------------------------------------- | ------ | -------------------------------------------------------------------------------------------------------------------------------------------------------- |
|
| 125 |
-
| InstructIE | [Google drive](https://drive.google.com/file/d/1raf0h98x3GgIhaDyNn1dLle9_HvwD6wT/view?usp=sharing) <br/> [百度云盘](https://pan.baidu.com/s/1-u8bD85H1Otbzk-gjLxaFw?pwd=c1i6) | 20w+ | InstructIE数据集(中英双语) |
|
| 126 |
-
|
| 127 |
-
|
| 128 |
-
|
| 129 |
-
`InstructIE` 数据集包含两个核心文件夹:`InstructIE-zh` 和 `InstructIE-en`。这两个文件夹都涵盖了中英双语的基于主题的IE指令数据。
|
| 130 |
-
|
| 131 |
-
- `'id'`:每条数据的唯一标识符,确保数据项的独立性和可追踪性。
|
| 132 |
-
- `'cate'`:**文本主题**分类,为文本内容提供了一个高级的分类标签(共有12种主题)。
|
| 133 |
-
- `'text'`:待抽取的文本。
|
| 134 |
-
- `'relation'`:代表**关系**三元组,这些字段允许用户自由构建信息抽取的指令和预期输出结果。
|
| 135 |
-
|
| 136 |
-
|
| 137 |
-
|
| 138 |
-
<details>
|
| 139 |
-
<summary><b>各字段的说明</b></summary>
|
| 140 |
-
|
| 141 |
-
|
| 142 |
-
| 字段 | 说明 |
|
| 143 |
-
| :---------: | :----------------------------------------------------------: |
|
| 144 |
-
| id | 每个数据点的唯一标识符。 |
|
| 145 |
-
| cate | 文本的主题类别,总计12种不同的主题分类。 |
|
| 146 |
-
| input | 模型的输入文本,目标是从中抽取涉及的所有关系三元组。 |
|
| 147 |
-
| instruction | 指导模型执行信息抽取任务的指示。 |
|
| 148 |
-
| output | 模型的预期输出结果。 |
|
| 149 |
-
| relation | 描述文本中包含的关系三元组,即实体间的联系(head, relation, tail)。 |
|
| 150 |
-
|
| 151 |
-
</details>
|
| 152 |
-
|
| 153 |
-
|
| 154 |
-
|
| 155 |
-
<details>
|
| 156 |
-
<summary><b>一条数据的示例</b></summary>
|
| 157 |
-
|
| 158 |
-
|
| 159 |
-
```json
|
| 160 |
-
{
|
| 161 |
-
"id": "四乙基锗_0",
|
| 162 |
-
"cate": "自然科学",
|
| 163 |
-
"input": "四乙基锗,简称TEG,是一种有机锗化合物,化学式4Ge。四乙基锗是锗的气相沉积法中一种重要的化合物。",
|
| 164 |
-
"entity": [
|
| 165 |
-
{"entity": "四乙基锗", "entity_type": "产品"},
|
| 166 |
-
{"entity": "TEG", "entity_type": "产品"},
|
| 167 |
-
{"entity": "有机锗化合物", "entity_type": "产品"},
|
| 168 |
-
{"entity": "Ge", "entity_type": "产品"}
|
| 169 |
-
],
|
| 170 |
-
"relation": [
|
| 171 |
-
{"head": "四乙基锗", "relation": "别名", "tail": "TEG"}
|
| 172 |
-
]
|
| 173 |
-
}
|
| 174 |
-
```
|
| 175 |
-
|
| 176 |
-
</details>
|
| 177 |
-
|
| 178 |
-
|
| 179 |
-
|
| 180 |
-
|
| 181 |
-
# 5.转换脚本
|
| 182 |
|
| 183 |
|
| 184 |
**训练数据转换**
|
|
@@ -344,7 +284,7 @@ python kg2instruction/convert_test.py \
|
|
| 344 |
|
| 345 |
|
| 346 |
|
| 347 |
-
#
|
| 348 |
|
| 349 |
我们提供了可直接使用 `zjunlp/knowlm-13b-ie` 模型进行推理的脚本[inference.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/src/inference.py), 请参考 [README.md](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/README.md) 配置环境等。
|
| 350 |
|
|
@@ -362,7 +302,7 @@ CUDA_VISIBLE_DEVICES="0" python src/inference.py \
|
|
| 362 |
|
| 363 |
|
| 364 |
|
| 365 |
-
#
|
| 366 |
我们提供一个位于 [evaluate.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/kg2instruction/evaluate.py) 的脚本,用于将模型的字符串输出转换为列表并计算 F1 分数。
|
| 367 |
|
| 368 |
```bash
|
|
|
|
| 117 |
|
| 118 |
|
| 119 |
|
|
|
|
| 120 |
|
| 121 |
+
# 4.转换脚本
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 122 |
|
| 123 |
|
| 124 |
**训练数据转换**
|
|
|
|
| 284 |
|
| 285 |
|
| 286 |
|
| 287 |
+
# 5.使用
|
| 288 |
|
| 289 |
我们提供了可直接使用 `zjunlp/knowlm-13b-ie` 模型进行推理的脚本[inference.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/src/inference.py), 请参考 [README.md](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/README.md) 配置环境等。
|
| 290 |
|
|
|
|
| 302 |
|
| 303 |
|
| 304 |
|
| 305 |
+
# 6.评估
|
| 306 |
我们提供一个位于 [evaluate.py](https://github.com/zjunlp/DeepKE/blob/main/example/llm/InstructKGC/kg2instruction/evaluate.py) 的脚本,用于将模型的字符串输出转换为列表并计算 F1 分数。
|
| 307 |
|
| 308 |
```bash
|