Update README.md
Browse files
README.md
CHANGED
@@ -1,22 +1,27 @@
|
|
1 |
---
|
2 |
license: apache-2.0
|
3 |
---
|
4 |
-
|
5 |
-
程中出现分布偏移的问题。
|
6 |
|
|
|
|
|
|
|
7 |
|
|
|
8 |
|
9 |
-
- 本文的训练流程主要包含:对Llama 2 进行藏文词表扩充,词表由32000 扩展至56724,提高模型在藏文的编解码效率。在TibetanGeneralCorpus 上使用Sentencepiece 工具训练基于Unigram 策略的藏文分词器。生成的词表与原版Llama 2 的32K 词表进行合并,排除重复的词
|
10 |
-
元后,得到扩充后词表规模为56724。用15G 的TibetanGeneralCorpus 和20G 的英、中混合文本进行CPT,采用自回归任务。
|
11 |
|
|
|
|
|
|
|
12 |
|
13 |
|
14 |
-
|
15 |
-
|
|
|
16 |
# -*- coding: UTF-8 -*-
|
17 |
#
|
18 |
"""
|
19 |
-
功能为:主要用于调用
|
20 |
|
21 |
@File: llama2-7b-server.py
|
22 |
@Software: PyCharm
|
@@ -71,7 +76,7 @@ def qtpdnn_v0():
|
|
71 |
|
72 |
if __name__ == "__main__":
|
73 |
# 模型名称
|
74 |
-
model_name = '
|
75 |
# 加载模型
|
76 |
tokenizer, model = load_model(model_name)
|
77 |
app.run(host='0.0.0.0', port=8718, debug=False, threaded=False, processes=1)
|
|
|
1 |
---
|
2 |
license: apache-2.0
|
3 |
---
|
4 |
+
## 基于Llama2_13B的藏语词汇表扩充,继续预训练的Yak模型
|
|
|
5 |
|
6 |
+
### 一、CPT 阶段,本文采取两阶段方式
|
7 |
+
- 1.1 第一阶段,固定模型Transformer 部分的参数,仅训练Embedding,在尽量不干扰原模型的情况下适配新增的藏文词向量;
|
8 |
+
- 1.2 第二阶段:为模型添加LoRA+ 权重,训练Embedding 的同时也更新LoRA+ 参数。
|
9 |
|
10 |
+
两阶段的训练方式虽然效率较低,然而有效缓解了由于藏文数据与Llama 2 模型预训练时使用的数据分布存在差距而在CPT 过程中出现分布偏移的问题。
|
11 |
|
|
|
|
|
12 |
|
13 |
+
### 二、本文的训练流程主要包含
|
14 |
+
- 2.1 对Llama 2 进行藏文词表扩充,词表由32000 扩展至56724,提高模型在藏文的编解码效率。
|
15 |
+
- 2.2 在TibetanGeneralCorpus 上使用Sentencepiece 工具训练基于Unigram 策略的藏文分词器。生成的词表与原版Llama 2 的32K 词表进行合并,排除重复的词元后,得到扩充后词表规模为56724。用15G 的TibetanGeneralCorpus 和20G 的英、中混合文本进行CPT,采用自回归任务。
|
16 |
|
17 |
|
18 |
+
### 三、加载模型并启动服务
|
19 |
+
|
20 |
+
```python
|
21 |
# -*- coding: UTF-8 -*-
|
22 |
#
|
23 |
"""
|
24 |
+
功能为:主要用于调用shajiu/Yak_Llama2_13B
|
25 |
|
26 |
@File: llama2-7b-server.py
|
27 |
@Software: PyCharm
|
|
|
76 |
|
77 |
if __name__ == "__main__":
|
78 |
# 模型名称
|
79 |
+
model_name = 'shajiu/Yak_Llama2_13B'
|
80 |
# 加载模型
|
81 |
tokenizer, model = load_model(model_name)
|
82 |
app.run(host='0.0.0.0', port=8718, debug=False, threaded=False, processes=1)
|