shajiu commited on
Commit
e89d72b
·
verified ·
1 Parent(s): cc28ce2

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +13 -8
README.md CHANGED
@@ -1,22 +1,27 @@
1
  ---
2
  license: apache-2.0
3
  ---
4
- - CPT 阶段,本文采取两阶段方式,第一阶段,固定模型Transformer 部分的参数,仅训练Embedding,在尽量不干扰原模型的情况下适配新增的藏文词向量;第二阶段:为模型添加LoRA+ 权重,训练Embedding 的同时也更新LoRA+ 参数。两阶段的训练方式虽然效率较低,然而有效缓解了由于藏文数据与Llama 2 模型预训练时使用的数据分布存在差距而在CPT 过
5
- 程中出现分布偏移的问题。
6
 
 
 
 
7
 
 
8
 
9
- - 本文的训练流程主要包含:对Llama 2 进行藏文词表扩充,词表由32000 扩展至56724,提高模型在藏文的编解码效率。在TibetanGeneralCorpus 上使用Sentencepiece 工具训练基于Unigram 策略的藏文分词器。生成的词表与原版Llama 2 的32K 词表进行合并,排除重复的词
10
- 元后,得到扩充后词表规模为56724。用15G 的TibetanGeneralCorpus 和20G 的英、中混合文本进行CPT,采用自回归任务。
11
 
 
 
 
12
 
13
 
14
- 加载模型并启动服务
15
- ``` python
 
16
  # -*- coding: UTF-8 -*-
17
  #
18
  """
19
- 功能为:主要用于调用llama2-7B对话模型
20
 
21
  @File: llama2-7b-server.py
22
  @Software: PyCharm
@@ -71,7 +76,7 @@ def qtpdnn_v0():
71
 
72
  if __name__ == "__main__":
73
  # 模型名称
74
- model_name = 'merge_llama2_with_chinese_lora_13B/huggingface'
75
  # 加载模型
76
  tokenizer, model = load_model(model_name)
77
  app.run(host='0.0.0.0', port=8718, debug=False, threaded=False, processes=1)
 
1
  ---
2
  license: apache-2.0
3
  ---
4
+ ## 基于Llama2_13B的藏语词汇表扩充,继续预训练的Yak模型
 
5
 
6
+ ### 一、CPT 阶段,本文采取两阶段方式
7
+ - 1.1 第一阶段,固定模型Transformer 部分的参数,仅训练Embedding,在尽量不干扰原模型的情况下适配新增的藏文词向量;
8
+ - 1.2 第二阶段:为模型添加LoRA+ 权重,训练Embedding 的同时也更新LoRA+ 参数。
9
 
10
+ 两阶段的训练方式虽然效率较低,然而有效缓解了由于藏文数据与Llama 2 模型预训练时使用的数据分布存在差距而在CPT 过程中出现分布偏移的问题。
11
 
 
 
12
 
13
+ ### 二、本文的训练流程主要包含
14
+ - 2.1 对Llama 2 进行藏文词表扩充,词表由32000 扩展至56724,提高模型在藏文的编解码效率。
15
+ - 2.2 在TibetanGeneralCorpus 上使用Sentencepiece 工具训练基于Unigram 策略的藏文分词器。生成的词表与原版Llama 2 的32K 词表进行合并,排除重复的词元后,得到扩充后词表规模为56724。用15G 的TibetanGeneralCorpus 和20G 的英、中混合文本进行CPT,采用自回归任务。
16
 
17
 
18
+ ### 三、加载模型并启动服务
19
+
20
+ ```python
21
  # -*- coding: UTF-8 -*-
22
  #
23
  """
24
+ 功能为:主要用于调用shajiu/Yak_Llama2_13B
25
 
26
  @File: llama2-7b-server.py
27
  @Software: PyCharm
 
76
 
77
  if __name__ == "__main__":
78
  # 模型名称
79
+ model_name = 'shajiu/Yak_Llama2_13B'
80
  # 加载模型
81
  tokenizer, model = load_model(model_name)
82
  app.run(host='0.0.0.0', port=8718, debug=False, threaded=False, processes=1)