README.md · saltlux/Ko-Llama3-Luxia-8B at f48cbb6958375a696181fa98eb713639497eca90

File size: 8,651 Bytes

9ba8455
 
0b1aeb4
 
 
 
 
 
 
 
 
 
a7bd71a
 
f48cbb6
 
 
 
 
a7bd71a
 
 
f48cbb6
 
a7bd71a
 
 
 
 
 
 
f48cbb6
 
 
a7bd71a
 
 
 
 
 
 
 
 
 
 
 
f48cbb6
a7bd71a
 
f48cbb6
 
a7bd71a
 
f48cbb6
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a7bd71a
 
f48cbb6
 
 
a7bd71a
 
f48cbb6
 
 
 
 
a7bd71a
 
 
 
 
 
 
 
7bf6835
a7bd71a
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f48cbb6
7bf6835
a7bd71a
7bf6835
f48cbb6
a7bd71a

---
license: llama3
language:
- en
- ko
pipeline_tag: text-generation
tags:
- saltlux
- luxia
- meta
- llama-3
- pytorch
---

# Model Details
Saltlux, AI Labs에서 학습 및 공개한 <b>Llama-3-Luxia-Ko-8B</b> 모델은 Meta에서 출시한 Llama-3-8B 모델을 <b>한국어에 특화</b>한 모델입니다.<br><br>
자체 보유하고 있는 1TB 이상의 한국어 학습 데이터 중, 약 100GB 정도의 데이터를 선별하여 사전학습을 수행했습니다.<br><br>
또한 공개된 Llama-3 Tokenizer를 한국어로 확장하고 사전학습에 활용했습니다.

- **Meta Llama-3:** Meta developed and released the Meta Llama 3 family of large language models (LLMs), a collection of pretrained and instruction tuned generative text models in 8 and 70B sizes. The Llama 3 instruction tuned models are optimized for dialogue use cases and outperform many of the available open source chat models on common industry benchmarks. Further, in developing these models, we took great care to optimize helpfulness and safety.

### Model Description
- **Model developers:** Saltlux, AI Labs 언어모델팀
- **Variation:** Llama-3-Luxia-Ko 8B 파라미터 수준의 사전학습 모델
- **Input:** 텍스트만 입력합니다.
- **Output:** 텍스트와 코드를 생성합니다.
- **Model Architecture:** Llama-3-Luxia-Ko 모델은 Meta에서 출시한 Llama-3와 같은 auto-regressive 언어모델로 최적화된 transformer 아키텍쳐를 사용합니다.
- **Model Release Date:** April 30, 2024.
- **Status:** 이 모델은 오프라인 데이터 세트에서 훈련된 Static한 모델입니다. 커뮤니티의 피드백을 통해 모델 안정성을 개선함에 따라 조정된 모델의 향후 버전이 출시될 예정입니다.
- **License:** Llama3 License: [https://llama.meta.com/llama3/license](https://llama.meta.com/llama3/license)

### Intended Use
Llama-3-Luxia-Ko는 한국어 특화 언어모델로 연구용으로 제작되었으며, 다양한 자연어 생성 작업에 맞게 재활용 및 변형될 수 있습니다.
 
### How to Use
이 저장소에는 transformers와 함께 사용할 수 있는 코드베이스와 `Llama-3-Luxia-Ko-8B`가 포함되어 있습니다.

```
import transformers
import torch

model_id = "Saltlux/Llama-3-Luxia-Ko-8B"

pipeline = transformers.pipeline(
    "text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto"
)
pipeline("<|begin_of_text|>안녕하세요. 솔트룩스 AI Labs 입니다.")

```
# Training Details
Llama-3-Luxia-Ko 모델 학습을 위해 활용한 학습 데이터 및 장비는 Saltlux에서 보유하고 있는 자체 한국어 코퍼스 및 H100 인스턴스를 활용했습니다.

### Training Data
Llama-3-Luxia-Ko는 공개적으로 사용 가능한 코퍼스와 함께 자체적으로 수집한 2023년 최신 뉴스데이터를 포함하여 약 100GB 코퍼스로 사전학습 되었습니다.<br>
사전학습 데이터는 일반 분야 이외에도 법률, 특허, 의료, 역사, 사회, 문화, 대화(문어/구어) 등 다양한 도메인이 포함되어있습니다.

### Data Preprocessing
보유하고 있는 한국어 데이터의 품질 향상을 위해 문서 삭제(Document Delete), 문서 수정(Document Modify) 수준의 전처리 방안을 수립하고 적용합니다.

+ **Document Delete** 
  - 짧은 텍스트 (120 음절 미만) 필터링
  - 긴 텍스트 (100,000 음절 이상) 필터링
  - 한국어 비율이 25% 미만인 경우 필터링
  - 글머리 기호가 90% 이상인 경우 필터링
  - 욕설이 있는 경우 필터링

+ **Document Modify**
  - 이모션 문자 정규화 (최대 2개까지 허용)
  - 개행 문자 정규화 (최대 2개까지 허용)
  - HTML 태그 제거
  - 불필요한 문자 제거
  - 비식별화 진행 (휴대폰 번호, 계좌번호 등의 개인정보)
  - 중복 문자열 제거

### Data Sampling
Llama-3-Luxia-Ko-8B 모델 학습을 위해 1TB 수준의 한국어 코퍼스의 10분의 1인 100GB 데이터를 샘플링합니다.<br><br>데이터 샘플링은 다양한 도메인과 내용이 포함될 수 있도록 고려하여 샘플링하며 방법은 아래와 같습니다.<br>
+ 샘플링 대상은 10GB 이상의 크기를 가지는 도메인 코퍼스
+ 도메인 코퍼스 내 명사, 복합명사 기반 키워드 사전 구축
+ 등장하는 키워드의 DF(Document Frequency)가 임계값 이상일 경우 해당 키워드가 포함된 문서는 샘플링을 중단
  
### Use Device
NVIDIA H100 80GB * 8EA을 활용하여 모델 사전학습을 진행하였습니다.

#### Training Hyperparameters
|Model|Params|Context length|GQA|Learning rate|Batch|Precision|
|---|---|---|---|---|---|---|
|Llama-3-Luxia-Ko|8B|8k|Yes|1e-5|128|bf16|

### Tokenizer
Llama-3-Tokenizer를 한국어 특화하기 위해 한국어 토큰 17,536개를 추가하고 활용하였습니다.
|Model|Vocab Size|
|---|---|
|Llama-3|128,256|
|Llama-3-Luxia-Ko|145,792|

#### Tokenizer Result
<table>
	<tr>
		<td><strong>입력</strong>
		</td>
		<td><strong>Llama-3</strong>
		</td>
		<td><strong>Llama-3-Luxia-Ko</strong>
		</td>
	</tr>
  <tr>
	  <td>요즘 날씨가 너무 오락가락해서 아직도 겨울옷을 못치웠어요..
	  </td>
	  <td>['요', '즘', ' 날', '씨', '가', ' 너무', ' 오', '락', '가', '락', '해서', ' 아직', '도', ' 겨', '울', '�', '�', '을', ' 못', '치', '웠', '어요', '..']
	  </td>
	  <td>['요즘', ' 날씨', '가', ' 너무', ' 오락', '가락', '해서', ' 아직', '도', ' 겨울', '옷', '을', ' 못', '치', '웠', '어요', '..']
	  </td>
	</tr>
	<tr>
		 <td>맛있는 밥을 드셨습니까? 맛이 궁금하네요.
		 </td>
		 <td>['맛', '있는', ' �', '�', '을', ' 드', '셨', '습', '니까', '?', ' 맛', '이', ' 궁금', '하', '네요', '.']
		 </td>
		 <td>['맛', '있는', ' 밥', '을', ' 드셨', '습', '니까', '?', ' 맛', '이', ' 궁금', '하', '네요', '.']
		 </td>
	</tr>
	<tr>
		 <td>대법원부터 하급심 판례까지 원하는 판례를 찾는 가장 빠른 방법 - 서면 검색, 요청 판례, 유사 판례, AI 추천, 판례 및 법령 검색.
		 </td>
		 <td>['대', '법', '원', '부터', ' 하', '급', '심', ' 판', '례', '까지', ' 원', '하는', ' 판', '례', '를', ' 찾', '는', ' 가장', ' 빠', '른', ' 방법', ' -', ' 서', '면', ' 검색', ',', ' 요청', ' 판', '례', ',', ' 유', '사', ' 판', '례', ',', ' AI', ' 추천', ',', ' 판', '례', ' 및', ' 법', '령', ' 검색', '.']
		 </td>
		 <td>['대', '법', '원', '부터', ' 하', '급', '심', ' 판례', '까지', ' 원', '하는', ' 판례', '를', ' 찾', '는', ' 가장', ' 빠른', ' 방법', ' -', ' 서면', ' 검색', ',', ' 요청', ' 판례', ',', ' 유사', ' 판례', ',', ' AI', ' 추천', ',', ' 판례', ' 및', ' 법령', ' 검색', '.']
		 </td>
	</tr>
	<tr>
		 <td>본 발명은 금속판의 다수 부분을 에칭시켜 특정 무늬모양을 형성하는 건축용 금속재 장식판으로 이루어진 것에 특징이 있다.
		 </td>
		 <td>['본', ' 발', '명', '은', ' 금', '속', '판', '의', ' 다', '수', ' 부분', '을', ' 에', '칭', '시', '켜', ' 특', '정', ' 무', '�', '�', '모', '양', '을', ' 형', '성', '하는', ' 건', '축', '용', ' 금', '속', '재', ' 장', '식', '판', '으로', ' 이루', '어진', ' 것', '에', ' 특', '징', '이', ' 있다', '.']
		 </td>
		 <td>['본', ' 발명', '은', ' 금속', '판', '의', ' 다수', ' 부분', '을', ' 에칭', '시', '켜', ' 특정', ' 무늬', '모', '양', '을', ' 형성', '하는', ' 건축', '용', ' 금속', '재', ' 장식', '판', '으로', ' 이루어진', ' 것', '에', ' 특징', '이', ' 있다', '.']
		 </td>
	</tr>
	<tr>
		 <td>골다공증은 왜 생기는거에요? 그리고 치료하려면 어떻게해야하죠?
		 </td>
		 <td>['골', '다', '공', '증', '은', ' 왜', ' 생', '기는', '거', '에', '요', '?', ' 그리고', ' 치', '료', '하려', '면', ' 어떻게', '해야', '하', '죠', '?']
		 </td>
		 <td>['골', '다', '공증', '은', ' 왜', ' 생', '기는', '거', '에', '요', '?', ' 그리고', ' 치료', '하려', '면', ' 어떻게', '해야', '하', '죠', '?']
		 </td>
	</tr>
</table>

### Citation instructions
**Llama-3-Luxia-Ko**
```
@article{llama3luxiakomodelcard,
  title={Llama 3 Luxua Ko Model Card},
  author={AILabs@Saltux},
  year={2024},
  url={수정예정}
}
```

**Original Llama-3**
```
@article{llama3modelcard,
title={Llama 3 Model Card},
author={AI@Meta},
year={2024},
url={https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}
```