Update README.md

Browse files

Files changed (1) hide show

README.md +9 -45

README.md CHANGED Viewed

@@ -13,33 +13,24 @@ tags:
 ---
 # Model Details
-Saltlux, AI Labs에서 학습 및 공개한 <b>Llama-3-Luxia-Ko-8B</b> 모델은 Meta에서 출시한 Llama-3-8B 모델을 <b>한국어에 특화</b>한 모델입니다.<br><br>
-자체 보유하고 있는 1TB 이상의 한국어 학습 데이터 중, 약 100GB 정도의 데이터를 선별하여 사전학습을 수행했습니다.<br><br>
 또한 공개된 Llama-3 Tokenizer를 한국어로 확장하고 사전학습에 활용했습니다.
 - **Meta Llama-3:** Meta developed and released the Meta Llama 3 family of large language models (LLMs), a collection of pretrained and instruction tuned generative text models in 8 and 70B sizes. The Llama 3 instruction tuned models are optimized for dialogue use cases and outperform many of the available open source chat models on common industry benchmarks. Further, in developing these models, we took great care to optimize helpfulness and safety.
-### Model Description
-- **Model developers:** Saltlux, AI Labs 언어모델팀
-- **Variation:** Llama-3-Luxia-Ko 8B 파라미터 수준의 사전학습 모델
-- **Input:** 텍스트만 입력합니다.
-- **Output:** 텍스트와 코드를 생성합니다.
-- **Model Architecture:** Llama-3-Luxia-Ko 모델은 Meta에서 출시한 Llama-3와 같은 auto-regressive 언어모델로 최적화된 transformer 아키텍쳐를 사용합니다.
-- **Model Release Date:** April 30, 2024.
-- **Status:** 이 모델은 오프라인 데이터 세트에서 훈련된 Static한 모델입니다. 커뮤니티의 피드백을 통해 모델 안정성을 개선함에 따라 조정된 모델의 향후 버전이 출시될 예정입니다.
 - **License:** Llama3 License: [https://llama.meta.com/llama3/license](https://llama.meta.com/llama3/license)
 ### Intended Use
-Llama-3-Luxia-Ko는 한국어 특화 언어모델로 연구용으로 제작되었으며, 다양한 자연어 생성 작업에 맞게 재활용 및 변형될 수 있습니다.
 ### How to Use
-이 저장소에는 transformers와 함께 사용할 수 있는 코드베이스와 `Llama-3-Luxia-Ko-8B`가 포함되어 있습니다.
 ```
 import transformers
 import torch
-model_id = "Saltlux/Llama-3-Luxia-Ko-8B"
 pipeline = transformers.pipeline(
     "text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto"
@@ -48,38 +39,11 @@ pipeline("<|begin_of_text|>안녕하세요. 솔트룩스 AI Labs 입니다.")
 ```
 # Training Details
-Llama-3-Luxia-Ko 모델 학습을 위해 활용한 학습 데이터 및 장비는 Saltlux에서 보유하고 있는 자체 한국어 코퍼스 및 H100 인스턴스를 활용했습니다.
-### Training Data
-Llama-3-Luxia-Ko는 공개적으로 사용 가능한 코퍼스와 함께 자체적으로 수집한 2023년 최신 뉴스데이터를 포함하여 약 100GB 코퍼스로 사전학습 되었습니다.<br>
-사전학습 데이터는 일반 분야 이외에도 법률, 특허, 의료, 역사, 사회, 문화, 대화(문어/구어) 등 다양한 도메인이 포함되어있습니다.
-### Data Preprocessing
-보유하고 있는 한국어 데이터의 품질 향상을 위해 문서 삭제(Document Delete), 문서 수정(Document Modify) 수준의 전처리 방안을 수립하고 적용합니다.
-+ **Document Delete**
-  - 짧은 텍스트 (120 음절 미만) 필터링
-  - 긴 텍스트 (100,000 음절 이상) 필터링
-  - 한국어 비율이 25% 미만인 경우 필터링
-  - 글머리 기호가 90% 이상인 경우 필터링
-  - 욕설이 있는 경우 필터링
-+ **Document Modify**
-  - 이모션 문자 정규화 (최대 2개까지 허용)
-  - 개행 문자 정규화 (최대 2개까지 허용)
-  - HTML 태그 제거
-  - 불필요한 문자 제거
-  - 비식별화 진행 (휴대폰 번호, 계좌번호 등의 개인정보)
-  - 중복 문자열 제거
-### Data Sampling
-Llama-3-Luxia-Ko-8B 모델 학습을 위해 1TB 수준의 한국어 코퍼스의 10분의 1인 100GB 데이터를 샘플링합니다.<br><br>데이터 샘플링은 다양한 도메인과 내용이 포함될 수 있도록 고려하여 샘플링하며 방법은 아래와 같습니다.<br>
-+ 샘플링 대상은 10GB 이상의 크기를 가지는 도메인 코퍼스
-+ 도메인 코퍼스 내 명사, 복합명사 기반 키워드 사전 구축
-+ 등장하는 키워드의 DF(Document Frequency)가 임계값 이상일 경우 해당 키워드가 포함된 문서는 샘플링을 중단
 ### Use Device
-NVIDIA H100 80GB * 8EA을 활용하여 모델 사전학습을 진행하였습니다.
 #### Training Hyperparameters
 <table>
@@ -100,7 +64,7 @@ NVIDIA H100 80GB * 8EA을 활용하여 모델 사전학습을 진행하였습니
 		</td>
 	</tr>
   <tr>
-	  <td>Llama-3-Luxia-Ko
 	  </td>
 	  <td>8B
 	  </td>

 ---
 # Model Details
+Saltlux, AI Labs 언어모델팀에서 학습 및 공개한 <b>Ko-Llama3-Luxia-8B</b> 모델은 Meta에서 출시한 Llama-3-8B 모델을 <b>한국어에 특화</b>한 모델입니다.<br><br>
+자체 보유하고 있는 1TB 이상의 한국어 학습 데이터 중, 약 100GB 정도의 데이터를 선별하여 사전학습에 활용하였습니다.<br><br>
 또한 공개된 Llama-3 Tokenizer를 한국어로 확장하고 사전학습에 활용했습니다.
 - **Meta Llama-3:** Meta developed and released the Meta Llama 3 family of large language models (LLMs), a collection of pretrained and instruction tuned generative text models in 8 and 70B sizes. The Llama 3 instruction tuned models are optimized for dialogue use cases and outperform many of the available open source chat models on common industry benchmarks. Further, in developing these models, we took great care to optimize helpfulness and safety.
 - **License:** Llama3 License: [https://llama.meta.com/llama3/license](https://llama.meta.com/llama3/license)
 ### Intended Use
+Ko-Llama3-Luxia-8B는 연구용으로 제작되었으며, 다양한 자연어 생성 태스크를 위해 자유롭게 학습 및 활용할 수 있습니다.
 ### How to Use
+해당 모델 카드에는 `Ko-Llama3-Luxia-8B` 모델과 transformers 라이브리러 기반의 예시 코드를 제공합니다.
 ```
 import transformers
 import torch
+model_id = "saltlux/Ko-Llama3-Luxia-8B"
 pipeline = transformers.pipeline(
     "text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto"
 ```
 # Training Details
+Ko-Llama3-Luxia-8B 모델 학습을 위해 활용한 학습 데이터 및 장비는 Saltlux에서 보유하고 있는 자체 한국어 코퍼스 및 H100 인스턴스를 활용했습니다.
+한국어 특화를 위한 사전학습 데이터는 자체 보유하고 있는 2023년 최신 뉴스, 법률, 특허, 의료, 역사, 사회, 문화, 대화(문어/구어) 등의 도메인을 포함한 100GB 수준의 코퍼스로 사전학습 되었습니다.<br>
 ### Use Device
+NVIDIA H100 80GB * 8EA 장비를 활용하여 사전학습을 진행하였습니다.
 #### Training Hyperparameters
 <table>
 		</td>
 	</tr>
   <tr>
+	  <td>Ko-Llama3-Luxia-8B
 	  </td>
 	  <td>8B
 	  </td>