simbolo-ai
/

Myanmarsar-GPT

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Simbolo commited on Jan 8, 2024

Commit

362d3db

·

1 Parent(s): aa8985e

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -12,7 +12,7 @@ tags:
 - pre-trained
 ---
-The Simbolo's Myanmarsar-GPT symbol is trained on a dataset of 1 million Burmese data and pre-trained using the GPT-2 architecture. Its purpose is to serve as a foundational pre-trained model for the Burmese language, facilitating fine-tuning for specific applications of different tasks such as creative writing, chatbot, machine translation etc.
 ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/6598b82502c4796342239a35/rFId3-xyzWW-juDq_er9k.jpeg)
@@ -33,7 +33,7 @@ output = model.generate(input_ids, max_length=50)
 print(tokenizer.decode(output[0], skip_special_tokens=True))
 ```
 ### Data
-The data utilized comprises 1 million sentences sourced from Wikipedia.
 ### Contributors
 Main Contributor: [Sa Phyo Thu Htet](https://github.com/SaPhyoThuHtet)

 - pre-trained
 ---
+The Simbolo's Myanmarsar-GPT symbol is trained on a dataset of 100,000 Burmese data and pre-trained using the GPT-2 architecture. Its purpose is to serve as a foundational pre-trained model for the Burmese language, facilitating fine-tuning for specific applications of different tasks such as creative writing, chatbot, machine translation etc.
 ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/6598b82502c4796342239a35/rFId3-xyzWW-juDq_er9k.jpeg)
 print(tokenizer.decode(output[0], skip_special_tokens=True))
 ```
 ### Data
+The [data](https://huggingface.co/datasets/Simbolo-Servicio/wiki-burmese-sentences) utilized comprises 100,000 sentences sourced from Wikipedia.
 ### Contributors
 Main Contributor: [Sa Phyo Thu Htet](https://github.com/SaPhyoThuHtet)