DataPilot
/

Arrival-32B-Instruct-v0.5

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Holy-fox commited on 17 days ago

Commit

2ed8e36

·

verified ·

1 Parent(s): 49b3c61

Update README.md

Files changed (1) hide show

README.md +49 -13

README.md CHANGED Viewed

@@ -6,26 +6,62 @@ library_name: transformers
 tags:
 - mergekit
 - merge
----
-# SKYCAVE_element_QwQ_jp
-This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).
-## Merge Details
-### Merge Method
-This model was merged using the [SLERP](https://en.wikipedia.org/wiki/Slerp) merge method.
-### Models Merged
-The following models were included in the merge:
-* [Saxo/Linkbricks-Horizon-AI-Japanese-Base-32B](https://huggingface.co/Saxo/Linkbricks-Horizon-AI-Japanese-Base-32B)
-* [karakuri-ai/karakuri-lm-32b-thinking-2501-exp](https://huggingface.co/karakuri-ai/karakuri-lm-32b-thinking-2501-exp)
-### Configuration
-The following YAML configuration was used to produce this model:
 ```yaml
 merge_method: slerp
@@ -36,5 +72,5 @@ models:
 parameters:
   t: 0.35
 dtype: bfloat16
-name: SKYCAVE_element_QwQ_jp
 ```

 tags:
 - mergekit
 - merge
+##概要
+このモデルはQwQのような長文を出力させるために組んだモデルです。
+Mergeをした後で日本語の事後学習をしています。
+## 注意
+このモデルは **長考モデル**ではありません。
+## How to use
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+model_name = "DataPilot/Arrival-32B-Instruct-v0.5"
+tokenizer_name = ""
+if tokenizer_name == "":
+    tokenizer_name = model_name
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype="auto",
+    device_map="auto"
+)
+tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
+prompt = "9.9と9.11はどちらのほうが大きいですか？"
+messages = [
+    {"role": "system", "content": "あなたは優秀な日本語アシスタントです。問題解決をするために考えた上で回答を行ってください。"},
+    {"role": "user", "content": prompt}
+]
+text = tokenizer.apply_chat_template(
+    messages,
+    tokenize=False,
+    add_generation_prompt=True
+)
+model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
+generated_ids = model.generate(
+    **model_inputs,
+    max_new_tokens=1024
+)
+generated_ids = [
+    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
+]
+response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
+print(response)
+```
+## ベンチマーク
+このモデルはELYZA-task100で4.63をマークしました。(評価にはGroqのllama3-70B-8192を使用しました。)
+## 謝辞
+モデルの作成者であるQwenチーム,karakuri_lmチーム,linkbricksチーム、評価モデルの作成者であるmeta社とAPIを公開しているGroq社、計算資源を貸していただいたVOLTMIND社に感謝を申し上げます。
+## merge config
 ```yaml
 merge_method: slerp
 parameters:
   t: 0.35
 dtype: bfloat16
+name: DataPilot/Arrival-32B-Instruct-v0.5
 ```