lemonilia commited on 7 days ago

Commit

9607abb

verified ·

1 Parent(s): 771b2bf

Upload 55 files

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +5 -0
checkpoints/checkpoint-120/README.md +202 -0
checkpoints/checkpoint-120/adapter_config.json +37 -0
checkpoints/checkpoint-120/adapter_model.safetensors +3 -0
checkpoints/checkpoint-120/optimizer.pt +3 -0
checkpoints/checkpoint-120/rng_state.pth +3 -0
checkpoints/checkpoint-120/scheduler.pt +3 -0
checkpoints/checkpoint-120/special_tokens_map.json +1026 -0
checkpoints/checkpoint-120/tokenizer.json +3 -0
checkpoints/checkpoint-120/tokenizer_config.json +0 -0
checkpoints/checkpoint-120/trainer_state.json +1369 -0
checkpoints/checkpoint-120/training_args.bin +3 -0
checkpoints/checkpoint-180/README.md +202 -0
checkpoints/checkpoint-180/adapter_config.json +37 -0
checkpoints/checkpoint-180/adapter_model.safetensors +3 -0
checkpoints/checkpoint-180/optimizer.pt +3 -0
checkpoints/checkpoint-180/rng_state.pth +3 -0
checkpoints/checkpoint-180/scheduler.pt +3 -0
checkpoints/checkpoint-180/special_tokens_map.json +1026 -0
checkpoints/checkpoint-180/tokenizer.json +3 -0
checkpoints/checkpoint-180/tokenizer_config.json +0 -0
checkpoints/checkpoint-180/trainer_state.json +2029 -0
checkpoints/checkpoint-180/training_args.bin +3 -0
checkpoints/checkpoint-240/README.md +202 -0
checkpoints/checkpoint-240/adapter_config.json +37 -0
checkpoints/checkpoint-240/adapter_model.safetensors +3 -0
checkpoints/checkpoint-240/optimizer.pt +3 -0
checkpoints/checkpoint-240/rng_state.pth +3 -0
checkpoints/checkpoint-240/scheduler.pt +3 -0
checkpoints/checkpoint-240/special_tokens_map.json +1026 -0
checkpoints/checkpoint-240/tokenizer.json +3 -0
checkpoints/checkpoint-240/tokenizer_config.json +0 -0
checkpoints/checkpoint-240/trainer_state.json +2697 -0
checkpoints/checkpoint-240/training_args.bin +3 -0
checkpoints/checkpoint-300/README.md +202 -0
checkpoints/checkpoint-300/adapter_config.json +37 -0
checkpoints/checkpoint-300/adapter_model.safetensors +3 -0
checkpoints/checkpoint-300/optimizer.pt +3 -0
checkpoints/checkpoint-300/rng_state.pth +3 -0
checkpoints/checkpoint-300/scheduler.pt +3 -0
checkpoints/checkpoint-300/special_tokens_map.json +1026 -0
checkpoints/checkpoint-300/tokenizer.json +3 -0
checkpoints/checkpoint-300/tokenizer_config.json +0 -0
checkpoints/checkpoint-300/trainer_state.json +3357 -0
checkpoints/checkpoint-300/training_args.bin +3 -0
checkpoints/checkpoint-60/README.md +202 -0
checkpoints/checkpoint-60/adapter_config.json +37 -0
checkpoints/checkpoint-60/adapter_model.safetensors +3 -0
checkpoints/checkpoint-60/optimizer.pt +3 -0
checkpoints/checkpoint-60/rng_state.pth +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,8 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+checkpoints/checkpoint-120/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoints/checkpoint-180/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoints/checkpoint-240/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoints/checkpoint-300/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoints/checkpoint-60/tokenizer.json filter=lfs diff=lfs merge=lfs -text

checkpoints/checkpoint-120/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: /home/anon/AI-Models/LLM/Mistral-Small-24B-Instruct-2501/
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.14.0

checkpoints/checkpoint-120/adapter_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/anon/AI-Models/LLM/Mistral-Small-24B-Instruct-2501/",
+  "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 64,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "gate_proj",
+    "down_proj",
+    "o_proj",
+    "v_proj",
+    "up_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoints/checkpoint-120/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0faa2476f28faf21b38e0851785373c1de609c214e1cdbc1c51b44903b109dd7
+size 739321784

checkpoints/checkpoint-120/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b1895bffc34094178ee7f7fa2ecc8bed0cfa3562fe1c3fdcc762e93808ae04e
+size 377514226

checkpoints/checkpoint-120/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:080e3707f2674e292f8d2bd48717f5918ac7cf1fddaf52276c4053d270f41ab3
+size 14244

checkpoints/checkpoint-120/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:998ed495ac3030ef1ab402e333a99c939a4f47d52e97f32f076279d919077cba
+size 1064

checkpoints/checkpoint-120/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,1026 @@

+{
+  "additional_special_tokens": [
+    "<unk>",
+    "<s>",
+    "</s>",
+    "[INST]",
+    "[/INST]",
+    "[AVAILABLE_TOOLS]",
+    "[/AVAILABLE_TOOLS]",
+    "[TOOL_RESULTS]",
+    "[/TOOL_RESULTS]",
+    "[TOOL_CALLS]",
+    "[IMG]",
+    "<pad>",
+    "[IMG_BREAK]",
+    "[IMG_END]",
+    "[PREFIX]",
+    "[MIDDLE]",
+    "[SUFFIX]",
+    "[SYSTEM_PROMPT]",
+    "[/SYSTEM_PROMPT]",
+    "[TOOL_CONTENT]",
+    "<SPECIAL_20>",
+    "<SPECIAL_21>",
+    "<SPECIAL_22>",
+    "<SPECIAL_23>",
+    "<SPECIAL_24>",
+    "<SPECIAL_25>",
+    "<SPECIAL_26>",
+    "<SPECIAL_27>",
+    "<SPECIAL_28>",
+    "<SPECIAL_29>",
+    "<SPECIAL_30>",
+    "<SPECIAL_31>",
+    "<SPECIAL_32>",
+    "<SPECIAL_33>",
+    "<SPECIAL_34>",
+    "<SPECIAL_35>",
+    "<SPECIAL_36>",
+    "<SPECIAL_37>",
+    "<SPECIAL_38>",
+    "<SPECIAL_39>",
+    "<SPECIAL_40>",
+    "<SPECIAL_41>",
+    "<SPECIAL_42>",
+    "<SPECIAL_43>",
+    "<SPECIAL_44>",
+    "<SPECIAL_45>",
+    "<SPECIAL_46>",
+    "<SPECIAL_47>",
+    "<SPECIAL_48>",
+    "<SPECIAL_49>",
+    "<SPECIAL_50>",
+    "<SPECIAL_51>",
+    "<SPECIAL_52>",
+    "<SPECIAL_53>",
+    "<SPECIAL_54>",
+    "<SPECIAL_55>",
+    "<SPECIAL_56>",
+    "<SPECIAL_57>",
+    "<SPECIAL_58>",
+    "<SPECIAL_59>",
+    "<SPECIAL_60>",
+    "<SPECIAL_61>",
+    "<SPECIAL_62>",
+    "<SPECIAL_63>",
+    "<SPECIAL_64>",
+    "<SPECIAL_65>",
+    "<SPECIAL_66>",
+    "<SPECIAL_67>",
+    "<SPECIAL_68>",
+    "<SPECIAL_69>",
+    "<SPECIAL_70>",
+    "<SPECIAL_71>",
+    "<SPECIAL_72>",
+    "<SPECIAL_73>",
+    "<SPECIAL_74>",
+    "<SPECIAL_75>",
+    "<SPECIAL_76>",
+    "<SPECIAL_77>",
+    "<SPECIAL_78>",
+    "<SPECIAL_79>",
+    "<SPECIAL_80>",
+    "<SPECIAL_81>",
+    "<SPECIAL_82>",
+    "<SPECIAL_83>",
+    "<SPECIAL_84>",
+    "<SPECIAL_85>",
+    "<SPECIAL_86>",
+    "<SPECIAL_87>",
+    "<SPECIAL_88>",
+    "<SPECIAL_89>",
+    "<SPECIAL_90>",
+    "<SPECIAL_91>",
+    "<SPECIAL_92>",
+    "<SPECIAL_93>",
+    "<SPECIAL_94>",
+    "<SPECIAL_95>",
+    "<SPECIAL_96>",
+    "<SPECIAL_97>",
+    "<SPECIAL_98>",
+    "<SPECIAL_99>",
+    "<SPECIAL_100>",
+    "<SPECIAL_101>",
+    "<SPECIAL_102>",
+    "<SPECIAL_103>",
+    "<SPECIAL_104>",
+    "<SPECIAL_105>",
+    "<SPECIAL_106>",
+    "<SPECIAL_107>",
+    "<SPECIAL_108>",
+    "<SPECIAL_109>",
+    "<SPECIAL_110>",
+    "<SPECIAL_111>",
+    "<SPECIAL_112>",
+    "<SPECIAL_113>",
+    "<SPECIAL_114>",
+    "<SPECIAL_115>",
+    "<SPECIAL_116>",
+    "<SPECIAL_117>",
+    "<SPECIAL_118>",
+    "<SPECIAL_119>",
+    "<SPECIAL_120>",
+    "<SPECIAL_121>",
+    "<SPECIAL_122>",
+    "<SPECIAL_123>",
+    "<SPECIAL_124>",
+    "<SPECIAL_125>",
+    "<SPECIAL_126>",
+    "<SPECIAL_127>",
+    "<SPECIAL_128>",
+    "<SPECIAL_129>",
+    "<SPECIAL_130>",
+    "<SPECIAL_131>",
+    "<SPECIAL_132>",
+    "<SPECIAL_133>",
+    "<SPECIAL_134>",
+    "<SPECIAL_135>",
+    "<SPECIAL_136>",
+    "<SPECIAL_137>",
+    "<SPECIAL_138>",
+    "<SPECIAL_139>",
+    "<SPECIAL_140>",
+    "<SPECIAL_141>",
+    "<SPECIAL_142>",
+    "<SPECIAL_143>",
+    "<SPECIAL_144>",
+    "<SPECIAL_145>",
+    "<SPECIAL_146>",
+    "<SPECIAL_147>",
+    "<SPECIAL_148>",
+    "<SPECIAL_149>",
+    "<SPECIAL_150>",
+    "<SPECIAL_151>",
+    "<SPECIAL_152>",
+    "<SPECIAL_153>",
+    "<SPECIAL_154>",
+    "<SPECIAL_155>",
+    "<SPECIAL_156>",
+    "<SPECIAL_157>",
+    "<SPECIAL_158>",
+    "<SPECIAL_159>",
+    "<SPECIAL_160>",
+    "<SPECIAL_161>",
+    "<SPECIAL_162>",
+    "<SPECIAL_163>",
+    "<SPECIAL_164>",
+    "<SPECIAL_165>",
+    "<SPECIAL_166>",
+    "<SPECIAL_167>",
+    "<SPECIAL_168>",
+    "<SPECIAL_169>",
+    "<SPECIAL_170>",
+    "<SPECIAL_171>",
+    "<SPECIAL_172>",
+    "<SPECIAL_173>",
+    "<SPECIAL_174>",
+    "<SPECIAL_175>",
+    "<SPECIAL_176>",
+    "<SPECIAL_177>",
+    "<SPECIAL_178>",
+    "<SPECIAL_179>",
+    "<SPECIAL_180>",
+    "<SPECIAL_181>",
+    "<SPECIAL_182>",
+    "<SPECIAL_183>",
+    "<SPECIAL_184>",
+    "<SPECIAL_185>",
+    "<SPECIAL_186>",
+    "<SPECIAL_187>",
+    "<SPECIAL_188>",
+    "<SPECIAL_189>",
+    "<SPECIAL_190>",
+    "<SPECIAL_191>",
+    "<SPECIAL_192>",
+    "<SPECIAL_193>",
+    "<SPECIAL_194>",
+    "<SPECIAL_195>",
+    "<SPECIAL_196>",
+    "<SPECIAL_197>",
+    "<SPECIAL_198>",
+    "<SPECIAL_199>",
+    "<SPECIAL_200>",
+    "<SPECIAL_201>",
+    "<SPECIAL_202>",
+    "<SPECIAL_203>",
+    "<SPECIAL_204>",
+    "<SPECIAL_205>",
+    "<SPECIAL_206>",
+    "<SPECIAL_207>",
+    "<SPECIAL_208>",
+    "<SPECIAL_209>",
+    "<SPECIAL_210>",
+    "<SPECIAL_211>",
+    "<SPECIAL_212>",
+    "<SPECIAL_213>",
+    "<SPECIAL_214>",
+    "<SPECIAL_215>",
+    "<SPECIAL_216>",
+    "<SPECIAL_217>",
+    "<SPECIAL_218>",
+    "<SPECIAL_219>",
+    "<SPECIAL_220>",
+    "<SPECIAL_221>",
+    "<SPECIAL_222>",
+    "<SPECIAL_223>",
+    "<SPECIAL_224>",
+    "<SPECIAL_225>",
+    "<SPECIAL_226>",
+    "<SPECIAL_227>",
+    "<SPECIAL_228>",
+    "<SPECIAL_229>",
+    "<SPECIAL_230>",
+    "<SPECIAL_231>",
+    "<SPECIAL_232>",
+    "<SPECIAL_233>",
+    "<SPECIAL_234>",
+    "<SPECIAL_235>",
+    "<SPECIAL_236>",
+    "<SPECIAL_237>",
+    "<SPECIAL_238>",
+    "<SPECIAL_239>",
+    "<SPECIAL_240>",
+    "<SPECIAL_241>",
+    "<SPECIAL_242>",
+    "<SPECIAL_243>",
+    "<SPECIAL_244>",
+    "<SPECIAL_245>",
+    "<SPECIAL_246>",
+    "<SPECIAL_247>",
+    "<SPECIAL_248>",
+    "<SPECIAL_249>",
+    "<SPECIAL_250>",
+    "<SPECIAL_251>",
+    "<SPECIAL_252>",
+    "<SPECIAL_253>",
+    "<SPECIAL_254>",
+    "<SPECIAL_255>",
+    "<SPECIAL_256>",
+    "<SPECIAL_257>",
+    "<SPECIAL_258>",
+    "<SPECIAL_259>",
+    "<SPECIAL_260>",
+    "<SPECIAL_261>",
+    "<SPECIAL_262>",
+    "<SPECIAL_263>",
+    "<SPECIAL_264>",
+    "<SPECIAL_265>",
+    "<SPECIAL_266>",
+    "<SPECIAL_267>",
+    "<SPECIAL_268>",
+    "<SPECIAL_269>",
+    "<SPECIAL_270>",
+    "<SPECIAL_271>",
+    "<SPECIAL_272>",
+    "<SPECIAL_273>",
+    "<SPECIAL_274>",
+    "<SPECIAL_275>",
+    "<SPECIAL_276>",
+    "<SPECIAL_277>",
+    "<SPECIAL_278>",
+    "<SPECIAL_279>",
+    "<SPECIAL_280>",
+    "<SPECIAL_281>",
+    "<SPECIAL_282>",
+    "<SPECIAL_283>",
+    "<SPECIAL_284>",
+    "<SPECIAL_285>",
+    "<SPECIAL_286>",
+    "<SPECIAL_287>",
+    "<SPECIAL_288>",
+    "<SPECIAL_289>",
+    "<SPECIAL_290>",
+    "<SPECIAL_291>",
+    "<SPECIAL_292>",
+    "<SPECIAL_293>",
+    "<SPECIAL_294>",
+    "<SPECIAL_295>",
+    "<SPECIAL_296>",
+    "<SPECIAL_297>",
+    "<SPECIAL_298>",
+    "<SPECIAL_299>",
+    "<SPECIAL_300>",
+    "<SPECIAL_301>",
+    "<SPECIAL_302>",
+    "<SPECIAL_303>",
+    "<SPECIAL_304>",
+    "<SPECIAL_305>",
+    "<SPECIAL_306>",
+    "<SPECIAL_307>",
+    "<SPECIAL_308>",
+    "<SPECIAL_309>",
+    "<SPECIAL_310>",
+    "<SPECIAL_311>",
+    "<SPECIAL_312>",
+    "<SPECIAL_313>",
+    "<SPECIAL_314>",
+    "<SPECIAL_315>",
+    "<SPECIAL_316>",
+    "<SPECIAL_317>",
+    "<SPECIAL_318>",
+    "<SPECIAL_319>",
+    "<SPECIAL_320>",
+    "<SPECIAL_321>",
+    "<SPECIAL_322>",
+    "<SPECIAL_323>",
+    "<SPECIAL_324>",
+    "<SPECIAL_325>",
+    "<SPECIAL_326>",
+    "<SPECIAL_327>",
+    "<SPECIAL_328>",
+    "<SPECIAL_329>",
+    "<SPECIAL_330>",
+    "<SPECIAL_331>",
+    "<SPECIAL_332>",
+    "<SPECIAL_333>",
+    "<SPECIAL_334>",
+    "<SPECIAL_335>",
+    "<SPECIAL_336>",
+    "<SPECIAL_337>",
+    "<SPECIAL_338>",
+    "<SPECIAL_339>",
+    "<SPECIAL_340>",
+    "<SPECIAL_341>",
+    "<SPECIAL_342>",
+    "<SPECIAL_343>",
+    "<SPECIAL_344>",
+    "<SPECIAL_345>",
+    "<SPECIAL_346>",
+    "<SPECIAL_347>",
+    "<SPECIAL_348>",
+    "<SPECIAL_349>",
+    "<SPECIAL_350>",
+    "<SPECIAL_351>",
+    "<SPECIAL_352>",
+    "<SPECIAL_353>",
+    "<SPECIAL_354>",
+    "<SPECIAL_355>",
+    "<SPECIAL_356>",
+    "<SPECIAL_357>",
+    "<SPECIAL_358>",
+    "<SPECIAL_359>",
+    "<SPECIAL_360>",
+    "<SPECIAL_361>",
+    "<SPECIAL_362>",
+    "<SPECIAL_363>",
+    "<SPECIAL_364>",
+    "<SPECIAL_365>",
+    "<SPECIAL_366>",
+    "<SPECIAL_367>",
+    "<SPECIAL_368>",
+    "<SPECIAL_369>",
+    "<SPECIAL_370>",
+    "<SPECIAL_371>",
+    "<SPECIAL_372>",
+    "<SPECIAL_373>",
+    "<SPECIAL_374>",
+    "<SPECIAL_375>",
+    "<SPECIAL_376>",
+    "<SPECIAL_377>",
+    "<SPECIAL_378>",
+    "<SPECIAL_379>",
+    "<SPECIAL_380>",
+    "<SPECIAL_381>",
+    "<SPECIAL_382>",
+    "<SPECIAL_383>",
+    "<SPECIAL_384>",
+    "<SPECIAL_385>",
+    "<SPECIAL_386>",
+    "<SPECIAL_387>",
+    "<SPECIAL_388>",
+    "<SPECIAL_389>",
+    "<SPECIAL_390>",
+    "<SPECIAL_391>",
+    "<SPECIAL_392>",
+    "<SPECIAL_393>",
+    "<SPECIAL_394>",
+    "<SPECIAL_395>",
+    "<SPECIAL_396>",
+    "<SPECIAL_397>",
+    "<SPECIAL_398>",
+    "<SPECIAL_399>",
+    "<SPECIAL_400>",
+    "<SPECIAL_401>",
+    "<SPECIAL_402>",
+    "<SPECIAL_403>",
+    "<SPECIAL_404>",
+    "<SPECIAL_405>",
+    "<SPECIAL_406>",
+    "<SPECIAL_407>",
+    "<SPECIAL_408>",
+    "<SPECIAL_409>",
+    "<SPECIAL_410>",
+    "<SPECIAL_411>",
+    "<SPECIAL_412>",
+    "<SPECIAL_413>",
+    "<SPECIAL_414>",
+    "<SPECIAL_415>",
+    "<SPECIAL_416>",
+    "<SPECIAL_417>",
+    "<SPECIAL_418>",
+    "<SPECIAL_419>",
+    "<SPECIAL_420>",
+    "<SPECIAL_421>",
+    "<SPECIAL_422>",
+    "<SPECIAL_423>",
+    "<SPECIAL_424>",
+    "<SPECIAL_425>",
+    "<SPECIAL_426>",
+    "<SPECIAL_427>",
+    "<SPECIAL_428>",
+    "<SPECIAL_429>",
+    "<SPECIAL_430>",
+    "<SPECIAL_431>",
+    "<SPECIAL_432>",
+    "<SPECIAL_433>",
+    "<SPECIAL_434>",
+    "<SPECIAL_435>",
+    "<SPECIAL_436>",
+    "<SPECIAL_437>",
+    "<SPECIAL_438>",
+    "<SPECIAL_439>",
+    "<SPECIAL_440>",
+    "<SPECIAL_441>",
+    "<SPECIAL_442>",
+    "<SPECIAL_443>",
+    "<SPECIAL_444>",
+    "<SPECIAL_445>",
+    "<SPECIAL_446>",
+    "<SPECIAL_447>",
+    "<SPECIAL_448>",
+    "<SPECIAL_449>",
+    "<SPECIAL_450>",
+    "<SPECIAL_451>",
+    "<SPECIAL_452>",
+    "<SPECIAL_453>",
+    "<SPECIAL_454>",
+    "<SPECIAL_455>",
+    "<SPECIAL_456>",
+    "<SPECIAL_457>",
+    "<SPECIAL_458>",
+    "<SPECIAL_459>",
+    "<SPECIAL_460>",
+    "<SPECIAL_461>",
+    "<SPECIAL_462>",
+    "<SPECIAL_463>",
+    "<SPECIAL_464>",
+    "<SPECIAL_465>",
+    "<SPECIAL_466>",
+    "<SPECIAL_467>",
+    "<SPECIAL_468>",
+    "<SPECIAL_469>",
+    "<SPECIAL_470>",
+    "<SPECIAL_471>",
+    "<SPECIAL_472>",
+    "<SPECIAL_473>",
+    "<SPECIAL_474>",
+    "<SPECIAL_475>",
+    "<SPECIAL_476>",
+    "<SPECIAL_477>",
+    "<SPECIAL_478>",
+    "<SPECIAL_479>",
+    "<SPECIAL_480>",
+    "<SPECIAL_481>",
+    "<SPECIAL_482>",
+    "<SPECIAL_483>",
+    "<SPECIAL_484>",
+    "<SPECIAL_485>",
+    "<SPECIAL_486>",
+    "<SPECIAL_487>",
+    "<SPECIAL_488>",
+    "<SPECIAL_489>",
+    "<SPECIAL_490>",
+    "<SPECIAL_491>",
+    "<SPECIAL_492>",
+    "<SPECIAL_493>",
+    "<SPECIAL_494>",
+    "<SPECIAL_495>",
+    "<SPECIAL_496>",
+    "<SPECIAL_497>",
+    "<SPECIAL_498>",
+    "<SPECIAL_499>",
+    "<SPECIAL_500>",
+    "<SPECIAL_501>",
+    "<SPECIAL_502>",
+    "<SPECIAL_503>",
+    "<SPECIAL_504>",
+    "<SPECIAL_505>",
+    "<SPECIAL_506>",
+    "<SPECIAL_507>",
+    "<SPECIAL_508>",
+    "<SPECIAL_509>",
+    "<SPECIAL_510>",
+    "<SPECIAL_511>",
+    "<SPECIAL_512>",
+    "<SPECIAL_513>",
+    "<SPECIAL_514>",
+    "<SPECIAL_515>",
+    "<SPECIAL_516>",
+    "<SPECIAL_517>",
+    "<SPECIAL_518>",
+    "<SPECIAL_519>",
+    "<SPECIAL_520>",
+    "<SPECIAL_521>",
+    "<SPECIAL_522>",
+    "<SPECIAL_523>",
+    "<SPECIAL_524>",
+    "<SPECIAL_525>",
+    "<SPECIAL_526>",
+    "<SPECIAL_527>",
+    "<SPECIAL_528>",
+    "<SPECIAL_529>",
+    "<SPECIAL_530>",
+    "<SPECIAL_531>",
+    "<SPECIAL_532>",
+    "<SPECIAL_533>",
+    "<SPECIAL_534>",
+    "<SPECIAL_535>",
+    "<SPECIAL_536>",
+    "<SPECIAL_537>",
+    "<SPECIAL_538>",
+    "<SPECIAL_539>",
+    "<SPECIAL_540>",
+    "<SPECIAL_541>",
+    "<SPECIAL_542>",
+    "<SPECIAL_543>",
+    "<SPECIAL_544>",
+    "<SPECIAL_545>",
+    "<SPECIAL_546>",
+    "<SPECIAL_547>",
+    "<SPECIAL_548>",
+    "<SPECIAL_549>",
+    "<SPECIAL_550>",
+    "<SPECIAL_551>",
+    "<SPECIAL_552>",
+    "<SPECIAL_553>",
+    "<SPECIAL_554>",
+    "<SPECIAL_555>",
+    "<SPECIAL_556>",
+    "<SPECIAL_557>",
+    "<SPECIAL_558>",
+    "<SPECIAL_559>",
+    "<SPECIAL_560>",
+    "<SPECIAL_561>",
+    "<SPECIAL_562>",
+    "<SPECIAL_563>",
+    "<SPECIAL_564>",
+    "<SPECIAL_565>",
+    "<SPECIAL_566>",
+    "<SPECIAL_567>",
+    "<SPECIAL_568>",
+    "<SPECIAL_569>",
+    "<SPECIAL_570>",
+    "<SPECIAL_571>",
+    "<SPECIAL_572>",
+    "<SPECIAL_573>",
+    "<SPECIAL_574>",
+    "<SPECIAL_575>",
+    "<SPECIAL_576>",
+    "<SPECIAL_577>",
+    "<SPECIAL_578>",
+    "<SPECIAL_579>",
+    "<SPECIAL_580>",
+    "<SPECIAL_581>",
+    "<SPECIAL_582>",
+    "<SPECIAL_583>",
+    "<SPECIAL_584>",
+    "<SPECIAL_585>",
+    "<SPECIAL_586>",
+    "<SPECIAL_587>",
+    "<SPECIAL_588>",
+    "<SPECIAL_589>",
+    "<SPECIAL_590>",
+    "<SPECIAL_591>",
+    "<SPECIAL_592>",
+    "<SPECIAL_593>",
+    "<SPECIAL_594>",
+    "<SPECIAL_595>",
+    "<SPECIAL_596>",
+    "<SPECIAL_597>",
+    "<SPECIAL_598>",
+    "<SPECIAL_599>",
+    "<SPECIAL_600>",
+    "<SPECIAL_601>",
+    "<SPECIAL_602>",
+    "<SPECIAL_603>",
+    "<SPECIAL_604>",
+    "<SPECIAL_605>",
+    "<SPECIAL_606>",
+    "<SPECIAL_607>",
+    "<SPECIAL_608>",
+    "<SPECIAL_609>",
+    "<SPECIAL_610>",
+    "<SPECIAL_611>",
+    "<SPECIAL_612>",
+    "<SPECIAL_613>",
+    "<SPECIAL_614>",
+    "<SPECIAL_615>",
+    "<SPECIAL_616>",
+    "<SPECIAL_617>",
+    "<SPECIAL_618>",
+    "<SPECIAL_619>",
+    "<SPECIAL_620>",
+    "<SPECIAL_621>",
+    "<SPECIAL_622>",
+    "<SPECIAL_623>",
+    "<SPECIAL_624>",
+    "<SPECIAL_625>",
+    "<SPECIAL_626>",
+    "<SPECIAL_627>",
+    "<SPECIAL_628>",
+    "<SPECIAL_629>",
+    "<SPECIAL_630>",
+    "<SPECIAL_631>",
+    "<SPECIAL_632>",
+    "<SPECIAL_633>",
+    "<SPECIAL_634>",
+    "<SPECIAL_635>",
+    "<SPECIAL_636>",
+    "<SPECIAL_637>",
+    "<SPECIAL_638>",
+    "<SPECIAL_639>",
+    "<SPECIAL_640>",
+    "<SPECIAL_641>",
+    "<SPECIAL_642>",
+    "<SPECIAL_643>",
+    "<SPECIAL_644>",
+    "<SPECIAL_645>",
+    "<SPECIAL_646>",
+    "<SPECIAL_647>",
+    "<SPECIAL_648>",
+    "<SPECIAL_649>",
+    "<SPECIAL_650>",
+    "<SPECIAL_651>",
+    "<SPECIAL_652>",
+    "<SPECIAL_653>",
+    "<SPECIAL_654>",
+    "<SPECIAL_655>",
+    "<SPECIAL_656>",
+    "<SPECIAL_657>",
+    "<SPECIAL_658>",
+    "<SPECIAL_659>",
+    "<SPECIAL_660>",
+    "<SPECIAL_661>",
+    "<SPECIAL_662>",
+    "<SPECIAL_663>",
+    "<SPECIAL_664>",
+    "<SPECIAL_665>",
+    "<SPECIAL_666>",
+    "<SPECIAL_667>",
+    "<SPECIAL_668>",
+    "<SPECIAL_669>",
+    "<SPECIAL_670>",
+    "<SPECIAL_671>",
+    "<SPECIAL_672>",
+    "<SPECIAL_673>",
+    "<SPECIAL_674>",
+    "<SPECIAL_675>",
+    "<SPECIAL_676>",
+    "<SPECIAL_677>",
+    "<SPECIAL_678>",
+    "<SPECIAL_679>",
+    "<SPECIAL_680>",
+    "<SPECIAL_681>",
+    "<SPECIAL_682>",
+    "<SPECIAL_683>",
+    "<SPECIAL_684>",
+    "<SPECIAL_685>",
+    "<SPECIAL_686>",
+    "<SPECIAL_687>",
+    "<SPECIAL_688>",
+    "<SPECIAL_689>",
+    "<SPECIAL_690>",
+    "<SPECIAL_691>",
+    "<SPECIAL_692>",
+    "<SPECIAL_693>",
+    "<SPECIAL_694>",
+    "<SPECIAL_695>",
+    "<SPECIAL_696>",
+    "<SPECIAL_697>",
+    "<SPECIAL_698>",
+    "<SPECIAL_699>",
+    "<SPECIAL_700>",
+    "<SPECIAL_701>",
+    "<SPECIAL_702>",
+    "<SPECIAL_703>",
+    "<SPECIAL_704>",
+    "<SPECIAL_705>",
+    "<SPECIAL_706>",
+    "<SPECIAL_707>",
+    "<SPECIAL_708>",
+    "<SPECIAL_709>",
+    "<SPECIAL_710>",
+    "<SPECIAL_711>",
+    "<SPECIAL_712>",
+    "<SPECIAL_713>",
+    "<SPECIAL_714>",
+    "<SPECIAL_715>",
+    "<SPECIAL_716>",
+    "<SPECIAL_717>",
+    "<SPECIAL_718>",
+    "<SPECIAL_719>",
+    "<SPECIAL_720>",
+    "<SPECIAL_721>",
+    "<SPECIAL_722>",
+    "<SPECIAL_723>",
+    "<SPECIAL_724>",
+    "<SPECIAL_725>",
+    "<SPECIAL_726>",
+    "<SPECIAL_727>",
+    "<SPECIAL_728>",
+    "<SPECIAL_729>",
+    "<SPECIAL_730>",
+    "<SPECIAL_731>",
+    "<SPECIAL_732>",
+    "<SPECIAL_733>",
+    "<SPECIAL_734>",
+    "<SPECIAL_735>",
+    "<SPECIAL_736>",
+    "<SPECIAL_737>",
+    "<SPECIAL_738>",
+    "<SPECIAL_739>",
+    "<SPECIAL_740>",
+    "<SPECIAL_741>",
+    "<SPECIAL_742>",
+    "<SPECIAL_743>",
+    "<SPECIAL_744>",
+    "<SPECIAL_745>",
+    "<SPECIAL_746>",
+    "<SPECIAL_747>",
+    "<SPECIAL_748>",
+    "<SPECIAL_749>",
+    "<SPECIAL_750>",
+    "<SPECIAL_751>",
+    "<SPECIAL_752>",
+    "<SPECIAL_753>",
+    "<SPECIAL_754>",
+    "<SPECIAL_755>",
+    "<SPECIAL_756>",
+    "<SPECIAL_757>",
+    "<SPECIAL_758>",
+    "<SPECIAL_759>",
+    "<SPECIAL_760>",
+    "<SPECIAL_761>",
+    "<SPECIAL_762>",
+    "<SPECIAL_763>",
+    "<SPECIAL_764>",
+    "<SPECIAL_765>",
+    "<SPECIAL_766>",
+    "<SPECIAL_767>",
+    "<SPECIAL_768>",
+    "<SPECIAL_769>",
+    "<SPECIAL_770>",
+    "<SPECIAL_771>",
+    "<SPECIAL_772>",
+    "<SPECIAL_773>",
+    "<SPECIAL_774>",
+    "<SPECIAL_775>",
+    "<SPECIAL_776>",
+    "<SPECIAL_777>",
+    "<SPECIAL_778>",
+    "<SPECIAL_779>",
+    "<SPECIAL_780>",
+    "<SPECIAL_781>",
+    "<SPECIAL_782>",
+    "<SPECIAL_783>",
+    "<SPECIAL_784>",
+    "<SPECIAL_785>",
+    "<SPECIAL_786>",
+    "<SPECIAL_787>",
+    "<SPECIAL_788>",
+    "<SPECIAL_789>",
+    "<SPECIAL_790>",
+    "<SPECIAL_791>",
+    "<SPECIAL_792>",
+    "<SPECIAL_793>",
+    "<SPECIAL_794>",
+    "<SPECIAL_795>",
+    "<SPECIAL_796>",
+    "<SPECIAL_797>",
+    "<SPECIAL_798>",
+    "<SPECIAL_799>",
+    "<SPECIAL_800>",
+    "<SPECIAL_801>",
+    "<SPECIAL_802>",
+    "<SPECIAL_803>",
+    "<SPECIAL_804>",
+    "<SPECIAL_805>",
+    "<SPECIAL_806>",
+    "<SPECIAL_807>",
+    "<SPECIAL_808>",
+    "<SPECIAL_809>",
+    "<SPECIAL_810>",
+    "<SPECIAL_811>",
+    "<SPECIAL_812>",
+    "<SPECIAL_813>",
+    "<SPECIAL_814>",
+    "<SPECIAL_815>",
+    "<SPECIAL_816>",
+    "<SPECIAL_817>",
+    "<SPECIAL_818>",
+    "<SPECIAL_819>",
+    "<SPECIAL_820>",
+    "<SPECIAL_821>",
+    "<SPECIAL_822>",
+    "<SPECIAL_823>",
+    "<SPECIAL_824>",
+    "<SPECIAL_825>",
+    "<SPECIAL_826>",
+    "<SPECIAL_827>",
+    "<SPECIAL_828>",
+    "<SPECIAL_829>",
+    "<SPECIAL_830>",
+    "<SPECIAL_831>",
+    "<SPECIAL_832>",
+    "<SPECIAL_833>",
+    "<SPECIAL_834>",
+    "<SPECIAL_835>",
+    "<SPECIAL_836>",
+    "<SPECIAL_837>",
+    "<SPECIAL_838>",
+    "<SPECIAL_839>",
+    "<SPECIAL_840>",
+    "<SPECIAL_841>",
+    "<SPECIAL_842>",
+    "<SPECIAL_843>",
+    "<SPECIAL_844>",
+    "<SPECIAL_845>",
+    "<SPECIAL_846>",
+    "<SPECIAL_847>",
+    "<SPECIAL_848>",
+    "<SPECIAL_849>",
+    "<SPECIAL_850>",
+    "<SPECIAL_851>",
+    "<SPECIAL_852>",
+    "<SPECIAL_853>",
+    "<SPECIAL_854>",
+    "<SPECIAL_855>",
+    "<SPECIAL_856>",
+    "<SPECIAL_857>",
+    "<SPECIAL_858>",
+    "<SPECIAL_859>",
+    "<SPECIAL_860>",
+    "<SPECIAL_861>",
+    "<SPECIAL_862>",
+    "<SPECIAL_863>",
+    "<SPECIAL_864>",
+    "<SPECIAL_865>",
+    "<SPECIAL_866>",
+    "<SPECIAL_867>",
+    "<SPECIAL_868>",
+    "<SPECIAL_869>",
+    "<SPECIAL_870>",
+    "<SPECIAL_871>",
+    "<SPECIAL_872>",
+    "<SPECIAL_873>",
+    "<SPECIAL_874>",
+    "<SPECIAL_875>",
+    "<SPECIAL_876>",
+    "<SPECIAL_877>",
+    "<SPECIAL_878>",
+    "<SPECIAL_879>",
+    "<SPECIAL_880>",
+    "<SPECIAL_881>",
+    "<SPECIAL_882>",
+    "<SPECIAL_883>",
+    "<SPECIAL_884>",
+    "<SPECIAL_885>",
+    "<SPECIAL_886>",
+    "<SPECIAL_887>",
+    "<SPECIAL_888>",
+    "<SPECIAL_889>",
+    "<SPECIAL_890>",
+    "<SPECIAL_891>",
+    "<SPECIAL_892>",
+    "<SPECIAL_893>",
+    "<SPECIAL_894>",
+    "<SPECIAL_895>",
+    "<SPECIAL_896>",
+    "<SPECIAL_897>",
+    "<SPECIAL_898>",
+    "<SPECIAL_899>",
+    "<SPECIAL_900>",
+    "<SPECIAL_901>",
+    "<SPECIAL_902>",
+    "<SPECIAL_903>",
+    "<SPECIAL_904>",
+    "<SPECIAL_905>",
+    "<SPECIAL_906>",
+    "<SPECIAL_907>",
+    "<SPECIAL_908>",
+    "<SPECIAL_909>",
+    "<SPECIAL_910>",
+    "<SPECIAL_911>",
+    "<SPECIAL_912>",
+    "<SPECIAL_913>",
+    "<SPECIAL_914>",
+    "<SPECIAL_915>",
+    "<SPECIAL_916>",
+    "<SPECIAL_917>",
+    "<SPECIAL_918>",
+    "<SPECIAL_919>",
+    "<SPECIAL_920>",
+    "<SPECIAL_921>",
+    "<SPECIAL_922>",
+    "<SPECIAL_923>",
+    "<SPECIAL_924>",
+    "<SPECIAL_925>",
+    "<SPECIAL_926>",
+    "<SPECIAL_927>",
+    "<SPECIAL_928>",
+    "<SPECIAL_929>",
+    "<SPECIAL_930>",
+    "<SPECIAL_931>",
+    "<SPECIAL_932>",
+    "<SPECIAL_933>",
+    "<SPECIAL_934>",
+    "<SPECIAL_935>",
+    "<SPECIAL_936>",
+    "<SPECIAL_937>",
+    "<SPECIAL_938>",
+    "<SPECIAL_939>",
+    "<SPECIAL_940>",
+    "<SPECIAL_941>",
+    "<SPECIAL_942>",
+    "<SPECIAL_943>",
+    "<SPECIAL_944>",
+    "<SPECIAL_945>",
+    "<SPECIAL_946>",
+    "<SPECIAL_947>",
+    "<SPECIAL_948>",
+    "<SPECIAL_949>",
+    "<SPECIAL_950>",
+    "<SPECIAL_951>",
+    "<SPECIAL_952>",
+    "<SPECIAL_953>",
+    "<SPECIAL_954>",
+    "<SPECIAL_955>",
+    "<SPECIAL_956>",
+    "<SPECIAL_957>",
+    "<SPECIAL_958>",
+    "<SPECIAL_959>",
+    "<SPECIAL_960>",
+    "<SPECIAL_961>",
+    "<SPECIAL_962>",
+    "<SPECIAL_963>",
+    "<SPECIAL_964>",
+    "<SPECIAL_965>",
+    "<SPECIAL_966>",
+    "<SPECIAL_967>",
+    "<SPECIAL_968>",
+    "<SPECIAL_969>",
+    "<SPECIAL_970>",
+    "<SPECIAL_971>",
+    "<SPECIAL_972>",
+    "<SPECIAL_973>",
+    "<SPECIAL_974>",
+    "<SPECIAL_975>",
+    "<SPECIAL_976>",
+    "<SPECIAL_977>",
+    "<SPECIAL_978>",
+    "<SPECIAL_979>",
+    "<SPECIAL_980>",
+    "<SPECIAL_981>",
+    "<SPECIAL_982>",
+    "<SPECIAL_983>",
+    "<SPECIAL_984>",
+    "<SPECIAL_985>",
+    "<SPECIAL_986>",
+    "<SPECIAL_987>",
+    "<SPECIAL_988>",
+    "<SPECIAL_989>",
+    "<SPECIAL_990>",
+    "<SPECIAL_991>",
+    "<SPECIAL_992>",
+    "<SPECIAL_993>",
+    "<SPECIAL_994>",
+    "<SPECIAL_995>",
+    "<SPECIAL_996>",
+    "<SPECIAL_997>",
+    "<SPECIAL_998>",
+    "<SPECIAL_999>"
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoints/checkpoint-120/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b76085f9923309d873994d444989f7eb6ec074b06f25b58f1e8d7b7741070949
+size 17078037

checkpoints/checkpoint-120/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-120/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1369 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9591836734693877,
+  "eval_steps": 2,
+  "global_step": 120,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_loss": 1.2313029766082764,
+      "eval_runtime": 18.2352,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 0
+    },
+    {
+      "epoch": 0.0163265306122449,
+      "grad_norm": 0.37113556265830994,
+      "learning_rate": 2.5e-05,
+      "loss": 0.4085,
+      "step": 1
+    },
+    {
+      "epoch": 0.0326530612244898,
+      "grad_norm": 0.35803329944610596,
+      "learning_rate": 5e-05,
+      "loss": 0.3876,
+      "step": 2
+    },
+    {
+      "epoch": 0.0326530612244898,
+      "eval_loss": 1.2231345176696777,
+      "eval_runtime": 18.2243,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 2
+    },
+    {
+      "epoch": 0.04897959183673469,
+      "grad_norm": 0.3112759590148926,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.3946,
+      "step": 3
+    },
+    {
+      "epoch": 0.0653061224489796,
+      "grad_norm": 0.2448713332414627,
+      "learning_rate": 0.0001,
+      "loss": 0.4363,
+      "step": 4
+    },
+    {
+      "epoch": 0.0653061224489796,
+      "eval_loss": 1.1564743518829346,
+      "eval_runtime": 18.253,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 4
+    },
+    {
+      "epoch": 0.08163265306122448,
+      "grad_norm": 0.2955642342567444,
+      "learning_rate": 0.000125,
+      "loss": 0.4394,
+      "step": 5
+    },
+    {
+      "epoch": 0.09795918367346938,
+      "grad_norm": 0.41399946808815,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.4902,
+      "step": 6
+    },
+    {
+      "epoch": 0.09795918367346938,
+      "eval_loss": 1.1353044509887695,
+      "eval_runtime": 18.2664,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 6
+    },
+    {
+      "epoch": 0.11428571428571428,
+      "grad_norm": 0.2643347978591919,
+      "learning_rate": 0.000175,
+      "loss": 0.3528,
+      "step": 7
+    },
+    {
+      "epoch": 0.1306122448979592,
+      "grad_norm": 0.21472330391407013,
+      "learning_rate": 0.0002,
+      "loss": 0.357,
+      "step": 8
+    },
+    {
+      "epoch": 0.1306122448979592,
+      "eval_loss": 1.1218546628952026,
+      "eval_runtime": 18.2139,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 8
+    },
+    {
+      "epoch": 0.1469387755102041,
+      "grad_norm": 0.23261462152004242,
+      "learning_rate": 0.00022500000000000002,
+      "loss": 0.3924,
+      "step": 9
+    },
+    {
+      "epoch": 0.16326530612244897,
+      "grad_norm": 0.18365171551704407,
+      "learning_rate": 0.00025,
+      "loss": 0.283,
+      "step": 10
+    },
+    {
+      "epoch": 0.16326530612244897,
+      "eval_loss": 1.1094393730163574,
+      "eval_runtime": 18.249,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 10
+    },
+    {
+      "epoch": 0.17959183673469387,
+      "grad_norm": 0.20431634783744812,
+      "learning_rate": 0.000275,
+      "loss": 0.3178,
+      "step": 11
+    },
+    {
+      "epoch": 0.19591836734693877,
+      "grad_norm": 0.2033773809671402,
+      "learning_rate": 0.00030000000000000003,
+      "loss": 0.3366,
+      "step": 12
+    },
+    {
+      "epoch": 0.19591836734693877,
+      "eval_loss": 1.1021316051483154,
+      "eval_runtime": 18.2562,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 12
+    },
+    {
+      "epoch": 0.21224489795918366,
+      "grad_norm": 0.27416911721229553,
+      "learning_rate": 0.00032500000000000004,
+      "loss": 0.3367,
+      "step": 13
+    },
+    {
+      "epoch": 0.22857142857142856,
+      "grad_norm": 0.32283130288124084,
+      "learning_rate": 0.00035,
+      "loss": 0.3364,
+      "step": 14
+    },
+    {
+      "epoch": 0.22857142857142856,
+      "eval_loss": 1.0523244142532349,
+      "eval_runtime": 18.2347,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 14
+    },
+    {
+      "epoch": 0.24489795918367346,
+      "grad_norm": 0.21469368040561676,
+      "learning_rate": 0.000375,
+      "loss": 0.3496,
+      "step": 15
+    },
+    {
+      "epoch": 0.2612244897959184,
+      "grad_norm": 0.19361759722232819,
+      "learning_rate": 0.0004,
+      "loss": 0.2961,
+      "step": 16
+    },
+    {
+      "epoch": 0.2612244897959184,
+      "eval_loss": 1.0401124954223633,
+      "eval_runtime": 18.2288,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 16
+    },
+    {
+      "epoch": 0.27755102040816326,
+      "grad_norm": 0.1797463297843933,
+      "learning_rate": 0.0004,
+      "loss": 0.3016,
+      "step": 17
+    },
+    {
+      "epoch": 0.2938775510204082,
+      "grad_norm": 0.28122591972351074,
+      "learning_rate": 0.0004,
+      "loss": 0.3656,
+      "step": 18
+    },
+    {
+      "epoch": 0.2938775510204082,
+      "eval_loss": 1.0228931903839111,
+      "eval_runtime": 18.2429,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 18
+    },
+    {
+      "epoch": 0.31020408163265306,
+      "grad_norm": 0.227556511759758,
+      "learning_rate": 0.0004,
+      "loss": 0.3246,
+      "step": 19
+    },
+    {
+      "epoch": 0.32653061224489793,
+      "grad_norm": 0.211012601852417,
+      "learning_rate": 0.0004,
+      "loss": 0.3453,
+      "step": 20
+    },
+    {
+      "epoch": 0.32653061224489793,
+      "eval_loss": 1.017521858215332,
+      "eval_runtime": 18.2213,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 20
+    },
+    {
+      "epoch": 0.34285714285714286,
+      "grad_norm": 0.20422972738742828,
+      "learning_rate": 0.0004,
+      "loss": 0.3258,
+      "step": 21
+    },
+    {
+      "epoch": 0.35918367346938773,
+      "grad_norm": 0.206649512052536,
+      "learning_rate": 0.0004,
+      "loss": 0.3248,
+      "step": 22
+    },
+    {
+      "epoch": 0.35918367346938773,
+      "eval_loss": 0.9992413520812988,
+      "eval_runtime": 18.249,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 22
+    },
+    {
+      "epoch": 0.37551020408163266,
+      "grad_norm": 0.19837401807308197,
+      "learning_rate": 0.0004,
+      "loss": 0.3181,
+      "step": 23
+    },
+    {
+      "epoch": 0.39183673469387753,
+      "grad_norm": 0.20325997471809387,
+      "learning_rate": 0.0004,
+      "loss": 0.2826,
+      "step": 24
+    },
+    {
+      "epoch": 0.39183673469387753,
+      "eval_loss": 0.9943413734436035,
+      "eval_runtime": 18.2482,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 24
+    },
+    {
+      "epoch": 0.40816326530612246,
+      "grad_norm": 0.3371317386627197,
+      "learning_rate": 0.0004,
+      "loss": 0.3197,
+      "step": 25
+    },
+    {
+      "epoch": 0.42448979591836733,
+      "grad_norm": 0.21709182858467102,
+      "learning_rate": 0.0004,
+      "loss": 0.3272,
+      "step": 26
+    },
+    {
+      "epoch": 0.42448979591836733,
+      "eval_loss": 0.9733779430389404,
+      "eval_runtime": 18.2232,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 26
+    },
+    {
+      "epoch": 0.44081632653061226,
+      "grad_norm": 0.2420857548713684,
+      "learning_rate": 0.0004,
+      "loss": 0.3293,
+      "step": 27
+    },
+    {
+      "epoch": 0.45714285714285713,
+      "grad_norm": 0.30486994981765747,
+      "learning_rate": 0.0004,
+      "loss": 0.3958,
+      "step": 28
+    },
+    {
+      "epoch": 0.45714285714285713,
+      "eval_loss": 0.9588731527328491,
+      "eval_runtime": 18.2458,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 28
+    },
+    {
+      "epoch": 0.47346938775510206,
+      "grad_norm": 0.24714964628219604,
+      "learning_rate": 0.0004,
+      "loss": 0.3305,
+      "step": 29
+    },
+    {
+      "epoch": 0.4897959183673469,
+      "grad_norm": 0.21984225511550903,
+      "learning_rate": 0.0004,
+      "loss": 0.3395,
+      "step": 30
+    },
+    {
+      "epoch": 0.4897959183673469,
+      "eval_loss": 0.9427903890609741,
+      "eval_runtime": 18.2414,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 30
+    },
+    {
+      "epoch": 0.5061224489795918,
+      "grad_norm": 0.19778016209602356,
+      "learning_rate": 0.0004,
+      "loss": 0.2918,
+      "step": 31
+    },
+    {
+      "epoch": 0.5224489795918368,
+      "grad_norm": 0.21754617989063263,
+      "learning_rate": 0.0004,
+      "loss": 0.2855,
+      "step": 32
+    },
+    {
+      "epoch": 0.5224489795918368,
+      "eval_loss": 0.9335330128669739,
+      "eval_runtime": 18.275,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 32
+    },
+    {
+      "epoch": 0.5387755102040817,
+      "grad_norm": 0.2221430391073227,
+      "learning_rate": 0.0004,
+      "loss": 0.2946,
+      "step": 33
+    },
+    {
+      "epoch": 0.5551020408163265,
+      "grad_norm": 0.2112974375486374,
+      "learning_rate": 0.0004,
+      "loss": 0.3149,
+      "step": 34
+    },
+    {
+      "epoch": 0.5551020408163265,
+      "eval_loss": 0.9311869144439697,
+      "eval_runtime": 18.2431,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 34
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 0.19651219248771667,
+      "learning_rate": 0.0004,
+      "loss": 0.2606,
+      "step": 35
+    },
+    {
+      "epoch": 0.5877551020408164,
+      "grad_norm": 0.22742077708244324,
+      "learning_rate": 0.0004,
+      "loss": 0.3245,
+      "step": 36
+    },
+    {
+      "epoch": 0.5877551020408164,
+      "eval_loss": 0.9281033873558044,
+      "eval_runtime": 18.2248,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 36
+    },
+    {
+      "epoch": 0.6040816326530613,
+      "grad_norm": 0.2320890575647354,
+      "learning_rate": 0.0004,
+      "loss": 0.3532,
+      "step": 37
+    },
+    {
+      "epoch": 0.6204081632653061,
+      "grad_norm": 0.21191200613975525,
+      "learning_rate": 0.0004,
+      "loss": 0.2973,
+      "step": 38
+    },
+    {
+      "epoch": 0.6204081632653061,
+      "eval_loss": 0.9274996519088745,
+      "eval_runtime": 18.2309,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 38
+    },
+    {
+      "epoch": 0.636734693877551,
+      "grad_norm": 0.24098484218120575,
+      "learning_rate": 0.0004,
+      "loss": 0.3194,
+      "step": 39
+    },
+    {
+      "epoch": 0.6530612244897959,
+      "grad_norm": 0.3358725607395172,
+      "learning_rate": 0.0004,
+      "loss": 0.2833,
+      "step": 40
+    },
+    {
+      "epoch": 0.6530612244897959,
+      "eval_loss": 0.9254183769226074,
+      "eval_runtime": 18.2685,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 40
+    },
+    {
+      "epoch": 0.6693877551020408,
+      "grad_norm": 0.2399401068687439,
+      "learning_rate": 0.0004,
+      "loss": 0.3381,
+      "step": 41
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "grad_norm": 0.23229075968265533,
+      "learning_rate": 0.0004,
+      "loss": 0.3501,
+      "step": 42
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "eval_loss": 0.9213573932647705,
+      "eval_runtime": 18.2788,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 42
+    },
+    {
+      "epoch": 0.7020408163265306,
+      "grad_norm": 0.2341497391462326,
+      "learning_rate": 0.0004,
+      "loss": 0.3033,
+      "step": 43
+    },
+    {
+      "epoch": 0.7183673469387755,
+      "grad_norm": 0.22997914254665375,
+      "learning_rate": 0.0004,
+      "loss": 0.3675,
+      "step": 44
+    },
+    {
+      "epoch": 0.7183673469387755,
+      "eval_loss": 0.9130539298057556,
+      "eval_runtime": 18.2601,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 44
+    },
+    {
+      "epoch": 0.7346938775510204,
+      "grad_norm": 0.23445634543895721,
+      "learning_rate": 0.0004,
+      "loss": 0.3113,
+      "step": 45
+    },
+    {
+      "epoch": 0.7510204081632653,
+      "grad_norm": 0.22852188348770142,
+      "learning_rate": 0.0004,
+      "loss": 0.3593,
+      "step": 46
+    },
+    {
+      "epoch": 0.7510204081632653,
+      "eval_loss": 0.9100953936576843,
+      "eval_runtime": 18.2446,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 46
+    },
+    {
+      "epoch": 0.7673469387755102,
+      "grad_norm": 0.2316325306892395,
+      "learning_rate": 0.0004,
+      "loss": 0.3121,
+      "step": 47
+    },
+    {
+      "epoch": 0.7836734693877551,
+      "grad_norm": 0.2397606372833252,
+      "learning_rate": 0.0004,
+      "loss": 0.2979,
+      "step": 48
+    },
+    {
+      "epoch": 0.7836734693877551,
+      "eval_loss": 0.9087210297584534,
+      "eval_runtime": 18.2833,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 48
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.22637659311294556,
+      "learning_rate": 0.0004,
+      "loss": 0.2919,
+      "step": 49
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "grad_norm": 0.255599707365036,
+      "learning_rate": 0.0004,
+      "loss": 0.3741,
+      "step": 50
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "eval_loss": 0.9020435810089111,
+      "eval_runtime": 18.2931,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 50
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "eval_loss": 0.9020435810089111,
+      "eval_runtime": 18.1276,
+      "eval_samples_per_second": 0.883,
+      "eval_steps_per_second": 0.883,
+      "step": 50
+    },
+    {
+      "epoch": 0.8326530612244898,
+      "grad_norm": 0.2062978744506836,
+      "learning_rate": 0.0003877467715307749,
+      "loss": 0.3303,
+      "step": 51
+    },
+    {
+      "epoch": 0.8489795918367347,
+      "grad_norm": 0.20149795711040497,
+      "learning_rate": 0.0003870443502801494,
+      "loss": 0.3212,
+      "step": 52
+    },
+    {
+      "epoch": 0.8489795918367347,
+      "eval_loss": 0.8994156718254089,
+      "eval_runtime": 18.1853,
+      "eval_samples_per_second": 0.88,
+      "eval_steps_per_second": 0.88,
+      "step": 52
+    },
+    {
+      "epoch": 0.8653061224489796,
+      "grad_norm": 0.17913399636745453,
+      "learning_rate": 0.0003863230255984052,
+      "loss": 0.2637,
+      "step": 53
+    },
+    {
+      "epoch": 0.8816326530612245,
+      "grad_norm": 0.19331133365631104,
+      "learning_rate": 0.00038558287038542615,
+      "loss": 0.3564,
+      "step": 54
+    },
+    {
+      "epoch": 0.8816326530612245,
+      "eval_loss": 0.8963940143585205,
+      "eval_runtime": 18.223,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 54
+    },
+    {
+      "epoch": 0.8979591836734694,
+      "grad_norm": 0.20378044247627258,
+      "learning_rate": 0.00038482395944418313,
+      "loss": 0.3253,
+      "step": 55
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "grad_norm": 0.19742076098918915,
+      "learning_rate": 0.0003840463694731741,
+      "loss": 0.3715,
+      "step": 56
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "eval_loss": 0.8902382850646973,
+      "eval_runtime": 18.2093,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 56
+    },
+    {
+      "epoch": 0.9306122448979591,
+      "grad_norm": 0.1908055692911148,
+      "learning_rate": 0.0003832501790586724,
+      "loss": 0.3305,
+      "step": 57
+    },
+    {
+      "epoch": 0.9469387755102041,
+      "grad_norm": 0.21527761220932007,
+      "learning_rate": 0.0003824354686667848,
+      "loss": 0.3523,
+      "step": 58
+    },
+    {
+      "epoch": 0.9469387755102041,
+      "eval_loss": 0.8786917328834534,
+      "eval_runtime": 18.2124,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 58
+    },
+    {
+      "epoch": 0.963265306122449,
+      "grad_norm": 0.1817687749862671,
+      "learning_rate": 0.00038160232063531917,
+      "loss": 0.2616,
+      "step": 59
+    },
+    {
+      "epoch": 0.9795918367346939,
+      "grad_norm": 0.17659063637256622,
+      "learning_rate": 0.0003807508191654631,
+      "loss": 0.251,
+      "step": 60
+    },
+    {
+      "epoch": 0.9795918367346939,
+      "eval_loss": 0.8799586296081543,
+      "eval_runtime": 18.2543,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 60
+    },
+    {
+      "epoch": 0.9959183673469387,
+      "grad_norm": 0.22647982835769653,
+      "learning_rate": 0.0003798810503132742,
+      "loss": 0.2881,
+      "step": 61
+    },
+    {
+      "epoch": 1.0122448979591836,
+      "grad_norm": 0.45377442240715027,
+      "learning_rate": 0.00037899310198098295,
+      "loss": 0.5515,
+      "step": 62
+    },
+    {
+      "epoch": 1.0122448979591836,
+      "eval_loss": 0.8895297050476074,
+      "eval_runtime": 18.2212,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 62
+    },
+    {
+      "epoch": 1.0285714285714285,
+      "grad_norm": 0.3527546226978302,
+      "learning_rate": 0.000378087063908109,
+      "loss": 0.2427,
+      "step": 63
+    },
+    {
+      "epoch": 1.0448979591836736,
+      "grad_norm": 0.2781178951263428,
+      "learning_rate": 0.0003771630276623915,
+      "loss": 0.2215,
+      "step": 64
+    },
+    {
+      "epoch": 1.0448979591836736,
+      "eval_loss": 0.9294220209121704,
+      "eval_runtime": 18.226,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 64
+    },
+    {
+      "epoch": 1.0612244897959184,
+      "grad_norm": 0.2543565034866333,
+      "learning_rate": 0.00037622108663053536,
+      "loss": 0.2761,
+      "step": 65
+    },
+    {
+      "epoch": 1.0775510204081633,
+      "grad_norm": 0.26259011030197144,
+      "learning_rate": 0.0003752613360087727,
+      "loss": 0.2425,
+      "step": 66
+    },
+    {
+      "epoch": 1.0775510204081633,
+      "eval_loss": 0.9212721586227417,
+      "eval_runtime": 18.2309,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 66
+    },
+    {
+      "epoch": 1.0938775510204082,
+      "grad_norm": 0.36850446462631226,
+      "learning_rate": 0.00037428387279324257,
+      "loss": 0.225,
+      "step": 67
+    },
+    {
+      "epoch": 1.110204081632653,
+      "grad_norm": 0.23748713731765747,
+      "learning_rate": 0.0003732887957701874,
+      "loss": 0.2363,
+      "step": 68
+    },
+    {
+      "epoch": 1.110204081632653,
+      "eval_loss": 0.9431418776512146,
+      "eval_runtime": 18.2471,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 68
+    },
+    {
+      "epoch": 1.126530612244898,
+      "grad_norm": 0.23217403888702393,
+      "learning_rate": 0.00037227620550597,
+      "loss": 0.2364,
+      "step": 69
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "grad_norm": 0.28124868869781494,
+      "learning_rate": 0.0003712462043369093,
+      "loss": 0.2197,
+      "step": 70
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "eval_loss": 0.9205393195152283,
+      "eval_runtime": 18.2662,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 70
+    },
+    {
+      "epoch": 1.1591836734693877,
+      "grad_norm": 0.2142041176557541,
+      "learning_rate": 0.00037019889635893843,
+      "loss": 0.1958,
+      "step": 71
+    },
+    {
+      "epoch": 1.1755102040816325,
+      "grad_norm": 0.34761127829551697,
+      "learning_rate": 0.0003691343874170838,
+      "loss": 0.2183,
+      "step": 72
+    },
+    {
+      "epoch": 1.1755102040816325,
+      "eval_loss": 0.9254322648048401,
+      "eval_runtime": 18.2303,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 72
+    },
+    {
+      "epoch": 1.1918367346938776,
+      "grad_norm": 0.2560065686702728,
+      "learning_rate": 0.00036805278509476844,
+      "loss": 0.248,
+      "step": 73
+    },
+    {
+      "epoch": 1.2081632653061225,
+      "grad_norm": 0.7435296773910522,
+      "learning_rate": 0.00036695419870293915,
+      "loss": 0.2356,
+      "step": 74
+    },
+    {
+      "epoch": 1.2081632653061225,
+      "eval_loss": 0.9271378517150879,
+      "eval_runtime": 18.2503,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 74
+    },
+    {
+      "epoch": 1.2244897959183674,
+      "grad_norm": 0.8685758113861084,
+      "learning_rate": 0.00036583873926901867,
+      "loss": 0.2129,
+      "step": 75
+    },
+    {
+      "epoch": 1.2408163265306122,
+      "grad_norm": 1.2740998268127441,
+      "learning_rate": 0.0003647065195256855,
+      "loss": 0.2469,
+      "step": 76
+    },
+    {
+      "epoch": 1.2408163265306122,
+      "eval_loss": 0.9236885905265808,
+      "eval_runtime": 18.2226,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 76
+    },
+    {
+      "epoch": 1.2571428571428571,
+      "grad_norm": 0.28524693846702576,
+      "learning_rate": 0.0003635576538994801,
+      "loss": 0.2278,
+      "step": 77
+    },
+    {
+      "epoch": 1.273469387755102,
+      "grad_norm": 1.0116885900497437,
+      "learning_rate": 0.0003623922584992409,
+      "loss": 0.2488,
+      "step": 78
+    },
+    {
+      "epoch": 1.273469387755102,
+      "eval_loss": 0.923646867275238,
+      "eval_runtime": 18.2519,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 78
+    },
+    {
+      "epoch": 1.2897959183673469,
+      "grad_norm": 0.9336573481559753,
+      "learning_rate": 0.0003612104511043694,
+      "loss": 0.3095,
+      "step": 79
+    },
+    {
+      "epoch": 1.306122448979592,
+      "grad_norm": 0.43459734320640564,
+      "learning_rate": 0.0003600123511529278,
+      "loss": 0.2215,
+      "step": 80
+    },
+    {
+      "epoch": 1.306122448979592,
+      "eval_loss": 0.941472589969635,
+      "eval_runtime": 18.251,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 80
+    },
+    {
+      "epoch": 1.3224489795918366,
+      "grad_norm": 0.39941656589508057,
+      "learning_rate": 0.0003587980797295671,
+      "loss": 0.251,
+      "step": 81
+    },
+    {
+      "epoch": 1.3387755102040817,
+      "grad_norm": 0.2876632511615753,
+      "learning_rate": 0.0003575677595532904,
+      "loss": 0.208,
+      "step": 82
+    },
+    {
+      "epoch": 1.3387755102040817,
+      "eval_loss": 0.932316780090332,
+      "eval_runtime": 18.2326,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 82
+    },
+    {
+      "epoch": 1.3551020408163266,
+      "grad_norm": 0.30556565523147583,
+      "learning_rate": 0.0003563215149650505,
+      "loss": 0.2821,
+      "step": 83
+    },
+    {
+      "epoch": 1.3714285714285714,
+      "grad_norm": 0.3039940595626831,
+      "learning_rate": 0.00035505947191518316,
+      "loss": 0.2177,
+      "step": 84
+    },
+    {
+      "epoch": 1.3714285714285714,
+      "eval_loss": 0.9171479344367981,
+      "eval_runtime": 18.2397,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 84
+    },
+    {
+      "epoch": 1.3877551020408163,
+      "grad_norm": 0.32876476645469666,
+      "learning_rate": 0.0003537817579506783,
+      "loss": 0.2142,
+      "step": 85
+    },
+    {
+      "epoch": 1.4040816326530612,
+      "grad_norm": 0.26468542218208313,
+      "learning_rate": 0.0003524885022022896,
+      "loss": 0.2293,
+      "step": 86
+    },
+    {
+      "epoch": 1.4040816326530612,
+      "eval_loss": 0.9176874756813049,
+      "eval_runtime": 18.2553,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 86
+    },
+    {
+      "epoch": 1.420408163265306,
+      "grad_norm": 0.9715031981468201,
+      "learning_rate": 0.000351179835371484,
+      "loss": 0.235,
+      "step": 87
+    },
+    {
+      "epoch": 1.436734693877551,
+      "grad_norm": 0.8392952680587769,
+      "learning_rate": 0.00034985588971723233,
+      "loss": 0.2307,
+      "step": 88
+    },
+    {
+      "epoch": 1.436734693877551,
+      "eval_loss": 0.9272938370704651,
+      "eval_runtime": 18.2194,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 88
+    },
+    {
+      "epoch": 1.453061224489796,
+      "grad_norm": 0.28850337862968445,
+      "learning_rate": 0.00034851679904264314,
+      "loss": 0.2403,
+      "step": 89
+    },
+    {
+      "epoch": 1.469387755102041,
+      "grad_norm": 0.46389341354370117,
+      "learning_rate": 0.00034716269868143956,
+      "loss": 0.2464,
+      "step": 90
+    },
+    {
+      "epoch": 1.469387755102041,
+      "eval_loss": 0.9267984628677368,
+      "eval_runtime": 18.2514,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 90
+    },
+    {
+      "epoch": 1.4857142857142858,
+      "grad_norm": 0.29597121477127075,
+      "learning_rate": 0.00034579372548428235,
+      "loss": 0.2307,
+      "step": 91
+    },
+    {
+      "epoch": 1.5020408163265306,
+      "grad_norm": 0.3392711877822876,
+      "learning_rate": 0.00034441001780493886,
+      "loss": 0.231,
+      "step": 92
+    },
+    {
+      "epoch": 1.5020408163265306,
+      "eval_loss": 0.9267009496688843,
+      "eval_runtime": 18.2179,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 92
+    },
+    {
+      "epoch": 1.5183673469387755,
+      "grad_norm": 0.2309531569480896,
+      "learning_rate": 0.00034301171548630063,
+      "loss": 0.2307,
+      "step": 93
+    },
+    {
+      "epoch": 1.5346938775510204,
+      "grad_norm": 0.28941744565963745,
+      "learning_rate": 0.0003415989598462506,
+      "loss": 0.2384,
+      "step": 94
+    },
+    {
+      "epoch": 1.5346938775510204,
+      "eval_loss": 0.9336121082305908,
+      "eval_runtime": 18.2184,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 94
+    },
+    {
+      "epoch": 1.5510204081632653,
+      "grad_norm": 0.22579389810562134,
+      "learning_rate": 0.00034017189366338034,
+      "loss": 0.1949,
+      "step": 95
+    },
+    {
+      "epoch": 1.5673469387755103,
+      "grad_norm": 0.2894729971885681,
+      "learning_rate": 0.000338730661162561,
+      "loss": 0.2348,
+      "step": 96
+    },
+    {
+      "epoch": 1.5673469387755103,
+      "eval_loss": 0.9432627558708191,
+      "eval_runtime": 18.2158,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 96
+    },
+    {
+      "epoch": 1.583673469387755,
+      "grad_norm": 0.24218647181987762,
+      "learning_rate": 0.00033727540800036683,
+      "loss": 0.2113,
+      "step": 97
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.2695946991443634,
+      "learning_rate": 0.0003358062812503548,
+      "loss": 0.2209,
+      "step": 98
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.9510765075683594,
+      "eval_runtime": 18.2181,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 98
+    },
+    {
+      "epoch": 1.6163265306122447,
+      "grad_norm": 0.27196425199508667,
+      "learning_rate": 0.00033432342938820086,
+      "loss": 0.2366,
+      "step": 99
+    },
+    {
+      "epoch": 1.6326530612244898,
+      "grad_norm": 0.2302471101284027,
+      "learning_rate": 0.0003328270022766941,
+      "loss": 0.2099,
+      "step": 100
+    },
+    {
+      "epoch": 1.6326530612244898,
+      "eval_loss": 0.9363111853599548,
+      "eval_runtime": 18.2175,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 100
+    },
+    {
+      "epoch": 1.6489795918367347,
+      "grad_norm": 0.24810455739498138,
+      "learning_rate": 0.0003313171511505913,
+      "loss": 0.2196,
+      "step": 101
+    },
+    {
+      "epoch": 1.6653061224489796,
+      "grad_norm": 0.25561368465423584,
+      "learning_rate": 0.0003297940286013326,
+      "loss": 0.253,
+      "step": 102
+    },
+    {
+      "epoch": 1.6653061224489796,
+      "eval_loss": 0.942488431930542,
+      "eval_runtime": 18.2068,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 102
+    },
+    {
+      "epoch": 1.6816326530612244,
+      "grad_norm": 0.22677375376224518,
+      "learning_rate": 0.0003282577885616198,
+      "loss": 0.1789,
+      "step": 103
+    },
+    {
+      "epoch": 1.6979591836734693,
+      "grad_norm": 0.26009589433670044,
+      "learning_rate": 0.0003267085862898594,
+      "loss": 0.2541,
+      "step": 104
+    },
+    {
+      "epoch": 1.6979591836734693,
+      "eval_loss": 0.9335595369338989,
+      "eval_runtime": 18.2507,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 104
+    },
+    {
+      "epoch": 1.7142857142857144,
+      "grad_norm": 0.20782141387462616,
+      "learning_rate": 0.0003251465783544716,
+      "loss": 0.2308,
+      "step": 105
+    },
+    {
+      "epoch": 1.730612244897959,
+      "grad_norm": 0.22768278419971466,
+      "learning_rate": 0.0003235719226180669,
+      "loss": 0.2354,
+      "step": 106
+    },
+    {
+      "epoch": 1.730612244897959,
+      "eval_loss": 0.9376662373542786,
+      "eval_runtime": 18.2284,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 106
+    },
+    {
+      "epoch": 1.7469387755102042,
+      "grad_norm": 0.23742002248764038,
+      "learning_rate": 0.00032198477822149185,
+      "loss": 0.2306,
+      "step": 107
+    },
+    {
+      "epoch": 1.763265306122449,
+      "grad_norm": 0.25688832998275757,
+      "learning_rate": 0.0003203853055677457,
+      "loss": 0.2816,
+      "step": 108
+    },
+    {
+      "epoch": 1.763265306122449,
+      "eval_loss": 0.9434496164321899,
+      "eval_runtime": 18.2263,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 108
+    },
+    {
+      "epoch": 1.779591836734694,
+      "grad_norm": 0.2690117359161377,
+      "learning_rate": 0.00031877366630576946,
+      "loss": 0.2013,
+      "step": 109
+    },
+    {
+      "epoch": 1.7959183673469388,
+      "grad_norm": 0.2317412942647934,
+      "learning_rate": 0.0003171500233141089,
+      "loss": 0.2398,
+      "step": 110
+    },
+    {
+      "epoch": 1.7959183673469388,
+      "eval_loss": 0.9329774975776672,
+      "eval_runtime": 18.2112,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 110
+    },
+    {
+      "epoch": 1.8122448979591836,
+      "grad_norm": 0.2262117713689804,
+      "learning_rate": 0.0003155145406844535,
+      "loss": 0.207,
+      "step": 111
+    },
+    {
+      "epoch": 1.8285714285714287,
+      "grad_norm": 0.22458741068840027,
+      "learning_rate": 0.00031386738370505293,
+      "loss": 0.2093,
+      "step": 112
+    },
+    {
+      "epoch": 1.8285714285714287,
+      "eval_loss": 0.9222925901412964,
+      "eval_runtime": 18.2333,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 112
+    },
+    {
+      "epoch": 1.8448979591836734,
+      "grad_norm": 0.24273625016212463,
+      "learning_rate": 0.0003122087188440118,
+      "loss": 0.2434,
+      "step": 113
+    },
+    {
+      "epoch": 1.8612244897959185,
+      "grad_norm": 0.2206314653158188,
+      "learning_rate": 0.0003105387137324663,
+      "loss": 0.2056,
+      "step": 114
+    },
+    {
+      "epoch": 1.8612244897959185,
+      "eval_loss": 0.9319095015525818,
+      "eval_runtime": 18.2327,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 114
+    },
+    {
+      "epoch": 1.8775510204081631,
+      "grad_norm": 0.2606954574584961,
+      "learning_rate": 0.0003088575371476426,
+      "loss": 0.2198,
+      "step": 115
+    },
+    {
+      "epoch": 1.8938775510204082,
+      "grad_norm": 0.23156337440013885,
+      "learning_rate": 0.0003071653589957993,
+      "loss": 0.1957,
+      "step": 116
+    },
+    {
+      "epoch": 1.8938775510204082,
+      "eval_loss": 0.9314719438552856,
+      "eval_runtime": 18.2411,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 116
+    },
+    {
+      "epoch": 1.910204081632653,
+      "grad_norm": 0.2253030389547348,
+      "learning_rate": 0.0003054623502950565,
+      "loss": 0.266,
+      "step": 117
+    },
+    {
+      "epoch": 1.926530612244898,
+      "grad_norm": 0.24510890245437622,
+      "learning_rate": 0.0003037486831581115,
+      "loss": 0.2493,
+      "step": 118
+    },
+    {
+      "epoch": 1.926530612244898,
+      "eval_loss": 0.926245927810669,
+      "eval_runtime": 18.2428,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 118
+    },
+    {
+      "epoch": 1.9428571428571428,
+      "grad_norm": 0.22151368856430054,
+      "learning_rate": 0.00030202453077484494,
+      "loss": 0.2666,
+      "step": 119
+    },
+    {
+      "epoch": 1.9591836734693877,
+      "grad_norm": 0.21714863181114197,
+      "learning_rate": 0.0003002900673948173,
+      "loss": 0.253,
+      "step": 120
+    },
+    {
+      "epoch": 1.9591836734693877,
+      "eval_loss": 0.9263309240341187,
+      "eval_runtime": 18.2196,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 120
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 305,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 30,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.4518993974018048e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-120/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eac79da65aef3f639fd69fe9d54dd5e1ca8bfcbd1838c7de53d38cfdae9e20ab
+size 5624

checkpoints/checkpoint-180/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: /home/anon/AI-Models/LLM/Mistral-Small-24B-Instruct-2501/
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.14.0

checkpoints/checkpoint-180/adapter_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/anon/AI-Models/LLM/Mistral-Small-24B-Instruct-2501/",
+  "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 64,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "gate_proj",
+    "down_proj",
+    "o_proj",
+    "v_proj",
+    "up_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoints/checkpoint-180/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7cb289e4cee59343a94343dd874464e2a3f16b0b7ef0f16fc2ff409230ff316
+size 739321784

checkpoints/checkpoint-180/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05eaeff95032235c8a447c9d107dcdae244337617e1601027085ff18f6bb0cc1
+size 377514226

checkpoints/checkpoint-180/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c864ce42a9a54412e587d71096559f64cc5a5031a374acb69829bcf806c879b
+size 14244

checkpoints/checkpoint-180/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29013f31ab50632e86727b6939407ca902816c2e84145ce53c10f8589737e61f
+size 1064

checkpoints/checkpoint-180/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,1026 @@

+{
+  "additional_special_tokens": [
+    "<unk>",
+    "<s>",
+    "</s>",
+    "[INST]",
+    "[/INST]",
+    "[AVAILABLE_TOOLS]",
+    "[/AVAILABLE_TOOLS]",
+    "[TOOL_RESULTS]",
+    "[/TOOL_RESULTS]",
+    "[TOOL_CALLS]",
+    "[IMG]",
+    "<pad>",
+    "[IMG_BREAK]",
+    "[IMG_END]",
+    "[PREFIX]",
+    "[MIDDLE]",
+    "[SUFFIX]",
+    "[SYSTEM_PROMPT]",
+    "[/SYSTEM_PROMPT]",
+    "[TOOL_CONTENT]",
+    "<SPECIAL_20>",
+    "<SPECIAL_21>",
+    "<SPECIAL_22>",
+    "<SPECIAL_23>",
+    "<SPECIAL_24>",
+    "<SPECIAL_25>",
+    "<SPECIAL_26>",
+    "<SPECIAL_27>",
+    "<SPECIAL_28>",
+    "<SPECIAL_29>",
+    "<SPECIAL_30>",
+    "<SPECIAL_31>",
+    "<SPECIAL_32>",
+    "<SPECIAL_33>",
+    "<SPECIAL_34>",
+    "<SPECIAL_35>",
+    "<SPECIAL_36>",
+    "<SPECIAL_37>",
+    "<SPECIAL_38>",
+    "<SPECIAL_39>",
+    "<SPECIAL_40>",
+    "<SPECIAL_41>",
+    "<SPECIAL_42>",
+    "<SPECIAL_43>",
+    "<SPECIAL_44>",
+    "<SPECIAL_45>",
+    "<SPECIAL_46>",
+    "<SPECIAL_47>",
+    "<SPECIAL_48>",
+    "<SPECIAL_49>",
+    "<SPECIAL_50>",
+    "<SPECIAL_51>",
+    "<SPECIAL_52>",
+    "<SPECIAL_53>",
+    "<SPECIAL_54>",
+    "<SPECIAL_55>",
+    "<SPECIAL_56>",
+    "<SPECIAL_57>",
+    "<SPECIAL_58>",
+    "<SPECIAL_59>",
+    "<SPECIAL_60>",
+    "<SPECIAL_61>",
+    "<SPECIAL_62>",
+    "<SPECIAL_63>",
+    "<SPECIAL_64>",
+    "<SPECIAL_65>",
+    "<SPECIAL_66>",
+    "<SPECIAL_67>",
+    "<SPECIAL_68>",
+    "<SPECIAL_69>",
+    "<SPECIAL_70>",
+    "<SPECIAL_71>",
+    "<SPECIAL_72>",
+    "<SPECIAL_73>",
+    "<SPECIAL_74>",
+    "<SPECIAL_75>",
+    "<SPECIAL_76>",
+    "<SPECIAL_77>",
+    "<SPECIAL_78>",
+    "<SPECIAL_79>",
+    "<SPECIAL_80>",
+    "<SPECIAL_81>",
+    "<SPECIAL_82>",
+    "<SPECIAL_83>",
+    "<SPECIAL_84>",
+    "<SPECIAL_85>",
+    "<SPECIAL_86>",
+    "<SPECIAL_87>",
+    "<SPECIAL_88>",
+    "<SPECIAL_89>",
+    "<SPECIAL_90>",
+    "<SPECIAL_91>",
+    "<SPECIAL_92>",
+    "<SPECIAL_93>",
+    "<SPECIAL_94>",
+    "<SPECIAL_95>",
+    "<SPECIAL_96>",
+    "<SPECIAL_97>",
+    "<SPECIAL_98>",
+    "<SPECIAL_99>",
+    "<SPECIAL_100>",
+    "<SPECIAL_101>",
+    "<SPECIAL_102>",
+    "<SPECIAL_103>",
+    "<SPECIAL_104>",
+    "<SPECIAL_105>",
+    "<SPECIAL_106>",
+    "<SPECIAL_107>",
+    "<SPECIAL_108>",
+    "<SPECIAL_109>",
+    "<SPECIAL_110>",
+    "<SPECIAL_111>",
+    "<SPECIAL_112>",
+    "<SPECIAL_113>",
+    "<SPECIAL_114>",
+    "<SPECIAL_115>",
+    "<SPECIAL_116>",
+    "<SPECIAL_117>",
+    "<SPECIAL_118>",
+    "<SPECIAL_119>",
+    "<SPECIAL_120>",
+    "<SPECIAL_121>",
+    "<SPECIAL_122>",
+    "<SPECIAL_123>",
+    "<SPECIAL_124>",
+    "<SPECIAL_125>",
+    "<SPECIAL_126>",
+    "<SPECIAL_127>",
+    "<SPECIAL_128>",
+    "<SPECIAL_129>",
+    "<SPECIAL_130>",
+    "<SPECIAL_131>",
+    "<SPECIAL_132>",
+    "<SPECIAL_133>",
+    "<SPECIAL_134>",
+    "<SPECIAL_135>",
+    "<SPECIAL_136>",
+    "<SPECIAL_137>",
+    "<SPECIAL_138>",
+    "<SPECIAL_139>",
+    "<SPECIAL_140>",
+    "<SPECIAL_141>",
+    "<SPECIAL_142>",
+    "<SPECIAL_143>",
+    "<SPECIAL_144>",
+    "<SPECIAL_145>",
+    "<SPECIAL_146>",
+    "<SPECIAL_147>",
+    "<SPECIAL_148>",
+    "<SPECIAL_149>",
+    "<SPECIAL_150>",
+    "<SPECIAL_151>",
+    "<SPECIAL_152>",
+    "<SPECIAL_153>",
+    "<SPECIAL_154>",
+    "<SPECIAL_155>",
+    "<SPECIAL_156>",
+    "<SPECIAL_157>",
+    "<SPECIAL_158>",
+    "<SPECIAL_159>",
+    "<SPECIAL_160>",
+    "<SPECIAL_161>",
+    "<SPECIAL_162>",
+    "<SPECIAL_163>",
+    "<SPECIAL_164>",
+    "<SPECIAL_165>",
+    "<SPECIAL_166>",
+    "<SPECIAL_167>",
+    "<SPECIAL_168>",
+    "<SPECIAL_169>",
+    "<SPECIAL_170>",
+    "<SPECIAL_171>",
+    "<SPECIAL_172>",
+    "<SPECIAL_173>",
+    "<SPECIAL_174>",
+    "<SPECIAL_175>",
+    "<SPECIAL_176>",
+    "<SPECIAL_177>",
+    "<SPECIAL_178>",
+    "<SPECIAL_179>",
+    "<SPECIAL_180>",
+    "<SPECIAL_181>",
+    "<SPECIAL_182>",
+    "<SPECIAL_183>",
+    "<SPECIAL_184>",
+    "<SPECIAL_185>",
+    "<SPECIAL_186>",
+    "<SPECIAL_187>",
+    "<SPECIAL_188>",
+    "<SPECIAL_189>",
+    "<SPECIAL_190>",
+    "<SPECIAL_191>",
+    "<SPECIAL_192>",
+    "<SPECIAL_193>",
+    "<SPECIAL_194>",
+    "<SPECIAL_195>",
+    "<SPECIAL_196>",
+    "<SPECIAL_197>",
+    "<SPECIAL_198>",
+    "<SPECIAL_199>",
+    "<SPECIAL_200>",
+    "<SPECIAL_201>",
+    "<SPECIAL_202>",
+    "<SPECIAL_203>",
+    "<SPECIAL_204>",
+    "<SPECIAL_205>",
+    "<SPECIAL_206>",
+    "<SPECIAL_207>",
+    "<SPECIAL_208>",
+    "<SPECIAL_209>",
+    "<SPECIAL_210>",
+    "<SPECIAL_211>",
+    "<SPECIAL_212>",
+    "<SPECIAL_213>",
+    "<SPECIAL_214>",
+    "<SPECIAL_215>",
+    "<SPECIAL_216>",
+    "<SPECIAL_217>",
+    "<SPECIAL_218>",
+    "<SPECIAL_219>",
+    "<SPECIAL_220>",
+    "<SPECIAL_221>",
+    "<SPECIAL_222>",
+    "<SPECIAL_223>",
+    "<SPECIAL_224>",
+    "<SPECIAL_225>",
+    "<SPECIAL_226>",
+    "<SPECIAL_227>",
+    "<SPECIAL_228>",
+    "<SPECIAL_229>",
+    "<SPECIAL_230>",
+    "<SPECIAL_231>",
+    "<SPECIAL_232>",
+    "<SPECIAL_233>",
+    "<SPECIAL_234>",
+    "<SPECIAL_235>",
+    "<SPECIAL_236>",
+    "<SPECIAL_237>",
+    "<SPECIAL_238>",
+    "<SPECIAL_239>",
+    "<SPECIAL_240>",
+    "<SPECIAL_241>",
+    "<SPECIAL_242>",
+    "<SPECIAL_243>",
+    "<SPECIAL_244>",
+    "<SPECIAL_245>",
+    "<SPECIAL_246>",
+    "<SPECIAL_247>",
+    "<SPECIAL_248>",
+    "<SPECIAL_249>",
+    "<SPECIAL_250>",
+    "<SPECIAL_251>",
+    "<SPECIAL_252>",
+    "<SPECIAL_253>",
+    "<SPECIAL_254>",
+    "<SPECIAL_255>",
+    "<SPECIAL_256>",
+    "<SPECIAL_257>",
+    "<SPECIAL_258>",
+    "<SPECIAL_259>",
+    "<SPECIAL_260>",
+    "<SPECIAL_261>",
+    "<SPECIAL_262>",
+    "<SPECIAL_263>",
+    "<SPECIAL_264>",
+    "<SPECIAL_265>",
+    "<SPECIAL_266>",
+    "<SPECIAL_267>",
+    "<SPECIAL_268>",
+    "<SPECIAL_269>",
+    "<SPECIAL_270>",
+    "<SPECIAL_271>",
+    "<SPECIAL_272>",
+    "<SPECIAL_273>",
+    "<SPECIAL_274>",
+    "<SPECIAL_275>",
+    "<SPECIAL_276>",
+    "<SPECIAL_277>",
+    "<SPECIAL_278>",
+    "<SPECIAL_279>",
+    "<SPECIAL_280>",
+    "<SPECIAL_281>",
+    "<SPECIAL_282>",
+    "<SPECIAL_283>",
+    "<SPECIAL_284>",
+    "<SPECIAL_285>",
+    "<SPECIAL_286>",
+    "<SPECIAL_287>",
+    "<SPECIAL_288>",
+    "<SPECIAL_289>",
+    "<SPECIAL_290>",
+    "<SPECIAL_291>",
+    "<SPECIAL_292>",
+    "<SPECIAL_293>",
+    "<SPECIAL_294>",
+    "<SPECIAL_295>",
+    "<SPECIAL_296>",
+    "<SPECIAL_297>",
+    "<SPECIAL_298>",
+    "<SPECIAL_299>",
+    "<SPECIAL_300>",
+    "<SPECIAL_301>",
+    "<SPECIAL_302>",
+    "<SPECIAL_303>",
+    "<SPECIAL_304>",
+    "<SPECIAL_305>",
+    "<SPECIAL_306>",
+    "<SPECIAL_307>",
+    "<SPECIAL_308>",
+    "<SPECIAL_309>",
+    "<SPECIAL_310>",
+    "<SPECIAL_311>",
+    "<SPECIAL_312>",
+    "<SPECIAL_313>",
+    "<SPECIAL_314>",
+    "<SPECIAL_315>",
+    "<SPECIAL_316>",
+    "<SPECIAL_317>",
+    "<SPECIAL_318>",
+    "<SPECIAL_319>",
+    "<SPECIAL_320>",
+    "<SPECIAL_321>",
+    "<SPECIAL_322>",
+    "<SPECIAL_323>",
+    "<SPECIAL_324>",
+    "<SPECIAL_325>",
+    "<SPECIAL_326>",
+    "<SPECIAL_327>",
+    "<SPECIAL_328>",
+    "<SPECIAL_329>",
+    "<SPECIAL_330>",
+    "<SPECIAL_331>",
+    "<SPECIAL_332>",
+    "<SPECIAL_333>",
+    "<SPECIAL_334>",
+    "<SPECIAL_335>",
+    "<SPECIAL_336>",
+    "<SPECIAL_337>",
+    "<SPECIAL_338>",
+    "<SPECIAL_339>",
+    "<SPECIAL_340>",
+    "<SPECIAL_341>",
+    "<SPECIAL_342>",
+    "<SPECIAL_343>",
+    "<SPECIAL_344>",
+    "<SPECIAL_345>",
+    "<SPECIAL_346>",
+    "<SPECIAL_347>",
+    "<SPECIAL_348>",
+    "<SPECIAL_349>",
+    "<SPECIAL_350>",
+    "<SPECIAL_351>",
+    "<SPECIAL_352>",
+    "<SPECIAL_353>",
+    "<SPECIAL_354>",
+    "<SPECIAL_355>",
+    "<SPECIAL_356>",
+    "<SPECIAL_357>",
+    "<SPECIAL_358>",
+    "<SPECIAL_359>",
+    "<SPECIAL_360>",
+    "<SPECIAL_361>",
+    "<SPECIAL_362>",
+    "<SPECIAL_363>",
+    "<SPECIAL_364>",
+    "<SPECIAL_365>",
+    "<SPECIAL_366>",
+    "<SPECIAL_367>",
+    "<SPECIAL_368>",
+    "<SPECIAL_369>",
+    "<SPECIAL_370>",
+    "<SPECIAL_371>",
+    "<SPECIAL_372>",
+    "<SPECIAL_373>",
+    "<SPECIAL_374>",
+    "<SPECIAL_375>",
+    "<SPECIAL_376>",
+    "<SPECIAL_377>",
+    "<SPECIAL_378>",
+    "<SPECIAL_379>",
+    "<SPECIAL_380>",
+    "<SPECIAL_381>",
+    "<SPECIAL_382>",
+    "<SPECIAL_383>",
+    "<SPECIAL_384>",
+    "<SPECIAL_385>",
+    "<SPECIAL_386>",
+    "<SPECIAL_387>",
+    "<SPECIAL_388>",
+    "<SPECIAL_389>",
+    "<SPECIAL_390>",
+    "<SPECIAL_391>",
+    "<SPECIAL_392>",
+    "<SPECIAL_393>",
+    "<SPECIAL_394>",
+    "<SPECIAL_395>",
+    "<SPECIAL_396>",
+    "<SPECIAL_397>",
+    "<SPECIAL_398>",
+    "<SPECIAL_399>",
+    "<SPECIAL_400>",
+    "<SPECIAL_401>",
+    "<SPECIAL_402>",
+    "<SPECIAL_403>",
+    "<SPECIAL_404>",
+    "<SPECIAL_405>",
+    "<SPECIAL_406>",
+    "<SPECIAL_407>",
+    "<SPECIAL_408>",
+    "<SPECIAL_409>",
+    "<SPECIAL_410>",
+    "<SPECIAL_411>",
+    "<SPECIAL_412>",
+    "<SPECIAL_413>",
+    "<SPECIAL_414>",
+    "<SPECIAL_415>",
+    "<SPECIAL_416>",
+    "<SPECIAL_417>",
+    "<SPECIAL_418>",
+    "<SPECIAL_419>",
+    "<SPECIAL_420>",
+    "<SPECIAL_421>",
+    "<SPECIAL_422>",
+    "<SPECIAL_423>",
+    "<SPECIAL_424>",
+    "<SPECIAL_425>",
+    "<SPECIAL_426>",
+    "<SPECIAL_427>",
+    "<SPECIAL_428>",
+    "<SPECIAL_429>",
+    "<SPECIAL_430>",
+    "<SPECIAL_431>",
+    "<SPECIAL_432>",
+    "<SPECIAL_433>",
+    "<SPECIAL_434>",
+    "<SPECIAL_435>",
+    "<SPECIAL_436>",
+    "<SPECIAL_437>",
+    "<SPECIAL_438>",
+    "<SPECIAL_439>",
+    "<SPECIAL_440>",
+    "<SPECIAL_441>",
+    "<SPECIAL_442>",
+    "<SPECIAL_443>",
+    "<SPECIAL_444>",
+    "<SPECIAL_445>",
+    "<SPECIAL_446>",
+    "<SPECIAL_447>",
+    "<SPECIAL_448>",
+    "<SPECIAL_449>",
+    "<SPECIAL_450>",
+    "<SPECIAL_451>",
+    "<SPECIAL_452>",
+    "<SPECIAL_453>",
+    "<SPECIAL_454>",
+    "<SPECIAL_455>",
+    "<SPECIAL_456>",
+    "<SPECIAL_457>",
+    "<SPECIAL_458>",
+    "<SPECIAL_459>",
+    "<SPECIAL_460>",
+    "<SPECIAL_461>",
+    "<SPECIAL_462>",
+    "<SPECIAL_463>",
+    "<SPECIAL_464>",
+    "<SPECIAL_465>",
+    "<SPECIAL_466>",
+    "<SPECIAL_467>",
+    "<SPECIAL_468>",
+    "<SPECIAL_469>",
+    "<SPECIAL_470>",
+    "<SPECIAL_471>",
+    "<SPECIAL_472>",
+    "<SPECIAL_473>",
+    "<SPECIAL_474>",
+    "<SPECIAL_475>",
+    "<SPECIAL_476>",
+    "<SPECIAL_477>",
+    "<SPECIAL_478>",
+    "<SPECIAL_479>",
+    "<SPECIAL_480>",
+    "<SPECIAL_481>",
+    "<SPECIAL_482>",
+    "<SPECIAL_483>",
+    "<SPECIAL_484>",
+    "<SPECIAL_485>",
+    "<SPECIAL_486>",
+    "<SPECIAL_487>",
+    "<SPECIAL_488>",
+    "<SPECIAL_489>",
+    "<SPECIAL_490>",
+    "<SPECIAL_491>",
+    "<SPECIAL_492>",
+    "<SPECIAL_493>",
+    "<SPECIAL_494>",
+    "<SPECIAL_495>",
+    "<SPECIAL_496>",
+    "<SPECIAL_497>",
+    "<SPECIAL_498>",
+    "<SPECIAL_499>",
+    "<SPECIAL_500>",
+    "<SPECIAL_501>",
+    "<SPECIAL_502>",
+    "<SPECIAL_503>",
+    "<SPECIAL_504>",
+    "<SPECIAL_505>",
+    "<SPECIAL_506>",
+    "<SPECIAL_507>",
+    "<SPECIAL_508>",
+    "<SPECIAL_509>",
+    "<SPECIAL_510>",
+    "<SPECIAL_511>",
+    "<SPECIAL_512>",
+    "<SPECIAL_513>",
+    "<SPECIAL_514>",
+    "<SPECIAL_515>",
+    "<SPECIAL_516>",
+    "<SPECIAL_517>",
+    "<SPECIAL_518>",
+    "<SPECIAL_519>",
+    "<SPECIAL_520>",
+    "<SPECIAL_521>",
+    "<SPECIAL_522>",
+    "<SPECIAL_523>",
+    "<SPECIAL_524>",
+    "<SPECIAL_525>",
+    "<SPECIAL_526>",
+    "<SPECIAL_527>",
+    "<SPECIAL_528>",
+    "<SPECIAL_529>",
+    "<SPECIAL_530>",
+    "<SPECIAL_531>",
+    "<SPECIAL_532>",
+    "<SPECIAL_533>",
+    "<SPECIAL_534>",
+    "<SPECIAL_535>",
+    "<SPECIAL_536>",
+    "<SPECIAL_537>",
+    "<SPECIAL_538>",
+    "<SPECIAL_539>",
+    "<SPECIAL_540>",
+    "<SPECIAL_541>",
+    "<SPECIAL_542>",
+    "<SPECIAL_543>",
+    "<SPECIAL_544>",
+    "<SPECIAL_545>",
+    "<SPECIAL_546>",
+    "<SPECIAL_547>",
+    "<SPECIAL_548>",
+    "<SPECIAL_549>",
+    "<SPECIAL_550>",
+    "<SPECIAL_551>",
+    "<SPECIAL_552>",
+    "<SPECIAL_553>",
+    "<SPECIAL_554>",
+    "<SPECIAL_555>",
+    "<SPECIAL_556>",
+    "<SPECIAL_557>",
+    "<SPECIAL_558>",
+    "<SPECIAL_559>",
+    "<SPECIAL_560>",
+    "<SPECIAL_561>",
+    "<SPECIAL_562>",
+    "<SPECIAL_563>",
+    "<SPECIAL_564>",
+    "<SPECIAL_565>",
+    "<SPECIAL_566>",
+    "<SPECIAL_567>",
+    "<SPECIAL_568>",
+    "<SPECIAL_569>",
+    "<SPECIAL_570>",
+    "<SPECIAL_571>",
+    "<SPECIAL_572>",
+    "<SPECIAL_573>",
+    "<SPECIAL_574>",
+    "<SPECIAL_575>",
+    "<SPECIAL_576>",
+    "<SPECIAL_577>",
+    "<SPECIAL_578>",
+    "<SPECIAL_579>",
+    "<SPECIAL_580>",
+    "<SPECIAL_581>",
+    "<SPECIAL_582>",
+    "<SPECIAL_583>",
+    "<SPECIAL_584>",
+    "<SPECIAL_585>",
+    "<SPECIAL_586>",
+    "<SPECIAL_587>",
+    "<SPECIAL_588>",
+    "<SPECIAL_589>",
+    "<SPECIAL_590>",
+    "<SPECIAL_591>",
+    "<SPECIAL_592>",
+    "<SPECIAL_593>",
+    "<SPECIAL_594>",
+    "<SPECIAL_595>",
+    "<SPECIAL_596>",
+    "<SPECIAL_597>",
+    "<SPECIAL_598>",
+    "<SPECIAL_599>",
+    "<SPECIAL_600>",
+    "<SPECIAL_601>",
+    "<SPECIAL_602>",
+    "<SPECIAL_603>",
+    "<SPECIAL_604>",
+    "<SPECIAL_605>",
+    "<SPECIAL_606>",
+    "<SPECIAL_607>",
+    "<SPECIAL_608>",
+    "<SPECIAL_609>",
+    "<SPECIAL_610>",
+    "<SPECIAL_611>",
+    "<SPECIAL_612>",
+    "<SPECIAL_613>",
+    "<SPECIAL_614>",
+    "<SPECIAL_615>",
+    "<SPECIAL_616>",
+    "<SPECIAL_617>",
+    "<SPECIAL_618>",
+    "<SPECIAL_619>",
+    "<SPECIAL_620>",
+    "<SPECIAL_621>",
+    "<SPECIAL_622>",
+    "<SPECIAL_623>",
+    "<SPECIAL_624>",
+    "<SPECIAL_625>",
+    "<SPECIAL_626>",
+    "<SPECIAL_627>",
+    "<SPECIAL_628>",
+    "<SPECIAL_629>",
+    "<SPECIAL_630>",
+    "<SPECIAL_631>",
+    "<SPECIAL_632>",
+    "<SPECIAL_633>",
+    "<SPECIAL_634>",
+    "<SPECIAL_635>",
+    "<SPECIAL_636>",
+    "<SPECIAL_637>",
+    "<SPECIAL_638>",
+    "<SPECIAL_639>",
+    "<SPECIAL_640>",
+    "<SPECIAL_641>",
+    "<SPECIAL_642>",
+    "<SPECIAL_643>",
+    "<SPECIAL_644>",
+    "<SPECIAL_645>",
+    "<SPECIAL_646>",
+    "<SPECIAL_647>",
+    "<SPECIAL_648>",
+    "<SPECIAL_649>",
+    "<SPECIAL_650>",
+    "<SPECIAL_651>",
+    "<SPECIAL_652>",
+    "<SPECIAL_653>",
+    "<SPECIAL_654>",
+    "<SPECIAL_655>",
+    "<SPECIAL_656>",
+    "<SPECIAL_657>",
+    "<SPECIAL_658>",
+    "<SPECIAL_659>",
+    "<SPECIAL_660>",
+    "<SPECIAL_661>",
+    "<SPECIAL_662>",
+    "<SPECIAL_663>",
+    "<SPECIAL_664>",
+    "<SPECIAL_665>",
+    "<SPECIAL_666>",
+    "<SPECIAL_667>",
+    "<SPECIAL_668>",
+    "<SPECIAL_669>",
+    "<SPECIAL_670>",
+    "<SPECIAL_671>",
+    "<SPECIAL_672>",
+    "<SPECIAL_673>",
+    "<SPECIAL_674>",
+    "<SPECIAL_675>",
+    "<SPECIAL_676>",
+    "<SPECIAL_677>",
+    "<SPECIAL_678>",
+    "<SPECIAL_679>",
+    "<SPECIAL_680>",
+    "<SPECIAL_681>",
+    "<SPECIAL_682>",
+    "<SPECIAL_683>",
+    "<SPECIAL_684>",
+    "<SPECIAL_685>",
+    "<SPECIAL_686>",
+    "<SPECIAL_687>",
+    "<SPECIAL_688>",
+    "<SPECIAL_689>",
+    "<SPECIAL_690>",
+    "<SPECIAL_691>",
+    "<SPECIAL_692>",
+    "<SPECIAL_693>",
+    "<SPECIAL_694>",
+    "<SPECIAL_695>",
+    "<SPECIAL_696>",
+    "<SPECIAL_697>",
+    "<SPECIAL_698>",
+    "<SPECIAL_699>",
+    "<SPECIAL_700>",
+    "<SPECIAL_701>",
+    "<SPECIAL_702>",
+    "<SPECIAL_703>",
+    "<SPECIAL_704>",
+    "<SPECIAL_705>",
+    "<SPECIAL_706>",
+    "<SPECIAL_707>",
+    "<SPECIAL_708>",
+    "<SPECIAL_709>",
+    "<SPECIAL_710>",
+    "<SPECIAL_711>",
+    "<SPECIAL_712>",
+    "<SPECIAL_713>",
+    "<SPECIAL_714>",
+    "<SPECIAL_715>",
+    "<SPECIAL_716>",
+    "<SPECIAL_717>",
+    "<SPECIAL_718>",
+    "<SPECIAL_719>",
+    "<SPECIAL_720>",
+    "<SPECIAL_721>",
+    "<SPECIAL_722>",
+    "<SPECIAL_723>",
+    "<SPECIAL_724>",
+    "<SPECIAL_725>",
+    "<SPECIAL_726>",
+    "<SPECIAL_727>",
+    "<SPECIAL_728>",
+    "<SPECIAL_729>",
+    "<SPECIAL_730>",
+    "<SPECIAL_731>",
+    "<SPECIAL_732>",
+    "<SPECIAL_733>",
+    "<SPECIAL_734>",
+    "<SPECIAL_735>",
+    "<SPECIAL_736>",
+    "<SPECIAL_737>",
+    "<SPECIAL_738>",
+    "<SPECIAL_739>",
+    "<SPECIAL_740>",
+    "<SPECIAL_741>",
+    "<SPECIAL_742>",
+    "<SPECIAL_743>",
+    "<SPECIAL_744>",
+    "<SPECIAL_745>",
+    "<SPECIAL_746>",
+    "<SPECIAL_747>",
+    "<SPECIAL_748>",
+    "<SPECIAL_749>",
+    "<SPECIAL_750>",
+    "<SPECIAL_751>",
+    "<SPECIAL_752>",
+    "<SPECIAL_753>",
+    "<SPECIAL_754>",
+    "<SPECIAL_755>",
+    "<SPECIAL_756>",
+    "<SPECIAL_757>",
+    "<SPECIAL_758>",
+    "<SPECIAL_759>",
+    "<SPECIAL_760>",
+    "<SPECIAL_761>",
+    "<SPECIAL_762>",
+    "<SPECIAL_763>",
+    "<SPECIAL_764>",
+    "<SPECIAL_765>",
+    "<SPECIAL_766>",
+    "<SPECIAL_767>",
+    "<SPECIAL_768>",
+    "<SPECIAL_769>",
+    "<SPECIAL_770>",
+    "<SPECIAL_771>",
+    "<SPECIAL_772>",
+    "<SPECIAL_773>",
+    "<SPECIAL_774>",
+    "<SPECIAL_775>",
+    "<SPECIAL_776>",
+    "<SPECIAL_777>",
+    "<SPECIAL_778>",
+    "<SPECIAL_779>",
+    "<SPECIAL_780>",
+    "<SPECIAL_781>",
+    "<SPECIAL_782>",
+    "<SPECIAL_783>",
+    "<SPECIAL_784>",
+    "<SPECIAL_785>",
+    "<SPECIAL_786>",
+    "<SPECIAL_787>",
+    "<SPECIAL_788>",
+    "<SPECIAL_789>",
+    "<SPECIAL_790>",
+    "<SPECIAL_791>",
+    "<SPECIAL_792>",
+    "<SPECIAL_793>",
+    "<SPECIAL_794>",
+    "<SPECIAL_795>",
+    "<SPECIAL_796>",
+    "<SPECIAL_797>",
+    "<SPECIAL_798>",
+    "<SPECIAL_799>",
+    "<SPECIAL_800>",
+    "<SPECIAL_801>",
+    "<SPECIAL_802>",
+    "<SPECIAL_803>",
+    "<SPECIAL_804>",
+    "<SPECIAL_805>",
+    "<SPECIAL_806>",
+    "<SPECIAL_807>",
+    "<SPECIAL_808>",
+    "<SPECIAL_809>",
+    "<SPECIAL_810>",
+    "<SPECIAL_811>",
+    "<SPECIAL_812>",
+    "<SPECIAL_813>",
+    "<SPECIAL_814>",
+    "<SPECIAL_815>",
+    "<SPECIAL_816>",
+    "<SPECIAL_817>",
+    "<SPECIAL_818>",
+    "<SPECIAL_819>",
+    "<SPECIAL_820>",
+    "<SPECIAL_821>",
+    "<SPECIAL_822>",
+    "<SPECIAL_823>",
+    "<SPECIAL_824>",
+    "<SPECIAL_825>",
+    "<SPECIAL_826>",
+    "<SPECIAL_827>",
+    "<SPECIAL_828>",
+    "<SPECIAL_829>",
+    "<SPECIAL_830>",
+    "<SPECIAL_831>",
+    "<SPECIAL_832>",
+    "<SPECIAL_833>",
+    "<SPECIAL_834>",
+    "<SPECIAL_835>",
+    "<SPECIAL_836>",
+    "<SPECIAL_837>",
+    "<SPECIAL_838>",
+    "<SPECIAL_839>",
+    "<SPECIAL_840>",
+    "<SPECIAL_841>",
+    "<SPECIAL_842>",
+    "<SPECIAL_843>",
+    "<SPECIAL_844>",
+    "<SPECIAL_845>",
+    "<SPECIAL_846>",
+    "<SPECIAL_847>",
+    "<SPECIAL_848>",
+    "<SPECIAL_849>",
+    "<SPECIAL_850>",
+    "<SPECIAL_851>",
+    "<SPECIAL_852>",
+    "<SPECIAL_853>",
+    "<SPECIAL_854>",
+    "<SPECIAL_855>",
+    "<SPECIAL_856>",
+    "<SPECIAL_857>",
+    "<SPECIAL_858>",
+    "<SPECIAL_859>",
+    "<SPECIAL_860>",
+    "<SPECIAL_861>",
+    "<SPECIAL_862>",
+    "<SPECIAL_863>",
+    "<SPECIAL_864>",
+    "<SPECIAL_865>",
+    "<SPECIAL_866>",
+    "<SPECIAL_867>",
+    "<SPECIAL_868>",
+    "<SPECIAL_869>",
+    "<SPECIAL_870>",
+    "<SPECIAL_871>",
+    "<SPECIAL_872>",
+    "<SPECIAL_873>",
+    "<SPECIAL_874>",
+    "<SPECIAL_875>",
+    "<SPECIAL_876>",
+    "<SPECIAL_877>",
+    "<SPECIAL_878>",
+    "<SPECIAL_879>",
+    "<SPECIAL_880>",
+    "<SPECIAL_881>",
+    "<SPECIAL_882>",
+    "<SPECIAL_883>",
+    "<SPECIAL_884>",
+    "<SPECIAL_885>",
+    "<SPECIAL_886>",
+    "<SPECIAL_887>",
+    "<SPECIAL_888>",
+    "<SPECIAL_889>",
+    "<SPECIAL_890>",
+    "<SPECIAL_891>",
+    "<SPECIAL_892>",
+    "<SPECIAL_893>",
+    "<SPECIAL_894>",
+    "<SPECIAL_895>",
+    "<SPECIAL_896>",
+    "<SPECIAL_897>",
+    "<SPECIAL_898>",
+    "<SPECIAL_899>",
+    "<SPECIAL_900>",
+    "<SPECIAL_901>",
+    "<SPECIAL_902>",
+    "<SPECIAL_903>",
+    "<SPECIAL_904>",
+    "<SPECIAL_905>",
+    "<SPECIAL_906>",
+    "<SPECIAL_907>",
+    "<SPECIAL_908>",
+    "<SPECIAL_909>",
+    "<SPECIAL_910>",
+    "<SPECIAL_911>",
+    "<SPECIAL_912>",
+    "<SPECIAL_913>",
+    "<SPECIAL_914>",
+    "<SPECIAL_915>",
+    "<SPECIAL_916>",
+    "<SPECIAL_917>",
+    "<SPECIAL_918>",
+    "<SPECIAL_919>",
+    "<SPECIAL_920>",
+    "<SPECIAL_921>",
+    "<SPECIAL_922>",
+    "<SPECIAL_923>",
+    "<SPECIAL_924>",
+    "<SPECIAL_925>",
+    "<SPECIAL_926>",
+    "<SPECIAL_927>",
+    "<SPECIAL_928>",
+    "<SPECIAL_929>",
+    "<SPECIAL_930>",
+    "<SPECIAL_931>",
+    "<SPECIAL_932>",
+    "<SPECIAL_933>",
+    "<SPECIAL_934>",
+    "<SPECIAL_935>",
+    "<SPECIAL_936>",
+    "<SPECIAL_937>",
+    "<SPECIAL_938>",
+    "<SPECIAL_939>",
+    "<SPECIAL_940>",
+    "<SPECIAL_941>",
+    "<SPECIAL_942>",
+    "<SPECIAL_943>",
+    "<SPECIAL_944>",
+    "<SPECIAL_945>",
+    "<SPECIAL_946>",
+    "<SPECIAL_947>",
+    "<SPECIAL_948>",
+    "<SPECIAL_949>",
+    "<SPECIAL_950>",
+    "<SPECIAL_951>",
+    "<SPECIAL_952>",
+    "<SPECIAL_953>",
+    "<SPECIAL_954>",
+    "<SPECIAL_955>",
+    "<SPECIAL_956>",
+    "<SPECIAL_957>",
+    "<SPECIAL_958>",
+    "<SPECIAL_959>",
+    "<SPECIAL_960>",
+    "<SPECIAL_961>",
+    "<SPECIAL_962>",
+    "<SPECIAL_963>",
+    "<SPECIAL_964>",
+    "<SPECIAL_965>",
+    "<SPECIAL_966>",
+    "<SPECIAL_967>",
+    "<SPECIAL_968>",
+    "<SPECIAL_969>",
+    "<SPECIAL_970>",
+    "<SPECIAL_971>",
+    "<SPECIAL_972>",
+    "<SPECIAL_973>",
+    "<SPECIAL_974>",
+    "<SPECIAL_975>",
+    "<SPECIAL_976>",
+    "<SPECIAL_977>",
+    "<SPECIAL_978>",
+    "<SPECIAL_979>",
+    "<SPECIAL_980>",
+    "<SPECIAL_981>",
+    "<SPECIAL_982>",
+    "<SPECIAL_983>",
+    "<SPECIAL_984>",
+    "<SPECIAL_985>",
+    "<SPECIAL_986>",
+    "<SPECIAL_987>",
+    "<SPECIAL_988>",
+    "<SPECIAL_989>",
+    "<SPECIAL_990>",
+    "<SPECIAL_991>",
+    "<SPECIAL_992>",
+    "<SPECIAL_993>",
+    "<SPECIAL_994>",
+    "<SPECIAL_995>",
+    "<SPECIAL_996>",
+    "<SPECIAL_997>",
+    "<SPECIAL_998>",
+    "<SPECIAL_999>"
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoints/checkpoint-180/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b76085f9923309d873994d444989f7eb6ec074b06f25b58f1e8d7b7741070949
+size 17078037

checkpoints/checkpoint-180/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-180/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2029 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.938775510204082,
+  "eval_steps": 2,
+  "global_step": 180,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_loss": 1.2313029766082764,
+      "eval_runtime": 18.2352,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 0
+    },
+    {
+      "epoch": 0.0163265306122449,
+      "grad_norm": 0.37113556265830994,
+      "learning_rate": 2.5e-05,
+      "loss": 0.4085,
+      "step": 1
+    },
+    {
+      "epoch": 0.0326530612244898,
+      "grad_norm": 0.35803329944610596,
+      "learning_rate": 5e-05,
+      "loss": 0.3876,
+      "step": 2
+    },
+    {
+      "epoch": 0.0326530612244898,
+      "eval_loss": 1.2231345176696777,
+      "eval_runtime": 18.2243,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 2
+    },
+    {
+      "epoch": 0.04897959183673469,
+      "grad_norm": 0.3112759590148926,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.3946,
+      "step": 3
+    },
+    {
+      "epoch": 0.0653061224489796,
+      "grad_norm": 0.2448713332414627,
+      "learning_rate": 0.0001,
+      "loss": 0.4363,
+      "step": 4
+    },
+    {
+      "epoch": 0.0653061224489796,
+      "eval_loss": 1.1564743518829346,
+      "eval_runtime": 18.253,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 4
+    },
+    {
+      "epoch": 0.08163265306122448,
+      "grad_norm": 0.2955642342567444,
+      "learning_rate": 0.000125,
+      "loss": 0.4394,
+      "step": 5
+    },
+    {
+      "epoch": 0.09795918367346938,
+      "grad_norm": 0.41399946808815,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.4902,
+      "step": 6
+    },
+    {
+      "epoch": 0.09795918367346938,
+      "eval_loss": 1.1353044509887695,
+      "eval_runtime": 18.2664,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 6
+    },
+    {
+      "epoch": 0.11428571428571428,
+      "grad_norm": 0.2643347978591919,
+      "learning_rate": 0.000175,
+      "loss": 0.3528,
+      "step": 7
+    },
+    {
+      "epoch": 0.1306122448979592,
+      "grad_norm": 0.21472330391407013,
+      "learning_rate": 0.0002,
+      "loss": 0.357,
+      "step": 8
+    },
+    {
+      "epoch": 0.1306122448979592,
+      "eval_loss": 1.1218546628952026,
+      "eval_runtime": 18.2139,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 8
+    },
+    {
+      "epoch": 0.1469387755102041,
+      "grad_norm": 0.23261462152004242,
+      "learning_rate": 0.00022500000000000002,
+      "loss": 0.3924,
+      "step": 9
+    },
+    {
+      "epoch": 0.16326530612244897,
+      "grad_norm": 0.18365171551704407,
+      "learning_rate": 0.00025,
+      "loss": 0.283,
+      "step": 10
+    },
+    {
+      "epoch": 0.16326530612244897,
+      "eval_loss": 1.1094393730163574,
+      "eval_runtime": 18.249,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 10
+    },
+    {
+      "epoch": 0.17959183673469387,
+      "grad_norm": 0.20431634783744812,
+      "learning_rate": 0.000275,
+      "loss": 0.3178,
+      "step": 11
+    },
+    {
+      "epoch": 0.19591836734693877,
+      "grad_norm": 0.2033773809671402,
+      "learning_rate": 0.00030000000000000003,
+      "loss": 0.3366,
+      "step": 12
+    },
+    {
+      "epoch": 0.19591836734693877,
+      "eval_loss": 1.1021316051483154,
+      "eval_runtime": 18.2562,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 12
+    },
+    {
+      "epoch": 0.21224489795918366,
+      "grad_norm": 0.27416911721229553,
+      "learning_rate": 0.00032500000000000004,
+      "loss": 0.3367,
+      "step": 13
+    },
+    {
+      "epoch": 0.22857142857142856,
+      "grad_norm": 0.32283130288124084,
+      "learning_rate": 0.00035,
+      "loss": 0.3364,
+      "step": 14
+    },
+    {
+      "epoch": 0.22857142857142856,
+      "eval_loss": 1.0523244142532349,
+      "eval_runtime": 18.2347,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 14
+    },
+    {
+      "epoch": 0.24489795918367346,
+      "grad_norm": 0.21469368040561676,
+      "learning_rate": 0.000375,
+      "loss": 0.3496,
+      "step": 15
+    },
+    {
+      "epoch": 0.2612244897959184,
+      "grad_norm": 0.19361759722232819,
+      "learning_rate": 0.0004,
+      "loss": 0.2961,
+      "step": 16
+    },
+    {
+      "epoch": 0.2612244897959184,
+      "eval_loss": 1.0401124954223633,
+      "eval_runtime": 18.2288,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 16
+    },
+    {
+      "epoch": 0.27755102040816326,
+      "grad_norm": 0.1797463297843933,
+      "learning_rate": 0.0004,
+      "loss": 0.3016,
+      "step": 17
+    },
+    {
+      "epoch": 0.2938775510204082,
+      "grad_norm": 0.28122591972351074,
+      "learning_rate": 0.0004,
+      "loss": 0.3656,
+      "step": 18
+    },
+    {
+      "epoch": 0.2938775510204082,
+      "eval_loss": 1.0228931903839111,
+      "eval_runtime": 18.2429,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 18
+    },
+    {
+      "epoch": 0.31020408163265306,
+      "grad_norm": 0.227556511759758,
+      "learning_rate": 0.0004,
+      "loss": 0.3246,
+      "step": 19
+    },
+    {
+      "epoch": 0.32653061224489793,
+      "grad_norm": 0.211012601852417,
+      "learning_rate": 0.0004,
+      "loss": 0.3453,
+      "step": 20
+    },
+    {
+      "epoch": 0.32653061224489793,
+      "eval_loss": 1.017521858215332,
+      "eval_runtime": 18.2213,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 20
+    },
+    {
+      "epoch": 0.34285714285714286,
+      "grad_norm": 0.20422972738742828,
+      "learning_rate": 0.0004,
+      "loss": 0.3258,
+      "step": 21
+    },
+    {
+      "epoch": 0.35918367346938773,
+      "grad_norm": 0.206649512052536,
+      "learning_rate": 0.0004,
+      "loss": 0.3248,
+      "step": 22
+    },
+    {
+      "epoch": 0.35918367346938773,
+      "eval_loss": 0.9992413520812988,
+      "eval_runtime": 18.249,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 22
+    },
+    {
+      "epoch": 0.37551020408163266,
+      "grad_norm": 0.19837401807308197,
+      "learning_rate": 0.0004,
+      "loss": 0.3181,
+      "step": 23
+    },
+    {
+      "epoch": 0.39183673469387753,
+      "grad_norm": 0.20325997471809387,
+      "learning_rate": 0.0004,
+      "loss": 0.2826,
+      "step": 24
+    },
+    {
+      "epoch": 0.39183673469387753,
+      "eval_loss": 0.9943413734436035,
+      "eval_runtime": 18.2482,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 24
+    },
+    {
+      "epoch": 0.40816326530612246,
+      "grad_norm": 0.3371317386627197,
+      "learning_rate": 0.0004,
+      "loss": 0.3197,
+      "step": 25
+    },
+    {
+      "epoch": 0.42448979591836733,
+      "grad_norm": 0.21709182858467102,
+      "learning_rate": 0.0004,
+      "loss": 0.3272,
+      "step": 26
+    },
+    {
+      "epoch": 0.42448979591836733,
+      "eval_loss": 0.9733779430389404,
+      "eval_runtime": 18.2232,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 26
+    },
+    {
+      "epoch": 0.44081632653061226,
+      "grad_norm": 0.2420857548713684,
+      "learning_rate": 0.0004,
+      "loss": 0.3293,
+      "step": 27
+    },
+    {
+      "epoch": 0.45714285714285713,
+      "grad_norm": 0.30486994981765747,
+      "learning_rate": 0.0004,
+      "loss": 0.3958,
+      "step": 28
+    },
+    {
+      "epoch": 0.45714285714285713,
+      "eval_loss": 0.9588731527328491,
+      "eval_runtime": 18.2458,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 28
+    },
+    {
+      "epoch": 0.47346938775510206,
+      "grad_norm": 0.24714964628219604,
+      "learning_rate": 0.0004,
+      "loss": 0.3305,
+      "step": 29
+    },
+    {
+      "epoch": 0.4897959183673469,
+      "grad_norm": 0.21984225511550903,
+      "learning_rate": 0.0004,
+      "loss": 0.3395,
+      "step": 30
+    },
+    {
+      "epoch": 0.4897959183673469,
+      "eval_loss": 0.9427903890609741,
+      "eval_runtime": 18.2414,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 30
+    },
+    {
+      "epoch": 0.5061224489795918,
+      "grad_norm": 0.19778016209602356,
+      "learning_rate": 0.0004,
+      "loss": 0.2918,
+      "step": 31
+    },
+    {
+      "epoch": 0.5224489795918368,
+      "grad_norm": 0.21754617989063263,
+      "learning_rate": 0.0004,
+      "loss": 0.2855,
+      "step": 32
+    },
+    {
+      "epoch": 0.5224489795918368,
+      "eval_loss": 0.9335330128669739,
+      "eval_runtime": 18.275,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 32
+    },
+    {
+      "epoch": 0.5387755102040817,
+      "grad_norm": 0.2221430391073227,
+      "learning_rate": 0.0004,
+      "loss": 0.2946,
+      "step": 33
+    },
+    {
+      "epoch": 0.5551020408163265,
+      "grad_norm": 0.2112974375486374,
+      "learning_rate": 0.0004,
+      "loss": 0.3149,
+      "step": 34
+    },
+    {
+      "epoch": 0.5551020408163265,
+      "eval_loss": 0.9311869144439697,
+      "eval_runtime": 18.2431,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 34
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 0.19651219248771667,
+      "learning_rate": 0.0004,
+      "loss": 0.2606,
+      "step": 35
+    },
+    {
+      "epoch": 0.5877551020408164,
+      "grad_norm": 0.22742077708244324,
+      "learning_rate": 0.0004,
+      "loss": 0.3245,
+      "step": 36
+    },
+    {
+      "epoch": 0.5877551020408164,
+      "eval_loss": 0.9281033873558044,
+      "eval_runtime": 18.2248,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 36
+    },
+    {
+      "epoch": 0.6040816326530613,
+      "grad_norm": 0.2320890575647354,
+      "learning_rate": 0.0004,
+      "loss": 0.3532,
+      "step": 37
+    },
+    {
+      "epoch": 0.6204081632653061,
+      "grad_norm": 0.21191200613975525,
+      "learning_rate": 0.0004,
+      "loss": 0.2973,
+      "step": 38
+    },
+    {
+      "epoch": 0.6204081632653061,
+      "eval_loss": 0.9274996519088745,
+      "eval_runtime": 18.2309,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 38
+    },
+    {
+      "epoch": 0.636734693877551,
+      "grad_norm": 0.24098484218120575,
+      "learning_rate": 0.0004,
+      "loss": 0.3194,
+      "step": 39
+    },
+    {
+      "epoch": 0.6530612244897959,
+      "grad_norm": 0.3358725607395172,
+      "learning_rate": 0.0004,
+      "loss": 0.2833,
+      "step": 40
+    },
+    {
+      "epoch": 0.6530612244897959,
+      "eval_loss": 0.9254183769226074,
+      "eval_runtime": 18.2685,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 40
+    },
+    {
+      "epoch": 0.6693877551020408,
+      "grad_norm": 0.2399401068687439,
+      "learning_rate": 0.0004,
+      "loss": 0.3381,
+      "step": 41
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "grad_norm": 0.23229075968265533,
+      "learning_rate": 0.0004,
+      "loss": 0.3501,
+      "step": 42
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "eval_loss": 0.9213573932647705,
+      "eval_runtime": 18.2788,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 42
+    },
+    {
+      "epoch": 0.7020408163265306,
+      "grad_norm": 0.2341497391462326,
+      "learning_rate": 0.0004,
+      "loss": 0.3033,
+      "step": 43
+    },
+    {
+      "epoch": 0.7183673469387755,
+      "grad_norm": 0.22997914254665375,
+      "learning_rate": 0.0004,
+      "loss": 0.3675,
+      "step": 44
+    },
+    {
+      "epoch": 0.7183673469387755,
+      "eval_loss": 0.9130539298057556,
+      "eval_runtime": 18.2601,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 44
+    },
+    {
+      "epoch": 0.7346938775510204,
+      "grad_norm": 0.23445634543895721,
+      "learning_rate": 0.0004,
+      "loss": 0.3113,
+      "step": 45
+    },
+    {
+      "epoch": 0.7510204081632653,
+      "grad_norm": 0.22852188348770142,
+      "learning_rate": 0.0004,
+      "loss": 0.3593,
+      "step": 46
+    },
+    {
+      "epoch": 0.7510204081632653,
+      "eval_loss": 0.9100953936576843,
+      "eval_runtime": 18.2446,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 46
+    },
+    {
+      "epoch": 0.7673469387755102,
+      "grad_norm": 0.2316325306892395,
+      "learning_rate": 0.0004,
+      "loss": 0.3121,
+      "step": 47
+    },
+    {
+      "epoch": 0.7836734693877551,
+      "grad_norm": 0.2397606372833252,
+      "learning_rate": 0.0004,
+      "loss": 0.2979,
+      "step": 48
+    },
+    {
+      "epoch": 0.7836734693877551,
+      "eval_loss": 0.9087210297584534,
+      "eval_runtime": 18.2833,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 48
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.22637659311294556,
+      "learning_rate": 0.0004,
+      "loss": 0.2919,
+      "step": 49
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "grad_norm": 0.255599707365036,
+      "learning_rate": 0.0004,
+      "loss": 0.3741,
+      "step": 50
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "eval_loss": 0.9020435810089111,
+      "eval_runtime": 18.2931,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 50
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "eval_loss": 0.9020435810089111,
+      "eval_runtime": 18.1276,
+      "eval_samples_per_second": 0.883,
+      "eval_steps_per_second": 0.883,
+      "step": 50
+    },
+    {
+      "epoch": 0.8326530612244898,
+      "grad_norm": 0.2062978744506836,
+      "learning_rate": 0.0003877467715307749,
+      "loss": 0.3303,
+      "step": 51
+    },
+    {
+      "epoch": 0.8489795918367347,
+      "grad_norm": 0.20149795711040497,
+      "learning_rate": 0.0003870443502801494,
+      "loss": 0.3212,
+      "step": 52
+    },
+    {
+      "epoch": 0.8489795918367347,
+      "eval_loss": 0.8994156718254089,
+      "eval_runtime": 18.1853,
+      "eval_samples_per_second": 0.88,
+      "eval_steps_per_second": 0.88,
+      "step": 52
+    },
+    {
+      "epoch": 0.8653061224489796,
+      "grad_norm": 0.17913399636745453,
+      "learning_rate": 0.0003863230255984052,
+      "loss": 0.2637,
+      "step": 53
+    },
+    {
+      "epoch": 0.8816326530612245,
+      "grad_norm": 0.19331133365631104,
+      "learning_rate": 0.00038558287038542615,
+      "loss": 0.3564,
+      "step": 54
+    },
+    {
+      "epoch": 0.8816326530612245,
+      "eval_loss": 0.8963940143585205,
+      "eval_runtime": 18.223,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 54
+    },
+    {
+      "epoch": 0.8979591836734694,
+      "grad_norm": 0.20378044247627258,
+      "learning_rate": 0.00038482395944418313,
+      "loss": 0.3253,
+      "step": 55
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "grad_norm": 0.19742076098918915,
+      "learning_rate": 0.0003840463694731741,
+      "loss": 0.3715,
+      "step": 56
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "eval_loss": 0.8902382850646973,
+      "eval_runtime": 18.2093,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 56
+    },
+    {
+      "epoch": 0.9306122448979591,
+      "grad_norm": 0.1908055692911148,
+      "learning_rate": 0.0003832501790586724,
+      "loss": 0.3305,
+      "step": 57
+    },
+    {
+      "epoch": 0.9469387755102041,
+      "grad_norm": 0.21527761220932007,
+      "learning_rate": 0.0003824354686667848,
+      "loss": 0.3523,
+      "step": 58
+    },
+    {
+      "epoch": 0.9469387755102041,
+      "eval_loss": 0.8786917328834534,
+      "eval_runtime": 18.2124,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 58
+    },
+    {
+      "epoch": 0.963265306122449,
+      "grad_norm": 0.1817687749862671,
+      "learning_rate": 0.00038160232063531917,
+      "loss": 0.2616,
+      "step": 59
+    },
+    {
+      "epoch": 0.9795918367346939,
+      "grad_norm": 0.17659063637256622,
+      "learning_rate": 0.0003807508191654631,
+      "loss": 0.251,
+      "step": 60
+    },
+    {
+      "epoch": 0.9795918367346939,
+      "eval_loss": 0.8799586296081543,
+      "eval_runtime": 18.2543,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 60
+    },
+    {
+      "epoch": 0.9959183673469387,
+      "grad_norm": 0.22647982835769653,
+      "learning_rate": 0.0003798810503132742,
+      "loss": 0.2881,
+      "step": 61
+    },
+    {
+      "epoch": 1.0122448979591836,
+      "grad_norm": 0.45377442240715027,
+      "learning_rate": 0.00037899310198098295,
+      "loss": 0.5515,
+      "step": 62
+    },
+    {
+      "epoch": 1.0122448979591836,
+      "eval_loss": 0.8895297050476074,
+      "eval_runtime": 18.2212,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 62
+    },
+    {
+      "epoch": 1.0285714285714285,
+      "grad_norm": 0.3527546226978302,
+      "learning_rate": 0.000378087063908109,
+      "loss": 0.2427,
+      "step": 63
+    },
+    {
+      "epoch": 1.0448979591836736,
+      "grad_norm": 0.2781178951263428,
+      "learning_rate": 0.0003771630276623915,
+      "loss": 0.2215,
+      "step": 64
+    },
+    {
+      "epoch": 1.0448979591836736,
+      "eval_loss": 0.9294220209121704,
+      "eval_runtime": 18.226,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 64
+    },
+    {
+      "epoch": 1.0612244897959184,
+      "grad_norm": 0.2543565034866333,
+      "learning_rate": 0.00037622108663053536,
+      "loss": 0.2761,
+      "step": 65
+    },
+    {
+      "epoch": 1.0775510204081633,
+      "grad_norm": 0.26259011030197144,
+      "learning_rate": 0.0003752613360087727,
+      "loss": 0.2425,
+      "step": 66
+    },
+    {
+      "epoch": 1.0775510204081633,
+      "eval_loss": 0.9212721586227417,
+      "eval_runtime": 18.2309,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 66
+    },
+    {
+      "epoch": 1.0938775510204082,
+      "grad_norm": 0.36850446462631226,
+      "learning_rate": 0.00037428387279324257,
+      "loss": 0.225,
+      "step": 67
+    },
+    {
+      "epoch": 1.110204081632653,
+      "grad_norm": 0.23748713731765747,
+      "learning_rate": 0.0003732887957701874,
+      "loss": 0.2363,
+      "step": 68
+    },
+    {
+      "epoch": 1.110204081632653,
+      "eval_loss": 0.9431418776512146,
+      "eval_runtime": 18.2471,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 68
+    },
+    {
+      "epoch": 1.126530612244898,
+      "grad_norm": 0.23217403888702393,
+      "learning_rate": 0.00037227620550597,
+      "loss": 0.2364,
+      "step": 69
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "grad_norm": 0.28124868869781494,
+      "learning_rate": 0.0003712462043369093,
+      "loss": 0.2197,
+      "step": 70
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "eval_loss": 0.9205393195152283,
+      "eval_runtime": 18.2662,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 70
+    },
+    {
+      "epoch": 1.1591836734693877,
+      "grad_norm": 0.2142041176557541,
+      "learning_rate": 0.00037019889635893843,
+      "loss": 0.1958,
+      "step": 71
+    },
+    {
+      "epoch": 1.1755102040816325,
+      "grad_norm": 0.34761127829551697,
+      "learning_rate": 0.0003691343874170838,
+      "loss": 0.2183,
+      "step": 72
+    },
+    {
+      "epoch": 1.1755102040816325,
+      "eval_loss": 0.9254322648048401,
+      "eval_runtime": 18.2303,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 72
+    },
+    {
+      "epoch": 1.1918367346938776,
+      "grad_norm": 0.2560065686702728,
+      "learning_rate": 0.00036805278509476844,
+      "loss": 0.248,
+      "step": 73
+    },
+    {
+      "epoch": 1.2081632653061225,
+      "grad_norm": 0.7435296773910522,
+      "learning_rate": 0.00036695419870293915,
+      "loss": 0.2356,
+      "step": 74
+    },
+    {
+      "epoch": 1.2081632653061225,
+      "eval_loss": 0.9271378517150879,
+      "eval_runtime": 18.2503,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 74
+    },
+    {
+      "epoch": 1.2244897959183674,
+      "grad_norm": 0.8685758113861084,
+      "learning_rate": 0.00036583873926901867,
+      "loss": 0.2129,
+      "step": 75
+    },
+    {
+      "epoch": 1.2408163265306122,
+      "grad_norm": 1.2740998268127441,
+      "learning_rate": 0.0003647065195256855,
+      "loss": 0.2469,
+      "step": 76
+    },
+    {
+      "epoch": 1.2408163265306122,
+      "eval_loss": 0.9236885905265808,
+      "eval_runtime": 18.2226,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 76
+    },
+    {
+      "epoch": 1.2571428571428571,
+      "grad_norm": 0.28524693846702576,
+      "learning_rate": 0.0003635576538994801,
+      "loss": 0.2278,
+      "step": 77
+    },
+    {
+      "epoch": 1.273469387755102,
+      "grad_norm": 1.0116885900497437,
+      "learning_rate": 0.0003623922584992409,
+      "loss": 0.2488,
+      "step": 78
+    },
+    {
+      "epoch": 1.273469387755102,
+      "eval_loss": 0.923646867275238,
+      "eval_runtime": 18.2519,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 78
+    },
+    {
+      "epoch": 1.2897959183673469,
+      "grad_norm": 0.9336573481559753,
+      "learning_rate": 0.0003612104511043694,
+      "loss": 0.3095,
+      "step": 79
+    },
+    {
+      "epoch": 1.306122448979592,
+      "grad_norm": 0.43459734320640564,
+      "learning_rate": 0.0003600123511529278,
+      "loss": 0.2215,
+      "step": 80
+    },
+    {
+      "epoch": 1.306122448979592,
+      "eval_loss": 0.941472589969635,
+      "eval_runtime": 18.251,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 80
+    },
+    {
+      "epoch": 1.3224489795918366,
+      "grad_norm": 0.39941656589508057,
+      "learning_rate": 0.0003587980797295671,
+      "loss": 0.251,
+      "step": 81
+    },
+    {
+      "epoch": 1.3387755102040817,
+      "grad_norm": 0.2876632511615753,
+      "learning_rate": 0.0003575677595532904,
+      "loss": 0.208,
+      "step": 82
+    },
+    {
+      "epoch": 1.3387755102040817,
+      "eval_loss": 0.932316780090332,
+      "eval_runtime": 18.2326,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 82
+    },
+    {
+      "epoch": 1.3551020408163266,
+      "grad_norm": 0.30556565523147583,
+      "learning_rate": 0.0003563215149650505,
+      "loss": 0.2821,
+      "step": 83
+    },
+    {
+      "epoch": 1.3714285714285714,
+      "grad_norm": 0.3039940595626831,
+      "learning_rate": 0.00035505947191518316,
+      "loss": 0.2177,
+      "step": 84
+    },
+    {
+      "epoch": 1.3714285714285714,
+      "eval_loss": 0.9171479344367981,
+      "eval_runtime": 18.2397,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 84
+    },
+    {
+      "epoch": 1.3877551020408163,
+      "grad_norm": 0.32876476645469666,
+      "learning_rate": 0.0003537817579506783,
+      "loss": 0.2142,
+      "step": 85
+    },
+    {
+      "epoch": 1.4040816326530612,
+      "grad_norm": 0.26468542218208313,
+      "learning_rate": 0.0003524885022022896,
+      "loss": 0.2293,
+      "step": 86
+    },
+    {
+      "epoch": 1.4040816326530612,
+      "eval_loss": 0.9176874756813049,
+      "eval_runtime": 18.2553,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 86
+    },
+    {
+      "epoch": 1.420408163265306,
+      "grad_norm": 0.9715031981468201,
+      "learning_rate": 0.000351179835371484,
+      "loss": 0.235,
+      "step": 87
+    },
+    {
+      "epoch": 1.436734693877551,
+      "grad_norm": 0.8392952680587769,
+      "learning_rate": 0.00034985588971723233,
+      "loss": 0.2307,
+      "step": 88
+    },
+    {
+      "epoch": 1.436734693877551,
+      "eval_loss": 0.9272938370704651,
+      "eval_runtime": 18.2194,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 88
+    },
+    {
+      "epoch": 1.453061224489796,
+      "grad_norm": 0.28850337862968445,
+      "learning_rate": 0.00034851679904264314,
+      "loss": 0.2403,
+      "step": 89
+    },
+    {
+      "epoch": 1.469387755102041,
+      "grad_norm": 0.46389341354370117,
+      "learning_rate": 0.00034716269868143956,
+      "loss": 0.2464,
+      "step": 90
+    },
+    {
+      "epoch": 1.469387755102041,
+      "eval_loss": 0.9267984628677368,
+      "eval_runtime": 18.2514,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 90
+    },
+    {
+      "epoch": 1.4857142857142858,
+      "grad_norm": 0.29597121477127075,
+      "learning_rate": 0.00034579372548428235,
+      "loss": 0.2307,
+      "step": 91
+    },
+    {
+      "epoch": 1.5020408163265306,
+      "grad_norm": 0.3392711877822876,
+      "learning_rate": 0.00034441001780493886,
+      "loss": 0.231,
+      "step": 92
+    },
+    {
+      "epoch": 1.5020408163265306,
+      "eval_loss": 0.9267009496688843,
+      "eval_runtime": 18.2179,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 92
+    },
+    {
+      "epoch": 1.5183673469387755,
+      "grad_norm": 0.2309531569480896,
+      "learning_rate": 0.00034301171548630063,
+      "loss": 0.2307,
+      "step": 93
+    },
+    {
+      "epoch": 1.5346938775510204,
+      "grad_norm": 0.28941744565963745,
+      "learning_rate": 0.0003415989598462506,
+      "loss": 0.2384,
+      "step": 94
+    },
+    {
+      "epoch": 1.5346938775510204,
+      "eval_loss": 0.9336121082305908,
+      "eval_runtime": 18.2184,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 94
+    },
+    {
+      "epoch": 1.5510204081632653,
+      "grad_norm": 0.22579389810562134,
+      "learning_rate": 0.00034017189366338034,
+      "loss": 0.1949,
+      "step": 95
+    },
+    {
+      "epoch": 1.5673469387755103,
+      "grad_norm": 0.2894729971885681,
+      "learning_rate": 0.000338730661162561,
+      "loss": 0.2348,
+      "step": 96
+    },
+    {
+      "epoch": 1.5673469387755103,
+      "eval_loss": 0.9432627558708191,
+      "eval_runtime": 18.2158,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 96
+    },
+    {
+      "epoch": 1.583673469387755,
+      "grad_norm": 0.24218647181987762,
+      "learning_rate": 0.00033727540800036683,
+      "loss": 0.2113,
+      "step": 97
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.2695946991443634,
+      "learning_rate": 0.0003358062812503548,
+      "loss": 0.2209,
+      "step": 98
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.9510765075683594,
+      "eval_runtime": 18.2181,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 98
+    },
+    {
+      "epoch": 1.6163265306122447,
+      "grad_norm": 0.27196425199508667,
+      "learning_rate": 0.00033432342938820086,
+      "loss": 0.2366,
+      "step": 99
+    },
+    {
+      "epoch": 1.6326530612244898,
+      "grad_norm": 0.2302471101284027,
+      "learning_rate": 0.0003328270022766941,
+      "loss": 0.2099,
+      "step": 100
+    },
+    {
+      "epoch": 1.6326530612244898,
+      "eval_loss": 0.9363111853599548,
+      "eval_runtime": 18.2175,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 100
+    },
+    {
+      "epoch": 1.6489795918367347,
+      "grad_norm": 0.24810455739498138,
+      "learning_rate": 0.0003313171511505913,
+      "loss": 0.2196,
+      "step": 101
+    },
+    {
+      "epoch": 1.6653061224489796,
+      "grad_norm": 0.25561368465423584,
+      "learning_rate": 0.0003297940286013326,
+      "loss": 0.253,
+      "step": 102
+    },
+    {
+      "epoch": 1.6653061224489796,
+      "eval_loss": 0.942488431930542,
+      "eval_runtime": 18.2068,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 102
+    },
+    {
+      "epoch": 1.6816326530612244,
+      "grad_norm": 0.22677375376224518,
+      "learning_rate": 0.0003282577885616198,
+      "loss": 0.1789,
+      "step": 103
+    },
+    {
+      "epoch": 1.6979591836734693,
+      "grad_norm": 0.26009589433670044,
+      "learning_rate": 0.0003267085862898594,
+      "loss": 0.2541,
+      "step": 104
+    },
+    {
+      "epoch": 1.6979591836734693,
+      "eval_loss": 0.9335595369338989,
+      "eval_runtime": 18.2507,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 104
+    },
+    {
+      "epoch": 1.7142857142857144,
+      "grad_norm": 0.20782141387462616,
+      "learning_rate": 0.0003251465783544716,
+      "loss": 0.2308,
+      "step": 105
+    },
+    {
+      "epoch": 1.730612244897959,
+      "grad_norm": 0.22768278419971466,
+      "learning_rate": 0.0003235719226180669,
+      "loss": 0.2354,
+      "step": 106
+    },
+    {
+      "epoch": 1.730612244897959,
+      "eval_loss": 0.9376662373542786,
+      "eval_runtime": 18.2284,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 106
+    },
+    {
+      "epoch": 1.7469387755102042,
+      "grad_norm": 0.23742002248764038,
+      "learning_rate": 0.00032198477822149185,
+      "loss": 0.2306,
+      "step": 107
+    },
+    {
+      "epoch": 1.763265306122449,
+      "grad_norm": 0.25688832998275757,
+      "learning_rate": 0.0003203853055677457,
+      "loss": 0.2816,
+      "step": 108
+    },
+    {
+      "epoch": 1.763265306122449,
+      "eval_loss": 0.9434496164321899,
+      "eval_runtime": 18.2263,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 108
+    },
+    {
+      "epoch": 1.779591836734694,
+      "grad_norm": 0.2690117359161377,
+      "learning_rate": 0.00031877366630576946,
+      "loss": 0.2013,
+      "step": 109
+    },
+    {
+      "epoch": 1.7959183673469388,
+      "grad_norm": 0.2317412942647934,
+      "learning_rate": 0.0003171500233141089,
+      "loss": 0.2398,
+      "step": 110
+    },
+    {
+      "epoch": 1.7959183673469388,
+      "eval_loss": 0.9329774975776672,
+      "eval_runtime": 18.2112,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 110
+    },
+    {
+      "epoch": 1.8122448979591836,
+      "grad_norm": 0.2262117713689804,
+      "learning_rate": 0.0003155145406844535,
+      "loss": 0.207,
+      "step": 111
+    },
+    {
+      "epoch": 1.8285714285714287,
+      "grad_norm": 0.22458741068840027,
+      "learning_rate": 0.00031386738370505293,
+      "loss": 0.2093,
+      "step": 112
+    },
+    {
+      "epoch": 1.8285714285714287,
+      "eval_loss": 0.9222925901412964,
+      "eval_runtime": 18.2333,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 112
+    },
+    {
+      "epoch": 1.8448979591836734,
+      "grad_norm": 0.24273625016212463,
+      "learning_rate": 0.0003122087188440118,
+      "loss": 0.2434,
+      "step": 113
+    },
+    {
+      "epoch": 1.8612244897959185,
+      "grad_norm": 0.2206314653158188,
+      "learning_rate": 0.0003105387137324663,
+      "loss": 0.2056,
+      "step": 114
+    },
+    {
+      "epoch": 1.8612244897959185,
+      "eval_loss": 0.9319095015525818,
+      "eval_runtime": 18.2327,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 114
+    },
+    {
+      "epoch": 1.8775510204081631,
+      "grad_norm": 0.2606954574584961,
+      "learning_rate": 0.0003088575371476426,
+      "loss": 0.2198,
+      "step": 115
+    },
+    {
+      "epoch": 1.8938775510204082,
+      "grad_norm": 0.23156337440013885,
+      "learning_rate": 0.0003071653589957993,
+      "loss": 0.1957,
+      "step": 116
+    },
+    {
+      "epoch": 1.8938775510204082,
+      "eval_loss": 0.9314719438552856,
+      "eval_runtime": 18.2411,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 116
+    },
+    {
+      "epoch": 1.910204081632653,
+      "grad_norm": 0.2253030389547348,
+      "learning_rate": 0.0003054623502950565,
+      "loss": 0.266,
+      "step": 117
+    },
+    {
+      "epoch": 1.926530612244898,
+      "grad_norm": 0.24510890245437622,
+      "learning_rate": 0.0003037486831581115,
+      "loss": 0.2493,
+      "step": 118
+    },
+    {
+      "epoch": 1.926530612244898,
+      "eval_loss": 0.926245927810669,
+      "eval_runtime": 18.2428,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 118
+    },
+    {
+      "epoch": 1.9428571428571428,
+      "grad_norm": 0.22151368856430054,
+      "learning_rate": 0.00030202453077484494,
+      "loss": 0.2666,
+      "step": 119
+    },
+    {
+      "epoch": 1.9591836734693877,
+      "grad_norm": 0.21714863181114197,
+      "learning_rate": 0.0003002900673948173,
+      "loss": 0.253,
+      "step": 120
+    },
+    {
+      "epoch": 1.9591836734693877,
+      "eval_loss": 0.9263309240341187,
+      "eval_runtime": 18.2196,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 120
+    },
+    {
+      "epoch": 1.9755102040816328,
+      "grad_norm": 0.2149583399295807,
+      "learning_rate": 0.0002985454683096583,
+      "loss": 0.2208,
+      "step": 121
+    },
+    {
+      "epoch": 1.9918367346938775,
+      "grad_norm": 0.23067210614681244,
+      "learning_rate": 0.000296790909835352,
+      "loss": 0.2225,
+      "step": 122
+    },
+    {
+      "epoch": 1.9918367346938775,
+      "eval_loss": 0.9324613809585571,
+      "eval_runtime": 18.2438,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 122
+    },
+    {
+      "epoch": 2.0081632653061225,
+      "grad_norm": 0.4510343074798584,
+      "learning_rate": 0.00029502656929441683,
+      "loss": 0.3179,
+      "step": 123
+    },
+    {
+      "epoch": 2.024489795918367,
+      "grad_norm": 0.24402837455272675,
+      "learning_rate": 0.000293252624997985,
+      "loss": 0.1501,
+      "step": 124
+    },
+    {
+      "epoch": 2.024489795918367,
+      "eval_loss": 0.9700677394866943,
+      "eval_runtime": 18.2313,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 124
+    },
+    {
+      "epoch": 2.0408163265306123,
+      "grad_norm": 0.31533220410346985,
+      "learning_rate": 0.00029146925622778176,
+      "loss": 0.1353,
+      "step": 125
+    },
+    {
+      "epoch": 2.057142857142857,
+      "grad_norm": 0.24323108792304993,
+      "learning_rate": 0.0002896766432180065,
+      "loss": 0.1297,
+      "step": 126
+    },
+    {
+      "epoch": 2.057142857142857,
+      "eval_loss": 0.9890408515930176,
+      "eval_runtime": 18.2073,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 126
+    },
+    {
+      "epoch": 2.073469387755102,
+      "grad_norm": 0.24305571615695953,
+      "learning_rate": 0.00028787496713711733,
+      "loss": 0.1389,
+      "step": 127
+    },
+    {
+      "epoch": 2.089795918367347,
+      "grad_norm": 0.21282273530960083,
+      "learning_rate": 0.0002860644100695218,
+      "loss": 0.0994,
+      "step": 128
+    },
+    {
+      "epoch": 2.089795918367347,
+      "eval_loss": 1.0023484230041504,
+      "eval_runtime": 18.2257,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 128
+    },
+    {
+      "epoch": 2.1061224489795918,
+      "grad_norm": 0.20902425050735474,
+      "learning_rate": 0.0002842451549971745,
+      "loss": 0.1195,
+      "step": 129
+    },
+    {
+      "epoch": 2.122448979591837,
+      "grad_norm": 0.21242493391036987,
+      "learning_rate": 0.0002824173857810842,
+      "loss": 0.1256,
+      "step": 130
+    },
+    {
+      "epoch": 2.122448979591837,
+      "eval_loss": 1.0186381340026855,
+      "eval_runtime": 18.1967,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 130
+    },
+    {
+      "epoch": 2.1387755102040815,
+      "grad_norm": 0.26445460319519043,
+      "learning_rate": 0.00028058128714273257,
+      "loss": 0.1268,
+      "step": 131
+    },
+    {
+      "epoch": 2.1551020408163266,
+      "grad_norm": 0.24118709564208984,
+      "learning_rate": 0.0002787370446454047,
+      "loss": 0.1192,
+      "step": 132
+    },
+    {
+      "epoch": 2.1551020408163266,
+      "eval_loss": 1.0201678276062012,
+      "eval_runtime": 18.2377,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 132
+    },
+    {
+      "epoch": 2.1714285714285713,
+      "grad_norm": 0.23629823327064514,
+      "learning_rate": 0.0002768848446754362,
+      "loss": 0.1114,
+      "step": 133
+    },
+    {
+      "epoch": 2.1877551020408164,
+      "grad_norm": 0.23851804435253143,
+      "learning_rate": 0.0002750248744233756,
+      "loss": 0.1455,
+      "step": 134
+    },
+    {
+      "epoch": 2.1877551020408164,
+      "eval_loss": 1.027251124382019,
+      "eval_runtime": 18.2111,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 134
+    },
+    {
+      "epoch": 2.204081632653061,
+      "grad_norm": 0.2159481793642044,
+      "learning_rate": 0.00027315732186506656,
+      "loss": 0.1036,
+      "step": 135
+    },
+    {
+      "epoch": 2.220408163265306,
+      "grad_norm": 0.2521194815635681,
+      "learning_rate": 0.0002712823757426501,
+      "loss": 0.1539,
+      "step": 136
+    },
+    {
+      "epoch": 2.220408163265306,
+      "eval_loss": 1.0327486991882324,
+      "eval_runtime": 18.2282,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 136
+    },
+    {
+      "epoch": 2.236734693877551,
+      "grad_norm": 0.23456163704395294,
+      "learning_rate": 0.00026940022554548993,
+      "loss": 0.14,
+      "step": 137
+    },
+    {
+      "epoch": 2.253061224489796,
+      "grad_norm": 0.25591009855270386,
+      "learning_rate": 0.0002675110614910212,
+      "loss": 0.1485,
+      "step": 138
+    },
+    {
+      "epoch": 2.253061224489796,
+      "eval_loss": 1.0385500192642212,
+      "eval_runtime": 18.1962,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 138
+    },
+    {
+      "epoch": 2.269387755102041,
+      "grad_norm": 0.2525387108325958,
+      "learning_rate": 0.00026561507450552704,
+      "loss": 0.1164,
+      "step": 139
+    },
+    {
+      "epoch": 2.2857142857142856,
+      "grad_norm": 0.25320008397102356,
+      "learning_rate": 0.00026371245620484255,
+      "loss": 0.1307,
+      "step": 140
+    },
+    {
+      "epoch": 2.2857142857142856,
+      "eval_loss": 1.028091311454773,
+      "eval_runtime": 18.2167,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 140
+    },
+    {
+      "epoch": 2.3020408163265307,
+      "grad_norm": 0.27121609449386597,
+      "learning_rate": 0.00026180339887498953,
+      "loss": 0.1475,
+      "step": 141
+    },
+    {
+      "epoch": 2.3183673469387753,
+      "grad_norm": 0.2442832738161087,
+      "learning_rate": 0.00025988809545274293,
+      "loss": 0.112,
+      "step": 142
+    },
+    {
+      "epoch": 2.3183673469387753,
+      "eval_loss": 0.9875463247299194,
+      "eval_runtime": 18.2364,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 142
+    },
+    {
+      "epoch": 2.3346938775510204,
+      "grad_norm": 0.23179620504379272,
+      "learning_rate": 0.0002579667395061322,
+      "loss": 0.1428,
+      "step": 143
+    },
+    {
+      "epoch": 2.351020408163265,
+      "grad_norm": 0.21805799007415771,
+      "learning_rate": 0.00025603952521487876,
+      "loss": 0.1157,
+      "step": 144
+    },
+    {
+      "epoch": 2.351020408163265,
+      "eval_loss": 0.9967271089553833,
+      "eval_runtime": 18.2289,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 144
+    },
+    {
+      "epoch": 2.36734693877551,
+      "grad_norm": 0.2379518747329712,
+      "learning_rate": 0.0002541066473507708,
+      "loss": 0.1368,
+      "step": 145
+    },
+    {
+      "epoch": 2.3836734693877553,
+      "grad_norm": 0.27792760729789734,
+      "learning_rate": 0.00025216830125797943,
+      "loss": 0.1369,
+      "step": 146
+    },
+    {
+      "epoch": 2.3836734693877553,
+      "eval_loss": 0.9868496656417847,
+      "eval_runtime": 18.2074,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 146
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.2362203449010849,
+      "learning_rate": 0.0002502246828333163,
+      "loss": 0.1275,
+      "step": 147
+    },
+    {
+      "epoch": 2.416326530612245,
+      "grad_norm": 0.27191162109375,
+      "learning_rate": 0.00024827598850643546,
+      "loss": 0.1582,
+      "step": 148
+    },
+    {
+      "epoch": 2.416326530612245,
+      "eval_loss": 0.962943434715271,
+      "eval_runtime": 18.2207,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 148
+    },
+    {
+      "epoch": 2.4326530612244897,
+      "grad_norm": 0.23347483575344086,
+      "learning_rate": 0.0002463224152199813,
+      "loss": 0.1309,
+      "step": 149
+    },
+    {
+      "epoch": 2.4489795918367347,
+      "grad_norm": 0.2181580364704132,
+      "learning_rate": 0.0002443641604096851,
+      "loss": 0.1261,
+      "step": 150
+    },
+    {
+      "epoch": 2.4489795918367347,
+      "eval_loss": 0.9731823205947876,
+      "eval_runtime": 18.2136,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 150
+    },
+    {
+      "epoch": 2.4653061224489794,
+      "grad_norm": 0.2505442202091217,
+      "learning_rate": 0.00024240142198441098,
+      "loss": 0.1335,
+      "step": 151
+    },
+    {
+      "epoch": 2.4816326530612245,
+      "grad_norm": 0.23964084684848785,
+      "learning_rate": 0.00024043439830615472,
+      "loss": 0.1249,
+      "step": 152
+    },
+    {
+      "epoch": 2.4816326530612245,
+      "eval_loss": 0.9946855306625366,
+      "eval_runtime": 18.2384,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 152
+    },
+    {
+      "epoch": 2.497959183673469,
+      "grad_norm": 0.2175896167755127,
+      "learning_rate": 0.00023846328816999658,
+      "loss": 0.101,
+      "step": 153
+    },
+    {
+      "epoch": 2.5142857142857142,
+      "grad_norm": 0.2787061929702759,
+      "learning_rate": 0.00023648829078401007,
+      "loss": 0.1421,
+      "step": 154
+    },
+    {
+      "epoch": 2.5142857142857142,
+      "eval_loss": 0.9933134317398071,
+      "eval_runtime": 18.2349,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 154
+    },
+    {
+      "epoch": 2.5306122448979593,
+      "grad_norm": 0.22405166923999786,
+      "learning_rate": 0.00023450960574912934,
+      "loss": 0.1237,
+      "step": 155
+    },
+    {
+      "epoch": 2.546938775510204,
+      "grad_norm": 0.25058048963546753,
+      "learning_rate": 0.00023252743303897675,
+      "loss": 0.1635,
+      "step": 156
+    },
+    {
+      "epoch": 2.546938775510204,
+      "eval_loss": 0.9882242679595947,
+      "eval_runtime": 18.2562,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 156
+    },
+    {
+      "epoch": 2.563265306122449,
+      "grad_norm": 0.3842501938343048,
+      "learning_rate": 0.00023054197297965264,
+      "loss": 0.1417,
+      "step": 157
+    },
+    {
+      "epoch": 2.5795918367346937,
+      "grad_norm": 0.22574357688426971,
+      "learning_rate": 0.00022855342622948976,
+      "loss": 0.1221,
+      "step": 158
+    },
+    {
+      "epoch": 2.5795918367346937,
+      "eval_loss": 1.0112800598144531,
+      "eval_runtime": 18.2537,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 158
+    },
+    {
+      "epoch": 2.595918367346939,
+      "grad_norm": 0.22760067880153656,
+      "learning_rate": 0.0002265619937587739,
+      "loss": 0.1319,
+      "step": 159
+    },
+    {
+      "epoch": 2.612244897959184,
+      "grad_norm": 0.25777938961982727,
+      "learning_rate": 0.00022456787682943285,
+      "loss": 0.149,
+      "step": 160
+    },
+    {
+      "epoch": 2.612244897959184,
+      "eval_loss": 1.0162885189056396,
+      "eval_runtime": 18.2574,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 160
+    },
+    {
+      "epoch": 2.6285714285714286,
+      "grad_norm": 0.23430375754833221,
+      "learning_rate": 0.00022257127697469632,
+      "loss": 0.1342,
+      "step": 161
+    },
+    {
+      "epoch": 2.644897959183673,
+      "grad_norm": 0.25381889939308167,
+      "learning_rate": 0.00022057239597872834,
+      "loss": 0.1558,
+      "step": 162
+    },
+    {
+      "epoch": 2.644897959183673,
+      "eval_loss": 1.0097148418426514,
+      "eval_runtime": 18.2572,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 162
+    },
+    {
+      "epoch": 2.6612244897959183,
+      "grad_norm": 0.22818055748939514,
+      "learning_rate": 0.0002185714358562336,
+      "loss": 0.1382,
+      "step": 163
+    },
+    {
+      "epoch": 2.6775510204081634,
+      "grad_norm": 0.21377477049827576,
+      "learning_rate": 0.00021656859883204167,
+      "loss": 0.1138,
+      "step": 164
+    },
+    {
+      "epoch": 2.6775510204081634,
+      "eval_loss": 1.0100345611572266,
+      "eval_runtime": 18.246,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 164
+    },
+    {
+      "epoch": 2.693877551020408,
+      "grad_norm": 0.20805473625659943,
+      "learning_rate": 0.00021456408732066918,
+      "loss": 0.1103,
+      "step": 165
+    },
+    {
+      "epoch": 2.710204081632653,
+      "grad_norm": 0.23223794996738434,
+      "learning_rate": 0.0002125581039058627,
+      "loss": 0.1229,
+      "step": 166
+    },
+    {
+      "epoch": 2.710204081632653,
+      "eval_loss": 1.0152215957641602,
+      "eval_runtime": 18.2339,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 166
+    },
+    {
+      "epoch": 2.726530612244898,
+      "grad_norm": 0.22925834357738495,
+      "learning_rate": 0.0002105508513201253,
+      "loss": 0.112,
+      "step": 167
+    },
+    {
+      "epoch": 2.742857142857143,
+      "grad_norm": 0.23402348160743713,
+      "learning_rate": 0.00020854253242422744,
+      "loss": 0.111,
+      "step": 168
+    },
+    {
+      "epoch": 2.742857142857143,
+      "eval_loss": 1.0134178400039673,
+      "eval_runtime": 18.2312,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 168
+    },
+    {
+      "epoch": 2.759183673469388,
+      "grad_norm": 0.21745020151138306,
+      "learning_rate": 0.00020653335018670478,
+      "loss": 0.1148,
+      "step": 169
+    },
+    {
+      "epoch": 2.7755102040816326,
+      "grad_norm": 0.23371770977973938,
+      "learning_rate": 0.00020452350766334595,
+      "loss": 0.1378,
+      "step": 170
+    },
+    {
+      "epoch": 2.7755102040816326,
+      "eval_loss": 1.008978247642517,
+      "eval_runtime": 18.2393,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 170
+    },
+    {
+      "epoch": 2.7918367346938773,
+      "grad_norm": 0.23733730614185333,
+      "learning_rate": 0.00020251320797667056,
+      "loss": 0.1362,
+      "step": 171
+    },
+    {
+      "epoch": 2.8081632653061224,
+      "grad_norm": 0.22156459093093872,
+      "learning_rate": 0.00020050265429540082,
+      "loss": 0.1197,
+      "step": 172
+    },
+    {
+      "epoch": 2.8081632653061224,
+      "eval_loss": 0.996375560760498,
+      "eval_runtime": 18.2572,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 172
+    },
+    {
+      "epoch": 2.8244897959183675,
+      "grad_norm": 0.21871179342269897,
+      "learning_rate": 0.00019849204981392863,
+      "loss": 0.1262,
+      "step": 173
+    },
+    {
+      "epoch": 2.840816326530612,
+      "grad_norm": 0.2262168973684311,
+      "learning_rate": 0.00019648159773178007,
+      "loss": 0.1329,
+      "step": 174
+    },
+    {
+      "epoch": 2.840816326530612,
+      "eval_loss": 0.9993283748626709,
+      "eval_runtime": 18.2401,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 174
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 0.24742639064788818,
+      "learning_rate": 0.00019447150123307915,
+      "loss": 0.1243,
+      "step": 175
+    },
+    {
+      "epoch": 2.873469387755102,
+      "grad_norm": 0.21919304132461548,
+      "learning_rate": 0.00019246196346601308,
+      "loss": 0.1218,
+      "step": 176
+    },
+    {
+      "epoch": 2.873469387755102,
+      "eval_loss": 1.0055768489837646,
+      "eval_runtime": 18.2419,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 176
+    },
+    {
+      "epoch": 2.889795918367347,
+      "grad_norm": 0.21882188320159912,
+      "learning_rate": 0.0001904531875223017,
+      "loss": 0.1347,
+      "step": 177
+    },
+    {
+      "epoch": 2.906122448979592,
+      "grad_norm": 0.24942266941070557,
+      "learning_rate": 0.00018844537641667176,
+      "loss": 0.1526,
+      "step": 178
+    },
+    {
+      "epoch": 2.906122448979592,
+      "eval_loss": 0.9967045783996582,
+      "eval_runtime": 18.2597,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 178
+    },
+    {
+      "epoch": 2.9224489795918367,
+      "grad_norm": 0.2336956411600113,
+      "learning_rate": 0.0001864387330663399,
+      "loss": 0.1352,
+      "step": 179
+    },
+    {
+      "epoch": 2.938775510204082,
+      "grad_norm": 0.2014392614364624,
+      "learning_rate": 0.0001844334602705047,
+      "loss": 0.1177,
+      "step": 180
+    },
+    {
+      "epoch": 2.938775510204082,
+      "eval_loss": 0.9912804365158081,
+      "eval_runtime": 18.2221,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 180
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 305,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 30,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.1779063035231334e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-180/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eac79da65aef3f639fd69fe9d54dd5e1ca8bfcbd1838c7de53d38cfdae9e20ab
+size 5624

checkpoints/checkpoint-240/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: /home/anon/AI-Models/LLM/Mistral-Small-24B-Instruct-2501/
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.14.0

checkpoints/checkpoint-240/adapter_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/anon/AI-Models/LLM/Mistral-Small-24B-Instruct-2501/",
+  "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 64,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "gate_proj",
+    "v_proj",
+    "q_proj",
+    "down_proj",
+    "up_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoints/checkpoint-240/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0879a46a85dc48dffe0439ebd81aeed6f468f47e56f31f8c69316528f90693d4
+size 739321784

checkpoints/checkpoint-240/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8f8f30ada439466a82d965e26710eacdb526a954cbcefacb72b86c0c7d294bd
+size 377514226

checkpoints/checkpoint-240/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a70e560cf0cb34b2fd66f93f7d8c05f0fafe9ec2eaf76fa01a0112e188f2076a
+size 14244

checkpoints/checkpoint-240/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:baf8413d64b5acdebf80d7fe1db4a7ba3c002b396bc77e2aed5acedef330752c
+size 1064

checkpoints/checkpoint-240/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,1026 @@

+{
+  "additional_special_tokens": [
+    "<unk>",
+    "<s>",
+    "</s>",
+    "[INST]",
+    "[/INST]",
+    "[AVAILABLE_TOOLS]",
+    "[/AVAILABLE_TOOLS]",
+    "[TOOL_RESULTS]",
+    "[/TOOL_RESULTS]",
+    "[TOOL_CALLS]",
+    "[IMG]",
+    "<pad>",
+    "[IMG_BREAK]",
+    "[IMG_END]",
+    "[PREFIX]",
+    "[MIDDLE]",
+    "[SUFFIX]",
+    "[SYSTEM_PROMPT]",
+    "[/SYSTEM_PROMPT]",
+    "[TOOL_CONTENT]",
+    "<SPECIAL_20>",
+    "<SPECIAL_21>",
+    "<SPECIAL_22>",
+    "<SPECIAL_23>",
+    "<SPECIAL_24>",
+    "<SPECIAL_25>",
+    "<SPECIAL_26>",
+    "<SPECIAL_27>",
+    "<SPECIAL_28>",
+    "<SPECIAL_29>",
+    "<SPECIAL_30>",
+    "<SPECIAL_31>",
+    "<SPECIAL_32>",
+    "<SPECIAL_33>",
+    "<SPECIAL_34>",
+    "<SPECIAL_35>",
+    "<SPECIAL_36>",
+    "<SPECIAL_37>",
+    "<SPECIAL_38>",
+    "<SPECIAL_39>",
+    "<SPECIAL_40>",
+    "<SPECIAL_41>",
+    "<SPECIAL_42>",
+    "<SPECIAL_43>",
+    "<SPECIAL_44>",
+    "<SPECIAL_45>",
+    "<SPECIAL_46>",
+    "<SPECIAL_47>",
+    "<SPECIAL_48>",
+    "<SPECIAL_49>",
+    "<SPECIAL_50>",
+    "<SPECIAL_51>",
+    "<SPECIAL_52>",
+    "<SPECIAL_53>",
+    "<SPECIAL_54>",
+    "<SPECIAL_55>",
+    "<SPECIAL_56>",
+    "<SPECIAL_57>",
+    "<SPECIAL_58>",
+    "<SPECIAL_59>",
+    "<SPECIAL_60>",
+    "<SPECIAL_61>",
+    "<SPECIAL_62>",
+    "<SPECIAL_63>",
+    "<SPECIAL_64>",
+    "<SPECIAL_65>",
+    "<SPECIAL_66>",
+    "<SPECIAL_67>",
+    "<SPECIAL_68>",
+    "<SPECIAL_69>",
+    "<SPECIAL_70>",
+    "<SPECIAL_71>",
+    "<SPECIAL_72>",
+    "<SPECIAL_73>",
+    "<SPECIAL_74>",
+    "<SPECIAL_75>",
+    "<SPECIAL_76>",
+    "<SPECIAL_77>",
+    "<SPECIAL_78>",
+    "<SPECIAL_79>",
+    "<SPECIAL_80>",
+    "<SPECIAL_81>",
+    "<SPECIAL_82>",
+    "<SPECIAL_83>",
+    "<SPECIAL_84>",
+    "<SPECIAL_85>",
+    "<SPECIAL_86>",
+    "<SPECIAL_87>",
+    "<SPECIAL_88>",
+    "<SPECIAL_89>",
+    "<SPECIAL_90>",
+    "<SPECIAL_91>",
+    "<SPECIAL_92>",
+    "<SPECIAL_93>",
+    "<SPECIAL_94>",
+    "<SPECIAL_95>",
+    "<SPECIAL_96>",
+    "<SPECIAL_97>",
+    "<SPECIAL_98>",
+    "<SPECIAL_99>",
+    "<SPECIAL_100>",
+    "<SPECIAL_101>",
+    "<SPECIAL_102>",
+    "<SPECIAL_103>",
+    "<SPECIAL_104>",
+    "<SPECIAL_105>",
+    "<SPECIAL_106>",
+    "<SPECIAL_107>",
+    "<SPECIAL_108>",
+    "<SPECIAL_109>",
+    "<SPECIAL_110>",
+    "<SPECIAL_111>",
+    "<SPECIAL_112>",
+    "<SPECIAL_113>",
+    "<SPECIAL_114>",
+    "<SPECIAL_115>",
+    "<SPECIAL_116>",
+    "<SPECIAL_117>",
+    "<SPECIAL_118>",
+    "<SPECIAL_119>",
+    "<SPECIAL_120>",
+    "<SPECIAL_121>",
+    "<SPECIAL_122>",
+    "<SPECIAL_123>",
+    "<SPECIAL_124>",
+    "<SPECIAL_125>",
+    "<SPECIAL_126>",
+    "<SPECIAL_127>",
+    "<SPECIAL_128>",
+    "<SPECIAL_129>",
+    "<SPECIAL_130>",
+    "<SPECIAL_131>",
+    "<SPECIAL_132>",
+    "<SPECIAL_133>",
+    "<SPECIAL_134>",
+    "<SPECIAL_135>",
+    "<SPECIAL_136>",
+    "<SPECIAL_137>",
+    "<SPECIAL_138>",
+    "<SPECIAL_139>",
+    "<SPECIAL_140>",
+    "<SPECIAL_141>",
+    "<SPECIAL_142>",
+    "<SPECIAL_143>",
+    "<SPECIAL_144>",
+    "<SPECIAL_145>",
+    "<SPECIAL_146>",
+    "<SPECIAL_147>",
+    "<SPECIAL_148>",
+    "<SPECIAL_149>",
+    "<SPECIAL_150>",
+    "<SPECIAL_151>",
+    "<SPECIAL_152>",
+    "<SPECIAL_153>",
+    "<SPECIAL_154>",
+    "<SPECIAL_155>",
+    "<SPECIAL_156>",
+    "<SPECIAL_157>",
+    "<SPECIAL_158>",
+    "<SPECIAL_159>",
+    "<SPECIAL_160>",
+    "<SPECIAL_161>",
+    "<SPECIAL_162>",
+    "<SPECIAL_163>",
+    "<SPECIAL_164>",
+    "<SPECIAL_165>",
+    "<SPECIAL_166>",
+    "<SPECIAL_167>",
+    "<SPECIAL_168>",
+    "<SPECIAL_169>",
+    "<SPECIAL_170>",
+    "<SPECIAL_171>",
+    "<SPECIAL_172>",
+    "<SPECIAL_173>",
+    "<SPECIAL_174>",
+    "<SPECIAL_175>",
+    "<SPECIAL_176>",
+    "<SPECIAL_177>",
+    "<SPECIAL_178>",
+    "<SPECIAL_179>",
+    "<SPECIAL_180>",
+    "<SPECIAL_181>",
+    "<SPECIAL_182>",
+    "<SPECIAL_183>",
+    "<SPECIAL_184>",
+    "<SPECIAL_185>",
+    "<SPECIAL_186>",
+    "<SPECIAL_187>",
+    "<SPECIAL_188>",
+    "<SPECIAL_189>",
+    "<SPECIAL_190>",
+    "<SPECIAL_191>",
+    "<SPECIAL_192>",
+    "<SPECIAL_193>",
+    "<SPECIAL_194>",
+    "<SPECIAL_195>",
+    "<SPECIAL_196>",
+    "<SPECIAL_197>",
+    "<SPECIAL_198>",
+    "<SPECIAL_199>",
+    "<SPECIAL_200>",
+    "<SPECIAL_201>",
+    "<SPECIAL_202>",
+    "<SPECIAL_203>",
+    "<SPECIAL_204>",
+    "<SPECIAL_205>",
+    "<SPECIAL_206>",
+    "<SPECIAL_207>",
+    "<SPECIAL_208>",
+    "<SPECIAL_209>",
+    "<SPECIAL_210>",
+    "<SPECIAL_211>",
+    "<SPECIAL_212>",
+    "<SPECIAL_213>",
+    "<SPECIAL_214>",
+    "<SPECIAL_215>",
+    "<SPECIAL_216>",
+    "<SPECIAL_217>",
+    "<SPECIAL_218>",
+    "<SPECIAL_219>",
+    "<SPECIAL_220>",
+    "<SPECIAL_221>",
+    "<SPECIAL_222>",
+    "<SPECIAL_223>",
+    "<SPECIAL_224>",
+    "<SPECIAL_225>",
+    "<SPECIAL_226>",
+    "<SPECIAL_227>",
+    "<SPECIAL_228>",
+    "<SPECIAL_229>",
+    "<SPECIAL_230>",
+    "<SPECIAL_231>",
+    "<SPECIAL_232>",
+    "<SPECIAL_233>",
+    "<SPECIAL_234>",
+    "<SPECIAL_235>",
+    "<SPECIAL_236>",
+    "<SPECIAL_237>",
+    "<SPECIAL_238>",
+    "<SPECIAL_239>",
+    "<SPECIAL_240>",
+    "<SPECIAL_241>",
+    "<SPECIAL_242>",
+    "<SPECIAL_243>",
+    "<SPECIAL_244>",
+    "<SPECIAL_245>",
+    "<SPECIAL_246>",
+    "<SPECIAL_247>",
+    "<SPECIAL_248>",
+    "<SPECIAL_249>",
+    "<SPECIAL_250>",
+    "<SPECIAL_251>",
+    "<SPECIAL_252>",
+    "<SPECIAL_253>",
+    "<SPECIAL_254>",
+    "<SPECIAL_255>",
+    "<SPECIAL_256>",
+    "<SPECIAL_257>",
+    "<SPECIAL_258>",
+    "<SPECIAL_259>",
+    "<SPECIAL_260>",
+    "<SPECIAL_261>",
+    "<SPECIAL_262>",
+    "<SPECIAL_263>",
+    "<SPECIAL_264>",
+    "<SPECIAL_265>",
+    "<SPECIAL_266>",
+    "<SPECIAL_267>",
+    "<SPECIAL_268>",
+    "<SPECIAL_269>",
+    "<SPECIAL_270>",
+    "<SPECIAL_271>",
+    "<SPECIAL_272>",
+    "<SPECIAL_273>",
+    "<SPECIAL_274>",
+    "<SPECIAL_275>",
+    "<SPECIAL_276>",
+    "<SPECIAL_277>",
+    "<SPECIAL_278>",
+    "<SPECIAL_279>",
+    "<SPECIAL_280>",
+    "<SPECIAL_281>",
+    "<SPECIAL_282>",
+    "<SPECIAL_283>",
+    "<SPECIAL_284>",
+    "<SPECIAL_285>",
+    "<SPECIAL_286>",
+    "<SPECIAL_287>",
+    "<SPECIAL_288>",
+    "<SPECIAL_289>",
+    "<SPECIAL_290>",
+    "<SPECIAL_291>",
+    "<SPECIAL_292>",
+    "<SPECIAL_293>",
+    "<SPECIAL_294>",
+    "<SPECIAL_295>",
+    "<SPECIAL_296>",
+    "<SPECIAL_297>",
+    "<SPECIAL_298>",
+    "<SPECIAL_299>",
+    "<SPECIAL_300>",
+    "<SPECIAL_301>",
+    "<SPECIAL_302>",
+    "<SPECIAL_303>",
+    "<SPECIAL_304>",
+    "<SPECIAL_305>",
+    "<SPECIAL_306>",
+    "<SPECIAL_307>",
+    "<SPECIAL_308>",
+    "<SPECIAL_309>",
+    "<SPECIAL_310>",
+    "<SPECIAL_311>",
+    "<SPECIAL_312>",
+    "<SPECIAL_313>",
+    "<SPECIAL_314>",
+    "<SPECIAL_315>",
+    "<SPECIAL_316>",
+    "<SPECIAL_317>",
+    "<SPECIAL_318>",
+    "<SPECIAL_319>",
+    "<SPECIAL_320>",
+    "<SPECIAL_321>",
+    "<SPECIAL_322>",
+    "<SPECIAL_323>",
+    "<SPECIAL_324>",
+    "<SPECIAL_325>",
+    "<SPECIAL_326>",
+    "<SPECIAL_327>",
+    "<SPECIAL_328>",
+    "<SPECIAL_329>",
+    "<SPECIAL_330>",
+    "<SPECIAL_331>",
+    "<SPECIAL_332>",
+    "<SPECIAL_333>",
+    "<SPECIAL_334>",
+    "<SPECIAL_335>",
+    "<SPECIAL_336>",
+    "<SPECIAL_337>",
+    "<SPECIAL_338>",
+    "<SPECIAL_339>",
+    "<SPECIAL_340>",
+    "<SPECIAL_341>",
+    "<SPECIAL_342>",
+    "<SPECIAL_343>",
+    "<SPECIAL_344>",
+    "<SPECIAL_345>",
+    "<SPECIAL_346>",
+    "<SPECIAL_347>",
+    "<SPECIAL_348>",
+    "<SPECIAL_349>",
+    "<SPECIAL_350>",
+    "<SPECIAL_351>",
+    "<SPECIAL_352>",
+    "<SPECIAL_353>",
+    "<SPECIAL_354>",
+    "<SPECIAL_355>",
+    "<SPECIAL_356>",
+    "<SPECIAL_357>",
+    "<SPECIAL_358>",
+    "<SPECIAL_359>",
+    "<SPECIAL_360>",
+    "<SPECIAL_361>",
+    "<SPECIAL_362>",
+    "<SPECIAL_363>",
+    "<SPECIAL_364>",
+    "<SPECIAL_365>",
+    "<SPECIAL_366>",
+    "<SPECIAL_367>",
+    "<SPECIAL_368>",
+    "<SPECIAL_369>",
+    "<SPECIAL_370>",
+    "<SPECIAL_371>",
+    "<SPECIAL_372>",
+    "<SPECIAL_373>",
+    "<SPECIAL_374>",
+    "<SPECIAL_375>",
+    "<SPECIAL_376>",
+    "<SPECIAL_377>",
+    "<SPECIAL_378>",
+    "<SPECIAL_379>",
+    "<SPECIAL_380>",
+    "<SPECIAL_381>",
+    "<SPECIAL_382>",
+    "<SPECIAL_383>",
+    "<SPECIAL_384>",
+    "<SPECIAL_385>",
+    "<SPECIAL_386>",
+    "<SPECIAL_387>",
+    "<SPECIAL_388>",
+    "<SPECIAL_389>",
+    "<SPECIAL_390>",
+    "<SPECIAL_391>",
+    "<SPECIAL_392>",
+    "<SPECIAL_393>",
+    "<SPECIAL_394>",
+    "<SPECIAL_395>",
+    "<SPECIAL_396>",
+    "<SPECIAL_397>",
+    "<SPECIAL_398>",
+    "<SPECIAL_399>",
+    "<SPECIAL_400>",
+    "<SPECIAL_401>",
+    "<SPECIAL_402>",
+    "<SPECIAL_403>",
+    "<SPECIAL_404>",
+    "<SPECIAL_405>",
+    "<SPECIAL_406>",
+    "<SPECIAL_407>",
+    "<SPECIAL_408>",
+    "<SPECIAL_409>",
+    "<SPECIAL_410>",
+    "<SPECIAL_411>",
+    "<SPECIAL_412>",
+    "<SPECIAL_413>",
+    "<SPECIAL_414>",
+    "<SPECIAL_415>",
+    "<SPECIAL_416>",
+    "<SPECIAL_417>",
+    "<SPECIAL_418>",
+    "<SPECIAL_419>",
+    "<SPECIAL_420>",
+    "<SPECIAL_421>",
+    "<SPECIAL_422>",
+    "<SPECIAL_423>",
+    "<SPECIAL_424>",
+    "<SPECIAL_425>",
+    "<SPECIAL_426>",
+    "<SPECIAL_427>",
+    "<SPECIAL_428>",
+    "<SPECIAL_429>",
+    "<SPECIAL_430>",
+    "<SPECIAL_431>",
+    "<SPECIAL_432>",
+    "<SPECIAL_433>",
+    "<SPECIAL_434>",
+    "<SPECIAL_435>",
+    "<SPECIAL_436>",
+    "<SPECIAL_437>",
+    "<SPECIAL_438>",
+    "<SPECIAL_439>",
+    "<SPECIAL_440>",
+    "<SPECIAL_441>",
+    "<SPECIAL_442>",
+    "<SPECIAL_443>",
+    "<SPECIAL_444>",
+    "<SPECIAL_445>",
+    "<SPECIAL_446>",
+    "<SPECIAL_447>",
+    "<SPECIAL_448>",
+    "<SPECIAL_449>",
+    "<SPECIAL_450>",
+    "<SPECIAL_451>",
+    "<SPECIAL_452>",
+    "<SPECIAL_453>",
+    "<SPECIAL_454>",
+    "<SPECIAL_455>",
+    "<SPECIAL_456>",
+    "<SPECIAL_457>",
+    "<SPECIAL_458>",
+    "<SPECIAL_459>",
+    "<SPECIAL_460>",
+    "<SPECIAL_461>",
+    "<SPECIAL_462>",
+    "<SPECIAL_463>",
+    "<SPECIAL_464>",
+    "<SPECIAL_465>",
+    "<SPECIAL_466>",
+    "<SPECIAL_467>",
+    "<SPECIAL_468>",
+    "<SPECIAL_469>",
+    "<SPECIAL_470>",
+    "<SPECIAL_471>",
+    "<SPECIAL_472>",
+    "<SPECIAL_473>",
+    "<SPECIAL_474>",
+    "<SPECIAL_475>",
+    "<SPECIAL_476>",
+    "<SPECIAL_477>",
+    "<SPECIAL_478>",
+    "<SPECIAL_479>",
+    "<SPECIAL_480>",
+    "<SPECIAL_481>",
+    "<SPECIAL_482>",
+    "<SPECIAL_483>",
+    "<SPECIAL_484>",
+    "<SPECIAL_485>",
+    "<SPECIAL_486>",
+    "<SPECIAL_487>",
+    "<SPECIAL_488>",
+    "<SPECIAL_489>",
+    "<SPECIAL_490>",
+    "<SPECIAL_491>",
+    "<SPECIAL_492>",
+    "<SPECIAL_493>",
+    "<SPECIAL_494>",
+    "<SPECIAL_495>",
+    "<SPECIAL_496>",
+    "<SPECIAL_497>",
+    "<SPECIAL_498>",
+    "<SPECIAL_499>",
+    "<SPECIAL_500>",
+    "<SPECIAL_501>",
+    "<SPECIAL_502>",
+    "<SPECIAL_503>",
+    "<SPECIAL_504>",
+    "<SPECIAL_505>",
+    "<SPECIAL_506>",
+    "<SPECIAL_507>",
+    "<SPECIAL_508>",
+    "<SPECIAL_509>",
+    "<SPECIAL_510>",
+    "<SPECIAL_511>",
+    "<SPECIAL_512>",
+    "<SPECIAL_513>",
+    "<SPECIAL_514>",
+    "<SPECIAL_515>",
+    "<SPECIAL_516>",
+    "<SPECIAL_517>",
+    "<SPECIAL_518>",
+    "<SPECIAL_519>",
+    "<SPECIAL_520>",
+    "<SPECIAL_521>",
+    "<SPECIAL_522>",
+    "<SPECIAL_523>",
+    "<SPECIAL_524>",
+    "<SPECIAL_525>",
+    "<SPECIAL_526>",
+    "<SPECIAL_527>",
+    "<SPECIAL_528>",
+    "<SPECIAL_529>",
+    "<SPECIAL_530>",
+    "<SPECIAL_531>",
+    "<SPECIAL_532>",
+    "<SPECIAL_533>",
+    "<SPECIAL_534>",
+    "<SPECIAL_535>",
+    "<SPECIAL_536>",
+    "<SPECIAL_537>",
+    "<SPECIAL_538>",
+    "<SPECIAL_539>",
+    "<SPECIAL_540>",
+    "<SPECIAL_541>",
+    "<SPECIAL_542>",
+    "<SPECIAL_543>",
+    "<SPECIAL_544>",
+    "<SPECIAL_545>",
+    "<SPECIAL_546>",
+    "<SPECIAL_547>",
+    "<SPECIAL_548>",
+    "<SPECIAL_549>",
+    "<SPECIAL_550>",
+    "<SPECIAL_551>",
+    "<SPECIAL_552>",
+    "<SPECIAL_553>",
+    "<SPECIAL_554>",
+    "<SPECIAL_555>",
+    "<SPECIAL_556>",
+    "<SPECIAL_557>",
+    "<SPECIAL_558>",
+    "<SPECIAL_559>",
+    "<SPECIAL_560>",
+    "<SPECIAL_561>",
+    "<SPECIAL_562>",
+    "<SPECIAL_563>",
+    "<SPECIAL_564>",
+    "<SPECIAL_565>",
+    "<SPECIAL_566>",
+    "<SPECIAL_567>",
+    "<SPECIAL_568>",
+    "<SPECIAL_569>",
+    "<SPECIAL_570>",
+    "<SPECIAL_571>",
+    "<SPECIAL_572>",
+    "<SPECIAL_573>",
+    "<SPECIAL_574>",
+    "<SPECIAL_575>",
+    "<SPECIAL_576>",
+    "<SPECIAL_577>",
+    "<SPECIAL_578>",
+    "<SPECIAL_579>",
+    "<SPECIAL_580>",
+    "<SPECIAL_581>",
+    "<SPECIAL_582>",
+    "<SPECIAL_583>",
+    "<SPECIAL_584>",
+    "<SPECIAL_585>",
+    "<SPECIAL_586>",
+    "<SPECIAL_587>",
+    "<SPECIAL_588>",
+    "<SPECIAL_589>",
+    "<SPECIAL_590>",
+    "<SPECIAL_591>",
+    "<SPECIAL_592>",
+    "<SPECIAL_593>",
+    "<SPECIAL_594>",
+    "<SPECIAL_595>",
+    "<SPECIAL_596>",
+    "<SPECIAL_597>",
+    "<SPECIAL_598>",
+    "<SPECIAL_599>",
+    "<SPECIAL_600>",
+    "<SPECIAL_601>",
+    "<SPECIAL_602>",
+    "<SPECIAL_603>",
+    "<SPECIAL_604>",
+    "<SPECIAL_605>",
+    "<SPECIAL_606>",
+    "<SPECIAL_607>",
+    "<SPECIAL_608>",
+    "<SPECIAL_609>",
+    "<SPECIAL_610>",
+    "<SPECIAL_611>",
+    "<SPECIAL_612>",
+    "<SPECIAL_613>",
+    "<SPECIAL_614>",
+    "<SPECIAL_615>",
+    "<SPECIAL_616>",
+    "<SPECIAL_617>",
+    "<SPECIAL_618>",
+    "<SPECIAL_619>",
+    "<SPECIAL_620>",
+    "<SPECIAL_621>",
+    "<SPECIAL_622>",
+    "<SPECIAL_623>",
+    "<SPECIAL_624>",
+    "<SPECIAL_625>",
+    "<SPECIAL_626>",
+    "<SPECIAL_627>",
+    "<SPECIAL_628>",
+    "<SPECIAL_629>",
+    "<SPECIAL_630>",
+    "<SPECIAL_631>",
+    "<SPECIAL_632>",
+    "<SPECIAL_633>",
+    "<SPECIAL_634>",
+    "<SPECIAL_635>",
+    "<SPECIAL_636>",
+    "<SPECIAL_637>",
+    "<SPECIAL_638>",
+    "<SPECIAL_639>",
+    "<SPECIAL_640>",
+    "<SPECIAL_641>",
+    "<SPECIAL_642>",
+    "<SPECIAL_643>",
+    "<SPECIAL_644>",
+    "<SPECIAL_645>",
+    "<SPECIAL_646>",
+    "<SPECIAL_647>",
+    "<SPECIAL_648>",
+    "<SPECIAL_649>",
+    "<SPECIAL_650>",
+    "<SPECIAL_651>",
+    "<SPECIAL_652>",
+    "<SPECIAL_653>",
+    "<SPECIAL_654>",
+    "<SPECIAL_655>",
+    "<SPECIAL_656>",
+    "<SPECIAL_657>",
+    "<SPECIAL_658>",
+    "<SPECIAL_659>",
+    "<SPECIAL_660>",
+    "<SPECIAL_661>",
+    "<SPECIAL_662>",
+    "<SPECIAL_663>",
+    "<SPECIAL_664>",
+    "<SPECIAL_665>",
+    "<SPECIAL_666>",
+    "<SPECIAL_667>",
+    "<SPECIAL_668>",
+    "<SPECIAL_669>",
+    "<SPECIAL_670>",
+    "<SPECIAL_671>",
+    "<SPECIAL_672>",
+    "<SPECIAL_673>",
+    "<SPECIAL_674>",
+    "<SPECIAL_675>",
+    "<SPECIAL_676>",
+    "<SPECIAL_677>",
+    "<SPECIAL_678>",
+    "<SPECIAL_679>",
+    "<SPECIAL_680>",
+    "<SPECIAL_681>",
+    "<SPECIAL_682>",
+    "<SPECIAL_683>",
+    "<SPECIAL_684>",
+    "<SPECIAL_685>",
+    "<SPECIAL_686>",
+    "<SPECIAL_687>",
+    "<SPECIAL_688>",
+    "<SPECIAL_689>",
+    "<SPECIAL_690>",
+    "<SPECIAL_691>",
+    "<SPECIAL_692>",
+    "<SPECIAL_693>",
+    "<SPECIAL_694>",
+    "<SPECIAL_695>",
+    "<SPECIAL_696>",
+    "<SPECIAL_697>",
+    "<SPECIAL_698>",
+    "<SPECIAL_699>",
+    "<SPECIAL_700>",
+    "<SPECIAL_701>",
+    "<SPECIAL_702>",
+    "<SPECIAL_703>",
+    "<SPECIAL_704>",
+    "<SPECIAL_705>",
+    "<SPECIAL_706>",
+    "<SPECIAL_707>",
+    "<SPECIAL_708>",
+    "<SPECIAL_709>",
+    "<SPECIAL_710>",
+    "<SPECIAL_711>",
+    "<SPECIAL_712>",
+    "<SPECIAL_713>",
+    "<SPECIAL_714>",
+    "<SPECIAL_715>",
+    "<SPECIAL_716>",
+    "<SPECIAL_717>",
+    "<SPECIAL_718>",
+    "<SPECIAL_719>",
+    "<SPECIAL_720>",
+    "<SPECIAL_721>",
+    "<SPECIAL_722>",
+    "<SPECIAL_723>",
+    "<SPECIAL_724>",
+    "<SPECIAL_725>",
+    "<SPECIAL_726>",
+    "<SPECIAL_727>",
+    "<SPECIAL_728>",
+    "<SPECIAL_729>",
+    "<SPECIAL_730>",
+    "<SPECIAL_731>",
+    "<SPECIAL_732>",
+    "<SPECIAL_733>",
+    "<SPECIAL_734>",
+    "<SPECIAL_735>",
+    "<SPECIAL_736>",
+    "<SPECIAL_737>",
+    "<SPECIAL_738>",
+    "<SPECIAL_739>",
+    "<SPECIAL_740>",
+    "<SPECIAL_741>",
+    "<SPECIAL_742>",
+    "<SPECIAL_743>",
+    "<SPECIAL_744>",
+    "<SPECIAL_745>",
+    "<SPECIAL_746>",
+    "<SPECIAL_747>",
+    "<SPECIAL_748>",
+    "<SPECIAL_749>",
+    "<SPECIAL_750>",
+    "<SPECIAL_751>",
+    "<SPECIAL_752>",
+    "<SPECIAL_753>",
+    "<SPECIAL_754>",
+    "<SPECIAL_755>",
+    "<SPECIAL_756>",
+    "<SPECIAL_757>",
+    "<SPECIAL_758>",
+    "<SPECIAL_759>",
+    "<SPECIAL_760>",
+    "<SPECIAL_761>",
+    "<SPECIAL_762>",
+    "<SPECIAL_763>",
+    "<SPECIAL_764>",
+    "<SPECIAL_765>",
+    "<SPECIAL_766>",
+    "<SPECIAL_767>",
+    "<SPECIAL_768>",
+    "<SPECIAL_769>",
+    "<SPECIAL_770>",
+    "<SPECIAL_771>",
+    "<SPECIAL_772>",
+    "<SPECIAL_773>",
+    "<SPECIAL_774>",
+    "<SPECIAL_775>",
+    "<SPECIAL_776>",
+    "<SPECIAL_777>",
+    "<SPECIAL_778>",
+    "<SPECIAL_779>",
+    "<SPECIAL_780>",
+    "<SPECIAL_781>",
+    "<SPECIAL_782>",
+    "<SPECIAL_783>",
+    "<SPECIAL_784>",
+    "<SPECIAL_785>",
+    "<SPECIAL_786>",
+    "<SPECIAL_787>",
+    "<SPECIAL_788>",
+    "<SPECIAL_789>",
+    "<SPECIAL_790>",
+    "<SPECIAL_791>",
+    "<SPECIAL_792>",
+    "<SPECIAL_793>",
+    "<SPECIAL_794>",
+    "<SPECIAL_795>",
+    "<SPECIAL_796>",
+    "<SPECIAL_797>",
+    "<SPECIAL_798>",
+    "<SPECIAL_799>",
+    "<SPECIAL_800>",
+    "<SPECIAL_801>",
+    "<SPECIAL_802>",
+    "<SPECIAL_803>",
+    "<SPECIAL_804>",
+    "<SPECIAL_805>",
+    "<SPECIAL_806>",
+    "<SPECIAL_807>",
+    "<SPECIAL_808>",
+    "<SPECIAL_809>",
+    "<SPECIAL_810>",
+    "<SPECIAL_811>",
+    "<SPECIAL_812>",
+    "<SPECIAL_813>",
+    "<SPECIAL_814>",
+    "<SPECIAL_815>",
+    "<SPECIAL_816>",
+    "<SPECIAL_817>",
+    "<SPECIAL_818>",
+    "<SPECIAL_819>",
+    "<SPECIAL_820>",
+    "<SPECIAL_821>",
+    "<SPECIAL_822>",
+    "<SPECIAL_823>",
+    "<SPECIAL_824>",
+    "<SPECIAL_825>",
+    "<SPECIAL_826>",
+    "<SPECIAL_827>",
+    "<SPECIAL_828>",
+    "<SPECIAL_829>",
+    "<SPECIAL_830>",
+    "<SPECIAL_831>",
+    "<SPECIAL_832>",
+    "<SPECIAL_833>",
+    "<SPECIAL_834>",
+    "<SPECIAL_835>",
+    "<SPECIAL_836>",
+    "<SPECIAL_837>",
+    "<SPECIAL_838>",
+    "<SPECIAL_839>",
+    "<SPECIAL_840>",
+    "<SPECIAL_841>",
+    "<SPECIAL_842>",
+    "<SPECIAL_843>",
+    "<SPECIAL_844>",
+    "<SPECIAL_845>",
+    "<SPECIAL_846>",
+    "<SPECIAL_847>",
+    "<SPECIAL_848>",
+    "<SPECIAL_849>",
+    "<SPECIAL_850>",
+    "<SPECIAL_851>",
+    "<SPECIAL_852>",
+    "<SPECIAL_853>",
+    "<SPECIAL_854>",
+    "<SPECIAL_855>",
+    "<SPECIAL_856>",
+    "<SPECIAL_857>",
+    "<SPECIAL_858>",
+    "<SPECIAL_859>",
+    "<SPECIAL_860>",
+    "<SPECIAL_861>",
+    "<SPECIAL_862>",
+    "<SPECIAL_863>",
+    "<SPECIAL_864>",
+    "<SPECIAL_865>",
+    "<SPECIAL_866>",
+    "<SPECIAL_867>",
+    "<SPECIAL_868>",
+    "<SPECIAL_869>",
+    "<SPECIAL_870>",
+    "<SPECIAL_871>",
+    "<SPECIAL_872>",
+    "<SPECIAL_873>",
+    "<SPECIAL_874>",
+    "<SPECIAL_875>",
+    "<SPECIAL_876>",
+    "<SPECIAL_877>",
+    "<SPECIAL_878>",
+    "<SPECIAL_879>",
+    "<SPECIAL_880>",
+    "<SPECIAL_881>",
+    "<SPECIAL_882>",
+    "<SPECIAL_883>",
+    "<SPECIAL_884>",
+    "<SPECIAL_885>",
+    "<SPECIAL_886>",
+    "<SPECIAL_887>",
+    "<SPECIAL_888>",
+    "<SPECIAL_889>",
+    "<SPECIAL_890>",
+    "<SPECIAL_891>",
+    "<SPECIAL_892>",
+    "<SPECIAL_893>",
+    "<SPECIAL_894>",
+    "<SPECIAL_895>",
+    "<SPECIAL_896>",
+    "<SPECIAL_897>",
+    "<SPECIAL_898>",
+    "<SPECIAL_899>",
+    "<SPECIAL_900>",
+    "<SPECIAL_901>",
+    "<SPECIAL_902>",
+    "<SPECIAL_903>",
+    "<SPECIAL_904>",
+    "<SPECIAL_905>",
+    "<SPECIAL_906>",
+    "<SPECIAL_907>",
+    "<SPECIAL_908>",
+    "<SPECIAL_909>",
+    "<SPECIAL_910>",
+    "<SPECIAL_911>",
+    "<SPECIAL_912>",
+    "<SPECIAL_913>",
+    "<SPECIAL_914>",
+    "<SPECIAL_915>",
+    "<SPECIAL_916>",
+    "<SPECIAL_917>",
+    "<SPECIAL_918>",
+    "<SPECIAL_919>",
+    "<SPECIAL_920>",
+    "<SPECIAL_921>",
+    "<SPECIAL_922>",
+    "<SPECIAL_923>",
+    "<SPECIAL_924>",
+    "<SPECIAL_925>",
+    "<SPECIAL_926>",
+    "<SPECIAL_927>",
+    "<SPECIAL_928>",
+    "<SPECIAL_929>",
+    "<SPECIAL_930>",
+    "<SPECIAL_931>",
+    "<SPECIAL_932>",
+    "<SPECIAL_933>",
+    "<SPECIAL_934>",
+    "<SPECIAL_935>",
+    "<SPECIAL_936>",
+    "<SPECIAL_937>",
+    "<SPECIAL_938>",
+    "<SPECIAL_939>",
+    "<SPECIAL_940>",
+    "<SPECIAL_941>",
+    "<SPECIAL_942>",
+    "<SPECIAL_943>",
+    "<SPECIAL_944>",
+    "<SPECIAL_945>",
+    "<SPECIAL_946>",
+    "<SPECIAL_947>",
+    "<SPECIAL_948>",
+    "<SPECIAL_949>",
+    "<SPECIAL_950>",
+    "<SPECIAL_951>",
+    "<SPECIAL_952>",
+    "<SPECIAL_953>",
+    "<SPECIAL_954>",
+    "<SPECIAL_955>",
+    "<SPECIAL_956>",
+    "<SPECIAL_957>",
+    "<SPECIAL_958>",
+    "<SPECIAL_959>",
+    "<SPECIAL_960>",
+    "<SPECIAL_961>",
+    "<SPECIAL_962>",
+    "<SPECIAL_963>",
+    "<SPECIAL_964>",
+    "<SPECIAL_965>",
+    "<SPECIAL_966>",
+    "<SPECIAL_967>",
+    "<SPECIAL_968>",
+    "<SPECIAL_969>",
+    "<SPECIAL_970>",
+    "<SPECIAL_971>",
+    "<SPECIAL_972>",
+    "<SPECIAL_973>",
+    "<SPECIAL_974>",
+    "<SPECIAL_975>",
+    "<SPECIAL_976>",
+    "<SPECIAL_977>",
+    "<SPECIAL_978>",
+    "<SPECIAL_979>",
+    "<SPECIAL_980>",
+    "<SPECIAL_981>",
+    "<SPECIAL_982>",
+    "<SPECIAL_983>",
+    "<SPECIAL_984>",
+    "<SPECIAL_985>",
+    "<SPECIAL_986>",
+    "<SPECIAL_987>",
+    "<SPECIAL_988>",
+    "<SPECIAL_989>",
+    "<SPECIAL_990>",
+    "<SPECIAL_991>",
+    "<SPECIAL_992>",
+    "<SPECIAL_993>",
+    "<SPECIAL_994>",
+    "<SPECIAL_995>",
+    "<SPECIAL_996>",
+    "<SPECIAL_997>",
+    "<SPECIAL_998>",
+    "<SPECIAL_999>"
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoints/checkpoint-240/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b76085f9923309d873994d444989f7eb6ec074b06f25b58f1e8d7b7741070949
+size 17078037

checkpoints/checkpoint-240/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-240/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2697 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.926530612244898,
+  "eval_steps": 2,
+  "global_step": 240,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_loss": 1.2313029766082764,
+      "eval_runtime": 18.2352,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 0
+    },
+    {
+      "epoch": 0.0163265306122449,
+      "grad_norm": 0.37113556265830994,
+      "learning_rate": 2.5e-05,
+      "loss": 0.4085,
+      "step": 1
+    },
+    {
+      "epoch": 0.0326530612244898,
+      "grad_norm": 0.35803329944610596,
+      "learning_rate": 5e-05,
+      "loss": 0.3876,
+      "step": 2
+    },
+    {
+      "epoch": 0.0326530612244898,
+      "eval_loss": 1.2231345176696777,
+      "eval_runtime": 18.2243,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 2
+    },
+    {
+      "epoch": 0.04897959183673469,
+      "grad_norm": 0.3112759590148926,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.3946,
+      "step": 3
+    },
+    {
+      "epoch": 0.0653061224489796,
+      "grad_norm": 0.2448713332414627,
+      "learning_rate": 0.0001,
+      "loss": 0.4363,
+      "step": 4
+    },
+    {
+      "epoch": 0.0653061224489796,
+      "eval_loss": 1.1564743518829346,
+      "eval_runtime": 18.253,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 4
+    },
+    {
+      "epoch": 0.08163265306122448,
+      "grad_norm": 0.2955642342567444,
+      "learning_rate": 0.000125,
+      "loss": 0.4394,
+      "step": 5
+    },
+    {
+      "epoch": 0.09795918367346938,
+      "grad_norm": 0.41399946808815,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.4902,
+      "step": 6
+    },
+    {
+      "epoch": 0.09795918367346938,
+      "eval_loss": 1.1353044509887695,
+      "eval_runtime": 18.2664,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 6
+    },
+    {
+      "epoch": 0.11428571428571428,
+      "grad_norm": 0.2643347978591919,
+      "learning_rate": 0.000175,
+      "loss": 0.3528,
+      "step": 7
+    },
+    {
+      "epoch": 0.1306122448979592,
+      "grad_norm": 0.21472330391407013,
+      "learning_rate": 0.0002,
+      "loss": 0.357,
+      "step": 8
+    },
+    {
+      "epoch": 0.1306122448979592,
+      "eval_loss": 1.1218546628952026,
+      "eval_runtime": 18.2139,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 8
+    },
+    {
+      "epoch": 0.1469387755102041,
+      "grad_norm": 0.23261462152004242,
+      "learning_rate": 0.00022500000000000002,
+      "loss": 0.3924,
+      "step": 9
+    },
+    {
+      "epoch": 0.16326530612244897,
+      "grad_norm": 0.18365171551704407,
+      "learning_rate": 0.00025,
+      "loss": 0.283,
+      "step": 10
+    },
+    {
+      "epoch": 0.16326530612244897,
+      "eval_loss": 1.1094393730163574,
+      "eval_runtime": 18.249,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 10
+    },
+    {
+      "epoch": 0.17959183673469387,
+      "grad_norm": 0.20431634783744812,
+      "learning_rate": 0.000275,
+      "loss": 0.3178,
+      "step": 11
+    },
+    {
+      "epoch": 0.19591836734693877,
+      "grad_norm": 0.2033773809671402,
+      "learning_rate": 0.00030000000000000003,
+      "loss": 0.3366,
+      "step": 12
+    },
+    {
+      "epoch": 0.19591836734693877,
+      "eval_loss": 1.1021316051483154,
+      "eval_runtime": 18.2562,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 12
+    },
+    {
+      "epoch": 0.21224489795918366,
+      "grad_norm": 0.27416911721229553,
+      "learning_rate": 0.00032500000000000004,
+      "loss": 0.3367,
+      "step": 13
+    },
+    {
+      "epoch": 0.22857142857142856,
+      "grad_norm": 0.32283130288124084,
+      "learning_rate": 0.00035,
+      "loss": 0.3364,
+      "step": 14
+    },
+    {
+      "epoch": 0.22857142857142856,
+      "eval_loss": 1.0523244142532349,
+      "eval_runtime": 18.2347,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 14
+    },
+    {
+      "epoch": 0.24489795918367346,
+      "grad_norm": 0.21469368040561676,
+      "learning_rate": 0.000375,
+      "loss": 0.3496,
+      "step": 15
+    },
+    {
+      "epoch": 0.2612244897959184,
+      "grad_norm": 0.19361759722232819,
+      "learning_rate": 0.0004,
+      "loss": 0.2961,
+      "step": 16
+    },
+    {
+      "epoch": 0.2612244897959184,
+      "eval_loss": 1.0401124954223633,
+      "eval_runtime": 18.2288,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 16
+    },
+    {
+      "epoch": 0.27755102040816326,
+      "grad_norm": 0.1797463297843933,
+      "learning_rate": 0.0004,
+      "loss": 0.3016,
+      "step": 17
+    },
+    {
+      "epoch": 0.2938775510204082,
+      "grad_norm": 0.28122591972351074,
+      "learning_rate": 0.0004,
+      "loss": 0.3656,
+      "step": 18
+    },
+    {
+      "epoch": 0.2938775510204082,
+      "eval_loss": 1.0228931903839111,
+      "eval_runtime": 18.2429,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 18
+    },
+    {
+      "epoch": 0.31020408163265306,
+      "grad_norm": 0.227556511759758,
+      "learning_rate": 0.0004,
+      "loss": 0.3246,
+      "step": 19
+    },
+    {
+      "epoch": 0.32653061224489793,
+      "grad_norm": 0.211012601852417,
+      "learning_rate": 0.0004,
+      "loss": 0.3453,
+      "step": 20
+    },
+    {
+      "epoch": 0.32653061224489793,
+      "eval_loss": 1.017521858215332,
+      "eval_runtime": 18.2213,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 20
+    },
+    {
+      "epoch": 0.34285714285714286,
+      "grad_norm": 0.20422972738742828,
+      "learning_rate": 0.0004,
+      "loss": 0.3258,
+      "step": 21
+    },
+    {
+      "epoch": 0.35918367346938773,
+      "grad_norm": 0.206649512052536,
+      "learning_rate": 0.0004,
+      "loss": 0.3248,
+      "step": 22
+    },
+    {
+      "epoch": 0.35918367346938773,
+      "eval_loss": 0.9992413520812988,
+      "eval_runtime": 18.249,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 22
+    },
+    {
+      "epoch": 0.37551020408163266,
+      "grad_norm": 0.19837401807308197,
+      "learning_rate": 0.0004,
+      "loss": 0.3181,
+      "step": 23
+    },
+    {
+      "epoch": 0.39183673469387753,
+      "grad_norm": 0.20325997471809387,
+      "learning_rate": 0.0004,
+      "loss": 0.2826,
+      "step": 24
+    },
+    {
+      "epoch": 0.39183673469387753,
+      "eval_loss": 0.9943413734436035,
+      "eval_runtime": 18.2482,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 24
+    },
+    {
+      "epoch": 0.40816326530612246,
+      "grad_norm": 0.3371317386627197,
+      "learning_rate": 0.0004,
+      "loss": 0.3197,
+      "step": 25
+    },
+    {
+      "epoch": 0.42448979591836733,
+      "grad_norm": 0.21709182858467102,
+      "learning_rate": 0.0004,
+      "loss": 0.3272,
+      "step": 26
+    },
+    {
+      "epoch": 0.42448979591836733,
+      "eval_loss": 0.9733779430389404,
+      "eval_runtime": 18.2232,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 26
+    },
+    {
+      "epoch": 0.44081632653061226,
+      "grad_norm": 0.2420857548713684,
+      "learning_rate": 0.0004,
+      "loss": 0.3293,
+      "step": 27
+    },
+    {
+      "epoch": 0.45714285714285713,
+      "grad_norm": 0.30486994981765747,
+      "learning_rate": 0.0004,
+      "loss": 0.3958,
+      "step": 28
+    },
+    {
+      "epoch": 0.45714285714285713,
+      "eval_loss": 0.9588731527328491,
+      "eval_runtime": 18.2458,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 28
+    },
+    {
+      "epoch": 0.47346938775510206,
+      "grad_norm": 0.24714964628219604,
+      "learning_rate": 0.0004,
+      "loss": 0.3305,
+      "step": 29
+    },
+    {
+      "epoch": 0.4897959183673469,
+      "grad_norm": 0.21984225511550903,
+      "learning_rate": 0.0004,
+      "loss": 0.3395,
+      "step": 30
+    },
+    {
+      "epoch": 0.4897959183673469,
+      "eval_loss": 0.9427903890609741,
+      "eval_runtime": 18.2414,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 30
+    },
+    {
+      "epoch": 0.5061224489795918,
+      "grad_norm": 0.19778016209602356,
+      "learning_rate": 0.0004,
+      "loss": 0.2918,
+      "step": 31
+    },
+    {
+      "epoch": 0.5224489795918368,
+      "grad_norm": 0.21754617989063263,
+      "learning_rate": 0.0004,
+      "loss": 0.2855,
+      "step": 32
+    },
+    {
+      "epoch": 0.5224489795918368,
+      "eval_loss": 0.9335330128669739,
+      "eval_runtime": 18.275,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 32
+    },
+    {
+      "epoch": 0.5387755102040817,
+      "grad_norm": 0.2221430391073227,
+      "learning_rate": 0.0004,
+      "loss": 0.2946,
+      "step": 33
+    },
+    {
+      "epoch": 0.5551020408163265,
+      "grad_norm": 0.2112974375486374,
+      "learning_rate": 0.0004,
+      "loss": 0.3149,
+      "step": 34
+    },
+    {
+      "epoch": 0.5551020408163265,
+      "eval_loss": 0.9311869144439697,
+      "eval_runtime": 18.2431,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 34
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 0.19651219248771667,
+      "learning_rate": 0.0004,
+      "loss": 0.2606,
+      "step": 35
+    },
+    {
+      "epoch": 0.5877551020408164,
+      "grad_norm": 0.22742077708244324,
+      "learning_rate": 0.0004,
+      "loss": 0.3245,
+      "step": 36
+    },
+    {
+      "epoch": 0.5877551020408164,
+      "eval_loss": 0.9281033873558044,
+      "eval_runtime": 18.2248,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 36
+    },
+    {
+      "epoch": 0.6040816326530613,
+      "grad_norm": 0.2320890575647354,
+      "learning_rate": 0.0004,
+      "loss": 0.3532,
+      "step": 37
+    },
+    {
+      "epoch": 0.6204081632653061,
+      "grad_norm": 0.21191200613975525,
+      "learning_rate": 0.0004,
+      "loss": 0.2973,
+      "step": 38
+    },
+    {
+      "epoch": 0.6204081632653061,
+      "eval_loss": 0.9274996519088745,
+      "eval_runtime": 18.2309,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 38
+    },
+    {
+      "epoch": 0.636734693877551,
+      "grad_norm": 0.24098484218120575,
+      "learning_rate": 0.0004,
+      "loss": 0.3194,
+      "step": 39
+    },
+    {
+      "epoch": 0.6530612244897959,
+      "grad_norm": 0.3358725607395172,
+      "learning_rate": 0.0004,
+      "loss": 0.2833,
+      "step": 40
+    },
+    {
+      "epoch": 0.6530612244897959,
+      "eval_loss": 0.9254183769226074,
+      "eval_runtime": 18.2685,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 40
+    },
+    {
+      "epoch": 0.6693877551020408,
+      "grad_norm": 0.2399401068687439,
+      "learning_rate": 0.0004,
+      "loss": 0.3381,
+      "step": 41
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "grad_norm": 0.23229075968265533,
+      "learning_rate": 0.0004,
+      "loss": 0.3501,
+      "step": 42
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "eval_loss": 0.9213573932647705,
+      "eval_runtime": 18.2788,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 42
+    },
+    {
+      "epoch": 0.7020408163265306,
+      "grad_norm": 0.2341497391462326,
+      "learning_rate": 0.0004,
+      "loss": 0.3033,
+      "step": 43
+    },
+    {
+      "epoch": 0.7183673469387755,
+      "grad_norm": 0.22997914254665375,
+      "learning_rate": 0.0004,
+      "loss": 0.3675,
+      "step": 44
+    },
+    {
+      "epoch": 0.7183673469387755,
+      "eval_loss": 0.9130539298057556,
+      "eval_runtime": 18.2601,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 44
+    },
+    {
+      "epoch": 0.7346938775510204,
+      "grad_norm": 0.23445634543895721,
+      "learning_rate": 0.0004,
+      "loss": 0.3113,
+      "step": 45
+    },
+    {
+      "epoch": 0.7510204081632653,
+      "grad_norm": 0.22852188348770142,
+      "learning_rate": 0.0004,
+      "loss": 0.3593,
+      "step": 46
+    },
+    {
+      "epoch": 0.7510204081632653,
+      "eval_loss": 0.9100953936576843,
+      "eval_runtime": 18.2446,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 46
+    },
+    {
+      "epoch": 0.7673469387755102,
+      "grad_norm": 0.2316325306892395,
+      "learning_rate": 0.0004,
+      "loss": 0.3121,
+      "step": 47
+    },
+    {
+      "epoch": 0.7836734693877551,
+      "grad_norm": 0.2397606372833252,
+      "learning_rate": 0.0004,
+      "loss": 0.2979,
+      "step": 48
+    },
+    {
+      "epoch": 0.7836734693877551,
+      "eval_loss": 0.9087210297584534,
+      "eval_runtime": 18.2833,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 48
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.22637659311294556,
+      "learning_rate": 0.0004,
+      "loss": 0.2919,
+      "step": 49
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "grad_norm": 0.255599707365036,
+      "learning_rate": 0.0004,
+      "loss": 0.3741,
+      "step": 50
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "eval_loss": 0.9020435810089111,
+      "eval_runtime": 18.2931,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 50
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "eval_loss": 0.9020435810089111,
+      "eval_runtime": 18.1276,
+      "eval_samples_per_second": 0.883,
+      "eval_steps_per_second": 0.883,
+      "step": 50
+    },
+    {
+      "epoch": 0.8326530612244898,
+      "grad_norm": 0.2062978744506836,
+      "learning_rate": 0.0003877467715307749,
+      "loss": 0.3303,
+      "step": 51
+    },
+    {
+      "epoch": 0.8489795918367347,
+      "grad_norm": 0.20149795711040497,
+      "learning_rate": 0.0003870443502801494,
+      "loss": 0.3212,
+      "step": 52
+    },
+    {
+      "epoch": 0.8489795918367347,
+      "eval_loss": 0.8994156718254089,
+      "eval_runtime": 18.1853,
+      "eval_samples_per_second": 0.88,
+      "eval_steps_per_second": 0.88,
+      "step": 52
+    },
+    {
+      "epoch": 0.8653061224489796,
+      "grad_norm": 0.17913399636745453,
+      "learning_rate": 0.0003863230255984052,
+      "loss": 0.2637,
+      "step": 53
+    },
+    {
+      "epoch": 0.8816326530612245,
+      "grad_norm": 0.19331133365631104,
+      "learning_rate": 0.00038558287038542615,
+      "loss": 0.3564,
+      "step": 54
+    },
+    {
+      "epoch": 0.8816326530612245,
+      "eval_loss": 0.8963940143585205,
+      "eval_runtime": 18.223,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 54
+    },
+    {
+      "epoch": 0.8979591836734694,
+      "grad_norm": 0.20378044247627258,
+      "learning_rate": 0.00038482395944418313,
+      "loss": 0.3253,
+      "step": 55
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "grad_norm": 0.19742076098918915,
+      "learning_rate": 0.0003840463694731741,
+      "loss": 0.3715,
+      "step": 56
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "eval_loss": 0.8902382850646973,
+      "eval_runtime": 18.2093,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 56
+    },
+    {
+      "epoch": 0.9306122448979591,
+      "grad_norm": 0.1908055692911148,
+      "learning_rate": 0.0003832501790586724,
+      "loss": 0.3305,
+      "step": 57
+    },
+    {
+      "epoch": 0.9469387755102041,
+      "grad_norm": 0.21527761220932007,
+      "learning_rate": 0.0003824354686667848,
+      "loss": 0.3523,
+      "step": 58
+    },
+    {
+      "epoch": 0.9469387755102041,
+      "eval_loss": 0.8786917328834534,
+      "eval_runtime": 18.2124,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 58
+    },
+    {
+      "epoch": 0.963265306122449,
+      "grad_norm": 0.1817687749862671,
+      "learning_rate": 0.00038160232063531917,
+      "loss": 0.2616,
+      "step": 59
+    },
+    {
+      "epoch": 0.9795918367346939,
+      "grad_norm": 0.17659063637256622,
+      "learning_rate": 0.0003807508191654631,
+      "loss": 0.251,
+      "step": 60
+    },
+    {
+      "epoch": 0.9795918367346939,
+      "eval_loss": 0.8799586296081543,
+      "eval_runtime": 18.2543,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 60
+    },
+    {
+      "epoch": 0.9959183673469387,
+      "grad_norm": 0.22647982835769653,
+      "learning_rate": 0.0003798810503132742,
+      "loss": 0.2881,
+      "step": 61
+    },
+    {
+      "epoch": 1.0122448979591836,
+      "grad_norm": 0.45377442240715027,
+      "learning_rate": 0.00037899310198098295,
+      "loss": 0.5515,
+      "step": 62
+    },
+    {
+      "epoch": 1.0122448979591836,
+      "eval_loss": 0.8895297050476074,
+      "eval_runtime": 18.2212,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 62
+    },
+    {
+      "epoch": 1.0285714285714285,
+      "grad_norm": 0.3527546226978302,
+      "learning_rate": 0.000378087063908109,
+      "loss": 0.2427,
+      "step": 63
+    },
+    {
+      "epoch": 1.0448979591836736,
+      "grad_norm": 0.2781178951263428,
+      "learning_rate": 0.0003771630276623915,
+      "loss": 0.2215,
+      "step": 64
+    },
+    {
+      "epoch": 1.0448979591836736,
+      "eval_loss": 0.9294220209121704,
+      "eval_runtime": 18.226,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 64
+    },
+    {
+      "epoch": 1.0612244897959184,
+      "grad_norm": 0.2543565034866333,
+      "learning_rate": 0.00037622108663053536,
+      "loss": 0.2761,
+      "step": 65
+    },
+    {
+      "epoch": 1.0775510204081633,
+      "grad_norm": 0.26259011030197144,
+      "learning_rate": 0.0003752613360087727,
+      "loss": 0.2425,
+      "step": 66
+    },
+    {
+      "epoch": 1.0775510204081633,
+      "eval_loss": 0.9212721586227417,
+      "eval_runtime": 18.2309,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 66
+    },
+    {
+      "epoch": 1.0938775510204082,
+      "grad_norm": 0.36850446462631226,
+      "learning_rate": 0.00037428387279324257,
+      "loss": 0.225,
+      "step": 67
+    },
+    {
+      "epoch": 1.110204081632653,
+      "grad_norm": 0.23748713731765747,
+      "learning_rate": 0.0003732887957701874,
+      "loss": 0.2363,
+      "step": 68
+    },
+    {
+      "epoch": 1.110204081632653,
+      "eval_loss": 0.9431418776512146,
+      "eval_runtime": 18.2471,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 68
+    },
+    {
+      "epoch": 1.126530612244898,
+      "grad_norm": 0.23217403888702393,
+      "learning_rate": 0.00037227620550597,
+      "loss": 0.2364,
+      "step": 69
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "grad_norm": 0.28124868869781494,
+      "learning_rate": 0.0003712462043369093,
+      "loss": 0.2197,
+      "step": 70
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "eval_loss": 0.9205393195152283,
+      "eval_runtime": 18.2662,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 70
+    },
+    {
+      "epoch": 1.1591836734693877,
+      "grad_norm": 0.2142041176557541,
+      "learning_rate": 0.00037019889635893843,
+      "loss": 0.1958,
+      "step": 71
+    },
+    {
+      "epoch": 1.1755102040816325,
+      "grad_norm": 0.34761127829551697,
+      "learning_rate": 0.0003691343874170838,
+      "loss": 0.2183,
+      "step": 72
+    },
+    {
+      "epoch": 1.1755102040816325,
+      "eval_loss": 0.9254322648048401,
+      "eval_runtime": 18.2303,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 72
+    },
+    {
+      "epoch": 1.1918367346938776,
+      "grad_norm": 0.2560065686702728,
+      "learning_rate": 0.00036805278509476844,
+      "loss": 0.248,
+      "step": 73
+    },
+    {
+      "epoch": 1.2081632653061225,
+      "grad_norm": 0.7435296773910522,
+      "learning_rate": 0.00036695419870293915,
+      "loss": 0.2356,
+      "step": 74
+    },
+    {
+      "epoch": 1.2081632653061225,
+      "eval_loss": 0.9271378517150879,
+      "eval_runtime": 18.2503,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 74
+    },
+    {
+      "epoch": 1.2244897959183674,
+      "grad_norm": 0.8685758113861084,
+      "learning_rate": 0.00036583873926901867,
+      "loss": 0.2129,
+      "step": 75
+    },
+    {
+      "epoch": 1.2408163265306122,
+      "grad_norm": 1.2740998268127441,
+      "learning_rate": 0.0003647065195256855,
+      "loss": 0.2469,
+      "step": 76
+    },
+    {
+      "epoch": 1.2408163265306122,
+      "eval_loss": 0.9236885905265808,
+      "eval_runtime": 18.2226,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 76
+    },
+    {
+      "epoch": 1.2571428571428571,
+      "grad_norm": 0.28524693846702576,
+      "learning_rate": 0.0003635576538994801,
+      "loss": 0.2278,
+      "step": 77
+    },
+    {
+      "epoch": 1.273469387755102,
+      "grad_norm": 1.0116885900497437,
+      "learning_rate": 0.0003623922584992409,
+      "loss": 0.2488,
+      "step": 78
+    },
+    {
+      "epoch": 1.273469387755102,
+      "eval_loss": 0.923646867275238,
+      "eval_runtime": 18.2519,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 78
+    },
+    {
+      "epoch": 1.2897959183673469,
+      "grad_norm": 0.9336573481559753,
+      "learning_rate": 0.0003612104511043694,
+      "loss": 0.3095,
+      "step": 79
+    },
+    {
+      "epoch": 1.306122448979592,
+      "grad_norm": 0.43459734320640564,
+      "learning_rate": 0.0003600123511529278,
+      "loss": 0.2215,
+      "step": 80
+    },
+    {
+      "epoch": 1.306122448979592,
+      "eval_loss": 0.941472589969635,
+      "eval_runtime": 18.251,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 80
+    },
+    {
+      "epoch": 1.3224489795918366,
+      "grad_norm": 0.39941656589508057,
+      "learning_rate": 0.0003587980797295671,
+      "loss": 0.251,
+      "step": 81
+    },
+    {
+      "epoch": 1.3387755102040817,
+      "grad_norm": 0.2876632511615753,
+      "learning_rate": 0.0003575677595532904,
+      "loss": 0.208,
+      "step": 82
+    },
+    {
+      "epoch": 1.3387755102040817,
+      "eval_loss": 0.932316780090332,
+      "eval_runtime": 18.2326,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 82
+    },
+    {
+      "epoch": 1.3551020408163266,
+      "grad_norm": 0.30556565523147583,
+      "learning_rate": 0.0003563215149650505,
+      "loss": 0.2821,
+      "step": 83
+    },
+    {
+      "epoch": 1.3714285714285714,
+      "grad_norm": 0.3039940595626831,
+      "learning_rate": 0.00035505947191518316,
+      "loss": 0.2177,
+      "step": 84
+    },
+    {
+      "epoch": 1.3714285714285714,
+      "eval_loss": 0.9171479344367981,
+      "eval_runtime": 18.2397,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 84
+    },
+    {
+      "epoch": 1.3877551020408163,
+      "grad_norm": 0.32876476645469666,
+      "learning_rate": 0.0003537817579506783,
+      "loss": 0.2142,
+      "step": 85
+    },
+    {
+      "epoch": 1.4040816326530612,
+      "grad_norm": 0.26468542218208313,
+      "learning_rate": 0.0003524885022022896,
+      "loss": 0.2293,
+      "step": 86
+    },
+    {
+      "epoch": 1.4040816326530612,
+      "eval_loss": 0.9176874756813049,
+      "eval_runtime": 18.2553,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 86
+    },
+    {
+      "epoch": 1.420408163265306,
+      "grad_norm": 0.9715031981468201,
+      "learning_rate": 0.000351179835371484,
+      "loss": 0.235,
+      "step": 87
+    },
+    {
+      "epoch": 1.436734693877551,
+      "grad_norm": 0.8392952680587769,
+      "learning_rate": 0.00034985588971723233,
+      "loss": 0.2307,
+      "step": 88
+    },
+    {
+      "epoch": 1.436734693877551,
+      "eval_loss": 0.9272938370704651,
+      "eval_runtime": 18.2194,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 88
+    },
+    {
+      "epoch": 1.453061224489796,
+      "grad_norm": 0.28850337862968445,
+      "learning_rate": 0.00034851679904264314,
+      "loss": 0.2403,
+      "step": 89
+    },
+    {
+      "epoch": 1.469387755102041,
+      "grad_norm": 0.46389341354370117,
+      "learning_rate": 0.00034716269868143956,
+      "loss": 0.2464,
+      "step": 90
+    },
+    {
+      "epoch": 1.469387755102041,
+      "eval_loss": 0.9267984628677368,
+      "eval_runtime": 18.2514,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 90
+    },
+    {
+      "epoch": 1.4857142857142858,
+      "grad_norm": 0.29597121477127075,
+      "learning_rate": 0.00034579372548428235,
+      "loss": 0.2307,
+      "step": 91
+    },
+    {
+      "epoch": 1.5020408163265306,
+      "grad_norm": 0.3392711877822876,
+      "learning_rate": 0.00034441001780493886,
+      "loss": 0.231,
+      "step": 92
+    },
+    {
+      "epoch": 1.5020408163265306,
+      "eval_loss": 0.9267009496688843,
+      "eval_runtime": 18.2179,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 92
+    },
+    {
+      "epoch": 1.5183673469387755,
+      "grad_norm": 0.2309531569480896,
+      "learning_rate": 0.00034301171548630063,
+      "loss": 0.2307,
+      "step": 93
+    },
+    {
+      "epoch": 1.5346938775510204,
+      "grad_norm": 0.28941744565963745,
+      "learning_rate": 0.0003415989598462506,
+      "loss": 0.2384,
+      "step": 94
+    },
+    {
+      "epoch": 1.5346938775510204,
+      "eval_loss": 0.9336121082305908,
+      "eval_runtime": 18.2184,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 94
+    },
+    {
+      "epoch": 1.5510204081632653,
+      "grad_norm": 0.22579389810562134,
+      "learning_rate": 0.00034017189366338034,
+      "loss": 0.1949,
+      "step": 95
+    },
+    {
+      "epoch": 1.5673469387755103,
+      "grad_norm": 0.2894729971885681,
+      "learning_rate": 0.000338730661162561,
+      "loss": 0.2348,
+      "step": 96
+    },
+    {
+      "epoch": 1.5673469387755103,
+      "eval_loss": 0.9432627558708191,
+      "eval_runtime": 18.2158,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 96
+    },
+    {
+      "epoch": 1.583673469387755,
+      "grad_norm": 0.24218647181987762,
+      "learning_rate": 0.00033727540800036683,
+      "loss": 0.2113,
+      "step": 97
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.2695946991443634,
+      "learning_rate": 0.0003358062812503548,
+      "loss": 0.2209,
+      "step": 98
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.9510765075683594,
+      "eval_runtime": 18.2181,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 98
+    },
+    {
+      "epoch": 1.6163265306122447,
+      "grad_norm": 0.27196425199508667,
+      "learning_rate": 0.00033432342938820086,
+      "loss": 0.2366,
+      "step": 99
+    },
+    {
+      "epoch": 1.6326530612244898,
+      "grad_norm": 0.2302471101284027,
+      "learning_rate": 0.0003328270022766941,
+      "loss": 0.2099,
+      "step": 100
+    },
+    {
+      "epoch": 1.6326530612244898,
+      "eval_loss": 0.9363111853599548,
+      "eval_runtime": 18.2175,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 100
+    },
+    {
+      "epoch": 1.6489795918367347,
+      "grad_norm": 0.24810455739498138,
+      "learning_rate": 0.0003313171511505913,
+      "loss": 0.2196,
+      "step": 101
+    },
+    {
+      "epoch": 1.6653061224489796,
+      "grad_norm": 0.25561368465423584,
+      "learning_rate": 0.0003297940286013326,
+      "loss": 0.253,
+      "step": 102
+    },
+    {
+      "epoch": 1.6653061224489796,
+      "eval_loss": 0.942488431930542,
+      "eval_runtime": 18.2068,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 102
+    },
+    {
+      "epoch": 1.6816326530612244,
+      "grad_norm": 0.22677375376224518,
+      "learning_rate": 0.0003282577885616198,
+      "loss": 0.1789,
+      "step": 103
+    },
+    {
+      "epoch": 1.6979591836734693,
+      "grad_norm": 0.26009589433670044,
+      "learning_rate": 0.0003267085862898594,
+      "loss": 0.2541,
+      "step": 104
+    },
+    {
+      "epoch": 1.6979591836734693,
+      "eval_loss": 0.9335595369338989,
+      "eval_runtime": 18.2507,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 104
+    },
+    {
+      "epoch": 1.7142857142857144,
+      "grad_norm": 0.20782141387462616,
+      "learning_rate": 0.0003251465783544716,
+      "loss": 0.2308,
+      "step": 105
+    },
+    {
+      "epoch": 1.730612244897959,
+      "grad_norm": 0.22768278419971466,
+      "learning_rate": 0.0003235719226180669,
+      "loss": 0.2354,
+      "step": 106
+    },
+    {
+      "epoch": 1.730612244897959,
+      "eval_loss": 0.9376662373542786,
+      "eval_runtime": 18.2284,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 106
+    },
+    {
+      "epoch": 1.7469387755102042,
+      "grad_norm": 0.23742002248764038,
+      "learning_rate": 0.00032198477822149185,
+      "loss": 0.2306,
+      "step": 107
+    },
+    {
+      "epoch": 1.763265306122449,
+      "grad_norm": 0.25688832998275757,
+      "learning_rate": 0.0003203853055677457,
+      "loss": 0.2816,
+      "step": 108
+    },
+    {
+      "epoch": 1.763265306122449,
+      "eval_loss": 0.9434496164321899,
+      "eval_runtime": 18.2263,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 108
+    },
+    {
+      "epoch": 1.779591836734694,
+      "grad_norm": 0.2690117359161377,
+      "learning_rate": 0.00031877366630576946,
+      "loss": 0.2013,
+      "step": 109
+    },
+    {
+      "epoch": 1.7959183673469388,
+      "grad_norm": 0.2317412942647934,
+      "learning_rate": 0.0003171500233141089,
+      "loss": 0.2398,
+      "step": 110
+    },
+    {
+      "epoch": 1.7959183673469388,
+      "eval_loss": 0.9329774975776672,
+      "eval_runtime": 18.2112,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 110
+    },
+    {
+      "epoch": 1.8122448979591836,
+      "grad_norm": 0.2262117713689804,
+      "learning_rate": 0.0003155145406844535,
+      "loss": 0.207,
+      "step": 111
+    },
+    {
+      "epoch": 1.8285714285714287,
+      "grad_norm": 0.22458741068840027,
+      "learning_rate": 0.00031386738370505293,
+      "loss": 0.2093,
+      "step": 112
+    },
+    {
+      "epoch": 1.8285714285714287,
+      "eval_loss": 0.9222925901412964,
+      "eval_runtime": 18.2333,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 112
+    },
+    {
+      "epoch": 1.8448979591836734,
+      "grad_norm": 0.24273625016212463,
+      "learning_rate": 0.0003122087188440118,
+      "loss": 0.2434,
+      "step": 113
+    },
+    {
+      "epoch": 1.8612244897959185,
+      "grad_norm": 0.2206314653158188,
+      "learning_rate": 0.0003105387137324663,
+      "loss": 0.2056,
+      "step": 114
+    },
+    {
+      "epoch": 1.8612244897959185,
+      "eval_loss": 0.9319095015525818,
+      "eval_runtime": 18.2327,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 114
+    },
+    {
+      "epoch": 1.8775510204081631,
+      "grad_norm": 0.2606954574584961,
+      "learning_rate": 0.0003088575371476426,
+      "loss": 0.2198,
+      "step": 115
+    },
+    {
+      "epoch": 1.8938775510204082,
+      "grad_norm": 0.23156337440013885,
+      "learning_rate": 0.0003071653589957993,
+      "loss": 0.1957,
+      "step": 116
+    },
+    {
+      "epoch": 1.8938775510204082,
+      "eval_loss": 0.9314719438552856,
+      "eval_runtime": 18.2411,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 116
+    },
+    {
+      "epoch": 1.910204081632653,
+      "grad_norm": 0.2253030389547348,
+      "learning_rate": 0.0003054623502950565,
+      "loss": 0.266,
+      "step": 117
+    },
+    {
+      "epoch": 1.926530612244898,
+      "grad_norm": 0.24510890245437622,
+      "learning_rate": 0.0003037486831581115,
+      "loss": 0.2493,
+      "step": 118
+    },
+    {
+      "epoch": 1.926530612244898,
+      "eval_loss": 0.926245927810669,
+      "eval_runtime": 18.2428,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 118
+    },
+    {
+      "epoch": 1.9428571428571428,
+      "grad_norm": 0.22151368856430054,
+      "learning_rate": 0.00030202453077484494,
+      "loss": 0.2666,
+      "step": 119
+    },
+    {
+      "epoch": 1.9591836734693877,
+      "grad_norm": 0.21714863181114197,
+      "learning_rate": 0.0003002900673948173,
+      "loss": 0.253,
+      "step": 120
+    },
+    {
+      "epoch": 1.9591836734693877,
+      "eval_loss": 0.9263309240341187,
+      "eval_runtime": 18.2196,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 120
+    },
+    {
+      "epoch": 1.9755102040816328,
+      "grad_norm": 0.2149583399295807,
+      "learning_rate": 0.0002985454683096583,
+      "loss": 0.2208,
+      "step": 121
+    },
+    {
+      "epoch": 1.9918367346938775,
+      "grad_norm": 0.23067210614681244,
+      "learning_rate": 0.000296790909835352,
+      "loss": 0.2225,
+      "step": 122
+    },
+    {
+      "epoch": 1.9918367346938775,
+      "eval_loss": 0.9324613809585571,
+      "eval_runtime": 18.2438,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 122
+    },
+    {
+      "epoch": 2.0081632653061225,
+      "grad_norm": 0.4510343074798584,
+      "learning_rate": 0.00029502656929441683,
+      "loss": 0.3179,
+      "step": 123
+    },
+    {
+      "epoch": 2.024489795918367,
+      "grad_norm": 0.24402837455272675,
+      "learning_rate": 0.000293252624997985,
+      "loss": 0.1501,
+      "step": 124
+    },
+    {
+      "epoch": 2.024489795918367,
+      "eval_loss": 0.9700677394866943,
+      "eval_runtime": 18.2313,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 124
+    },
+    {
+      "epoch": 2.0408163265306123,
+      "grad_norm": 0.31533220410346985,
+      "learning_rate": 0.00029146925622778176,
+      "loss": 0.1353,
+      "step": 125
+    },
+    {
+      "epoch": 2.057142857142857,
+      "grad_norm": 0.24323108792304993,
+      "learning_rate": 0.0002896766432180065,
+      "loss": 0.1297,
+      "step": 126
+    },
+    {
+      "epoch": 2.057142857142857,
+      "eval_loss": 0.9890408515930176,
+      "eval_runtime": 18.2073,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 126
+    },
+    {
+      "epoch": 2.073469387755102,
+      "grad_norm": 0.24305571615695953,
+      "learning_rate": 0.00028787496713711733,
+      "loss": 0.1389,
+      "step": 127
+    },
+    {
+      "epoch": 2.089795918367347,
+      "grad_norm": 0.21282273530960083,
+      "learning_rate": 0.0002860644100695218,
+      "loss": 0.0994,
+      "step": 128
+    },
+    {
+      "epoch": 2.089795918367347,
+      "eval_loss": 1.0023484230041504,
+      "eval_runtime": 18.2257,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 128
+    },
+    {
+      "epoch": 2.1061224489795918,
+      "grad_norm": 0.20902425050735474,
+      "learning_rate": 0.0002842451549971745,
+      "loss": 0.1195,
+      "step": 129
+    },
+    {
+      "epoch": 2.122448979591837,
+      "grad_norm": 0.21242493391036987,
+      "learning_rate": 0.0002824173857810842,
+      "loss": 0.1256,
+      "step": 130
+    },
+    {
+      "epoch": 2.122448979591837,
+      "eval_loss": 1.0186381340026855,
+      "eval_runtime": 18.1967,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 130
+    },
+    {
+      "epoch": 2.1387755102040815,
+      "grad_norm": 0.26445460319519043,
+      "learning_rate": 0.00028058128714273257,
+      "loss": 0.1268,
+      "step": 131
+    },
+    {
+      "epoch": 2.1551020408163266,
+      "grad_norm": 0.24118709564208984,
+      "learning_rate": 0.0002787370446454047,
+      "loss": 0.1192,
+      "step": 132
+    },
+    {
+      "epoch": 2.1551020408163266,
+      "eval_loss": 1.0201678276062012,
+      "eval_runtime": 18.2377,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 132
+    },
+    {
+      "epoch": 2.1714285714285713,
+      "grad_norm": 0.23629823327064514,
+      "learning_rate": 0.0002768848446754362,
+      "loss": 0.1114,
+      "step": 133
+    },
+    {
+      "epoch": 2.1877551020408164,
+      "grad_norm": 0.23851804435253143,
+      "learning_rate": 0.0002750248744233756,
+      "loss": 0.1455,
+      "step": 134
+    },
+    {
+      "epoch": 2.1877551020408164,
+      "eval_loss": 1.027251124382019,
+      "eval_runtime": 18.2111,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 134
+    },
+    {
+      "epoch": 2.204081632653061,
+      "grad_norm": 0.2159481793642044,
+      "learning_rate": 0.00027315732186506656,
+      "loss": 0.1036,
+      "step": 135
+    },
+    {
+      "epoch": 2.220408163265306,
+      "grad_norm": 0.2521194815635681,
+      "learning_rate": 0.0002712823757426501,
+      "loss": 0.1539,
+      "step": 136
+    },
+    {
+      "epoch": 2.220408163265306,
+      "eval_loss": 1.0327486991882324,
+      "eval_runtime": 18.2282,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 136
+    },
+    {
+      "epoch": 2.236734693877551,
+      "grad_norm": 0.23456163704395294,
+      "learning_rate": 0.00026940022554548993,
+      "loss": 0.14,
+      "step": 137
+    },
+    {
+      "epoch": 2.253061224489796,
+      "grad_norm": 0.25591009855270386,
+      "learning_rate": 0.0002675110614910212,
+      "loss": 0.1485,
+      "step": 138
+    },
+    {
+      "epoch": 2.253061224489796,
+      "eval_loss": 1.0385500192642212,
+      "eval_runtime": 18.1962,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 138
+    },
+    {
+      "epoch": 2.269387755102041,
+      "grad_norm": 0.2525387108325958,
+      "learning_rate": 0.00026561507450552704,
+      "loss": 0.1164,
+      "step": 139
+    },
+    {
+      "epoch": 2.2857142857142856,
+      "grad_norm": 0.25320008397102356,
+      "learning_rate": 0.00026371245620484255,
+      "loss": 0.1307,
+      "step": 140
+    },
+    {
+      "epoch": 2.2857142857142856,
+      "eval_loss": 1.028091311454773,
+      "eval_runtime": 18.2167,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 140
+    },
+    {
+      "epoch": 2.3020408163265307,
+      "grad_norm": 0.27121609449386597,
+      "learning_rate": 0.00026180339887498953,
+      "loss": 0.1475,
+      "step": 141
+    },
+    {
+      "epoch": 2.3183673469387753,
+      "grad_norm": 0.2442832738161087,
+      "learning_rate": 0.00025988809545274293,
+      "loss": 0.112,
+      "step": 142
+    },
+    {
+      "epoch": 2.3183673469387753,
+      "eval_loss": 0.9875463247299194,
+      "eval_runtime": 18.2364,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 142
+    },
+    {
+      "epoch": 2.3346938775510204,
+      "grad_norm": 0.23179620504379272,
+      "learning_rate": 0.0002579667395061322,
+      "loss": 0.1428,
+      "step": 143
+    },
+    {
+      "epoch": 2.351020408163265,
+      "grad_norm": 0.21805799007415771,
+      "learning_rate": 0.00025603952521487876,
+      "loss": 0.1157,
+      "step": 144
+    },
+    {
+      "epoch": 2.351020408163265,
+      "eval_loss": 0.9967271089553833,
+      "eval_runtime": 18.2289,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 144
+    },
+    {
+      "epoch": 2.36734693877551,
+      "grad_norm": 0.2379518747329712,
+      "learning_rate": 0.0002541066473507708,
+      "loss": 0.1368,
+      "step": 145
+    },
+    {
+      "epoch": 2.3836734693877553,
+      "grad_norm": 0.27792760729789734,
+      "learning_rate": 0.00025216830125797943,
+      "loss": 0.1369,
+      "step": 146
+    },
+    {
+      "epoch": 2.3836734693877553,
+      "eval_loss": 0.9868496656417847,
+      "eval_runtime": 18.2074,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 146
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.2362203449010849,
+      "learning_rate": 0.0002502246828333163,
+      "loss": 0.1275,
+      "step": 147
+    },
+    {
+      "epoch": 2.416326530612245,
+      "grad_norm": 0.27191162109375,
+      "learning_rate": 0.00024827598850643546,
+      "loss": 0.1582,
+      "step": 148
+    },
+    {
+      "epoch": 2.416326530612245,
+      "eval_loss": 0.962943434715271,
+      "eval_runtime": 18.2207,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 148
+    },
+    {
+      "epoch": 2.4326530612244897,
+      "grad_norm": 0.23347483575344086,
+      "learning_rate": 0.0002463224152199813,
+      "loss": 0.1309,
+      "step": 149
+    },
+    {
+      "epoch": 2.4489795918367347,
+      "grad_norm": 0.2181580364704132,
+      "learning_rate": 0.0002443641604096851,
+      "loss": 0.1261,
+      "step": 150
+    },
+    {
+      "epoch": 2.4489795918367347,
+      "eval_loss": 0.9731823205947876,
+      "eval_runtime": 18.2136,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 150
+    },
+    {
+      "epoch": 2.4653061224489794,
+      "grad_norm": 0.2505442202091217,
+      "learning_rate": 0.00024240142198441098,
+      "loss": 0.1335,
+      "step": 151
+    },
+    {
+      "epoch": 2.4816326530612245,
+      "grad_norm": 0.23964084684848785,
+      "learning_rate": 0.00024043439830615472,
+      "loss": 0.1249,
+      "step": 152
+    },
+    {
+      "epoch": 2.4816326530612245,
+      "eval_loss": 0.9946855306625366,
+      "eval_runtime": 18.2384,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 152
+    },
+    {
+      "epoch": 2.497959183673469,
+      "grad_norm": 0.2175896167755127,
+      "learning_rate": 0.00023846328816999658,
+      "loss": 0.101,
+      "step": 153
+    },
+    {
+      "epoch": 2.5142857142857142,
+      "grad_norm": 0.2787061929702759,
+      "learning_rate": 0.00023648829078401007,
+      "loss": 0.1421,
+      "step": 154
+    },
+    {
+      "epoch": 2.5142857142857142,
+      "eval_loss": 0.9933134317398071,
+      "eval_runtime": 18.2349,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 154
+    },
+    {
+      "epoch": 2.5306122448979593,
+      "grad_norm": 0.22405166923999786,
+      "learning_rate": 0.00023450960574912934,
+      "loss": 0.1237,
+      "step": 155
+    },
+    {
+      "epoch": 2.546938775510204,
+      "grad_norm": 0.25058048963546753,
+      "learning_rate": 0.00023252743303897675,
+      "loss": 0.1635,
+      "step": 156
+    },
+    {
+      "epoch": 2.546938775510204,
+      "eval_loss": 0.9882242679595947,
+      "eval_runtime": 18.2562,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 156
+    },
+    {
+      "epoch": 2.563265306122449,
+      "grad_norm": 0.3842501938343048,
+      "learning_rate": 0.00023054197297965264,
+      "loss": 0.1417,
+      "step": 157
+    },
+    {
+      "epoch": 2.5795918367346937,
+      "grad_norm": 0.22574357688426971,
+      "learning_rate": 0.00022855342622948976,
+      "loss": 0.1221,
+      "step": 158
+    },
+    {
+      "epoch": 2.5795918367346937,
+      "eval_loss": 1.0112800598144531,
+      "eval_runtime": 18.2537,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 158
+    },
+    {
+      "epoch": 2.595918367346939,
+      "grad_norm": 0.22760067880153656,
+      "learning_rate": 0.0002265619937587739,
+      "loss": 0.1319,
+      "step": 159
+    },
+    {
+      "epoch": 2.612244897959184,
+      "grad_norm": 0.25777938961982727,
+      "learning_rate": 0.00022456787682943285,
+      "loss": 0.149,
+      "step": 160
+    },
+    {
+      "epoch": 2.612244897959184,
+      "eval_loss": 1.0162885189056396,
+      "eval_runtime": 18.2574,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 160
+    },
+    {
+      "epoch": 2.6285714285714286,
+      "grad_norm": 0.23430375754833221,
+      "learning_rate": 0.00022257127697469632,
+      "loss": 0.1342,
+      "step": 161
+    },
+    {
+      "epoch": 2.644897959183673,
+      "grad_norm": 0.25381889939308167,
+      "learning_rate": 0.00022057239597872834,
+      "loss": 0.1558,
+      "step": 162
+    },
+    {
+      "epoch": 2.644897959183673,
+      "eval_loss": 1.0097148418426514,
+      "eval_runtime": 18.2572,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 162
+    },
+    {
+      "epoch": 2.6612244897959183,
+      "grad_norm": 0.22818055748939514,
+      "learning_rate": 0.0002185714358562336,
+      "loss": 0.1382,
+      "step": 163
+    },
+    {
+      "epoch": 2.6775510204081634,
+      "grad_norm": 0.21377477049827576,
+      "learning_rate": 0.00021656859883204167,
+      "loss": 0.1138,
+      "step": 164
+    },
+    {
+      "epoch": 2.6775510204081634,
+      "eval_loss": 1.0100345611572266,
+      "eval_runtime": 18.246,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 164
+    },
+    {
+      "epoch": 2.693877551020408,
+      "grad_norm": 0.20805473625659943,
+      "learning_rate": 0.00021456408732066918,
+      "loss": 0.1103,
+      "step": 165
+    },
+    {
+      "epoch": 2.710204081632653,
+      "grad_norm": 0.23223794996738434,
+      "learning_rate": 0.0002125581039058627,
+      "loss": 0.1229,
+      "step": 166
+    },
+    {
+      "epoch": 2.710204081632653,
+      "eval_loss": 1.0152215957641602,
+      "eval_runtime": 18.2339,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 166
+    },
+    {
+      "epoch": 2.726530612244898,
+      "grad_norm": 0.22925834357738495,
+      "learning_rate": 0.0002105508513201253,
+      "loss": 0.112,
+      "step": 167
+    },
+    {
+      "epoch": 2.742857142857143,
+      "grad_norm": 0.23402348160743713,
+      "learning_rate": 0.00020854253242422744,
+      "loss": 0.111,
+      "step": 168
+    },
+    {
+      "epoch": 2.742857142857143,
+      "eval_loss": 1.0134178400039673,
+      "eval_runtime": 18.2312,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 168
+    },
+    {
+      "epoch": 2.759183673469388,
+      "grad_norm": 0.21745020151138306,
+      "learning_rate": 0.00020653335018670478,
+      "loss": 0.1148,
+      "step": 169
+    },
+    {
+      "epoch": 2.7755102040816326,
+      "grad_norm": 0.23371770977973938,
+      "learning_rate": 0.00020452350766334595,
+      "loss": 0.1378,
+      "step": 170
+    },
+    {
+      "epoch": 2.7755102040816326,
+      "eval_loss": 1.008978247642517,
+      "eval_runtime": 18.2393,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 170
+    },
+    {
+      "epoch": 2.7918367346938773,
+      "grad_norm": 0.23733730614185333,
+      "learning_rate": 0.00020251320797667056,
+      "loss": 0.1362,
+      "step": 171
+    },
+    {
+      "epoch": 2.8081632653061224,
+      "grad_norm": 0.22156459093093872,
+      "learning_rate": 0.00020050265429540082,
+      "loss": 0.1197,
+      "step": 172
+    },
+    {
+      "epoch": 2.8081632653061224,
+      "eval_loss": 0.996375560760498,
+      "eval_runtime": 18.2572,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 172
+    },
+    {
+      "epoch": 2.8244897959183675,
+      "grad_norm": 0.21871179342269897,
+      "learning_rate": 0.00019849204981392863,
+      "loss": 0.1262,
+      "step": 173
+    },
+    {
+      "epoch": 2.840816326530612,
+      "grad_norm": 0.2262168973684311,
+      "learning_rate": 0.00019648159773178007,
+      "loss": 0.1329,
+      "step": 174
+    },
+    {
+      "epoch": 2.840816326530612,
+      "eval_loss": 0.9993283748626709,
+      "eval_runtime": 18.2401,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 174
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 0.24742639064788818,
+      "learning_rate": 0.00019447150123307915,
+      "loss": 0.1243,
+      "step": 175
+    },
+    {
+      "epoch": 2.873469387755102,
+      "grad_norm": 0.21919304132461548,
+      "learning_rate": 0.00019246196346601308,
+      "loss": 0.1218,
+      "step": 176
+    },
+    {
+      "epoch": 2.873469387755102,
+      "eval_loss": 1.0055768489837646,
+      "eval_runtime": 18.2419,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 176
+    },
+    {
+      "epoch": 2.889795918367347,
+      "grad_norm": 0.21882188320159912,
+      "learning_rate": 0.0001904531875223017,
+      "loss": 0.1347,
+      "step": 177
+    },
+    {
+      "epoch": 2.906122448979592,
+      "grad_norm": 0.24942266941070557,
+      "learning_rate": 0.00018844537641667176,
+      "loss": 0.1526,
+      "step": 178
+    },
+    {
+      "epoch": 2.906122448979592,
+      "eval_loss": 0.9967045783996582,
+      "eval_runtime": 18.2597,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 178
+    },
+    {
+      "epoch": 2.9224489795918367,
+      "grad_norm": 0.2336956411600113,
+      "learning_rate": 0.0001864387330663399,
+      "loss": 0.1352,
+      "step": 179
+    },
+    {
+      "epoch": 2.938775510204082,
+      "grad_norm": 0.2014392614364624,
+      "learning_rate": 0.0001844334602705047,
+      "loss": 0.1177,
+      "step": 180
+    },
+    {
+      "epoch": 2.938775510204082,
+      "eval_loss": 0.9912804365158081,
+      "eval_runtime": 18.2221,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 180
+    },
+    {
+      "epoch": 2.938775510204082,
+      "eval_loss": 0.9912804365158081,
+      "eval_runtime": 18.3966,
+      "eval_samples_per_second": 0.87,
+      "eval_steps_per_second": 0.87,
+      "step": 180
+    },
+    {
+      "epoch": 2.963265306122449,
+      "grad_norm": 0.2360977977514267,
+      "learning_rate": 0.00018242976068985137,
+      "loss": 0.1276,
+      "step": 181
+    },
+    {
+      "epoch": 2.979591836734694,
+      "grad_norm": 0.22097723186016083,
+      "learning_rate": 0.0001804278368260697,
+      "loss": 0.1292,
+      "step": 182
+    },
+    {
+      "epoch": 2.979591836734694,
+      "eval_loss": 0.9996596574783325,
+      "eval_runtime": 18.2418,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 182
+    },
+    {
+      "epoch": 2.9959183673469387,
+      "grad_norm": 0.19727876782417297,
+      "learning_rate": 0.00017842789100138868,
+      "loss": 0.0994,
+      "step": 183
+    },
+    {
+      "epoch": 3.012244897959184,
+      "grad_norm": 0.4426736533641815,
+      "learning_rate": 0.0001764301253381289,
+      "loss": 0.1507,
+      "step": 184
+    },
+    {
+      "epoch": 3.012244897959184,
+      "eval_loss": 1.0262768268585205,
+      "eval_runtime": 18.259,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 184
+    },
+    {
+      "epoch": 3.0285714285714285,
+      "grad_norm": 0.1821659505367279,
+      "learning_rate": 0.00017443474173827532,
+      "loss": 0.0588,
+      "step": 185
+    },
+    {
+      "epoch": 3.0448979591836736,
+      "grad_norm": 0.2281961441040039,
+      "learning_rate": 0.0001724419418630724,
+      "loss": 0.0765,
+      "step": 186
+    },
+    {
+      "epoch": 3.0448979591836736,
+      "eval_loss": 1.0732572078704834,
+      "eval_runtime": 18.2807,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 186
+    },
+    {
+      "epoch": 3.061224489795918,
+      "grad_norm": 0.19735883176326752,
+      "learning_rate": 0.0001704519271126433,
+      "loss": 0.0542,
+      "step": 187
+    },
+    {
+      "epoch": 3.0775510204081633,
+      "grad_norm": 0.23131243884563446,
+      "learning_rate": 0.0001684648986056355,
+      "loss": 0.0604,
+      "step": 188
+    },
+    {
+      "epoch": 3.0775510204081633,
+      "eval_loss": 1.10750150680542,
+      "eval_runtime": 18.2728,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 188
+    },
+    {
+      "epoch": 3.093877551020408,
+      "grad_norm": 0.25719910860061646,
+      "learning_rate": 0.0001664810571588952,
+      "loss": 0.0705,
+      "step": 189
+    },
+    {
+      "epoch": 3.110204081632653,
+      "grad_norm": 0.23448176681995392,
+      "learning_rate": 0.00016450060326717177,
+      "loss": 0.061,
+      "step": 190
+    },
+    {
+      "epoch": 3.110204081632653,
+      "eval_loss": 1.0981874465942383,
+      "eval_runtime": 18.2548,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 190
+    },
+    {
+      "epoch": 3.126530612244898,
+      "grad_norm": 0.2236451804637909,
+      "learning_rate": 0.00016252373708285504,
+      "loss": 0.0492,
+      "step": 191
+    },
+    {
+      "epoch": 3.142857142857143,
+      "grad_norm": 0.22379790246486664,
+      "learning_rate": 0.00016055065839574743,
+      "loss": 0.0622,
+      "step": 192
+    },
+    {
+      "epoch": 3.142857142857143,
+      "eval_loss": 1.0731853246688843,
+      "eval_runtime": 18.2828,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 192
+    },
+    {
+      "epoch": 3.159183673469388,
+      "grad_norm": 0.23106735944747925,
+      "learning_rate": 0.00015858156661287178,
+      "loss": 0.0715,
+      "step": 193
+    },
+    {
+      "epoch": 3.1755102040816325,
+      "grad_norm": 0.23755702376365662,
+      "learning_rate": 0.00015661666073831895,
+      "loss": 0.0794,
+      "step": 194
+    },
+    {
+      "epoch": 3.1755102040816325,
+      "eval_loss": 1.06235671043396,
+      "eval_runtime": 18.305,
+      "eval_samples_per_second": 0.874,
+      "eval_steps_per_second": 0.874,
+      "step": 194
+    },
+    {
+      "epoch": 3.1918367346938776,
+      "grad_norm": 0.22150100767612457,
+      "learning_rate": 0.0001546561393531357,
+      "loss": 0.0687,
+      "step": 195
+    },
+    {
+      "epoch": 3.2081632653061223,
+      "grad_norm": 0.1758776307106018,
+      "learning_rate": 0.0001527002005952551,
+      "loss": 0.0498,
+      "step": 196
+    },
+    {
+      "epoch": 3.2081632653061223,
+      "eval_loss": 1.073830008506775,
+      "eval_runtime": 18.3237,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 196
+    },
+    {
+      "epoch": 3.2244897959183674,
+      "grad_norm": 0.23125389218330383,
+      "learning_rate": 0.000150749042139472,
+      "loss": 0.08,
+      "step": 197
+    },
+    {
+      "epoch": 3.240816326530612,
+      "grad_norm": 0.2143053263425827,
+      "learning_rate": 0.00014880286117746548,
+      "loss": 0.06,
+      "step": 198
+    },
+    {
+      "epoch": 3.240816326530612,
+      "eval_loss": 1.1210918426513672,
+      "eval_runtime": 18.3294,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 198
+    },
+    {
+      "epoch": 3.257142857142857,
+      "grad_norm": 0.20991010963916779,
+      "learning_rate": 0.0001468618543978695,
+      "loss": 0.0549,
+      "step": 199
+    },
+    {
+      "epoch": 3.273469387755102,
+      "grad_norm": 0.21787025034427643,
+      "learning_rate": 0.00014492621796639504,
+      "loss": 0.0515,
+      "step": 200
+    },
+    {
+      "epoch": 3.273469387755102,
+      "eval_loss": 1.15009343624115,
+      "eval_runtime": 18.3182,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 200
+    },
+    {
+      "epoch": 3.289795918367347,
+      "grad_norm": 0.22523745894432068,
+      "learning_rate": 0.00014299614750600478,
+      "loss": 0.0499,
+      "step": 201
+    },
+    {
+      "epoch": 3.306122448979592,
+      "grad_norm": 0.21396824717521667,
+      "learning_rate": 0.00014107183807714275,
+      "loss": 0.0484,
+      "step": 202
+    },
+    {
+      "epoch": 3.306122448979592,
+      "eval_loss": 1.1507196426391602,
+      "eval_runtime": 18.3345,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 202
+    },
+    {
+      "epoch": 3.3224489795918366,
+      "grad_norm": 0.23024530708789825,
+      "learning_rate": 0.00013915348415802036,
+      "loss": 0.0647,
+      "step": 203
+    },
+    {
+      "epoch": 3.3387755102040817,
+      "grad_norm": 0.20833072066307068,
+      "learning_rate": 0.0001372412796249625,
+      "loss": 0.0576,
+      "step": 204
+    },
+    {
+      "epoch": 3.3387755102040817,
+      "eval_loss": 1.1334972381591797,
+      "eval_runtime": 18.3296,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 204
+    },
+    {
+      "epoch": 3.3551020408163263,
+      "grad_norm": 0.2296619713306427,
+      "learning_rate": 0.00013533541773281274,
+      "loss": 0.0843,
+      "step": 205
+    },
+    {
+      "epoch": 3.3714285714285714,
+      "grad_norm": 0.1846872717142105,
+      "learning_rate": 0.0001334360910954027,
+      "loss": 0.0562,
+      "step": 206
+    },
+    {
+      "epoch": 3.3714285714285714,
+      "eval_loss": 1.1273655891418457,
+      "eval_runtime": 18.3216,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 206
+    },
+    {
+      "epoch": 3.387755102040816,
+      "grad_norm": 0.1895626038312912,
+      "learning_rate": 0.00013154349166608577,
+      "loss": 0.0556,
+      "step": 207
+    },
+    {
+      "epoch": 3.404081632653061,
+      "grad_norm": 0.34628579020500183,
+      "learning_rate": 0.00012965781071833752,
+      "loss": 0.1337,
+      "step": 208
+    },
+    {
+      "epoch": 3.404081632653061,
+      "eval_loss": 1.1414172649383545,
+      "eval_runtime": 18.3347,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 208
+    },
+    {
+      "epoch": 3.4204081632653063,
+      "grad_norm": 0.20633243024349213,
+      "learning_rate": 0.0001277792388264245,
+      "loss": 0.0627,
+      "step": 209
+    },
+    {
+      "epoch": 3.436734693877551,
+      "grad_norm": 0.19947534799575806,
+      "learning_rate": 0.00012590796584614484,
+      "loss": 0.0478,
+      "step": 210
+    },
+    {
+      "epoch": 3.436734693877551,
+      "eval_loss": 1.1656532287597656,
+      "eval_runtime": 18.3137,
+      "eval_samples_per_second": 0.874,
+      "eval_steps_per_second": 0.874,
+      "step": 210
+    },
+    {
+      "epoch": 3.453061224489796,
+      "grad_norm": 0.21546797454357147,
+      "learning_rate": 0.0001240441808956398,
+      "loss": 0.0672,
+      "step": 211
+    },
+    {
+      "epoch": 3.4693877551020407,
+      "grad_norm": 0.2232857644557953,
+      "learning_rate": 0.00012218807233628138,
+      "loss": 0.0597,
+      "step": 212
+    },
+    {
+      "epoch": 3.4693877551020407,
+      "eval_loss": 1.1744612455368042,
+      "eval_runtime": 18.3397,
+      "eval_samples_per_second": 0.872,
+      "eval_steps_per_second": 0.872,
+      "step": 212
+    },
+    {
+      "epoch": 3.4857142857142858,
+      "grad_norm": 0.23030999302864075,
+      "learning_rate": 0.00012033982775363548,
+      "loss": 0.0586,
+      "step": 213
+    },
+    {
+      "epoch": 3.502040816326531,
+      "grad_norm": 0.21055705845355988,
+      "learning_rate": 0.00011849963393850383,
+      "loss": 0.0618,
+      "step": 214
+    },
+    {
+      "epoch": 3.502040816326531,
+      "eval_loss": 1.1754231452941895,
+      "eval_runtime": 18.3637,
+      "eval_samples_per_second": 0.871,
+      "eval_steps_per_second": 0.871,
+      "step": 214
+    },
+    {
+      "epoch": 3.5183673469387755,
+      "grad_norm": 0.18197622895240784,
+      "learning_rate": 0.00011666767686804641,
+      "loss": 0.0475,
+      "step": 215
+    },
+    {
+      "epoch": 3.53469387755102,
+      "grad_norm": 0.24238142371177673,
+      "learning_rate": 0.00011484414168698547,
+      "loss": 0.0686,
+      "step": 216
+    },
+    {
+      "epoch": 3.53469387755102,
+      "eval_loss": 1.1673252582550049,
+      "eval_runtime": 18.3403,
+      "eval_samples_per_second": 0.872,
+      "eval_steps_per_second": 0.872,
+      "step": 216
+    },
+    {
+      "epoch": 3.5510204081632653,
+      "grad_norm": 0.2360972762107849,
+      "learning_rate": 0.00011302921268889432,
+      "loss": 0.0738,
+      "step": 217
+    },
+    {
+      "epoch": 3.5673469387755103,
+      "grad_norm": 0.2011600285768509,
+      "learning_rate": 0.00011122307329757206,
+      "loss": 0.0501,
+      "step": 218
+    },
+    {
+      "epoch": 3.5673469387755103,
+      "eval_loss": 1.1578516960144043,
+      "eval_runtime": 18.3646,
+      "eval_samples_per_second": 0.871,
+      "eval_steps_per_second": 0.871,
+      "step": 218
+    },
+    {
+      "epoch": 3.583673469387755,
+      "grad_norm": 0.22133193910121918,
+      "learning_rate": 0.00010942590604850553,
+      "loss": 0.0662,
+      "step": 219
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 0.19864347577095032,
+      "learning_rate": 0.0001076378925704221,
+      "loss": 0.0525,
+      "step": 220
+    },
+    {
+      "epoch": 3.6,
+      "eval_loss": 1.147334337234497,
+      "eval_runtime": 18.3364,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 220
+    },
+    {
+      "epoch": 3.6163265306122447,
+      "grad_norm": 0.1864493042230606,
+      "learning_rate": 0.0001058592135669335,
+      "loss": 0.0584,
+      "step": 221
+    },
+    {
+      "epoch": 3.63265306122449,
+      "grad_norm": 0.1753772795200348,
+      "learning_rate": 0.00010409004879827282,
+      "loss": 0.0508,
+      "step": 222
+    },
+    {
+      "epoch": 3.63265306122449,
+      "eval_loss": 1.1439639329910278,
+      "eval_runtime": 18.3232,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 222
+    },
+    {
+      "epoch": 3.648979591836735,
+      "grad_norm": 0.18084004521369934,
+      "learning_rate": 0.00010233057706312767,
+      "loss": 0.0486,
+      "step": 223
+    },
+    {
+      "epoch": 3.6653061224489796,
+      "grad_norm": 0.19728556275367737,
+      "learning_rate": 0.00010058097618056992,
+      "loss": 0.0545,
+      "step": 224
+    },
+    {
+      "epoch": 3.6653061224489796,
+      "eval_loss": 1.1501585245132446,
+      "eval_runtime": 18.2988,
+      "eval_samples_per_second": 0.874,
+      "eval_steps_per_second": 0.874,
+      "step": 224
+    },
+    {
+      "epoch": 3.6816326530612242,
+      "grad_norm": 0.22434309124946594,
+      "learning_rate": 9.88414229720843e-05,
+      "loss": 0.0502,
+      "step": 225
+    },
+    {
+      "epoch": 3.6979591836734693,
+      "grad_norm": 0.20542308688163757,
+      "learning_rate": 9.711209324369869e-05,
+      "loss": 0.0513,
+      "step": 226
+    },
+    {
+      "epoch": 3.6979591836734693,
+      "eval_loss": 1.160825490951538,
+      "eval_runtime": 18.2895,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 226
+    },
+    {
+      "epoch": 3.7142857142857144,
+      "grad_norm": 0.1923072785139084,
+      "learning_rate": 9.539316176821638e-05,
+      "loss": 0.0495,
+      "step": 227
+    },
+    {
+      "epoch": 3.730612244897959,
+      "grad_norm": 0.22612810134887695,
+      "learning_rate": 9.368480226755238e-05,
+      "loss": 0.0678,
+      "step": 228
+    },
+    {
+      "epoch": 3.730612244897959,
+      "eval_loss": 1.167827844619751,
+      "eval_runtime": 18.2707,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 228
+    },
+    {
+      "epoch": 3.746938775510204,
+      "grad_norm": 0.20918408036231995,
+      "learning_rate": 9.198718739517685e-05,
+      "loss": 0.0584,
+      "step": 229
+    },
+    {
+      "epoch": 3.763265306122449,
+      "grad_norm": 0.20327749848365784,
+      "learning_rate": 9.030048871866599e-05,
+      "loss": 0.064,
+      "step": 230
+    },
+    {
+      "epoch": 3.763265306122449,
+      "eval_loss": 1.1593577861785889,
+      "eval_runtime": 18.2836,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 230
+    },
+    {
+      "epoch": 3.779591836734694,
+      "grad_norm": 0.2150719165802002,
+      "learning_rate": 8.862487670236248e-05,
+      "loss": 0.0649,
+      "step": 231
+    },
+    {
+      "epoch": 3.795918367346939,
+      "grad_norm": 0.2021542638540268,
+      "learning_rate": 8.696052069014804e-05,
+      "loss": 0.0578,
+      "step": 232
+    },
+    {
+      "epoch": 3.795918367346939,
+      "eval_loss": 1.1511321067810059,
+      "eval_runtime": 18.2561,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 232
+    },
+    {
+      "epoch": 3.8122448979591836,
+      "grad_norm": 0.18323124945163727,
+      "learning_rate": 8.53075888883289e-05,
+      "loss": 0.0462,
+      "step": 233
+    },
+    {
+      "epoch": 3.8285714285714287,
+      "grad_norm": 0.20034129917621613,
+      "learning_rate": 8.366624834863585e-05,
+      "loss": 0.0548,
+      "step": 234
+    },
+    {
+      "epoch": 3.8285714285714287,
+      "eval_loss": 1.1508455276489258,
+      "eval_runtime": 18.2577,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 234
+    },
+    {
+      "epoch": 3.8448979591836734,
+      "grad_norm": 0.2235688865184784,
+      "learning_rate": 8.203666495134159e-05,
+      "loss": 0.0642,
+      "step": 235
+    },
+    {
+      "epoch": 3.8612244897959185,
+      "grad_norm": 0.22254431247711182,
+      "learning_rate": 8.04190033884963e-05,
+      "loss": 0.0671,
+      "step": 236
+    },
+    {
+      "epoch": 3.8612244897959185,
+      "eval_loss": 1.1543577909469604,
+      "eval_runtime": 18.2697,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 236
+    },
+    {
+      "epoch": 3.877551020408163,
+      "grad_norm": 0.18185441195964813,
+      "learning_rate": 7.881342714728275e-05,
+      "loss": 0.0556,
+      "step": 237
+    },
+    {
+      "epoch": 3.8938775510204082,
+      "grad_norm": 0.19241996109485626,
+      "learning_rate": 7.722009849349447e-05,
+      "loss": 0.0477,
+      "step": 238
+    },
+    {
+      "epoch": 3.8938775510204082,
+      "eval_loss": 1.1588821411132812,
+      "eval_runtime": 18.2702,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 238
+    },
+    {
+      "epoch": 3.910204081632653,
+      "grad_norm": 0.2237924337387085,
+      "learning_rate": 7.563917845513577e-05,
+      "loss": 0.0617,
+      "step": 239
+    },
+    {
+      "epoch": 3.926530612244898,
+      "grad_norm": 0.2120658904314041,
+      "learning_rate": 7.407082680614799e-05,
+      "loss": 0.0533,
+      "step": 240
+    },
+    {
+      "epoch": 3.926530612244898,
+      "eval_loss": 1.158017635345459,
+      "eval_runtime": 18.2939,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 240
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 305,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 30,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.8990937961362534e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-240/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5208f4e9c07bb6bd2f0bc574a52273bdf74ca404d495a5bf559488089674f2f5
+size 5624

checkpoints/checkpoint-300/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: /home/anon/AI-Models/LLM/Mistral-Small-24B-Instruct-2501/
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.14.0

checkpoints/checkpoint-300/adapter_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/anon/AI-Models/LLM/Mistral-Small-24B-Instruct-2501/",
+  "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 64,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "gate_proj",
+    "v_proj",
+    "q_proj",
+    "down_proj",
+    "up_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoints/checkpoint-300/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84ceedc535ec016bab8a1b1e772f1421f7e0742e5b4da801f52e2157e82374ec
+size 739321784

checkpoints/checkpoint-300/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00520aad3349bec9751fea73edd6203fffab99de4f9c47a40415accc217d7c77
+size 377514802

checkpoints/checkpoint-300/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1e4d0fb06f43088fdaf67dfddf73d6ddc58e4ecb4647d4c0c8c693bda0afbfb
+size 14244

checkpoints/checkpoint-300/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5e276cc1df9beb86a4aca85c7c51fce85a96007c7e7a6a22ef913f2618ef09a
+size 1064

checkpoints/checkpoint-300/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,1026 @@

+{
+  "additional_special_tokens": [
+    "<unk>",
+    "<s>",
+    "</s>",
+    "[INST]",
+    "[/INST]",
+    "[AVAILABLE_TOOLS]",
+    "[/AVAILABLE_TOOLS]",
+    "[TOOL_RESULTS]",
+    "[/TOOL_RESULTS]",
+    "[TOOL_CALLS]",
+    "[IMG]",
+    "<pad>",
+    "[IMG_BREAK]",
+    "[IMG_END]",
+    "[PREFIX]",
+    "[MIDDLE]",
+    "[SUFFIX]",
+    "[SYSTEM_PROMPT]",
+    "[/SYSTEM_PROMPT]",
+    "[TOOL_CONTENT]",
+    "<SPECIAL_20>",
+    "<SPECIAL_21>",
+    "<SPECIAL_22>",
+    "<SPECIAL_23>",
+    "<SPECIAL_24>",
+    "<SPECIAL_25>",
+    "<SPECIAL_26>",
+    "<SPECIAL_27>",
+    "<SPECIAL_28>",
+    "<SPECIAL_29>",
+    "<SPECIAL_30>",
+    "<SPECIAL_31>",
+    "<SPECIAL_32>",
+    "<SPECIAL_33>",
+    "<SPECIAL_34>",
+    "<SPECIAL_35>",
+    "<SPECIAL_36>",
+    "<SPECIAL_37>",
+    "<SPECIAL_38>",
+    "<SPECIAL_39>",
+    "<SPECIAL_40>",
+    "<SPECIAL_41>",
+    "<SPECIAL_42>",
+    "<SPECIAL_43>",
+    "<SPECIAL_44>",
+    "<SPECIAL_45>",
+    "<SPECIAL_46>",
+    "<SPECIAL_47>",
+    "<SPECIAL_48>",
+    "<SPECIAL_49>",
+    "<SPECIAL_50>",
+    "<SPECIAL_51>",
+    "<SPECIAL_52>",
+    "<SPECIAL_53>",
+    "<SPECIAL_54>",
+    "<SPECIAL_55>",
+    "<SPECIAL_56>",
+    "<SPECIAL_57>",
+    "<SPECIAL_58>",
+    "<SPECIAL_59>",
+    "<SPECIAL_60>",
+    "<SPECIAL_61>",
+    "<SPECIAL_62>",
+    "<SPECIAL_63>",
+    "<SPECIAL_64>",
+    "<SPECIAL_65>",
+    "<SPECIAL_66>",
+    "<SPECIAL_67>",
+    "<SPECIAL_68>",
+    "<SPECIAL_69>",
+    "<SPECIAL_70>",
+    "<SPECIAL_71>",
+    "<SPECIAL_72>",
+    "<SPECIAL_73>",
+    "<SPECIAL_74>",
+    "<SPECIAL_75>",
+    "<SPECIAL_76>",
+    "<SPECIAL_77>",
+    "<SPECIAL_78>",
+    "<SPECIAL_79>",
+    "<SPECIAL_80>",
+    "<SPECIAL_81>",
+    "<SPECIAL_82>",
+    "<SPECIAL_83>",
+    "<SPECIAL_84>",
+    "<SPECIAL_85>",
+    "<SPECIAL_86>",
+    "<SPECIAL_87>",
+    "<SPECIAL_88>",
+    "<SPECIAL_89>",
+    "<SPECIAL_90>",
+    "<SPECIAL_91>",
+    "<SPECIAL_92>",
+    "<SPECIAL_93>",
+    "<SPECIAL_94>",
+    "<SPECIAL_95>",
+    "<SPECIAL_96>",
+    "<SPECIAL_97>",
+    "<SPECIAL_98>",
+    "<SPECIAL_99>",
+    "<SPECIAL_100>",
+    "<SPECIAL_101>",
+    "<SPECIAL_102>",
+    "<SPECIAL_103>",
+    "<SPECIAL_104>",
+    "<SPECIAL_105>",
+    "<SPECIAL_106>",
+    "<SPECIAL_107>",
+    "<SPECIAL_108>",
+    "<SPECIAL_109>",
+    "<SPECIAL_110>",
+    "<SPECIAL_111>",
+    "<SPECIAL_112>",
+    "<SPECIAL_113>",
+    "<SPECIAL_114>",
+    "<SPECIAL_115>",
+    "<SPECIAL_116>",
+    "<SPECIAL_117>",
+    "<SPECIAL_118>",
+    "<SPECIAL_119>",
+    "<SPECIAL_120>",
+    "<SPECIAL_121>",
+    "<SPECIAL_122>",
+    "<SPECIAL_123>",
+    "<SPECIAL_124>",
+    "<SPECIAL_125>",
+    "<SPECIAL_126>",
+    "<SPECIAL_127>",
+    "<SPECIAL_128>",
+    "<SPECIAL_129>",
+    "<SPECIAL_130>",
+    "<SPECIAL_131>",
+    "<SPECIAL_132>",
+    "<SPECIAL_133>",
+    "<SPECIAL_134>",
+    "<SPECIAL_135>",
+    "<SPECIAL_136>",
+    "<SPECIAL_137>",
+    "<SPECIAL_138>",
+    "<SPECIAL_139>",
+    "<SPECIAL_140>",
+    "<SPECIAL_141>",
+    "<SPECIAL_142>",
+    "<SPECIAL_143>",
+    "<SPECIAL_144>",
+    "<SPECIAL_145>",
+    "<SPECIAL_146>",
+    "<SPECIAL_147>",
+    "<SPECIAL_148>",
+    "<SPECIAL_149>",
+    "<SPECIAL_150>",
+    "<SPECIAL_151>",
+    "<SPECIAL_152>",
+    "<SPECIAL_153>",
+    "<SPECIAL_154>",
+    "<SPECIAL_155>",
+    "<SPECIAL_156>",
+    "<SPECIAL_157>",
+    "<SPECIAL_158>",
+    "<SPECIAL_159>",
+    "<SPECIAL_160>",
+    "<SPECIAL_161>",
+    "<SPECIAL_162>",
+    "<SPECIAL_163>",
+    "<SPECIAL_164>",
+    "<SPECIAL_165>",
+    "<SPECIAL_166>",
+    "<SPECIAL_167>",
+    "<SPECIAL_168>",
+    "<SPECIAL_169>",
+    "<SPECIAL_170>",
+    "<SPECIAL_171>",
+    "<SPECIAL_172>",
+    "<SPECIAL_173>",
+    "<SPECIAL_174>",
+    "<SPECIAL_175>",
+    "<SPECIAL_176>",
+    "<SPECIAL_177>",
+    "<SPECIAL_178>",
+    "<SPECIAL_179>",
+    "<SPECIAL_180>",
+    "<SPECIAL_181>",
+    "<SPECIAL_182>",
+    "<SPECIAL_183>",
+    "<SPECIAL_184>",
+    "<SPECIAL_185>",
+    "<SPECIAL_186>",
+    "<SPECIAL_187>",
+    "<SPECIAL_188>",
+    "<SPECIAL_189>",
+    "<SPECIAL_190>",
+    "<SPECIAL_191>",
+    "<SPECIAL_192>",
+    "<SPECIAL_193>",
+    "<SPECIAL_194>",
+    "<SPECIAL_195>",
+    "<SPECIAL_196>",
+    "<SPECIAL_197>",
+    "<SPECIAL_198>",
+    "<SPECIAL_199>",
+    "<SPECIAL_200>",
+    "<SPECIAL_201>",
+    "<SPECIAL_202>",
+    "<SPECIAL_203>",
+    "<SPECIAL_204>",
+    "<SPECIAL_205>",
+    "<SPECIAL_206>",
+    "<SPECIAL_207>",
+    "<SPECIAL_208>",
+    "<SPECIAL_209>",
+    "<SPECIAL_210>",
+    "<SPECIAL_211>",
+    "<SPECIAL_212>",
+    "<SPECIAL_213>",
+    "<SPECIAL_214>",
+    "<SPECIAL_215>",
+    "<SPECIAL_216>",
+    "<SPECIAL_217>",
+    "<SPECIAL_218>",
+    "<SPECIAL_219>",
+    "<SPECIAL_220>",
+    "<SPECIAL_221>",
+    "<SPECIAL_222>",
+    "<SPECIAL_223>",
+    "<SPECIAL_224>",
+    "<SPECIAL_225>",
+    "<SPECIAL_226>",
+    "<SPECIAL_227>",
+    "<SPECIAL_228>",
+    "<SPECIAL_229>",
+    "<SPECIAL_230>",
+    "<SPECIAL_231>",
+    "<SPECIAL_232>",
+    "<SPECIAL_233>",
+    "<SPECIAL_234>",
+    "<SPECIAL_235>",
+    "<SPECIAL_236>",
+    "<SPECIAL_237>",
+    "<SPECIAL_238>",
+    "<SPECIAL_239>",
+    "<SPECIAL_240>",
+    "<SPECIAL_241>",
+    "<SPECIAL_242>",
+    "<SPECIAL_243>",
+    "<SPECIAL_244>",
+    "<SPECIAL_245>",
+    "<SPECIAL_246>",
+    "<SPECIAL_247>",
+    "<SPECIAL_248>",
+    "<SPECIAL_249>",
+    "<SPECIAL_250>",
+    "<SPECIAL_251>",
+    "<SPECIAL_252>",
+    "<SPECIAL_253>",
+    "<SPECIAL_254>",
+    "<SPECIAL_255>",
+    "<SPECIAL_256>",
+    "<SPECIAL_257>",
+    "<SPECIAL_258>",
+    "<SPECIAL_259>",
+    "<SPECIAL_260>",
+    "<SPECIAL_261>",
+    "<SPECIAL_262>",
+    "<SPECIAL_263>",
+    "<SPECIAL_264>",
+    "<SPECIAL_265>",
+    "<SPECIAL_266>",
+    "<SPECIAL_267>",
+    "<SPECIAL_268>",
+    "<SPECIAL_269>",
+    "<SPECIAL_270>",
+    "<SPECIAL_271>",
+    "<SPECIAL_272>",
+    "<SPECIAL_273>",
+    "<SPECIAL_274>",
+    "<SPECIAL_275>",
+    "<SPECIAL_276>",
+    "<SPECIAL_277>",
+    "<SPECIAL_278>",
+    "<SPECIAL_279>",
+    "<SPECIAL_280>",
+    "<SPECIAL_281>",
+    "<SPECIAL_282>",
+    "<SPECIAL_283>",
+    "<SPECIAL_284>",
+    "<SPECIAL_285>",
+    "<SPECIAL_286>",
+    "<SPECIAL_287>",
+    "<SPECIAL_288>",
+    "<SPECIAL_289>",
+    "<SPECIAL_290>",
+    "<SPECIAL_291>",
+    "<SPECIAL_292>",
+    "<SPECIAL_293>",
+    "<SPECIAL_294>",
+    "<SPECIAL_295>",
+    "<SPECIAL_296>",
+    "<SPECIAL_297>",
+    "<SPECIAL_298>",
+    "<SPECIAL_299>",
+    "<SPECIAL_300>",
+    "<SPECIAL_301>",
+    "<SPECIAL_302>",
+    "<SPECIAL_303>",
+    "<SPECIAL_304>",
+    "<SPECIAL_305>",
+    "<SPECIAL_306>",
+    "<SPECIAL_307>",
+    "<SPECIAL_308>",
+    "<SPECIAL_309>",
+    "<SPECIAL_310>",
+    "<SPECIAL_311>",
+    "<SPECIAL_312>",
+    "<SPECIAL_313>",
+    "<SPECIAL_314>",
+    "<SPECIAL_315>",
+    "<SPECIAL_316>",
+    "<SPECIAL_317>",
+    "<SPECIAL_318>",
+    "<SPECIAL_319>",
+    "<SPECIAL_320>",
+    "<SPECIAL_321>",
+    "<SPECIAL_322>",
+    "<SPECIAL_323>",
+    "<SPECIAL_324>",
+    "<SPECIAL_325>",
+    "<SPECIAL_326>",
+    "<SPECIAL_327>",
+    "<SPECIAL_328>",
+    "<SPECIAL_329>",
+    "<SPECIAL_330>",
+    "<SPECIAL_331>",
+    "<SPECIAL_332>",
+    "<SPECIAL_333>",
+    "<SPECIAL_334>",
+    "<SPECIAL_335>",
+    "<SPECIAL_336>",
+    "<SPECIAL_337>",
+    "<SPECIAL_338>",
+    "<SPECIAL_339>",
+    "<SPECIAL_340>",
+    "<SPECIAL_341>",
+    "<SPECIAL_342>",
+    "<SPECIAL_343>",
+    "<SPECIAL_344>",
+    "<SPECIAL_345>",
+    "<SPECIAL_346>",
+    "<SPECIAL_347>",
+    "<SPECIAL_348>",
+    "<SPECIAL_349>",
+    "<SPECIAL_350>",
+    "<SPECIAL_351>",
+    "<SPECIAL_352>",
+    "<SPECIAL_353>",
+    "<SPECIAL_354>",
+    "<SPECIAL_355>",
+    "<SPECIAL_356>",
+    "<SPECIAL_357>",
+    "<SPECIAL_358>",
+    "<SPECIAL_359>",
+    "<SPECIAL_360>",
+    "<SPECIAL_361>",
+    "<SPECIAL_362>",
+    "<SPECIAL_363>",
+    "<SPECIAL_364>",
+    "<SPECIAL_365>",
+    "<SPECIAL_366>",
+    "<SPECIAL_367>",
+    "<SPECIAL_368>",
+    "<SPECIAL_369>",
+    "<SPECIAL_370>",
+    "<SPECIAL_371>",
+    "<SPECIAL_372>",
+    "<SPECIAL_373>",
+    "<SPECIAL_374>",
+    "<SPECIAL_375>",
+    "<SPECIAL_376>",
+    "<SPECIAL_377>",
+    "<SPECIAL_378>",
+    "<SPECIAL_379>",
+    "<SPECIAL_380>",
+    "<SPECIAL_381>",
+    "<SPECIAL_382>",
+    "<SPECIAL_383>",
+    "<SPECIAL_384>",
+    "<SPECIAL_385>",
+    "<SPECIAL_386>",
+    "<SPECIAL_387>",
+    "<SPECIAL_388>",
+    "<SPECIAL_389>",
+    "<SPECIAL_390>",
+    "<SPECIAL_391>",
+    "<SPECIAL_392>",
+    "<SPECIAL_393>",
+    "<SPECIAL_394>",
+    "<SPECIAL_395>",
+    "<SPECIAL_396>",
+    "<SPECIAL_397>",
+    "<SPECIAL_398>",
+    "<SPECIAL_399>",
+    "<SPECIAL_400>",
+    "<SPECIAL_401>",
+    "<SPECIAL_402>",
+    "<SPECIAL_403>",
+    "<SPECIAL_404>",
+    "<SPECIAL_405>",
+    "<SPECIAL_406>",
+    "<SPECIAL_407>",
+    "<SPECIAL_408>",
+    "<SPECIAL_409>",
+    "<SPECIAL_410>",
+    "<SPECIAL_411>",
+    "<SPECIAL_412>",
+    "<SPECIAL_413>",
+    "<SPECIAL_414>",
+    "<SPECIAL_415>",
+    "<SPECIAL_416>",
+    "<SPECIAL_417>",
+    "<SPECIAL_418>",
+    "<SPECIAL_419>",
+    "<SPECIAL_420>",
+    "<SPECIAL_421>",
+    "<SPECIAL_422>",
+    "<SPECIAL_423>",
+    "<SPECIAL_424>",
+    "<SPECIAL_425>",
+    "<SPECIAL_426>",
+    "<SPECIAL_427>",
+    "<SPECIAL_428>",
+    "<SPECIAL_429>",
+    "<SPECIAL_430>",
+    "<SPECIAL_431>",
+    "<SPECIAL_432>",
+    "<SPECIAL_433>",
+    "<SPECIAL_434>",
+    "<SPECIAL_435>",
+    "<SPECIAL_436>",
+    "<SPECIAL_437>",
+    "<SPECIAL_438>",
+    "<SPECIAL_439>",
+    "<SPECIAL_440>",
+    "<SPECIAL_441>",
+    "<SPECIAL_442>",
+    "<SPECIAL_443>",
+    "<SPECIAL_444>",
+    "<SPECIAL_445>",
+    "<SPECIAL_446>",
+    "<SPECIAL_447>",
+    "<SPECIAL_448>",
+    "<SPECIAL_449>",
+    "<SPECIAL_450>",
+    "<SPECIAL_451>",
+    "<SPECIAL_452>",
+    "<SPECIAL_453>",
+    "<SPECIAL_454>",
+    "<SPECIAL_455>",
+    "<SPECIAL_456>",
+    "<SPECIAL_457>",
+    "<SPECIAL_458>",
+    "<SPECIAL_459>",
+    "<SPECIAL_460>",
+    "<SPECIAL_461>",
+    "<SPECIAL_462>",
+    "<SPECIAL_463>",
+    "<SPECIAL_464>",
+    "<SPECIAL_465>",
+    "<SPECIAL_466>",
+    "<SPECIAL_467>",
+    "<SPECIAL_468>",
+    "<SPECIAL_469>",
+    "<SPECIAL_470>",
+    "<SPECIAL_471>",
+    "<SPECIAL_472>",
+    "<SPECIAL_473>",
+    "<SPECIAL_474>",
+    "<SPECIAL_475>",
+    "<SPECIAL_476>",
+    "<SPECIAL_477>",
+    "<SPECIAL_478>",
+    "<SPECIAL_479>",
+    "<SPECIAL_480>",
+    "<SPECIAL_481>",
+    "<SPECIAL_482>",
+    "<SPECIAL_483>",
+    "<SPECIAL_484>",
+    "<SPECIAL_485>",
+    "<SPECIAL_486>",
+    "<SPECIAL_487>",
+    "<SPECIAL_488>",
+    "<SPECIAL_489>",
+    "<SPECIAL_490>",
+    "<SPECIAL_491>",
+    "<SPECIAL_492>",
+    "<SPECIAL_493>",
+    "<SPECIAL_494>",
+    "<SPECIAL_495>",
+    "<SPECIAL_496>",
+    "<SPECIAL_497>",
+    "<SPECIAL_498>",
+    "<SPECIAL_499>",
+    "<SPECIAL_500>",
+    "<SPECIAL_501>",
+    "<SPECIAL_502>",
+    "<SPECIAL_503>",
+    "<SPECIAL_504>",
+    "<SPECIAL_505>",
+    "<SPECIAL_506>",
+    "<SPECIAL_507>",
+    "<SPECIAL_508>",
+    "<SPECIAL_509>",
+    "<SPECIAL_510>",
+    "<SPECIAL_511>",
+    "<SPECIAL_512>",
+    "<SPECIAL_513>",
+    "<SPECIAL_514>",
+    "<SPECIAL_515>",
+    "<SPECIAL_516>",
+    "<SPECIAL_517>",
+    "<SPECIAL_518>",
+    "<SPECIAL_519>",
+    "<SPECIAL_520>",
+    "<SPECIAL_521>",
+    "<SPECIAL_522>",
+    "<SPECIAL_523>",
+    "<SPECIAL_524>",
+    "<SPECIAL_525>",
+    "<SPECIAL_526>",
+    "<SPECIAL_527>",
+    "<SPECIAL_528>",
+    "<SPECIAL_529>",
+    "<SPECIAL_530>",
+    "<SPECIAL_531>",
+    "<SPECIAL_532>",
+    "<SPECIAL_533>",
+    "<SPECIAL_534>",
+    "<SPECIAL_535>",
+    "<SPECIAL_536>",
+    "<SPECIAL_537>",
+    "<SPECIAL_538>",
+    "<SPECIAL_539>",
+    "<SPECIAL_540>",
+    "<SPECIAL_541>",
+    "<SPECIAL_542>",
+    "<SPECIAL_543>",
+    "<SPECIAL_544>",
+    "<SPECIAL_545>",
+    "<SPECIAL_546>",
+    "<SPECIAL_547>",
+    "<SPECIAL_548>",
+    "<SPECIAL_549>",
+    "<SPECIAL_550>",
+    "<SPECIAL_551>",
+    "<SPECIAL_552>",
+    "<SPECIAL_553>",
+    "<SPECIAL_554>",
+    "<SPECIAL_555>",
+    "<SPECIAL_556>",
+    "<SPECIAL_557>",
+    "<SPECIAL_558>",
+    "<SPECIAL_559>",
+    "<SPECIAL_560>",
+    "<SPECIAL_561>",
+    "<SPECIAL_562>",
+    "<SPECIAL_563>",
+    "<SPECIAL_564>",
+    "<SPECIAL_565>",
+    "<SPECIAL_566>",
+    "<SPECIAL_567>",
+    "<SPECIAL_568>",
+    "<SPECIAL_569>",
+    "<SPECIAL_570>",
+    "<SPECIAL_571>",
+    "<SPECIAL_572>",
+    "<SPECIAL_573>",
+    "<SPECIAL_574>",
+    "<SPECIAL_575>",
+    "<SPECIAL_576>",
+    "<SPECIAL_577>",
+    "<SPECIAL_578>",
+    "<SPECIAL_579>",
+    "<SPECIAL_580>",
+    "<SPECIAL_581>",
+    "<SPECIAL_582>",
+    "<SPECIAL_583>",
+    "<SPECIAL_584>",
+    "<SPECIAL_585>",
+    "<SPECIAL_586>",
+    "<SPECIAL_587>",
+    "<SPECIAL_588>",
+    "<SPECIAL_589>",
+    "<SPECIAL_590>",
+    "<SPECIAL_591>",
+    "<SPECIAL_592>",
+    "<SPECIAL_593>",
+    "<SPECIAL_594>",
+    "<SPECIAL_595>",
+    "<SPECIAL_596>",
+    "<SPECIAL_597>",
+    "<SPECIAL_598>",
+    "<SPECIAL_599>",
+    "<SPECIAL_600>",
+    "<SPECIAL_601>",
+    "<SPECIAL_602>",
+    "<SPECIAL_603>",
+    "<SPECIAL_604>",
+    "<SPECIAL_605>",
+    "<SPECIAL_606>",
+    "<SPECIAL_607>",
+    "<SPECIAL_608>",
+    "<SPECIAL_609>",
+    "<SPECIAL_610>",
+    "<SPECIAL_611>",
+    "<SPECIAL_612>",
+    "<SPECIAL_613>",
+    "<SPECIAL_614>",
+    "<SPECIAL_615>",
+    "<SPECIAL_616>",
+    "<SPECIAL_617>",
+    "<SPECIAL_618>",
+    "<SPECIAL_619>",
+    "<SPECIAL_620>",
+    "<SPECIAL_621>",
+    "<SPECIAL_622>",
+    "<SPECIAL_623>",
+    "<SPECIAL_624>",
+    "<SPECIAL_625>",
+    "<SPECIAL_626>",
+    "<SPECIAL_627>",
+    "<SPECIAL_628>",
+    "<SPECIAL_629>",
+    "<SPECIAL_630>",
+    "<SPECIAL_631>",
+    "<SPECIAL_632>",
+    "<SPECIAL_633>",
+    "<SPECIAL_634>",
+    "<SPECIAL_635>",
+    "<SPECIAL_636>",
+    "<SPECIAL_637>",
+    "<SPECIAL_638>",
+    "<SPECIAL_639>",
+    "<SPECIAL_640>",
+    "<SPECIAL_641>",
+    "<SPECIAL_642>",
+    "<SPECIAL_643>",
+    "<SPECIAL_644>",
+    "<SPECIAL_645>",
+    "<SPECIAL_646>",
+    "<SPECIAL_647>",
+    "<SPECIAL_648>",
+    "<SPECIAL_649>",
+    "<SPECIAL_650>",
+    "<SPECIAL_651>",
+    "<SPECIAL_652>",
+    "<SPECIAL_653>",
+    "<SPECIAL_654>",
+    "<SPECIAL_655>",
+    "<SPECIAL_656>",
+    "<SPECIAL_657>",
+    "<SPECIAL_658>",
+    "<SPECIAL_659>",
+    "<SPECIAL_660>",
+    "<SPECIAL_661>",
+    "<SPECIAL_662>",
+    "<SPECIAL_663>",
+    "<SPECIAL_664>",
+    "<SPECIAL_665>",
+    "<SPECIAL_666>",
+    "<SPECIAL_667>",
+    "<SPECIAL_668>",
+    "<SPECIAL_669>",
+    "<SPECIAL_670>",
+    "<SPECIAL_671>",
+    "<SPECIAL_672>",
+    "<SPECIAL_673>",
+    "<SPECIAL_674>",
+    "<SPECIAL_675>",
+    "<SPECIAL_676>",
+    "<SPECIAL_677>",
+    "<SPECIAL_678>",
+    "<SPECIAL_679>",
+    "<SPECIAL_680>",
+    "<SPECIAL_681>",
+    "<SPECIAL_682>",
+    "<SPECIAL_683>",
+    "<SPECIAL_684>",
+    "<SPECIAL_685>",
+    "<SPECIAL_686>",
+    "<SPECIAL_687>",
+    "<SPECIAL_688>",
+    "<SPECIAL_689>",
+    "<SPECIAL_690>",
+    "<SPECIAL_691>",
+    "<SPECIAL_692>",
+    "<SPECIAL_693>",
+    "<SPECIAL_694>",
+    "<SPECIAL_695>",
+    "<SPECIAL_696>",
+    "<SPECIAL_697>",
+    "<SPECIAL_698>",
+    "<SPECIAL_699>",
+    "<SPECIAL_700>",
+    "<SPECIAL_701>",
+    "<SPECIAL_702>",
+    "<SPECIAL_703>",
+    "<SPECIAL_704>",
+    "<SPECIAL_705>",
+    "<SPECIAL_706>",
+    "<SPECIAL_707>",
+    "<SPECIAL_708>",
+    "<SPECIAL_709>",
+    "<SPECIAL_710>",
+    "<SPECIAL_711>",
+    "<SPECIAL_712>",
+    "<SPECIAL_713>",
+    "<SPECIAL_714>",
+    "<SPECIAL_715>",
+    "<SPECIAL_716>",
+    "<SPECIAL_717>",
+    "<SPECIAL_718>",
+    "<SPECIAL_719>",
+    "<SPECIAL_720>",
+    "<SPECIAL_721>",
+    "<SPECIAL_722>",
+    "<SPECIAL_723>",
+    "<SPECIAL_724>",
+    "<SPECIAL_725>",
+    "<SPECIAL_726>",
+    "<SPECIAL_727>",
+    "<SPECIAL_728>",
+    "<SPECIAL_729>",
+    "<SPECIAL_730>",
+    "<SPECIAL_731>",
+    "<SPECIAL_732>",
+    "<SPECIAL_733>",
+    "<SPECIAL_734>",
+    "<SPECIAL_735>",
+    "<SPECIAL_736>",
+    "<SPECIAL_737>",
+    "<SPECIAL_738>",
+    "<SPECIAL_739>",
+    "<SPECIAL_740>",
+    "<SPECIAL_741>",
+    "<SPECIAL_742>",
+    "<SPECIAL_743>",
+    "<SPECIAL_744>",
+    "<SPECIAL_745>",
+    "<SPECIAL_746>",
+    "<SPECIAL_747>",
+    "<SPECIAL_748>",
+    "<SPECIAL_749>",
+    "<SPECIAL_750>",
+    "<SPECIAL_751>",
+    "<SPECIAL_752>",
+    "<SPECIAL_753>",
+    "<SPECIAL_754>",
+    "<SPECIAL_755>",
+    "<SPECIAL_756>",
+    "<SPECIAL_757>",
+    "<SPECIAL_758>",
+    "<SPECIAL_759>",
+    "<SPECIAL_760>",
+    "<SPECIAL_761>",
+    "<SPECIAL_762>",
+    "<SPECIAL_763>",
+    "<SPECIAL_764>",
+    "<SPECIAL_765>",
+    "<SPECIAL_766>",
+    "<SPECIAL_767>",
+    "<SPECIAL_768>",
+    "<SPECIAL_769>",
+    "<SPECIAL_770>",
+    "<SPECIAL_771>",
+    "<SPECIAL_772>",
+    "<SPECIAL_773>",
+    "<SPECIAL_774>",
+    "<SPECIAL_775>",
+    "<SPECIAL_776>",
+    "<SPECIAL_777>",
+    "<SPECIAL_778>",
+    "<SPECIAL_779>",
+    "<SPECIAL_780>",
+    "<SPECIAL_781>",
+    "<SPECIAL_782>",
+    "<SPECIAL_783>",
+    "<SPECIAL_784>",
+    "<SPECIAL_785>",
+    "<SPECIAL_786>",
+    "<SPECIAL_787>",
+    "<SPECIAL_788>",
+    "<SPECIAL_789>",
+    "<SPECIAL_790>",
+    "<SPECIAL_791>",
+    "<SPECIAL_792>",
+    "<SPECIAL_793>",
+    "<SPECIAL_794>",
+    "<SPECIAL_795>",
+    "<SPECIAL_796>",
+    "<SPECIAL_797>",
+    "<SPECIAL_798>",
+    "<SPECIAL_799>",
+    "<SPECIAL_800>",
+    "<SPECIAL_801>",
+    "<SPECIAL_802>",
+    "<SPECIAL_803>",
+    "<SPECIAL_804>",
+    "<SPECIAL_805>",
+    "<SPECIAL_806>",
+    "<SPECIAL_807>",
+    "<SPECIAL_808>",
+    "<SPECIAL_809>",
+    "<SPECIAL_810>",
+    "<SPECIAL_811>",
+    "<SPECIAL_812>",
+    "<SPECIAL_813>",
+    "<SPECIAL_814>",
+    "<SPECIAL_815>",
+    "<SPECIAL_816>",
+    "<SPECIAL_817>",
+    "<SPECIAL_818>",
+    "<SPECIAL_819>",
+    "<SPECIAL_820>",
+    "<SPECIAL_821>",
+    "<SPECIAL_822>",
+    "<SPECIAL_823>",
+    "<SPECIAL_824>",
+    "<SPECIAL_825>",
+    "<SPECIAL_826>",
+    "<SPECIAL_827>",
+    "<SPECIAL_828>",
+    "<SPECIAL_829>",
+    "<SPECIAL_830>",
+    "<SPECIAL_831>",
+    "<SPECIAL_832>",
+    "<SPECIAL_833>",
+    "<SPECIAL_834>",
+    "<SPECIAL_835>",
+    "<SPECIAL_836>",
+    "<SPECIAL_837>",
+    "<SPECIAL_838>",
+    "<SPECIAL_839>",
+    "<SPECIAL_840>",
+    "<SPECIAL_841>",
+    "<SPECIAL_842>",
+    "<SPECIAL_843>",
+    "<SPECIAL_844>",
+    "<SPECIAL_845>",
+    "<SPECIAL_846>",
+    "<SPECIAL_847>",
+    "<SPECIAL_848>",
+    "<SPECIAL_849>",
+    "<SPECIAL_850>",
+    "<SPECIAL_851>",
+    "<SPECIAL_852>",
+    "<SPECIAL_853>",
+    "<SPECIAL_854>",
+    "<SPECIAL_855>",
+    "<SPECIAL_856>",
+    "<SPECIAL_857>",
+    "<SPECIAL_858>",
+    "<SPECIAL_859>",
+    "<SPECIAL_860>",
+    "<SPECIAL_861>",
+    "<SPECIAL_862>",
+    "<SPECIAL_863>",
+    "<SPECIAL_864>",
+    "<SPECIAL_865>",
+    "<SPECIAL_866>",
+    "<SPECIAL_867>",
+    "<SPECIAL_868>",
+    "<SPECIAL_869>",
+    "<SPECIAL_870>",
+    "<SPECIAL_871>",
+    "<SPECIAL_872>",
+    "<SPECIAL_873>",
+    "<SPECIAL_874>",
+    "<SPECIAL_875>",
+    "<SPECIAL_876>",
+    "<SPECIAL_877>",
+    "<SPECIAL_878>",
+    "<SPECIAL_879>",
+    "<SPECIAL_880>",
+    "<SPECIAL_881>",
+    "<SPECIAL_882>",
+    "<SPECIAL_883>",
+    "<SPECIAL_884>",
+    "<SPECIAL_885>",
+    "<SPECIAL_886>",
+    "<SPECIAL_887>",
+    "<SPECIAL_888>",
+    "<SPECIAL_889>",
+    "<SPECIAL_890>",
+    "<SPECIAL_891>",
+    "<SPECIAL_892>",
+    "<SPECIAL_893>",
+    "<SPECIAL_894>",
+    "<SPECIAL_895>",
+    "<SPECIAL_896>",
+    "<SPECIAL_897>",
+    "<SPECIAL_898>",
+    "<SPECIAL_899>",
+    "<SPECIAL_900>",
+    "<SPECIAL_901>",
+    "<SPECIAL_902>",
+    "<SPECIAL_903>",
+    "<SPECIAL_904>",
+    "<SPECIAL_905>",
+    "<SPECIAL_906>",
+    "<SPECIAL_907>",
+    "<SPECIAL_908>",
+    "<SPECIAL_909>",
+    "<SPECIAL_910>",
+    "<SPECIAL_911>",
+    "<SPECIAL_912>",
+    "<SPECIAL_913>",
+    "<SPECIAL_914>",
+    "<SPECIAL_915>",
+    "<SPECIAL_916>",
+    "<SPECIAL_917>",
+    "<SPECIAL_918>",
+    "<SPECIAL_919>",
+    "<SPECIAL_920>",
+    "<SPECIAL_921>",
+    "<SPECIAL_922>",
+    "<SPECIAL_923>",
+    "<SPECIAL_924>",
+    "<SPECIAL_925>",
+    "<SPECIAL_926>",
+    "<SPECIAL_927>",
+    "<SPECIAL_928>",
+    "<SPECIAL_929>",
+    "<SPECIAL_930>",
+    "<SPECIAL_931>",
+    "<SPECIAL_932>",
+    "<SPECIAL_933>",
+    "<SPECIAL_934>",
+    "<SPECIAL_935>",
+    "<SPECIAL_936>",
+    "<SPECIAL_937>",
+    "<SPECIAL_938>",
+    "<SPECIAL_939>",
+    "<SPECIAL_940>",
+    "<SPECIAL_941>",
+    "<SPECIAL_942>",
+    "<SPECIAL_943>",
+    "<SPECIAL_944>",
+    "<SPECIAL_945>",
+    "<SPECIAL_946>",
+    "<SPECIAL_947>",
+    "<SPECIAL_948>",
+    "<SPECIAL_949>",
+    "<SPECIAL_950>",
+    "<SPECIAL_951>",
+    "<SPECIAL_952>",
+    "<SPECIAL_953>",
+    "<SPECIAL_954>",
+    "<SPECIAL_955>",
+    "<SPECIAL_956>",
+    "<SPECIAL_957>",
+    "<SPECIAL_958>",
+    "<SPECIAL_959>",
+    "<SPECIAL_960>",
+    "<SPECIAL_961>",
+    "<SPECIAL_962>",
+    "<SPECIAL_963>",
+    "<SPECIAL_964>",
+    "<SPECIAL_965>",
+    "<SPECIAL_966>",
+    "<SPECIAL_967>",
+    "<SPECIAL_968>",
+    "<SPECIAL_969>",
+    "<SPECIAL_970>",
+    "<SPECIAL_971>",
+    "<SPECIAL_972>",
+    "<SPECIAL_973>",
+    "<SPECIAL_974>",
+    "<SPECIAL_975>",
+    "<SPECIAL_976>",
+    "<SPECIAL_977>",
+    "<SPECIAL_978>",
+    "<SPECIAL_979>",
+    "<SPECIAL_980>",
+    "<SPECIAL_981>",
+    "<SPECIAL_982>",
+    "<SPECIAL_983>",
+    "<SPECIAL_984>",
+    "<SPECIAL_985>",
+    "<SPECIAL_986>",
+    "<SPECIAL_987>",
+    "<SPECIAL_988>",
+    "<SPECIAL_989>",
+    "<SPECIAL_990>",
+    "<SPECIAL_991>",
+    "<SPECIAL_992>",
+    "<SPECIAL_993>",
+    "<SPECIAL_994>",
+    "<SPECIAL_995>",
+    "<SPECIAL_996>",
+    "<SPECIAL_997>",
+    "<SPECIAL_998>",
+    "<SPECIAL_999>"
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoints/checkpoint-300/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b76085f9923309d873994d444989f7eb6ec074b06f25b58f1e8d7b7741070949
+size 17078037

checkpoints/checkpoint-300/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-300/trainer_state.json ADDED Viewed

	@@ -0,0 +1,3357 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.906122448979592,
+  "eval_steps": 2,
+  "global_step": 300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_loss": 1.2313029766082764,
+      "eval_runtime": 18.2352,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 0
+    },
+    {
+      "epoch": 0.0163265306122449,
+      "grad_norm": 0.37113556265830994,
+      "learning_rate": 2.5e-05,
+      "loss": 0.4085,
+      "step": 1
+    },
+    {
+      "epoch": 0.0326530612244898,
+      "grad_norm": 0.35803329944610596,
+      "learning_rate": 5e-05,
+      "loss": 0.3876,
+      "step": 2
+    },
+    {
+      "epoch": 0.0326530612244898,
+      "eval_loss": 1.2231345176696777,
+      "eval_runtime": 18.2243,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 2
+    },
+    {
+      "epoch": 0.04897959183673469,
+      "grad_norm": 0.3112759590148926,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.3946,
+      "step": 3
+    },
+    {
+      "epoch": 0.0653061224489796,
+      "grad_norm": 0.2448713332414627,
+      "learning_rate": 0.0001,
+      "loss": 0.4363,
+      "step": 4
+    },
+    {
+      "epoch": 0.0653061224489796,
+      "eval_loss": 1.1564743518829346,
+      "eval_runtime": 18.253,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 4
+    },
+    {
+      "epoch": 0.08163265306122448,
+      "grad_norm": 0.2955642342567444,
+      "learning_rate": 0.000125,
+      "loss": 0.4394,
+      "step": 5
+    },
+    {
+      "epoch": 0.09795918367346938,
+      "grad_norm": 0.41399946808815,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.4902,
+      "step": 6
+    },
+    {
+      "epoch": 0.09795918367346938,
+      "eval_loss": 1.1353044509887695,
+      "eval_runtime": 18.2664,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 6
+    },
+    {
+      "epoch": 0.11428571428571428,
+      "grad_norm": 0.2643347978591919,
+      "learning_rate": 0.000175,
+      "loss": 0.3528,
+      "step": 7
+    },
+    {
+      "epoch": 0.1306122448979592,
+      "grad_norm": 0.21472330391407013,
+      "learning_rate": 0.0002,
+      "loss": 0.357,
+      "step": 8
+    },
+    {
+      "epoch": 0.1306122448979592,
+      "eval_loss": 1.1218546628952026,
+      "eval_runtime": 18.2139,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 8
+    },
+    {
+      "epoch": 0.1469387755102041,
+      "grad_norm": 0.23261462152004242,
+      "learning_rate": 0.00022500000000000002,
+      "loss": 0.3924,
+      "step": 9
+    },
+    {
+      "epoch": 0.16326530612244897,
+      "grad_norm": 0.18365171551704407,
+      "learning_rate": 0.00025,
+      "loss": 0.283,
+      "step": 10
+    },
+    {
+      "epoch": 0.16326530612244897,
+      "eval_loss": 1.1094393730163574,
+      "eval_runtime": 18.249,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 10
+    },
+    {
+      "epoch": 0.17959183673469387,
+      "grad_norm": 0.20431634783744812,
+      "learning_rate": 0.000275,
+      "loss": 0.3178,
+      "step": 11
+    },
+    {
+      "epoch": 0.19591836734693877,
+      "grad_norm": 0.2033773809671402,
+      "learning_rate": 0.00030000000000000003,
+      "loss": 0.3366,
+      "step": 12
+    },
+    {
+      "epoch": 0.19591836734693877,
+      "eval_loss": 1.1021316051483154,
+      "eval_runtime": 18.2562,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 12
+    },
+    {
+      "epoch": 0.21224489795918366,
+      "grad_norm": 0.27416911721229553,
+      "learning_rate": 0.00032500000000000004,
+      "loss": 0.3367,
+      "step": 13
+    },
+    {
+      "epoch": 0.22857142857142856,
+      "grad_norm": 0.32283130288124084,
+      "learning_rate": 0.00035,
+      "loss": 0.3364,
+      "step": 14
+    },
+    {
+      "epoch": 0.22857142857142856,
+      "eval_loss": 1.0523244142532349,
+      "eval_runtime": 18.2347,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 14
+    },
+    {
+      "epoch": 0.24489795918367346,
+      "grad_norm": 0.21469368040561676,
+      "learning_rate": 0.000375,
+      "loss": 0.3496,
+      "step": 15
+    },
+    {
+      "epoch": 0.2612244897959184,
+      "grad_norm": 0.19361759722232819,
+      "learning_rate": 0.0004,
+      "loss": 0.2961,
+      "step": 16
+    },
+    {
+      "epoch": 0.2612244897959184,
+      "eval_loss": 1.0401124954223633,
+      "eval_runtime": 18.2288,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 16
+    },
+    {
+      "epoch": 0.27755102040816326,
+      "grad_norm": 0.1797463297843933,
+      "learning_rate": 0.0004,
+      "loss": 0.3016,
+      "step": 17
+    },
+    {
+      "epoch": 0.2938775510204082,
+      "grad_norm": 0.28122591972351074,
+      "learning_rate": 0.0004,
+      "loss": 0.3656,
+      "step": 18
+    },
+    {
+      "epoch": 0.2938775510204082,
+      "eval_loss": 1.0228931903839111,
+      "eval_runtime": 18.2429,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 18
+    },
+    {
+      "epoch": 0.31020408163265306,
+      "grad_norm": 0.227556511759758,
+      "learning_rate": 0.0004,
+      "loss": 0.3246,
+      "step": 19
+    },
+    {
+      "epoch": 0.32653061224489793,
+      "grad_norm": 0.211012601852417,
+      "learning_rate": 0.0004,
+      "loss": 0.3453,
+      "step": 20
+    },
+    {
+      "epoch": 0.32653061224489793,
+      "eval_loss": 1.017521858215332,
+      "eval_runtime": 18.2213,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 20
+    },
+    {
+      "epoch": 0.34285714285714286,
+      "grad_norm": 0.20422972738742828,
+      "learning_rate": 0.0004,
+      "loss": 0.3258,
+      "step": 21
+    },
+    {
+      "epoch": 0.35918367346938773,
+      "grad_norm": 0.206649512052536,
+      "learning_rate": 0.0004,
+      "loss": 0.3248,
+      "step": 22
+    },
+    {
+      "epoch": 0.35918367346938773,
+      "eval_loss": 0.9992413520812988,
+      "eval_runtime": 18.249,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 22
+    },
+    {
+      "epoch": 0.37551020408163266,
+      "grad_norm": 0.19837401807308197,
+      "learning_rate": 0.0004,
+      "loss": 0.3181,
+      "step": 23
+    },
+    {
+      "epoch": 0.39183673469387753,
+      "grad_norm": 0.20325997471809387,
+      "learning_rate": 0.0004,
+      "loss": 0.2826,
+      "step": 24
+    },
+    {
+      "epoch": 0.39183673469387753,
+      "eval_loss": 0.9943413734436035,
+      "eval_runtime": 18.2482,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 24
+    },
+    {
+      "epoch": 0.40816326530612246,
+      "grad_norm": 0.3371317386627197,
+      "learning_rate": 0.0004,
+      "loss": 0.3197,
+      "step": 25
+    },
+    {
+      "epoch": 0.42448979591836733,
+      "grad_norm": 0.21709182858467102,
+      "learning_rate": 0.0004,
+      "loss": 0.3272,
+      "step": 26
+    },
+    {
+      "epoch": 0.42448979591836733,
+      "eval_loss": 0.9733779430389404,
+      "eval_runtime": 18.2232,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 26
+    },
+    {
+      "epoch": 0.44081632653061226,
+      "grad_norm": 0.2420857548713684,
+      "learning_rate": 0.0004,
+      "loss": 0.3293,
+      "step": 27
+    },
+    {
+      "epoch": 0.45714285714285713,
+      "grad_norm": 0.30486994981765747,
+      "learning_rate": 0.0004,
+      "loss": 0.3958,
+      "step": 28
+    },
+    {
+      "epoch": 0.45714285714285713,
+      "eval_loss": 0.9588731527328491,
+      "eval_runtime": 18.2458,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 28
+    },
+    {
+      "epoch": 0.47346938775510206,
+      "grad_norm": 0.24714964628219604,
+      "learning_rate": 0.0004,
+      "loss": 0.3305,
+      "step": 29
+    },
+    {
+      "epoch": 0.4897959183673469,
+      "grad_norm": 0.21984225511550903,
+      "learning_rate": 0.0004,
+      "loss": 0.3395,
+      "step": 30
+    },
+    {
+      "epoch": 0.4897959183673469,
+      "eval_loss": 0.9427903890609741,
+      "eval_runtime": 18.2414,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 30
+    },
+    {
+      "epoch": 0.5061224489795918,
+      "grad_norm": 0.19778016209602356,
+      "learning_rate": 0.0004,
+      "loss": 0.2918,
+      "step": 31
+    },
+    {
+      "epoch": 0.5224489795918368,
+      "grad_norm": 0.21754617989063263,
+      "learning_rate": 0.0004,
+      "loss": 0.2855,
+      "step": 32
+    },
+    {
+      "epoch": 0.5224489795918368,
+      "eval_loss": 0.9335330128669739,
+      "eval_runtime": 18.275,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 32
+    },
+    {
+      "epoch": 0.5387755102040817,
+      "grad_norm": 0.2221430391073227,
+      "learning_rate": 0.0004,
+      "loss": 0.2946,
+      "step": 33
+    },
+    {
+      "epoch": 0.5551020408163265,
+      "grad_norm": 0.2112974375486374,
+      "learning_rate": 0.0004,
+      "loss": 0.3149,
+      "step": 34
+    },
+    {
+      "epoch": 0.5551020408163265,
+      "eval_loss": 0.9311869144439697,
+      "eval_runtime": 18.2431,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 34
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 0.19651219248771667,
+      "learning_rate": 0.0004,
+      "loss": 0.2606,
+      "step": 35
+    },
+    {
+      "epoch": 0.5877551020408164,
+      "grad_norm": 0.22742077708244324,
+      "learning_rate": 0.0004,
+      "loss": 0.3245,
+      "step": 36
+    },
+    {
+      "epoch": 0.5877551020408164,
+      "eval_loss": 0.9281033873558044,
+      "eval_runtime": 18.2248,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 36
+    },
+    {
+      "epoch": 0.6040816326530613,
+      "grad_norm": 0.2320890575647354,
+      "learning_rate": 0.0004,
+      "loss": 0.3532,
+      "step": 37
+    },
+    {
+      "epoch": 0.6204081632653061,
+      "grad_norm": 0.21191200613975525,
+      "learning_rate": 0.0004,
+      "loss": 0.2973,
+      "step": 38
+    },
+    {
+      "epoch": 0.6204081632653061,
+      "eval_loss": 0.9274996519088745,
+      "eval_runtime": 18.2309,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 38
+    },
+    {
+      "epoch": 0.636734693877551,
+      "grad_norm": 0.24098484218120575,
+      "learning_rate": 0.0004,
+      "loss": 0.3194,
+      "step": 39
+    },
+    {
+      "epoch": 0.6530612244897959,
+      "grad_norm": 0.3358725607395172,
+      "learning_rate": 0.0004,
+      "loss": 0.2833,
+      "step": 40
+    },
+    {
+      "epoch": 0.6530612244897959,
+      "eval_loss": 0.9254183769226074,
+      "eval_runtime": 18.2685,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 40
+    },
+    {
+      "epoch": 0.6693877551020408,
+      "grad_norm": 0.2399401068687439,
+      "learning_rate": 0.0004,
+      "loss": 0.3381,
+      "step": 41
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "grad_norm": 0.23229075968265533,
+      "learning_rate": 0.0004,
+      "loss": 0.3501,
+      "step": 42
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "eval_loss": 0.9213573932647705,
+      "eval_runtime": 18.2788,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 42
+    },
+    {
+      "epoch": 0.7020408163265306,
+      "grad_norm": 0.2341497391462326,
+      "learning_rate": 0.0004,
+      "loss": 0.3033,
+      "step": 43
+    },
+    {
+      "epoch": 0.7183673469387755,
+      "grad_norm": 0.22997914254665375,
+      "learning_rate": 0.0004,
+      "loss": 0.3675,
+      "step": 44
+    },
+    {
+      "epoch": 0.7183673469387755,
+      "eval_loss": 0.9130539298057556,
+      "eval_runtime": 18.2601,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 44
+    },
+    {
+      "epoch": 0.7346938775510204,
+      "grad_norm": 0.23445634543895721,
+      "learning_rate": 0.0004,
+      "loss": 0.3113,
+      "step": 45
+    },
+    {
+      "epoch": 0.7510204081632653,
+      "grad_norm": 0.22852188348770142,
+      "learning_rate": 0.0004,
+      "loss": 0.3593,
+      "step": 46
+    },
+    {
+      "epoch": 0.7510204081632653,
+      "eval_loss": 0.9100953936576843,
+      "eval_runtime": 18.2446,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 46
+    },
+    {
+      "epoch": 0.7673469387755102,
+      "grad_norm": 0.2316325306892395,
+      "learning_rate": 0.0004,
+      "loss": 0.3121,
+      "step": 47
+    },
+    {
+      "epoch": 0.7836734693877551,
+      "grad_norm": 0.2397606372833252,
+      "learning_rate": 0.0004,
+      "loss": 0.2979,
+      "step": 48
+    },
+    {
+      "epoch": 0.7836734693877551,
+      "eval_loss": 0.9087210297584534,
+      "eval_runtime": 18.2833,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 48
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.22637659311294556,
+      "learning_rate": 0.0004,
+      "loss": 0.2919,
+      "step": 49
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "grad_norm": 0.255599707365036,
+      "learning_rate": 0.0004,
+      "loss": 0.3741,
+      "step": 50
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "eval_loss": 0.9020435810089111,
+      "eval_runtime": 18.2931,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 50
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "eval_loss": 0.9020435810089111,
+      "eval_runtime": 18.1276,
+      "eval_samples_per_second": 0.883,
+      "eval_steps_per_second": 0.883,
+      "step": 50
+    },
+    {
+      "epoch": 0.8326530612244898,
+      "grad_norm": 0.2062978744506836,
+      "learning_rate": 0.0003877467715307749,
+      "loss": 0.3303,
+      "step": 51
+    },
+    {
+      "epoch": 0.8489795918367347,
+      "grad_norm": 0.20149795711040497,
+      "learning_rate": 0.0003870443502801494,
+      "loss": 0.3212,
+      "step": 52
+    },
+    {
+      "epoch": 0.8489795918367347,
+      "eval_loss": 0.8994156718254089,
+      "eval_runtime": 18.1853,
+      "eval_samples_per_second": 0.88,
+      "eval_steps_per_second": 0.88,
+      "step": 52
+    },
+    {
+      "epoch": 0.8653061224489796,
+      "grad_norm": 0.17913399636745453,
+      "learning_rate": 0.0003863230255984052,
+      "loss": 0.2637,
+      "step": 53
+    },
+    {
+      "epoch": 0.8816326530612245,
+      "grad_norm": 0.19331133365631104,
+      "learning_rate": 0.00038558287038542615,
+      "loss": 0.3564,
+      "step": 54
+    },
+    {
+      "epoch": 0.8816326530612245,
+      "eval_loss": 0.8963940143585205,
+      "eval_runtime": 18.223,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 54
+    },
+    {
+      "epoch": 0.8979591836734694,
+      "grad_norm": 0.20378044247627258,
+      "learning_rate": 0.00038482395944418313,
+      "loss": 0.3253,
+      "step": 55
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "grad_norm": 0.19742076098918915,
+      "learning_rate": 0.0003840463694731741,
+      "loss": 0.3715,
+      "step": 56
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "eval_loss": 0.8902382850646973,
+      "eval_runtime": 18.2093,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 56
+    },
+    {
+      "epoch": 0.9306122448979591,
+      "grad_norm": 0.1908055692911148,
+      "learning_rate": 0.0003832501790586724,
+      "loss": 0.3305,
+      "step": 57
+    },
+    {
+      "epoch": 0.9469387755102041,
+      "grad_norm": 0.21527761220932007,
+      "learning_rate": 0.0003824354686667848,
+      "loss": 0.3523,
+      "step": 58
+    },
+    {
+      "epoch": 0.9469387755102041,
+      "eval_loss": 0.8786917328834534,
+      "eval_runtime": 18.2124,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 58
+    },
+    {
+      "epoch": 0.963265306122449,
+      "grad_norm": 0.1817687749862671,
+      "learning_rate": 0.00038160232063531917,
+      "loss": 0.2616,
+      "step": 59
+    },
+    {
+      "epoch": 0.9795918367346939,
+      "grad_norm": 0.17659063637256622,
+      "learning_rate": 0.0003807508191654631,
+      "loss": 0.251,
+      "step": 60
+    },
+    {
+      "epoch": 0.9795918367346939,
+      "eval_loss": 0.8799586296081543,
+      "eval_runtime": 18.2543,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 60
+    },
+    {
+      "epoch": 0.9959183673469387,
+      "grad_norm": 0.22647982835769653,
+      "learning_rate": 0.0003798810503132742,
+      "loss": 0.2881,
+      "step": 61
+    },
+    {
+      "epoch": 1.0122448979591836,
+      "grad_norm": 0.45377442240715027,
+      "learning_rate": 0.00037899310198098295,
+      "loss": 0.5515,
+      "step": 62
+    },
+    {
+      "epoch": 1.0122448979591836,
+      "eval_loss": 0.8895297050476074,
+      "eval_runtime": 18.2212,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 62
+    },
+    {
+      "epoch": 1.0285714285714285,
+      "grad_norm": 0.3527546226978302,
+      "learning_rate": 0.000378087063908109,
+      "loss": 0.2427,
+      "step": 63
+    },
+    {
+      "epoch": 1.0448979591836736,
+      "grad_norm": 0.2781178951263428,
+      "learning_rate": 0.0003771630276623915,
+      "loss": 0.2215,
+      "step": 64
+    },
+    {
+      "epoch": 1.0448979591836736,
+      "eval_loss": 0.9294220209121704,
+      "eval_runtime": 18.226,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 64
+    },
+    {
+      "epoch": 1.0612244897959184,
+      "grad_norm": 0.2543565034866333,
+      "learning_rate": 0.00037622108663053536,
+      "loss": 0.2761,
+      "step": 65
+    },
+    {
+      "epoch": 1.0775510204081633,
+      "grad_norm": 0.26259011030197144,
+      "learning_rate": 0.0003752613360087727,
+      "loss": 0.2425,
+      "step": 66
+    },
+    {
+      "epoch": 1.0775510204081633,
+      "eval_loss": 0.9212721586227417,
+      "eval_runtime": 18.2309,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 66
+    },
+    {
+      "epoch": 1.0938775510204082,
+      "grad_norm": 0.36850446462631226,
+      "learning_rate": 0.00037428387279324257,
+      "loss": 0.225,
+      "step": 67
+    },
+    {
+      "epoch": 1.110204081632653,
+      "grad_norm": 0.23748713731765747,
+      "learning_rate": 0.0003732887957701874,
+      "loss": 0.2363,
+      "step": 68
+    },
+    {
+      "epoch": 1.110204081632653,
+      "eval_loss": 0.9431418776512146,
+      "eval_runtime": 18.2471,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 68
+    },
+    {
+      "epoch": 1.126530612244898,
+      "grad_norm": 0.23217403888702393,
+      "learning_rate": 0.00037227620550597,
+      "loss": 0.2364,
+      "step": 69
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "grad_norm": 0.28124868869781494,
+      "learning_rate": 0.0003712462043369093,
+      "loss": 0.2197,
+      "step": 70
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "eval_loss": 0.9205393195152283,
+      "eval_runtime": 18.2662,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 70
+    },
+    {
+      "epoch": 1.1591836734693877,
+      "grad_norm": 0.2142041176557541,
+      "learning_rate": 0.00037019889635893843,
+      "loss": 0.1958,
+      "step": 71
+    },
+    {
+      "epoch": 1.1755102040816325,
+      "grad_norm": 0.34761127829551697,
+      "learning_rate": 0.0003691343874170838,
+      "loss": 0.2183,
+      "step": 72
+    },
+    {
+      "epoch": 1.1755102040816325,
+      "eval_loss": 0.9254322648048401,
+      "eval_runtime": 18.2303,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 72
+    },
+    {
+      "epoch": 1.1918367346938776,
+      "grad_norm": 0.2560065686702728,
+      "learning_rate": 0.00036805278509476844,
+      "loss": 0.248,
+      "step": 73
+    },
+    {
+      "epoch": 1.2081632653061225,
+      "grad_norm": 0.7435296773910522,
+      "learning_rate": 0.00036695419870293915,
+      "loss": 0.2356,
+      "step": 74
+    },
+    {
+      "epoch": 1.2081632653061225,
+      "eval_loss": 0.9271378517150879,
+      "eval_runtime": 18.2503,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 74
+    },
+    {
+      "epoch": 1.2244897959183674,
+      "grad_norm": 0.8685758113861084,
+      "learning_rate": 0.00036583873926901867,
+      "loss": 0.2129,
+      "step": 75
+    },
+    {
+      "epoch": 1.2408163265306122,
+      "grad_norm": 1.2740998268127441,
+      "learning_rate": 0.0003647065195256855,
+      "loss": 0.2469,
+      "step": 76
+    },
+    {
+      "epoch": 1.2408163265306122,
+      "eval_loss": 0.9236885905265808,
+      "eval_runtime": 18.2226,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 76
+    },
+    {
+      "epoch": 1.2571428571428571,
+      "grad_norm": 0.28524693846702576,
+      "learning_rate": 0.0003635576538994801,
+      "loss": 0.2278,
+      "step": 77
+    },
+    {
+      "epoch": 1.273469387755102,
+      "grad_norm": 1.0116885900497437,
+      "learning_rate": 0.0003623922584992409,
+      "loss": 0.2488,
+      "step": 78
+    },
+    {
+      "epoch": 1.273469387755102,
+      "eval_loss": 0.923646867275238,
+      "eval_runtime": 18.2519,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 78
+    },
+    {
+      "epoch": 1.2897959183673469,
+      "grad_norm": 0.9336573481559753,
+      "learning_rate": 0.0003612104511043694,
+      "loss": 0.3095,
+      "step": 79
+    },
+    {
+      "epoch": 1.306122448979592,
+      "grad_norm": 0.43459734320640564,
+      "learning_rate": 0.0003600123511529278,
+      "loss": 0.2215,
+      "step": 80
+    },
+    {
+      "epoch": 1.306122448979592,
+      "eval_loss": 0.941472589969635,
+      "eval_runtime": 18.251,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 80
+    },
+    {
+      "epoch": 1.3224489795918366,
+      "grad_norm": 0.39941656589508057,
+      "learning_rate": 0.0003587980797295671,
+      "loss": 0.251,
+      "step": 81
+    },
+    {
+      "epoch": 1.3387755102040817,
+      "grad_norm": 0.2876632511615753,
+      "learning_rate": 0.0003575677595532904,
+      "loss": 0.208,
+      "step": 82
+    },
+    {
+      "epoch": 1.3387755102040817,
+      "eval_loss": 0.932316780090332,
+      "eval_runtime": 18.2326,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 82
+    },
+    {
+      "epoch": 1.3551020408163266,
+      "grad_norm": 0.30556565523147583,
+      "learning_rate": 0.0003563215149650505,
+      "loss": 0.2821,
+      "step": 83
+    },
+    {
+      "epoch": 1.3714285714285714,
+      "grad_norm": 0.3039940595626831,
+      "learning_rate": 0.00035505947191518316,
+      "loss": 0.2177,
+      "step": 84
+    },
+    {
+      "epoch": 1.3714285714285714,
+      "eval_loss": 0.9171479344367981,
+      "eval_runtime": 18.2397,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 84
+    },
+    {
+      "epoch": 1.3877551020408163,
+      "grad_norm": 0.32876476645469666,
+      "learning_rate": 0.0003537817579506783,
+      "loss": 0.2142,
+      "step": 85
+    },
+    {
+      "epoch": 1.4040816326530612,
+      "grad_norm": 0.26468542218208313,
+      "learning_rate": 0.0003524885022022896,
+      "loss": 0.2293,
+      "step": 86
+    },
+    {
+      "epoch": 1.4040816326530612,
+      "eval_loss": 0.9176874756813049,
+      "eval_runtime": 18.2553,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 86
+    },
+    {
+      "epoch": 1.420408163265306,
+      "grad_norm": 0.9715031981468201,
+      "learning_rate": 0.000351179835371484,
+      "loss": 0.235,
+      "step": 87
+    },
+    {
+      "epoch": 1.436734693877551,
+      "grad_norm": 0.8392952680587769,
+      "learning_rate": 0.00034985588971723233,
+      "loss": 0.2307,
+      "step": 88
+    },
+    {
+      "epoch": 1.436734693877551,
+      "eval_loss": 0.9272938370704651,
+      "eval_runtime": 18.2194,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 88
+    },
+    {
+      "epoch": 1.453061224489796,
+      "grad_norm": 0.28850337862968445,
+      "learning_rate": 0.00034851679904264314,
+      "loss": 0.2403,
+      "step": 89
+    },
+    {
+      "epoch": 1.469387755102041,
+      "grad_norm": 0.46389341354370117,
+      "learning_rate": 0.00034716269868143956,
+      "loss": 0.2464,
+      "step": 90
+    },
+    {
+      "epoch": 1.469387755102041,
+      "eval_loss": 0.9267984628677368,
+      "eval_runtime": 18.2514,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 90
+    },
+    {
+      "epoch": 1.4857142857142858,
+      "grad_norm": 0.29597121477127075,
+      "learning_rate": 0.00034579372548428235,
+      "loss": 0.2307,
+      "step": 91
+    },
+    {
+      "epoch": 1.5020408163265306,
+      "grad_norm": 0.3392711877822876,
+      "learning_rate": 0.00034441001780493886,
+      "loss": 0.231,
+      "step": 92
+    },
+    {
+      "epoch": 1.5020408163265306,
+      "eval_loss": 0.9267009496688843,
+      "eval_runtime": 18.2179,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 92
+    },
+    {
+      "epoch": 1.5183673469387755,
+      "grad_norm": 0.2309531569480896,
+      "learning_rate": 0.00034301171548630063,
+      "loss": 0.2307,
+      "step": 93
+    },
+    {
+      "epoch": 1.5346938775510204,
+      "grad_norm": 0.28941744565963745,
+      "learning_rate": 0.0003415989598462506,
+      "loss": 0.2384,
+      "step": 94
+    },
+    {
+      "epoch": 1.5346938775510204,
+      "eval_loss": 0.9336121082305908,
+      "eval_runtime": 18.2184,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 94
+    },
+    {
+      "epoch": 1.5510204081632653,
+      "grad_norm": 0.22579389810562134,
+      "learning_rate": 0.00034017189366338034,
+      "loss": 0.1949,
+      "step": 95
+    },
+    {
+      "epoch": 1.5673469387755103,
+      "grad_norm": 0.2894729971885681,
+      "learning_rate": 0.000338730661162561,
+      "loss": 0.2348,
+      "step": 96
+    },
+    {
+      "epoch": 1.5673469387755103,
+      "eval_loss": 0.9432627558708191,
+      "eval_runtime": 18.2158,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 96
+    },
+    {
+      "epoch": 1.583673469387755,
+      "grad_norm": 0.24218647181987762,
+      "learning_rate": 0.00033727540800036683,
+      "loss": 0.2113,
+      "step": 97
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.2695946991443634,
+      "learning_rate": 0.0003358062812503548,
+      "loss": 0.2209,
+      "step": 98
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.9510765075683594,
+      "eval_runtime": 18.2181,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 98
+    },
+    {
+      "epoch": 1.6163265306122447,
+      "grad_norm": 0.27196425199508667,
+      "learning_rate": 0.00033432342938820086,
+      "loss": 0.2366,
+      "step": 99
+    },
+    {
+      "epoch": 1.6326530612244898,
+      "grad_norm": 0.2302471101284027,
+      "learning_rate": 0.0003328270022766941,
+      "loss": 0.2099,
+      "step": 100
+    },
+    {
+      "epoch": 1.6326530612244898,
+      "eval_loss": 0.9363111853599548,
+      "eval_runtime": 18.2175,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 100
+    },
+    {
+      "epoch": 1.6489795918367347,
+      "grad_norm": 0.24810455739498138,
+      "learning_rate": 0.0003313171511505913,
+      "loss": 0.2196,
+      "step": 101
+    },
+    {
+      "epoch": 1.6653061224489796,
+      "grad_norm": 0.25561368465423584,
+      "learning_rate": 0.0003297940286013326,
+      "loss": 0.253,
+      "step": 102
+    },
+    {
+      "epoch": 1.6653061224489796,
+      "eval_loss": 0.942488431930542,
+      "eval_runtime": 18.2068,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 102
+    },
+    {
+      "epoch": 1.6816326530612244,
+      "grad_norm": 0.22677375376224518,
+      "learning_rate": 0.0003282577885616198,
+      "loss": 0.1789,
+      "step": 103
+    },
+    {
+      "epoch": 1.6979591836734693,
+      "grad_norm": 0.26009589433670044,
+      "learning_rate": 0.0003267085862898594,
+      "loss": 0.2541,
+      "step": 104
+    },
+    {
+      "epoch": 1.6979591836734693,
+      "eval_loss": 0.9335595369338989,
+      "eval_runtime": 18.2507,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 104
+    },
+    {
+      "epoch": 1.7142857142857144,
+      "grad_norm": 0.20782141387462616,
+      "learning_rate": 0.0003251465783544716,
+      "loss": 0.2308,
+      "step": 105
+    },
+    {
+      "epoch": 1.730612244897959,
+      "grad_norm": 0.22768278419971466,
+      "learning_rate": 0.0003235719226180669,
+      "loss": 0.2354,
+      "step": 106
+    },
+    {
+      "epoch": 1.730612244897959,
+      "eval_loss": 0.9376662373542786,
+      "eval_runtime": 18.2284,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 106
+    },
+    {
+      "epoch": 1.7469387755102042,
+      "grad_norm": 0.23742002248764038,
+      "learning_rate": 0.00032198477822149185,
+      "loss": 0.2306,
+      "step": 107
+    },
+    {
+      "epoch": 1.763265306122449,
+      "grad_norm": 0.25688832998275757,
+      "learning_rate": 0.0003203853055677457,
+      "loss": 0.2816,
+      "step": 108
+    },
+    {
+      "epoch": 1.763265306122449,
+      "eval_loss": 0.9434496164321899,
+      "eval_runtime": 18.2263,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 108
+    },
+    {
+      "epoch": 1.779591836734694,
+      "grad_norm": 0.2690117359161377,
+      "learning_rate": 0.00031877366630576946,
+      "loss": 0.2013,
+      "step": 109
+    },
+    {
+      "epoch": 1.7959183673469388,
+      "grad_norm": 0.2317412942647934,
+      "learning_rate": 0.0003171500233141089,
+      "loss": 0.2398,
+      "step": 110
+    },
+    {
+      "epoch": 1.7959183673469388,
+      "eval_loss": 0.9329774975776672,
+      "eval_runtime": 18.2112,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 110
+    },
+    {
+      "epoch": 1.8122448979591836,
+      "grad_norm": 0.2262117713689804,
+      "learning_rate": 0.0003155145406844535,
+      "loss": 0.207,
+      "step": 111
+    },
+    {
+      "epoch": 1.8285714285714287,
+      "grad_norm": 0.22458741068840027,
+      "learning_rate": 0.00031386738370505293,
+      "loss": 0.2093,
+      "step": 112
+    },
+    {
+      "epoch": 1.8285714285714287,
+      "eval_loss": 0.9222925901412964,
+      "eval_runtime": 18.2333,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 112
+    },
+    {
+      "epoch": 1.8448979591836734,
+      "grad_norm": 0.24273625016212463,
+      "learning_rate": 0.0003122087188440118,
+      "loss": 0.2434,
+      "step": 113
+    },
+    {
+      "epoch": 1.8612244897959185,
+      "grad_norm": 0.2206314653158188,
+      "learning_rate": 0.0003105387137324663,
+      "loss": 0.2056,
+      "step": 114
+    },
+    {
+      "epoch": 1.8612244897959185,
+      "eval_loss": 0.9319095015525818,
+      "eval_runtime": 18.2327,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 114
+    },
+    {
+      "epoch": 1.8775510204081631,
+      "grad_norm": 0.2606954574584961,
+      "learning_rate": 0.0003088575371476426,
+      "loss": 0.2198,
+      "step": 115
+    },
+    {
+      "epoch": 1.8938775510204082,
+      "grad_norm": 0.23156337440013885,
+      "learning_rate": 0.0003071653589957993,
+      "loss": 0.1957,
+      "step": 116
+    },
+    {
+      "epoch": 1.8938775510204082,
+      "eval_loss": 0.9314719438552856,
+      "eval_runtime": 18.2411,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 116
+    },
+    {
+      "epoch": 1.910204081632653,
+      "grad_norm": 0.2253030389547348,
+      "learning_rate": 0.0003054623502950565,
+      "loss": 0.266,
+      "step": 117
+    },
+    {
+      "epoch": 1.926530612244898,
+      "grad_norm": 0.24510890245437622,
+      "learning_rate": 0.0003037486831581115,
+      "loss": 0.2493,
+      "step": 118
+    },
+    {
+      "epoch": 1.926530612244898,
+      "eval_loss": 0.926245927810669,
+      "eval_runtime": 18.2428,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 118
+    },
+    {
+      "epoch": 1.9428571428571428,
+      "grad_norm": 0.22151368856430054,
+      "learning_rate": 0.00030202453077484494,
+      "loss": 0.2666,
+      "step": 119
+    },
+    {
+      "epoch": 1.9591836734693877,
+      "grad_norm": 0.21714863181114197,
+      "learning_rate": 0.0003002900673948173,
+      "loss": 0.253,
+      "step": 120
+    },
+    {
+      "epoch": 1.9591836734693877,
+      "eval_loss": 0.9263309240341187,
+      "eval_runtime": 18.2196,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 120
+    },
+    {
+      "epoch": 1.9755102040816328,
+      "grad_norm": 0.2149583399295807,
+      "learning_rate": 0.0002985454683096583,
+      "loss": 0.2208,
+      "step": 121
+    },
+    {
+      "epoch": 1.9918367346938775,
+      "grad_norm": 0.23067210614681244,
+      "learning_rate": 0.000296790909835352,
+      "loss": 0.2225,
+      "step": 122
+    },
+    {
+      "epoch": 1.9918367346938775,
+      "eval_loss": 0.9324613809585571,
+      "eval_runtime": 18.2438,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 122
+    },
+    {
+      "epoch": 2.0081632653061225,
+      "grad_norm": 0.4510343074798584,
+      "learning_rate": 0.00029502656929441683,
+      "loss": 0.3179,
+      "step": 123
+    },
+    {
+      "epoch": 2.024489795918367,
+      "grad_norm": 0.24402837455272675,
+      "learning_rate": 0.000293252624997985,
+      "loss": 0.1501,
+      "step": 124
+    },
+    {
+      "epoch": 2.024489795918367,
+      "eval_loss": 0.9700677394866943,
+      "eval_runtime": 18.2313,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 124
+    },
+    {
+      "epoch": 2.0408163265306123,
+      "grad_norm": 0.31533220410346985,
+      "learning_rate": 0.00029146925622778176,
+      "loss": 0.1353,
+      "step": 125
+    },
+    {
+      "epoch": 2.057142857142857,
+      "grad_norm": 0.24323108792304993,
+      "learning_rate": 0.0002896766432180065,
+      "loss": 0.1297,
+      "step": 126
+    },
+    {
+      "epoch": 2.057142857142857,
+      "eval_loss": 0.9890408515930176,
+      "eval_runtime": 18.2073,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 126
+    },
+    {
+      "epoch": 2.073469387755102,
+      "grad_norm": 0.24305571615695953,
+      "learning_rate": 0.00028787496713711733,
+      "loss": 0.1389,
+      "step": 127
+    },
+    {
+      "epoch": 2.089795918367347,
+      "grad_norm": 0.21282273530960083,
+      "learning_rate": 0.0002860644100695218,
+      "loss": 0.0994,
+      "step": 128
+    },
+    {
+      "epoch": 2.089795918367347,
+      "eval_loss": 1.0023484230041504,
+      "eval_runtime": 18.2257,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 128
+    },
+    {
+      "epoch": 2.1061224489795918,
+      "grad_norm": 0.20902425050735474,
+      "learning_rate": 0.0002842451549971745,
+      "loss": 0.1195,
+      "step": 129
+    },
+    {
+      "epoch": 2.122448979591837,
+      "grad_norm": 0.21242493391036987,
+      "learning_rate": 0.0002824173857810842,
+      "loss": 0.1256,
+      "step": 130
+    },
+    {
+      "epoch": 2.122448979591837,
+      "eval_loss": 1.0186381340026855,
+      "eval_runtime": 18.1967,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 130
+    },
+    {
+      "epoch": 2.1387755102040815,
+      "grad_norm": 0.26445460319519043,
+      "learning_rate": 0.00028058128714273257,
+      "loss": 0.1268,
+      "step": 131
+    },
+    {
+      "epoch": 2.1551020408163266,
+      "grad_norm": 0.24118709564208984,
+      "learning_rate": 0.0002787370446454047,
+      "loss": 0.1192,
+      "step": 132
+    },
+    {
+      "epoch": 2.1551020408163266,
+      "eval_loss": 1.0201678276062012,
+      "eval_runtime": 18.2377,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 132
+    },
+    {
+      "epoch": 2.1714285714285713,
+      "grad_norm": 0.23629823327064514,
+      "learning_rate": 0.0002768848446754362,
+      "loss": 0.1114,
+      "step": 133
+    },
+    {
+      "epoch": 2.1877551020408164,
+      "grad_norm": 0.23851804435253143,
+      "learning_rate": 0.0002750248744233756,
+      "loss": 0.1455,
+      "step": 134
+    },
+    {
+      "epoch": 2.1877551020408164,
+      "eval_loss": 1.027251124382019,
+      "eval_runtime": 18.2111,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 134
+    },
+    {
+      "epoch": 2.204081632653061,
+      "grad_norm": 0.2159481793642044,
+      "learning_rate": 0.00027315732186506656,
+      "loss": 0.1036,
+      "step": 135
+    },
+    {
+      "epoch": 2.220408163265306,
+      "grad_norm": 0.2521194815635681,
+      "learning_rate": 0.0002712823757426501,
+      "loss": 0.1539,
+      "step": 136
+    },
+    {
+      "epoch": 2.220408163265306,
+      "eval_loss": 1.0327486991882324,
+      "eval_runtime": 18.2282,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 136
+    },
+    {
+      "epoch": 2.236734693877551,
+      "grad_norm": 0.23456163704395294,
+      "learning_rate": 0.00026940022554548993,
+      "loss": 0.14,
+      "step": 137
+    },
+    {
+      "epoch": 2.253061224489796,
+      "grad_norm": 0.25591009855270386,
+      "learning_rate": 0.0002675110614910212,
+      "loss": 0.1485,
+      "step": 138
+    },
+    {
+      "epoch": 2.253061224489796,
+      "eval_loss": 1.0385500192642212,
+      "eval_runtime": 18.1962,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 138
+    },
+    {
+      "epoch": 2.269387755102041,
+      "grad_norm": 0.2525387108325958,
+      "learning_rate": 0.00026561507450552704,
+      "loss": 0.1164,
+      "step": 139
+    },
+    {
+      "epoch": 2.2857142857142856,
+      "grad_norm": 0.25320008397102356,
+      "learning_rate": 0.00026371245620484255,
+      "loss": 0.1307,
+      "step": 140
+    },
+    {
+      "epoch": 2.2857142857142856,
+      "eval_loss": 1.028091311454773,
+      "eval_runtime": 18.2167,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 140
+    },
+    {
+      "epoch": 2.3020408163265307,
+      "grad_norm": 0.27121609449386597,
+      "learning_rate": 0.00026180339887498953,
+      "loss": 0.1475,
+      "step": 141
+    },
+    {
+      "epoch": 2.3183673469387753,
+      "grad_norm": 0.2442832738161087,
+      "learning_rate": 0.00025988809545274293,
+      "loss": 0.112,
+      "step": 142
+    },
+    {
+      "epoch": 2.3183673469387753,
+      "eval_loss": 0.9875463247299194,
+      "eval_runtime": 18.2364,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 142
+    },
+    {
+      "epoch": 2.3346938775510204,
+      "grad_norm": 0.23179620504379272,
+      "learning_rate": 0.0002579667395061322,
+      "loss": 0.1428,
+      "step": 143
+    },
+    {
+      "epoch": 2.351020408163265,
+      "grad_norm": 0.21805799007415771,
+      "learning_rate": 0.00025603952521487876,
+      "loss": 0.1157,
+      "step": 144
+    },
+    {
+      "epoch": 2.351020408163265,
+      "eval_loss": 0.9967271089553833,
+      "eval_runtime": 18.2289,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 144
+    },
+    {
+      "epoch": 2.36734693877551,
+      "grad_norm": 0.2379518747329712,
+      "learning_rate": 0.0002541066473507708,
+      "loss": 0.1368,
+      "step": 145
+    },
+    {
+      "epoch": 2.3836734693877553,
+      "grad_norm": 0.27792760729789734,
+      "learning_rate": 0.00025216830125797943,
+      "loss": 0.1369,
+      "step": 146
+    },
+    {
+      "epoch": 2.3836734693877553,
+      "eval_loss": 0.9868496656417847,
+      "eval_runtime": 18.2074,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 146
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.2362203449010849,
+      "learning_rate": 0.0002502246828333163,
+      "loss": 0.1275,
+      "step": 147
+    },
+    {
+      "epoch": 2.416326530612245,
+      "grad_norm": 0.27191162109375,
+      "learning_rate": 0.00024827598850643546,
+      "loss": 0.1582,
+      "step": 148
+    },
+    {
+      "epoch": 2.416326530612245,
+      "eval_loss": 0.962943434715271,
+      "eval_runtime": 18.2207,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 148
+    },
+    {
+      "epoch": 2.4326530612244897,
+      "grad_norm": 0.23347483575344086,
+      "learning_rate": 0.0002463224152199813,
+      "loss": 0.1309,
+      "step": 149
+    },
+    {
+      "epoch": 2.4489795918367347,
+      "grad_norm": 0.2181580364704132,
+      "learning_rate": 0.0002443641604096851,
+      "loss": 0.1261,
+      "step": 150
+    },
+    {
+      "epoch": 2.4489795918367347,
+      "eval_loss": 0.9731823205947876,
+      "eval_runtime": 18.2136,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 150
+    },
+    {
+      "epoch": 2.4653061224489794,
+      "grad_norm": 0.2505442202091217,
+      "learning_rate": 0.00024240142198441098,
+      "loss": 0.1335,
+      "step": 151
+    },
+    {
+      "epoch": 2.4816326530612245,
+      "grad_norm": 0.23964084684848785,
+      "learning_rate": 0.00024043439830615472,
+      "loss": 0.1249,
+      "step": 152
+    },
+    {
+      "epoch": 2.4816326530612245,
+      "eval_loss": 0.9946855306625366,
+      "eval_runtime": 18.2384,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 152
+    },
+    {
+      "epoch": 2.497959183673469,
+      "grad_norm": 0.2175896167755127,
+      "learning_rate": 0.00023846328816999658,
+      "loss": 0.101,
+      "step": 153
+    },
+    {
+      "epoch": 2.5142857142857142,
+      "grad_norm": 0.2787061929702759,
+      "learning_rate": 0.00023648829078401007,
+      "loss": 0.1421,
+      "step": 154
+    },
+    {
+      "epoch": 2.5142857142857142,
+      "eval_loss": 0.9933134317398071,
+      "eval_runtime": 18.2349,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 154
+    },
+    {
+      "epoch": 2.5306122448979593,
+      "grad_norm": 0.22405166923999786,
+      "learning_rate": 0.00023450960574912934,
+      "loss": 0.1237,
+      "step": 155
+    },
+    {
+      "epoch": 2.546938775510204,
+      "grad_norm": 0.25058048963546753,
+      "learning_rate": 0.00023252743303897675,
+      "loss": 0.1635,
+      "step": 156
+    },
+    {
+      "epoch": 2.546938775510204,
+      "eval_loss": 0.9882242679595947,
+      "eval_runtime": 18.2562,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 156
+    },
+    {
+      "epoch": 2.563265306122449,
+      "grad_norm": 0.3842501938343048,
+      "learning_rate": 0.00023054197297965264,
+      "loss": 0.1417,
+      "step": 157
+    },
+    {
+      "epoch": 2.5795918367346937,
+      "grad_norm": 0.22574357688426971,
+      "learning_rate": 0.00022855342622948976,
+      "loss": 0.1221,
+      "step": 158
+    },
+    {
+      "epoch": 2.5795918367346937,
+      "eval_loss": 1.0112800598144531,
+      "eval_runtime": 18.2537,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 158
+    },
+    {
+      "epoch": 2.595918367346939,
+      "grad_norm": 0.22760067880153656,
+      "learning_rate": 0.0002265619937587739,
+      "loss": 0.1319,
+      "step": 159
+    },
+    {
+      "epoch": 2.612244897959184,
+      "grad_norm": 0.25777938961982727,
+      "learning_rate": 0.00022456787682943285,
+      "loss": 0.149,
+      "step": 160
+    },
+    {
+      "epoch": 2.612244897959184,
+      "eval_loss": 1.0162885189056396,
+      "eval_runtime": 18.2574,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 160
+    },
+    {
+      "epoch": 2.6285714285714286,
+      "grad_norm": 0.23430375754833221,
+      "learning_rate": 0.00022257127697469632,
+      "loss": 0.1342,
+      "step": 161
+    },
+    {
+      "epoch": 2.644897959183673,
+      "grad_norm": 0.25381889939308167,
+      "learning_rate": 0.00022057239597872834,
+      "loss": 0.1558,
+      "step": 162
+    },
+    {
+      "epoch": 2.644897959183673,
+      "eval_loss": 1.0097148418426514,
+      "eval_runtime": 18.2572,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 162
+    },
+    {
+      "epoch": 2.6612244897959183,
+      "grad_norm": 0.22818055748939514,
+      "learning_rate": 0.0002185714358562336,
+      "loss": 0.1382,
+      "step": 163
+    },
+    {
+      "epoch": 2.6775510204081634,
+      "grad_norm": 0.21377477049827576,
+      "learning_rate": 0.00021656859883204167,
+      "loss": 0.1138,
+      "step": 164
+    },
+    {
+      "epoch": 2.6775510204081634,
+      "eval_loss": 1.0100345611572266,
+      "eval_runtime": 18.246,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 164
+    },
+    {
+      "epoch": 2.693877551020408,
+      "grad_norm": 0.20805473625659943,
+      "learning_rate": 0.00021456408732066918,
+      "loss": 0.1103,
+      "step": 165
+    },
+    {
+      "epoch": 2.710204081632653,
+      "grad_norm": 0.23223794996738434,
+      "learning_rate": 0.0002125581039058627,
+      "loss": 0.1229,
+      "step": 166
+    },
+    {
+      "epoch": 2.710204081632653,
+      "eval_loss": 1.0152215957641602,
+      "eval_runtime": 18.2339,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 166
+    },
+    {
+      "epoch": 2.726530612244898,
+      "grad_norm": 0.22925834357738495,
+      "learning_rate": 0.0002105508513201253,
+      "loss": 0.112,
+      "step": 167
+    },
+    {
+      "epoch": 2.742857142857143,
+      "grad_norm": 0.23402348160743713,
+      "learning_rate": 0.00020854253242422744,
+      "loss": 0.111,
+      "step": 168
+    },
+    {
+      "epoch": 2.742857142857143,
+      "eval_loss": 1.0134178400039673,
+      "eval_runtime": 18.2312,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 168
+    },
+    {
+      "epoch": 2.759183673469388,
+      "grad_norm": 0.21745020151138306,
+      "learning_rate": 0.00020653335018670478,
+      "loss": 0.1148,
+      "step": 169
+    },
+    {
+      "epoch": 2.7755102040816326,
+      "grad_norm": 0.23371770977973938,
+      "learning_rate": 0.00020452350766334595,
+      "loss": 0.1378,
+      "step": 170
+    },
+    {
+      "epoch": 2.7755102040816326,
+      "eval_loss": 1.008978247642517,
+      "eval_runtime": 18.2393,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 170
+    },
+    {
+      "epoch": 2.7918367346938773,
+      "grad_norm": 0.23733730614185333,
+      "learning_rate": 0.00020251320797667056,
+      "loss": 0.1362,
+      "step": 171
+    },
+    {
+      "epoch": 2.8081632653061224,
+      "grad_norm": 0.22156459093093872,
+      "learning_rate": 0.00020050265429540082,
+      "loss": 0.1197,
+      "step": 172
+    },
+    {
+      "epoch": 2.8081632653061224,
+      "eval_loss": 0.996375560760498,
+      "eval_runtime": 18.2572,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 172
+    },
+    {
+      "epoch": 2.8244897959183675,
+      "grad_norm": 0.21871179342269897,
+      "learning_rate": 0.00019849204981392863,
+      "loss": 0.1262,
+      "step": 173
+    },
+    {
+      "epoch": 2.840816326530612,
+      "grad_norm": 0.2262168973684311,
+      "learning_rate": 0.00019648159773178007,
+      "loss": 0.1329,
+      "step": 174
+    },
+    {
+      "epoch": 2.840816326530612,
+      "eval_loss": 0.9993283748626709,
+      "eval_runtime": 18.2401,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 174
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 0.24742639064788818,
+      "learning_rate": 0.00019447150123307915,
+      "loss": 0.1243,
+      "step": 175
+    },
+    {
+      "epoch": 2.873469387755102,
+      "grad_norm": 0.21919304132461548,
+      "learning_rate": 0.00019246196346601308,
+      "loss": 0.1218,
+      "step": 176
+    },
+    {
+      "epoch": 2.873469387755102,
+      "eval_loss": 1.0055768489837646,
+      "eval_runtime": 18.2419,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 176
+    },
+    {
+      "epoch": 2.889795918367347,
+      "grad_norm": 0.21882188320159912,
+      "learning_rate": 0.0001904531875223017,
+      "loss": 0.1347,
+      "step": 177
+    },
+    {
+      "epoch": 2.906122448979592,
+      "grad_norm": 0.24942266941070557,
+      "learning_rate": 0.00018844537641667176,
+      "loss": 0.1526,
+      "step": 178
+    },
+    {
+      "epoch": 2.906122448979592,
+      "eval_loss": 0.9967045783996582,
+      "eval_runtime": 18.2597,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 178
+    },
+    {
+      "epoch": 2.9224489795918367,
+      "grad_norm": 0.2336956411600113,
+      "learning_rate": 0.0001864387330663399,
+      "loss": 0.1352,
+      "step": 179
+    },
+    {
+      "epoch": 2.938775510204082,
+      "grad_norm": 0.2014392614364624,
+      "learning_rate": 0.0001844334602705047,
+      "loss": 0.1177,
+      "step": 180
+    },
+    {
+      "epoch": 2.938775510204082,
+      "eval_loss": 0.9912804365158081,
+      "eval_runtime": 18.2221,
+      "eval_samples_per_second": 0.878,
+      "eval_steps_per_second": 0.878,
+      "step": 180
+    },
+    {
+      "epoch": 2.938775510204082,
+      "eval_loss": 0.9912804365158081,
+      "eval_runtime": 18.3966,
+      "eval_samples_per_second": 0.87,
+      "eval_steps_per_second": 0.87,
+      "step": 180
+    },
+    {
+      "epoch": 2.963265306122449,
+      "grad_norm": 0.2360977977514267,
+      "learning_rate": 0.00018242976068985137,
+      "loss": 0.1276,
+      "step": 181
+    },
+    {
+      "epoch": 2.979591836734694,
+      "grad_norm": 0.22097723186016083,
+      "learning_rate": 0.0001804278368260697,
+      "loss": 0.1292,
+      "step": 182
+    },
+    {
+      "epoch": 2.979591836734694,
+      "eval_loss": 0.9996596574783325,
+      "eval_runtime": 18.2418,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 182
+    },
+    {
+      "epoch": 2.9959183673469387,
+      "grad_norm": 0.19727876782417297,
+      "learning_rate": 0.00017842789100138868,
+      "loss": 0.0994,
+      "step": 183
+    },
+    {
+      "epoch": 3.012244897959184,
+      "grad_norm": 0.4426736533641815,
+      "learning_rate": 0.0001764301253381289,
+      "loss": 0.1507,
+      "step": 184
+    },
+    {
+      "epoch": 3.012244897959184,
+      "eval_loss": 1.0262768268585205,
+      "eval_runtime": 18.259,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 184
+    },
+    {
+      "epoch": 3.0285714285714285,
+      "grad_norm": 0.1821659505367279,
+      "learning_rate": 0.00017443474173827532,
+      "loss": 0.0588,
+      "step": 185
+    },
+    {
+      "epoch": 3.0448979591836736,
+      "grad_norm": 0.2281961441040039,
+      "learning_rate": 0.0001724419418630724,
+      "loss": 0.0765,
+      "step": 186
+    },
+    {
+      "epoch": 3.0448979591836736,
+      "eval_loss": 1.0732572078704834,
+      "eval_runtime": 18.2807,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 186
+    },
+    {
+      "epoch": 3.061224489795918,
+      "grad_norm": 0.19735883176326752,
+      "learning_rate": 0.0001704519271126433,
+      "loss": 0.0542,
+      "step": 187
+    },
+    {
+      "epoch": 3.0775510204081633,
+      "grad_norm": 0.23131243884563446,
+      "learning_rate": 0.0001684648986056355,
+      "loss": 0.0604,
+      "step": 188
+    },
+    {
+      "epoch": 3.0775510204081633,
+      "eval_loss": 1.10750150680542,
+      "eval_runtime": 18.2728,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 188
+    },
+    {
+      "epoch": 3.093877551020408,
+      "grad_norm": 0.25719910860061646,
+      "learning_rate": 0.0001664810571588952,
+      "loss": 0.0705,
+      "step": 189
+    },
+    {
+      "epoch": 3.110204081632653,
+      "grad_norm": 0.23448176681995392,
+      "learning_rate": 0.00016450060326717177,
+      "loss": 0.061,
+      "step": 190
+    },
+    {
+      "epoch": 3.110204081632653,
+      "eval_loss": 1.0981874465942383,
+      "eval_runtime": 18.2548,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 190
+    },
+    {
+      "epoch": 3.126530612244898,
+      "grad_norm": 0.2236451804637909,
+      "learning_rate": 0.00016252373708285504,
+      "loss": 0.0492,
+      "step": 191
+    },
+    {
+      "epoch": 3.142857142857143,
+      "grad_norm": 0.22379790246486664,
+      "learning_rate": 0.00016055065839574743,
+      "loss": 0.0622,
+      "step": 192
+    },
+    {
+      "epoch": 3.142857142857143,
+      "eval_loss": 1.0731853246688843,
+      "eval_runtime": 18.2828,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 192
+    },
+    {
+      "epoch": 3.159183673469388,
+      "grad_norm": 0.23106735944747925,
+      "learning_rate": 0.00015858156661287178,
+      "loss": 0.0715,
+      "step": 193
+    },
+    {
+      "epoch": 3.1755102040816325,
+      "grad_norm": 0.23755702376365662,
+      "learning_rate": 0.00015661666073831895,
+      "loss": 0.0794,
+      "step": 194
+    },
+    {
+      "epoch": 3.1755102040816325,
+      "eval_loss": 1.06235671043396,
+      "eval_runtime": 18.305,
+      "eval_samples_per_second": 0.874,
+      "eval_steps_per_second": 0.874,
+      "step": 194
+    },
+    {
+      "epoch": 3.1918367346938776,
+      "grad_norm": 0.22150100767612457,
+      "learning_rate": 0.0001546561393531357,
+      "loss": 0.0687,
+      "step": 195
+    },
+    {
+      "epoch": 3.2081632653061223,
+      "grad_norm": 0.1758776307106018,
+      "learning_rate": 0.0001527002005952551,
+      "loss": 0.0498,
+      "step": 196
+    },
+    {
+      "epoch": 3.2081632653061223,
+      "eval_loss": 1.073830008506775,
+      "eval_runtime": 18.3237,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 196
+    },
+    {
+      "epoch": 3.2244897959183674,
+      "grad_norm": 0.23125389218330383,
+      "learning_rate": 0.000150749042139472,
+      "loss": 0.08,
+      "step": 197
+    },
+    {
+      "epoch": 3.240816326530612,
+      "grad_norm": 0.2143053263425827,
+      "learning_rate": 0.00014880286117746548,
+      "loss": 0.06,
+      "step": 198
+    },
+    {
+      "epoch": 3.240816326530612,
+      "eval_loss": 1.1210918426513672,
+      "eval_runtime": 18.3294,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 198
+    },
+    {
+      "epoch": 3.257142857142857,
+      "grad_norm": 0.20991010963916779,
+      "learning_rate": 0.0001468618543978695,
+      "loss": 0.0549,
+      "step": 199
+    },
+    {
+      "epoch": 3.273469387755102,
+      "grad_norm": 0.21787025034427643,
+      "learning_rate": 0.00014492621796639504,
+      "loss": 0.0515,
+      "step": 200
+    },
+    {
+      "epoch": 3.273469387755102,
+      "eval_loss": 1.15009343624115,
+      "eval_runtime": 18.3182,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 200
+    },
+    {
+      "epoch": 3.289795918367347,
+      "grad_norm": 0.22523745894432068,
+      "learning_rate": 0.00014299614750600478,
+      "loss": 0.0499,
+      "step": 201
+    },
+    {
+      "epoch": 3.306122448979592,
+      "grad_norm": 0.21396824717521667,
+      "learning_rate": 0.00014107183807714275,
+      "loss": 0.0484,
+      "step": 202
+    },
+    {
+      "epoch": 3.306122448979592,
+      "eval_loss": 1.1507196426391602,
+      "eval_runtime": 18.3345,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 202
+    },
+    {
+      "epoch": 3.3224489795918366,
+      "grad_norm": 0.23024530708789825,
+      "learning_rate": 0.00013915348415802036,
+      "loss": 0.0647,
+      "step": 203
+    },
+    {
+      "epoch": 3.3387755102040817,
+      "grad_norm": 0.20833072066307068,
+      "learning_rate": 0.0001372412796249625,
+      "loss": 0.0576,
+      "step": 204
+    },
+    {
+      "epoch": 3.3387755102040817,
+      "eval_loss": 1.1334972381591797,
+      "eval_runtime": 18.3296,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 204
+    },
+    {
+      "epoch": 3.3551020408163263,
+      "grad_norm": 0.2296619713306427,
+      "learning_rate": 0.00013533541773281274,
+      "loss": 0.0843,
+      "step": 205
+    },
+    {
+      "epoch": 3.3714285714285714,
+      "grad_norm": 0.1846872717142105,
+      "learning_rate": 0.0001334360910954027,
+      "loss": 0.0562,
+      "step": 206
+    },
+    {
+      "epoch": 3.3714285714285714,
+      "eval_loss": 1.1273655891418457,
+      "eval_runtime": 18.3216,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 206
+    },
+    {
+      "epoch": 3.387755102040816,
+      "grad_norm": 0.1895626038312912,
+      "learning_rate": 0.00013154349166608577,
+      "loss": 0.0556,
+      "step": 207
+    },
+    {
+      "epoch": 3.404081632653061,
+      "grad_norm": 0.34628579020500183,
+      "learning_rate": 0.00012965781071833752,
+      "loss": 0.1337,
+      "step": 208
+    },
+    {
+      "epoch": 3.404081632653061,
+      "eval_loss": 1.1414172649383545,
+      "eval_runtime": 18.3347,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 208
+    },
+    {
+      "epoch": 3.4204081632653063,
+      "grad_norm": 0.20633243024349213,
+      "learning_rate": 0.0001277792388264245,
+      "loss": 0.0627,
+      "step": 209
+    },
+    {
+      "epoch": 3.436734693877551,
+      "grad_norm": 0.19947534799575806,
+      "learning_rate": 0.00012590796584614484,
+      "loss": 0.0478,
+      "step": 210
+    },
+    {
+      "epoch": 3.436734693877551,
+      "eval_loss": 1.1656532287597656,
+      "eval_runtime": 18.3137,
+      "eval_samples_per_second": 0.874,
+      "eval_steps_per_second": 0.874,
+      "step": 210
+    },
+    {
+      "epoch": 3.453061224489796,
+      "grad_norm": 0.21546797454357147,
+      "learning_rate": 0.0001240441808956398,
+      "loss": 0.0672,
+      "step": 211
+    },
+    {
+      "epoch": 3.4693877551020407,
+      "grad_norm": 0.2232857644557953,
+      "learning_rate": 0.00012218807233628138,
+      "loss": 0.0597,
+      "step": 212
+    },
+    {
+      "epoch": 3.4693877551020407,
+      "eval_loss": 1.1744612455368042,
+      "eval_runtime": 18.3397,
+      "eval_samples_per_second": 0.872,
+      "eval_steps_per_second": 0.872,
+      "step": 212
+    },
+    {
+      "epoch": 3.4857142857142858,
+      "grad_norm": 0.23030999302864075,
+      "learning_rate": 0.00012033982775363548,
+      "loss": 0.0586,
+      "step": 213
+    },
+    {
+      "epoch": 3.502040816326531,
+      "grad_norm": 0.21055705845355988,
+      "learning_rate": 0.00011849963393850383,
+      "loss": 0.0618,
+      "step": 214
+    },
+    {
+      "epoch": 3.502040816326531,
+      "eval_loss": 1.1754231452941895,
+      "eval_runtime": 18.3637,
+      "eval_samples_per_second": 0.871,
+      "eval_steps_per_second": 0.871,
+      "step": 214
+    },
+    {
+      "epoch": 3.5183673469387755,
+      "grad_norm": 0.18197622895240784,
+      "learning_rate": 0.00011666767686804641,
+      "loss": 0.0475,
+      "step": 215
+    },
+    {
+      "epoch": 3.53469387755102,
+      "grad_norm": 0.24238142371177673,
+      "learning_rate": 0.00011484414168698547,
+      "loss": 0.0686,
+      "step": 216
+    },
+    {
+      "epoch": 3.53469387755102,
+      "eval_loss": 1.1673252582550049,
+      "eval_runtime": 18.3403,
+      "eval_samples_per_second": 0.872,
+      "eval_steps_per_second": 0.872,
+      "step": 216
+    },
+    {
+      "epoch": 3.5510204081632653,
+      "grad_norm": 0.2360972762107849,
+      "learning_rate": 0.00011302921268889432,
+      "loss": 0.0738,
+      "step": 217
+    },
+    {
+      "epoch": 3.5673469387755103,
+      "grad_norm": 0.2011600285768509,
+      "learning_rate": 0.00011122307329757206,
+      "loss": 0.0501,
+      "step": 218
+    },
+    {
+      "epoch": 3.5673469387755103,
+      "eval_loss": 1.1578516960144043,
+      "eval_runtime": 18.3646,
+      "eval_samples_per_second": 0.871,
+      "eval_steps_per_second": 0.871,
+      "step": 218
+    },
+    {
+      "epoch": 3.583673469387755,
+      "grad_norm": 0.22133193910121918,
+      "learning_rate": 0.00010942590604850553,
+      "loss": 0.0662,
+      "step": 219
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 0.19864347577095032,
+      "learning_rate": 0.0001076378925704221,
+      "loss": 0.0525,
+      "step": 220
+    },
+    {
+      "epoch": 3.6,
+      "eval_loss": 1.147334337234497,
+      "eval_runtime": 18.3364,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 220
+    },
+    {
+      "epoch": 3.6163265306122447,
+      "grad_norm": 0.1864493042230606,
+      "learning_rate": 0.0001058592135669335,
+      "loss": 0.0584,
+      "step": 221
+    },
+    {
+      "epoch": 3.63265306122449,
+      "grad_norm": 0.1753772795200348,
+      "learning_rate": 0.00010409004879827282,
+      "loss": 0.0508,
+      "step": 222
+    },
+    {
+      "epoch": 3.63265306122449,
+      "eval_loss": 1.1439639329910278,
+      "eval_runtime": 18.3232,
+      "eval_samples_per_second": 0.873,
+      "eval_steps_per_second": 0.873,
+      "step": 222
+    },
+    {
+      "epoch": 3.648979591836735,
+      "grad_norm": 0.18084004521369934,
+      "learning_rate": 0.00010233057706312767,
+      "loss": 0.0486,
+      "step": 223
+    },
+    {
+      "epoch": 3.6653061224489796,
+      "grad_norm": 0.19728556275367737,
+      "learning_rate": 0.00010058097618056992,
+      "loss": 0.0545,
+      "step": 224
+    },
+    {
+      "epoch": 3.6653061224489796,
+      "eval_loss": 1.1501585245132446,
+      "eval_runtime": 18.2988,
+      "eval_samples_per_second": 0.874,
+      "eval_steps_per_second": 0.874,
+      "step": 224
+    },
+    {
+      "epoch": 3.6816326530612242,
+      "grad_norm": 0.22434309124946594,
+      "learning_rate": 9.88414229720843e-05,
+      "loss": 0.0502,
+      "step": 225
+    },
+    {
+      "epoch": 3.6979591836734693,
+      "grad_norm": 0.20542308688163757,
+      "learning_rate": 9.711209324369869e-05,
+      "loss": 0.0513,
+      "step": 226
+    },
+    {
+      "epoch": 3.6979591836734693,
+      "eval_loss": 1.160825490951538,
+      "eval_runtime": 18.2895,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 226
+    },
+    {
+      "epoch": 3.7142857142857144,
+      "grad_norm": 0.1923072785139084,
+      "learning_rate": 9.539316176821638e-05,
+      "loss": 0.0495,
+      "step": 227
+    },
+    {
+      "epoch": 3.730612244897959,
+      "grad_norm": 0.22612810134887695,
+      "learning_rate": 9.368480226755238e-05,
+      "loss": 0.0678,
+      "step": 228
+    },
+    {
+      "epoch": 3.730612244897959,
+      "eval_loss": 1.167827844619751,
+      "eval_runtime": 18.2707,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 228
+    },
+    {
+      "epoch": 3.746938775510204,
+      "grad_norm": 0.20918408036231995,
+      "learning_rate": 9.198718739517685e-05,
+      "loss": 0.0584,
+      "step": 229
+    },
+    {
+      "epoch": 3.763265306122449,
+      "grad_norm": 0.20327749848365784,
+      "learning_rate": 9.030048871866599e-05,
+      "loss": 0.064,
+      "step": 230
+    },
+    {
+      "epoch": 3.763265306122449,
+      "eval_loss": 1.1593577861785889,
+      "eval_runtime": 18.2836,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 230
+    },
+    {
+      "epoch": 3.779591836734694,
+      "grad_norm": 0.2150719165802002,
+      "learning_rate": 8.862487670236248e-05,
+      "loss": 0.0649,
+      "step": 231
+    },
+    {
+      "epoch": 3.795918367346939,
+      "grad_norm": 0.2021542638540268,
+      "learning_rate": 8.696052069014804e-05,
+      "loss": 0.0578,
+      "step": 232
+    },
+    {
+      "epoch": 3.795918367346939,
+      "eval_loss": 1.1511321067810059,
+      "eval_runtime": 18.2561,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 232
+    },
+    {
+      "epoch": 3.8122448979591836,
+      "grad_norm": 0.18323124945163727,
+      "learning_rate": 8.53075888883289e-05,
+      "loss": 0.0462,
+      "step": 233
+    },
+    {
+      "epoch": 3.8285714285714287,
+      "grad_norm": 0.20034129917621613,
+      "learning_rate": 8.366624834863585e-05,
+      "loss": 0.0548,
+      "step": 234
+    },
+    {
+      "epoch": 3.8285714285714287,
+      "eval_loss": 1.1508455276489258,
+      "eval_runtime": 18.2577,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 234
+    },
+    {
+      "epoch": 3.8448979591836734,
+      "grad_norm": 0.2235688865184784,
+      "learning_rate": 8.203666495134159e-05,
+      "loss": 0.0642,
+      "step": 235
+    },
+    {
+      "epoch": 3.8612244897959185,
+      "grad_norm": 0.22254431247711182,
+      "learning_rate": 8.04190033884963e-05,
+      "loss": 0.0671,
+      "step": 236
+    },
+    {
+      "epoch": 3.8612244897959185,
+      "eval_loss": 1.1543577909469604,
+      "eval_runtime": 18.2697,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 236
+    },
+    {
+      "epoch": 3.877551020408163,
+      "grad_norm": 0.18185441195964813,
+      "learning_rate": 7.881342714728275e-05,
+      "loss": 0.0556,
+      "step": 237
+    },
+    {
+      "epoch": 3.8938775510204082,
+      "grad_norm": 0.19241996109485626,
+      "learning_rate": 7.722009849349447e-05,
+      "loss": 0.0477,
+      "step": 238
+    },
+    {
+      "epoch": 3.8938775510204082,
+      "eval_loss": 1.1588821411132812,
+      "eval_runtime": 18.2702,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 238
+    },
+    {
+      "epoch": 3.910204081632653,
+      "grad_norm": 0.2237924337387085,
+      "learning_rate": 7.563917845513577e-05,
+      "loss": 0.0617,
+      "step": 239
+    },
+    {
+      "epoch": 3.926530612244898,
+      "grad_norm": 0.2120658904314041,
+      "learning_rate": 7.407082680614799e-05,
+      "loss": 0.0533,
+      "step": 240
+    },
+    {
+      "epoch": 3.926530612244898,
+      "eval_loss": 1.158017635345459,
+      "eval_runtime": 18.2939,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 240
+    },
+    {
+      "epoch": 3.942857142857143,
+      "grad_norm": 0.227312833070755,
+      "learning_rate": 7.251520205026205e-05,
+      "loss": 0.0706,
+      "step": 241
+    },
+    {
+      "epoch": 3.9591836734693877,
+      "grad_norm": 0.18778285384178162,
+      "learning_rate": 7.097246140497953e-05,
+      "loss": 0.0527,
+      "step": 242
+    },
+    {
+      "epoch": 3.9591836734693877,
+      "eval_loss": 1.1489660739898682,
+      "eval_runtime": 18.262,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 242
+    },
+    {
+      "epoch": 3.975510204081633,
+      "grad_norm": 0.19356583058834076,
+      "learning_rate": 6.944276078568326e-05,
+      "loss": 0.0493,
+      "step": 243
+    },
+    {
+      "epoch": 3.9918367346938775,
+      "grad_norm": 0.19286511838436127,
+      "learning_rate": 6.792625478988064e-05,
+      "loss": 0.0509,
+      "step": 244
+    },
+    {
+      "epoch": 3.9918367346938775,
+      "eval_loss": 1.1436331272125244,
+      "eval_runtime": 18.2861,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 244
+    },
+    {
+      "epoch": 4.0081632653061225,
+      "grad_norm": 0.3620785176753998,
+      "learning_rate": 6.642309668157873e-05,
+      "loss": 0.0583,
+      "step": 245
+    },
+    {
+      "epoch": 4.024489795918368,
+      "grad_norm": 0.1391618847846985,
+      "learning_rate": 6.49334383757951e-05,
+      "loss": 0.0322,
+      "step": 246
+    },
+    {
+      "epoch": 4.024489795918368,
+      "eval_loss": 1.1510474681854248,
+      "eval_runtime": 18.2582,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 246
+    },
+    {
+      "epoch": 4.040816326530612,
+      "grad_norm": 0.12477612495422363,
+      "learning_rate": 6.345743042320471e-05,
+      "loss": 0.0312,
+      "step": 247
+    },
+    {
+      "epoch": 4.057142857142857,
+      "grad_norm": 0.13875025510787964,
+      "learning_rate": 6.199522199492458e-05,
+      "loss": 0.0265,
+      "step": 248
+    },
+    {
+      "epoch": 4.057142857142857,
+      "eval_loss": 1.1840749979019165,
+      "eval_runtime": 18.2575,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 248
+    },
+    {
+      "epoch": 4.073469387755102,
+      "grad_norm": 0.12535437941551208,
+      "learning_rate": 6.0546960867437854e-05,
+      "loss": 0.0202,
+      "step": 249
+    },
+    {
+      "epoch": 4.089795918367347,
+      "grad_norm": 0.13667362928390503,
+      "learning_rate": 5.911279340765941e-05,
+      "loss": 0.0184,
+      "step": 250
+    },
+    {
+      "epoch": 4.089795918367347,
+      "eval_loss": 1.2291345596313477,
+      "eval_runtime": 18.2603,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 250
+    },
+    {
+      "epoch": 4.106122448979592,
+      "grad_norm": 0.14251337945461273,
+      "learning_rate": 5.7692864558142934e-05,
+      "loss": 0.0181,
+      "step": 251
+    },
+    {
+      "epoch": 4.122448979591836,
+      "grad_norm": 0.1433674395084381,
+      "learning_rate": 5.628731782243268e-05,
+      "loss": 0.0214,
+      "step": 252
+    },
+    {
+      "epoch": 4.122448979591836,
+      "eval_loss": 1.2775920629501343,
+      "eval_runtime": 18.2768,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 252
+    },
+    {
+      "epoch": 4.1387755102040815,
+      "grad_norm": 0.15012766420841217,
+      "learning_rate": 5.4896295250560434e-05,
+      "loss": 0.0183,
+      "step": 253
+    },
+    {
+      "epoch": 4.155102040816327,
+      "grad_norm": 0.17076925933361053,
+      "learning_rate": 5.3519937424689394e-05,
+      "loss": 0.019,
+      "step": 254
+    },
+    {
+      "epoch": 4.155102040816327,
+      "eval_loss": 1.3157516717910767,
+      "eval_runtime": 18.2837,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 254
+    },
+    {
+      "epoch": 4.171428571428572,
+      "grad_norm": 0.1613532155752182,
+      "learning_rate": 5.215838344490631e-05,
+      "loss": 0.0179,
+      "step": 255
+    },
+    {
+      "epoch": 4.187755102040816,
+      "grad_norm": 0.1661355346441269,
+      "learning_rate": 5.081177091516358e-05,
+      "loss": 0.02,
+      "step": 256
+    },
+    {
+      "epoch": 4.187755102040816,
+      "eval_loss": 1.3386974334716797,
+      "eval_runtime": 18.2522,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 256
+    },
+    {
+      "epoch": 4.204081632653061,
+      "grad_norm": 0.15871840715408325,
+      "learning_rate": 4.9480235929372434e-05,
+      "loss": 0.0184,
+      "step": 257
+    },
+    {
+      "epoch": 4.220408163265306,
+      "grad_norm": 0.17244984209537506,
+      "learning_rate": 4.8163913057648714e-05,
+      "loss": 0.0182,
+      "step": 258
+    },
+    {
+      "epoch": 4.220408163265306,
+      "eval_loss": 1.3454052209854126,
+      "eval_runtime": 18.2673,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 258
+    },
+    {
+      "epoch": 4.236734693877551,
+      "grad_norm": 0.15932978689670563,
+      "learning_rate": 4.686293533271271e-05,
+      "loss": 0.0181,
+      "step": 259
+    },
+    {
+      "epoch": 4.253061224489796,
+      "grad_norm": 0.17341765761375427,
+      "learning_rate": 4.5577434236444404e-05,
+      "loss": 0.0176,
+      "step": 260
+    },
+    {
+      "epoch": 4.253061224489796,
+      "eval_loss": 1.3430368900299072,
+      "eval_runtime": 18.2538,
+      "eval_samples_per_second": 0.877,
+      "eval_steps_per_second": 0.877,
+      "step": 260
+    },
+    {
+      "epoch": 4.2693877551020405,
+      "grad_norm": 0.16669811308383942,
+      "learning_rate": 4.4307539686595334e-05,
+      "loss": 0.0167,
+      "step": 261
+    },
+    {
+      "epoch": 4.285714285714286,
+      "grad_norm": 0.13549935817718506,
+      "learning_rate": 4.3053380023658595e-05,
+      "loss": 0.0134,
+      "step": 262
+    },
+    {
+      "epoch": 4.285714285714286,
+      "eval_loss": 1.3340528011322021,
+      "eval_runtime": 18.2721,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 262
+    },
+    {
+      "epoch": 4.302040816326531,
+      "grad_norm": 0.14491026103496552,
+      "learning_rate": 4.1815081997898345e-05,
+      "loss": 0.0153,
+      "step": 263
+    },
+    {
+      "epoch": 4.318367346938776,
+      "grad_norm": 0.13227814435958862,
+      "learning_rate": 4.05927707565398e-05,
+      "loss": 0.0162,
+      "step": 264
+    },
+    {
+      "epoch": 4.318367346938776,
+      "eval_loss": 1.3255767822265625,
+      "eval_runtime": 18.2895,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 264
+    },
+    {
+      "epoch": 4.33469387755102,
+      "grad_norm": 0.166014164686203,
+      "learning_rate": 3.9386569831121476e-05,
+      "loss": 0.0239,
+      "step": 265
+    },
+    {
+      "epoch": 4.351020408163265,
+      "grad_norm": 0.13963960111141205,
+      "learning_rate": 3.819660112501053e-05,
+      "loss": 0.0167,
+      "step": 266
+    },
+    {
+      "epoch": 4.351020408163265,
+      "eval_loss": 1.3155338764190674,
+      "eval_runtime": 18.2671,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 266
+    },
+    {
+      "epoch": 4.36734693877551,
+      "grad_norm": 0.1515013724565506,
+      "learning_rate": 3.702298490108276e-05,
+      "loss": 0.0161,
+      "step": 267
+    },
+    {
+      "epoch": 4.383673469387755,
+      "grad_norm": 0.16707275807857513,
+      "learning_rate": 3.5865839769568435e-05,
+      "loss": 0.0241,
+      "step": 268
+    },
+    {
+      "epoch": 4.383673469387755,
+      "eval_loss": 1.306105375289917,
+      "eval_runtime": 18.2749,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 268
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 0.1421680599451065,
+      "learning_rate": 3.472528267606492e-05,
+      "loss": 0.0175,
+      "step": 269
+    },
+    {
+      "epoch": 4.416326530612245,
+      "grad_norm": 0.144426167011261,
+      "learning_rate": 3.360142888971789e-05,
+      "loss": 0.0176,
+      "step": 270
+    },
+    {
+      "epoch": 4.416326530612245,
+      "eval_loss": 1.2982478141784668,
+      "eval_runtime": 18.287,
+      "eval_samples_per_second": 0.875,
+      "eval_steps_per_second": 0.875,
+      "step": 270
+    },
+    {
+      "epoch": 4.43265306122449,
+      "grad_norm": 0.1484973430633545,
+      "learning_rate": 3.249439199157167e-05,
+      "loss": 0.0204,
+      "step": 271
+    },
+    {
+      "epoch": 4.448979591836735,
+      "grad_norm": 0.15431199967861176,
+      "learning_rate": 3.140428386309029e-05,
+      "loss": 0.0256,
+      "step": 272
+    },
+    {
+      "epoch": 4.448979591836735,
+      "eval_loss": 1.2938604354858398,
+      "eval_runtime": 18.2628,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 272
+    },
+    {
+      "epoch": 4.46530612244898,
+      "grad_norm": 0.14612630009651184,
+      "learning_rate": 3.0331214674850316e-05,
+      "loss": 0.0205,
+      "step": 273
+    },
+    {
+      "epoch": 4.481632653061224,
+      "grad_norm": 0.14046533405780792,
+      "learning_rate": 2.927529287540667e-05,
+      "loss": 0.0218,
+      "step": 274
+    },
+    {
+      "epoch": 4.481632653061224,
+      "eval_loss": 1.2913928031921387,
+      "eval_runtime": 18.2621,
+      "eval_samples_per_second": 0.876,
+      "eval_steps_per_second": 0.876,
+      "step": 274
+    },
+    {
+      "epoch": 4.497959183673469,
+      "grad_norm": 0.14122799038887024,
+      "learning_rate": 2.8236625180332256e-05,
+      "loss": 0.0159,
+      "step": 275
+    },
+    {
+      "epoch": 4.514285714285714,
+      "grad_norm": 0.1126718744635582,
+      "learning_rate": 2.7215316561432947e-05,
+      "loss": 0.0155,
+      "step": 276
+    },
+    {
+      "epoch": 4.514285714285714,
+      "eval_loss": 1.2918992042541504,
+      "eval_runtime": 16.7544,
+      "eval_samples_per_second": 0.955,
+      "eval_steps_per_second": 0.955,
+      "step": 276
+    },
+    {
+      "epoch": 4.530612244897959,
+      "grad_norm": 0.1317344307899475,
+      "learning_rate": 2.6211470236138748e-05,
+      "loss": 0.0194,
+      "step": 277
+    },
+    {
+      "epoch": 4.546938775510204,
+      "grad_norm": 0.13652952015399933,
+      "learning_rate": 2.522518765707216e-05,
+      "loss": 0.0184,
+      "step": 278
+    },
+    {
+      "epoch": 4.546938775510204,
+      "eval_loss": 1.2949538230895996,
+      "eval_runtime": 15.9544,
+      "eval_samples_per_second": 1.003,
+      "eval_steps_per_second": 1.003,
+      "step": 278
+    },
+    {
+      "epoch": 4.563265306122449,
+      "grad_norm": 0.2611277103424072,
+      "learning_rate": 2.425656850179505e-05,
+      "loss": 0.0434,
+      "step": 279
+    },
+    {
+      "epoch": 4.579591836734694,
+      "grad_norm": 0.13340182602405548,
+      "learning_rate": 2.3305710662734858e-05,
+      "loss": 0.0187,
+      "step": 280
+    },
+    {
+      "epoch": 4.579591836734694,
+      "eval_loss": 1.2997756004333496,
+      "eval_runtime": 15.9638,
+      "eval_samples_per_second": 1.002,
+      "eval_steps_per_second": 1.002,
+      "step": 280
+    },
+    {
+      "epoch": 4.595918367346939,
+      "grad_norm": 0.13417263329029083,
+      "learning_rate": 2.2372710237291107e-05,
+      "loss": 0.0185,
+      "step": 281
+    },
+    {
+      "epoch": 4.612244897959184,
+      "grad_norm": 0.1171732172369957,
+      "learning_rate": 2.1457661518123562e-05,
+      "loss": 0.015,
+      "step": 282
+    },
+    {
+      "epoch": 4.612244897959184,
+      "eval_loss": 1.3039846420288086,
+      "eval_runtime": 16.1058,
+      "eval_samples_per_second": 0.993,
+      "eval_steps_per_second": 0.993,
+      "step": 282
+    },
+    {
+      "epoch": 4.628571428571428,
+      "grad_norm": 0.14753983914852142,
+      "learning_rate": 2.0560656983622527e-05,
+      "loss": 0.0189,
+      "step": 283
+    },
+    {
+      "epoch": 4.644897959183673,
+      "grad_norm": 0.1579369455575943,
+      "learning_rate": 1.968178728856269e-05,
+      "loss": 0.0201,
+      "step": 284
+    },
+    {
+      "epoch": 4.644897959183673,
+      "eval_loss": 1.307161808013916,
+      "eval_runtime": 15.8569,
+      "eval_samples_per_second": 1.009,
+      "eval_steps_per_second": 1.009,
+      "step": 284
+    },
+    {
+      "epoch": 4.661224489795918,
+      "grad_norm": 0.12243036180734634,
+      "learning_rate": 1.8821141254941187e-05,
+      "loss": 0.0147,
+      "step": 285
+    },
+    {
+      "epoch": 4.677551020408163,
+      "grad_norm": 0.1257927268743515,
+      "learning_rate": 1.797880586300087e-05,
+      "loss": 0.0158,
+      "step": 286
+    },
+    {
+      "epoch": 4.677551020408163,
+      "eval_loss": 1.3113857507705688,
+      "eval_runtime": 15.8584,
+      "eval_samples_per_second": 1.009,
+      "eval_steps_per_second": 1.009,
+      "step": 286
+    },
+    {
+      "epoch": 4.6938775510204085,
+      "grad_norm": 0.17673540115356445,
+      "learning_rate": 1.7154866242439804e-05,
+      "loss": 0.0269,
+      "step": 287
+    },
+    {
+      "epoch": 4.710204081632653,
+      "grad_norm": 0.143116295337677,
+      "learning_rate": 1.6349405663807673e-05,
+      "loss": 0.0257,
+      "step": 288
+    },
+    {
+      "epoch": 4.710204081632653,
+      "eval_loss": 1.3128083944320679,
+      "eval_runtime": 15.883,
+      "eval_samples_per_second": 1.007,
+      "eval_steps_per_second": 1.007,
+      "step": 288
+    },
+    {
+      "epoch": 4.726530612244898,
+      "grad_norm": 0.1345769762992859,
+      "learning_rate": 1.5562505530090155e-05,
+      "loss": 0.0198,
+      "step": 289
+    },
+    {
+      "epoch": 4.742857142857143,
+      "grad_norm": 0.12065534293651581,
+      "learning_rate": 1.4794245368481996e-05,
+      "loss": 0.0173,
+      "step": 290
+    },
+    {
+      "epoch": 4.742857142857143,
+      "eval_loss": 1.314129114151001,
+      "eval_runtime": 15.8958,
+      "eval_samples_per_second": 1.007,
+      "eval_steps_per_second": 1.007,
+      "step": 290
+    },
+    {
+      "epoch": 4.759183673469388,
+      "grad_norm": 0.12258104234933853,
+      "learning_rate": 1.4044702822349731e-05,
+      "loss": 0.0141,
+      "step": 291
+    },
+    {
+      "epoch": 4.775510204081632,
+      "grad_norm": 0.12915143370628357,
+      "learning_rate": 1.3313953643384747e-05,
+      "loss": 0.0144,
+      "step": 292
+    },
+    {
+      "epoch": 4.775510204081632,
+      "eval_loss": 1.31673264503479,
+      "eval_runtime": 15.8895,
+      "eval_samples_per_second": 1.007,
+      "eval_steps_per_second": 1.007,
+      "step": 292
+    },
+    {
+      "epoch": 4.791836734693877,
+      "grad_norm": 0.14802931249141693,
+      "learning_rate": 1.2602071683947404e-05,
+      "loss": 0.0186,
+      "step": 293
+    },
+    {
+      "epoch": 4.808163265306122,
+      "grad_norm": 0.12036965042352676,
+      "learning_rate": 1.1909128889603404e-05,
+      "loss": 0.0176,
+      "step": 294
+    },
+    {
+      "epoch": 4.808163265306122,
+      "eval_loss": 1.3176369667053223,
+      "eval_runtime": 18.1713,
+      "eval_samples_per_second": 0.881,
+      "eval_steps_per_second": 0.881,
+      "step": 294
+    },
+    {
+      "epoch": 4.8244897959183675,
+      "grad_norm": 0.1126311793923378,
+      "learning_rate": 1.1235195291852529e-05,
+      "loss": 0.0144,
+      "step": 295
+    },
+    {
+      "epoch": 4.840816326530613,
+      "grad_norm": 0.13918578624725342,
+      "learning_rate": 1.0580339001051154e-05,
+      "loss": 0.0204,
+      "step": 296
+    },
+    {
+      "epoch": 4.840816326530613,
+      "eval_loss": 1.3199832439422607,
+      "eval_runtime": 18.2035,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 296
+    },
+    {
+      "epoch": 4.857142857142857,
+      "grad_norm": 0.1410403996706009,
+      "learning_rate": 9.944626199528539e-06,
+      "loss": 0.0175,
+      "step": 297
+    },
+    {
+      "epoch": 4.873469387755102,
+      "grad_norm": 0.1490529477596283,
+      "learning_rate": 9.328121134898337e-06,
+      "loss": 0.0211,
+      "step": 298
+    },
+    {
+      "epoch": 4.873469387755102,
+      "eval_loss": 1.320744276046753,
+      "eval_runtime": 18.1887,
+      "eval_samples_per_second": 0.88,
+      "eval_steps_per_second": 0.88,
+      "step": 298
+    },
+    {
+      "epoch": 4.889795918367347,
+      "grad_norm": 0.13268522918224335,
+      "learning_rate": 8.730886113565473e-06,
+      "loss": 0.0128,
+      "step": 299
+    },
+    {
+      "epoch": 4.906122448979592,
+      "grad_norm": 0.143647238612175,
+      "learning_rate": 8.152981494429135e-06,
+      "loss": 0.0183,
+      "step": 300
+    },
+    {
+      "epoch": 4.906122448979592,
+      "eval_loss": 1.3215551376342773,
+      "eval_runtime": 18.2069,
+      "eval_samples_per_second": 0.879,
+      "eval_steps_per_second": 0.879,
+      "step": 300
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 305,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 30,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.627584723251538e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-300/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5208f4e9c07bb6bd2f0bc574a52273bdf74ca404d495a5bf559488089674f2f5
+size 5624

checkpoints/checkpoint-60/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: /home/anon/AI-Models/LLM/Mistral-Small-24B-Instruct-2501/
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.14.0

checkpoints/checkpoint-60/adapter_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/anon/AI-Models/LLM/Mistral-Small-24B-Instruct-2501/",
+  "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 64,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "gate_proj",
+    "down_proj",
+    "o_proj",
+    "v_proj",
+    "up_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoints/checkpoint-60/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:786a23751362703625b5d84e669cad1fa7eba36ac879df6c2b2a343f55533238
+size 739321784

checkpoints/checkpoint-60/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07233b688f5ed8469369520580b92686b5738fde4b8a819925559c1aa2f64d97
+size 377514226

checkpoints/checkpoint-60/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea10b3bb66b8b27f44f2f960e6c5de5e4f3ad9ba367d567edbed1701a1afb9ca
+size 14244