Model save

Browse files

Files changed (9) hide show

README.md +1 -1
all_results.json +4 -4
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +57 -57
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -27,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/dongwei_jiang/huggingface/runs/y5e4vyew)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/dongwei_jiang/huggingface/runs/ceahffo4)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.2598499658503639,
-    "train_runtime": 9503.7836,
     "train_samples": 7500,
-    "train_samples_per_second": 0.789,
-    "train_steps_per_second": 0.007
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.6738471064660976,
+    "train_runtime": 7514.6892,
     "train_samples": 7500,
+    "train_samples_per_second": 0.998,
+    "train_steps_per_second": 0.009
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df1624bb7d6ae0992d5c39ebeaddb3e9361405038f416cf28e888bf3c56a2609
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd4fc2167b63ca75af4c2c93f58def2cfcad7ca859aa96437b68e0085f33bf01
 size 4877660776

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c373c1aa939f5de5f10dd4f5573a7c5a1b107485fb0f55c06fda32b2ccd58bfe
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:a006e1924410660b7a6063a6be64ad686c73ca2129698bc7c21e843bb9b9073b
 size 4932751008

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd0c4fe7f2627284676f902c1c7956dd8c6159d85191bf3379260540a9185d84
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:15d57b53124aa28160f0030fe44b4c98a58020ae208f449cb34b194fd37c6e23
 size 4330865200

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:775e8214789f4ebed0930b389f3d254406a1c5615b0f8fa0c6ab1c175c44e806
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f0b21c579f91d968c145c8d755b109d4293765ed27b123045d8f4c6b299da9e
 size 1089994880

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.2598499658503639,
-    "train_runtime": 9503.7836,
     "train_samples": 7500,
-    "train_samples_per_second": 0.789,
-    "train_steps_per_second": 0.007
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.6738471064660976,
+    "train_runtime": 7514.6892,
     "train_samples": 7500,
+    "train_samples_per_second": 0.998,
+    "train_steps_per_second": 0.009
 }

trainer_state.json CHANGED Viewed

@@ -9,97 +9,97 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 482.37725538015366,
       "epoch": 0.14925373134328357,
-      "grad_norm": 2.7973220348358154,
-      "kl": 41.53744351863861,
       "learning_rate": 1.9876883405951378e-05,
-      "loss": 1.6581,
-      "reward": 0.3362723359838128,
-      "reward_std": 0.20862037069164216,
-      "rewards/accuracy_reward": 0.09564732572762295,
-      "rewards/format_reward": 0.24062500603031367,
       "step": 10
     },
     {
-      "completion_length": 111.55547354221343,
       "epoch": 0.29850746268656714,
-      "grad_norm": 2.415468454360962,
-      "kl": 0.96229248046875,
       "learning_rate": 1.777145961456971e-05,
-      "loss": 0.0385,
-      "reward": 0.9694196837139316,
-      "reward_std": 0.2677873165346682,
-      "rewards/accuracy_reward": 0.1963169732596725,
-      "rewards/format_reward": 0.7731027002446353,
       "step": 20
     },
     {
-      "completion_length": 198.15123599767685,
       "epoch": 0.44776119402985076,
-      "grad_norm": 0.45130348205566406,
-      "kl": 0.488836669921875,
       "learning_rate": 1.3583679495453e-05,
-      "loss": 0.0196,
-      "reward": 1.2291295152157544,
-      "reward_std": 0.34426228599622843,
-      "rewards/accuracy_reward": 0.33895090899895874,
-      "rewards/format_reward": 0.8901785936206579,
       "step": 30
     },
     {
-      "completion_length": 297.8464418411255,
       "epoch": 0.5970149253731343,
-      "grad_norm": 0.3186240792274475,
-      "kl": 0.1420867919921875,
       "learning_rate": 8.43565534959769e-06,
-      "loss": 0.0057,
-      "reward": 1.3643973842263222,
-      "reward_std": 0.3579088028520346,
-      "rewards/accuracy_reward": 0.42935269931331277,
-      "rewards/format_reward": 0.9350446790456772,
       "step": 40
     },
     {
-      "completion_length": 383.4798152923584,
       "epoch": 0.746268656716418,
-      "grad_norm": 0.23602692782878876,
-      "kl": 0.159228515625,
       "learning_rate": 3.7067960895016277e-06,
-      "loss": 0.0064,
-      "reward": 1.3316964861005545,
-      "reward_std": 0.45908117163926365,
-      "rewards/accuracy_reward": 0.49609377402812244,
-      "rewards/format_reward": 0.835602717474103,
       "step": 50
     },
     {
-      "completion_length": 337.02110919952395,
       "epoch": 0.8955223880597015,
-      "grad_norm": 7.445827960968018,
-      "kl": 0.19820556640625,
       "learning_rate": 6.641957350279838e-07,
       "loss": 0.0079,
-      "reward": 1.4316964909434318,
-      "reward_std": 0.3965296530164778,
-      "rewards/accuracy_reward": 0.523325917776674,
-      "rewards/format_reward": 0.9083705753087997,
       "step": 60
     },
     {
-      "completion_length": 345.3619932447161,
       "epoch": 1.0,
-      "kl": 0.18610055106026785,
-      "reward": 1.3797832200569766,
-      "reward_std": 0.45617552274572,
-      "rewards/accuracy_reward": 0.4931973003383194,
-      "rewards/format_reward": 0.886585921049118,
       "step": 67,
       "total_flos": 0.0,
-      "train_loss": 0.2598499658503639,
-      "train_runtime": 9503.7836,
-      "train_samples_per_second": 0.789,
-      "train_steps_per_second": 0.007
     }
   ],
   "logging_steps": 10,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 469.26162589788436,
       "epoch": 0.14925373134328357,
+      "grad_norm": 158.0776824951172,
+      "kl": 0.522365927696228,
       "learning_rate": 1.9876883405951378e-05,
+      "loss": 0.0209,
+      "reward": 0.36372769413283096,
+      "reward_std": 0.23131797942332924,
+      "rewards/accuracy_reward": 0.11350446951109916,
+      "rewards/format_reward": 0.25022322274744513,
       "step": 10
     },
     {
+      "completion_length": 55.07768114209175,
       "epoch": 0.29850746268656714,
+      "grad_norm": 930.0825805664062,
+      "kl": 109.860009765625,
       "learning_rate": 1.777145961456971e-05,
+      "loss": 4.4045,
+      "reward": 1.2064732640981675,
+      "reward_std": 0.2529828853905201,
+      "rewards/accuracy_reward": 0.2789062637137249,
+      "rewards/format_reward": 0.9275669876486063,
       "step": 20
     },
     {
+      "completion_length": 30.540961265563965,
       "epoch": 0.44776119402985076,
+      "grad_norm": 1.2762861251831055,
+      "kl": 0.80147705078125,
       "learning_rate": 1.3583679495453e-05,
+      "loss": 0.0321,
+      "reward": 1.2282366633415223,
+      "reward_std": 0.16877365885302426,
+      "rewards/accuracy_reward": 0.23794644025620074,
+      "rewards/format_reward": 0.9902901940047741,
       "step": 30
     },
     {
+      "completion_length": 41.73939917087555,
       "epoch": 0.5970149253731343,
+      "grad_norm": 0.4882577359676361,
+      "kl": 0.73848876953125,
       "learning_rate": 8.43565534959769e-06,
+      "loss": 0.0295,
+      "reward": 1.2350447032600642,
+      "reward_std": 0.20153872366063297,
+      "rewards/accuracy_reward": 0.24877233271254226,
+      "rewards/format_reward": 0.9862723421305418,
       "step": 40
     },
     {
+      "completion_length": 191.30971891880034,
       "epoch": 0.746268656716418,
+      "grad_norm": 0.4109732210636139,
+      "kl": 0.367132568359375,
       "learning_rate": 3.7067960895016277e-06,
+      "loss": 0.0147,
+      "reward": 1.1986607703613117,
+      "reward_std": 0.3550489211920649,
+      "rewards/accuracy_reward": 0.38348216039594263,
+      "rewards/format_reward": 0.8151786073227413,
       "step": 50
     },
     {
+      "completion_length": 255.62713146209717,
       "epoch": 0.8955223880597015,
+      "grad_norm": 0.2800893783569336,
+      "kl": 0.1984527587890625,
       "learning_rate": 6.641957350279838e-07,
       "loss": 0.0079,
+      "reward": 1.4333706043660641,
+      "reward_std": 0.32061776854097845,
+      "rewards/accuracy_reward": 0.48337055975571275,
+      "rewards/format_reward": 0.9500000335276126,
       "step": 60
     },
     {
+      "completion_length": 287.7824833733695,
       "epoch": 1.0,
+      "kl": 0.157440185546875,
+      "reward": 1.47985762996333,
+      "reward_std": 0.3193885385990143,
+      "rewards/accuracy_reward": 0.5188669421310935,
+      "rewards/format_reward": 0.9609906737293515,
       "step": 67,
       "total_flos": 0.0,
+      "train_loss": 0.6738471064660976,
+      "train_runtime": 7514.6892,
+      "train_samples_per_second": 0.998,
+      "train_steps_per_second": 0.009
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:964c9bc1d5a3811f42d6eb7d80fd06d6955df163673997592630c5c76eb76cf3
 size 6968

 version https://git-lfs.github.com/spec/v1
+oid sha256:21f5c6565d791f2f265b84a72b73f02c1d7bc163d7c7520a5e3803a1b9fe05b6
 size 6968