Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +110 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ccc5f230db8fbb6c8874aa1e2dea60a382cb35e56f6f6fea075fff9d2349092
 size 268470320

 version https://git-lfs.github.com/spec/v1
+oid sha256:e000cfefe0bf68021926c7a726ea44f6f239a89d11f212894f3df5cf62087281
 size 268470320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9bf20484fec9d82ceb75c3299919bd3b5f0df9cb071b00eeef1293b9b2012e7
 size 537086714

 version https://git-lfs.github.com/spec/v1
+oid sha256:d29aff00e13c30c6d77d2e80d0c7ab951ca92186da88481c9d12d83a4ad5a16a
 size 537086714

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b87cdb6a9ead0e67aaeb4a1b6260ad68c7c43537b6cabdd238d80e9961300a1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c473ea3ff1721307adcbd4476da1ce7d0c4c9e424349c0a43ee1e92df077688
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27c319142739f779869d5d897bd8b39e3b51026a651fe387362d0aa393419cac
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a090745596d6e223b0bc60dfcc2571a3fb6eeb72f08755a28bb1f86ee72f1c2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.225806451612903,
   "eval_steps": 1,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -114,6 +114,113 @@
       "loss": 1.0564,
       "mean_token_accuracy": 0.7449640461376735,
       "step": 100
     }
   ],
   "logging_steps": 10,
@@ -133,7 +240,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.079986034256118e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.451612903225806,
   "eval_steps": 1,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 1.0564,
       "mean_token_accuracy": 0.7449640461376735,
       "step": 100
+    },
+    {
+      "epoch": 3.5483870967741935,
+      "grad_norm": 0.050828784704208374,
+      "learning_rate": 7.682741885881314e-06,
+      "loss": 1.0597,
+      "mean_token_accuracy": 0.7440615892410278,
+      "step": 110
+    },
+    {
+      "epoch": 3.870967741935484,
+      "grad_norm": 0.04859774559736252,
+      "learning_rate": 7.217431291229068e-06,
+      "loss": 1.029,
+      "mean_token_accuracy": 0.7496151030063629,
+      "step": 120
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.4347164630889893,
+      "eval_mean_token_accuracy": 0.7422454118728637,
+      "eval_runtime": 0.3857,
+      "eval_samples_per_second": 12.964,
+      "eval_steps_per_second": 2.593,
+      "step": 124
+    },
+    {
+      "epoch": 4.193548387096774,
+      "grad_norm": 0.046365246176719666,
+      "learning_rate": 6.726825272106539e-06,
+      "loss": 0.9981,
+      "mean_token_accuracy": 0.7524743378162384,
+      "step": 130
+    },
+    {
+      "epoch": 4.516129032258064,
+      "grad_norm": 0.046276628971099854,
+      "learning_rate": 6.216520433716544e-06,
+      "loss": 1.012,
+      "mean_token_accuracy": 0.750678151845932,
+      "step": 140
+    },
+    {
+      "epoch": 4.838709677419355,
+      "grad_norm": 0.04600201174616814,
+      "learning_rate": 5.69233809622687e-06,
+      "loss": 1.0037,
+      "mean_token_accuracy": 0.7513074278831482,
+      "step": 150
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.3713712692260742,
+      "eval_mean_token_accuracy": 0.750474234422048,
+      "eval_runtime": 0.3857,
+      "eval_samples_per_second": 12.963,
+      "eval_steps_per_second": 2.593,
+      "step": 155
+    },
+    {
+      "epoch": 5.161290322580645,
+      "grad_norm": 0.0451810322701931,
+      "learning_rate": 5.160257887858278e-06,
+      "loss": 0.9743,
+      "mean_token_accuracy": 0.7553885579109192,
+      "step": 160
+    },
+    {
+      "epoch": 5.483870967741936,
+      "grad_norm": 0.044044021517038345,
+      "learning_rate": 4.626349532067879e-06,
+      "loss": 0.9805,
+      "mean_token_accuracy": 0.7564027309417725,
+      "step": 170
+    },
+    {
+      "epoch": 5.806451612903226,
+      "grad_norm": 0.0453786626458168,
+      "learning_rate": 4.096703606968007e-06,
+      "loss": 0.971,
+      "mean_token_accuracy": 0.7588037550449371,
+      "step": 180
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.3281458616256714,
+      "eval_mean_token_accuracy": 0.7527484212602887,
+      "eval_runtime": 0.3849,
+      "eval_samples_per_second": 12.991,
+      "eval_steps_per_second": 2.598,
+      "step": 186
+    },
+    {
+      "epoch": 6.129032258064516,
+      "grad_norm": 0.04323386028409004,
+      "learning_rate": 3.5773620668448384e-06,
+      "loss": 0.9539,
+      "mean_token_accuracy": 0.764067068696022,
+      "step": 190
+    },
+    {
+      "epoch": 6.451612903225806,
+      "grad_norm": 0.04353416711091995,
+      "learning_rate": 3.074249318355046e-06,
+      "loss": 0.9733,
+      "mean_token_accuracy": 0.756243884563446,
+      "step": 200
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.159972068512236e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null