File size: 3,796 Bytes

5b18b72
 
 
 
 
 
 
 
 
 
 
cff3a8c
5b18b72
cff3a8c
 
5b18b72
cff3a8c
 
 
 
 
5b18b72
 
 
cff3a8c
5b18b72
cff3a8c
 
5b18b72
cff3a8c
 
 
 
 
5b18b72
 
 
cff3a8c
5b18b72
cff3a8c
 
5b18b72
cff3a8c
 
 
 
 
5b18b72
 
 
cff3a8c
5b18b72
cff3a8c
 
5b18b72
cff3a8c
 
 
 
 
5b18b72
 
 
cff3a8c
5b18b72
cff3a8c
 
5b18b72
cff3a8c
 
 
 
 
5b18b72
 
 
cff3a8c
5b18b72
cff3a8c
 
5b18b72
 
cff3a8c
 
 
 
5b18b72
 
 
cff3a8c
5b18b72
cff3a8c
 
 
 
 
5b18b72
 
cff3a8c
 
 
 
5b18b72

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 100,
  "global_step": 67,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 469.26162589788436,
      "epoch": 0.14925373134328357,
      "grad_norm": 158.0776824951172,
      "kl": 0.522365927696228,
      "learning_rate": 1.9876883405951378e-05,
      "loss": 0.0209,
      "reward": 0.36372769413283096,
      "reward_std": 0.23131797942332924,
      "rewards/accuracy_reward": 0.11350446951109916,
      "rewards/format_reward": 0.25022322274744513,
      "step": 10
    },
    {
      "completion_length": 55.07768114209175,
      "epoch": 0.29850746268656714,
      "grad_norm": 930.0825805664062,
      "kl": 109.860009765625,
      "learning_rate": 1.777145961456971e-05,
      "loss": 4.4045,
      "reward": 1.2064732640981675,
      "reward_std": 0.2529828853905201,
      "rewards/accuracy_reward": 0.2789062637137249,
      "rewards/format_reward": 0.9275669876486063,
      "step": 20
    },
    {
      "completion_length": 30.540961265563965,
      "epoch": 0.44776119402985076,
      "grad_norm": 1.2762861251831055,
      "kl": 0.80147705078125,
      "learning_rate": 1.3583679495453e-05,
      "loss": 0.0321,
      "reward": 1.2282366633415223,
      "reward_std": 0.16877365885302426,
      "rewards/accuracy_reward": 0.23794644025620074,
      "rewards/format_reward": 0.9902901940047741,
      "step": 30
    },
    {
      "completion_length": 41.73939917087555,
      "epoch": 0.5970149253731343,
      "grad_norm": 0.4882577359676361,
      "kl": 0.73848876953125,
      "learning_rate": 8.43565534959769e-06,
      "loss": 0.0295,
      "reward": 1.2350447032600642,
      "reward_std": 0.20153872366063297,
      "rewards/accuracy_reward": 0.24877233271254226,
      "rewards/format_reward": 0.9862723421305418,
      "step": 40
    },
    {
      "completion_length": 191.30971891880034,
      "epoch": 0.746268656716418,
      "grad_norm": 0.4109732210636139,
      "kl": 0.367132568359375,
      "learning_rate": 3.7067960895016277e-06,
      "loss": 0.0147,
      "reward": 1.1986607703613117,
      "reward_std": 0.3550489211920649,
      "rewards/accuracy_reward": 0.38348216039594263,
      "rewards/format_reward": 0.8151786073227413,
      "step": 50
    },
    {
      "completion_length": 255.62713146209717,
      "epoch": 0.8955223880597015,
      "grad_norm": 0.2800893783569336,
      "kl": 0.1984527587890625,
      "learning_rate": 6.641957350279838e-07,
      "loss": 0.0079,
      "reward": 1.4333706043660641,
      "reward_std": 0.32061776854097845,
      "rewards/accuracy_reward": 0.48337055975571275,
      "rewards/format_reward": 0.9500000335276126,
      "step": 60
    },
    {
      "completion_length": 287.7824833733695,
      "epoch": 1.0,
      "kl": 0.157440185546875,
      "reward": 1.47985762996333,
      "reward_std": 0.3193885385990143,
      "rewards/accuracy_reward": 0.5188669421310935,
      "rewards/format_reward": 0.9609906737293515,
      "step": 67,
      "total_flos": 0.0,
      "train_loss": 0.6738471064660976,
      "train_runtime": 7514.6892,
      "train_samples_per_second": 0.998,
      "train_steps_per_second": 0.009
    }
  ],
  "logging_steps": 10,
  "max_steps": 67,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}