{
  "best_metric": 4.173059463500977,
  "best_model_checkpoint": "miner_id_24/checkpoint-25",
  "epoch": 0.09285051067780872,
  "eval_steps": 5,
  "global_step": 25,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003714020427112349,
      "grad_norm": 47.09907531738281,
      "learning_rate": 2e-05,
      "loss": 17.179,
      "step": 1
    },
    {
      "epoch": 0.003714020427112349,
      "eval_loss": 4.418683052062988,
      "eval_runtime": 7.1081,
      "eval_samples_per_second": 16.038,
      "eval_steps_per_second": 8.019,
      "step": 1
    },
    {
      "epoch": 0.007428040854224698,
      "grad_norm": 72.61674499511719,
      "learning_rate": 4e-05,
      "loss": 18.8331,
      "step": 2
    },
    {
      "epoch": 0.011142061281337047,
      "grad_norm": 48.17184066772461,
      "learning_rate": 6e-05,
      "loss": 18.5977,
      "step": 3
    },
    {
      "epoch": 0.014856081708449397,
      "grad_norm": 45.43053436279297,
      "learning_rate": 8e-05,
      "loss": 16.7524,
      "step": 4
    },
    {
      "epoch": 0.018570102135561744,
      "grad_norm": 53.295196533203125,
      "learning_rate": 0.0001,
      "loss": 18.2006,
      "step": 5
    },
    {
      "epoch": 0.018570102135561744,
      "eval_loss": 4.392326831817627,
      "eval_runtime": 6.4891,
      "eval_samples_per_second": 17.568,
      "eval_steps_per_second": 8.784,
      "step": 5
    },
    {
      "epoch": 0.022284122562674095,
      "grad_norm": 46.0291748046875,
      "learning_rate": 0.00012,
      "loss": 17.1875,
      "step": 6
    },
    {
      "epoch": 0.025998142989786442,
      "grad_norm": 49.14833068847656,
      "learning_rate": 0.00014,
      "loss": 17.064,
      "step": 7
    },
    {
      "epoch": 0.029712163416898793,
      "grad_norm": 48.93037033081055,
      "learning_rate": 0.00016,
      "loss": 16.7566,
      "step": 8
    },
    {
      "epoch": 0.033426183844011144,
      "grad_norm": 47.4653205871582,
      "learning_rate": 0.00018,
      "loss": 17.5747,
      "step": 9
    },
    {
      "epoch": 0.03714020427112349,
      "grad_norm": 40.456634521484375,
      "learning_rate": 0.0002,
      "loss": 17.0288,
      "step": 10
    },
    {
      "epoch": 0.03714020427112349,
      "eval_loss": 4.309162139892578,
      "eval_runtime": 6.5607,
      "eval_samples_per_second": 17.376,
      "eval_steps_per_second": 8.688,
      "step": 10
    },
    {
      "epoch": 0.04085422469823584,
      "grad_norm": 34.36117935180664,
      "learning_rate": 0.00019781476007338058,
      "loss": 16.0074,
      "step": 11
    },
    {
      "epoch": 0.04456824512534819,
      "grad_norm": 45.245521545410156,
      "learning_rate": 0.0001913545457642601,
      "loss": 18.3396,
      "step": 12
    },
    {
      "epoch": 0.04828226555246054,
      "grad_norm": 46.66457748413086,
      "learning_rate": 0.00018090169943749476,
      "loss": 16.1451,
      "step": 13
    },
    {
      "epoch": 0.051996285979572884,
      "grad_norm": 77.11463165283203,
      "learning_rate": 0.00016691306063588583,
      "loss": 16.7409,
      "step": 14
    },
    {
      "epoch": 0.055710306406685235,
      "grad_norm": 41.09373092651367,
      "learning_rate": 0.00015000000000000001,
      "loss": 18.2822,
      "step": 15
    },
    {
      "epoch": 0.055710306406685235,
      "eval_loss": 4.215371608734131,
      "eval_runtime": 6.6015,
      "eval_samples_per_second": 17.269,
      "eval_steps_per_second": 8.634,
      "step": 15
    },
    {
      "epoch": 0.059424326833797586,
      "grad_norm": 39.33907699584961,
      "learning_rate": 0.00013090169943749476,
      "loss": 18.2399,
      "step": 16
    },
    {
      "epoch": 0.06313834726090993,
      "grad_norm": 51.7769775390625,
      "learning_rate": 0.00011045284632676536,
      "loss": 17.3302,
      "step": 17
    },
    {
      "epoch": 0.06685236768802229,
      "grad_norm": 41.05906677246094,
      "learning_rate": 8.954715367323468e-05,
      "loss": 15.5034,
      "step": 18
    },
    {
      "epoch": 0.07056638811513463,
      "grad_norm": 47.10402297973633,
      "learning_rate": 6.909830056250527e-05,
      "loss": 15.3104,
      "step": 19
    },
    {
      "epoch": 0.07428040854224698,
      "grad_norm": 37.23863983154297,
      "learning_rate": 5.000000000000002e-05,
      "loss": 16.3764,
      "step": 20
    },
    {
      "epoch": 0.07428040854224698,
      "eval_loss": 4.180180072784424,
      "eval_runtime": 6.4415,
      "eval_samples_per_second": 17.698,
      "eval_steps_per_second": 8.849,
      "step": 20
    },
    {
      "epoch": 0.07799442896935933,
      "grad_norm": 61.8924446105957,
      "learning_rate": 3.308693936411421e-05,
      "loss": 16.2944,
      "step": 21
    },
    {
      "epoch": 0.08170844939647168,
      "grad_norm": 49.258201599121094,
      "learning_rate": 1.9098300562505266e-05,
      "loss": 15.9243,
      "step": 22
    },
    {
      "epoch": 0.08542246982358404,
      "grad_norm": 52.41282653808594,
      "learning_rate": 8.645454235739903e-06,
      "loss": 17.6994,
      "step": 23
    },
    {
      "epoch": 0.08913649025069638,
      "grad_norm": 38.438812255859375,
      "learning_rate": 2.1852399266194314e-06,
      "loss": 16.3655,
      "step": 24
    },
    {
      "epoch": 0.09285051067780872,
      "grad_norm": 40.115882873535156,
      "learning_rate": 0.0,
      "loss": 17.5364,
      "step": 25
    },
    {
      "epoch": 0.09285051067780872,
      "eval_loss": 4.173059463500977,
      "eval_runtime": 6.5325,
      "eval_samples_per_second": 17.451,
      "eval_steps_per_second": 8.726,
      "step": 25
    }
  ],
  "logging_steps": 1,
  "max_steps": 25,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 10,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 2,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 219321414451200.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}