{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9984,
  "eval_steps": 2,
  "global_step": 312,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 553.6277812957763,
      "epoch": 0.016,
      "grad_norm": 0.21352672576904297,
      "kl": 0.0001860499382019043,
      "learning_rate": 4.6875e-07,
      "loss": 0.0,
      "reward": 0.5361111229285598,
      "reward_std": 0.2633297026157379,
      "rewards/accuracy_reward": 0.3111111169680953,
      "rewards/format_reward": 0.22500000484287738,
      "step": 5
    },
    {
      "completion_length": 509.1916721343994,
      "epoch": 0.032,
      "grad_norm": 0.08460841327905655,
      "kl": 0.0006537675857543945,
      "learning_rate": 9.375e-07,
      "loss": 0.0,
      "reward": 0.6250000141561032,
      "reward_std": 0.22612885609269143,
      "rewards/accuracy_reward": 0.32500000633299353,
      "rewards/format_reward": 0.30000000819563866,
      "step": 10
    },
    {
      "completion_length": 414.31111640930175,
      "epoch": 0.048,
      "grad_norm": 0.09808748215436935,
      "kl": 0.009083938598632813,
      "learning_rate": 1.40625e-06,
      "loss": 0.0004,
      "reward": 0.7472222343087196,
      "reward_std": 0.25241802744567393,
      "rewards/accuracy_reward": 0.12500000279396772,
      "rewards/format_reward": 0.6222222335636616,
      "step": 15
    },
    {
      "completion_length": 250.90277996063233,
      "epoch": 0.064,
      "grad_norm": 0.05115974321961403,
      "kl": 0.03193817138671875,
      "learning_rate": 1.875e-06,
      "loss": 0.0013,
      "reward": 0.9416666746139526,
      "reward_std": 0.15361464098095895,
      "rewards/accuracy_reward": 0.03611111156642437,
      "rewards/format_reward": 0.9055555611848831,
      "step": 20
    },
    {
      "completion_length": 211.14444694519042,
      "epoch": 0.08,
      "grad_norm": 0.06653334200382233,
      "kl": 0.035968017578125,
      "learning_rate": 2.3437500000000002e-06,
      "loss": 0.0014,
      "reward": 0.986111119389534,
      "reward_std": 0.10103629790246486,
      "rewards/accuracy_reward": 0.0305555559694767,
      "rewards/format_reward": 0.9555555582046509,
      "step": 25
    },
    {
      "completion_length": 246.1000036239624,
      "epoch": 0.096,
      "grad_norm": 0.06397304683923721,
      "kl": 0.0366363525390625,
      "learning_rate": 2.8125e-06,
      "loss": 0.0015,
      "reward": 1.0000000089406966,
      "reward_std": 0.07216878421604633,
      "rewards/accuracy_reward": 0.038888889364898205,
      "rewards/format_reward": 0.9611111134290695,
      "step": 30
    },
    {
      "completion_length": 255.99722633361816,
      "epoch": 0.112,
      "grad_norm": 0.12618552148342133,
      "kl": 0.03426666259765625,
      "learning_rate": 2.9991503375003e-06,
      "loss": 0.0014,
      "reward": 1.025000013411045,
      "reward_std": 0.11547005474567414,
      "rewards/accuracy_reward": 0.06388888955116272,
      "rewards/format_reward": 0.9611111134290695,
      "step": 35
    },
    {
      "completion_length": 258.1111114501953,
      "epoch": 0.128,
      "grad_norm": 0.09856373071670532,
      "kl": 0.0427825927734375,
      "learning_rate": 2.993961440992859e-06,
      "loss": 0.0017,
      "reward": 1.086111131310463,
      "reward_std": 0.1732050821185112,
      "rewards/accuracy_reward": 0.12500000167638065,
      "rewards/format_reward": 0.9611111134290695,
      "step": 40
    },
    {
      "completion_length": 296.8416700363159,
      "epoch": 0.144,
      "grad_norm": 0.091950424015522,
      "kl": 0.0412506103515625,
      "learning_rate": 2.984071989079555e-06,
      "loss": 0.0017,
      "reward": 1.0666666805744172,
      "reward_std": 0.1658154871314764,
      "rewards/accuracy_reward": 0.10000000093132258,
      "rewards/format_reward": 0.9666666686534882,
      "step": 45
    },
    {
      "completion_length": 317.56111373901365,
      "epoch": 0.16,
      "grad_norm": 0.09281204640865326,
      "kl": 0.0566925048828125,
      "learning_rate": 2.9695130976348534e-06,
      "loss": 0.0023,
      "reward": 1.0972222343087197,
      "reward_std": 0.21873926185071468,
      "rewards/accuracy_reward": 0.15555555745959282,
      "rewards/format_reward": 0.9416666701436043,
      "step": 50
    },
    {
      "completion_length": 281.8416681289673,
      "epoch": 0.176,
      "grad_norm": 0.10378360003232956,
      "kl": 0.07989501953125,
      "learning_rate": 2.9503305743175096e-06,
      "loss": 0.0032,
      "reward": 1.1777777940034866,
      "reward_std": 0.25370719768106936,
      "rewards/accuracy_reward": 0.20833333637565374,
      "rewards/format_reward": 0.9694444462656975,
      "step": 55
    },
    {
      "completion_length": 254.96389064788818,
      "epoch": 0.192,
      "grad_norm": 0.14641663432121277,
      "kl": 0.092510986328125,
      "learning_rate": 2.9265847744427307e-06,
      "loss": 0.0037,
      "reward": 1.1916666761040688,
      "reward_std": 0.2572292793542147,
      "rewards/accuracy_reward": 0.23333333786576987,
      "rewards/format_reward": 0.9583333358168602,
      "step": 60
    },
    {
      "completion_length": 270.2777801513672,
      "epoch": 0.208,
      "grad_norm": 0.09665928781032562,
      "kl": 0.097540283203125,
      "learning_rate": 2.8983504110820214e-06,
      "loss": 0.0039,
      "reward": 1.172222228348255,
      "reward_std": 0.25980762131512164,
      "rewards/accuracy_reward": 0.2305555608123541,
      "rewards/format_reward": 0.9416666701436043,
      "step": 65
    },
    {
      "completion_length": 372.66111488342284,
      "epoch": 0.224,
      "grad_norm": 0.13982528448104858,
      "kl": 0.0855712890625,
      "learning_rate": 2.865716319988224e-06,
      "loss": 0.0034,
      "reward": 1.2000000104308128,
      "reward_std": 0.32587598264217377,
      "rewards/accuracy_reward": 0.2916666727513075,
      "rewards/format_reward": 0.9083333387970924,
      "step": 70
    },
    {
      "completion_length": 372.80278129577636,
      "epoch": 0.24,
      "grad_norm": 0.07452689111232758,
      "kl": 0.07293701171875,
      "learning_rate": 2.82878518008537e-06,
      "loss": 0.0029,
      "reward": 1.3944444462656975,
      "reward_std": 0.30276345908641816,
      "rewards/accuracy_reward": 0.4333333451300859,
      "rewards/format_reward": 0.9611111134290695,
      "step": 75
    },
    {
      "completion_length": 376.4416694641113,
      "epoch": 0.256,
      "grad_norm": 0.08069849759340286,
      "kl": 0.08565673828125,
      "learning_rate": 2.7876731904027993e-06,
      "loss": 0.0034,
      "reward": 1.3472222313284874,
      "reward_std": 0.36049848720431327,
      "rewards/accuracy_reward": 0.40000000949949027,
      "rewards/format_reward": 0.9472222253680229,
      "step": 80
    },
    {
      "completion_length": 354.7555561065674,
      "epoch": 0.272,
      "grad_norm": 0.10501620918512344,
      "kl": 0.0765869140625,
      "learning_rate": 2.7425097044700246e-06,
      "loss": 0.0031,
      "reward": 1.3944444552063942,
      "reward_std": 0.27776345871388913,
      "rewards/accuracy_reward": 0.45000001005828383,
      "rewards/format_reward": 0.9444444477558136,
      "step": 85
    },
    {
      "completion_length": 403.3444492340088,
      "epoch": 0.288,
      "grad_norm": 0.12747347354888916,
      "kl": 0.073785400390625,
      "learning_rate": 2.6934368233226715e-06,
      "loss": 0.003,
      "reward": 1.2694444522261619,
      "reward_std": 0.34864307269454003,
      "rewards/accuracy_reward": 0.38055556602776053,
      "rewards/format_reward": 0.8888888947665692,
      "step": 90
    },
    {
      "completion_length": 413.0500057220459,
      "epoch": 0.304,
      "grad_norm": 0.08874136209487915,
      "kl": 0.070477294921875,
      "learning_rate": 2.6406089484000465e-06,
      "loss": 0.0028,
      "reward": 1.297222228348255,
      "reward_std": 0.3640205666422844,
      "rewards/accuracy_reward": 0.4333333447575569,
      "rewards/format_reward": 0.8638888970017433,
      "step": 95
    },
    {
      "completion_length": 381.81389274597166,
      "epoch": 0.32,
      "grad_norm": 0.05798633396625519,
      "kl": 0.07501220703125,
      "learning_rate": 2.584192295741087e-06,
      "loss": 0.003,
      "reward": 1.3750000134110452,
      "reward_std": 0.3136751361191273,
      "rewards/accuracy_reward": 0.4416666753590107,
      "rewards/format_reward": 0.9333333373069763,
      "step": 100
    },
    {
      "completion_length": 369.6000038146973,
      "epoch": 0.336,
      "grad_norm": 0.07807120680809021,
      "kl": 0.077154541015625,
      "learning_rate": 2.5243643730072105e-06,
      "loss": 0.0031,
      "reward": 1.494444453716278,
      "reward_std": 0.31015305407345295,
      "rewards/accuracy_reward": 0.5555555684491992,
      "rewards/format_reward": 0.938888892531395,
      "step": 105
    },
    {
      "completion_length": 390.78889389038085,
      "epoch": 0.352,
      "grad_norm": 0.08092948794364929,
      "kl": 0.08060302734375,
      "learning_rate": 2.461313420977536e-06,
      "loss": 0.0032,
      "reward": 1.380555558204651,
      "reward_std": 0.3232976388186216,
      "rewards/accuracy_reward": 0.4527777874842286,
      "rewards/format_reward": 0.9277777820825577,
      "step": 110
    },
    {
      "completion_length": 413.20278282165526,
      "epoch": 0.368,
      "grad_norm": 0.059824734926223755,
      "kl": 0.0724517822265625,
      "learning_rate": 2.3952378212737554e-06,
      "loss": 0.0029,
      "reward": 1.3944444507360458,
      "reward_std": 0.337731396406889,
      "rewards/accuracy_reward": 0.4611111244186759,
      "rewards/format_reward": 0.9333333373069763,
      "step": 115
    },
    {
      "completion_length": 403.9111152648926,
      "epoch": 0.384,
      "grad_norm": 0.07250163704156876,
      "kl": 0.078021240234375,
      "learning_rate": 2.3263454721781537e-06,
      "loss": 0.0031,
      "reward": 1.4305555507540704,
      "reward_std": 0.299241379275918,
      "rewards/accuracy_reward": 0.530555566214025,
      "rewards/format_reward": 0.9000000059604645,
      "step": 120
    },
    {
      "completion_length": 378.2222255706787,
      "epoch": 0.4,
      "grad_norm": 0.12146278470754623,
      "kl": 0.0875885009765625,
      "learning_rate": 2.2548531345087003e-06,
      "loss": 0.0035,
      "reward": 1.3388888984918594,
      "reward_std": 0.28480762206017973,
      "rewards/accuracy_reward": 0.386111119389534,
      "rewards/format_reward": 0.9527777805924416,
      "step": 125
    },
    {
      "completion_length": 324.2388910293579,
      "epoch": 0.416,
      "grad_norm": 0.09016001224517822,
      "kl": 0.102557373046875,
      "learning_rate": 2.18098574960932e-06,
      "loss": 0.0041,
      "reward": 1.4750000044703484,
      "reward_std": 0.28257471285760405,
      "rewards/accuracy_reward": 0.5138889042660594,
      "rewards/format_reward": 0.9611111134290695,
      "step": 130
    },
    {
      "completion_length": 425.48055801391604,
      "epoch": 0.432,
      "grad_norm": 0.06732641160488129,
      "kl": 0.089459228515625,
      "learning_rate": 2.104975731601208e-06,
      "loss": 0.0036,
      "reward": 1.3027777835726737,
      "reward_std": 0.32329764030873775,
      "rewards/accuracy_reward": 0.38611112013459203,
      "rewards/format_reward": 0.9166666716337204,
      "step": 135
    },
    {
      "completion_length": 475.63889541625974,
      "epoch": 0.448,
      "grad_norm": 0.06925955414772034,
      "kl": 0.06644287109375,
      "learning_rate": 2.027062236122014e-06,
      "loss": 0.0027,
      "reward": 1.3805555671453476,
      "reward_std": 0.35310889072716234,
      "rewards/accuracy_reward": 0.4888889010995626,
      "rewards/format_reward": 0.8916666731238365,
      "step": 140
    },
    {
      "completion_length": 469.69444847106934,
      "epoch": 0.464,
      "grad_norm": 0.04355955123901367,
      "kl": 0.073883056640625,
      "learning_rate": 1.9474904078537343e-06,
      "loss": 0.003,
      "reward": 1.4388888955116272,
      "reward_std": 0.2873859636485577,
      "rewards/accuracy_reward": 0.5583333482965827,
      "rewards/format_reward": 0.8805555619299412,
      "step": 145
    },
    {
      "completion_length": 500.4750095367432,
      "epoch": 0.48,
      "grad_norm": 0.06400442123413086,
      "kl": 0.06243896484375,
      "learning_rate": 1.866510609206841e-06,
      "loss": 0.0025,
      "reward": 1.477777788043022,
      "reward_std": 0.274241379275918,
      "rewards/accuracy_reward": 0.5611111238598824,
      "rewards/format_reward": 0.9166666716337204,
      "step": 150
    },
    {
      "completion_length": 482.2611141204834,
      "epoch": 0.496,
      "grad_norm": 0.07321769744157791,
      "kl": 0.063238525390625,
      "learning_rate": 1.784377632587518e-06,
      "loss": 0.0025,
      "reward": 1.4861111238598823,
      "reward_std": 0.30147428885102273,
      "rewards/accuracy_reward": 0.541666678711772,
      "rewards/format_reward": 0.9444444477558136,
      "step": 155
    },
    {
      "completion_length": 458.41389694213865,
      "epoch": 0.512,
      "grad_norm": 0.05824045091867447,
      "kl": 0.06778564453125,
      "learning_rate": 1.7013498987264833e-06,
      "loss": 0.0027,
      "reward": 1.475000013411045,
      "reward_std": 0.23446219004690647,
      "rewards/accuracy_reward": 0.5250000132247805,
      "rewards/format_reward": 0.9500000029802322,
      "step": 160
    },
    {
      "completion_length": 437.94444770812987,
      "epoch": 0.528,
      "grad_norm": 0.07412311434745789,
      "kl": 0.070013427734375,
      "learning_rate": 1.6176886435917677e-06,
      "loss": 0.0028,
      "reward": 1.5305555671453477,
      "reward_std": 0.2790526311844587,
      "rewards/accuracy_reward": 0.5833333466202021,
      "rewards/format_reward": 0.9472222253680229,
      "step": 165
    },
    {
      "completion_length": 425.4944492340088,
      "epoch": 0.544,
      "grad_norm": 0.06518115103244781,
      "kl": 0.070721435546875,
      "learning_rate": 1.5336570964437077e-06,
      "loss": 0.0028,
      "reward": 1.563888892531395,
      "reward_std": 0.21392801143229007,
      "rewards/accuracy_reward": 0.5972222350537777,
      "rewards/format_reward": 0.9666666686534882,
      "step": 170
    },
    {
      "completion_length": 447.97500228881836,
      "epoch": 0.56,
      "grad_norm": 0.05302765220403671,
      "kl": 0.06865234375,
      "learning_rate": 1.4495196516183096e-06,
      "loss": 0.0027,
      "reward": 1.4805555552244187,
      "reward_std": 0.2787071973085403,
      "rewards/accuracy_reward": 0.5361111257225275,
      "rewards/format_reward": 0.9444444477558136,
      "step": 175
    },
    {
      "completion_length": 441.51111526489257,
      "epoch": 0.576,
      "grad_norm": 0.0858602300286293,
      "kl": 0.0727752685546875,
      "learning_rate": 1.3655410366448499e-06,
      "loss": 0.0029,
      "reward": 1.5250000014901162,
      "reward_std": 0.2572292808443308,
      "rewards/accuracy_reward": 0.5666666816920042,
      "rewards/format_reward": 0.9583333358168602,
      "step": 180
    },
    {
      "completion_length": 470.7583396911621,
      "epoch": 0.592,
      "grad_norm": 0.07894453406333923,
      "kl": 0.065618896484375,
      "learning_rate": 1.2819854793151313e-06,
      "loss": 0.0026,
      "reward": 1.4527777865529061,
      "reward_std": 0.2738959465175867,
      "rewards/accuracy_reward": 0.516666678711772,
      "rewards/format_reward": 0.9361111149191856,
      "step": 185
    },
    {
      "completion_length": 449.9416721343994,
      "epoch": 0.608,
      "grad_norm": 0.08513162285089493,
      "kl": 0.070989990234375,
      "learning_rate": 1.199115876325091e-06,
      "loss": 0.0028,
      "reward": 1.4611111134290695,
      "reward_std": 0.3258759815245867,
      "rewards/accuracy_reward": 0.5277777882292867,
      "rewards/format_reward": 0.9333333373069763,
      "step": 190
    },
    {
      "completion_length": 412.6527816772461,
      "epoch": 0.624,
      "grad_norm": 0.0992361381649971,
      "kl": 0.0746826171875,
      "learning_rate": 1.1171929661045361e-06,
      "loss": 0.003,
      "reward": 1.4388888955116272,
      "reward_std": 0.3390205677598715,
      "rewards/accuracy_reward": 0.5277777882292867,
      "rewards/format_reward": 0.9111111164093018,
      "step": 195
    },
    {
      "completion_length": 434.86667137146,
      "epoch": 0.64,
      "grad_norm": 0.08208976686000824,
      "kl": 0.06728515625,
      "learning_rate": 1.036474508437579e-06,
      "loss": 0.0027,
      "reward": 1.547222228348255,
      "reward_std": 0.25499636940658094,
      "rewards/accuracy_reward": 0.5944444581866264,
      "rewards/format_reward": 0.9527777805924416,
      "step": 200
    },
    {
      "completion_length": 457.2805625915527,
      "epoch": 0.656,
      "grad_norm": 0.04328469559550285,
      "kl": 0.058355712890625,
      "learning_rate": 9.57214473454992e-07,
      "loss": 0.0023,
      "reward": 1.5222222253680229,
      "reward_std": 0.22002843283116819,
      "rewards/accuracy_reward": 0.58888890016824,
      "rewards/format_reward": 0.9333333373069763,
      "step": 205
    },
    {
      "completion_length": 453.0138931274414,
      "epoch": 0.672,
      "grad_norm": 0.06149205565452576,
      "kl": 0.0665008544921875,
      "learning_rate": 8.796622425502193e-07,
      "loss": 0.0027,
      "reward": 1.5250000014901162,
      "reward_std": 0.30310888960957527,
      "rewards/accuracy_reward": 0.6111111264675856,
      "rewards/format_reward": 0.9138888940215111,
      "step": 210
    },
    {
      "completion_length": 513.1500045776368,
      "epoch": 0.688,
      "grad_norm": 0.06691473722457886,
      "kl": 0.0645904541015625,
      "learning_rate": 8.040618237332491e-07,
      "loss": 0.0026,
      "reward": 1.436111108958721,
      "reward_std": 0.3447755578905344,
      "rewards/accuracy_reward": 0.5305555699393153,
      "rewards/format_reward": 0.9055555611848831,
      "step": 215
    },
    {
      "completion_length": 480.86389236450196,
      "epoch": 0.704,
      "grad_norm": 0.06451098620891571,
      "kl": 0.0659393310546875,
      "learning_rate": 7.30651083891141e-07,
      "loss": 0.0026,
      "reward": 1.5166666820645331,
      "reward_std": 0.34606473073363303,
      "rewards/accuracy_reward": 0.5916666787117719,
      "rewards/format_reward": 0.9250000044703484,
      "step": 220
    },
    {
      "completion_length": 507.2722282409668,
      "epoch": 0.72,
      "grad_norm": 0.05560953915119171,
      "kl": 0.06065673828125,
      "learning_rate": 6.596610003707959e-07,
      "loss": 0.0024,
      "reward": 1.5138888970017432,
      "reward_std": 0.28480762280523775,
      "rewards/accuracy_reward": 0.6055555680766702,
      "rewards/format_reward": 0.9083333387970924,
      "step": 225
    },
    {
      "completion_length": 514.2500030517579,
      "epoch": 0.736,
      "grad_norm": 0.06804082542657852,
      "kl": 0.0566162109375,
      "learning_rate": 5.913149342387704e-07,
      "loss": 0.0023,
      "reward": 1.5194444492459298,
      "reward_std": 0.2549963690340519,
      "rewards/accuracy_reward": 0.5833333430811762,
      "rewards/format_reward": 0.9361111149191856,
      "step": 230
    },
    {
      "completion_length": 468.55556259155276,
      "epoch": 0.752,
      "grad_norm": 0.06439075618982315,
      "kl": 0.0638336181640625,
      "learning_rate": 5.258279275047247e-07,
      "loss": 0.0026,
      "reward": 1.5250000029802322,
      "reward_std": 0.28257471323013306,
      "rewards/accuracy_reward": 0.5750000124797225,
      "rewards/format_reward": 0.9500000029802322,
      "step": 235
    },
    {
      "completion_length": 444.02500381469724,
      "epoch": 0.768,
      "grad_norm": 0.055538810789585114,
      "kl": 0.063116455078125,
      "learning_rate": 4.63406026519703e-07,
      "loss": 0.0025,
      "reward": 1.575,
      "reward_std": 0.2524180270731449,
      "rewards/accuracy_reward": 0.633333345502615,
      "rewards/format_reward": 0.9416666701436043,
      "step": 240
    },
    {
      "completion_length": 477.8666702270508,
      "epoch": 0.784,
      "grad_norm": 0.055306848138570786,
      "kl": 0.0677734375,
      "learning_rate": 4.042456336780838e-07,
      "loss": 0.0027,
      "reward": 1.4888888821005821,
      "reward_std": 0.2729522068053484,
      "rewards/accuracy_reward": 0.5527777902781963,
      "rewards/format_reward": 0.9361111149191856,
      "step": 245
    },
    {
      "completion_length": 463.327783203125,
      "epoch": 0.8,
      "grad_norm": 0.0591103695333004,
      "kl": 0.0603515625,
      "learning_rate": 3.4853288946298335e-07,
      "loss": 0.0024,
      "reward": 1.475000011920929,
      "reward_std": 0.29443012587726114,
      "rewards/accuracy_reward": 0.5361111234873533,
      "rewards/format_reward": 0.938888892531395,
      "step": 250
    },
    {
      "completion_length": 450.82778282165526,
      "epoch": 0.816,
      "grad_norm": 0.06738787144422531,
      "kl": 0.0596343994140625,
      "learning_rate": 2.9644308677943315e-07,
      "loss": 0.0024,
      "reward": 1.5000000134110452,
      "reward_std": 0.28128554075956347,
      "rewards/accuracy_reward": 0.5722222346812487,
      "rewards/format_reward": 0.9277777820825577,
      "step": 255
    },
    {
      "completion_length": 455.39445037841796,
      "epoch": 0.832,
      "grad_norm": 0.06288747489452362,
      "kl": 0.068408203125,
      "learning_rate": 2.48140119418046e-07,
      "loss": 0.0027,
      "reward": 1.4805555552244187,
      "reward_std": 0.2825747117400169,
      "rewards/accuracy_reward": 0.5305555703118443,
      "rewards/format_reward": 0.9500000029802322,
      "step": 260
    },
    {
      "completion_length": 470.1777805328369,
      "epoch": 0.848,
      "grad_norm": 0.07291523367166519,
      "kl": 0.062567138671875,
      "learning_rate": 2.0377596638451812e-07,
      "loss": 0.0025,
      "reward": 1.4444444566965102,
      "reward_std": 0.3079201437532902,
      "rewards/accuracy_reward": 0.5027777899056673,
      "rewards/format_reward": 0.9416666701436043,
      "step": 265
    },
    {
      "completion_length": 468.23333740234375,
      "epoch": 0.864,
      "grad_norm": 0.07961365580558777,
      "kl": 0.07003173828125,
      "learning_rate": 1.634902137174483e-07,
      "loss": 0.0028,
      "reward": 1.4638888970017434,
      "reward_std": 0.29924137964844705,
      "rewards/accuracy_reward": 0.541666678339243,
      "rewards/format_reward": 0.922222226858139,
      "step": 270
    },
    {
      "completion_length": 431.6388931274414,
      "epoch": 0.88,
      "grad_norm": 0.061992090195417404,
      "kl": 0.06956787109375,
      "learning_rate": 1.274096152990203e-07,
      "loss": 0.0028,
      "reward": 1.4666666746139527,
      "reward_std": 0.28609679341316224,
      "rewards/accuracy_reward": 0.5222222328186035,
      "rewards/format_reward": 0.9444444477558136,
      "step": 275
    },
    {
      "completion_length": 435.9138957977295,
      "epoch": 0.896,
      "grad_norm": 0.08779603242874146,
      "kl": 0.0734649658203125,
      "learning_rate": 9.564769404039419e-08,
      "loss": 0.0029,
      "reward": 1.425000011920929,
      "reward_std": 0.2979522071778774,
      "rewards/accuracy_reward": 0.48611112125217915,
      "rewards/format_reward": 0.938888892531395,
      "step": 280
    },
    {
      "completion_length": 432.5888919830322,
      "epoch": 0.912,
      "grad_norm": 0.0677870661020279,
      "kl": 0.074609375,
      "learning_rate": 6.830438469662892e-08,
      "loss": 0.003,
      "reward": 1.5027777940034865,
      "reward_std": 0.2764742888510227,
      "rewards/accuracy_reward": 0.5444444557651877,
      "rewards/format_reward": 0.9583333358168602,
      "step": 285
    },
    {
      "completion_length": 415.408337020874,
      "epoch": 0.928,
      "grad_norm": 0.08877945691347122,
      "kl": 0.079901123046875,
      "learning_rate": 4.546571943496969e-08,
      "loss": 0.0032,
      "reward": 1.5222222372889518,
      "reward_std": 0.29666303619742396,
      "rewards/accuracy_reward": 0.5972222350537777,
      "rewards/format_reward": 0.9250000044703484,
      "step": 290
    },
    {
      "completion_length": 470.35555839538574,
      "epoch": 0.944,
      "grad_norm": 0.06486877799034119,
      "kl": 0.062762451171875,
      "learning_rate": 2.72035571458224e-08,
      "loss": 0.0025,
      "reward": 1.4722222238779068,
      "reward_std": 0.26685178354382516,
      "rewards/accuracy_reward": 0.5361111244186759,
      "rewards/format_reward": 0.9361111149191856,
      "step": 295
    },
    {
      "completion_length": 442.53889656066895,
      "epoch": 0.96,
      "grad_norm": 0.06168290227651596,
      "kl": 0.06766357421875,
      "learning_rate": 1.357535734809795e-08,
      "loss": 0.0027,
      "reward": 1.4666666641831398,
      "reward_std": 0.31109679453074934,
      "rewards/accuracy_reward": 0.5361111233010888,
      "rewards/format_reward": 0.930555559694767,
      "step": 300
    },
    {
      "completion_length": 447.8833366394043,
      "epoch": 0.976,
      "grad_norm": 0.06104287877678871,
      "kl": 0.0698974609375,
      "learning_rate": 4.623999400308054e-09,
      "loss": 0.0028,
      "reward": 1.5027777954936028,
      "reward_std": 0.2777634594589472,
      "rewards/accuracy_reward": 0.5472222346812486,
      "rewards/format_reward": 0.9555555582046509,
      "step": 305
    },
    {
      "completion_length": 406.5805576324463,
      "epoch": 0.992,
      "grad_norm": 0.06284002214670181,
      "kl": 0.0779296875,
      "learning_rate": 3.77647586240204e-10,
      "loss": 0.0031,
      "reward": 1.4805555641651154,
      "reward_std": 0.2690846938639879,
      "rewards/accuracy_reward": 0.5388889022171497,
      "rewards/format_reward": 0.9416666693985463,
      "step": 310
    },
    {
      "completion_length": 461.6458377838135,
      "epoch": 0.9984,
      "kl": 0.06114959716796875,
      "reward": 1.4236111268401146,
      "reward_std": 0.29425740987062454,
      "rewards/accuracy_reward": 0.5000000135041773,
      "rewards/format_reward": 0.9236111156642437,
      "step": 312,
      "total_flos": 0.0,
      "train_loss": 0.002609439611100802,
      "train_runtime": 17087.0679,
      "train_samples_per_second": 0.439,
      "train_steps_per_second": 0.018
    }
  ],
  "logging_steps": 5,
  "max_steps": 312,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}