{
  "best_metric": 1.41787565,
  "best_model_checkpoint": "/fs/clip-projects/geoguesser/vlms/llava/output/llava1_6-vicuna-7b-instruct/v10-20241108-045625/checkpoint-534",
  "epoch": 1.9962616822429906,
  "eval_steps": 50,
  "global_step": 534,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003738317757009346,
      "grad_norm": 0.7382091283798218,
      "learning_rate": 3.7037037037037037e-06,
      "loss": 1.75865197,
      "memory(GiB)": 21.51,
      "step": 1,
      "train_speed(iter/s)": 0.03225
    },
    {
      "epoch": 0.018691588785046728,
      "grad_norm": 0.7008568048477173,
      "learning_rate": 1.8518518518518518e-05,
      "loss": 1.8970871,
      "memory(GiB)": 21.51,
      "step": 5,
      "train_speed(iter/s)": 0.107257
    },
    {
      "epoch": 0.037383177570093455,
      "grad_norm": 0.6195642948150635,
      "learning_rate": 3.7037037037037037e-05,
      "loss": 1.85505066,
      "memory(GiB)": 26.65,
      "step": 10,
      "train_speed(iter/s)": 0.150961
    },
    {
      "epoch": 0.056074766355140186,
      "grad_norm": 0.8053833842277527,
      "learning_rate": 5.555555555555556e-05,
      "loss": 1.85264435,
      "memory(GiB)": 26.65,
      "step": 15,
      "train_speed(iter/s)": 0.174044
    },
    {
      "epoch": 0.07476635514018691,
      "grad_norm": 0.9945815205574036,
      "learning_rate": 7.407407407407407e-05,
      "loss": 1.75669136,
      "memory(GiB)": 26.65,
      "step": 20,
      "train_speed(iter/s)": 0.188377
    },
    {
      "epoch": 0.09345794392523364,
      "grad_norm": 1.0137534141540527,
      "learning_rate": 9.25925925925926e-05,
      "loss": 1.5954113,
      "memory(GiB)": 26.65,
      "step": 25,
      "train_speed(iter/s)": 0.198196
    },
    {
      "epoch": 0.11214953271028037,
      "grad_norm": 1.0105948448181152,
      "learning_rate": 9.999136119166803e-05,
      "loss": 1.67307549,
      "memory(GiB)": 26.65,
      "step": 30,
      "train_speed(iter/s)": 0.205137
    },
    {
      "epoch": 0.1308411214953271,
      "grad_norm": 1.0798794031143188,
      "learning_rate": 9.99385792841537e-05,
      "loss": 1.68129864,
      "memory(GiB)": 26.65,
      "step": 35,
      "train_speed(iter/s)": 0.210084
    },
    {
      "epoch": 0.14953271028037382,
      "grad_norm": 1.0679413080215454,
      "learning_rate": 9.983786540671051e-05,
      "loss": 1.61183624,
      "memory(GiB)": 26.65,
      "step": 40,
      "train_speed(iter/s)": 0.214094
    },
    {
      "epoch": 0.16822429906542055,
      "grad_norm": 0.9876216053962708,
      "learning_rate": 9.968931622637652e-05,
      "loss": 1.5409358,
      "memory(GiB)": 26.65,
      "step": 45,
      "train_speed(iter/s)": 0.217302
    },
    {
      "epoch": 0.18691588785046728,
      "grad_norm": 0.979777991771698,
      "learning_rate": 9.949307432339625e-05,
      "loss": 1.60590649,
      "memory(GiB)": 26.65,
      "step": 50,
      "train_speed(iter/s)": 0.219869
    },
    {
      "epoch": 0.18691588785046728,
      "eval_loss": 1.543888807296753,
      "eval_runtime": 18.3158,
      "eval_samples_per_second": 2.73,
      "eval_steps_per_second": 2.73,
      "step": 50
    },
    {
      "epoch": 0.205607476635514,
      "grad_norm": 1.0606234073638916,
      "learning_rate": 9.924932805436949e-05,
      "loss": 1.54525614,
      "memory(GiB)": 26.65,
      "step": 55,
      "train_speed(iter/s)": 0.206189
    },
    {
      "epoch": 0.22429906542056074,
      "grad_norm": 1.0801302194595337,
      "learning_rate": 9.895831137146318e-05,
      "loss": 1.54319582,
      "memory(GiB)": 26.65,
      "step": 60,
      "train_speed(iter/s)": 0.209015
    },
    {
      "epoch": 0.24299065420560748,
      "grad_norm": 1.0459623336791992,
      "learning_rate": 9.862030359785981e-05,
      "loss": 1.55986643,
      "memory(GiB)": 26.65,
      "step": 65,
      "train_speed(iter/s)": 0.211483
    },
    {
      "epoch": 0.2616822429906542,
      "grad_norm": 1.0878509283065796,
      "learning_rate": 9.82356291596578e-05,
      "loss": 1.54775982,
      "memory(GiB)": 26.65,
      "step": 70,
      "train_speed(iter/s)": 0.213594
    },
    {
      "epoch": 0.2803738317757009,
      "grad_norm": 1.0929535627365112,
      "learning_rate": 9.780465727448149e-05,
      "loss": 1.60084972,
      "memory(GiB)": 26.65,
      "step": 75,
      "train_speed(iter/s)": 0.215384
    },
    {
      "epoch": 0.29906542056074764,
      "grad_norm": 1.0857256650924683,
      "learning_rate": 9.732780159709912e-05,
      "loss": 1.53291664,
      "memory(GiB)": 26.65,
      "step": 80,
      "train_speed(iter/s)": 0.217022
    },
    {
      "epoch": 0.3177570093457944,
      "grad_norm": 1.0876630544662476,
      "learning_rate": 9.680551982238942e-05,
      "loss": 1.49946527,
      "memory(GiB)": 26.65,
      "step": 85,
      "train_speed(iter/s)": 0.218544
    },
    {
      "epoch": 0.3364485981308411,
      "grad_norm": 1.0945876836776733,
      "learning_rate": 9.623831324603754e-05,
      "loss": 1.57413607,
      "memory(GiB)": 26.65,
      "step": 90,
      "train_speed(iter/s)": 0.219824
    },
    {
      "epoch": 0.35514018691588783,
      "grad_norm": 0.9552567601203918,
      "learning_rate": 9.562672628338233e-05,
      "loss": 1.47238646,
      "memory(GiB)": 26.65,
      "step": 95,
      "train_speed(iter/s)": 0.221014
    },
    {
      "epoch": 0.37383177570093457,
      "grad_norm": 1.0762443542480469,
      "learning_rate": 9.497134594687634e-05,
      "loss": 1.60602245,
      "memory(GiB)": 26.65,
      "step": 100,
      "train_speed(iter/s)": 0.222132
    },
    {
      "epoch": 0.37383177570093457,
      "eval_loss": 1.4929084777832031,
      "eval_runtime": 14.0965,
      "eval_samples_per_second": 3.547,
      "eval_steps_per_second": 3.547,
      "step": 100
    },
    {
      "epoch": 0.3925233644859813,
      "grad_norm": 0.985505998134613,
      "learning_rate": 9.42728012826605e-05,
      "loss": 1.53017511,
      "memory(GiB)": 26.65,
      "step": 105,
      "train_speed(iter/s)": 0.216155
    },
    {
      "epoch": 0.411214953271028,
      "grad_norm": 1.0371544361114502,
      "learning_rate": 9.353176276679396e-05,
      "loss": 1.55461969,
      "memory(GiB)": 26.65,
      "step": 110,
      "train_speed(iter/s)": 0.217382
    },
    {
      "epoch": 0.42990654205607476,
      "grad_norm": 1.1553157567977905,
      "learning_rate": 9.274894166171888e-05,
      "loss": 1.53458586,
      "memory(GiB)": 26.65,
      "step": 115,
      "train_speed(iter/s)": 0.218618
    },
    {
      "epoch": 0.4485981308411215,
      "grad_norm": 1.062723994255066,
      "learning_rate": 9.192508933357753e-05,
      "loss": 1.56342993,
      "memory(GiB)": 26.65,
      "step": 120,
      "train_speed(iter/s)": 0.21963
    },
    {
      "epoch": 0.4672897196261682,
      "grad_norm": 0.9741066098213196,
      "learning_rate": 9.106099653103728e-05,
      "loss": 1.46541033,
      "memory(GiB)": 26.65,
      "step": 125,
      "train_speed(iter/s)": 0.220578
    },
    {
      "epoch": 0.48598130841121495,
      "grad_norm": 1.1155296564102173,
      "learning_rate": 9.015749262631536e-05,
      "loss": 1.45173082,
      "memory(GiB)": 26.65,
      "step": 130,
      "train_speed(iter/s)": 0.221485
    },
    {
      "epoch": 0.5046728971962616,
      "grad_norm": 1.3632838726043701,
      "learning_rate": 8.921544481913218e-05,
      "loss": 1.51770496,
      "memory(GiB)": 26.65,
      "step": 135,
      "train_speed(iter/s)": 0.222401
    },
    {
      "epoch": 0.5233644859813084,
      "grad_norm": 1.165434718132019,
      "learning_rate": 8.823575730435693e-05,
      "loss": 1.55217724,
      "memory(GiB)": 32.07,
      "step": 140,
      "train_speed(iter/s)": 0.223153
    },
    {
      "epoch": 0.5420560747663551,
      "grad_norm": 1.1032906770706177,
      "learning_rate": 8.721937040414481e-05,
      "loss": 1.43740101,
      "memory(GiB)": 32.07,
      "step": 145,
      "train_speed(iter/s)": 0.223845
    },
    {
      "epoch": 0.5607476635514018,
      "grad_norm": 1.1984739303588867,
      "learning_rate": 8.616725966539832e-05,
      "loss": 1.58604784,
      "memory(GiB)": 32.07,
      "step": 150,
      "train_speed(iter/s)": 0.224618
    },
    {
      "epoch": 0.5607476635514018,
      "eval_loss": 1.4658682346343994,
      "eval_runtime": 14.0407,
      "eval_samples_per_second": 3.561,
      "eval_steps_per_second": 3.561,
      "step": 150
    },
    {
      "epoch": 0.5794392523364486,
      "grad_norm": 1.154517650604248,
      "learning_rate": 8.508043492341944e-05,
      "loss": 1.49082041,
      "memory(GiB)": 32.07,
      "step": 155,
      "train_speed(iter/s)": 0.220462
    },
    {
      "epoch": 0.5981308411214953,
      "grad_norm": 1.2047632932662964,
      "learning_rate": 8.395993933265101e-05,
      "loss": 1.53753242,
      "memory(GiB)": 32.07,
      "step": 160,
      "train_speed(iter/s)": 0.221167
    },
    {
      "epoch": 0.616822429906542,
      "grad_norm": 0.9952251315116882,
      "learning_rate": 8.280684836543794e-05,
      "loss": 1.49997816,
      "memory(GiB)": 32.07,
      "step": 165,
      "train_speed(iter/s)": 0.22173
    },
    {
      "epoch": 0.6355140186915887,
      "grad_norm": 1.1730362176895142,
      "learning_rate": 8.162226877976887e-05,
      "loss": 1.50385504,
      "memory(GiB)": 32.07,
      "step": 170,
      "train_speed(iter/s)": 0.222363
    },
    {
      "epoch": 0.6542056074766355,
      "grad_norm": 1.066243052482605,
      "learning_rate": 8.040733755698955e-05,
      "loss": 1.4824049,
      "memory(GiB)": 32.07,
      "step": 175,
      "train_speed(iter/s)": 0.22299
    },
    {
      "epoch": 0.6728971962616822,
      "grad_norm": 1.2189449071884155,
      "learning_rate": 7.916322081050709e-05,
      "loss": 1.49032326,
      "memory(GiB)": 32.07,
      "step": 180,
      "train_speed(iter/s)": 0.223605
    },
    {
      "epoch": 0.6915887850467289,
      "grad_norm": 1.07020103931427,
      "learning_rate": 7.789111266653285e-05,
      "loss": 1.46754303,
      "memory(GiB)": 32.07,
      "step": 185,
      "train_speed(iter/s)": 0.224145
    },
    {
      "epoch": 0.7102803738317757,
      "grad_norm": 1.226481318473816,
      "learning_rate": 7.659223411793798e-05,
      "loss": 1.42194347,
      "memory(GiB)": 32.07,
      "step": 190,
      "train_speed(iter/s)": 0.224687
    },
    {
      "epoch": 0.7289719626168224,
      "grad_norm": 1.111670732498169,
      "learning_rate": 7.526783185232207e-05,
      "loss": 1.50790215,
      "memory(GiB)": 32.07,
      "step": 195,
      "train_speed(iter/s)": 0.225152
    },
    {
      "epoch": 0.7476635514018691,
      "grad_norm": 1.1171320676803589,
      "learning_rate": 7.391917705541927e-05,
      "loss": 1.51145458,
      "memory(GiB)": 32.07,
      "step": 200,
      "train_speed(iter/s)": 0.22563
    },
    {
      "epoch": 0.7476635514018691,
      "eval_loss": 1.4480363130569458,
      "eval_runtime": 14.0508,
      "eval_samples_per_second": 3.559,
      "eval_steps_per_second": 3.559,
      "step": 200
    },
    {
      "epoch": 0.7663551401869159,
      "grad_norm": 0.9992289543151855,
      "learning_rate": 7.254756419099074e-05,
      "loss": 1.53672495,
      "memory(GiB)": 32.07,
      "step": 205,
      "train_speed(iter/s)": 0.222373
    },
    {
      "epoch": 0.7850467289719626,
      "grad_norm": 1.076946496963501,
      "learning_rate": 7.115430975837457e-05,
      "loss": 1.51113377,
      "memory(GiB)": 32.07,
      "step": 210,
      "train_speed(iter/s)": 0.222912
    },
    {
      "epoch": 0.8037383177570093,
      "grad_norm": 1.3144261837005615,
      "learning_rate": 6.974075102888536e-05,
      "loss": 1.51253147,
      "memory(GiB)": 32.07,
      "step": 215,
      "train_speed(iter/s)": 0.223388
    },
    {
      "epoch": 0.822429906542056,
      "grad_norm": 1.2429286241531372,
      "learning_rate": 6.830824476227646e-05,
      "loss": 1.49584999,
      "memory(GiB)": 32.07,
      "step": 220,
      "train_speed(iter/s)": 0.22384
    },
    {
      "epoch": 0.8411214953271028,
      "grad_norm": 1.213188886642456,
      "learning_rate": 6.685816590449708e-05,
      "loss": 1.4517292,
      "memory(GiB)": 32.07,
      "step": 225,
      "train_speed(iter/s)": 0.224262
    },
    {
      "epoch": 0.8598130841121495,
      "grad_norm": 1.1008031368255615,
      "learning_rate": 6.539190626799366e-05,
      "loss": 1.44860907,
      "memory(GiB)": 32.07,
      "step": 230,
      "train_speed(iter/s)": 0.224691
    },
    {
      "epoch": 0.8785046728971962,
      "grad_norm": 1.105083703994751,
      "learning_rate": 6.391087319582264e-05,
      "loss": 1.45654058,
      "memory(GiB)": 32.07,
      "step": 235,
      "train_speed(iter/s)": 0.225105
    },
    {
      "epoch": 0.897196261682243,
      "grad_norm": 1.1485651731491089,
      "learning_rate": 6.241648821085666e-05,
      "loss": 1.4626853,
      "memory(GiB)": 32.07,
      "step": 240,
      "train_speed(iter/s)": 0.225456
    },
    {
      "epoch": 0.9158878504672897,
      "grad_norm": 1.2288539409637451,
      "learning_rate": 6.0910185651380626e-05,
      "loss": 1.41080866,
      "memory(GiB)": 32.07,
      "step": 245,
      "train_speed(iter/s)": 0.225881
    },
    {
      "epoch": 0.9345794392523364,
      "grad_norm": 1.2186890840530396,
      "learning_rate": 5.939341129438739e-05,
      "loss": 1.53512402,
      "memory(GiB)": 32.07,
      "step": 250,
      "train_speed(iter/s)": 0.226215
    },
    {
      "epoch": 0.9345794392523364,
      "eval_loss": 1.438408374786377,
      "eval_runtime": 14.1598,
      "eval_samples_per_second": 3.531,
      "eval_steps_per_second": 3.531,
      "step": 250
    },
    {
      "epoch": 0.9532710280373832,
      "grad_norm": 1.1940230131149292,
      "learning_rate": 5.786762096789431e-05,
      "loss": 1.55513544,
      "memory(GiB)": 32.07,
      "step": 255,
      "train_speed(iter/s)": 0.223566
    },
    {
      "epoch": 0.9719626168224299,
      "grad_norm": 1.0835857391357422,
      "learning_rate": 5.633427915361261e-05,
      "loss": 1.51988029,
      "memory(GiB)": 32.07,
      "step": 260,
      "train_speed(iter/s)": 0.22394
    },
    {
      "epoch": 0.9906542056074766,
      "grad_norm": 1.170660376548767,
      "learning_rate": 5.479485758131089e-05,
      "loss": 1.56143446,
      "memory(GiB)": 32.07,
      "step": 265,
      "train_speed(iter/s)": 0.224337
    },
    {
      "epoch": 1.0093457943925233,
      "grad_norm": 1.0278513431549072,
      "learning_rate": 5.325083381622165e-05,
      "loss": 1.43758631,
      "memory(GiB)": 32.07,
      "step": 270,
      "train_speed(iter/s)": 0.224666
    },
    {
      "epoch": 1.02803738317757,
      "grad_norm": 1.13231360912323,
      "learning_rate": 5.1703689840846945e-05,
      "loss": 1.34864044,
      "memory(GiB)": 32.07,
      "step": 275,
      "train_speed(iter/s)": 0.225034
    },
    {
      "epoch": 1.0467289719626167,
      "grad_norm": 1.2419425249099731,
      "learning_rate": 5.01549106325243e-05,
      "loss": 1.38481417,
      "memory(GiB)": 32.07,
      "step": 280,
      "train_speed(iter/s)": 0.225399
    },
    {
      "epoch": 1.0654205607476634,
      "grad_norm": 1.336288332939148,
      "learning_rate": 4.860598273811792e-05,
      "loss": 1.24492655,
      "memory(GiB)": 32.07,
      "step": 285,
      "train_speed(iter/s)": 0.225789
    },
    {
      "epoch": 1.0841121495327102,
      "grad_norm": 1.241809368133545,
      "learning_rate": 4.705839284720376e-05,
      "loss": 1.36301146,
      "memory(GiB)": 32.07,
      "step": 290,
      "train_speed(iter/s)": 0.226105
    },
    {
      "epoch": 1.102803738317757,
      "grad_norm": 1.4412420988082886,
      "learning_rate": 4.55136263651172e-05,
      "loss": 1.39876356,
      "memory(GiB)": 32.07,
      "step": 295,
      "train_speed(iter/s)": 0.226405
    },
    {
      "epoch": 1.1214953271028036,
      "grad_norm": 1.6165404319763184,
      "learning_rate": 4.397316598723385e-05,
      "loss": 1.32808571,
      "memory(GiB)": 32.07,
      "step": 300,
      "train_speed(iter/s)": 0.226709
    },
    {
      "epoch": 1.1214953271028036,
      "eval_loss": 1.4294430017471313,
      "eval_runtime": 14.1178,
      "eval_samples_per_second": 3.542,
      "eval_steps_per_second": 3.542,
      "step": 300
    },
    {
      "epoch": 1.1401869158878504,
      "grad_norm": 1.4734883308410645,
      "learning_rate": 4.243849027585096e-05,
      "loss": 1.37022314,
      "memory(GiB)": 32.07,
      "step": 305,
      "train_speed(iter/s)": 0.224508
    },
    {
      "epoch": 1.158878504672897,
      "grad_norm": 1.5161515474319458,
      "learning_rate": 4.0911072241036194e-05,
      "loss": 1.40692539,
      "memory(GiB)": 32.07,
      "step": 310,
      "train_speed(iter/s)": 0.224822
    },
    {
      "epoch": 1.1775700934579438,
      "grad_norm": 1.4354695081710815,
      "learning_rate": 3.9392377926805226e-05,
      "loss": 1.31709337,
      "memory(GiB)": 32.07,
      "step": 315,
      "train_speed(iter/s)": 0.225147
    },
    {
      "epoch": 1.1962616822429906,
      "grad_norm": 1.5612841844558716,
      "learning_rate": 3.788386500398583e-05,
      "loss": 1.38046598,
      "memory(GiB)": 32.07,
      "step": 320,
      "train_speed(iter/s)": 0.225425
    },
    {
      "epoch": 1.2149532710280373,
      "grad_norm": 1.353385090827942,
      "learning_rate": 3.6386981371118355e-05,
      "loss": 1.29831305,
      "memory(GiB)": 32.07,
      "step": 325,
      "train_speed(iter/s)": 0.225693
    },
    {
      "epoch": 1.233644859813084,
      "grad_norm": 1.6214525699615479,
      "learning_rate": 3.49031637647361e-05,
      "loss": 1.33498459,
      "memory(GiB)": 32.07,
      "step": 330,
      "train_speed(iter/s)": 0.225991
    },
    {
      "epoch": 1.2523364485981308,
      "grad_norm": 1.441267490386963,
      "learning_rate": 3.343383638035902e-05,
      "loss": 1.2935997,
      "memory(GiB)": 32.07,
      "step": 335,
      "train_speed(iter/s)": 0.226241
    },
    {
      "epoch": 1.2710280373831775,
      "grad_norm": 1.5621421337127686,
      "learning_rate": 3.1980409505524544e-05,
      "loss": 1.32472296,
      "memory(GiB)": 32.07,
      "step": 340,
      "train_speed(iter/s)": 0.226507
    },
    {
      "epoch": 1.2897196261682242,
      "grad_norm": 1.7050727605819702,
      "learning_rate": 3.054427816616773e-05,
      "loss": 1.25045223,
      "memory(GiB)": 32.07,
      "step": 345,
      "train_speed(iter/s)": 0.226762
    },
    {
      "epoch": 1.308411214953271,
      "grad_norm": 1.5206207036972046,
      "learning_rate": 2.91268207876494e-05,
      "loss": 1.33886337,
      "memory(GiB)": 32.07,
      "step": 350,
      "train_speed(iter/s)": 0.226984
    },
    {
      "epoch": 1.308411214953271,
      "eval_loss": 1.4251823425292969,
      "eval_runtime": 14.0593,
      "eval_samples_per_second": 3.556,
      "eval_steps_per_second": 3.556,
      "step": 350
    },
    {
      "epoch": 1.3271028037383177,
      "grad_norm": 1.5205532312393188,
      "learning_rate": 2.7729397871718304e-05,
      "loss": 1.28512764,
      "memory(GiB)": 32.07,
      "step": 355,
      "train_speed(iter/s)": 0.225063
    },
    {
      "epoch": 1.3457943925233644,
      "grad_norm": 1.5533926486968994,
      "learning_rate": 2.635335069067617e-05,
      "loss": 1.30997047,
      "memory(GiB)": 32.07,
      "step": 360,
      "train_speed(iter/s)": 0.225339
    },
    {
      "epoch": 1.3644859813084111,
      "grad_norm": 1.581883192062378,
      "learning_rate": 2.500000000000001e-05,
      "loss": 1.28296366,
      "memory(GiB)": 32.07,
      "step": 365,
      "train_speed(iter/s)": 0.225599
    },
    {
      "epoch": 1.3831775700934579,
      "grad_norm": 1.4634901285171509,
      "learning_rate": 2.367064477065652e-05,
      "loss": 1.31434088,
      "memory(GiB)": 32.07,
      "step": 370,
      "train_speed(iter/s)": 0.225861
    },
    {
      "epoch": 1.4018691588785046,
      "grad_norm": 1.706288456916809,
      "learning_rate": 2.2366560942325832e-05,
      "loss": 1.30933113,
      "memory(GiB)": 32.07,
      "step": 375,
      "train_speed(iter/s)": 0.226141
    },
    {
      "epoch": 1.4205607476635513,
      "grad_norm": 1.6696898937225342,
      "learning_rate": 2.108900019873103e-05,
      "loss": 1.32816324,
      "memory(GiB)": 32.07,
      "step": 380,
      "train_speed(iter/s)": 0.226392
    },
    {
      "epoch": 1.439252336448598,
      "grad_norm": 1.590394377708435,
      "learning_rate": 1.983918876624902e-05,
      "loss": 1.26775227,
      "memory(GiB)": 32.07,
      "step": 385,
      "train_speed(iter/s)": 0.226637
    },
    {
      "epoch": 1.4579439252336448,
      "grad_norm": 1.7391793727874756,
      "learning_rate": 1.8618326236955907e-05,
      "loss": 1.33946781,
      "memory(GiB)": 32.07,
      "step": 390,
      "train_speed(iter/s)": 0.226874
    },
    {
      "epoch": 1.4766355140186915,
      "grad_norm": 1.7035928964614868,
      "learning_rate": 1.7427584417236194e-05,
      "loss": 1.34862604,
      "memory(GiB)": 32.07,
      "step": 395,
      "train_speed(iter/s)": 0.227069
    },
    {
      "epoch": 1.4953271028037383,
      "grad_norm": 1.5830693244934082,
      "learning_rate": 1.626810620306163e-05,
      "loss": 1.27288446,
      "memory(GiB)": 32.07,
      "step": 400,
      "train_speed(iter/s)": 0.227266
    },
    {
      "epoch": 1.4953271028037383,
      "eval_loss": 1.4195191860198975,
      "eval_runtime": 14.0879,
      "eval_samples_per_second": 3.549,
      "eval_steps_per_second": 3.549,
      "step": 400
    },
    {
      "epoch": 1.514018691588785,
      "grad_norm": 1.4809561967849731,
      "learning_rate": 1.5141004483018323e-05,
      "loss": 1.31938076,
      "memory(GiB)": 32.07,
      "step": 405,
      "train_speed(iter/s)": 0.225559
    },
    {
      "epoch": 1.5327102803738317,
      "grad_norm": 1.8556567430496216,
      "learning_rate": 1.4047361070135995e-05,
      "loss": 1.33600292,
      "memory(GiB)": 32.07,
      "step": 410,
      "train_speed(iter/s)": 0.225804
    },
    {
      "epoch": 1.5514018691588785,
      "grad_norm": 1.5470691919326782,
      "learning_rate": 1.2988225663543602e-05,
      "loss": 1.40292425,
      "memory(GiB)": 32.07,
      "step": 415,
      "train_speed(iter/s)": 0.226027
    },
    {
      "epoch": 1.5700934579439252,
      "grad_norm": 1.8364381790161133,
      "learning_rate": 1.1964614840949002e-05,
      "loss": 1.32833939,
      "memory(GiB)": 32.07,
      "step": 420,
      "train_speed(iter/s)": 0.226267
    },
    {
      "epoch": 1.588785046728972,
      "grad_norm": 1.6938135623931885,
      "learning_rate": 1.097751108290867e-05,
      "loss": 1.35209036,
      "memory(GiB)": 32.07,
      "step": 425,
      "train_speed(iter/s)": 0.226474
    },
    {
      "epoch": 1.6074766355140186,
      "grad_norm": 1.7861816883087158,
      "learning_rate": 1.0027861829824952e-05,
      "loss": 1.27312994,
      "memory(GiB)": 32.07,
      "step": 430,
      "train_speed(iter/s)": 0.226695
    },
    {
      "epoch": 1.6261682242990654,
      "grad_norm": 1.6619056463241577,
      "learning_rate": 9.11657857257509e-06,
      "loss": 1.35062437,
      "memory(GiB)": 32.07,
      "step": 435,
      "train_speed(iter/s)": 0.22691
    },
    {
      "epoch": 1.644859813084112,
      "grad_norm": 1.7696343660354614,
      "learning_rate": 8.244535977645585e-06,
      "loss": 1.32785254,
      "memory(GiB)": 32.07,
      "step": 440,
      "train_speed(iter/s)": 0.227108
    },
    {
      "epoch": 1.6635514018691588,
      "grad_norm": 1.6938729286193848,
      "learning_rate": 7.412571047611155e-06,
      "loss": 1.3087183,
      "memory(GiB)": 32.07,
      "step": 445,
      "train_speed(iter/s)": 0.227305
    },
    {
      "epoch": 1.6822429906542056,
      "grad_norm": 1.7258585691452026,
      "learning_rate": 6.621482317764105e-06,
      "loss": 1.30971994,
      "memory(GiB)": 32.07,
      "step": 450,
      "train_speed(iter/s)": 0.227507
    },
    {
      "epoch": 1.6822429906542056,
      "eval_loss": 1.4193787574768066,
      "eval_runtime": 17.3944,
      "eval_samples_per_second": 2.874,
      "eval_steps_per_second": 2.874,
      "step": 450
    },
    {
      "epoch": 1.7009345794392523,
      "grad_norm": 1.8556472063064575,
      "learning_rate": 5.872029089665587e-06,
      "loss": 1.26630516,
      "memory(GiB)": 32.07,
      "step": 455,
      "train_speed(iter/s)": 0.225602
    },
    {
      "epoch": 1.719626168224299,
      "grad_norm": 1.852525234222412,
      "learning_rate": 5.164930702353782e-06,
      "loss": 1.34138193,
      "memory(GiB)": 32.07,
      "step": 460,
      "train_speed(iter/s)": 0.225826
    },
    {
      "epoch": 1.7383177570093458,
      "grad_norm": 1.557905673980713,
      "learning_rate": 4.500865841909168e-06,
      "loss": 1.30747194,
      "memory(GiB)": 32.07,
      "step": 465,
      "train_speed(iter/s)": 0.225996
    },
    {
      "epoch": 1.7570093457943925,
      "grad_norm": 1.7627642154693604,
      "learning_rate": 3.880471890038967e-06,
      "loss": 1.34135695,
      "memory(GiB)": 32.07,
      "step": 470,
      "train_speed(iter/s)": 0.226199
    },
    {
      "epoch": 1.7757009345794392,
      "grad_norm": 1.4336940050125122,
      "learning_rate": 3.3043443123065286e-06,
      "loss": 1.38070517,
      "memory(GiB)": 32.07,
      "step": 475,
      "train_speed(iter/s)": 0.226358
    },
    {
      "epoch": 1.794392523364486,
      "grad_norm": 1.906886339187622,
      "learning_rate": 2.7730360865923956e-06,
      "loss": 1.34674683,
      "memory(GiB)": 32.07,
      "step": 480,
      "train_speed(iter/s)": 0.226536
    },
    {
      "epoch": 1.8130841121495327,
      "grad_norm": 1.7454955577850342,
      "learning_rate": 2.287057172336021e-06,
      "loss": 1.38749065,
      "memory(GiB)": 32.07,
      "step": 485,
      "train_speed(iter/s)": 0.226699
    },
    {
      "epoch": 1.8317757009345794,
      "grad_norm": 1.7366608381271362,
      "learning_rate": 1.8468740210672076e-06,
      "loss": 1.30795374,
      "memory(GiB)": 32.07,
      "step": 490,
      "train_speed(iter/s)": 0.226882
    },
    {
      "epoch": 1.8504672897196262,
      "grad_norm": 1.5829346179962158,
      "learning_rate": 1.4529091286973995e-06,
      "loss": 1.32902784,
      "memory(GiB)": 32.07,
      "step": 495,
      "train_speed(iter/s)": 0.227039
    },
    {
      "epoch": 1.8691588785046729,
      "grad_norm": 1.6908546686172485,
      "learning_rate": 1.1055406300002347e-06,
      "loss": 1.33979492,
      "memory(GiB)": 32.07,
      "step": 500,
      "train_speed(iter/s)": 0.227213
    },
    {
      "epoch": 1.8691588785046729,
      "eval_loss": 1.4183509349822998,
      "eval_runtime": 14.1519,
      "eval_samples_per_second": 3.533,
      "eval_steps_per_second": 3.533,
      "step": 500
    },
    {
      "epoch": 1.8878504672897196,
      "grad_norm": 1.915726900100708,
      "learning_rate": 8.0510193567086e-07,
      "loss": 1.30009985,
      "memory(GiB)": 32.07,
      "step": 505,
      "train_speed(iter/s)": 0.225856
    },
    {
      "epoch": 1.9065420560747663,
      "grad_norm": 1.6646161079406738,
      "learning_rate": 5.518814123121885e-07,
      "loss": 1.37087755,
      "memory(GiB)": 32.07,
      "step": 510,
      "train_speed(iter/s)": 0.226034
    },
    {
      "epoch": 1.925233644859813,
      "grad_norm": 1.7108522653579712,
      "learning_rate": 3.4612210565528326e-07,
      "loss": 1.35631628,
      "memory(GiB)": 32.07,
      "step": 515,
      "train_speed(iter/s)": 0.22621
    },
    {
      "epoch": 1.9439252336448598,
      "grad_norm": 1.7579667568206787,
      "learning_rate": 1.8802150727962876e-07,
      "loss": 1.24607553,
      "memory(GiB)": 32.07,
      "step": 520,
      "train_speed(iter/s)": 0.226384
    },
    {
      "epoch": 1.9626168224299065,
      "grad_norm": 1.634746789932251,
      "learning_rate": 7.773136505700995e-08,
      "loss": 1.27467356,
      "memory(GiB)": 32.07,
      "step": 525,
      "train_speed(iter/s)": 0.226543
    },
    {
      "epoch": 1.9813084112149533,
      "grad_norm": 1.620557188987732,
      "learning_rate": 1.5357537501159423e-08,
      "loss": 1.318472,
      "memory(GiB)": 32.07,
      "step": 530,
      "train_speed(iter/s)": 0.226703
    },
    {
      "epoch": 1.9962616822429906,
      "eval_loss": 1.4178756475448608,
      "eval_runtime": 14.1624,
      "eval_samples_per_second": 3.53,
      "eval_steps_per_second": 3.53,
      "step": 534
    }
  ],
  "logging_steps": 5,
  "max_steps": 534,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.73270917085696e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}