Training in progress, step 1500, checkpoint

8abb0af verified 4 days ago

27.5 kB

	{
	"best_metric": 2.7592430114746094,
	"best_model_checkpoint": "miner_id_24/checkpoint-1350",
	"epoch": 0.028963959180126862,
	"eval_steps": 150,
	"global_step": 1500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.9309306120084574e-05,
	"eval_loss": 3.049531936645508,
	"eval_runtime": 325.6693,
	"eval_samples_per_second": 133.915,
	"eval_steps_per_second": 33.479,
	"step": 1
	},
	{
	"epoch": 0.00019309306120084574,
	"grad_norm": 17.593538284301758,
	"learning_rate": 0.0001,
	"loss": 10.3405,
	"step": 10
	},
	{
	"epoch": 0.0003861861224016915,
	"grad_norm": 25.346281051635742,
	"learning_rate": 0.0001,
	"loss": 10.4921,
	"step": 20
	},
	{
	"epoch": 0.0005792791836025373,
	"grad_norm": 29.28500747680664,
	"learning_rate": 0.0001,
	"loss": 11.2535,
	"step": 30
	},
	{
	"epoch": 0.000772372244803383,
	"grad_norm": 25.79044532775879,
	"learning_rate": 0.0001,
	"loss": 12.771,
	"step": 40
	},
	{
	"epoch": 0.0009654653060042288,
	"grad_norm": 29.85230827331543,
	"learning_rate": 0.0001,
	"loss": 15.3004,
	"step": 50
	},
	{
	"epoch": 0.0011585583672050746,
	"grad_norm": 18.505237579345703,
	"learning_rate": 0.0001,
	"loss": 10.1685,
	"step": 60
	},
	{
	"epoch": 0.0013516514284059203,
	"grad_norm": 20.607799530029297,
	"learning_rate": 0.0001,
	"loss": 10.0184,
	"step": 70
	},
	{
	"epoch": 0.001544744489606766,
	"grad_norm": 28.849403381347656,
	"learning_rate": 0.0001,
	"loss": 10.9882,
	"step": 80
	},
	{
	"epoch": 0.0017378375508076116,
	"grad_norm": 22.832693099975586,
	"learning_rate": 0.0001,
	"loss": 12.2328,
	"step": 90
	},
	{
	"epoch": 0.0019309306120084576,
	"grad_norm": 36.24290084838867,
	"learning_rate": 0.0001,
	"loss": 15.052,
	"step": 100
	},
	{
	"epoch": 0.002124023673209303,
	"grad_norm": 26.353515625,
	"learning_rate": 0.0001,
	"loss": 9.8579,
	"step": 110
	},
	{
	"epoch": 0.002317116734410149,
	"grad_norm": 36.15186309814453,
	"learning_rate": 0.0001,
	"loss": 10.1559,
	"step": 120
	},
	{
	"epoch": 0.002510209795610995,
	"grad_norm": 25.59376335144043,
	"learning_rate": 0.0001,
	"loss": 10.5048,
	"step": 130
	},
	{
	"epoch": 0.0027033028568118405,
	"grad_norm": 45.6728630065918,
	"learning_rate": 0.0001,
	"loss": 11.7695,
	"step": 140
	},
	{
	"epoch": 0.0028963959180126862,
	"grad_norm": 67.35182189941406,
	"learning_rate": 0.0001,
	"loss": 14.9163,
	"step": 150
	},
	{
	"epoch": 0.0028963959180126862,
	"eval_loss": 2.915919542312622,
	"eval_runtime": 325.4265,
	"eval_samples_per_second": 134.015,
	"eval_steps_per_second": 33.504,
	"step": 150
	},
	{
	"epoch": 0.003089488979213532,
	"grad_norm": 23.811389923095703,
	"learning_rate": 0.0001,
	"loss": 10.1832,
	"step": 160
	},
	{
	"epoch": 0.0032825820404143776,
	"grad_norm": 33.760498046875,
	"learning_rate": 0.0001,
	"loss": 10.6903,
	"step": 170
	},
	{
	"epoch": 0.0034756751016152233,
	"grad_norm": 36.039459228515625,
	"learning_rate": 0.0001,
	"loss": 10.9393,
	"step": 180
	},
	{
	"epoch": 0.003668768162816069,
	"grad_norm": 47.975990295410156,
	"learning_rate": 0.0001,
	"loss": 12.2215,
	"step": 190
	},
	{
	"epoch": 0.003861861224016915,
	"grad_norm": 44.83605194091797,
	"learning_rate": 0.0001,
	"loss": 14.0036,
	"step": 200
	},
	{
	"epoch": 0.00405495428521776,
	"grad_norm": 27.559823989868164,
	"learning_rate": 0.0001,
	"loss": 10.8778,
	"step": 210
	},
	{
	"epoch": 0.004248047346418606,
	"grad_norm": 29.685842514038086,
	"learning_rate": 0.0001,
	"loss": 10.3398,
	"step": 220
	},
	{
	"epoch": 0.004441140407619453,
	"grad_norm": 32.39301681518555,
	"learning_rate": 0.0001,
	"loss": 10.8218,
	"step": 230
	},
	{
	"epoch": 0.004634233468820298,
	"grad_norm": 26.63850212097168,
	"learning_rate": 0.0001,
	"loss": 11.7435,
	"step": 240
	},
	{
	"epoch": 0.004827326530021144,
	"grad_norm": 42.46340560913086,
	"learning_rate": 0.0001,
	"loss": 13.7549,
	"step": 250
	},
	{
	"epoch": 0.00502041959122199,
	"grad_norm": 41.16633605957031,
	"learning_rate": 0.0001,
	"loss": 10.0357,
	"step": 260
	},
	{
	"epoch": 0.005213512652422835,
	"grad_norm": 29.798715591430664,
	"learning_rate": 0.0001,
	"loss": 9.9566,
	"step": 270
	},
	{
	"epoch": 0.005406605713623681,
	"grad_norm": 26.712194442749023,
	"learning_rate": 0.0001,
	"loss": 10.8858,
	"step": 280
	},
	{
	"epoch": 0.005599698774824527,
	"grad_norm": 24.423017501831055,
	"learning_rate": 0.0001,
	"loss": 12.0604,
	"step": 290
	},
	{
	"epoch": 0.0057927918360253725,
	"grad_norm": 32.55687713623047,
	"learning_rate": 0.0001,
	"loss": 13.7669,
	"step": 300
	},
	{
	"epoch": 0.0057927918360253725,
	"eval_loss": 2.8850886821746826,
	"eval_runtime": 326.0923,
	"eval_samples_per_second": 133.741,
	"eval_steps_per_second": 33.435,
	"step": 300
	},
	{
	"epoch": 0.005985884897226218,
	"grad_norm": 17.198266983032227,
	"learning_rate": 0.0001,
	"loss": 10.4193,
	"step": 310
	},
	{
	"epoch": 0.006178977958427064,
	"grad_norm": 18.960155487060547,
	"learning_rate": 0.0001,
	"loss": 10.4948,
	"step": 320
	},
	{
	"epoch": 0.0063720710196279095,
	"grad_norm": 15.217443466186523,
	"learning_rate": 0.0001,
	"loss": 10.8575,
	"step": 330
	},
	{
	"epoch": 0.006565164080828755,
	"grad_norm": 17.301410675048828,
	"learning_rate": 0.0001,
	"loss": 11.7949,
	"step": 340
	},
	{
	"epoch": 0.006758257142029601,
	"grad_norm": 44.01465606689453,
	"learning_rate": 0.0001,
	"loss": 14.4235,
	"step": 350
	},
	{
	"epoch": 0.006951350203230447,
	"grad_norm": 18.623449325561523,
	"learning_rate": 0.0001,
	"loss": 10.6294,
	"step": 360
	},
	{
	"epoch": 0.007144443264431292,
	"grad_norm": 15.859786987304688,
	"learning_rate": 0.0001,
	"loss": 10.3981,
	"step": 370
	},
	{
	"epoch": 0.007337536325632138,
	"grad_norm": 15.925846099853516,
	"learning_rate": 0.0001,
	"loss": 10.6106,
	"step": 380
	},
	{
	"epoch": 0.0075306293868329845,
	"grad_norm": 23.462480545043945,
	"learning_rate": 0.0001,
	"loss": 11.4959,
	"step": 390
	},
	{
	"epoch": 0.00772372244803383,
	"grad_norm": 34.727569580078125,
	"learning_rate": 0.0001,
	"loss": 13.6495,
	"step": 400
	},
	{
	"epoch": 0.007916815509234676,
	"grad_norm": 13.482560157775879,
	"learning_rate": 0.0001,
	"loss": 9.9286,
	"step": 410
	},
	{
	"epoch": 0.00810990857043552,
	"grad_norm": 19.61520004272461,
	"learning_rate": 0.0001,
	"loss": 10.4189,
	"step": 420
	},
	{
	"epoch": 0.008303001631636367,
	"grad_norm": 20.92690658569336,
	"learning_rate": 0.0001,
	"loss": 10.7233,
	"step": 430
	},
	{
	"epoch": 0.008496094692837212,
	"grad_norm": 40.37583541870117,
	"learning_rate": 0.0001,
	"loss": 11.906,
	"step": 440
	},
	{
	"epoch": 0.008689187754038059,
	"grad_norm": 54.6865234375,
	"learning_rate": 0.0001,
	"loss": 14.2049,
	"step": 450
	},
	{
	"epoch": 0.008689187754038059,
	"eval_loss": 2.856499433517456,
	"eval_runtime": 326.449,
	"eval_samples_per_second": 133.595,
	"eval_steps_per_second": 33.399,
	"step": 450
	},
	{
	"epoch": 0.008882280815238905,
	"grad_norm": 31.493087768554688,
	"learning_rate": 0.0001,
	"loss": 10.422,
	"step": 460
	},
	{
	"epoch": 0.00907537387643975,
	"grad_norm": 25.92237091064453,
	"learning_rate": 0.0001,
	"loss": 10.5121,
	"step": 470
	},
	{
	"epoch": 0.009268466937640597,
	"grad_norm": 23.767501831054688,
	"learning_rate": 0.0001,
	"loss": 10.6667,
	"step": 480
	},
	{
	"epoch": 0.009461559998841441,
	"grad_norm": 29.84052848815918,
	"learning_rate": 0.0001,
	"loss": 11.8893,
	"step": 490
	},
	{
	"epoch": 0.009654653060042288,
	"grad_norm": 42.1278190612793,
	"learning_rate": 0.0001,
	"loss": 13.8487,
	"step": 500
	},
	{
	"epoch": 0.009847746121243133,
	"grad_norm": 18.233877182006836,
	"learning_rate": 0.0001,
	"loss": 10.4124,
	"step": 510
	},
	{
	"epoch": 0.01004083918244398,
	"grad_norm": 24.33700180053711,
	"learning_rate": 0.0001,
	"loss": 10.3656,
	"step": 520
	},
	{
	"epoch": 0.010233932243644824,
	"grad_norm": 21.17763900756836,
	"learning_rate": 0.0001,
	"loss": 10.4647,
	"step": 530
	},
	{
	"epoch": 0.01042702530484567,
	"grad_norm": 47.72334289550781,
	"learning_rate": 0.0001,
	"loss": 11.6587,
	"step": 540
	},
	{
	"epoch": 0.010620118366046516,
	"grad_norm": 32.690364837646484,
	"learning_rate": 0.0001,
	"loss": 13.7886,
	"step": 550
	},
	{
	"epoch": 0.010813211427247362,
	"grad_norm": 14.042930603027344,
	"learning_rate": 0.0001,
	"loss": 10.1801,
	"step": 560
	},
	{
	"epoch": 0.011006304488448207,
	"grad_norm": 13.466276168823242,
	"learning_rate": 0.0001,
	"loss": 9.7874,
	"step": 570
	},
	{
	"epoch": 0.011199397549649054,
	"grad_norm": 13.901522636413574,
	"learning_rate": 0.0001,
	"loss": 10.7971,
	"step": 580
	},
	{
	"epoch": 0.011392490610849898,
	"grad_norm": 15.882288932800293,
	"learning_rate": 0.0001,
	"loss": 11.6839,
	"step": 590
	},
	{
	"epoch": 0.011585583672050745,
	"grad_norm": 31.395444869995117,
	"learning_rate": 0.0001,
	"loss": 13.7779,
	"step": 600
	},
	{
	"epoch": 0.011585583672050745,
	"eval_loss": 2.848609447479248,
	"eval_runtime": 328.4742,
	"eval_samples_per_second": 132.771,
	"eval_steps_per_second": 33.193,
	"step": 600
	},
	{
	"epoch": 0.011778676733251591,
	"grad_norm": 16.243173599243164,
	"learning_rate": 0.0001,
	"loss": 10.3243,
	"step": 610
	},
	{
	"epoch": 0.011971769794452436,
	"grad_norm": 10.895001411437988,
	"learning_rate": 0.0001,
	"loss": 10.1884,
	"step": 620
	},
	{
	"epoch": 0.012164862855653283,
	"grad_norm": 12.364214897155762,
	"learning_rate": 0.0001,
	"loss": 10.5667,
	"step": 630
	},
	{
	"epoch": 0.012357955916854128,
	"grad_norm": 14.893481254577637,
	"learning_rate": 0.0001,
	"loss": 11.7055,
	"step": 640
	},
	{
	"epoch": 0.012551048978054974,
	"grad_norm": 31.42432403564453,
	"learning_rate": 0.0001,
	"loss": 13.6669,
	"step": 650
	},
	{
	"epoch": 0.012744142039255819,
	"grad_norm": 11.641709327697754,
	"learning_rate": 0.0001,
	"loss": 10.4052,
	"step": 660
	},
	{
	"epoch": 0.012937235100456666,
	"grad_norm": 12.934191703796387,
	"learning_rate": 0.0001,
	"loss": 10.1611,
	"step": 670
	},
	{
	"epoch": 0.01313032816165751,
	"grad_norm": 28.218975067138672,
	"learning_rate": 0.0001,
	"loss": 10.7762,
	"step": 680
	},
	{
	"epoch": 0.013323421222858357,
	"grad_norm": 16.593141555786133,
	"learning_rate": 0.0001,
	"loss": 11.8962,
	"step": 690
	},
	{
	"epoch": 0.013516514284059202,
	"grad_norm": 23.61168098449707,
	"learning_rate": 0.0001,
	"loss": 13.6789,
	"step": 700
	},
	{
	"epoch": 0.013709607345260048,
	"grad_norm": 11.673768043518066,
	"learning_rate": 0.0001,
	"loss": 10.1343,
	"step": 710
	},
	{
	"epoch": 0.013902700406460893,
	"grad_norm": 13.041866302490234,
	"learning_rate": 0.0001,
	"loss": 10.4441,
	"step": 720
	},
	{
	"epoch": 0.01409579346766174,
	"grad_norm": 15.724223136901855,
	"learning_rate": 0.0001,
	"loss": 10.759,
	"step": 730
	},
	{
	"epoch": 0.014288886528862585,
	"grad_norm": 15.264642715454102,
	"learning_rate": 0.0001,
	"loss": 11.8888,
	"step": 740
	},
	{
	"epoch": 0.014481979590063431,
	"grad_norm": 37.832698822021484,
	"learning_rate": 0.0001,
	"loss": 13.6694,
	"step": 750
	},
	{
	"epoch": 0.014481979590063431,
	"eval_loss": 2.8133044242858887,
	"eval_runtime": 330.5652,
	"eval_samples_per_second": 131.932,
	"eval_steps_per_second": 32.983,
	"step": 750
	},
	{
	"epoch": 0.014675072651264276,
	"grad_norm": 13.753046035766602,
	"learning_rate": 0.0001,
	"loss": 10.2511,
	"step": 760
	},
	{
	"epoch": 0.014868165712465123,
	"grad_norm": 12.730433464050293,
	"learning_rate": 0.0001,
	"loss": 10.2344,
	"step": 770
	},
	{
	"epoch": 0.015061258773665969,
	"grad_norm": 18.035993576049805,
	"learning_rate": 0.0001,
	"loss": 10.7321,
	"step": 780
	},
	{
	"epoch": 0.015254351834866814,
	"grad_norm": 20.784934997558594,
	"learning_rate": 0.0001,
	"loss": 11.6791,
	"step": 790
	},
	{
	"epoch": 0.01544744489606766,
	"grad_norm": 29.870254516601562,
	"learning_rate": 0.0001,
	"loss": 13.6885,
	"step": 800
	},
	{
	"epoch": 0.015640537957268507,
	"grad_norm": 16.11637306213379,
	"learning_rate": 0.0001,
	"loss": 10.3119,
	"step": 810
	},
	{
	"epoch": 0.015833631018469352,
	"grad_norm": 12.562838554382324,
	"learning_rate": 0.0001,
	"loss": 10.0703,
	"step": 820
	},
	{
	"epoch": 0.016026724079670197,
	"grad_norm": 11.796956062316895,
	"learning_rate": 0.0001,
	"loss": 10.7967,
	"step": 830
	},
	{
	"epoch": 0.01621981714087104,
	"grad_norm": 18.159549713134766,
	"learning_rate": 0.0001,
	"loss": 11.2847,
	"step": 840
	},
	{
	"epoch": 0.01641291020207189,
	"grad_norm": 22.098344802856445,
	"learning_rate": 0.0001,
	"loss": 13.9348,
	"step": 850
	},
	{
	"epoch": 0.016606003263272735,
	"grad_norm": 10.987359046936035,
	"learning_rate": 0.0001,
	"loss": 10.1845,
	"step": 860
	},
	{
	"epoch": 0.01679909632447358,
	"grad_norm": 22.796899795532227,
	"learning_rate": 0.0001,
	"loss": 10.2937,
	"step": 870
	},
	{
	"epoch": 0.016992189385674424,
	"grad_norm": 14.24060344696045,
	"learning_rate": 0.0001,
	"loss": 10.6819,
	"step": 880
	},
	{
	"epoch": 0.017185282446875273,
	"grad_norm": 14.327189445495605,
	"learning_rate": 0.0001,
	"loss": 11.411,
	"step": 890
	},
	{
	"epoch": 0.017378375508076117,
	"grad_norm": 25.815399169921875,
	"learning_rate": 0.0001,
	"loss": 13.5363,
	"step": 900
	},
	{
	"epoch": 0.017378375508076117,
	"eval_loss": 2.7856554985046387,
	"eval_runtime": 328.0056,
	"eval_samples_per_second": 132.961,
	"eval_steps_per_second": 33.24,
	"step": 900
	},
	{
	"epoch": 0.017571468569276962,
	"grad_norm": 14.01270580291748,
	"learning_rate": 0.0001,
	"loss": 10.0269,
	"step": 910
	},
	{
	"epoch": 0.01776456163047781,
	"grad_norm": 12.662365913391113,
	"learning_rate": 0.0001,
	"loss": 10.0288,
	"step": 920
	},
	{
	"epoch": 0.017957654691678655,
	"grad_norm": 11.21884822845459,
	"learning_rate": 0.0001,
	"loss": 10.5588,
	"step": 930
	},
	{
	"epoch": 0.0181507477528795,
	"grad_norm": 14.193058013916016,
	"learning_rate": 0.0001,
	"loss": 11.3954,
	"step": 940
	},
	{
	"epoch": 0.018343840814080345,
	"grad_norm": 33.61137008666992,
	"learning_rate": 0.0001,
	"loss": 13.412,
	"step": 950
	},
	{
	"epoch": 0.018536933875281193,
	"grad_norm": 8.29185962677002,
	"learning_rate": 0.0001,
	"loss": 10.1405,
	"step": 960
	},
	{
	"epoch": 0.018730026936482038,
	"grad_norm": 9.83952522277832,
	"learning_rate": 0.0001,
	"loss": 9.9334,
	"step": 970
	},
	{
	"epoch": 0.018923119997682883,
	"grad_norm": 13.321242332458496,
	"learning_rate": 0.0001,
	"loss": 10.2569,
	"step": 980
	},
	{
	"epoch": 0.019116213058883728,
	"grad_norm": 11.480195045471191,
	"learning_rate": 0.0001,
	"loss": 11.5664,
	"step": 990
	},
	{
	"epoch": 0.019309306120084576,
	"grad_norm": 31.19932746887207,
	"learning_rate": 0.0001,
	"loss": 13.4732,
	"step": 1000
	},
	{
	"epoch": 0.01950239918128542,
	"grad_norm": 8.18012809753418,
	"learning_rate": 0.0001,
	"loss": 9.6682,
	"step": 1010
	},
	{
	"epoch": 0.019695492242486266,
	"grad_norm": 13.29211139678955,
	"learning_rate": 0.0001,
	"loss": 9.7695,
	"step": 1020
	},
	{
	"epoch": 0.01988858530368711,
	"grad_norm": 10.953620910644531,
	"learning_rate": 0.0001,
	"loss": 10.6678,
	"step": 1030
	},
	{
	"epoch": 0.02008167836488796,
	"grad_norm": 13.800012588500977,
	"learning_rate": 0.0001,
	"loss": 11.9463,
	"step": 1040
	},
	{
	"epoch": 0.020274771426088804,
	"grad_norm": 38.13134765625,
	"learning_rate": 0.0001,
	"loss": 13.1925,
	"step": 1050
	},
	{
	"epoch": 0.020274771426088804,
	"eval_loss": 2.779891014099121,
	"eval_runtime": 331.3018,
	"eval_samples_per_second": 131.638,
	"eval_steps_per_second": 32.91,
	"step": 1050
	},
	{
	"epoch": 0.02046786448728965,
	"grad_norm": 9.869668006896973,
	"learning_rate": 0.0001,
	"loss": 10.3068,
	"step": 1060
	},
	{
	"epoch": 0.020660957548490497,
	"grad_norm": 16.215045928955078,
	"learning_rate": 0.0001,
	"loss": 10.0212,
	"step": 1070
	},
	{
	"epoch": 0.02085405060969134,
	"grad_norm": 13.320286750793457,
	"learning_rate": 0.0001,
	"loss": 10.9438,
	"step": 1080
	},
	{
	"epoch": 0.021047143670892186,
	"grad_norm": 17.76883888244629,
	"learning_rate": 0.0001,
	"loss": 11.2812,
	"step": 1090
	},
	{
	"epoch": 0.02124023673209303,
	"grad_norm": 34.5752067565918,
	"learning_rate": 0.0001,
	"loss": 13.2006,
	"step": 1100
	},
	{
	"epoch": 0.02143332979329388,
	"grad_norm": 13.33773422241211,
	"learning_rate": 0.0001,
	"loss": 10.145,
	"step": 1110
	},
	{
	"epoch": 0.021626422854494724,
	"grad_norm": 13.584674835205078,
	"learning_rate": 0.0001,
	"loss": 9.9768,
	"step": 1120
	},
	{
	"epoch": 0.02181951591569557,
	"grad_norm": 16.620107650756836,
	"learning_rate": 0.0001,
	"loss": 10.4809,
	"step": 1130
	},
	{
	"epoch": 0.022012608976896414,
	"grad_norm": 20.761350631713867,
	"learning_rate": 0.0001,
	"loss": 11.4802,
	"step": 1140
	},
	{
	"epoch": 0.022205702038097262,
	"grad_norm": 42.86295700073242,
	"learning_rate": 0.0001,
	"loss": 13.3743,
	"step": 1150
	},
	{
	"epoch": 0.022398795099298107,
	"grad_norm": 14.914039611816406,
	"learning_rate": 0.0001,
	"loss": 9.9647,
	"step": 1160
	},
	{
	"epoch": 0.022591888160498952,
	"grad_norm": 18.681671142578125,
	"learning_rate": 0.0001,
	"loss": 9.6733,
	"step": 1170
	},
	{
	"epoch": 0.022784981221699797,
	"grad_norm": 16.26973533630371,
	"learning_rate": 0.0001,
	"loss": 10.5368,
	"step": 1180
	},
	{
	"epoch": 0.022978074282900645,
	"grad_norm": 18.916370391845703,
	"learning_rate": 0.0001,
	"loss": 11.4679,
	"step": 1190
	},
	{
	"epoch": 0.02317116734410149,
	"grad_norm": 43.991939544677734,
	"learning_rate": 0.0001,
	"loss": 13.6126,
	"step": 1200
	},
	{
	"epoch": 0.02317116734410149,
	"eval_loss": 2.76770281791687,
	"eval_runtime": 324.3376,
	"eval_samples_per_second": 134.465,
	"eval_steps_per_second": 33.616,
	"step": 1200
	},
	{
	"epoch": 0.023364260405302335,
	"grad_norm": 19.019067764282227,
	"learning_rate": 0.0001,
	"loss": 9.9333,
	"step": 1210
	},
	{
	"epoch": 0.023557353466503183,
	"grad_norm": 14.600743293762207,
	"learning_rate": 0.0001,
	"loss": 10.1374,
	"step": 1220
	},
	{
	"epoch": 0.023750446527704028,
	"grad_norm": 16.908267974853516,
	"learning_rate": 0.0001,
	"loss": 10.7748,
	"step": 1230
	},
	{
	"epoch": 0.023943539588904873,
	"grad_norm": 25.043933868408203,
	"learning_rate": 0.0001,
	"loss": 11.5941,
	"step": 1240
	},
	{
	"epoch": 0.024136632650105717,
	"grad_norm": 31.190759658813477,
	"learning_rate": 0.0001,
	"loss": 13.5434,
	"step": 1250
	},
	{
	"epoch": 0.024329725711306566,
	"grad_norm": 11.28165054321289,
	"learning_rate": 0.0001,
	"loss": 9.8626,
	"step": 1260
	},
	{
	"epoch": 0.02452281877250741,
	"grad_norm": 12.803401947021484,
	"learning_rate": 0.0001,
	"loss": 9.9016,
	"step": 1270
	},
	{
	"epoch": 0.024715911833708255,
	"grad_norm": 10.985638618469238,
	"learning_rate": 0.0001,
	"loss": 10.5182,
	"step": 1280
	},
	{
	"epoch": 0.0249090048949091,
	"grad_norm": 14.558553695678711,
	"learning_rate": 0.0001,
	"loss": 11.4006,
	"step": 1290
	},
	{
	"epoch": 0.02510209795610995,
	"grad_norm": 28.10079002380371,
	"learning_rate": 0.0001,
	"loss": 13.2948,
	"step": 1300
	},
	{
	"epoch": 0.025295191017310793,
	"grad_norm": 10.139495849609375,
	"learning_rate": 0.0001,
	"loss": 9.7414,
	"step": 1310
	},
	{
	"epoch": 0.025488284078511638,
	"grad_norm": 12.202920913696289,
	"learning_rate": 0.0001,
	"loss": 9.915,
	"step": 1320
	},
	{
	"epoch": 0.025681377139712483,
	"grad_norm": 14.947649002075195,
	"learning_rate": 0.0001,
	"loss": 10.6419,
	"step": 1330
	},
	{
	"epoch": 0.02587447020091333,
	"grad_norm": 16.732439041137695,
	"learning_rate": 0.0001,
	"loss": 11.9169,
	"step": 1340
	},
	{
	"epoch": 0.026067563262114176,
	"grad_norm": 32.5897216796875,
	"learning_rate": 0.0001,
	"loss": 13.0356,
	"step": 1350
	},
	{
	"epoch": 0.026067563262114176,
	"eval_loss": 2.7592430114746094,
	"eval_runtime": 326.8015,
	"eval_samples_per_second": 133.451,
	"eval_steps_per_second": 33.363,
	"step": 1350
	},
	{
	"epoch": 0.02626065632331502,
	"grad_norm": 10.175602912902832,
	"learning_rate": 0.0001,
	"loss": 10.0645,
	"step": 1360
	},
	{
	"epoch": 0.026453749384515866,
	"grad_norm": 13.354422569274902,
	"learning_rate": 0.0001,
	"loss": 9.9626,
	"step": 1370
	},
	{
	"epoch": 0.026646842445716714,
	"grad_norm": 14.017874717712402,
	"learning_rate": 0.0001,
	"loss": 10.6526,
	"step": 1380
	},
	{
	"epoch": 0.02683993550691756,
	"grad_norm": 15.533336639404297,
	"learning_rate": 0.0001,
	"loss": 11.3396,
	"step": 1390
	},
	{
	"epoch": 0.027033028568118404,
	"grad_norm": 21.672401428222656,
	"learning_rate": 0.0001,
	"loss": 13.0943,
	"step": 1400
	},
	{
	"epoch": 0.027226121629319252,
	"grad_norm": 11.563956260681152,
	"learning_rate": 0.0001,
	"loss": 10.1492,
	"step": 1410
	},
	{
	"epoch": 0.027419214690520097,
	"grad_norm": 9.616212844848633,
	"learning_rate": 0.0001,
	"loss": 10.1169,
	"step": 1420
	},
	{
	"epoch": 0.02761230775172094,
	"grad_norm": 14.188048362731934,
	"learning_rate": 0.0001,
	"loss": 10.3995,
	"step": 1430
	},
	{
	"epoch": 0.027805400812921786,
	"grad_norm": 13.804783821105957,
	"learning_rate": 0.0001,
	"loss": 11.1481,
	"step": 1440
	},
	{
	"epoch": 0.027998493874122635,
	"grad_norm": 23.23021125793457,
	"learning_rate": 0.0001,
	"loss": 13.1522,
	"step": 1450
	},
	{
	"epoch": 0.02819158693532348,
	"grad_norm": 7.562139511108398,
	"learning_rate": 0.0001,
	"loss": 10.1138,
	"step": 1460
	},
	{
	"epoch": 0.028384679996524324,
	"grad_norm": 26.057680130004883,
	"learning_rate": 0.0001,
	"loss": 9.7856,
	"step": 1470
	},
	{
	"epoch": 0.02857777305772517,
	"grad_norm": 12.248312950134277,
	"learning_rate": 0.0001,
	"loss": 10.4052,
	"step": 1480
	},
	{
	"epoch": 0.028770866118926017,
	"grad_norm": 14.60325813293457,
	"learning_rate": 0.0001,
	"loss": 11.6516,
	"step": 1490
	},
	{
	"epoch": 0.028963959180126862,
	"grad_norm": 52.02046585083008,
	"learning_rate": 0.0001,
	"loss": 13.2193,
	"step": 1500
	},
	{
	"epoch": 0.028963959180126862,
	"eval_loss": 2.770695209503174,
	"eval_runtime": 330.0972,
	"eval_samples_per_second": 132.119,
	"eval_steps_per_second": 33.03,
	"step": 1500
	}
	],
	"logging_steps": 10,
	"max_steps": 1500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 150,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 3,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 1
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.0944605381853184e+16,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}