starcoder2-3b-lora-apr / trainer_state.json

Upload folder using huggingface_hub

d79f62a verified 13 days ago

72.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 5.7491289198606275,
	"eval_steps": 500,
	"global_step": 4125,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.013937282229965157,
	"grad_norm": 0.689270555973053,
	"learning_rate": 1e-05,
	"loss": 3.465,
	"step": 10
	},
	{
	"epoch": 0.027874564459930314,
	"grad_norm": 0.3839555084705353,
	"learning_rate": 2e-05,
	"loss": 3.4261,
	"step": 20
	},
	{
	"epoch": 0.041811846689895474,
	"grad_norm": 0.8513675928115845,
	"learning_rate": 1.9999707152644143e-05,
	"loss": 3.0148,
	"step": 30
	},
	{
	"epoch": 0.05574912891986063,
	"grad_norm": 0.5808806419372559,
	"learning_rate": 1.9998828627728483e-05,
	"loss": 2.8815,
	"step": 40
	},
	{
	"epoch": 0.06968641114982578,
	"grad_norm": 0.8429257869720459,
	"learning_rate": 1.9997364476707765e-05,
	"loss": 2.4359,
	"step": 50
	},
	{
	"epoch": 0.08362369337979095,
	"grad_norm": 9.207444190979004,
	"learning_rate": 1.9995314785336534e-05,
	"loss": 2.3272,
	"step": 60
	},
	{
	"epoch": 0.0975609756097561,
	"grad_norm": 0.8501074314117432,
	"learning_rate": 1.9992679673664136e-05,
	"loss": 2.3717,
	"step": 70
	},
	{
	"epoch": 0.11149825783972125,
	"grad_norm": 1.1296913623809814,
	"learning_rate": 1.998945929602766e-05,
	"loss": 1.9401,
	"step": 80
	},
	{
	"epoch": 0.1254355400696864,
	"grad_norm": 0.7665435075759888,
	"learning_rate": 1.9985653841042926e-05,
	"loss": 2.0245,
	"step": 90
	},
	{
	"epoch": 0.13937282229965156,
	"grad_norm": 1.1252214908599854,
	"learning_rate": 1.9981263531593422e-05,
	"loss": 1.847,
	"step": 100
	},
	{
	"epoch": 0.15331010452961671,
	"grad_norm": 0.6236267685890198,
	"learning_rate": 1.997628862481725e-05,
	"loss": 1.6229,
	"step": 110
	},
	{
	"epoch": 0.1672473867595819,
	"grad_norm": 0.41556432843208313,
	"learning_rate": 1.9970729412092064e-05,
	"loss": 1.6222,
	"step": 120
	},
	{
	"epoch": 0.18118466898954705,
	"grad_norm": 1.1682895421981812,
	"learning_rate": 1.9964586219018018e-05,
	"loss": 1.6162,
	"step": 130
	},
	{
	"epoch": 0.1951219512195122,
	"grad_norm": 0.804908037185669,
	"learning_rate": 1.995785940539868e-05,
	"loss": 1.5503,
	"step": 140
	},
	{
	"epoch": 0.20905923344947736,
	"grad_norm": 0.5646180510520935,
	"learning_rate": 1.995054936521997e-05,
	"loss": 1.5357,
	"step": 150
	},
	{
	"epoch": 0.2229965156794425,
	"grad_norm": 0.667831301689148,
	"learning_rate": 1.994265652662707e-05,
	"loss": 1.4177,
	"step": 160
	},
	{
	"epoch": 0.23693379790940766,
	"grad_norm": 0.6871632933616638,
	"learning_rate": 1.9934181351899365e-05,
	"loss": 1.4035,
	"step": 170
	},
	{
	"epoch": 0.2508710801393728,
	"grad_norm": 0.5316534638404846,
	"learning_rate": 1.9925124337423356e-05,
	"loss": 1.3704,
	"step": 180
	},
	{
	"epoch": 0.26480836236933797,
	"grad_norm": 0.4839189946651459,
	"learning_rate": 1.9915486013663595e-05,
	"loss": 1.2654,
	"step": 190
	},
	{
	"epoch": 0.2787456445993031,
	"grad_norm": 0.6332902908325195,
	"learning_rate": 1.99052669451316e-05,
	"loss": 1.341,
	"step": 200
	},
	{
	"epoch": 0.2926829268292683,
	"grad_norm": 0.8837312459945679,
	"learning_rate": 1.9894467730352817e-05,
	"loss": 1.2951,
	"step": 210
	},
	{
	"epoch": 0.30662020905923343,
	"grad_norm": 0.5074018239974976,
	"learning_rate": 1.9883089001831545e-05,
	"loss": 1.2118,
	"step": 220
	},
	{
	"epoch": 0.3205574912891986,
	"grad_norm": 0.4832253158092499,
	"learning_rate": 1.9871131426013894e-05,
	"loss": 1.1841,
	"step": 230
	},
	{
	"epoch": 0.3344947735191638,
	"grad_norm": 0.593585193157196,
	"learning_rate": 1.9858595703248755e-05,
	"loss": 1.1881,
	"step": 240
	},
	{
	"epoch": 0.34843205574912894,
	"grad_norm": 2.605353832244873,
	"learning_rate": 1.9845482567746783e-05,
	"loss": 1.185,
	"step": 250
	},
	{
	"epoch": 0.3623693379790941,
	"grad_norm": 0.5042847990989685,
	"learning_rate": 1.983179278753739e-05,
	"loss": 1.1611,
	"step": 260
	},
	{
	"epoch": 0.37630662020905925,
	"grad_norm": 0.5455293655395508,
	"learning_rate": 1.981752716442376e-05,
	"loss": 1.1387,
	"step": 270
	},
	{
	"epoch": 0.3902439024390244,
	"grad_norm": 0.5077016949653625,
	"learning_rate": 1.9802686533935903e-05,
	"loss": 1.1303,
	"step": 280
	},
	{
	"epoch": 0.40418118466898956,
	"grad_norm": 1.6482897996902466,
	"learning_rate": 1.9787271765281684e-05,
	"loss": 1.1113,
	"step": 290
	},
	{
	"epoch": 0.4181184668989547,
	"grad_norm": 0.706795871257782,
	"learning_rate": 1.9771283761295966e-05,
	"loss": 1.2045,
	"step": 300
	},
	{
	"epoch": 0.43205574912891986,
	"grad_norm": 0.4687112867832184,
	"learning_rate": 1.975472345838768e-05,
	"loss": 1.1115,
	"step": 310
	},
	{
	"epoch": 0.445993031358885,
	"grad_norm": 0.6432089805603027,
	"learning_rate": 1.9737591826485013e-05,
	"loss": 1.0392,
	"step": 320
	},
	{
	"epoch": 0.45993031358885017,
	"grad_norm": 0.5330508351325989,
	"learning_rate": 1.9719889868978582e-05,
	"loss": 1.1082,
	"step": 330
	},
	{
	"epoch": 0.4738675958188153,
	"grad_norm": 0.5292240381240845,
	"learning_rate": 1.970161862266268e-05,
	"loss": 1.0845,
	"step": 340
	},
	{
	"epoch": 0.4878048780487805,
	"grad_norm": 0.5111907720565796,
	"learning_rate": 1.968277915767454e-05,
	"loss": 1.0763,
	"step": 350
	},
	{
	"epoch": 0.5017421602787456,
	"grad_norm": 0.6637840270996094,
	"learning_rate": 1.9663372577431663e-05,
	"loss": 1.0727,
	"step": 360
	},
	{
	"epoch": 0.5156794425087108,
	"grad_norm": 0.5857555270195007,
	"learning_rate": 1.9643400018567195e-05,
	"loss": 1.0431,
	"step": 370
	},
	{
	"epoch": 0.5296167247386759,
	"grad_norm": 0.4895532429218292,
	"learning_rate": 1.962286265086334e-05,
	"loss": 1.0656,
	"step": 380
	},
	{
	"epoch": 0.5435540069686411,
	"grad_norm": 0.4925576448440552,
	"learning_rate": 1.9601761677182868e-05,
	"loss": 1.0581,
	"step": 390
	},
	{
	"epoch": 0.5574912891986062,
	"grad_norm": 0.49863460659980774,
	"learning_rate": 1.958009833339865e-05,
	"loss": 1.0236,
	"step": 400
	},
	{
	"epoch": 0.5714285714285714,
	"grad_norm": 0.4993515610694885,
	"learning_rate": 1.955787388832127e-05,
	"loss": 1.0382,
	"step": 410
	},
	{
	"epoch": 0.5853658536585366,
	"grad_norm": 0.5540180206298828,
	"learning_rate": 1.953508964362473e-05,
	"loss": 1.06,
	"step": 420
	},
	{
	"epoch": 0.5993031358885017,
	"grad_norm": 0.47915443778038025,
	"learning_rate": 1.9511746933770186e-05,
	"loss": 1.0793,
	"step": 430
	},
	{
	"epoch": 0.6132404181184669,
	"grad_norm": 0.931480348110199,
	"learning_rate": 1.9487847125927814e-05,
	"loss": 1.0125,
	"step": 440
	},
	{
	"epoch": 0.627177700348432,
	"grad_norm": 0.5183358192443848,
	"learning_rate": 1.946339161989672e-05,
	"loss": 0.9963,
	"step": 450
	},
	{
	"epoch": 0.6411149825783972,
	"grad_norm": 0.4870765507221222,
	"learning_rate": 1.943838184802296e-05,
	"loss": 1.0556,
	"step": 460
	},
	{
	"epoch": 0.6550522648083623,
	"grad_norm": 0.5741175413131714,
	"learning_rate": 1.9412819275115648e-05,
	"loss": 1.0337,
	"step": 470
	},
	{
	"epoch": 0.6689895470383276,
	"grad_norm": 6.292229652404785,
	"learning_rate": 1.9386705398361156e-05,
	"loss": 1.0487,
	"step": 480
	},
	{
	"epoch": 0.6829268292682927,
	"grad_norm": 0.508897602558136,
	"learning_rate": 1.9360041747235437e-05,
	"loss": 1.0538,
	"step": 490
	},
	{
	"epoch": 0.6968641114982579,
	"grad_norm": 2.2197482585906982,
	"learning_rate": 1.9332829883414444e-05,
	"loss": 0.9835,
	"step": 500
	},
	{
	"epoch": 0.710801393728223,
	"grad_norm": 0.5469727516174316,
	"learning_rate": 1.9305071400682644e-05,
	"loss": 1.023,
	"step": 510
	},
	{
	"epoch": 0.7247386759581882,
	"grad_norm": 0.5392600297927856,
	"learning_rate": 1.9276767924839687e-05,
	"loss": 0.9832,
	"step": 520
	},
	{
	"epoch": 0.7386759581881533,
	"grad_norm": 0.5167688727378845,
	"learning_rate": 1.9247921113605197e-05,
	"loss": 0.9896,
	"step": 530
	},
	{
	"epoch": 0.7526132404181185,
	"grad_norm": 0.622711718082428,
	"learning_rate": 1.921853265652164e-05,
	"loss": 0.9443,
	"step": 540
	},
	{
	"epoch": 0.7665505226480837,
	"grad_norm": 0.7172455787658691,
	"learning_rate": 1.9188604274855417e-05,
	"loss": 1.0113,
	"step": 550
	},
	{
	"epoch": 0.7804878048780488,
	"grad_norm": 0.5286630988121033,
	"learning_rate": 1.9158137721496014e-05,
	"loss": 1.0027,
	"step": 560
	},
	{
	"epoch": 0.794425087108014,
	"grad_norm": 0.531980037689209,
	"learning_rate": 1.9127134780853343e-05,
	"loss": 0.9521,
	"step": 570
	},
	{
	"epoch": 0.8083623693379791,
	"grad_norm": 0.5521572828292847,
	"learning_rate": 1.9095597268753243e-05,
	"loss": 1.006,
	"step": 580
	},
	{
	"epoch": 0.8222996515679443,
	"grad_norm": 0.953914999961853,
	"learning_rate": 1.9063527032331128e-05,
	"loss": 0.9401,
	"step": 590
	},
	{
	"epoch": 0.8362369337979094,
	"grad_norm": 0.6153273582458496,
	"learning_rate": 1.9030925949923777e-05,
	"loss": 0.9872,
	"step": 600
	},
	{
	"epoch": 0.8501742160278746,
	"grad_norm": 0.7658360004425049,
	"learning_rate": 1.899779593095935e-05,
	"loss": 0.9842,
	"step": 610
	},
	{
	"epoch": 0.8641114982578397,
	"grad_norm": 0.6273182034492493,
	"learning_rate": 1.896413891584554e-05,
	"loss": 0.9636,
	"step": 620
	},
	{
	"epoch": 0.8780487804878049,
	"grad_norm": 0.5916078090667725,
	"learning_rate": 1.8929956875855913e-05,
	"loss": 0.9845,
	"step": 630
	},
	{
	"epoch": 0.89198606271777,
	"grad_norm": 0.5227757096290588,
	"learning_rate": 1.8895251813014486e-05,
	"loss": 0.9813,
	"step": 640
	},
	{
	"epoch": 0.9059233449477352,
	"grad_norm": 0.5434836745262146,
	"learning_rate": 1.8860025759978436e-05,
	"loss": 0.9522,
	"step": 650
	},
	{
	"epoch": 0.9198606271777003,
	"grad_norm": 0.48904576897621155,
	"learning_rate": 1.8824280779919055e-05,
	"loss": 0.937,
	"step": 660
	},
	{
	"epoch": 0.9337979094076655,
	"grad_norm": 0.6036517024040222,
	"learning_rate": 1.8788018966400923e-05,
	"loss": 0.9587,
	"step": 670
	},
	{
	"epoch": 0.9477351916376306,
	"grad_norm": 0.5333548188209534,
	"learning_rate": 1.8751242443259286e-05,
	"loss": 0.9564,
	"step": 680
	},
	{
	"epoch": 0.9616724738675958,
	"grad_norm": 0.6121916770935059,
	"learning_rate": 1.8713953364475654e-05,
	"loss": 0.9676,
	"step": 690
	},
	{
	"epoch": 0.975609756097561,
	"grad_norm": 0.5846276879310608,
	"learning_rate": 1.8676153914051648e-05,
	"loss": 0.9417,
	"step": 700
	},
	{
	"epoch": 0.9895470383275261,
	"grad_norm": 0.6067516207695007,
	"learning_rate": 1.8637846305881092e-05,
	"loss": 0.9615,
	"step": 710
	},
	{
	"epoch": 1.0034843205574913,
	"grad_norm": 0.4959181547164917,
	"learning_rate": 1.859903278362034e-05,
	"loss": 0.9361,
	"step": 720
	},
	{
	"epoch": 1.0174216027874565,
	"grad_norm": 0.554417073726654,
	"learning_rate": 1.8559715620556865e-05,
	"loss": 0.984,
	"step": 730
	},
	{
	"epoch": 1.0313588850174216,
	"grad_norm": 0.5190228223800659,
	"learning_rate": 1.8519897119476115e-05,
	"loss": 0.9571,
	"step": 740
	},
	{
	"epoch": 1.0452961672473868,
	"grad_norm": 0.5573728680610657,
	"learning_rate": 1.8479579612526642e-05,
	"loss": 0.9324,
	"step": 750
	},
	{
	"epoch": 1.0592334494773519,
	"grad_norm": 0.5803472399711609,
	"learning_rate": 1.8438765461083504e-05,
	"loss": 0.9274,
	"step": 760
	},
	{
	"epoch": 1.0731707317073171,
	"grad_norm": 0.5444169044494629,
	"learning_rate": 1.8397457055609973e-05,
	"loss": 0.9278,
	"step": 770
	},
	{
	"epoch": 1.0871080139372822,
	"grad_norm": 0.5003806352615356,
	"learning_rate": 1.8355656815517505e-05,
	"loss": 0.9392,
	"step": 780
	},
	{
	"epoch": 1.1010452961672474,
	"grad_norm": 1.262714147567749,
	"learning_rate": 1.8313367189024065e-05,
	"loss": 0.9741,
	"step": 790
	},
	{
	"epoch": 1.1149825783972125,
	"grad_norm": 0.8410710692405701,
	"learning_rate": 1.8270590653010706e-05,
	"loss": 0.9815,
	"step": 800
	},
	{
	"epoch": 1.1289198606271778,
	"grad_norm": 0.554559051990509,
	"learning_rate": 1.8227329712876525e-05,
	"loss": 0.9085,
	"step": 810
	},
	{
	"epoch": 1.1428571428571428,
	"grad_norm": 0.5503095388412476,
	"learning_rate": 1.8183586902391905e-05,
	"loss": 0.9034,
	"step": 820
	},
	{
	"epoch": 1.156794425087108,
	"grad_norm": 0.5442657470703125,
	"learning_rate": 1.8139364783550128e-05,
	"loss": 0.9525,
	"step": 830
	},
	{
	"epoch": 1.170731707317073,
	"grad_norm": 0.5207365155220032,
	"learning_rate": 1.8094665946417304e-05,
	"loss": 0.9166,
	"step": 840
	},
	{
	"epoch": 1.1846689895470384,
	"grad_norm": 0.48352962732315063,
	"learning_rate": 1.8049493008980685e-05,
	"loss": 0.9187,
	"step": 850
	},
	{
	"epoch": 1.1986062717770034,
	"grad_norm": 0.4856855869293213,
	"learning_rate": 1.8003848616995333e-05,
	"loss": 0.9226,
	"step": 860
	},
	{
	"epoch": 1.2125435540069687,
	"grad_norm": 4.280817031860352,
	"learning_rate": 1.795773544382915e-05,
	"loss": 0.9301,
	"step": 870
	},
	{
	"epoch": 1.2264808362369337,
	"grad_norm": 0.6370670199394226,
	"learning_rate": 1.7911156190306296e-05,
	"loss": 0.9843,
	"step": 880
	},
	{
	"epoch": 1.240418118466899,
	"grad_norm": 0.7971873879432678,
	"learning_rate": 1.786411358454902e-05,
	"loss": 0.9352,
	"step": 890
	},
	{
	"epoch": 1.254355400696864,
	"grad_norm": 0.6326978802680969,
	"learning_rate": 1.7816610381817864e-05,
	"loss": 0.8951,
	"step": 900
	},
	{
	"epoch": 1.2682926829268293,
	"grad_norm": 0.8231450319290161,
	"learning_rate": 1.776864936435029e-05,
	"loss": 0.9498,
	"step": 910
	},
	{
	"epoch": 1.2822299651567945,
	"grad_norm": 0.4994203746318817,
	"learning_rate": 1.7720233341197726e-05,
	"loss": 0.9127,
	"step": 920
	},
	{
	"epoch": 1.2961672473867596,
	"grad_norm": 0.6145898103713989,
	"learning_rate": 1.7671365148061053e-05,
	"loss": 0.9249,
	"step": 930
	},
	{
	"epoch": 1.3101045296167246,
	"grad_norm": 0.5441964864730835,
	"learning_rate": 1.7622047647124488e-05,
	"loss": 0.9078,
	"step": 940
	},
	{
	"epoch": 1.32404181184669,
	"grad_norm": 0.5940006375312805,
	"learning_rate": 1.757228372688799e-05,
	"loss": 0.8937,
	"step": 950
	},
	{
	"epoch": 1.3379790940766552,
	"grad_norm": 0.6185000538825989,
	"learning_rate": 1.7522076301998048e-05,
	"loss": 0.8922,
	"step": 960
	},
	{
	"epoch": 1.3519163763066202,
	"grad_norm": 0.6179748773574829,
	"learning_rate": 1.7471428313076984e-05,
	"loss": 0.8864,
	"step": 970
	},
	{
	"epoch": 1.3658536585365852,
	"grad_norm": 0.6203311681747437,
	"learning_rate": 1.7420342726550728e-05,
	"loss": 0.9071,
	"step": 980
	},
	{
	"epoch": 1.3797909407665505,
	"grad_norm": 0.4726350009441376,
	"learning_rate": 1.736882253447506e-05,
	"loss": 0.9225,
	"step": 990
	},
	{
	"epoch": 1.3937282229965158,
	"grad_norm": 0.5029098987579346,
	"learning_rate": 1.73168707543604e-05,
	"loss": 0.9036,
	"step": 1000
	},
	{
	"epoch": 1.4076655052264808,
	"grad_norm": 0.5293656587600708,
	"learning_rate": 1.726449042899502e-05,
	"loss": 0.9093,
	"step": 1010
	},
	{
	"epoch": 1.4216027874564459,
	"grad_norm": 0.5243374109268188,
	"learning_rate": 1.7211684626266887e-05,
	"loss": 0.8831,
	"step": 1020
	},
	{
	"epoch": 1.4355400696864111,
	"grad_norm": 0.5120546221733093,
	"learning_rate": 1.7158456438983934e-05,
	"loss": 0.9138,
	"step": 1030
	},
	{
	"epoch": 1.4494773519163764,
	"grad_norm": 0.4908638596534729,
	"learning_rate": 1.7104808984692946e-05,
	"loss": 0.9152,
	"step": 1040
	},
	{
	"epoch": 1.4634146341463414,
	"grad_norm": 0.5942572951316833,
	"learning_rate": 1.705074540549695e-05,
	"loss": 0.9535,
	"step": 1050
	},
	{
	"epoch": 1.4773519163763067,
	"grad_norm": 0.6341879367828369,
	"learning_rate": 1.699626886787119e-05,
	"loss": 0.9506,
	"step": 1060
	},
	{
	"epoch": 1.4912891986062717,
	"grad_norm": 0.49885329604148865,
	"learning_rate": 1.6941382562477664e-05,
	"loss": 0.9313,
	"step": 1070
	},
	{
	"epoch": 1.505226480836237,
	"grad_norm": 0.5285991430282593,
	"learning_rate": 1.688608970397825e-05,
	"loss": 0.9164,
	"step": 1080
	},
	{
	"epoch": 1.519163763066202,
	"grad_norm": 0.5937536358833313,
	"learning_rate": 1.683039353084644e-05,
	"loss": 0.8853,
	"step": 1090
	},
	{
	"epoch": 1.533101045296167,
	"grad_norm": 0.5034327507019043,
	"learning_rate": 1.677429730517763e-05,
	"loss": 0.9081,
	"step": 1100
	},
	{
	"epoch": 1.5470383275261324,
	"grad_norm": 0.48388397693634033,
	"learning_rate": 1.67178043124981e-05,
	"loss": 0.8786,
	"step": 1110
	},
	{
	"epoch": 1.5609756097560976,
	"grad_norm": 0.6228198409080505,
	"learning_rate": 1.666091786157255e-05,
	"loss": 0.8607,
	"step": 1120
	},
	{
	"epoch": 1.5749128919860627,
	"grad_norm": 0.4986213147640228,
	"learning_rate": 1.6603641284210335e-05,
	"loss": 0.8904,
	"step": 1130
	},
	{
	"epoch": 1.588850174216028,
	"grad_norm": 0.4710678458213806,
	"learning_rate": 1.6545977935070293e-05,
	"loss": 0.8807,
	"step": 1140
	},
	{
	"epoch": 1.6027874564459932,
	"grad_norm": 0.5493403673171997,
	"learning_rate": 1.6487931191464293e-05,
	"loss": 0.9389,
	"step": 1150
	},
	{
	"epoch": 1.6167247386759582,
	"grad_norm": 0.5593530535697937,
	"learning_rate": 1.642950445315941e-05,
	"loss": 0.9294,
	"step": 1160
	},
	{
	"epoch": 1.6306620209059233,
	"grad_norm": 0.5576480031013489,
	"learning_rate": 1.6370701142178815e-05,
	"loss": 0.8685,
	"step": 1170
	},
	{
	"epoch": 1.6445993031358885,
	"grad_norm": 0.5916953682899475,
	"learning_rate": 1.6311524702601328e-05,
	"loss": 0.8794,
	"step": 1180
	},
	{
	"epoch": 1.6585365853658538,
	"grad_norm": 0.49112585186958313,
	"learning_rate": 1.6251978600359727e-05,
	"loss": 0.8893,
	"step": 1190
	},
	{
	"epoch": 1.6724738675958188,
	"grad_norm": 0.606788694858551,
	"learning_rate": 1.6192066323037723e-05,
	"loss": 0.9162,
	"step": 1200
	},
	{
	"epoch": 1.6864111498257839,
	"grad_norm": 0.5515270829200745,
	"learning_rate": 1.613179137966572e-05,
	"loss": 0.9027,
	"step": 1210
	},
	{
	"epoch": 1.7003484320557491,
	"grad_norm": 0.51644366979599,
	"learning_rate": 1.6071157300515274e-05,
	"loss": 0.9218,
	"step": 1220
	},
	{
	"epoch": 1.7142857142857144,
	"grad_norm": 0.48575639724731445,
	"learning_rate": 1.6010167636892338e-05,
	"loss": 0.9032,
	"step": 1230
	},
	{
	"epoch": 1.7282229965156795,
	"grad_norm": 0.5278819799423218,
	"learning_rate": 1.594882596092926e-05,
	"loss": 0.9159,
	"step": 1240
	},
	{
	"epoch": 1.7421602787456445,
	"grad_norm": 0.554883599281311,
	"learning_rate": 1.5887135865375552e-05,
	"loss": 0.9046,
	"step": 1250
	},
	{
	"epoch": 1.7560975609756098,
	"grad_norm": 0.5662369728088379,
	"learning_rate": 1.58251009633875e-05,
	"loss": 0.8528,
	"step": 1260
	},
	{
	"epoch": 1.770034843205575,
	"grad_norm": 0.6568381786346436,
	"learning_rate": 1.57627248883165e-05,
	"loss": 0.8885,
	"step": 1270
	},
	{
	"epoch": 1.78397212543554,
	"grad_norm": 0.7277708649635315,
	"learning_rate": 1.5700011293496285e-05,
	"loss": 0.9159,
	"step": 1280
	},
	{
	"epoch": 1.797909407665505,
	"grad_norm": 0.5788251161575317,
	"learning_rate": 1.5636963852028936e-05,
	"loss": 0.9036,
	"step": 1290
	},
	{
	"epoch": 1.8118466898954704,
	"grad_norm": 0.5556735396385193,
	"learning_rate": 1.557358625656976e-05,
	"loss": 0.9155,
	"step": 1300
	},
	{
	"epoch": 1.8257839721254356,
	"grad_norm": 0.4880397319793701,
	"learning_rate": 1.550988221911101e-05,
	"loss": 0.8849,
	"step": 1310
	},
	{
	"epoch": 1.8397212543554007,
	"grad_norm": 0.6523249745368958,
	"learning_rate": 1.5445855470764467e-05,
	"loss": 0.8644,
	"step": 1320
	},
	{
	"epoch": 1.8536585365853657,
	"grad_norm": 0.8619920015335083,
	"learning_rate": 1.5381509761542925e-05,
	"loss": 0.9073,
	"step": 1330
	},
	{
	"epoch": 1.867595818815331,
	"grad_norm": 0.6176061034202576,
	"learning_rate": 1.5316848860140545e-05,
	"loss": 0.877,
	"step": 1340
	},
	{
	"epoch": 1.8815331010452963,
	"grad_norm": 0.49368295073509216,
	"learning_rate": 1.5251876553712129e-05,
	"loss": 0.8854,
	"step": 1350
	},
	{
	"epoch": 1.8954703832752613,
	"grad_norm": 0.6543199419975281,
	"learning_rate": 1.5186596647651299e-05,
	"loss": 0.883,
	"step": 1360
	},
	{
	"epoch": 1.9094076655052263,
	"grad_norm": 0.568365216255188,
	"learning_rate": 1.512101296536764e-05,
	"loss": 0.9144,
	"step": 1370
	},
	{
	"epoch": 1.9233449477351916,
	"grad_norm": 0.5592637062072754,
	"learning_rate": 1.5055129348062733e-05,
	"loss": 0.8869,
	"step": 1380
	},
	{
	"epoch": 1.9372822299651569,
	"grad_norm": 0.642049252986908,
	"learning_rate": 1.4988949654505212e-05,
	"loss": 0.9268,
	"step": 1390
	},
	{
	"epoch": 1.951219512195122,
	"grad_norm": 0.8612108826637268,
	"learning_rate": 1.492247776080472e-05,
	"loss": 0.9231,
	"step": 1400
	},
	{
	"epoch": 1.965156794425087,
	"grad_norm": 0.5690594911575317,
	"learning_rate": 1.4855717560184925e-05,
	"loss": 0.8862,
	"step": 1410
	},
	{
	"epoch": 1.9790940766550522,
	"grad_norm": 0.5545530915260315,
	"learning_rate": 1.4788672962755474e-05,
	"loss": 0.8777,
	"step": 1420
	},
	{
	"epoch": 1.9930313588850175,
	"grad_norm": 0.5686807036399841,
	"learning_rate": 1.4721347895282977e-05,
	"loss": 0.867,
	"step": 1430
	},
	{
	"epoch": 2.0069686411149825,
	"grad_norm": 0.49507030844688416,
	"learning_rate": 1.4653746300961037e-05,
	"loss": 0.8879,
	"step": 1440
	},
	{
	"epoch": 2.0209059233449476,
	"grad_norm": 0.5000828504562378,
	"learning_rate": 1.4585872139179284e-05,
	"loss": 0.8951,
	"step": 1450
	},
	{
	"epoch": 2.034843205574913,
	"grad_norm": 0.5445813536643982,
	"learning_rate": 1.4517729385291479e-05,
	"loss": 0.8741,
	"step": 1460
	},
	{
	"epoch": 2.048780487804878,
	"grad_norm": 0.5599672198295593,
	"learning_rate": 1.4449322030382681e-05,
	"loss": 0.8956,
	"step": 1470
	},
	{
	"epoch": 2.062717770034843,
	"grad_norm": 0.579526424407959,
	"learning_rate": 1.4380654081035492e-05,
	"loss": 0.8655,
	"step": 1480
	},
	{
	"epoch": 2.076655052264808,
	"grad_norm": 0.5371329188346863,
	"learning_rate": 1.4311729559095391e-05,
	"loss": 0.8916,
	"step": 1490
	},
	{
	"epoch": 2.0905923344947737,
	"grad_norm": 0.5372903943061829,
	"learning_rate": 1.424255250143518e-05,
	"loss": 0.9006,
	"step": 1500
	},
	{
	"epoch": 2.1045296167247387,
	"grad_norm": 0.5461590886116028,
	"learning_rate": 1.4173126959718542e-05,
	"loss": 0.8981,
	"step": 1510
	},
	{
	"epoch": 2.1184668989547037,
	"grad_norm": 0.5336124897003174,
	"learning_rate": 1.410345700016274e-05,
	"loss": 0.8979,
	"step": 1520
	},
	{
	"epoch": 2.132404181184669,
	"grad_norm": 0.512737512588501,
	"learning_rate": 1.4033546703300465e-05,
	"loss": 0.8549,
	"step": 1530
	},
	{
	"epoch": 2.1463414634146343,
	"grad_norm": 0.5914519429206848,
	"learning_rate": 1.3963400163740828e-05,
	"loss": 0.8807,
	"step": 1540
	},
	{
	"epoch": 2.1602787456445993,
	"grad_norm": 0.6203148365020752,
	"learning_rate": 1.3893021489929564e-05,
	"loss": 0.9025,
	"step": 1550
	},
	{
	"epoch": 2.1742160278745644,
	"grad_norm": 0.47906365990638733,
	"learning_rate": 1.382241480390837e-05,
	"loss": 0.9091,
	"step": 1560
	},
	{
	"epoch": 2.1881533101045294,
	"grad_norm": 1.1542456150054932,
	"learning_rate": 1.3751584241073517e-05,
	"loss": 0.8571,
	"step": 1570
	},
	{
	"epoch": 2.202090592334495,
	"grad_norm": 0.778533935546875,
	"learning_rate": 1.3680533949933607e-05,
	"loss": 0.8534,
	"step": 1580
	},
	{
	"epoch": 2.21602787456446,
	"grad_norm": 0.5771265625953674,
	"learning_rate": 1.3609268091866621e-05,
	"loss": 0.8709,
	"step": 1590
	},
	{
	"epoch": 2.229965156794425,
	"grad_norm": 0.5153730511665344,
	"learning_rate": 1.3537790840876179e-05,
	"loss": 0.8865,
	"step": 1600
	},
	{
	"epoch": 2.2439024390243905,
	"grad_norm": 0.5823934674263,
	"learning_rate": 1.346610638334707e-05,
	"loss": 0.8608,
	"step": 1610
	},
	{
	"epoch": 2.2578397212543555,
	"grad_norm": 0.4887414872646332,
	"learning_rate": 1.3394218917800064e-05,
	"loss": 0.8661,
	"step": 1620
	},
	{
	"epoch": 2.2717770034843205,
	"grad_norm": 0.5397761464118958,
	"learning_rate": 1.3322132654646003e-05,
	"loss": 0.8719,
	"step": 1630
	},
	{
	"epoch": 2.2857142857142856,
	"grad_norm": 0.7656607627868652,
	"learning_rate": 1.3249851815939197e-05,
	"loss": 0.8857,
	"step": 1640
	},
	{
	"epoch": 2.2996515679442506,
	"grad_norm": 0.5524553060531616,
	"learning_rate": 1.3177380635130144e-05,
	"loss": 0.8957,
	"step": 1650
	},
	{
	"epoch": 2.313588850174216,
	"grad_norm": 0.7648917436599731,
	"learning_rate": 1.3104723356817582e-05,
	"loss": 0.8746,
	"step": 1660
	},
	{
	"epoch": 2.327526132404181,
	"grad_norm": 0.696306049823761,
	"learning_rate": 1.3031884236499877e-05,
	"loss": 0.8732,
	"step": 1670
	},
	{
	"epoch": 2.341463414634146,
	"grad_norm": 0.5518249273300171,
	"learning_rate": 1.2958867540325785e-05,
	"loss": 0.8641,
	"step": 1680
	},
	{
	"epoch": 2.3554006968641117,
	"grad_norm": 0.5839936137199402,
	"learning_rate": 1.2885677544844592e-05,
	"loss": 0.8317,
	"step": 1690
	},
	{
	"epoch": 2.3693379790940767,
	"grad_norm": 0.5415021777153015,
	"learning_rate": 1.2812318536755624e-05,
	"loss": 0.8815,
	"step": 1700
	},
	{
	"epoch": 2.3832752613240418,
	"grad_norm": 0.5816763639450073,
	"learning_rate": 1.2738794812657194e-05,
	"loss": 0.8682,
	"step": 1710
	},
	{
	"epoch": 2.397212543554007,
	"grad_norm": 0.5739949941635132,
	"learning_rate": 1.266511067879494e-05,
	"loss": 0.8928,
	"step": 1720
	},
	{
	"epoch": 2.4111498257839723,
	"grad_norm": 0.5285424590110779,
	"learning_rate": 1.2591270450809612e-05,
	"loss": 0.9042,
	"step": 1730
	},
	{
	"epoch": 2.4250871080139373,
	"grad_norm": 0.67451012134552,
	"learning_rate": 1.251727845348432e-05,
	"loss": 0.9084,
	"step": 1740
	},
	{
	"epoch": 2.4390243902439024,
	"grad_norm": 0.6238117218017578,
	"learning_rate": 1.2443139020491216e-05,
	"loss": 0.8828,
	"step": 1750
	},
	{
	"epoch": 2.4529616724738674,
	"grad_norm": 0.527727484703064,
	"learning_rate": 1.236885649413768e-05,
	"loss": 0.8348,
	"step": 1760
	},
	{
	"epoch": 2.466898954703833,
	"grad_norm": 0.6208236813545227,
	"learning_rate": 1.2294435225112005e-05,
	"loss": 0.8976,
	"step": 1770
	},
	{
	"epoch": 2.480836236933798,
	"grad_norm": 0.6415792107582092,
	"learning_rate": 1.2219879572228555e-05,
	"loss": 0.853,
	"step": 1780
	},
	{
	"epoch": 2.494773519163763,
	"grad_norm": 0.5672902464866638,
	"learning_rate": 1.2145193902172496e-05,
	"loss": 0.8624,
	"step": 1790
	},
	{
	"epoch": 2.508710801393728,
	"grad_norm": 0.5251675248146057,
	"learning_rate": 1.2070382589244026e-05,
	"loss": 0.8919,
	"step": 1800
	},
	{
	"epoch": 2.5226480836236935,
	"grad_norm": 0.6049728989601135,
	"learning_rate": 1.199545001510218e-05,
	"loss": 0.8417,
	"step": 1810
	},
	{
	"epoch": 2.5365853658536586,
	"grad_norm": 0.5997565984725952,
	"learning_rate": 1.1920400568508201e-05,
	"loss": 0.8831,
	"step": 1820
	},
	{
	"epoch": 2.5505226480836236,
	"grad_norm": 0.5272901058197021,
	"learning_rate": 1.184523864506849e-05,
	"loss": 0.8773,
	"step": 1830
	},
	{
	"epoch": 2.564459930313589,
	"grad_norm": 0.567862331867218,
	"learning_rate": 1.1769968646977148e-05,
	"loss": 0.8595,
	"step": 1840
	},
	{
	"epoch": 2.578397212543554,
	"grad_norm": 0.5373286008834839,
	"learning_rate": 1.1694594982758164e-05,
	"loss": 0.8896,
	"step": 1850
	},
	{
	"epoch": 2.592334494773519,
	"grad_norm": 0.5112028121948242,
	"learning_rate": 1.161912206700719e-05,
	"loss": 0.8882,
	"step": 1860
	},
	{
	"epoch": 2.6062717770034842,
	"grad_norm": 0.4764540493488312,
	"learning_rate": 1.154355432013299e-05,
	"loss": 0.8381,
	"step": 1870
	},
	{
	"epoch": 2.6202090592334493,
	"grad_norm": 0.7286739349365234,
	"learning_rate": 1.1467896168098533e-05,
	"loss": 0.8502,
	"step": 1880
	},
	{
	"epoch": 2.6341463414634148,
	"grad_norm": 0.5751617550849915,
	"learning_rate": 1.1392152042161774e-05,
	"loss": 0.8631,
	"step": 1890
	},
	{
	"epoch": 2.64808362369338,
	"grad_norm": 0.5550952553749084,
	"learning_rate": 1.1316326378616121e-05,
	"loss": 0.9055,
	"step": 1900
	},
	{
	"epoch": 2.662020905923345,
	"grad_norm": 0.5390698909759521,
	"learning_rate": 1.1240423618530578e-05,
	"loss": 0.8586,
	"step": 1910
	},
	{
	"epoch": 2.6759581881533103,
	"grad_norm": 0.5401940941810608,
	"learning_rate": 1.1164448207489673e-05,
	"loss": 0.873,
	"step": 1920
	},
	{
	"epoch": 2.6898954703832754,
	"grad_norm": 0.7127025723457336,
	"learning_rate": 1.1088404595333046e-05,
	"loss": 0.8753,
	"step": 1930
	},
	{
	"epoch": 2.7038327526132404,
	"grad_norm": 0.6411701440811157,
	"learning_rate": 1.101229723589485e-05,
	"loss": 0.8814,
	"step": 1940
	},
	{
	"epoch": 2.7177700348432055,
	"grad_norm": 0.5122844576835632,
	"learning_rate": 1.0936130586742881e-05,
	"loss": 0.8509,
	"step": 1950
	},
	{
	"epoch": 2.7317073170731705,
	"grad_norm": 2.784543514251709,
	"learning_rate": 1.0859909108917497e-05,
	"loss": 0.8112,
	"step": 1960
	},
	{
	"epoch": 2.745644599303136,
	"grad_norm": 0.533532977104187,
	"learning_rate": 1.0783637266670348e-05,
	"loss": 0.8479,
	"step": 1970
	},
	{
	"epoch": 2.759581881533101,
	"grad_norm": 0.5365408062934875,
	"learning_rate": 1.0707319527202902e-05,
	"loss": 0.8281,
	"step": 1980
	},
	{
	"epoch": 2.773519163763066,
	"grad_norm": 0.45295801758766174,
	"learning_rate": 1.0630960360404793e-05,
	"loss": 0.9046,
	"step": 1990
	},
	{
	"epoch": 2.7874564459930316,
	"grad_norm": 0.656039834022522,
	"learning_rate": 1.0554564238592051e-05,
	"loss": 0.8305,
	"step": 2000
	},
	{
	"epoch": 2.8013937282229966,
	"grad_norm": 0.5675934553146362,
	"learning_rate": 1.0478135636245122e-05,
	"loss": 0.8633,
	"step": 2010
	},
	{
	"epoch": 2.8153310104529616,
	"grad_norm": 0.5480667948722839,
	"learning_rate": 1.0401679029746828e-05,
	"loss": 0.8756,
	"step": 2020
	},
	{
	"epoch": 2.8292682926829267,
	"grad_norm": 0.5900964736938477,
	"learning_rate": 1.0325198897120183e-05,
	"loss": 0.8737,
	"step": 2030
	},
	{
	"epoch": 2.8432055749128917,
	"grad_norm": 0.688490092754364,
	"learning_rate": 1.0248699717766107e-05,
	"loss": 0.8425,
	"step": 2040
	},
	{
	"epoch": 2.857142857142857,
	"grad_norm": 0.5785161256790161,
	"learning_rate": 1.0172185972201082e-05,
	"loss": 0.902,
	"step": 2050
	},
	{
	"epoch": 2.8710801393728222,
	"grad_norm": 0.5259153246879578,
	"learning_rate": 1.0095662141794725e-05,
	"loss": 0.8793,
	"step": 2060
	},
	{
	"epoch": 2.8850174216027873,
	"grad_norm": 0.5888857841491699,
	"learning_rate": 1.0019132708507307e-05,
	"loss": 0.8665,
	"step": 2070
	},
	{
	"epoch": 2.8989547038327528,
	"grad_norm": 0.6237362027168274,
	"learning_rate": 9.94260215462727e-06,
	"loss": 0.8647,
	"step": 2080
	},
	{
	"epoch": 2.912891986062718,
	"grad_norm": 0.5640315413475037,
	"learning_rate": 9.866074962508684e-06,
	"loss": 0.8659,
	"step": 2090
	},
	{
	"epoch": 2.926829268292683,
	"grad_norm": 0.4334649443626404,
	"learning_rate": 9.789555614308721e-06,
	"loss": 0.8566,
	"step": 2100
	},
	{
	"epoch": 2.940766550522648,
	"grad_norm": 0.5068169832229614,
	"learning_rate": 9.713048591725138e-06,
	"loss": 0.8712,
	"step": 2110
	},
	{
	"epoch": 2.9547038327526134,
	"grad_norm": 0.5684682726860046,
	"learning_rate": 9.63655837573379e-06,
	"loss": 0.8217,
	"step": 2120
	},
	{
	"epoch": 2.9686411149825784,
	"grad_norm": 0.6925583481788635,
	"learning_rate": 9.560089446326175e-06,
	"loss": 0.8675,
	"step": 2130
	},
	{
	"epoch": 2.9825783972125435,
	"grad_norm": 0.7573685050010681,
	"learning_rate": 9.483646282247056e-06,
	"loss": 0.8369,
	"step": 2140
	},
	{
	"epoch": 2.996515679442509,
	"grad_norm": 0.598778486251831,
	"learning_rate": 9.407233360732119e-06,
	"loss": 0.8434,
	"step": 2150
	},
	{
	"epoch": 3.010452961672474,
	"grad_norm": 114.71971893310547,
	"learning_rate": 9.330855157245776e-06,
	"loss": 0.8841,
	"step": 2160
	},
	{
	"epoch": 3.024390243902439,
	"grad_norm": 0.5424976348876953,
	"learning_rate": 9.254516145219006e-06,
	"loss": 0.8653,
	"step": 2170
	},
	{
	"epoch": 3.038327526132404,
	"grad_norm": 0.48183199763298035,
	"learning_rate": 9.17822079578738e-06,
	"loss": 0.8402,
	"step": 2180
	},
	{
	"epoch": 3.052264808362369,
	"grad_norm": 0.5667704343795776,
	"learning_rate": 9.101973577529164e-06,
	"loss": 0.8357,
	"step": 2190
	},
	{
	"epoch": 3.0662020905923346,
	"grad_norm": 0.5843963027000427,
	"learning_rate": 9.025778956203611e-06,
	"loss": 0.8538,
	"step": 2200
	},
	{
	"epoch": 3.0801393728222997,
	"grad_norm": 0.5097166895866394,
	"learning_rate": 8.949641394489399e-06,
	"loss": 0.8208,
	"step": 2210
	},
	{
	"epoch": 3.0940766550522647,
	"grad_norm": 0.5178412795066833,
	"learning_rate": 8.873565351723249e-06,
	"loss": 0.9026,
	"step": 2220
	},
	{
	"epoch": 3.10801393728223,
	"grad_norm": 0.6717800498008728,
	"learning_rate": 8.79755528363876e-06,
	"loss": 0.8002,
	"step": 2230
	},
	{
	"epoch": 3.1219512195121952,
	"grad_norm": 0.81369549036026,
	"learning_rate": 8.721615642105417e-06,
	"loss": 0.8757,
	"step": 2240
	},
	{
	"epoch": 3.1358885017421603,
	"grad_norm": 0.574155867099762,
	"learning_rate": 8.645750874867876e-06,
	"loss": 0.8411,
	"step": 2250
	},
	{
	"epoch": 3.1498257839721253,
	"grad_norm": 0.4896714985370636,
	"learning_rate": 8.56996542528542e-06,
	"loss": 0.8671,
	"step": 2260
	},
	{
	"epoch": 3.1637630662020904,
	"grad_norm": 0.5032427906990051,
	"learning_rate": 8.494263732071772e-06,
	"loss": 0.8521,
	"step": 2270
	},
	{
	"epoch": 3.177700348432056,
	"grad_norm": 0.5645169615745544,
	"learning_rate": 8.418650229035054e-06,
	"loss": 0.8407,
	"step": 2280
	},
	{
	"epoch": 3.191637630662021,
	"grad_norm": 0.5049313306808472,
	"learning_rate": 8.343129344818162e-06,
	"loss": 0.853,
	"step": 2290
	},
	{
	"epoch": 3.205574912891986,
	"grad_norm": 0.5244989991188049,
	"learning_rate": 8.267705502639342e-06,
	"loss": 0.8546,
	"step": 2300
	},
	{
	"epoch": 3.2195121951219514,
	"grad_norm": 0.6323722004890442,
	"learning_rate": 8.192383120033147e-06,
	"loss": 0.8408,
	"step": 2310
	},
	{
	"epoch": 3.2334494773519165,
	"grad_norm": 0.5894546508789062,
	"learning_rate": 8.117166608591693e-06,
	"loss": 0.865,
	"step": 2320
	},
	{
	"epoch": 3.2473867595818815,
	"grad_norm": 1.284786343574524,
	"learning_rate": 8.042060373706275e-06,
	"loss": 0.8596,
	"step": 2330
	},
	{
	"epoch": 3.2613240418118465,
	"grad_norm": 0.5084718465805054,
	"learning_rate": 7.967068814309359e-06,
	"loss": 0.8377,
	"step": 2340
	},
	{
	"epoch": 3.275261324041812,
	"grad_norm": 0.5845734477043152,
	"learning_rate": 7.892196322616912e-06,
	"loss": 0.8597,
	"step": 2350
	},
	{
	"epoch": 3.289198606271777,
	"grad_norm": 0.5465214252471924,
	"learning_rate": 7.817447283871187e-06,
	"loss": 0.8584,
	"step": 2360
	},
	{
	"epoch": 3.303135888501742,
	"grad_norm": 0.5865809917449951,
	"learning_rate": 7.742826076083848e-06,
	"loss": 0.843,
	"step": 2370
	},
	{
	"epoch": 3.317073170731707,
	"grad_norm": 0.455839604139328,
	"learning_rate": 7.668337069779577e-06,
	"loss": 0.8599,
	"step": 2380
	},
	{
	"epoch": 3.3310104529616726,
	"grad_norm": 0.48517608642578125,
	"learning_rate": 7.593984627740075e-06,
	"loss": 0.8592,
	"step": 2390
	},
	{
	"epoch": 3.3449477351916377,
	"grad_norm": 0.5980703830718994,
	"learning_rate": 7.519773104748562e-06,
	"loss": 0.8673,
	"step": 2400
	},
	{
	"epoch": 3.3588850174216027,
	"grad_norm": 0.5855985879898071,
	"learning_rate": 7.4457068473346836e-06,
	"loss": 0.8518,
	"step": 2410
	},
	{
	"epoch": 3.3728222996515678,
	"grad_norm": 0.4601869583129883,
	"learning_rate": 7.371790193519979e-06,
	"loss": 0.8457,
	"step": 2420
	},
	{
	"epoch": 3.3867595818815333,
	"grad_norm": 0.5327535271644592,
	"learning_rate": 7.298027472563768e-06,
	"loss": 0.8373,
	"step": 2430
	},
	{
	"epoch": 3.4006968641114983,
	"grad_norm": 0.5465139746665955,
	"learning_rate": 7.224423004709607e-06,
	"loss": 0.8515,
	"step": 2440
	},
	{
	"epoch": 3.4146341463414633,
	"grad_norm": 0.5567154884338379,
	"learning_rate": 7.1509811009322574e-06,
	"loss": 0.8541,
	"step": 2450
	},
	{
	"epoch": 3.4285714285714284,
	"grad_norm": 0.5773440599441528,
	"learning_rate": 7.077706062685181e-06,
	"loss": 0.849,
	"step": 2460
	},
	{
	"epoch": 3.442508710801394,
	"grad_norm": 0.5186436176300049,
	"learning_rate": 7.004602181648626e-06,
	"loss": 0.8857,
	"step": 2470
	},
	{
	"epoch": 3.456445993031359,
	"grad_norm": 0.647905707359314,
	"learning_rate": 6.931673739478235e-06,
	"loss": 0.8486,
	"step": 2480
	},
	{
	"epoch": 3.470383275261324,
	"grad_norm": 0.7109155058860779,
	"learning_rate": 6.858925007554308e-06,
	"loss": 0.8703,
	"step": 2490
	},
	{
	"epoch": 3.484320557491289,
	"grad_norm": 0.5457651019096375,
	"learning_rate": 6.786360246731595e-06,
	"loss": 0.8494,
	"step": 2500
	},
	{
	"epoch": 3.4982578397212545,
	"grad_norm": 0.49579504132270813,
	"learning_rate": 6.713983707089773e-06,
	"loss": 0.848,
	"step": 2510
	},
	{
	"epoch": 3.5121951219512195,
	"grad_norm": 0.472918838262558,
	"learning_rate": 6.641799627684481e-06,
	"loss": 0.8633,
	"step": 2520
	},
	{
	"epoch": 3.5261324041811846,
	"grad_norm": 0.6405051946640015,
	"learning_rate": 6.569812236299089e-06,
	"loss": 0.8672,
	"step": 2530
	},
	{
	"epoch": 3.54006968641115,
	"grad_norm": 0.5040938258171082,
	"learning_rate": 6.498025749197036e-06,
	"loss": 0.847,
	"step": 2540
	},
	{
	"epoch": 3.554006968641115,
	"grad_norm": 0.5406576991081238,
	"learning_rate": 6.426444370874906e-06,
	"loss": 0.8291,
	"step": 2550
	},
	{
	"epoch": 3.56794425087108,
	"grad_norm": 0.47771602869033813,
	"learning_rate": 6.355072293816178e-06,
	"loss": 0.8522,
	"step": 2560
	},
	{
	"epoch": 3.581881533101045,
	"grad_norm": 0.5669821500778198,
	"learning_rate": 6.283913698245659e-06,
	"loss": 0.8316,
	"step": 2570
	},
	{
	"epoch": 3.59581881533101,
	"grad_norm": 0.6127913594245911,
	"learning_rate": 6.212972751884663e-06,
	"loss": 0.8686,
	"step": 2580
	},
	{
	"epoch": 3.6097560975609757,
	"grad_norm": 0.5714460015296936,
	"learning_rate": 6.142253609706898e-06,
	"loss": 0.8493,
	"step": 2590
	},
	{
	"epoch": 3.6236933797909407,
	"grad_norm": 0.5862120389938354,
	"learning_rate": 6.0717604136951315e-06,
	"loss": 0.8962,
	"step": 2600
	},
	{
	"epoch": 3.637630662020906,
	"grad_norm": 0.5323344469070435,
	"learning_rate": 6.001497292598566e-06,
	"loss": 0.8615,
	"step": 2610
	},
	{
	"epoch": 3.6515679442508713,
	"grad_norm": 0.5613053441047668,
	"learning_rate": 5.931468361691053e-06,
	"loss": 0.8823,
	"step": 2620
	},
	{
	"epoch": 3.6655052264808363,
	"grad_norm": 0.512625515460968,
	"learning_rate": 5.861677722530037e-06,
	"loss": 0.8505,
	"step": 2630
	},
	{
	"epoch": 3.6794425087108014,
	"grad_norm": 0.5254554152488708,
	"learning_rate": 5.792129462716355e-06,
	"loss": 0.8456,
	"step": 2640
	},
	{
	"epoch": 3.6933797909407664,
	"grad_norm": 0.5453774929046631,
	"learning_rate": 5.722827655654801e-06,
	"loss": 0.862,
	"step": 2650
	},
	{
	"epoch": 3.7073170731707314,
	"grad_norm": 0.5125150680541992,
	"learning_rate": 5.653776360315562e-06,
	"loss": 0.8497,
	"step": 2660
	},
	{
	"epoch": 3.721254355400697,
	"grad_norm": 0.5420352816581726,
	"learning_rate": 5.584979620996491e-06,
	"loss": 0.8507,
	"step": 2670
	},
	{
	"epoch": 3.735191637630662,
	"grad_norm": 0.6987497210502625,
	"learning_rate": 5.516441467086231e-06,
	"loss": 0.8596,
	"step": 2680
	},
	{
	"epoch": 3.749128919860627,
	"grad_norm": 0.6294048428535461,
	"learning_rate": 5.448165912828214e-06,
	"loss": 0.8402,
	"step": 2690
	},
	{
	"epoch": 3.7630662020905925,
	"grad_norm": 0.4914676547050476,
	"learning_rate": 5.380156957085536e-06,
	"loss": 0.8544,
	"step": 2700
	},
	{
	"epoch": 3.7770034843205575,
	"grad_norm": 0.46825504302978516,
	"learning_rate": 5.312418583106784e-06,
	"loss": 0.8307,
	"step": 2710
	},
	{
	"epoch": 3.7909407665505226,
	"grad_norm": 0.6263434290885925,
	"learning_rate": 5.244954758292691e-06,
	"loss": 0.8472,
	"step": 2720
	},
	{
	"epoch": 3.8048780487804876,
	"grad_norm": 0.6025940179824829,
	"learning_rate": 5.177769433963801e-06,
	"loss": 0.8388,
	"step": 2730
	},
	{
	"epoch": 3.818815331010453,
	"grad_norm": 0.6129311919212341,
	"learning_rate": 5.110866545129031e-06,
	"loss": 0.8647,
	"step": 2740
	},
	{
	"epoch": 3.832752613240418,
	"grad_norm": 0.5434401035308838,
	"learning_rate": 5.044250010255202e-06,
	"loss": 0.8224,
	"step": 2750
	},
	{
	"epoch": 3.846689895470383,
	"grad_norm": 0.5361849069595337,
	"learning_rate": 4.97792373103753e-06,
	"loss": 0.8677,
	"step": 2760
	},
	{
	"epoch": 3.8606271777003487,
	"grad_norm": 0.5294119715690613,
	"learning_rate": 4.911891592171113e-06,
	"loss": 0.8471,
	"step": 2770
	},
	{
	"epoch": 3.8745644599303137,
	"grad_norm": 0.3936956524848938,
	"learning_rate": 4.846157461123411e-06,
	"loss": 0.8718,
	"step": 2780
	},
	{
	"epoch": 3.8885017421602788,
	"grad_norm": 0.5664070844650269,
	"learning_rate": 4.780725187907707e-06,
	"loss": 0.8424,
	"step": 2790
	},
	{
	"epoch": 3.902439024390244,
	"grad_norm": 0.6031394600868225,
	"learning_rate": 4.715598604857648e-06,
	"loss": 0.8469,
	"step": 2800
	},
	{
	"epoch": 3.916376306620209,
	"grad_norm": 0.5560880899429321,
	"learning_rate": 4.65078152640276e-06,
	"loss": 0.8626,
	"step": 2810
	},
	{
	"epoch": 3.9303135888501743,
	"grad_norm": 0.5566712021827698,
	"learning_rate": 4.586277748845055e-06,
	"loss": 0.9251,
	"step": 2820
	},
	{
	"epoch": 3.9442508710801394,
	"grad_norm": 0.5782540440559387,
	"learning_rate": 4.5220910501366635e-06,
	"loss": 0.8321,
	"step": 2830
	},
	{
	"epoch": 3.9581881533101044,
	"grad_norm": 0.5216631889343262,
	"learning_rate": 4.458225189658598e-06,
	"loss": 0.8293,
	"step": 2840
	},
	{
	"epoch": 3.97212543554007,
	"grad_norm": 0.511968195438385,
	"learning_rate": 4.3946839080005236e-06,
	"loss": 0.8238,
	"step": 2850
	},
	{
	"epoch": 3.986062717770035,
	"grad_norm": 0.49393701553344727,
	"learning_rate": 4.331470926741707e-06,
	"loss": 0.885,
	"step": 2860
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.4580581486225128,
	"learning_rate": 4.268589948233034e-06,
	"loss": 0.8487,
	"step": 2870
	},
	{
	"epoch": 4.013937282229965,
	"grad_norm": 0.4895112216472626,
	"learning_rate": 4.2060446553801585e-06,
	"loss": 0.8222,
	"step": 2880
	},
	{
	"epoch": 4.02787456445993,
	"grad_norm": 0.5034216046333313,
	"learning_rate": 4.143838711427808e-06,
	"loss": 0.8645,
	"step": 2890
	},
	{
	"epoch": 4.041811846689895,
	"grad_norm": 0.5985310673713684,
	"learning_rate": 4.0819757597452246e-06,
	"loss": 0.8652,
	"step": 2900
	},
	{
	"epoch": 4.055749128919861,
	"grad_norm": 0.4828563332557678,
	"learning_rate": 4.020459423612777e-06,
	"loss": 0.8602,
	"step": 2910
	},
	{
	"epoch": 4.069686411149826,
	"grad_norm": 0.48318225145339966,
	"learning_rate": 3.959293306009734e-06,
	"loss": 0.8541,
	"step": 2920
	},
	{
	"epoch": 4.083623693379791,
	"grad_norm": 0.5043054223060608,
	"learning_rate": 3.89848098940326e-06,
	"loss": 0.857,
	"step": 2930
	},
	{
	"epoch": 4.097560975609756,
	"grad_norm": 0.5322110652923584,
	"learning_rate": 3.838026035538581e-06,
	"loss": 0.8419,
	"step": 2940
	},
	{
	"epoch": 4.111498257839721,
	"grad_norm": 0.7655691504478455,
	"learning_rate": 3.7779319852303766e-06,
	"loss": 0.8551,
	"step": 2950
	},
	{
	"epoch": 4.125435540069686,
	"grad_norm": 0.5095774531364441,
	"learning_rate": 3.718202358155384e-06,
	"loss": 0.838,
	"step": 2960
	},
	{
	"epoch": 4.139372822299651,
	"grad_norm": 0.5320903658866882,
	"learning_rate": 3.658840652646287e-06,
	"loss": 0.8044,
	"step": 2970
	},
	{
	"epoch": 4.153310104529616,
	"grad_norm": 0.5706301927566528,
	"learning_rate": 3.5998503454867807e-06,
	"loss": 0.858,
	"step": 2980
	},
	{
	"epoch": 4.167247386759582,
	"grad_norm": 1.014062523841858,
	"learning_rate": 3.5412348917079507e-06,
	"loss": 0.8739,
	"step": 2990
	},
	{
	"epoch": 4.181184668989547,
	"grad_norm": 0.5381621718406677,
	"learning_rate": 3.4829977243859414e-06,
	"loss": 0.8082,
	"step": 3000
	},
	{
	"epoch": 4.195121951219512,
	"grad_norm": 0.48279663920402527,
	"learning_rate": 3.425142254440835e-06,
	"loss": 0.8335,
	"step": 3010
	},
	{
	"epoch": 4.209059233449477,
	"grad_norm": 0.6682676076889038,
	"learning_rate": 3.367671870436915e-06,
	"loss": 0.8484,
	"step": 3020
	},
	{
	"epoch": 4.2229965156794425,
	"grad_norm": 0.5164760947227478,
	"learning_rate": 3.310589938384179e-06,
	"loss": 0.8228,
	"step": 3030
	},
	{
	"epoch": 4.2369337979094075,
	"grad_norm": 0.5330147743225098,
	"learning_rate": 3.253899801541206e-06,
	"loss": 0.8475,
	"step": 3040
	},
	{
	"epoch": 4.2508710801393725,
	"grad_norm": 0.5183762907981873,
	"learning_rate": 3.197604780219323e-06,
	"loss": 0.8228,
	"step": 3050
	},
	{
	"epoch": 4.264808362369338,
	"grad_norm": 0.5862233638763428,
	"learning_rate": 3.1417081715881623e-06,
	"loss": 0.8419,
	"step": 3060
	},
	{
	"epoch": 4.2787456445993035,
	"grad_norm": 0.5445356369018555,
	"learning_rate": 3.0862132494825325e-06,
	"loss": 0.875,
	"step": 3070
	},
	{
	"epoch": 4.2926829268292686,
	"grad_norm": 0.5905585885047913,
	"learning_rate": 3.0311232642106768e-06,
	"loss": 0.8548,
	"step": 3080
	},
	{
	"epoch": 4.306620209059234,
	"grad_norm": 0.5876056551933289,
	"learning_rate": 2.976441442363893e-06,
	"loss": 0.8812,
	"step": 3090
	},
	{
	"epoch": 4.320557491289199,
	"grad_norm": 0.5916198492050171,
	"learning_rate": 2.922170986627573e-06,
	"loss": 0.8289,
	"step": 3100
	},
	{
	"epoch": 4.334494773519164,
	"grad_norm": 0.555949866771698,
	"learning_rate": 2.8683150755936107e-06,
	"loss": 0.8822,
	"step": 3110
	},
	{
	"epoch": 4.348432055749129,
	"grad_norm": 0.5823965668678284,
	"learning_rate": 2.8148768635742286e-06,
	"loss": 0.8308,
	"step": 3120
	},
	{
	"epoch": 4.362369337979094,
	"grad_norm": 0.6472144722938538,
	"learning_rate": 2.761859480417255e-06,
	"loss": 0.8368,
	"step": 3130
	},
	{
	"epoch": 4.376306620209059,
	"grad_norm": 0.5416210293769836,
	"learning_rate": 2.7092660313227748e-06,
	"loss": 0.8655,
	"step": 3140
	},
	{
	"epoch": 4.390243902439025,
	"grad_norm": 0.5069013833999634,
	"learning_rate": 2.6570995966612945e-06,
	"loss": 0.8657,
	"step": 3150
	},
	{
	"epoch": 4.40418118466899,
	"grad_norm": 0.4444841146469116,
	"learning_rate": 2.605363231793302e-06,
	"loss": 0.8362,
	"step": 3160
	},
	{
	"epoch": 4.418118466898955,
	"grad_norm": 0.5552143454551697,
	"learning_rate": 2.554059966890332e-06,
	"loss": 0.8027,
	"step": 3170
	},
	{
	"epoch": 4.43205574912892,
	"grad_norm": 0.7829400897026062,
	"learning_rate": 2.503192806757474e-06,
	"loss": 0.8351,
	"step": 3180
	},
	{
	"epoch": 4.445993031358885,
	"grad_norm": 0.477295458316803,
	"learning_rate": 2.4527647306574e-06,
	"loss": 0.8102,
	"step": 3190
	},
	{
	"epoch": 4.45993031358885,
	"grad_norm": 0.5426877737045288,
	"learning_rate": 2.402778692135861e-06,
	"loss": 0.8406,
	"step": 3200
	},
	{
	"epoch": 4.473867595818815,
	"grad_norm": 0.5670856237411499,
	"learning_rate": 2.353237618848695e-06,
	"loss": 0.8258,
	"step": 3210
	},
	{
	"epoch": 4.487804878048781,
	"grad_norm": 0.4924805462360382,
	"learning_rate": 2.304144412390367e-06,
	"loss": 0.8303,
	"step": 3220
	},
	{
	"epoch": 4.501742160278746,
	"grad_norm": 0.5142589807510376,
	"learning_rate": 2.255501948124017e-06,
	"loss": 0.8714,
	"step": 3230
	},
	{
	"epoch": 4.515679442508711,
	"grad_norm": 0.546807587146759,
	"learning_rate": 2.207313075013059e-06,
	"loss": 0.8221,
	"step": 3240
	},
	{
	"epoch": 4.529616724738676,
	"grad_norm": 0.5798578858375549,
	"learning_rate": 2.1595806154542965e-06,
	"loss": 0.8625,
	"step": 3250
	},
	{
	"epoch": 4.543554006968641,
	"grad_norm": 0.567733108997345,
	"learning_rate": 2.112307365112657e-06,
	"loss": 0.8242,
	"step": 3260
	},
	{
	"epoch": 4.557491289198606,
	"grad_norm": 0.5294705033302307,
	"learning_rate": 2.065496092757403e-06,
	"loss": 0.8721,
	"step": 3270
	},
	{
	"epoch": 4.571428571428571,
	"grad_norm": 0.49266737699508667,
	"learning_rate": 2.019149540100005e-06,
	"loss": 0.8576,
	"step": 3280
	},
	{
	"epoch": 4.585365853658536,
	"grad_norm": 0.5400304198265076,
	"learning_rate": 1.973270421633543e-06,
	"loss": 0.8899,
	"step": 3290
	},
	{
	"epoch": 4.599303135888501,
	"grad_norm": 0.5392309427261353,
	"learning_rate": 1.927861424473726e-06,
	"loss": 0.8227,
	"step": 3300
	},
	{
	"epoch": 4.613240418118467,
	"grad_norm": 0.5385839343070984,
	"learning_rate": 1.882925208201498e-06,
	"loss": 0.838,
	"step": 3310
	},
	{
	"epoch": 4.627177700348432,
	"grad_norm": 0.5418098568916321,
	"learning_rate": 1.8384644047072864e-06,
	"loss": 0.8612,
	"step": 3320
	},
	{
	"epoch": 4.641114982578397,
	"grad_norm": 0.5207215547561646,
	"learning_rate": 1.7944816180368408e-06,
	"loss": 0.8356,
	"step": 3330
	},
	{
	"epoch": 4.655052264808362,
	"grad_norm": 0.9076542854309082,
	"learning_rate": 1.7509794242387135e-06,
	"loss": 0.8224,
	"step": 3340
	},
	{
	"epoch": 4.668989547038327,
	"grad_norm": 0.4973151385784149,
	"learning_rate": 1.7079603712133908e-06,
	"loss": 0.8678,
	"step": 3350
	},
	{
	"epoch": 4.682926829268292,
	"grad_norm": 0.5431068539619446,
	"learning_rate": 1.6654269785640608e-06,
	"loss": 0.8467,
	"step": 3360
	},
	{
	"epoch": 4.696864111498257,
	"grad_norm": 0.4680764079093933,
	"learning_rate": 1.623381737449038e-06,
	"loss": 0.8364,
	"step": 3370
	},
	{
	"epoch": 4.710801393728223,
	"grad_norm": 0.507692813873291,
	"learning_rate": 1.5818271104358574e-06,
	"loss": 0.8854,
	"step": 3380
	},
	{
	"epoch": 4.724738675958188,
	"grad_norm": 0.758124828338623,
	"learning_rate": 1.5407655313570525e-06,
	"loss": 0.8534,
	"step": 3390
	},
	{
	"epoch": 4.7386759581881535,
	"grad_norm": 0.6623209118843079,
	"learning_rate": 1.5001994051675894e-06,
	"loss": 0.8814,
	"step": 3400
	},
	{
	"epoch": 4.7526132404181185,
	"grad_norm": 0.5073679089546204,
	"learning_rate": 1.4601311078040304e-06,
	"loss": 0.8457,
	"step": 3410
	},
	{
	"epoch": 4.7665505226480835,
	"grad_norm": 0.500339150428772,
	"learning_rate": 1.4205629860453641e-06,
	"loss": 0.842,
	"step": 3420
	},
	{
	"epoch": 4.780487804878049,
	"grad_norm": 0.8517163395881653,
	"learning_rate": 1.3814973573755518e-06,
	"loss": 0.8982,
	"step": 3430
	},
	{
	"epoch": 4.794425087108014,
	"grad_norm": 0.5409610867500305,
	"learning_rate": 1.3429365098478087e-06,
	"loss": 0.8492,
	"step": 3440
	},
	{
	"epoch": 4.80836236933798,
	"grad_norm": 0.5923708081245422,
	"learning_rate": 1.3048827019505828e-06,
	"loss": 0.8548,
	"step": 3450
	},
	{
	"epoch": 4.822299651567945,
	"grad_norm": 0.4563385844230652,
	"learning_rate": 1.2673381624752813e-06,
	"loss": 0.8518,
	"step": 3460
	},
	{
	"epoch": 4.83623693379791,
	"grad_norm": 0.89119553565979,
	"learning_rate": 1.2303050903857195e-06,
	"loss": 0.8355,
	"step": 3470
	},
	{
	"epoch": 4.850174216027875,
	"grad_norm": 0.5999810695648193,
	"learning_rate": 1.1937856546893533e-06,
	"loss": 0.8347,
	"step": 3480
	},
	{
	"epoch": 4.86411149825784,
	"grad_norm": 0.6495084166526794,
	"learning_rate": 1.1577819943102132e-06,
	"loss": 0.7981,
	"step": 3490
	},
	{
	"epoch": 4.878048780487805,
	"grad_norm": 0.5115063190460205,
	"learning_rate": 1.122296217963651e-06,
	"loss": 0.8321,
	"step": 3500
	},
	{
	"epoch": 4.89198606271777,
	"grad_norm": 0.5369818806648254,
	"learning_rate": 1.0873304040328193e-06,
	"loss": 0.8499,
	"step": 3510
	},
	{
	"epoch": 4.905923344947735,
	"grad_norm": 0.523055374622345,
	"learning_rate": 1.052886600446954e-06,
	"loss": 0.8561,
	"step": 3520
	},
	{
	"epoch": 4.9198606271777,
	"grad_norm": 0.6084771156311035,
	"learning_rate": 1.0189668245614092e-06,
	"loss": 0.854,
	"step": 3530
	},
	{
	"epoch": 4.933797909407666,
	"grad_norm": 0.4877120852470398,
	"learning_rate": 9.855730630395244e-07,
	"loss": 0.8161,
	"step": 3540
	},
	{
	"epoch": 4.947735191637631,
	"grad_norm": 0.6254660487174988,
	"learning_rate": 9.52707271736254e-07,
	"loss": 0.8705,
	"step": 3550
	},
	{
	"epoch": 4.961672473867596,
	"grad_norm": 0.6138275861740112,
	"learning_rate": 9.203713755836108e-07,
	"loss": 0.8599,
	"step": 3560
	},
	{
	"epoch": 4.975609756097561,
	"grad_norm": 0.5839621424674988,
	"learning_rate": 8.885672684779345e-07,
	"loss": 0.8536,
	"step": 3570
	},
	{
	"epoch": 4.989547038327526,
	"grad_norm": 0.544059157371521,
	"learning_rate": 8.572968131689585e-07,
	"loss": 0.8536,
	"step": 3580
	},
	{
	"epoch": 5.003484320557491,
	"grad_norm": 0.5101696848869324,
	"learning_rate": 8.265618411507148e-07,
	"loss": 0.84,
	"step": 3590
	},
	{
	"epoch": 5.017421602787456,
	"grad_norm": 0.5106877684593201,
	"learning_rate": 7.963641525542564e-07,
	"loss": 0.8752,
	"step": 3600
	},
	{
	"epoch": 5.031358885017422,
	"grad_norm": 0.5784628391265869,
	"learning_rate": 7.667055160422432e-07,
	"loss": 0.8417,
	"step": 3610
	},
	{
	"epoch": 5.045296167247387,
	"grad_norm": 0.5501140356063843,
	"learning_rate": 7.375876687053252e-07,
	"loss": 0.8473,
	"step": 3620
	},
	{
	"epoch": 5.059233449477352,
	"grad_norm": 0.4966902434825897,
	"learning_rate": 7.090123159604234e-07,
	"loss": 0.8414,
	"step": 3630
	},
	{
	"epoch": 5.073170731707317,
	"grad_norm": 0.769673764705658,
	"learning_rate": 6.809811314508386e-07,
	"loss": 0.8604,
	"step": 3640
	},
	{
	"epoch": 5.087108013937282,
	"grad_norm": 0.55353182554245,
	"learning_rate": 6.534957569482214e-07,
	"loss": 0.8601,
	"step": 3650
	},
	{
	"epoch": 5.101045296167247,
	"grad_norm": 0.6018425822257996,
	"learning_rate": 6.265578022564233e-07,
	"loss": 0.8661,
	"step": 3660
	},
	{
	"epoch": 5.114982578397212,
	"grad_norm": 0.534132182598114,
	"learning_rate": 6.001688451172027e-07,
	"loss": 0.8218,
	"step": 3670
	},
	{
	"epoch": 5.128919860627177,
	"grad_norm": 0.5793606042861938,
	"learning_rate": 5.743304311178289e-07,
	"loss": 0.8399,
	"step": 3680
	},
	{
	"epoch": 5.142857142857143,
	"grad_norm": 0.6463719010353088,
	"learning_rate": 5.490440736005397e-07,
	"loss": 0.8249,
	"step": 3690
	},
	{
	"epoch": 5.156794425087108,
	"grad_norm": 0.5509739518165588,
	"learning_rate": 5.24311253573927e-07,
	"loss": 0.8125,
	"step": 3700
	},
	{
	"epoch": 5.170731707317073,
	"grad_norm": 0.4920913279056549,
	"learning_rate": 5.001334196261776e-07,
	"loss": 0.8701,
	"step": 3710
	},
	{
	"epoch": 5.184668989547038,
	"grad_norm": 0.5054136514663696,
	"learning_rate": 4.765119878402424e-07,
	"loss": 0.8548,
	"step": 3720
	},
	{
	"epoch": 5.198606271777003,
	"grad_norm": 0.5016888380050659,
	"learning_rate": 4.5344834171088594e-07,
	"loss": 0.837,
	"step": 3730
	},
	{
	"epoch": 5.2125435540069684,
	"grad_norm": 0.5839513540267944,
	"learning_rate": 4.309438320636705e-07,
	"loss": 0.8781,
	"step": 3740
	},
	{
	"epoch": 5.2264808362369335,
	"grad_norm": 0.5476316213607788,
	"learning_rate": 4.089997769758225e-07,
	"loss": 0.8616,
	"step": 3750
	},
	{
	"epoch": 5.2404181184668985,
	"grad_norm": 0.562765896320343,
	"learning_rate": 3.876174616990402e-07,
	"loss": 0.8614,
	"step": 3760
	},
	{
	"epoch": 5.2543554006968645,
	"grad_norm": 0.5283138751983643,
	"learning_rate": 3.6679813858422673e-07,
	"loss": 0.8013,
	"step": 3770
	},
	{
	"epoch": 5.2682926829268295,
	"grad_norm": 0.4689981937408447,
	"learning_rate": 3.46543027008126e-07,
	"loss": 0.7839,
	"step": 3780
	},
	{
	"epoch": 5.2822299651567945,
	"grad_norm": 0.46892431378364563,
	"learning_rate": 3.2685331330190916e-07,
	"loss": 0.8268,
	"step": 3790
	},
	{
	"epoch": 5.29616724738676,
	"grad_norm": 0.5027751326560974,
	"learning_rate": 3.0773015068169876e-07,
	"loss": 0.8209,
	"step": 3800
	},
	{
	"epoch": 5.310104529616725,
	"grad_norm": 0.6267147660255432,
	"learning_rate": 2.891746591810152e-07,
	"loss": 0.8121,
	"step": 3810
	},
	{
	"epoch": 5.32404181184669,
	"grad_norm": 0.5063154697418213,
	"learning_rate": 2.7118792558518237e-07,
	"loss": 0.8622,
	"step": 3820
	},
	{
	"epoch": 5.337979094076655,
	"grad_norm": 0.5375659465789795,
	"learning_rate": 2.5377100336767547e-07,
	"loss": 0.8033,
	"step": 3830
	},
	{
	"epoch": 5.351916376306621,
	"grad_norm": 0.5449223518371582,
	"learning_rate": 2.3692491262841788e-07,
	"loss": 0.848,
	"step": 3840
	},
	{
	"epoch": 5.365853658536586,
	"grad_norm": 0.5025774240493774,
	"learning_rate": 2.206506400340369e-07,
	"loss": 0.8403,
	"step": 3850
	},
	{
	"epoch": 5.379790940766551,
	"grad_norm": 0.4367560148239136,
	"learning_rate": 2.0494913876007105e-07,
	"loss": 0.8539,
	"step": 3860
	},
	{
	"epoch": 5.393728222996516,
	"grad_norm": 0.5829946994781494,
	"learning_rate": 1.8982132843514577e-07,
	"loss": 0.8371,
	"step": 3870
	},
	{
	"epoch": 5.407665505226481,
	"grad_norm": 0.5280970931053162,
	"learning_rate": 1.752680950871144e-07,
	"loss": 0.8705,
	"step": 3880
	},
	{
	"epoch": 5.421602787456446,
	"grad_norm": 0.5541146993637085,
	"learning_rate": 1.6129029109115401e-07,
	"loss": 0.8514,
	"step": 3890
	},
	{
	"epoch": 5.435540069686411,
	"grad_norm": 0.5944886207580566,
	"learning_rate": 1.4788873511985656e-07,
	"loss": 0.8545,
	"step": 3900
	},
	{
	"epoch": 5.449477351916376,
	"grad_norm": 0.5219863653182983,
	"learning_rate": 1.350642120952661e-07,
	"loss": 0.9,
	"step": 3910
	},
	{
	"epoch": 5.463414634146342,
	"grad_norm": 0.5505541563034058,
	"learning_rate": 1.2281747314291437e-07,
	"loss": 0.8239,
	"step": 3920
	},
	{
	"epoch": 5.477351916376307,
	"grad_norm": 0.551377534866333,
	"learning_rate": 1.1114923554782608e-07,
	"loss": 0.8817,
	"step": 3930
	},
	{
	"epoch": 5.491289198606272,
	"grad_norm": 0.5536546111106873,
	"learning_rate": 1.0006018271250695e-07,
	"loss": 0.8719,
	"step": 3940
	},
	{
	"epoch": 5.505226480836237,
	"grad_norm": 0.48071563243865967,
	"learning_rate": 8.955096411691566e-08,
	"loss": 0.8517,
	"step": 3950
	},
	{
	"epoch": 5.519163763066202,
	"grad_norm": 0.5239782929420471,
	"learning_rate": 7.962219528042991e-08,
	"loss": 0.8284,
	"step": 3960
	},
	{
	"epoch": 5.533101045296167,
	"grad_norm": 0.5262070298194885,
	"learning_rate": 7.027445772578856e-08,
	"loss": 0.8277,
	"step": 3970
	},
	{
	"epoch": 5.547038327526132,
	"grad_norm": 0.5303363800048828,
	"learning_rate": 6.150829894503662e-08,
	"loss": 0.8648,
	"step": 3980
	},
	{
	"epoch": 5.560975609756097,
	"grad_norm": 0.5235099196434021,
	"learning_rate": 5.332423236745765e-08,
	"loss": 0.8722,
	"step": 3990
	},
	{
	"epoch": 5.574912891986063,
	"grad_norm": 0.5281161665916443,
	"learning_rate": 4.5722737329505495e-08,
	"loss": 0.8452,
	"step": 4000
	},
	{
	"epoch": 5.588850174216028,
	"grad_norm": 0.6809967756271362,
	"learning_rate": 3.870425904672237e-08,
	"loss": 0.8571,
	"step": 4010
	},
	{
	"epoch": 5.602787456445993,
	"grad_norm": 0.5919767618179321,
	"learning_rate": 3.22692085876708e-08,
	"loss": 0.8392,
	"step": 4020
	},
	{
	"epoch": 5.616724738675958,
	"grad_norm": 0.5929062962532043,
	"learning_rate": 2.6417962849852875e-08,
	"loss": 0.7991,
	"step": 4030
	},
	{
	"epoch": 5.630662020905923,
	"grad_norm": 85.85006713867188,
	"learning_rate": 2.1150864537636817e-08,
	"loss": 0.8357,
	"step": 4040
	},
	{
	"epoch": 5.644599303135888,
	"grad_norm": 0.5508357286453247,
	"learning_rate": 1.646822214218524e-08,
	"loss": 0.8502,
	"step": 4050
	},
	{
	"epoch": 5.658536585365853,
	"grad_norm": 0.5149642825126648,
	"learning_rate": 1.2370309923388501e-08,
	"loss": 0.8546,
	"step": 4060
	},
	{
	"epoch": 5.672473867595819,
	"grad_norm": 0.601134181022644,
	"learning_rate": 8.857367893796431e-09,
	"loss": 0.8809,
	"step": 4070
	},
	{
	"epoch": 5.686411149825784,
	"grad_norm": 0.6303636431694031,
	"learning_rate": 5.929601804566254e-09,
	"loss": 0.8678,
	"step": 4080
	},
	{
	"epoch": 5.700348432055749,
	"grad_norm": 0.5462765097618103,
	"learning_rate": 3.5871831334099992e-09,
	"loss": 0.843,
	"step": 4090
	},
	{
	"epoch": 5.714285714285714,
	"grad_norm": 0.6144183278083801,
	"learning_rate": 1.8302490745503166e-09,
	"loss": 0.8146,
	"step": 4100
	},
	{
	"epoch": 5.7282229965156795,
	"grad_norm": 0.5314708352088928,
	"learning_rate": 6.589025306869002e-10,
	"loss": 0.8237,
	"step": 4110
	},
	{
	"epoch": 5.7421602787456445,
	"grad_norm": 0.56773841381073,
	"learning_rate": 7.321210696464853e-11,
	"loss": 0.8358,
	"step": 4120
	}
	],
	"logging_steps": 10,
	"max_steps": 4125,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 6,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5.88632668766208e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}