german-babylm-mix-bpe / trainer_state.json

Upload 11 files

09a4db5 verified 19 days ago

78.1 kB

	{
	"best_metric": 4.381021022796631,
	"best_model_checkpoint": "/Users/bbunzeck/Documents/german-llamas/cxn-llamas/mix-bpe/checkpoint-3906",
	"epoch": 0.9998557456507313,
	"eval_steps": 434,
	"global_step": 4332,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.002308069588298087,
	"grad_norm": 1.293995976448059,
	"learning_rate": 1.4999999999999999e-05,
	"loss": 8.3864,
	"step": 10
	},
	{
	"epoch": 0.004616139176596174,
	"grad_norm": 1.6057629585266113,
	"learning_rate": 2.9999999999999997e-05,
	"loss": 8.3534,
	"step": 20
	},
	{
	"epoch": 0.006924208764894262,
	"grad_norm": 1.8857852220535278,
	"learning_rate": 4.4999999999999996e-05,
	"loss": 8.2432,
	"step": 30
	},
	{
	"epoch": 0.009232278353192349,
	"grad_norm": 1.6119285821914673,
	"learning_rate": 5.9999999999999995e-05,
	"loss": 8.0835,
	"step": 40
	},
	{
	"epoch": 0.011540347941490435,
	"grad_norm": 1.474076747894287,
	"learning_rate": 7.5e-05,
	"loss": 7.8521,
	"step": 50
	},
	{
	"epoch": 0.013848417529788524,
	"grad_norm": 1.3890337944030762,
	"learning_rate": 8.999999999999999e-05,
	"loss": 7.6704,
	"step": 60
	},
	{
	"epoch": 0.01615648711808661,
	"grad_norm": 1.7293298244476318,
	"learning_rate": 0.00010499999999999999,
	"loss": 7.4797,
	"step": 70
	},
	{
	"epoch": 0.018464556706384697,
	"grad_norm": 1.161170244216919,
	"learning_rate": 0.00011999999999999999,
	"loss": 7.2628,
	"step": 80
	},
	{
	"epoch": 0.020772626294682784,
	"grad_norm": 1.2024428844451904,
	"learning_rate": 0.000135,
	"loss": 7.0311,
	"step": 90
	},
	{
	"epoch": 0.02308069588298087,
	"grad_norm": 0.9382893443107605,
	"learning_rate": 0.00015,
	"loss": 6.79,
	"step": 100
	},
	{
	"epoch": 0.025388765471278957,
	"grad_norm": 0.9623205661773682,
	"learning_rate": 0.000165,
	"loss": 6.6329,
	"step": 110
	},
	{
	"epoch": 0.027696835059577048,
	"grad_norm": 0.5374640822410583,
	"learning_rate": 0.00017999999999999998,
	"loss": 6.4776,
	"step": 120
	},
	{
	"epoch": 0.030004904647875134,
	"grad_norm": 0.37330469489097595,
	"learning_rate": 0.000195,
	"loss": 6.4591,
	"step": 130
	},
	{
	"epoch": 0.03231297423617322,
	"grad_norm": 0.4222196340560913,
	"learning_rate": 0.00020999999999999998,
	"loss": 6.4463,
	"step": 140
	},
	{
	"epoch": 0.03462104382447131,
	"grad_norm": 0.4244931638240814,
	"learning_rate": 0.000225,
	"loss": 6.4109,
	"step": 150
	},
	{
	"epoch": 0.036929113412769395,
	"grad_norm": 0.5667627453804016,
	"learning_rate": 0.00023999999999999998,
	"loss": 6.3945,
	"step": 160
	},
	{
	"epoch": 0.03923718300106748,
	"grad_norm": 0.4752316474914551,
	"learning_rate": 0.00025499999999999996,
	"loss": 6.3878,
	"step": 170
	},
	{
	"epoch": 0.04154525258936557,
	"grad_norm": 0.5644646883010864,
	"learning_rate": 0.00027,
	"loss": 6.3093,
	"step": 180
	},
	{
	"epoch": 0.043853322177663655,
	"grad_norm": 0.6428855657577515,
	"learning_rate": 0.000285,
	"loss": 6.3548,
	"step": 190
	},
	{
	"epoch": 0.04616139176596174,
	"grad_norm": 0.8332350850105286,
	"learning_rate": 0.0003,
	"loss": 6.2497,
	"step": 200
	},
	{
	"epoch": 0.04846946135425983,
	"grad_norm": 0.8160709142684937,
	"learning_rate": 0.0002999956645089803,
	"loss": 6.1748,
	"step": 210
	},
	{
	"epoch": 0.050777530942557915,
	"grad_norm": 0.7665246725082397,
	"learning_rate": 0.000299982658286541,
	"loss": 6.1079,
	"step": 220
	},
	{
	"epoch": 0.05308560053085601,
	"grad_norm": 0.7429030537605286,
	"learning_rate": 0.00029996098208452687,
	"loss": 6.032,
	"step": 230
	},
	{
	"epoch": 0.055393670119154095,
	"grad_norm": 0.9278781414031982,
	"learning_rate": 0.0002999306371559644,
	"loss": 6.023,
	"step": 240
	},
	{
	"epoch": 0.05770173970745218,
	"grad_norm": 0.7202680706977844,
	"learning_rate": 0.00029989162525498905,
	"loss": 5.9386,
	"step": 250
	},
	{
	"epoch": 0.06000980929575027,
	"grad_norm": 0.7615482807159424,
	"learning_rate": 0.000299843948636744,
	"loss": 5.8888,
	"step": 260
	},
	{
	"epoch": 0.062317878884048356,
	"grad_norm": 0.7727493643760681,
	"learning_rate": 0.00029978761005725014,
	"loss": 5.8483,
	"step": 270
	},
	{
	"epoch": 0.06462594847234644,
	"grad_norm": 0.8060325980186462,
	"learning_rate": 0.0002997226127732461,
	"loss": 5.8168,
	"step": 280
	},
	{
	"epoch": 0.06693401806064453,
	"grad_norm": 0.801364541053772,
	"learning_rate": 0.0002996489605420004,
	"loss": 5.7915,
	"step": 290
	},
	{
	"epoch": 0.06924208764894262,
	"grad_norm": 0.6761994957923889,
	"learning_rate": 0.0002995666576210942,
	"loss": 5.816,
	"step": 300
	},
	{
	"epoch": 0.0715501572372407,
	"grad_norm": 0.854761004447937,
	"learning_rate": 0.0002994757087681753,
	"loss": 5.7237,
	"step": 310
	},
	{
	"epoch": 0.07385822682553879,
	"grad_norm": 0.810724675655365,
	"learning_rate": 0.0002993761192406826,
	"loss": 5.6849,
	"step": 320
	},
	{
	"epoch": 0.07616629641383688,
	"grad_norm": 0.7817623615264893,
	"learning_rate": 0.000299267894795543,
	"loss": 5.6347,
	"step": 330
	},
	{
	"epoch": 0.07847436600213496,
	"grad_norm": 0.7851743698120117,
	"learning_rate": 0.0002991510416888378,
	"loss": 5.5995,
	"step": 340
	},
	{
	"epoch": 0.08078243559043305,
	"grad_norm": 0.736893355846405,
	"learning_rate": 0.0002990255666754418,
	"loss": 5.6445,
	"step": 350
	},
	{
	"epoch": 0.08309050517873114,
	"grad_norm": 0.8936936855316162,
	"learning_rate": 0.00029889147700863205,
	"loss": 5.6018,
	"step": 360
	},
	{
	"epoch": 0.08539857476702922,
	"grad_norm": 0.852159857749939,
	"learning_rate": 0.00029874878043966926,
	"loss": 5.5471,
	"step": 370
	},
	{
	"epoch": 0.08770664435532731,
	"grad_norm": 0.7617043256759644,
	"learning_rate": 0.0002985974852173493,
	"loss": 5.5397,
	"step": 380
	},
	{
	"epoch": 0.0900147139436254,
	"grad_norm": 0.7751661539077759,
	"learning_rate": 0.0002984376000875267,
	"loss": 5.4445,
	"step": 390
	},
	{
	"epoch": 0.09232278353192348,
	"grad_norm": 0.8484746813774109,
	"learning_rate": 0.00029826913429260843,
	"loss": 5.4171,
	"step": 400
	},
	{
	"epoch": 0.09463085312022157,
	"grad_norm": 0.885892391204834,
	"learning_rate": 0.0002980920975710206,
	"loss": 5.4414,
	"step": 410
	},
	{
	"epoch": 0.09693892270851966,
	"grad_norm": 0.8213350176811218,
	"learning_rate": 0.0002979065001566447,
	"loss": 5.4237,
	"step": 420
	},
	{
	"epoch": 0.09924699229681774,
	"grad_norm": 0.839364767074585,
	"learning_rate": 0.00029771235277822633,
	"loss": 5.4203,
	"step": 430
	},
	{
	"epoch": 0.10017022013213699,
	"eval_loss": 5.607814311981201,
	"eval_runtime": 38.9963,
	"eval_samples_per_second": 641.087,
	"eval_steps_per_second": 80.136,
	"step": 434
	},
	{
	"epoch": 0.10155506188511583,
	"grad_norm": 0.8963534832000732,
	"learning_rate": 0.0002975096666587551,
	"loss": 5.3826,
	"step": 440
	},
	{
	"epoch": 0.10386313147341392,
	"grad_norm": 0.9185658097267151,
	"learning_rate": 0.0002972984535148157,
	"loss": 5.3868,
	"step": 450
	},
	{
	"epoch": 0.10617120106171202,
	"grad_norm": 0.9081022143363953,
	"learning_rate": 0.0002970787255559106,
	"loss": 5.4027,
	"step": 460
	},
	{
	"epoch": 0.1084792706500101,
	"grad_norm": 0.8252591490745544,
	"learning_rate": 0.00029685049548375426,
	"loss": 5.3417,
	"step": 470
	},
	{
	"epoch": 0.11078734023830819,
	"grad_norm": 0.8946505784988403,
	"learning_rate": 0.0002966137764915393,
	"loss": 5.2916,
	"step": 480
	},
	{
	"epoch": 0.11309540982660628,
	"grad_norm": 0.8276567459106445,
	"learning_rate": 0.00029636858226317304,
	"loss": 5.2734,
	"step": 490
	},
	{
	"epoch": 0.11540347941490436,
	"grad_norm": 0.8609122037887573,
	"learning_rate": 0.00029611492697248726,
	"loss": 5.3293,
	"step": 500
	},
	{
	"epoch": 0.11771154900320245,
	"grad_norm": 0.9473890662193298,
	"learning_rate": 0.0002958528252824184,
	"loss": 5.3,
	"step": 510
	},
	{
	"epoch": 0.12001961859150054,
	"grad_norm": 0.8542040586471558,
	"learning_rate": 0.0002955822923441601,
	"loss": 5.2721,
	"step": 520
	},
	{
	"epoch": 0.12232768817979862,
	"grad_norm": 0.8030778169631958,
	"learning_rate": 0.00029530334379628735,
	"loss": 5.2909,
	"step": 530
	},
	{
	"epoch": 0.12463575776809671,
	"grad_norm": 0.8569799065589905,
	"learning_rate": 0.0002950159957638525,
	"loss": 5.2491,
	"step": 540
	},
	{
	"epoch": 0.12694382735639478,
	"grad_norm": 0.8883563280105591,
	"learning_rate": 0.00029472026485745297,
	"loss": 5.1771,
	"step": 550
	},
	{
	"epoch": 0.12925189694469288,
	"grad_norm": 0.9277822971343994,
	"learning_rate": 0.00029441616817227145,
	"loss": 5.1982,
	"step": 560
	},
	{
	"epoch": 0.13155996653299096,
	"grad_norm": 0.888548731803894,
	"learning_rate": 0.0002941037232870871,
	"loss": 5.2259,
	"step": 570
	},
	{
	"epoch": 0.13386803612128906,
	"grad_norm": 0.8762586712837219,
	"learning_rate": 0.00029378294826325993,
	"loss": 5.2699,
	"step": 580
	},
	{
	"epoch": 0.13617610570958713,
	"grad_norm": 1.1397993564605713,
	"learning_rate": 0.0002934538616436863,
	"loss": 5.2092,
	"step": 590
	},
	{
	"epoch": 0.13848417529788523,
	"grad_norm": 0.8557673096656799,
	"learning_rate": 0.0002931164824517275,
	"loss": 5.2417,
	"step": 600
	},
	{
	"epoch": 0.14079224488618333,
	"grad_norm": 0.8277891874313354,
	"learning_rate": 0.00029277083019010945,
	"loss": 5.16,
	"step": 610
	},
	{
	"epoch": 0.1431003144744814,
	"grad_norm": 0.8815522193908691,
	"learning_rate": 0.00029241692483979593,
	"loss": 5.1709,
	"step": 620
	},
	{
	"epoch": 0.1454083840627795,
	"grad_norm": 0.9206939339637756,
	"learning_rate": 0.0002920547868588331,
	"loss": 5.1484,
	"step": 630
	},
	{
	"epoch": 0.14771645365107758,
	"grad_norm": 0.8649567365646362,
	"learning_rate": 0.00029168443718116725,
	"loss": 5.1292,
	"step": 640
	},
	{
	"epoch": 0.15002452323937568,
	"grad_norm": 0.8811323642730713,
	"learning_rate": 0.00029130589721543433,
	"loss": 5.1518,
	"step": 650
	},
	{
	"epoch": 0.15233259282767375,
	"grad_norm": 0.8579047918319702,
	"learning_rate": 0.0002909191888437227,
	"loss": 5.0781,
	"step": 660
	},
	{
	"epoch": 0.15464066241597185,
	"grad_norm": 0.9432843923568726,
	"learning_rate": 0.00029052433442030797,
	"loss": 5.1191,
	"step": 670
	},
	{
	"epoch": 0.15694873200426993,
	"grad_norm": 0.8163111805915833,
	"learning_rate": 0.00029012135677036077,
	"loss": 5.0546,
	"step": 680
	},
	{
	"epoch": 0.15925680159256803,
	"grad_norm": 0.8901731967926025,
	"learning_rate": 0.00028971027918862777,
	"loss": 5.0731,
	"step": 690
	},
	{
	"epoch": 0.1615648711808661,
	"grad_norm": 0.9626258015632629,
	"learning_rate": 0.00028929112543808435,
	"loss": 5.0357,
	"step": 700
	},
	{
	"epoch": 0.1638729407691642,
	"grad_norm": 0.898350179195404,
	"learning_rate": 0.0002888639197485614,
	"loss": 5.1027,
	"step": 710
	},
	{
	"epoch": 0.16618101035746227,
	"grad_norm": 0.9431145787239075,
	"learning_rate": 0.00028842868681534486,
	"loss": 4.9996,
	"step": 720
	},
	{
	"epoch": 0.16848907994576037,
	"grad_norm": 0.8631531596183777,
	"learning_rate": 0.0002879854517977475,
	"loss": 5.0532,
	"step": 730
	},
	{
	"epoch": 0.17079714953405845,
	"grad_norm": 0.9095075726509094,
	"learning_rate": 0.0002875342403176553,
	"loss": 5.0117,
	"step": 740
	},
	{
	"epoch": 0.17310521912235655,
	"grad_norm": 0.8849276304244995,
	"learning_rate": 0.00028707507845804575,
	"loss": 4.997,
	"step": 750
	},
	{
	"epoch": 0.17541328871065462,
	"grad_norm": 1.015526533126831,
	"learning_rate": 0.00028660799276148053,
	"loss": 5.017,
	"step": 760
	},
	{
	"epoch": 0.17772135829895272,
	"grad_norm": 0.9242818355560303,
	"learning_rate": 0.00028613301022857086,
	"loss": 5.0325,
	"step": 770
	},
	{
	"epoch": 0.1800294278872508,
	"grad_norm": 0.871295154094696,
	"learning_rate": 0.0002856501583164168,
	"loss": 5.0235,
	"step": 780
	},
	{
	"epoch": 0.1823374974755489,
	"grad_norm": 0.9293336868286133,
	"learning_rate": 0.0002851594649370201,
	"loss": 5.0311,
	"step": 790
	},
	{
	"epoch": 0.18464556706384697,
	"grad_norm": 0.8775876760482788,
	"learning_rate": 0.00028466095845567057,
	"loss": 5.0069,
	"step": 800
	},
	{
	"epoch": 0.18695363665214507,
	"grad_norm": 0.9968228340148926,
	"learning_rate": 0.0002841546676893065,
	"loss": 4.9595,
	"step": 810
	},
	{
	"epoch": 0.18926170624044314,
	"grad_norm": 0.9142509698867798,
	"learning_rate": 0.000283640621904849,
	"loss": 4.9601,
	"step": 820
	},
	{
	"epoch": 0.19156977582874124,
	"grad_norm": 0.863057017326355,
	"learning_rate": 0.0002831188508175096,
	"loss": 4.9811,
	"step": 830
	},
	{
	"epoch": 0.1938778454170393,
	"grad_norm": 0.8651947379112244,
	"learning_rate": 0.00028258938458907334,
	"loss": 4.9288,
	"step": 840
	},
	{
	"epoch": 0.1961859150053374,
	"grad_norm": 0.8541522026062012,
	"learning_rate": 0.0002820522538261545,
	"loss": 4.9037,
	"step": 850
	},
	{
	"epoch": 0.1984939845936355,
	"grad_norm": 0.9082189202308655,
	"learning_rate": 0.0002815074895784278,
	"loss": 4.8757,
	"step": 860
	},
	{
	"epoch": 0.20034044026427397,
	"eval_loss": 5.134793758392334,
	"eval_runtime": 39.0568,
	"eval_samples_per_second": 640.093,
	"eval_steps_per_second": 80.012,
	"step": 868
	},
	{
	"epoch": 0.2008020541819336,
	"grad_norm": 0.8799365162849426,
	"learning_rate": 0.0002809551233368332,
	"loss": 4.942,
	"step": 870
	},
	{
	"epoch": 0.20311012377023166,
	"grad_norm": 0.9927550554275513,
	"learning_rate": 0.00028039518703175577,
	"loss": 4.8919,
	"step": 880
	},
	{
	"epoch": 0.20541819335852976,
	"grad_norm": 0.9068810343742371,
	"learning_rate": 0.00027982771303117996,
	"loss": 4.9315,
	"step": 890
	},
	{
	"epoch": 0.20772626294682783,
	"grad_norm": 0.975292980670929,
	"learning_rate": 0.000279252734138818,
	"loss": 4.919,
	"step": 900
	},
	{
	"epoch": 0.21003433253512593,
	"grad_norm": 0.8984159231185913,
	"learning_rate": 0.0002786702835922144,
	"loss": 4.8989,
	"step": 910
	},
	{
	"epoch": 0.21234240212342403,
	"grad_norm": 0.9731834530830383,
	"learning_rate": 0.0002780803950608239,
	"loss": 4.8991,
	"step": 920
	},
	{
	"epoch": 0.2146504717117221,
	"grad_norm": 0.932558536529541,
	"learning_rate": 0.00027748310264406564,
	"loss": 4.8866,
	"step": 930
	},
	{
	"epoch": 0.2169585413000202,
	"grad_norm": 0.9369585514068604,
	"learning_rate": 0.00027687844086935176,
	"loss": 4.8829,
	"step": 940
	},
	{
	"epoch": 0.21926661088831828,
	"grad_norm": 0.9317886829376221,
	"learning_rate": 0.0002762664446900914,
	"loss": 4.8399,
	"step": 950
	},
	{
	"epoch": 0.22157468047661638,
	"grad_norm": 0.9692897796630859,
	"learning_rate": 0.00027564714948367046,
	"loss": 4.8339,
	"step": 960
	},
	{
	"epoch": 0.22388275006491445,
	"grad_norm": 0.912087082862854,
	"learning_rate": 0.0002750205910494064,
	"loss": 4.8176,
	"step": 970
	},
	{
	"epoch": 0.22619081965321255,
	"grad_norm": 0.9403560757637024,
	"learning_rate": 0.00027438680560647877,
	"loss": 4.8227,
	"step": 980
	},
	{
	"epoch": 0.22849888924151063,
	"grad_norm": 0.9240433573722839,
	"learning_rate": 0.0002737458297918355,
	"loss": 4.8053,
	"step": 990
	},
	{
	"epoch": 0.23080695882980873,
	"grad_norm": 0.9296719431877136,
	"learning_rate": 0.000273097700658075,
	"loss": 4.8571,
	"step": 1000
	},
	{
	"epoch": 0.2331150284181068,
	"grad_norm": 0.9312313199043274,
	"learning_rate": 0.0002724424556713046,
	"loss": 4.8177,
	"step": 1010
	},
	{
	"epoch": 0.2354230980064049,
	"grad_norm": 0.9134889245033264,
	"learning_rate": 0.0002717801327089743,
	"loss": 4.7824,
	"step": 1020
	},
	{
	"epoch": 0.23773116759470297,
	"grad_norm": 0.8830430507659912,
	"learning_rate": 0.0002711107700576875,
	"loss": 4.7996,
	"step": 1030
	},
	{
	"epoch": 0.24003923718300108,
	"grad_norm": 0.9481594562530518,
	"learning_rate": 0.00027043440641098777,
	"loss": 4.8118,
	"step": 1040
	},
	{
	"epoch": 0.24234730677129915,
	"grad_norm": 0.9204795956611633,
	"learning_rate": 0.0002697510808671219,
	"loss": 4.7847,
	"step": 1050
	},
	{
	"epoch": 0.24465537635959725,
	"grad_norm": 0.9537863731384277,
	"learning_rate": 0.0002690608329267801,
	"loss": 4.79,
	"step": 1060
	},
	{
	"epoch": 0.24696344594789532,
	"grad_norm": 0.9290711283683777,
	"learning_rate": 0.00026836370249081235,
	"loss": 4.7671,
	"step": 1070
	},
	{
	"epoch": 0.24927151553619342,
	"grad_norm": 0.9401620626449585,
	"learning_rate": 0.00026765972985792183,
	"loss": 4.7715,
	"step": 1080
	},
	{
	"epoch": 0.2515795851244915,
	"grad_norm": 0.9478754997253418,
	"learning_rate": 0.00026694895572233556,
	"loss": 4.8047,
	"step": 1090
	},
	{
	"epoch": 0.25388765471278957,
	"grad_norm": 0.9853310585021973,
	"learning_rate": 0.000266231421171452,
	"loss": 4.744,
	"step": 1100
	},
	{
	"epoch": 0.25619572430108767,
	"grad_norm": 0.9713465571403503,
	"learning_rate": 0.0002655071676834659,
	"loss": 4.7124,
	"step": 1110
	},
	{
	"epoch": 0.25850379388938577,
	"grad_norm": 0.9828191995620728,
	"learning_rate": 0.00026477623712497047,
	"loss": 4.7588,
	"step": 1120
	},
	{
	"epoch": 0.26081186347768387,
	"grad_norm": 0.9578918814659119,
	"learning_rate": 0.0002640386717485373,
	"loss": 4.7603,
	"step": 1130
	},
	{
	"epoch": 0.2631199330659819,
	"grad_norm": 0.9244778156280518,
	"learning_rate": 0.0002632945141902739,
	"loss": 4.7823,
	"step": 1140
	},
	{
	"epoch": 0.26542800265428,
	"grad_norm": 1.0172864198684692,
	"learning_rate": 0.00026254380746735926,
	"loss": 4.7744,
	"step": 1150
	},
	{
	"epoch": 0.2677360722425781,
	"grad_norm": 0.9416136741638184,
	"learning_rate": 0.00026178659497555663,
	"loss": 4.7059,
	"step": 1160
	},
	{
	"epoch": 0.2700441418308762,
	"grad_norm": 0.8836077451705933,
	"learning_rate": 0.0002610229204867055,
	"loss": 4.7969,
	"step": 1170
	},
	{
	"epoch": 0.27235221141917426,
	"grad_norm": 0.9215325713157654,
	"learning_rate": 0.000260252828146191,
	"loss": 4.7436,
	"step": 1180
	},
	{
	"epoch": 0.27466028100747236,
	"grad_norm": 0.9629151225090027,
	"learning_rate": 0.0002594763624703922,
	"loss": 4.7368,
	"step": 1190
	},
	{
	"epoch": 0.27696835059577046,
	"grad_norm": 1.0467829704284668,
	"learning_rate": 0.00025869356834410864,
	"loss": 4.6909,
	"step": 1200
	},
	{
	"epoch": 0.27927642018406856,
	"grad_norm": 0.9704943299293518,
	"learning_rate": 0.00025790449101796575,
	"loss": 4.6959,
	"step": 1210
	},
	{
	"epoch": 0.28158448977236666,
	"grad_norm": 0.9856391549110413,
	"learning_rate": 0.0002571091761057989,
	"loss": 4.6771,
	"step": 1220
	},
	{
	"epoch": 0.2838925593606647,
	"grad_norm": 1.040661096572876,
	"learning_rate": 0.00025630766958201695,
	"loss": 4.7199,
	"step": 1230
	},
	{
	"epoch": 0.2862006289489628,
	"grad_norm": 0.9736753702163696,
	"learning_rate": 0.0002555000177789444,
	"loss": 4.6799,
	"step": 1240
	},
	{
	"epoch": 0.2885086985372609,
	"grad_norm": 1.006039023399353,
	"learning_rate": 0.00025468626738414305,
	"loss": 4.694,
	"step": 1250
	},
	{
	"epoch": 0.290816768125559,
	"grad_norm": 0.96723473072052,
	"learning_rate": 0.0002538664654377134,
	"loss": 4.6445,
	"step": 1260
	},
	{
	"epoch": 0.29312483771385706,
	"grad_norm": 0.9628943800926208,
	"learning_rate": 0.00025304065932957494,
	"loss": 4.6465,
	"step": 1270
	},
	{
	"epoch": 0.29543290730215516,
	"grad_norm": 0.9398277997970581,
	"learning_rate": 0.00025220889679672745,
	"loss": 4.6037,
	"step": 1280
	},
	{
	"epoch": 0.29774097689045326,
	"grad_norm": 0.9146639108657837,
	"learning_rate": 0.00025137122592049066,
	"loss": 4.6605,
	"step": 1290
	},
	{
	"epoch": 0.30004904647875136,
	"grad_norm": 0.9692845940589905,
	"learning_rate": 0.0002505276951237254,
	"loss": 4.6331,
	"step": 1300
	},
	{
	"epoch": 0.30051066039641094,
	"eval_loss": 4.868031978607178,
	"eval_runtime": 39.4278,
	"eval_samples_per_second": 634.071,
	"eval_steps_per_second": 79.259,
	"step": 1302
	},
	{
	"epoch": 0.3023571160670494,
	"grad_norm": 0.9402655959129333,
	"learning_rate": 0.00024967835316803434,
	"loss": 4.6622,
	"step": 1310
	},
	{
	"epoch": 0.3046651856553475,
	"grad_norm": 0.9427255392074585,
	"learning_rate": 0.00024882324915094305,
	"loss": 4.6359,
	"step": 1320
	},
	{
	"epoch": 0.3069732552436456,
	"grad_norm": 0.9967660307884216,
	"learning_rate": 0.00024796243250306196,
	"loss": 4.6153,
	"step": 1330
	},
	{
	"epoch": 0.3092813248319437,
	"grad_norm": 0.9784890413284302,
	"learning_rate": 0.00024709595298522916,
	"loss": 4.6401,
	"step": 1340
	},
	{
	"epoch": 0.31158939442024175,
	"grad_norm": 1.011221170425415,
	"learning_rate": 0.00024622386068563344,
	"loss": 4.5711,
	"step": 1350
	},
	{
	"epoch": 0.31389746400853985,
	"grad_norm": 1.0162895917892456,
	"learning_rate": 0.0002453462060169193,
	"loss": 4.6102,
	"step": 1360
	},
	{
	"epoch": 0.31620553359683795,
	"grad_norm": 0.9559857845306396,
	"learning_rate": 0.00024446303971327254,
	"loss": 4.6215,
	"step": 1370
	},
	{
	"epoch": 0.31851360318513605,
	"grad_norm": 0.9640511870384216,
	"learning_rate": 0.00024357441282748756,
	"loss": 4.6299,
	"step": 1380
	},
	{
	"epoch": 0.3208216727734341,
	"grad_norm": 0.990332841873169,
	"learning_rate": 0.00024268037672801605,
	"loss": 4.6633,
	"step": 1390
	},
	{
	"epoch": 0.3231297423617322,
	"grad_norm": 0.971305787563324,
	"learning_rate": 0.00024178098309599782,
	"loss": 4.6453,
	"step": 1400
	},
	{
	"epoch": 0.3254378119500303,
	"grad_norm": 0.9675345420837402,
	"learning_rate": 0.00024087628392227304,
	"loss": 4.562,
	"step": 1410
	},
	{
	"epoch": 0.3277458815383284,
	"grad_norm": 0.9208952188491821,
	"learning_rate": 0.000239966331504377,
	"loss": 4.576,
	"step": 1420
	},
	{
	"epoch": 0.33005395112662644,
	"grad_norm": 1.004249930381775,
	"learning_rate": 0.00023905117844351674,
	"loss": 4.6263,
	"step": 1430
	},
	{
	"epoch": 0.33236202071492454,
	"grad_norm": 0.9654126763343811,
	"learning_rate": 0.0002381308776415307,
	"loss": 4.6431,
	"step": 1440
	},
	{
	"epoch": 0.33467009030322264,
	"grad_norm": 0.9294122457504272,
	"learning_rate": 0.0002372054822978304,
	"loss": 4.5542,
	"step": 1450
	},
	{
	"epoch": 0.33697815989152075,
	"grad_norm": 0.8988949060440063,
	"learning_rate": 0.00023627504590632517,
	"loss": 4.6312,
	"step": 1460
	},
	{
	"epoch": 0.3392862294798188,
	"grad_norm": 1.0338096618652344,
	"learning_rate": 0.00023533962225232992,
	"loss": 4.5963,
	"step": 1470
	},
	{
	"epoch": 0.3415942990681169,
	"grad_norm": 0.9440902471542358,
	"learning_rate": 0.00023439926540945604,
	"loss": 4.5587,
	"step": 1480
	},
	{
	"epoch": 0.343902368656415,
	"grad_norm": 1.0818684101104736,
	"learning_rate": 0.00023345402973648548,
	"loss": 4.5462,
	"step": 1490
	},
	{
	"epoch": 0.3462104382447131,
	"grad_norm": 0.9467376470565796,
	"learning_rate": 0.00023250396987422857,
	"loss": 4.5969,
	"step": 1500
	},
	{
	"epoch": 0.3485185078330112,
	"grad_norm": 1.009598970413208,
	"learning_rate": 0.00023154914074236522,
	"loss": 4.5773,
	"step": 1510
	},
	{
	"epoch": 0.35082657742130924,
	"grad_norm": 1.053017020225525,
	"learning_rate": 0.00023058959753627056,
	"loss": 4.6051,
	"step": 1520
	},
	{
	"epoch": 0.35313464700960734,
	"grad_norm": 0.969485342502594,
	"learning_rate": 0.0002296253957238239,
	"loss": 4.604,
	"step": 1530
	},
	{
	"epoch": 0.35544271659790544,
	"grad_norm": 1.2008713483810425,
	"learning_rate": 0.00022865659104220255,
	"loss": 4.5704,
	"step": 1540
	},
	{
	"epoch": 0.35775078618620354,
	"grad_norm": 1.0302430391311646,
	"learning_rate": 0.00022768323949465987,
	"loss": 4.5391,
	"step": 1550
	},
	{
	"epoch": 0.3600588557745016,
	"grad_norm": 0.966468870639801,
	"learning_rate": 0.0002267053973472877,
	"loss": 4.5363,
	"step": 1560
	},
	{
	"epoch": 0.3623669253627997,
	"grad_norm": 0.9762535095214844,
	"learning_rate": 0.00022572312112576406,
	"loss": 4.5587,
	"step": 1570
	},
	{
	"epoch": 0.3646749949510978,
	"grad_norm": 1.0306516885757446,
	"learning_rate": 0.0002247364676120855,
	"loss": 4.5296,
	"step": 1580
	},
	{
	"epoch": 0.3669830645393959,
	"grad_norm": 0.9838928580284119,
	"learning_rate": 0.00022374549384128456,
	"loss": 4.5947,
	"step": 1590
	},
	{
	"epoch": 0.36929113412769393,
	"grad_norm": 0.9782153964042664,
	"learning_rate": 0.0002227502570981331,
	"loss": 4.5091,
	"step": 1600
	},
	{
	"epoch": 0.37159920371599203,
	"grad_norm": 1.0444267988204956,
	"learning_rate": 0.00022175081491383048,
	"loss": 4.5221,
	"step": 1610
	},
	{
	"epoch": 0.37390727330429013,
	"grad_norm": 1.0300132036209106,
	"learning_rate": 0.00022074722506267846,
	"loss": 4.5312,
	"step": 1620
	},
	{
	"epoch": 0.37621534289258823,
	"grad_norm": 1.0193167924880981,
	"learning_rate": 0.00021973954555874067,
	"loss": 4.5706,
	"step": 1630
	},
	{
	"epoch": 0.3785234124808863,
	"grad_norm": 1.005703091621399,
	"learning_rate": 0.00021872783465248978,
	"loss": 4.5149,
	"step": 1640
	},
	{
	"epoch": 0.3808314820691844,
	"grad_norm": 1.0483267307281494,
	"learning_rate": 0.00021771215082743968,
	"loss": 4.4801,
	"step": 1650
	},
	{
	"epoch": 0.3831395516574825,
	"grad_norm": 0.9708661437034607,
	"learning_rate": 0.00021669255279676514,
	"loss": 4.5121,
	"step": 1660
	},
	{
	"epoch": 0.3854476212457806,
	"grad_norm": 1.0603435039520264,
	"learning_rate": 0.00021566909949990746,
	"loss": 4.4826,
	"step": 1670
	},
	{
	"epoch": 0.3877556908340786,
	"grad_norm": 1.1404428482055664,
	"learning_rate": 0.0002146418500991678,
	"loss": 4.4787,
	"step": 1680
	},
	{
	"epoch": 0.3900637604223767,
	"grad_norm": 1.0174285173416138,
	"learning_rate": 0.00021361086397628682,
	"loss": 4.5004,
	"step": 1690
	},
	{
	"epoch": 0.3923718300106748,
	"grad_norm": 1.1664884090423584,
	"learning_rate": 0.0002125762007290121,
	"loss": 4.5197,
	"step": 1700
	},
	{
	"epoch": 0.3946798995989729,
	"grad_norm": 0.9837216138839722,
	"learning_rate": 0.00021153792016765334,
	"loss": 4.5019,
	"step": 1710
	},
	{
	"epoch": 0.396987969187271,
	"grad_norm": 1.0171154737472534,
	"learning_rate": 0.00021049608231162454,
	"loss": 4.514,
	"step": 1720
	},
	{
	"epoch": 0.3992960387755691,
	"grad_norm": 1.0302062034606934,
	"learning_rate": 0.00020945074738597447,
	"loss": 4.5388,
	"step": 1730
	},
	{
	"epoch": 0.40068088052854794,
	"eval_loss": 4.705195426940918,
	"eval_runtime": 39.444,
	"eval_samples_per_second": 633.81,
	"eval_steps_per_second": 79.226,
	"step": 1736
	},
	{
	"epoch": 0.4016041083638672,
	"grad_norm": 1.0344492197036743,
	"learning_rate": 0.00020840197581790569,
	"loss": 4.454,
	"step": 1740
	},
	{
	"epoch": 0.4039121779521653,
	"grad_norm": 1.0174837112426758,
	"learning_rate": 0.00020734982823328104,
	"loss": 4.4651,
	"step": 1750
	},
	{
	"epoch": 0.4062202475404633,
	"grad_norm": 0.9471856355667114,
	"learning_rate": 0.00020629436545311928,
	"loss": 4.5174,
	"step": 1760
	},
	{
	"epoch": 0.4085283171287614,
	"grad_norm": 1.0585298538208008,
	"learning_rate": 0.00020523564849007906,
	"loss": 4.4544,
	"step": 1770
	},
	{
	"epoch": 0.4108363867170595,
	"grad_norm": 1.0396827459335327,
	"learning_rate": 0.00020417373854493228,
	"loss": 4.5077,
	"step": 1780
	},
	{
	"epoch": 0.4131444563053576,
	"grad_norm": 1.0221539735794067,
	"learning_rate": 0.0002031086970030259,
	"loss": 4.4515,
	"step": 1790
	},
	{
	"epoch": 0.41545252589365567,
	"grad_norm": 0.9722737669944763,
	"learning_rate": 0.00020204058543073393,
	"loss": 4.4483,
	"step": 1800
	},
	{
	"epoch": 0.41776059548195377,
	"grad_norm": 1.0386008024215698,
	"learning_rate": 0.00020096946557189802,
	"loss": 4.5063,
	"step": 1810
	},
	{
	"epoch": 0.42006866507025187,
	"grad_norm": 1.1091365814208984,
	"learning_rate": 0.00019989539934425857,
	"loss": 4.4913,
	"step": 1820
	},
	{
	"epoch": 0.42237673465854997,
	"grad_norm": 1.083609700202942,
	"learning_rate": 0.0001988184488358754,
	"loss": 4.4873,
	"step": 1830
	},
	{
	"epoch": 0.42468480424684807,
	"grad_norm": 1.084915280342102,
	"learning_rate": 0.00019773867630153857,
	"loss": 4.4625,
	"step": 1840
	},
	{
	"epoch": 0.4269928738351461,
	"grad_norm": 0.9942842125892639,
	"learning_rate": 0.00019665614415916979,
	"loss": 4.435,
	"step": 1850
	},
	{
	"epoch": 0.4293009434234442,
	"grad_norm": 1.0121150016784668,
	"learning_rate": 0.00019557091498621416,
	"loss": 4.4056,
	"step": 1860
	},
	{
	"epoch": 0.4316090130117423,
	"grad_norm": 1.0252583026885986,
	"learning_rate": 0.00019448305151602272,
	"loss": 4.3947,
	"step": 1870
	},
	{
	"epoch": 0.4339170826000404,
	"grad_norm": 1.09006667137146,
	"learning_rate": 0.00019339261663422629,
	"loss": 4.4671,
	"step": 1880
	},
	{
	"epoch": 0.43622515218833846,
	"grad_norm": 1.0912604331970215,
	"learning_rate": 0.00019229967337510003,
	"loss": 4.3903,
	"step": 1890
	},
	{
	"epoch": 0.43853322177663656,
	"grad_norm": 1.0326118469238281,
	"learning_rate": 0.00019120428491791974,
	"loss": 4.4382,
	"step": 1900
	},
	{
	"epoch": 0.44084129136493466,
	"grad_norm": 1.0649503469467163,
	"learning_rate": 0.00019010651458330964,
	"loss": 4.3955,
	"step": 1910
	},
	{
	"epoch": 0.44314936095323276,
	"grad_norm": 1.0922999382019043,
	"learning_rate": 0.00018900642582958213,
	"loss": 4.4406,
	"step": 1920
	},
	{
	"epoch": 0.4454574305415308,
	"grad_norm": 1.0487009286880493,
	"learning_rate": 0.0001879040822490693,
	"loss": 4.4296,
	"step": 1930
	},
	{
	"epoch": 0.4477655001298289,
	"grad_norm": 0.9958457946777344,
	"learning_rate": 0.00018679954756444723,
	"loss": 4.46,
	"step": 1940
	},
	{
	"epoch": 0.450073569718127,
	"grad_norm": 1.0039042234420776,
	"learning_rate": 0.00018569288562505183,
	"loss": 4.4473,
	"step": 1950
	},
	{
	"epoch": 0.4523816393064251,
	"grad_norm": 1.1141057014465332,
	"learning_rate": 0.00018458416040318857,
	"loss": 4.4023,
	"step": 1960
	},
	{
	"epoch": 0.45468970889472315,
	"grad_norm": 1.052263855934143,
	"learning_rate": 0.00018347343599043388,
	"loss": 4.4455,
	"step": 1970
	},
	{
	"epoch": 0.45699777848302126,
	"grad_norm": 0.942537784576416,
	"learning_rate": 0.00018236077659393077,
	"loss": 4.466,
	"step": 1980
	},
	{
	"epoch": 0.45930584807131936,
	"grad_norm": 1.0139743089675903,
	"learning_rate": 0.00018124624653267682,
	"loss": 4.4551,
	"step": 1990
	},
	{
	"epoch": 0.46161391765961746,
	"grad_norm": 1.0442676544189453,
	"learning_rate": 0.0001801299102338063,
	"loss": 4.4184,
	"step": 2000
	},
	{
	"epoch": 0.4639219872479155,
	"grad_norm": 1.1058298349380493,
	"learning_rate": 0.00017901183222886592,
	"loss": 4.4478,
	"step": 2010
	},
	{
	"epoch": 0.4662300568362136,
	"grad_norm": 1.1228169202804565,
	"learning_rate": 0.00017789207715008428,
	"loss": 4.3777,
	"step": 2020
	},
	{
	"epoch": 0.4685381264245117,
	"grad_norm": 1.022026777267456,
	"learning_rate": 0.0001767707097266359,
	"loss": 4.4119,
	"step": 2030
	},
	{
	"epoch": 0.4708461960128098,
	"grad_norm": 1.0868556499481201,
	"learning_rate": 0.0001756477947808994,
	"loss": 4.3989,
	"step": 2040
	},
	{
	"epoch": 0.47315426560110785,
	"grad_norm": 1.0714977979660034,
	"learning_rate": 0.00017452339722471026,
	"loss": 4.4166,
	"step": 2050
	},
	{
	"epoch": 0.47546233518940595,
	"grad_norm": 1.0716434717178345,
	"learning_rate": 0.0001733975820556086,
	"loss": 4.3757,
	"step": 2060
	},
	{
	"epoch": 0.47777040477770405,
	"grad_norm": 1.0657131671905518,
	"learning_rate": 0.00017227041435308177,
	"loss": 4.3756,
	"step": 2070
	},
	{
	"epoch": 0.48007847436600215,
	"grad_norm": 1.0671368837356567,
	"learning_rate": 0.00017114195927480256,
	"loss": 4.3956,
	"step": 2080
	},
	{
	"epoch": 0.4823865439543002,
	"grad_norm": 1.0677906274795532,
	"learning_rate": 0.00017001228205286236,
	"loss": 4.3989,
	"step": 2090
	},
	{
	"epoch": 0.4846946135425983,
	"grad_norm": 1.0088515281677246,
	"learning_rate": 0.00016888144799000047,
	"loss": 4.4024,
	"step": 2100
	},
	{
	"epoch": 0.4870026831308964,
	"grad_norm": 0.9815865755081177,
	"learning_rate": 0.0001677495224558293,
	"loss": 4.4096,
	"step": 2110
	},
	{
	"epoch": 0.4893107527191945,
	"grad_norm": 1.1238495111465454,
	"learning_rate": 0.00016661657088305526,
	"loss": 4.3879,
	"step": 2120
	},
	{
	"epoch": 0.4916188223074926,
	"grad_norm": 1.0731137990951538,
	"learning_rate": 0.0001654826587636967,
	"loss": 4.4087,
	"step": 2130
	},
	{
	"epoch": 0.49392689189579064,
	"grad_norm": 1.1006789207458496,
	"learning_rate": 0.0001643478516452977,
	"loss": 4.3862,
	"step": 2140
	},
	{
	"epoch": 0.49623496148408874,
	"grad_norm": 1.0866320133209229,
	"learning_rate": 0.00016321221512713928,
	"loss": 4.3835,
	"step": 2150
	},
	{
	"epoch": 0.49854303107238684,
	"grad_norm": 1.1201952695846558,
	"learning_rate": 0.00016207581485644707,
	"loss": 4.3263,
	"step": 2160
	},
	{
	"epoch": 0.500851100660685,
	"grad_norm": 1.0500922203063965,
	"learning_rate": 0.0001609387165245966,
	"loss": 4.3604,
	"step": 2170
	},
	{
	"epoch": 0.500851100660685,
	"eval_loss": 4.576458930969238,
	"eval_runtime": 39.2462,
	"eval_samples_per_second": 637.005,
	"eval_steps_per_second": 79.626,
	"step": 2170
	},
	{
	"epoch": 0.503159170248983,
	"grad_norm": 1.1081622838974,
	"learning_rate": 0.0001598009858633161,
	"loss": 4.3842,
	"step": 2180
	},
	{
	"epoch": 0.5054672398372811,
	"grad_norm": 1.0299861431121826,
	"learning_rate": 0.00015866268864088626,
	"loss": 4.435,
	"step": 2190
	},
	{
	"epoch": 0.5077753094255791,
	"grad_norm": 1.0571188926696777,
	"learning_rate": 0.00015752389065833898,
	"loss": 4.3528,
	"step": 2200
	},
	{
	"epoch": 0.5100833790138772,
	"grad_norm": 1.1348025798797607,
	"learning_rate": 0.0001563846577456533,
	"loss": 4.3108,
	"step": 2210
	},
	{
	"epoch": 0.5123914486021753,
	"grad_norm": 1.0860552787780762,
	"learning_rate": 0.00015524505575794997,
	"loss": 4.3618,
	"step": 2220
	},
	{
	"epoch": 0.5146995181904734,
	"grad_norm": 1.085950493812561,
	"learning_rate": 0.0001541051505716849,
	"loss": 4.3482,
	"step": 2230
	},
	{
	"epoch": 0.5170075877787715,
	"grad_norm": 1.0809770822525024,
	"learning_rate": 0.00015296500808084055,
	"loss": 4.3486,
	"step": 2240
	},
	{
	"epoch": 0.5193156573670696,
	"grad_norm": 1.1132404804229736,
	"learning_rate": 0.00015182469419311754,
	"loss": 4.311,
	"step": 2250
	},
	{
	"epoch": 0.5216237269553677,
	"grad_norm": 1.073387861251831,
	"learning_rate": 0.00015068427482612393,
	"loss": 4.3567,
	"step": 2260
	},
	{
	"epoch": 0.5239317965436658,
	"grad_norm": 1.0589022636413574,
	"learning_rate": 0.0001495438159035655,
	"loss": 4.3789,
	"step": 2270
	},
	{
	"epoch": 0.5262398661319638,
	"grad_norm": 1.082677960395813,
	"learning_rate": 0.00014840338335143452,
	"loss": 4.3612,
	"step": 2280
	},
	{
	"epoch": 0.5285479357202619,
	"grad_norm": 1.0973902940750122,
	"learning_rate": 0.0001472630430941987,
	"loss": 4.3735,
	"step": 2290
	},
	{
	"epoch": 0.53085600530856,
	"grad_norm": 1.1433314085006714,
	"learning_rate": 0.00014612286105099068,
	"loss": 4.3271,
	"step": 2300
	},
	{
	"epoch": 0.5331640748968581,
	"grad_norm": 1.0663039684295654,
	"learning_rate": 0.00014498290313179725,
	"loss": 4.3353,
	"step": 2310
	},
	{
	"epoch": 0.5354721444851562,
	"grad_norm": 1.1327035427093506,
	"learning_rate": 0.00014384323523364948,
	"loss": 4.3811,
	"step": 2320
	},
	{
	"epoch": 0.5377802140734543,
	"grad_norm": 1.102273941040039,
	"learning_rate": 0.00014270392323681303,
	"loss": 4.3814,
	"step": 2330
	},
	{
	"epoch": 0.5400882836617524,
	"grad_norm": 1.1237622499465942,
	"learning_rate": 0.00014156503300098038,
	"loss": 4.34,
	"step": 2340
	},
	{
	"epoch": 0.5423963532500505,
	"grad_norm": 1.1374157667160034,
	"learning_rate": 0.00014042663036146344,
	"loss": 4.3239,
	"step": 2350
	},
	{
	"epoch": 0.5447044228383485,
	"grad_norm": 1.171049952507019,
	"learning_rate": 0.0001392887811253878,
	"loss": 4.3335,
	"step": 2360
	},
	{
	"epoch": 0.5470124924266466,
	"grad_norm": 1.128770112991333,
	"learning_rate": 0.00013815155106788865,
	"loss": 4.3021,
	"step": 2370
	},
	{
	"epoch": 0.5493205620149447,
	"grad_norm": 1.1492712497711182,
	"learning_rate": 0.00013701500592830878,
	"loss": 4.3139,
	"step": 2380
	},
	{
	"epoch": 0.5516286316032428,
	"grad_norm": 1.1176902055740356,
	"learning_rate": 0.00013587921140639805,
	"loss": 4.3339,
	"step": 2390
	},
	{
	"epoch": 0.5539367011915409,
	"grad_norm": 1.106078863143921,
	"learning_rate": 0.00013474423315851586,
	"loss": 4.314,
	"step": 2400
	},
	{
	"epoch": 0.556244770779839,
	"grad_norm": 1.0579196214675903,
	"learning_rate": 0.00013361013679383553,
	"loss": 4.2973,
	"step": 2410
	},
	{
	"epoch": 0.5585528403681371,
	"grad_norm": 1.0957796573638916,
	"learning_rate": 0.0001324769878705518,
	"loss": 4.2925,
	"step": 2420
	},
	{
	"epoch": 0.5608609099564352,
	"grad_norm": 1.1303716897964478,
	"learning_rate": 0.000131344851892091,
	"loss": 4.338,
	"step": 2430
	},
	{
	"epoch": 0.5631689795447333,
	"grad_norm": 1.1496975421905518,
	"learning_rate": 0.0001302137943033249,
	"loss": 4.3075,
	"step": 2440
	},
	{
	"epoch": 0.5654770491330313,
	"grad_norm": 1.1256930828094482,
	"learning_rate": 0.00012908388048678686,
	"loss": 4.3234,
	"step": 2450
	},
	{
	"epoch": 0.5677851187213294,
	"grad_norm": 1.1006488800048828,
	"learning_rate": 0.00012795517575889303,
	"loss": 4.311,
	"step": 2460
	},
	{
	"epoch": 0.5700931883096275,
	"grad_norm": 1.223235845565796,
	"learning_rate": 0.00012682774536616623,
	"loss": 4.3056,
	"step": 2470
	},
	{
	"epoch": 0.5724012578979256,
	"grad_norm": 1.2225327491760254,
	"learning_rate": 0.00012570165448146447,
	"loss": 4.3276,
	"step": 2480
	},
	{
	"epoch": 0.5747093274862237,
	"grad_norm": 1.152992844581604,
	"learning_rate": 0.00012457696820021314,
	"loss": 4.3058,
	"step": 2490
	},
	{
	"epoch": 0.5770173970745218,
	"grad_norm": 1.252081036567688,
	"learning_rate": 0.00012345375153664264,
	"loss": 4.2789,
	"step": 2500
	},
	{
	"epoch": 0.5793254666628199,
	"grad_norm": 1.1459189653396606,
	"learning_rate": 0.0001223320694200297,
	"loss": 4.3181,
	"step": 2510
	},
	{
	"epoch": 0.581633536251118,
	"grad_norm": 1.0899156332015991,
	"learning_rate": 0.00012121198669094436,
	"loss": 4.3692,
	"step": 2520
	},
	{
	"epoch": 0.583941605839416,
	"grad_norm": 1.060966968536377,
	"learning_rate": 0.00012009356809750131,
	"loss": 4.3294,
	"step": 2530
	},
	{
	"epoch": 0.5862496754277141,
	"grad_norm": 1.1345113515853882,
	"learning_rate": 0.0001189768782916175,
	"loss": 4.3261,
	"step": 2540
	},
	{
	"epoch": 0.5885577450160122,
	"grad_norm": 1.1231807470321655,
	"learning_rate": 0.00011786198182527461,
	"loss": 4.3368,
	"step": 2550
	},
	{
	"epoch": 0.5908658146043103,
	"grad_norm": 1.0552847385406494,
	"learning_rate": 0.00011674894314678761,
	"loss": 4.2938,
	"step": 2560
	},
	{
	"epoch": 0.5931738841926084,
	"grad_norm": 1.1445595026016235,
	"learning_rate": 0.00011563782659707897,
	"loss": 4.3184,
	"step": 2570
	},
	{
	"epoch": 0.5954819537809065,
	"grad_norm": 1.1536098718643188,
	"learning_rate": 0.00011452869640595975,
	"loss": 4.3189,
	"step": 2580
	},
	{
	"epoch": 0.5977900233692046,
	"grad_norm": 1.2136541604995728,
	"learning_rate": 0.00011342161668841641,
	"loss": 4.2195,
	"step": 2590
	},
	{
	"epoch": 0.6000980929575027,
	"grad_norm": 1.1163119077682495,
	"learning_rate": 0.00011231665144090456,
	"loss": 4.2419,
	"step": 2600
	},
	{
	"epoch": 0.6010213207928219,
	"eval_loss": 4.489214897155762,
	"eval_runtime": 39.3697,
	"eval_samples_per_second": 635.006,
	"eval_steps_per_second": 79.376,
	"step": 2604
	},
	{
	"epoch": 0.6024061625458007,
	"grad_norm": 1.4087986946105957,
	"learning_rate": 0.0001112138645376496,
	"loss": 4.2601,
	"step": 2610
	},
	{
	"epoch": 0.6047142321340988,
	"grad_norm": 1.19622802734375,
	"learning_rate": 0.00011011331972695449,
	"loss": 4.296,
	"step": 2620
	},
	{
	"epoch": 0.6070223017223969,
	"grad_norm": 1.1068109273910522,
	"learning_rate": 0.00010901508062751438,
	"loss": 4.2879,
	"step": 2630
	},
	{
	"epoch": 0.609330371310695,
	"grad_norm": 1.156851887702942,
	"learning_rate": 0.00010791921072473941,
	"loss": 4.2653,
	"step": 2640
	},
	{
	"epoch": 0.6116384408989931,
	"grad_norm": 1.1451683044433594,
	"learning_rate": 0.00010682577336708449,
	"loss": 4.2987,
	"step": 2650
	},
	{
	"epoch": 0.6139465104872912,
	"grad_norm": 1.133888840675354,
	"learning_rate": 0.00010573483176238752,
	"loss": 4.2558,
	"step": 2660
	},
	{
	"epoch": 0.6162545800755893,
	"grad_norm": 1.1750303506851196,
	"learning_rate": 0.00010464644897421561,
	"loss": 4.3379,
	"step": 2670
	},
	{
	"epoch": 0.6185626496638874,
	"grad_norm": 1.1152632236480713,
	"learning_rate": 0.00010356068791821953,
	"loss": 4.2346,
	"step": 2680
	},
	{
	"epoch": 0.6208707192521854,
	"grad_norm": 1.167487382888794,
	"learning_rate": 0.0001024776113584966,
	"loss": 4.2805,
	"step": 2690
	},
	{
	"epoch": 0.6231787888404835,
	"grad_norm": 1.1430394649505615,
	"learning_rate": 0.00010139728190396288,
	"loss": 4.2433,
	"step": 2700
	},
	{
	"epoch": 0.6254868584287816,
	"grad_norm": 1.181851863861084,
	"learning_rate": 0.00010031976200473364,
	"loss": 4.2759,
	"step": 2710
	},
	{
	"epoch": 0.6277949280170797,
	"grad_norm": 1.152464509010315,
	"learning_rate": 9.92451139485136e-05,
	"loss": 4.2761,
	"step": 2720
	},
	{
	"epoch": 0.6301029976053778,
	"grad_norm": 1.1081931591033936,
	"learning_rate": 9.817339985699593e-05,
	"loss": 4.2457,
	"step": 2730
	},
	{
	"epoch": 0.6324110671936759,
	"grad_norm": 1.1744070053100586,
	"learning_rate": 9.710468168227158e-05,
	"loss": 4.2863,
	"step": 2740
	},
	{
	"epoch": 0.634719136781974,
	"grad_norm": 1.218344807624817,
	"learning_rate": 9.60390212032479e-05,
	"loss": 4.2711,
	"step": 2750
	},
	{
	"epoch": 0.6370272063702721,
	"grad_norm": 1.1617342233657837,
	"learning_rate": 9.497648002207745e-05,
	"loss": 4.2289,
	"step": 2760
	},
	{
	"epoch": 0.6393352759585702,
	"grad_norm": 1.1277827024459839,
	"learning_rate": 9.391711956059675e-05,
	"loss": 4.2894,
	"step": 2770
	},
	{
	"epoch": 0.6416433455468682,
	"grad_norm": 1.2645858526229858,
	"learning_rate": 9.286100105677608e-05,
	"loss": 4.2934,
	"step": 2780
	},
	{
	"epoch": 0.6439514151351663,
	"grad_norm": 1.1396396160125732,
	"learning_rate": 9.180818556117931e-05,
	"loss": 4.2627,
	"step": 2790
	},
	{
	"epoch": 0.6462594847234644,
	"grad_norm": 1.1112399101257324,
	"learning_rate": 9.075873393343487e-05,
	"loss": 4.2799,
	"step": 2800
	},
	{
	"epoch": 0.6485675543117625,
	"grad_norm": 1.1682491302490234,
	"learning_rate": 8.971270683871736e-05,
	"loss": 4.2557,
	"step": 2810
	},
	{
	"epoch": 0.6508756239000606,
	"grad_norm": 1.1381292343139648,
	"learning_rate": 8.867016474424121e-05,
	"loss": 4.2468,
	"step": 2820
	},
	{
	"epoch": 0.6531836934883587,
	"grad_norm": 1.2451766729354858,
	"learning_rate": 8.763116791576497e-05,
	"loss": 4.3402,
	"step": 2830
	},
	{
	"epoch": 0.6554917630766568,
	"grad_norm": 1.2092978954315186,
	"learning_rate": 8.659577641410756e-05,
	"loss": 4.2999,
	"step": 2840
	},
	{
	"epoch": 0.6577998326649549,
	"grad_norm": 1.1491693258285522,
	"learning_rate": 8.556405009167627e-05,
	"loss": 4.2427,
	"step": 2850
	},
	{
	"epoch": 0.6601079022532529,
	"grad_norm": 1.166319489479065,
	"learning_rate": 8.453604858900736e-05,
	"loss": 4.2599,
	"step": 2860
	},
	{
	"epoch": 0.662415971841551,
	"grad_norm": 1.1869049072265625,
	"learning_rate": 8.351183133131778e-05,
	"loss": 4.2849,
	"step": 2870
	},
	{
	"epoch": 0.6647240414298491,
	"grad_norm": 1.1337544918060303,
	"learning_rate": 8.24914575250707e-05,
	"loss": 4.2321,
	"step": 2880
	},
	{
	"epoch": 0.6670321110181472,
	"grad_norm": 1.1453369855880737,
	"learning_rate": 8.147498615455221e-05,
	"loss": 4.2508,
	"step": 2890
	},
	{
	"epoch": 0.6693401806064453,
	"grad_norm": 1.2037177085876465,
	"learning_rate": 8.046247597846244e-05,
	"loss": 4.2616,
	"step": 2900
	},
	{
	"epoch": 0.6716482501947434,
	"grad_norm": 1.2716485261917114,
	"learning_rate": 7.945398552651837e-05,
	"loss": 4.2711,
	"step": 2910
	},
	{
	"epoch": 0.6739563197830415,
	"grad_norm": 1.1850802898406982,
	"learning_rate": 7.844957309607061e-05,
	"loss": 4.254,
	"step": 2920
	},
	{
	"epoch": 0.6762643893713396,
	"grad_norm": 1.1652292013168335,
	"learning_rate": 7.744929674873344e-05,
	"loss": 4.2528,
	"step": 2930
	},
	{
	"epoch": 0.6785724589596376,
	"grad_norm": 1.1236425638198853,
	"learning_rate": 7.645321430702854e-05,
	"loss": 4.2309,
	"step": 2940
	},
	{
	"epoch": 0.6808805285479357,
	"grad_norm": 1.1567282676696777,
	"learning_rate": 7.546138335104229e-05,
	"loss": 4.2226,
	"step": 2950
	},
	{
	"epoch": 0.6831885981362338,
	"grad_norm": 1.2129831314086914,
	"learning_rate": 7.447386121509741e-05,
	"loss": 4.2682,
	"step": 2960
	},
	{
	"epoch": 0.6854966677245319,
	"grad_norm": 1.1564743518829346,
	"learning_rate": 7.349070498443857e-05,
	"loss": 4.2495,
	"step": 2970
	},
	{
	"epoch": 0.68780473731283,
	"grad_norm": 1.230202317237854,
	"learning_rate": 7.251197149193251e-05,
	"loss": 4.2339,
	"step": 2980
	},
	{
	"epoch": 0.6901128069011281,
	"grad_norm": 1.1715277433395386,
	"learning_rate": 7.153771731478289e-05,
	"loss": 4.2226,
	"step": 2990
	},
	{
	"epoch": 0.6924208764894262,
	"grad_norm": 1.2347677946090698,
	"learning_rate": 7.05679987712595e-05,
	"loss": 4.227,
	"step": 3000
	},
	{
	"epoch": 0.6947289460777243,
	"grad_norm": 1.19216787815094,
	"learning_rate": 6.96028719174428e-05,
	"loss": 4.2868,
	"step": 3010
	},
	{
	"epoch": 0.6970370156660224,
	"grad_norm": 1.2830464839935303,
	"learning_rate": 6.864239254398352e-05,
	"loss": 4.2326,
	"step": 3020
	},
	{
	"epoch": 0.6993450852543204,
	"grad_norm": 1.2899502515792847,
	"learning_rate": 6.76866161728778e-05,
	"loss": 4.2616,
	"step": 3030
	},
	{
	"epoch": 0.7011915409249588,
	"eval_loss": 4.435102462768555,
	"eval_runtime": 39.3746,
	"eval_samples_per_second": 634.927,
	"eval_steps_per_second": 79.366,
	"step": 3038
	},
	{
	"epoch": 0.7016531548426185,
	"grad_norm": 1.1735284328460693,
	"learning_rate": 6.67355980542571e-05,
	"loss": 4.2741,
	"step": 3040
	},
	{
	"epoch": 0.7039612244309166,
	"grad_norm": 1.2111891508102417,
	"learning_rate": 6.578939316319502e-05,
	"loss": 4.2271,
	"step": 3050
	},
	{
	"epoch": 0.7062692940192147,
	"grad_norm": 1.188081979751587,
	"learning_rate": 6.484805619652893e-05,
	"loss": 4.2188,
	"step": 3060
	},
	{
	"epoch": 0.7085773636075128,
	"grad_norm": 1.285130500793457,
	"learning_rate": 6.391164156969856e-05,
	"loss": 4.193,
	"step": 3070
	},
	{
	"epoch": 0.7108854331958109,
	"grad_norm": 1.1954678297042847,
	"learning_rate": 6.298020341359972e-05,
	"loss": 4.211,
	"step": 3080
	},
	{
	"epoch": 0.713193502784109,
	"grad_norm": 1.1639289855957031,
	"learning_rate": 6.205379557145607e-05,
	"loss": 4.2421,
	"step": 3090
	},
	{
	"epoch": 0.7155015723724071,
	"grad_norm": 1.1945711374282837,
	"learning_rate": 6.113247159570591e-05,
	"loss": 4.2843,
	"step": 3100
	},
	{
	"epoch": 0.7178096419607051,
	"grad_norm": 1.2462584972381592,
	"learning_rate": 6.0216284744907036e-05,
	"loss": 4.2239,
	"step": 3110
	},
	{
	"epoch": 0.7201177115490032,
	"grad_norm": 1.2085964679718018,
	"learning_rate": 5.930528798065741e-05,
	"loss": 4.2027,
	"step": 3120
	},
	{
	"epoch": 0.7224257811373013,
	"grad_norm": 1.1740282773971558,
	"learning_rate": 5.839953396453442e-05,
	"loss": 4.2056,
	"step": 3130
	},
	{
	"epoch": 0.7247338507255994,
	"grad_norm": 1.1846504211425781,
	"learning_rate": 5.749907505504999e-05,
	"loss": 4.2292,
	"step": 3140
	},
	{
	"epoch": 0.7270419203138975,
	"grad_norm": 1.3088330030441284,
	"learning_rate": 5.660396330462448e-05,
	"loss": 4.2503,
	"step": 3150
	},
	{
	"epoch": 0.7293499899021956,
	"grad_norm": 1.2662092447280884,
	"learning_rate": 5.571425045657711e-05,
	"loss": 4.2536,
	"step": 3160
	},
	{
	"epoch": 0.7316580594904937,
	"grad_norm": 1.1370505094528198,
	"learning_rate": 5.4829987942135495e-05,
	"loss": 4.1551,
	"step": 3170
	},
	{
	"epoch": 0.7339661290787918,
	"grad_norm": 1.244957447052002,
	"learning_rate": 5.395122687746217e-05,
	"loss": 4.2295,
	"step": 3180
	},
	{
	"epoch": 0.7362741986670898,
	"grad_norm": 1.2070027589797974,
	"learning_rate": 5.3078018060699836e-05,
	"loss": 4.2056,
	"step": 3190
	},
	{
	"epoch": 0.7385822682553879,
	"grad_norm": 1.2402708530426025,
	"learning_rate": 5.221041196903489e-05,
	"loss": 4.243,
	"step": 3200
	},
	{
	"epoch": 0.740890337843686,
	"grad_norm": 1.2046093940734863,
	"learning_rate": 5.1348458755779706e-05,
	"loss": 4.2083,
	"step": 3210
	},
	{
	"epoch": 0.7431984074319841,
	"grad_norm": 1.2073742151260376,
	"learning_rate": 5.049220824747306e-05,
	"loss": 4.2024,
	"step": 3220
	},
	{
	"epoch": 0.7455064770202822,
	"grad_norm": 1.1986374855041504,
	"learning_rate": 4.964170994100019e-05,
	"loss": 4.2975,
	"step": 3230
	},
	{
	"epoch": 0.7478145466085803,
	"grad_norm": 1.2024635076522827,
	"learning_rate": 4.879701300073134e-05,
	"loss": 4.2499,
	"step": 3240
	},
	{
	"epoch": 0.7501226161968784,
	"grad_norm": 1.20681893825531,
	"learning_rate": 4.7958166255679787e-05,
	"loss": 4.2109,
	"step": 3250
	},
	{
	"epoch": 0.7524306857851765,
	"grad_norm": 1.2092540264129639,
	"learning_rate": 4.712521819667936e-05,
	"loss": 4.2221,
	"step": 3260
	},
	{
	"epoch": 0.7547387553734745,
	"grad_norm": 1.1802047491073608,
	"learning_rate": 4.629821697358108e-05,
	"loss": 4.202,
	"step": 3270
	},
	{
	"epoch": 0.7570468249617726,
	"grad_norm": 1.237534999847412,
	"learning_rate": 4.5477210392469944e-05,
	"loss": 4.2039,
	"step": 3280
	},
	{
	"epoch": 0.7593548945500707,
	"grad_norm": 1.212430715560913,
	"learning_rate": 4.4662245912901364e-05,
	"loss": 4.2043,
	"step": 3290
	},
	{
	"epoch": 0.7616629641383688,
	"grad_norm": 1.2303744554519653,
	"learning_rate": 4.38533706451579e-05,
	"loss": 4.2249,
	"step": 3300
	},
	{
	"epoch": 0.7639710337266669,
	"grad_norm": 1.2151821851730347,
	"learning_rate": 4.305063134752559e-05,
	"loss": 4.2416,
	"step": 3310
	},
	{
	"epoch": 0.766279103314965,
	"grad_norm": 1.1624999046325684,
	"learning_rate": 4.225407442359134e-05,
	"loss": 4.248,
	"step": 3320
	},
	{
	"epoch": 0.7685871729032631,
	"grad_norm": 1.1886614561080933,
	"learning_rate": 4.1463745919560296e-05,
	"loss": 4.1549,
	"step": 3330
	},
	{
	"epoch": 0.7708952424915612,
	"grad_norm": 1.141176700592041,
	"learning_rate": 4.067969152159433e-05,
	"loss": 4.1967,
	"step": 3340
	},
	{
	"epoch": 0.7732033120798593,
	"grad_norm": 1.1527976989746094,
	"learning_rate": 3.9901956553170714e-05,
	"loss": 4.193,
	"step": 3350
	},
	{
	"epoch": 0.7755113816681573,
	"grad_norm": 1.2025054693222046,
	"learning_rate": 3.913058597246242e-05,
	"loss": 4.1946,
	"step": 3360
	},
	{
	"epoch": 0.7778194512564554,
	"grad_norm": 1.13848078250885,
	"learning_rate": 3.836562436973906e-05,
	"loss": 4.1719,
	"step": 3370
	},
	{
	"epoch": 0.7801275208447535,
	"grad_norm": 1.2138718366622925,
	"learning_rate": 3.7607115964789537e-05,
	"loss": 4.2069,
	"step": 3380
	},
	{
	"epoch": 0.7824355904330516,
	"grad_norm": 1.1834176778793335,
	"learning_rate": 3.6855104604365485e-05,
	"loss": 4.2246,
	"step": 3390
	},
	{
	"epoch": 0.7847436600213497,
	"grad_norm": 1.157386064529419,
	"learning_rate": 3.610963375964694e-05,
	"loss": 4.2147,
	"step": 3400
	},
	{
	"epoch": 0.7870517296096478,
	"grad_norm": 1.251615285873413,
	"learning_rate": 3.5370746523729215e-05,
	"loss": 4.2354,
	"step": 3410
	},
	{
	"epoch": 0.7893597991979459,
	"grad_norm": 1.279531478881836,
	"learning_rate": 3.463848560913199e-05,
	"loss": 4.2083,
	"step": 3420
	},
	{
	"epoch": 0.791667868786244,
	"grad_norm": 1.2485535144805908,
	"learning_rate": 3.391289334533026e-05,
	"loss": 4.1657,
	"step": 3430
	},
	{
	"epoch": 0.793975938374542,
	"grad_norm": 1.2322598695755005,
	"learning_rate": 3.3194011676307234e-05,
	"loss": 4.1474,
	"step": 3440
	},
	{
	"epoch": 0.79628400796284,
	"grad_norm": 1.2795343399047852,
	"learning_rate": 3.248188215812985e-05,
	"loss": 4.1557,
	"step": 3450
	},
	{
	"epoch": 0.7985920775511381,
	"grad_norm": 1.236671805381775,
	"learning_rate": 3.1776545956546473e-05,
	"loss": 4.1628,
	"step": 3460
	},
	{
	"epoch": 0.8009001471394362,
	"grad_norm": 1.163258671760559,
	"learning_rate": 3.107804384460745e-05,
	"loss": 4.2085,
	"step": 3470
	},
	{
	"epoch": 0.8013617610570959,
	"eval_loss": 4.39634370803833,
	"eval_runtime": 39.8062,
	"eval_samples_per_second": 628.043,
	"eval_steps_per_second": 78.505,
	"step": 3472
	},
	{
	"epoch": 0.8032082167277343,
	"grad_norm": 1.2136709690093994,
	"learning_rate": 3.0386416200307772e-05,
	"loss": 4.2476,
	"step": 3480
	},
	{
	"epoch": 0.8055162863160324,
	"grad_norm": 1.214560866355896,
	"learning_rate": 2.970170300425341e-05,
	"loss": 4.1994,
	"step": 3490
	},
	{
	"epoch": 0.8078243559043305,
	"grad_norm": 1.2116317749023438,
	"learning_rate": 2.9023943837349795e-05,
	"loss": 4.1864,
	"step": 3500
	},
	{
	"epoch": 0.8101324254926286,
	"grad_norm": 1.2190097570419312,
	"learning_rate": 2.835317787851411e-05,
	"loss": 4.2019,
	"step": 3510
	},
	{
	"epoch": 0.8124404950809266,
	"grad_norm": 1.2359529733657837,
	"learning_rate": 2.768944390241012e-05,
	"loss": 4.1716,
	"step": 3520
	},
	{
	"epoch": 0.8147485646692247,
	"grad_norm": 1.255321979522705,
	"learning_rate": 2.703278027720713e-05,
	"loss": 4.1866,
	"step": 3530
	},
	{
	"epoch": 0.8170566342575228,
	"grad_norm": 1.2041914463043213,
	"learning_rate": 2.6383224962361766e-05,
	"loss": 4.2161,
	"step": 3540
	},
	{
	"epoch": 0.8193647038458209,
	"grad_norm": 1.2864853143692017,
	"learning_rate": 2.5740815506423917e-05,
	"loss": 4.1654,
	"step": 3550
	},
	{
	"epoch": 0.821672773434119,
	"grad_norm": 1.3623309135437012,
	"learning_rate": 2.51055890448658e-05,
	"loss": 4.2003,
	"step": 3560
	},
	{
	"epoch": 0.8239808430224171,
	"grad_norm": 1.291591763496399,
	"learning_rate": 2.44775822979358e-05,
	"loss": 4.159,
	"step": 3570
	},
	{
	"epoch": 0.8262889126107152,
	"grad_norm": 1.2855194807052612,
	"learning_rate": 2.3856831568535307e-05,
	"loss": 4.1886,
	"step": 3580
	},
	{
	"epoch": 0.8285969821990133,
	"grad_norm": 1.2652373313903809,
	"learning_rate": 2.324337274012061e-05,
	"loss": 4.1722,
	"step": 3590
	},
	{
	"epoch": 0.8309050517873113,
	"grad_norm": 1.2906244993209839,
	"learning_rate": 2.2637241274628108e-05,
	"loss": 4.1888,
	"step": 3600
	},
	{
	"epoch": 0.8332131213756094,
	"grad_norm": 1.2488876581192017,
	"learning_rate": 2.2038472210424952e-05,
	"loss": 4.2159,
	"step": 3610
	},
	{
	"epoch": 0.8355211909639075,
	"grad_norm": 1.2642358541488647,
	"learning_rate": 2.1447100160283082e-05,
	"loss": 4.1982,
	"step": 3620
	},
	{
	"epoch": 0.8378292605522056,
	"grad_norm": 1.2974900007247925,
	"learning_rate": 2.0863159309378657e-05,
	"loss": 4.2046,
	"step": 3630
	},
	{
	"epoch": 0.8401373301405037,
	"grad_norm": 1.2382539510726929,
	"learning_rate": 2.0286683413315873e-05,
	"loss": 4.1495,
	"step": 3640
	},
	{
	"epoch": 0.8424453997288018,
	"grad_norm": 1.25460946559906,
	"learning_rate": 1.9717705796175727e-05,
	"loss": 4.2023,
	"step": 3650
	},
	{
	"epoch": 0.8447534693170999,
	"grad_norm": 1.22829270362854,
	"learning_rate": 1.9156259348589514e-05,
	"loss": 4.1346,
	"step": 3660
	},
	{
	"epoch": 0.847061538905398,
	"grad_norm": 1.2403064966201782,
	"learning_rate": 1.8602376525837655e-05,
	"loss": 4.1988,
	"step": 3670
	},
	{
	"epoch": 0.8493696084936961,
	"grad_norm": 1.2172107696533203,
	"learning_rate": 1.8056089345973536e-05,
	"loss": 4.2222,
	"step": 3680
	},
	{
	"epoch": 0.8516776780819941,
	"grad_norm": 1.2095916271209717,
	"learning_rate": 1.7517429387972608e-05,
	"loss": 4.1647,
	"step": 3690
	},
	{
	"epoch": 0.8539857476702922,
	"grad_norm": 1.2624644041061401,
	"learning_rate": 1.6986427789907115e-05,
	"loss": 4.2337,
	"step": 3700
	},
	{
	"epoch": 0.8562938172585903,
	"grad_norm": 1.2449021339416504,
	"learning_rate": 1.6463115247145782e-05,
	"loss": 4.1926,
	"step": 3710
	},
	{
	"epoch": 0.8586018868468884,
	"grad_norm": 1.2478352785110474,
	"learning_rate": 1.594752201057968e-05,
	"loss": 4.1702,
	"step": 3720
	},
	{
	"epoch": 0.8609099564351865,
	"grad_norm": 1.263993740081787,
	"learning_rate": 1.5439677884873424e-05,
	"loss": 4.1817,
	"step": 3730
	},
	{
	"epoch": 0.8632180260234846,
	"grad_norm": 1.1771023273468018,
	"learning_rate": 1.4939612226742347e-05,
	"loss": 4.1884,
	"step": 3740
	},
	{
	"epoch": 0.8655260956117827,
	"grad_norm": 1.2805135250091553,
	"learning_rate": 1.4447353943255341e-05,
	"loss": 4.1973,
	"step": 3750
	},
	{
	"epoch": 0.8678341652000808,
	"grad_norm": 1.2390002012252808,
	"learning_rate": 1.3962931490163992e-05,
	"loss": 4.163,
	"step": 3760
	},
	{
	"epoch": 0.8701422347883788,
	"grad_norm": 1.1928465366363525,
	"learning_rate": 1.3486372870257539e-05,
	"loss": 4.2661,
	"step": 3770
	},
	{
	"epoch": 0.8724503043766769,
	"grad_norm": 1.227087378501892,
	"learning_rate": 1.3017705631744263e-05,
	"loss": 4.1941,
	"step": 3780
	},
	{
	"epoch": 0.874758373964975,
	"grad_norm": 1.2422763109207153,
	"learning_rate": 1.255695686665883e-05,
	"loss": 4.1729,
	"step": 3790
	},
	{
	"epoch": 0.8770664435532731,
	"grad_norm": 1.2221300601959229,
	"learning_rate": 1.2104153209296374e-05,
	"loss": 4.1766,
	"step": 3800
	},
	{
	"epoch": 0.8793745131415712,
	"grad_norm": 1.2882457971572876,
	"learning_rate": 1.1659320834672753e-05,
	"loss": 4.2104,
	"step": 3810
	},
	{
	"epoch": 0.8816825827298693,
	"grad_norm": 1.3336913585662842,
	"learning_rate": 1.1222485457011516e-05,
	"loss": 4.2294,
	"step": 3820
	},
	{
	"epoch": 0.8839906523181674,
	"grad_norm": 1.1365299224853516,
	"learning_rate": 1.079367232825743e-05,
	"loss": 4.1763,
	"step": 3830
	},
	{
	"epoch": 0.8862987219064655,
	"grad_norm": 1.3608059883117676,
	"learning_rate": 1.0372906236616734e-05,
	"loss": 4.2236,
	"step": 3840
	},
	{
	"epoch": 0.8886067914947635,
	"grad_norm": 1.3224635124206543,
	"learning_rate": 9.960211505124215e-06,
	"loss": 4.1455,
	"step": 3850
	},
	{
	"epoch": 0.8909148610830616,
	"grad_norm": 1.2558730840682983,
	"learning_rate": 9.555611990237317e-06,
	"loss": 4.1669,
	"step": 3860
	},
	{
	"epoch": 0.8932229306713597,
	"grad_norm": 1.2785941362380981,
	"learning_rate": 9.159131080456839e-06,
	"loss": 4.1952,
	"step": 3870
	},
	{
	"epoch": 0.8955310002596578,
	"grad_norm": 1.2829550504684448,
	"learning_rate": 8.770791694975093e-06,
	"loss": 4.1654,
	"step": 3880
	},
	{
	"epoch": 0.8978390698479559,
	"grad_norm": 1.3000894784927368,
	"learning_rate": 8.390616282350992e-06,
	"loss": 4.223,
	"step": 3890
	},
	{
	"epoch": 0.900147139436254,
	"grad_norm": 1.4616061449050903,
	"learning_rate": 8.018626819212354e-06,
	"loss": 4.1981,
	"step": 3900
	},
	{
	"epoch": 0.9015319811892328,
	"eval_loss": 4.381021022796631,
	"eval_runtime": 39.549,
	"eval_samples_per_second": 632.127,
	"eval_steps_per_second": 79.016,
	"step": 3906
	},
	{
	"epoch": 0.9024552090245521,
	"grad_norm": 1.295082449913025,
	"learning_rate": 7.654844808985617e-06,
	"loss": 4.1607,
	"step": 3910
	},
	{
	"epoch": 0.9047632786128502,
	"grad_norm": 1.3329360485076904,
	"learning_rate": 7.299291280652503e-06,
	"loss": 4.1855,
	"step": 3920
	},
	{
	"epoch": 0.9070713482011483,
	"grad_norm": 1.2815297842025757,
	"learning_rate": 6.951986787534824e-06,
	"loss": 4.2036,
	"step": 3930
	},
	{
	"epoch": 0.9093794177894463,
	"grad_norm": 1.2049307823181152,
	"learning_rate": 6.612951406106015e-06,
	"loss": 4.1678,
	"step": 3940
	},
	{
	"epoch": 0.9116874873777444,
	"grad_norm": 1.3223621845245361,
	"learning_rate": 6.282204734830826e-06,
	"loss": 4.1758,
	"step": 3950
	},
	{
	"epoch": 0.9139955569660425,
	"grad_norm": 1.3526756763458252,
	"learning_rate": 5.959765893032131e-06,
	"loss": 4.1829,
	"step": 3960
	},
	{
	"epoch": 0.9163036265543406,
	"grad_norm": 1.3002768754959106,
	"learning_rate": 5.645653519786064e-06,
	"loss": 4.1908,
	"step": 3970
	},
	{
	"epoch": 0.9186116961426387,
	"grad_norm": 1.294180989265442,
	"learning_rate": 5.339885772844227e-06,
	"loss": 4.1767,
	"step": 3980
	},
	{
	"epoch": 0.9209197657309368,
	"grad_norm": 1.2366904020309448,
	"learning_rate": 5.042480327584231e-06,
	"loss": 4.1572,
	"step": 3990
	},
	{
	"epoch": 0.9232278353192349,
	"grad_norm": 1.2950676679611206,
	"learning_rate": 4.753454375987898e-06,
	"loss": 4.1748,
	"step": 4000
	},
	{
	"epoch": 0.925535904907533,
	"grad_norm": 1.3021730184555054,
	"learning_rate": 4.472824625647503e-06,
	"loss": 4.1417,
	"step": 4010
	},
	{
	"epoch": 0.927843974495831,
	"grad_norm": 1.3200892210006714,
	"learning_rate": 4.2006072987998355e-06,
	"loss": 4.1742,
	"step": 4020
	},
	{
	"epoch": 0.9301520440841291,
	"grad_norm": 1.2840920686721802,
	"learning_rate": 3.9368181313886085e-06,
	"loss": 4.1808,
	"step": 4030
	},
	{
	"epoch": 0.9324601136724272,
	"grad_norm": 1.2291038036346436,
	"learning_rate": 3.681472372154659e-06,
	"loss": 4.2205,
	"step": 4040
	},
	{
	"epoch": 0.9347681832607253,
	"grad_norm": 1.2467334270477295,
	"learning_rate": 3.434584781754668e-06,
	"loss": 4.2397,
	"step": 4050
	},
	{
	"epoch": 0.9370762528490234,
	"grad_norm": 1.292160153388977,
	"learning_rate": 3.196169631907658e-06,
	"loss": 4.1912,
	"step": 4060
	},
	{
	"epoch": 0.9393843224373215,
	"grad_norm": 1.3593335151672363,
	"learning_rate": 2.966240704570205e-06,
	"loss": 4.1743,
	"step": 4070
	},
	{
	"epoch": 0.9416923920256196,
	"grad_norm": 1.2135837078094482,
	"learning_rate": 2.7448112911396257e-06,
	"loss": 4.1725,
	"step": 4080
	},
	{
	"epoch": 0.9440004616139177,
	"grad_norm": 1.2826229333877563,
	"learning_rate": 2.5318941916857236e-06,
	"loss": 4.1779,
	"step": 4090
	},
	{
	"epoch": 0.9463085312022157,
	"grad_norm": 1.3116379976272583,
	"learning_rate": 2.327501714210783e-06,
	"loss": 4.1753,
	"step": 4100
	},
	{
	"epoch": 0.9486166007905138,
	"grad_norm": 1.2221295833587646,
	"learning_rate": 2.1316456739381373e-06,
	"loss": 4.1947,
	"step": 4110
	},
	{
	"epoch": 0.9509246703788119,
	"grad_norm": 1.2066534757614136,
	"learning_rate": 1.9443373926291806e-06,
	"loss": 4.1914,
	"step": 4120
	},
	{
	"epoch": 0.95323273996711,
	"grad_norm": 1.2396924495697021,
	"learning_rate": 1.765587697928844e-06,
	"loss": 4.1717,
	"step": 4130
	},
	{
	"epoch": 0.9555408095554081,
	"grad_norm": 1.2560229301452637,
	"learning_rate": 1.5954069227397782e-06,
	"loss": 4.1566,
	"step": 4140
	},
	{
	"epoch": 0.9578488791437062,
	"grad_norm": 1.4303022623062134,
	"learning_rate": 1.43380490462493e-06,
	"loss": 4.1762,
	"step": 4150
	},
	{
	"epoch": 0.9601569487320043,
	"grad_norm": 1.2595306634902954,
	"learning_rate": 1.2807909852389498e-06,
	"loss": 4.1753,
	"step": 4160
	},
	{
	"epoch": 0.9624650183203024,
	"grad_norm": 1.1923511028289795,
	"learning_rate": 1.1363740097881547e-06,
	"loss": 4.1417,
	"step": 4170
	},
	{
	"epoch": 0.9647730879086004,
	"grad_norm": 1.1929636001586914,
	"learning_rate": 1.0005623265192053e-06,
	"loss": 4.1698,
	"step": 4180
	},
	{
	"epoch": 0.9670811574968985,
	"grad_norm": 1.2409882545471191,
	"learning_rate": 8.733637862365251e-07,
	"loss": 4.1773,
	"step": 4190
	},
	{
	"epoch": 0.9693892270851966,
	"grad_norm": 1.2641384601593018,
	"learning_rate": 7.547857418485459e-07,
	"loss": 4.1271,
	"step": 4200
	},
	{
	"epoch": 0.9716972966734947,
	"grad_norm": 1.1365667581558228,
	"learning_rate": 6.448350479425157e-07,
	"loss": 4.14,
	"step": 4210
	},
	{
	"epoch": 0.9740053662617928,
	"grad_norm": 1.2669204473495483,
	"learning_rate": 5.435180603884148e-07,
	"loss": 4.1989,
	"step": 4220
	},
	{
	"epoch": 0.9763134358500909,
	"grad_norm": 1.2706636190414429,
	"learning_rate": 4.508406359714001e-07,
	"loss": 4.1727,
	"step": 4230
	},
	{
	"epoch": 0.978621505438389,
	"grad_norm": 1.293450951576233,
	"learning_rate": 3.6680813205339223e-07,
	"loss": 4.1872,
	"step": 4240
	},
	{
	"epoch": 0.9809295750266871,
	"grad_norm": 1.2493462562561035,
	"learning_rate": 2.9142540626325707e-07,
	"loss": 4.1937,
	"step": 4250
	},
	{
	"epoch": 0.9832376446149852,
	"grad_norm": 1.265554428100586,
	"learning_rate": 2.246968162160634e-07,
	"loss": 4.1332,
	"step": 4260
	},
	{
	"epoch": 0.9855457142032832,
	"grad_norm": 1.2552322149276733,
	"learning_rate": 1.6662621926118446e-07,
	"loss": 4.221,
	"step": 4270
	},
	{
	"epoch": 0.9878537837915813,
	"grad_norm": 1.2385802268981934,
	"learning_rate": 1.1721697225932636e-07,
	"loss": 4.1898,
	"step": 4280
	},
	{
	"epoch": 0.9901618533798794,
	"grad_norm": 1.358494520187378,
	"learning_rate": 7.647193138843322e-08,
	"loss": 4.1357,
	"step": 4290
	},
	{
	"epoch": 0.9924699229681775,
	"grad_norm": 1.174631953239441,
	"learning_rate": 4.439345197861932e-08,
	"loss": 4.1818,
	"step": 4300
	},
	{
	"epoch": 0.9947779925564756,
	"grad_norm": 1.249579668045044,
	"learning_rate": 2.0983388376011324e-08,
	"loss": 4.1376,
	"step": 4310
	},
	{
	"epoch": 0.9970860621447737,
	"grad_norm": 1.2420294284820557,
	"learning_rate": 6.243093835567314e-09,
	"loss": 4.1601,
	"step": 4320
	},
	{
	"epoch": 0.9993941317330718,
	"grad_norm": 1.2425047159194946,
	"learning_rate": 1.734204427727981e-10,
	"loss": 4.1714,
	"step": 4330
	}
	],
	"logging_steps": 10,
	"max_steps": 4332,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 434,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2436421205975040.0,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}