{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9994655264564404,
  "eval_steps": 500,
  "global_step": 935,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0010689470871191875,
      "grad_norm": 1.6980252383272385e+19,
      "learning_rate": 2.1276595744680852e-07,
      "loss": 1.5414,
      "step": 1
    },
    {
      "epoch": 0.005344735435595938,
      "grad_norm": 3829.517121162457,
      "learning_rate": 1.0638297872340427e-06,
      "loss": 1.521,
      "step": 5
    },
    {
      "epoch": 0.010689470871191877,
      "grad_norm": 18.238205519454254,
      "learning_rate": 2.1276595744680853e-06,
      "loss": 1.5043,
      "step": 10
    },
    {
      "epoch": 0.016034206306787813,
      "grad_norm": 4.111627964683308,
      "learning_rate": 3.191489361702128e-06,
      "loss": 1.4563,
      "step": 15
    },
    {
      "epoch": 0.021378941742383754,
      "grad_norm": 4.033770564537518,
      "learning_rate": 4.255319148936171e-06,
      "loss": 1.3596,
      "step": 20
    },
    {
      "epoch": 0.02672367717797969,
      "grad_norm": 2.0744948977461894,
      "learning_rate": 5.319148936170213e-06,
      "loss": 1.3073,
      "step": 25
    },
    {
      "epoch": 0.032068412613575625,
      "grad_norm": 1.8169788513455438,
      "learning_rate": 6.382978723404256e-06,
      "loss": 1.2603,
      "step": 30
    },
    {
      "epoch": 0.03741314804917156,
      "grad_norm": 1.8955578500473445,
      "learning_rate": 7.446808510638298e-06,
      "loss": 1.2337,
      "step": 35
    },
    {
      "epoch": 0.04275788348476751,
      "grad_norm": 1.8051274229819054,
      "learning_rate": 8.510638297872341e-06,
      "loss": 1.2246,
      "step": 40
    },
    {
      "epoch": 0.048102618920363445,
      "grad_norm": 1.6895727069624311,
      "learning_rate": 9.574468085106385e-06,
      "loss": 1.2035,
      "step": 45
    },
    {
      "epoch": 0.05344735435595938,
      "grad_norm": 1.4642834924285903,
      "learning_rate": 1.0638297872340426e-05,
      "loss": 1.1959,
      "step": 50
    },
    {
      "epoch": 0.05879208979155532,
      "grad_norm": 1.750235215949282,
      "learning_rate": 1.170212765957447e-05,
      "loss": 1.1667,
      "step": 55
    },
    {
      "epoch": 0.06413682522715125,
      "grad_norm": 1.4513902443182323,
      "learning_rate": 1.2765957446808513e-05,
      "loss": 1.1845,
      "step": 60
    },
    {
      "epoch": 0.06948156066274719,
      "grad_norm": 1.0704797155475545,
      "learning_rate": 1.3829787234042556e-05,
      "loss": 1.1372,
      "step": 65
    },
    {
      "epoch": 0.07482629609834313,
      "grad_norm": 51.956577082183934,
      "learning_rate": 1.4893617021276596e-05,
      "loss": 1.1371,
      "step": 70
    },
    {
      "epoch": 0.08017103153393906,
      "grad_norm": 1.4907003641730592,
      "learning_rate": 1.595744680851064e-05,
      "loss": 1.1754,
      "step": 75
    },
    {
      "epoch": 0.08551576696953501,
      "grad_norm": 1.2412771045504998,
      "learning_rate": 1.7021276595744682e-05,
      "loss": 1.1557,
      "step": 80
    },
    {
      "epoch": 0.09086050240513095,
      "grad_norm": 1.0313716645666207,
      "learning_rate": 1.8085106382978724e-05,
      "loss": 1.1545,
      "step": 85
    },
    {
      "epoch": 0.09620523784072689,
      "grad_norm": 0.8731332863299098,
      "learning_rate": 1.914893617021277e-05,
      "loss": 1.1554,
      "step": 90
    },
    {
      "epoch": 0.10154997327632283,
      "grad_norm": 0.9595385128351099,
      "learning_rate": 1.9999930228629612e-05,
      "loss": 1.1332,
      "step": 95
    },
    {
      "epoch": 0.10689470871191876,
      "grad_norm": 0.9503831802278776,
      "learning_rate": 1.999748833289337e-05,
      "loss": 1.1499,
      "step": 100
    },
    {
      "epoch": 0.1122394441475147,
      "grad_norm": 0.8886076365436117,
      "learning_rate": 1.999155884218539e-05,
      "loss": 1.137,
      "step": 105
    },
    {
      "epoch": 0.11758417958311064,
      "grad_norm": 0.9349464681007135,
      "learning_rate": 1.9982143824991402e-05,
      "loss": 1.1326,
      "step": 110
    },
    {
      "epoch": 0.12292891501870658,
      "grad_norm": 0.797535678575192,
      "learning_rate": 1.9969246565713005e-05,
      "loss": 1.1285,
      "step": 115
    },
    {
      "epoch": 0.1282736504543025,
      "grad_norm": 0.7992675943015057,
      "learning_rate": 1.99528715635219e-05,
      "loss": 1.1445,
      "step": 120
    },
    {
      "epoch": 0.13361838588989844,
      "grad_norm": 0.7579364453152709,
      "learning_rate": 1.9933024530790377e-05,
      "loss": 1.1433,
      "step": 125
    },
    {
      "epoch": 0.13896312132549438,
      "grad_norm": 0.7485134078754886,
      "learning_rate": 1.990971239109856e-05,
      "loss": 1.1272,
      "step": 130
    },
    {
      "epoch": 0.14430785676109031,
      "grad_norm": 0.7430670760379574,
      "learning_rate": 1.9882943276819153e-05,
      "loss": 1.1634,
      "step": 135
    },
    {
      "epoch": 0.14965259219668625,
      "grad_norm": 0.7254328494309261,
      "learning_rate": 1.9852726526280467e-05,
      "loss": 1.1365,
      "step": 140
    },
    {
      "epoch": 0.1549973276322822,
      "grad_norm": 0.7437629967587134,
      "learning_rate": 1.981907268050878e-05,
      "loss": 1.1314,
      "step": 145
    },
    {
      "epoch": 0.16034206306787813,
      "grad_norm": 0.8176454612212268,
      "learning_rate": 1.9781993479551124e-05,
      "loss": 1.1419,
      "step": 150
    },
    {
      "epoch": 0.16568679850347406,
      "grad_norm": 0.7095618669742464,
      "learning_rate": 1.9741501858379828e-05,
      "loss": 1.1241,
      "step": 155
    },
    {
      "epoch": 0.17103153393907003,
      "grad_norm": 0.7841624701181714,
      "learning_rate": 1.969761194238015e-05,
      "loss": 1.1476,
      "step": 160
    },
    {
      "epoch": 0.17637626937466597,
      "grad_norm": 0.7719588880187604,
      "learning_rate": 1.9650339042422707e-05,
      "loss": 1.1321,
      "step": 165
    },
    {
      "epoch": 0.1817210048102619,
      "grad_norm": 0.8216027824845429,
      "learning_rate": 1.9599699649522318e-05,
      "loss": 1.1393,
      "step": 170
    },
    {
      "epoch": 0.18706574024585784,
      "grad_norm": 0.7876037531733533,
      "learning_rate": 1.9545711429085138e-05,
      "loss": 1.1146,
      "step": 175
    },
    {
      "epoch": 0.19241047568145378,
      "grad_norm": 0.7598416305311648,
      "learning_rate": 1.948839321474617e-05,
      "loss": 1.1325,
      "step": 180
    },
    {
      "epoch": 0.19775521111704972,
      "grad_norm": 0.6638060801420811,
      "learning_rate": 1.942776500179918e-05,
      "loss": 1.1153,
      "step": 185
    },
    {
      "epoch": 0.20309994655264565,
      "grad_norm": 0.7894754657191295,
      "learning_rate": 1.9363847940221396e-05,
      "loss": 1.1421,
      "step": 190
    },
    {
      "epoch": 0.2084446819882416,
      "grad_norm": 0.710767515484079,
      "learning_rate": 1.929666432729541e-05,
      "loss": 1.1227,
      "step": 195
    },
    {
      "epoch": 0.21378941742383753,
      "grad_norm": 0.6811486659176886,
      "learning_rate": 1.9226237599830834e-05,
      "loss": 1.1228,
      "step": 200
    },
    {
      "epoch": 0.21913415285943347,
      "grad_norm": 0.6621227459949044,
      "learning_rate": 1.9152592325988428e-05,
      "loss": 1.1206,
      "step": 205
    },
    {
      "epoch": 0.2244788882950294,
      "grad_norm": 0.6559931801593428,
      "learning_rate": 1.9075754196709574e-05,
      "loss": 1.1166,
      "step": 210
    },
    {
      "epoch": 0.22982362373062534,
      "grad_norm": 0.7307149733941284,
      "learning_rate": 1.8995750016754066e-05,
      "loss": 1.115,
      "step": 215
    },
    {
      "epoch": 0.23516835916622128,
      "grad_norm": 0.6610367273007962,
      "learning_rate": 1.8912607695349348e-05,
      "loss": 1.1378,
      "step": 220
    },
    {
      "epoch": 0.24051309460181722,
      "grad_norm": 0.6283264342763978,
      "learning_rate": 1.882635623645446e-05,
      "loss": 1.1142,
      "step": 225
    },
    {
      "epoch": 0.24585783003741316,
      "grad_norm": 0.6770597414284348,
      "learning_rate": 1.873702572864208e-05,
      "loss": 1.1235,
      "step": 230
    },
    {
      "epoch": 0.25120256547300907,
      "grad_norm": 0.6862414235982607,
      "learning_rate": 1.8644647334602225e-05,
      "loss": 1.1116,
      "step": 235
    },
    {
      "epoch": 0.256547300908605,
      "grad_norm": 0.7122289837482224,
      "learning_rate": 1.8549253280271232e-05,
      "loss": 1.1215,
      "step": 240
    },
    {
      "epoch": 0.26189203634420094,
      "grad_norm": 0.681062416353163,
      "learning_rate": 1.8450876843589837e-05,
      "loss": 1.111,
      "step": 245
    },
    {
      "epoch": 0.2672367717797969,
      "grad_norm": 0.6521779494230424,
      "learning_rate": 1.834955234289425e-05,
      "loss": 1.1024,
      "step": 250
    },
    {
      "epoch": 0.2725815072153928,
      "grad_norm": 0.7471836835982529,
      "learning_rate": 1.824531512494432e-05,
      "loss": 1.113,
      "step": 255
    },
    {
      "epoch": 0.27792624265098875,
      "grad_norm": 0.7524990804269153,
      "learning_rate": 1.81382015525929e-05,
      "loss": 1.1033,
      "step": 260
    },
    {
      "epoch": 0.2832709780865847,
      "grad_norm": 0.7281148735085387,
      "learning_rate": 1.8028248992100783e-05,
      "loss": 1.113,
      "step": 265
    },
    {
      "epoch": 0.28861571352218063,
      "grad_norm": 0.6704869056558884,
      "learning_rate": 1.7915495800101594e-05,
      "loss": 1.1094,
      "step": 270
    },
    {
      "epoch": 0.29396044895777657,
      "grad_norm": 0.7019972812323197,
      "learning_rate": 1.7799981310221172e-05,
      "loss": 1.1142,
      "step": 275
    },
    {
      "epoch": 0.2993051843933725,
      "grad_norm": 0.6674661763153472,
      "learning_rate": 1.7681745819356163e-05,
      "loss": 1.1238,
      "step": 280
    },
    {
      "epoch": 0.30464991982896844,
      "grad_norm": 0.750602552969334,
      "learning_rate": 1.756083057361657e-05,
      "loss": 1.1151,
      "step": 285
    },
    {
      "epoch": 0.3099946552645644,
      "grad_norm": 0.6648297303737115,
      "learning_rate": 1.743727775393713e-05,
      "loss": 1.0984,
      "step": 290
    },
    {
      "epoch": 0.3153393907001603,
      "grad_norm": 0.6738653521210457,
      "learning_rate": 1.7311130461362658e-05,
      "loss": 1.0832,
      "step": 295
    },
    {
      "epoch": 0.32068412613575625,
      "grad_norm": 0.7255054356494716,
      "learning_rate": 1.7182432702012363e-05,
      "loss": 1.1097,
      "step": 300
    },
    {
      "epoch": 0.3260288615713522,
      "grad_norm": 0.7177909653429185,
      "learning_rate": 1.7051229371728418e-05,
      "loss": 1.1145,
      "step": 305
    },
    {
      "epoch": 0.33137359700694813,
      "grad_norm": 0.6827549017341288,
      "learning_rate": 1.6917566240414197e-05,
      "loss": 1.1054,
      "step": 310
    },
    {
      "epoch": 0.3367183324425441,
      "grad_norm": 0.6479574599053517,
      "learning_rate": 1.678148993606757e-05,
      "loss": 1.0923,
      "step": 315
    },
    {
      "epoch": 0.34206306787814006,
      "grad_norm": 0.7556378267688959,
      "learning_rate": 1.6643047928514862e-05,
      "loss": 1.1398,
      "step": 320
    },
    {
      "epoch": 0.347407803313736,
      "grad_norm": 0.825186228208562,
      "learning_rate": 1.6502288512851124e-05,
      "loss": 1.0977,
      "step": 325
    },
    {
      "epoch": 0.35275253874933193,
      "grad_norm": 0.6402798631110208,
      "learning_rate": 1.635926079259257e-05,
      "loss": 1.1208,
      "step": 330
    },
    {
      "epoch": 0.35809727418492787,
      "grad_norm": 0.6988000017601086,
      "learning_rate": 1.6214014662546897e-05,
      "loss": 1.1254,
      "step": 335
    },
    {
      "epoch": 0.3634420096205238,
      "grad_norm": 0.6258962022705885,
      "learning_rate": 1.606660079140769e-05,
      "loss": 1.0927,
      "step": 340
    },
    {
      "epoch": 0.36878674505611975,
      "grad_norm": 0.690239757985195,
      "learning_rate": 1.5917070604078736e-05,
      "loss": 1.086,
      "step": 345
    },
    {
      "epoch": 0.3741314804917157,
      "grad_norm": 0.6186579224552826,
      "learning_rate": 1.576547626373464e-05,
      "loss": 1.1014,
      "step": 350
    },
    {
      "epoch": 0.3794762159273116,
      "grad_norm": 0.6585531625852022,
      "learning_rate": 1.5611870653623826e-05,
      "loss": 1.0997,
      "step": 355
    },
    {
      "epoch": 0.38482095136290756,
      "grad_norm": 0.6014955086100252,
      "learning_rate": 1.5456307358620372e-05,
      "loss": 1.1007,
      "step": 360
    },
    {
      "epoch": 0.3901656867985035,
      "grad_norm": 0.6163915037170133,
      "learning_rate": 1.5298840646531093e-05,
      "loss": 1.0882,
      "step": 365
    },
    {
      "epoch": 0.39551042223409943,
      "grad_norm": 0.6435774038328567,
      "learning_rate": 1.5139525449164358e-05,
      "loss": 1.0992,
      "step": 370
    },
    {
      "epoch": 0.40085515766969537,
      "grad_norm": 0.6046248041451441,
      "learning_rate": 1.49784173431673e-05,
      "loss": 1.0919,
      "step": 375
    },
    {
      "epoch": 0.4061998931052913,
      "grad_norm": 0.6480427906077939,
      "learning_rate": 1.4815572530638046e-05,
      "loss": 1.1066,
      "step": 380
    },
    {
      "epoch": 0.41154462854088725,
      "grad_norm": 0.6508008210470411,
      "learning_rate": 1.4651047819519804e-05,
      "loss": 1.106,
      "step": 385
    },
    {
      "epoch": 0.4168893639764832,
      "grad_norm": 0.6489060799576075,
      "learning_rate": 1.4484900603783544e-05,
      "loss": 1.0904,
      "step": 390
    },
    {
      "epoch": 0.4222340994120791,
      "grad_norm": 0.7914350115503767,
      "learning_rate": 1.4317188843406304e-05,
      "loss": 1.1003,
      "step": 395
    },
    {
      "epoch": 0.42757883484767506,
      "grad_norm": 0.6248146138529544,
      "learning_rate": 1.4147971044152002e-05,
      "loss": 1.0959,
      "step": 400
    },
    {
      "epoch": 0.432923570283271,
      "grad_norm": 0.5837608946761731,
      "learning_rate": 1.3977306237161877e-05,
      "loss": 1.0986,
      "step": 405
    },
    {
      "epoch": 0.43826830571886694,
      "grad_norm": 0.6011154736445118,
      "learning_rate": 1.3805253958361641e-05,
      "loss": 1.1116,
      "step": 410
    },
    {
      "epoch": 0.4436130411544629,
      "grad_norm": 0.6040242579577305,
      "learning_rate": 1.3631874227692549e-05,
      "loss": 1.1149,
      "step": 415
    },
    {
      "epoch": 0.4489577765900588,
      "grad_norm": 0.7416409141304053,
      "learning_rate": 1.3457227528173613e-05,
      "loss": 1.0748,
      "step": 420
    },
    {
      "epoch": 0.45430251202565475,
      "grad_norm": 0.6217709529894131,
      "learning_rate": 1.3281374784802263e-05,
      "loss": 1.1115,
      "step": 425
    },
    {
      "epoch": 0.4596472474612507,
      "grad_norm": 0.8392012725883703,
      "learning_rate": 1.3104377343300868e-05,
      "loss": 1.1133,
      "step": 430
    },
    {
      "epoch": 0.4649919828968466,
      "grad_norm": 0.5797775659342851,
      "learning_rate": 1.292629694871642e-05,
      "loss": 1.0903,
      "step": 435
    },
    {
      "epoch": 0.47033671833244256,
      "grad_norm": 0.6113910823226398,
      "learning_rate": 1.2747195723880976e-05,
      "loss": 1.0926,
      "step": 440
    },
    {
      "epoch": 0.4756814537680385,
      "grad_norm": 0.5692768252854349,
      "learning_rate": 1.2567136147740294e-05,
      "loss": 1.0826,
      "step": 445
    },
    {
      "epoch": 0.48102618920363444,
      "grad_norm": 0.6301411630406113,
      "learning_rate": 1.2386181033558205e-05,
      "loss": 1.0937,
      "step": 450
    },
    {
      "epoch": 0.4863709246392304,
      "grad_norm": 0.6047900390954858,
      "learning_rate": 1.2204393507004404e-05,
      "loss": 1.105,
      "step": 455
    },
    {
      "epoch": 0.4917156600748263,
      "grad_norm": 0.6085381528022415,
      "learning_rate": 1.2021836984133255e-05,
      "loss": 1.1024,
      "step": 460
    },
    {
      "epoch": 0.49706039551042225,
      "grad_norm": 0.6011681501783196,
      "learning_rate": 1.1838575149261256e-05,
      "loss": 1.0976,
      "step": 465
    },
    {
      "epoch": 0.5024051309460181,
      "grad_norm": 0.6392400785107228,
      "learning_rate": 1.165467193275097e-05,
      "loss": 1.0901,
      "step": 470
    },
    {
      "epoch": 0.5077498663816141,
      "grad_norm": 0.6053991505525524,
      "learning_rate": 1.1470191488709086e-05,
      "loss": 1.1032,
      "step": 475
    },
    {
      "epoch": 0.51309460181721,
      "grad_norm": 0.5753316050007754,
      "learning_rate": 1.1285198172606466e-05,
      "loss": 1.0749,
      "step": 480
    },
    {
      "epoch": 0.518439337252806,
      "grad_norm": 0.6285505694407728,
      "learning_rate": 1.1099756518827895e-05,
      "loss": 1.0953,
      "step": 485
    },
    {
      "epoch": 0.5237840726884019,
      "grad_norm": 0.5796168181428533,
      "learning_rate": 1.0913931218159482e-05,
      "loss": 1.0651,
      "step": 490
    },
    {
      "epoch": 0.5291288081239979,
      "grad_norm": 0.6215872365251179,
      "learning_rate": 1.072778709522143e-05,
      "loss": 1.0891,
      "step": 495
    },
    {
      "epoch": 0.5344735435595938,
      "grad_norm": 0.6067093643324101,
      "learning_rate": 1.0541389085854177e-05,
      "loss": 1.0974,
      "step": 500
    },
    {
      "epoch": 0.5398182789951897,
      "grad_norm": 0.6930747066128958,
      "learning_rate": 1.0354802214465715e-05,
      "loss": 1.0867,
      "step": 505
    },
    {
      "epoch": 0.5451630144307856,
      "grad_norm": 0.6022571323756606,
      "learning_rate": 1.0168091571348003e-05,
      "loss": 1.0936,
      "step": 510
    },
    {
      "epoch": 0.5505077498663816,
      "grad_norm": 0.5805209005822042,
      "learning_rate": 9.981322289970407e-06,
      "loss": 1.0836,
      "step": 515
    },
    {
      "epoch": 0.5558524853019775,
      "grad_norm": 0.5811749368741597,
      "learning_rate": 9.794559524258089e-06,
      "loss": 1.0663,
      "step": 520
    },
    {
      "epoch": 0.5611972207375735,
      "grad_norm": 0.6021048479287573,
      "learning_rate": 9.607868425863235e-06,
      "loss": 1.0663,
      "step": 525
    },
    {
      "epoch": 0.5665419561731694,
      "grad_norm": 0.5913920542970494,
      "learning_rate": 9.421314121437093e-06,
      "loss": 1.0813,
      "step": 530
    },
    {
      "epoch": 0.5718866916087654,
      "grad_norm": 0.5767870094456312,
      "learning_rate": 9.234961689910735e-06,
      "loss": 1.085,
      "step": 535
    },
    {
      "epoch": 0.5772314270443613,
      "grad_norm": 0.559034919037673,
      "learning_rate": 9.04887613979244e-06,
      "loss": 1.078,
      "step": 540
    },
    {
      "epoch": 0.5825761624799572,
      "grad_norm": 0.6089396748693244,
      "learning_rate": 8.863122386489704e-06,
      "loss": 1.0885,
      "step": 545
    },
    {
      "epoch": 0.5879208979155531,
      "grad_norm": 0.5766890027769522,
      "learning_rate": 8.677765229663634e-06,
      "loss": 1.0888,
      "step": 550
    },
    {
      "epoch": 0.5932656333511491,
      "grad_norm": 0.5853870942510547,
      "learning_rate": 8.492869330623813e-06,
      "loss": 1.1014,
      "step": 555
    },
    {
      "epoch": 0.598610368786745,
      "grad_norm": 0.5928775275360513,
      "learning_rate": 8.308499189771375e-06,
      "loss": 1.0823,
      "step": 560
    },
    {
      "epoch": 0.603955104222341,
      "grad_norm": 0.6001627479025635,
      "learning_rate": 8.124719124098218e-06,
      "loss": 1.0665,
      "step": 565
    },
    {
      "epoch": 0.6092998396579369,
      "grad_norm": 0.5691614222233347,
      "learning_rate": 7.941593244750232e-06,
      "loss": 1.0841,
      "step": 570
    },
    {
      "epoch": 0.6146445750935329,
      "grad_norm": 0.6139876428445209,
      "learning_rate": 7.759185434662281e-06,
      "loss": 1.0771,
      "step": 575
    },
    {
      "epoch": 0.6199893105291288,
      "grad_norm": 0.569968372295348,
      "learning_rate": 7.57755932627284e-06,
      "loss": 1.0822,
      "step": 580
    },
    {
      "epoch": 0.6253340459647247,
      "grad_norm": 0.5968201112764788,
      "learning_rate": 7.396778279326006e-06,
      "loss": 1.0745,
      "step": 585
    },
    {
      "epoch": 0.6306787814003206,
      "grad_norm": 0.5974784076204753,
      "learning_rate": 7.216905358768622e-06,
      "loss": 1.0936,
      "step": 590
    },
    {
      "epoch": 0.6360235168359166,
      "grad_norm": 0.5928009264712515,
      "learning_rate": 7.038003312750263e-06,
      "loss": 1.0813,
      "step": 595
    },
    {
      "epoch": 0.6413682522715125,
      "grad_norm": 0.5733603979293174,
      "learning_rate": 6.860134550733727e-06,
      "loss": 1.0761,
      "step": 600
    },
    {
      "epoch": 0.6467129877071085,
      "grad_norm": 0.603116938155265,
      "learning_rate": 6.68336112172366e-06,
      "loss": 1.0871,
      "step": 605
    },
    {
      "epoch": 0.6520577231427044,
      "grad_norm": 0.6039526863582695,
      "learning_rate": 6.5077446926209475e-06,
      "loss": 1.0678,
      "step": 610
    },
    {
      "epoch": 0.6574024585783004,
      "grad_norm": 0.5954738463812974,
      "learning_rate": 6.333346526710398e-06,
      "loss": 1.0716,
      "step": 615
    },
    {
      "epoch": 0.6627471940138963,
      "grad_norm": 0.5902108648241802,
      "learning_rate": 6.1602274622892175e-06,
      "loss": 1.0628,
      "step": 620
    },
    {
      "epoch": 0.6680919294494923,
      "grad_norm": 0.6067146546901032,
      "learning_rate": 5.988447891443744e-06,
      "loss": 1.0783,
      "step": 625
    },
    {
      "epoch": 0.6734366648850882,
      "grad_norm": 0.5748869135736328,
      "learning_rate": 5.818067738981851e-06,
      "loss": 1.0791,
      "step": 630
    },
    {
      "epoch": 0.6787814003206841,
      "grad_norm": 0.5821350543043562,
      "learning_rate": 5.649146441528341e-06,
      "loss": 1.0673,
      "step": 635
    },
    {
      "epoch": 0.6841261357562801,
      "grad_norm": 0.5527078044635662,
      "learning_rate": 5.48174292679065e-06,
      "loss": 1.0677,
      "step": 640
    },
    {
      "epoch": 0.689470871191876,
      "grad_norm": 0.5561609295629539,
      "learning_rate": 5.3159155930021e-06,
      "loss": 1.0768,
      "step": 645
    },
    {
      "epoch": 0.694815606627472,
      "grad_norm": 0.549819407078984,
      "learning_rate": 5.151722288549828e-06,
      "loss": 1.0674,
      "step": 650
    },
    {
      "epoch": 0.7001603420630679,
      "grad_norm": 0.560623656340893,
      "learning_rate": 4.989220291794549e-06,
      "loss": 1.0732,
      "step": 655
    },
    {
      "epoch": 0.7055050774986639,
      "grad_norm": 0.5529247905078265,
      "learning_rate": 4.82846629108917e-06,
      "loss": 1.0743,
      "step": 660
    },
    {
      "epoch": 0.7108498129342598,
      "grad_norm": 0.5583334021303159,
      "learning_rate": 4.66951636500322e-06,
      "loss": 1.0558,
      "step": 665
    },
    {
      "epoch": 0.7161945483698557,
      "grad_norm": 0.533776368721876,
      "learning_rate": 4.512425962759992e-06,
      "loss": 1.0597,
      "step": 670
    },
    {
      "epoch": 0.7215392838054516,
      "grad_norm": 0.5765547569424487,
      "learning_rate": 4.357249884893252e-06,
      "loss": 1.0746,
      "step": 675
    },
    {
      "epoch": 0.7268840192410476,
      "grad_norm": 0.5741538789829563,
      "learning_rate": 4.204042264130227e-06,
      "loss": 1.0621,
      "step": 680
    },
    {
      "epoch": 0.7322287546766435,
      "grad_norm": 0.5912060819980449,
      "learning_rate": 4.052856546507565e-06,
      "loss": 1.0674,
      "step": 685
    },
    {
      "epoch": 0.7375734901122395,
      "grad_norm": 0.564059077098447,
      "learning_rate": 3.9037454727268375e-06,
      "loss": 1.0912,
      "step": 690
    },
    {
      "epoch": 0.7429182255478354,
      "grad_norm": 0.5748584295192372,
      "learning_rate": 3.7567610597560854e-06,
      "loss": 1.0509,
      "step": 695
    },
    {
      "epoch": 0.7482629609834314,
      "grad_norm": 0.5309584601274542,
      "learning_rate": 3.611954582683861e-06,
      "loss": 1.0627,
      "step": 700
    },
    {
      "epoch": 0.7536076964190273,
      "grad_norm": 0.544257000754902,
      "learning_rate": 3.469376556832069e-06,
      "loss": 1.0742,
      "step": 705
    },
    {
      "epoch": 0.7589524318546232,
      "grad_norm": 0.5496461602941412,
      "learning_rate": 3.3290767201338247e-06,
      "loss": 1.0664,
      "step": 710
    },
    {
      "epoch": 0.7642971672902191,
      "grad_norm": 0.5713250118287427,
      "learning_rate": 3.1911040157825256e-06,
      "loss": 1.0633,
      "step": 715
    },
    {
      "epoch": 0.7696419027258151,
      "grad_norm": 0.5504915155298311,
      "learning_rate": 3.055506575158168e-06,
      "loss": 1.0627,
      "step": 720
    },
    {
      "epoch": 0.774986638161411,
      "grad_norm": 0.5434104339173769,
      "learning_rate": 2.922331701036848e-06,
      "loss": 1.0705,
      "step": 725
    },
    {
      "epoch": 0.780331373597007,
      "grad_norm": 0.5334824609097233,
      "learning_rate": 2.791625851089317e-06,
      "loss": 1.051,
      "step": 730
    },
    {
      "epoch": 0.7856761090326029,
      "grad_norm": 0.5378185395094066,
      "learning_rate": 2.663434621674367e-06,
      "loss": 1.0522,
      "step": 735
    },
    {
      "epoch": 0.7910208444681989,
      "grad_norm": 0.5504538579914903,
      "learning_rate": 2.537802731932674e-06,
      "loss": 1.0728,
      "step": 740
    },
    {
      "epoch": 0.7963655799037948,
      "grad_norm": 0.5373585274657487,
      "learning_rate": 2.4147740081866423e-06,
      "loss": 1.0633,
      "step": 745
    },
    {
      "epoch": 0.8017103153393907,
      "grad_norm": 0.5554278114259041,
      "learning_rate": 2.294391368651735e-06,
      "loss": 1.0751,
      "step": 750
    },
    {
      "epoch": 0.8070550507749866,
      "grad_norm": 0.5275678692558027,
      "learning_rate": 2.176696808464559e-06,
      "loss": 1.082,
      "step": 755
    },
    {
      "epoch": 0.8123997862105826,
      "grad_norm": 0.5542650344185944,
      "learning_rate": 2.0617313850330067e-06,
      "loss": 1.0528,
      "step": 760
    },
    {
      "epoch": 0.8177445216461785,
      "grad_norm": 0.5392679069437322,
      "learning_rate": 1.949535203713474e-06,
      "loss": 1.0792,
      "step": 765
    },
    {
      "epoch": 0.8230892570817745,
      "grad_norm": 0.5369812060072581,
      "learning_rate": 1.8401474038202338e-06,
      "loss": 1.0528,
      "step": 770
    },
    {
      "epoch": 0.8284339925173704,
      "grad_norm": 0.5372932888304011,
      "learning_rate": 1.7336061449717967e-06,
      "loss": 1.0535,
      "step": 775
    },
    {
      "epoch": 0.8337787279529664,
      "grad_norm": 0.5481755245262389,
      "learning_rate": 1.6299485937790505e-06,
      "loss": 1.0658,
      "step": 780
    },
    {
      "epoch": 0.8391234633885623,
      "grad_norm": 0.5595870996875869,
      "learning_rate": 1.5292109108797726e-06,
      "loss": 1.0757,
      "step": 785
    },
    {
      "epoch": 0.8444681988241582,
      "grad_norm": 0.5364934604870765,
      "learning_rate": 1.4314282383241097e-06,
      "loss": 1.063,
      "step": 790
    },
    {
      "epoch": 0.8498129342597541,
      "grad_norm": 0.5609127689083383,
      "learning_rate": 1.3366346873153703e-06,
      "loss": 1.0744,
      "step": 795
    },
    {
      "epoch": 0.8551576696953501,
      "grad_norm": 0.5310145160583636,
      "learning_rate": 1.2448633263104415e-06,
      "loss": 1.0585,
      "step": 800
    },
    {
      "epoch": 0.860502405130946,
      "grad_norm": 0.5521523815370556,
      "learning_rate": 1.1561461694839304e-06,
      "loss": 1.0607,
      "step": 805
    },
    {
      "epoch": 0.865847140566542,
      "grad_norm": 0.5327592746954725,
      "learning_rate": 1.070514165560138e-06,
      "loss": 1.0755,
      "step": 810
    },
    {
      "epoch": 0.8711918760021379,
      "grad_norm": 0.522771169955475,
      "learning_rate": 9.879971870166628e-07,
      "loss": 1.0603,
      "step": 815
    },
    {
      "epoch": 0.8765366114377339,
      "grad_norm": 0.5207482455042327,
      "learning_rate": 9.086240196634899e-07,
      "loss": 1.0487,
      "step": 820
    },
    {
      "epoch": 0.8818813468733298,
      "grad_norm": 0.523937228643846,
      "learning_rate": 8.324223526011321e-07,
      "loss": 1.0686,
      "step": 825
    },
    {
      "epoch": 0.8872260823089257,
      "grad_norm": 0.5330893469527221,
      "learning_rate": 7.594187685613763e-07,
      "loss": 1.0536,
      "step": 830
    },
    {
      "epoch": 0.8925708177445216,
      "grad_norm": 0.5340234457443259,
      "learning_rate": 6.896387346339683e-07,
      "loss": 1.0665,
      "step": 835
    },
    {
      "epoch": 0.8979155531801176,
      "grad_norm": 0.5267933609909023,
      "learning_rate": 6.231065933824975e-07,
      "loss": 1.0663,
      "step": 840
    },
    {
      "epoch": 0.9032602886157135,
      "grad_norm": 0.5368805517176971,
      "learning_rate": 5.598455543525571e-07,
      "loss": 1.0637,
      "step": 845
    },
    {
      "epoch": 0.9086050240513095,
      "grad_norm": 0.5487309625497968,
      "learning_rate": 4.998776859751619e-07,
      "loss": 1.0547,
      "step": 850
    },
    {
      "epoch": 0.9139497594869054,
      "grad_norm": 0.5334319354529974,
      "learning_rate": 4.4322390786824986e-07,
      "loss": 1.0667,
      "step": 855
    },
    {
      "epoch": 0.9192944949225014,
      "grad_norm": 0.5245196378965641,
      "learning_rate": 3.8990398353891954e-07,
      "loss": 1.0458,
      "step": 860
    },
    {
      "epoch": 0.9246392303580973,
      "grad_norm": 0.558842224610147,
      "learning_rate": 3.3993651348899537e-07,
      "loss": 1.0503,
      "step": 865
    },
    {
      "epoch": 0.9299839657936932,
      "grad_norm": 0.5295871900749529,
      "learning_rate": 2.9333892872629664e-07,
      "loss": 1.0588,
      "step": 870
    },
    {
      "epoch": 0.9353287012292891,
      "grad_norm": 0.5371012278507433,
      "learning_rate": 2.501274846838797e-07,
      "loss": 1.0601,
      "step": 875
    },
    {
      "epoch": 0.9406734366648851,
      "grad_norm": 0.5783815004236694,
      "learning_rate": 2.1031725554937378e-07,
      "loss": 1.0468,
      "step": 880
    },
    {
      "epoch": 0.946018172100481,
      "grad_norm": 0.5358673239871722,
      "learning_rate": 1.739221290063986e-07,
      "loss": 1.0488,
      "step": 885
    },
    {
      "epoch": 0.951362907536077,
      "grad_norm": 0.5228994349325079,
      "learning_rate": 1.4095480138988204e-07,
      "loss": 1.0626,
      "step": 890
    },
    {
      "epoch": 0.9567076429716729,
      "grad_norm": 0.5313139641555241,
      "learning_rate": 1.1142677325698514e-07,
      "loss": 1.0597,
      "step": 895
    },
    {
      "epoch": 0.9620523784072689,
      "grad_norm": 0.5507716949364421,
      "learning_rate": 8.534834537516246e-08,
      "loss": 1.0681,
      "step": 900
    },
    {
      "epoch": 0.9673971138428648,
      "grad_norm": 0.5377195266019913,
      "learning_rate": 6.272861512876871e-08,
      "loss": 1.0611,
      "step": 905
    },
    {
      "epoch": 0.9727418492784607,
      "grad_norm": 0.5165257310469139,
      "learning_rate": 4.357547334546408e-08,
      "loss": 1.05,
      "step": 910
    },
    {
      "epoch": 0.9780865847140566,
      "grad_norm": 0.5707210190605927,
      "learning_rate": 2.7895601543520557e-08,
      "loss": 1.0611,
      "step": 915
    },
    {
      "epoch": 0.9834313201496526,
      "grad_norm": 0.5355379992770486,
      "learning_rate": 1.56944696009953e-08,
      "loss": 1.0651,
      "step": 920
    },
    {
      "epoch": 0.9887760555852485,
      "grad_norm": 0.5099073528862942,
      "learning_rate": 6.976333847578121e-09,
      "loss": 1.0682,
      "step": 925
    },
    {
      "epoch": 0.9941207910208445,
      "grad_norm": 0.5370655655519158,
      "learning_rate": 1.7442355797825383e-09,
      "loss": 1.0509,
      "step": 930
    },
    {
      "epoch": 0.9994655264564404,
      "grad_norm": 0.5487125750688506,
      "learning_rate": 0.0,
      "loss": 1.0557,
      "step": 935
    },
    {
      "epoch": 0.9994655264564404,
      "eval_loss": 1.0701019763946533,
      "eval_runtime": 127.1906,
      "eval_samples_per_second": 104.143,
      "eval_steps_per_second": 1.627,
      "step": 935
    },
    {
      "epoch": 0.9994655264564404,
      "step": 935,
      "total_flos": 391330576465920.0,
      "train_loss": 1.1051229808419782,
      "train_runtime": 6675.4839,
      "train_samples_per_second": 17.937,
      "train_steps_per_second": 0.14
    }
  ],
  "logging_steps": 5,
  "max_steps": 935,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 391330576465920.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}