{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.997242140099283,
  "eval_steps": 500,
  "global_step": 339,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00882515168229454,
      "grad_norm": 0.40674829483032227,
      "learning_rate": 9.999785297426788e-05,
      "loss": 0.2055,
      "num_input_tokens_seen": 203120,
      "step": 1
    },
    {
      "epoch": 0.01765030336458908,
      "grad_norm": 0.4242195785045624,
      "learning_rate": 9.999141208146028e-05,
      "loss": 0.1902,
      "num_input_tokens_seen": 406048,
      "step": 2
    },
    {
      "epoch": 0.026475455046883617,
      "grad_norm": 0.3813261389732361,
      "learning_rate": 9.998067787472772e-05,
      "loss": 0.1421,
      "num_input_tokens_seen": 614736,
      "step": 3
    },
    {
      "epoch": 0.03530060672917816,
      "grad_norm": 0.28003761172294617,
      "learning_rate": 9.996565127593488e-05,
      "loss": 0.1102,
      "num_input_tokens_seen": 816416,
      "step": 4
    },
    {
      "epoch": 0.0441257584114727,
      "grad_norm": 0.25300610065460205,
      "learning_rate": 9.994633357558158e-05,
      "loss": 0.0801,
      "num_input_tokens_seen": 1024272,
      "step": 5
    },
    {
      "epoch": 0.052950910093767234,
      "grad_norm": 0.2328871786594391,
      "learning_rate": 9.99227264326918e-05,
      "loss": 0.0574,
      "num_input_tokens_seen": 1228192,
      "step": 6
    },
    {
      "epoch": 0.06177606177606178,
      "grad_norm": 0.17362241446971893,
      "learning_rate": 9.989483187467127e-05,
      "loss": 0.0401,
      "num_input_tokens_seen": 1434992,
      "step": 7
    },
    {
      "epoch": 0.07060121345835632,
      "grad_norm": 0.09250874817371368,
      "learning_rate": 9.986265229713331e-05,
      "loss": 0.0295,
      "num_input_tokens_seen": 1646560,
      "step": 8
    },
    {
      "epoch": 0.07942636514065085,
      "grad_norm": 0.08936059474945068,
      "learning_rate": 9.982619046369321e-05,
      "loss": 0.0262,
      "num_input_tokens_seen": 1838624,
      "step": 9
    },
    {
      "epoch": 0.0882515168229454,
      "grad_norm": 0.08603595942258835,
      "learning_rate": 9.978544950573074e-05,
      "loss": 0.0263,
      "num_input_tokens_seen": 2053488,
      "step": 10
    },
    {
      "epoch": 0.09707666850523994,
      "grad_norm": 0.07848804444074631,
      "learning_rate": 9.974043292212128e-05,
      "loss": 0.022,
      "num_input_tokens_seen": 2253680,
      "step": 11
    },
    {
      "epoch": 0.10590182018753447,
      "grad_norm": 0.06246768683195114,
      "learning_rate": 9.96911445789354e-05,
      "loss": 0.0202,
      "num_input_tokens_seen": 2442000,
      "step": 12
    },
    {
      "epoch": 0.11472697186982901,
      "grad_norm": 0.048259809613227844,
      "learning_rate": 9.963758870910671e-05,
      "loss": 0.0202,
      "num_input_tokens_seen": 2655920,
      "step": 13
    },
    {
      "epoch": 0.12355212355212356,
      "grad_norm": 0.03917853534221649,
      "learning_rate": 9.957976991206846e-05,
      "loss": 0.0178,
      "num_input_tokens_seen": 2874064,
      "step": 14
    },
    {
      "epoch": 0.13237727523441808,
      "grad_norm": 0.040510393679142,
      "learning_rate": 9.951769315335844e-05,
      "loss": 0.0158,
      "num_input_tokens_seen": 3071744,
      "step": 15
    },
    {
      "epoch": 0.14120242691671264,
      "grad_norm": 0.035558607429265976,
      "learning_rate": 9.945136376419259e-05,
      "loss": 0.0159,
      "num_input_tokens_seen": 3277904,
      "step": 16
    },
    {
      "epoch": 0.15002757859900717,
      "grad_norm": 0.034995947033166885,
      "learning_rate": 9.938078744100712e-05,
      "loss": 0.0147,
      "num_input_tokens_seen": 3493136,
      "step": 17
    },
    {
      "epoch": 0.1588527302813017,
      "grad_norm": 0.03230876475572586,
      "learning_rate": 9.930597024496931e-05,
      "loss": 0.0138,
      "num_input_tokens_seen": 3704288,
      "step": 18
    },
    {
      "epoch": 0.16767788196359626,
      "grad_norm": 0.028281500563025475,
      "learning_rate": 9.922691860145696e-05,
      "loss": 0.0128,
      "num_input_tokens_seen": 3904352,
      "step": 19
    },
    {
      "epoch": 0.1765030336458908,
      "grad_norm": 0.026264235377311707,
      "learning_rate": 9.914363929950659e-05,
      "loss": 0.0124,
      "num_input_tokens_seen": 4113888,
      "step": 20
    },
    {
      "epoch": 0.18532818532818532,
      "grad_norm": 0.023232094943523407,
      "learning_rate": 9.905613949123036e-05,
      "loss": 0.0116,
      "num_input_tokens_seen": 4323504,
      "step": 21
    },
    {
      "epoch": 0.19415333701047988,
      "grad_norm": 0.02393435873091221,
      "learning_rate": 9.896442669120187e-05,
      "loss": 0.0109,
      "num_input_tokens_seen": 4523008,
      "step": 22
    },
    {
      "epoch": 0.2029784886927744,
      "grad_norm": 0.024421676993370056,
      "learning_rate": 9.886850877581079e-05,
      "loss": 0.0106,
      "num_input_tokens_seen": 4732864,
      "step": 23
    },
    {
      "epoch": 0.21180364037506894,
      "grad_norm": 0.022869078442454338,
      "learning_rate": 9.876839398258641e-05,
      "loss": 0.0099,
      "num_input_tokens_seen": 4941936,
      "step": 24
    },
    {
      "epoch": 0.2206287920573635,
      "grad_norm": 0.025933578610420227,
      "learning_rate": 9.866409090949022e-05,
      "loss": 0.0109,
      "num_input_tokens_seen": 5143584,
      "step": 25
    },
    {
      "epoch": 0.22945394373965802,
      "grad_norm": 0.02043001353740692,
      "learning_rate": 9.855560851417752e-05,
      "loss": 0.0084,
      "num_input_tokens_seen": 5351024,
      "step": 26
    },
    {
      "epoch": 0.23827909542195255,
      "grad_norm": 0.02140035293996334,
      "learning_rate": 9.844295611322804e-05,
      "loss": 0.0081,
      "num_input_tokens_seen": 5563760,
      "step": 27
    },
    {
      "epoch": 0.2471042471042471,
      "grad_norm": 0.019948888570070267,
      "learning_rate": 9.832614338134595e-05,
      "loss": 0.0078,
      "num_input_tokens_seen": 5772416,
      "step": 28
    },
    {
      "epoch": 0.25592939878654164,
      "grad_norm": 0.021153336390852928,
      "learning_rate": 9.820518035052889e-05,
      "loss": 0.0081,
      "num_input_tokens_seen": 5974464,
      "step": 29
    },
    {
      "epoch": 0.26475455046883617,
      "grad_norm": 0.02002059668302536,
      "learning_rate": 9.808007740920646e-05,
      "loss": 0.0087,
      "num_input_tokens_seen": 6193520,
      "step": 30
    },
    {
      "epoch": 0.2735797021511307,
      "grad_norm": 0.029256833717226982,
      "learning_rate": 9.795084530134801e-05,
      "loss": 0.0079,
      "num_input_tokens_seen": 6399792,
      "step": 31
    },
    {
      "epoch": 0.2824048538334253,
      "grad_norm": 0.02395695447921753,
      "learning_rate": 9.781749512553999e-05,
      "loss": 0.0086,
      "num_input_tokens_seen": 6603584,
      "step": 32
    },
    {
      "epoch": 0.2912300055157198,
      "grad_norm": 0.02185678854584694,
      "learning_rate": 9.768003833403278e-05,
      "loss": 0.0079,
      "num_input_tokens_seen": 6810656,
      "step": 33
    },
    {
      "epoch": 0.30005515719801434,
      "grad_norm": 0.02072463184595108,
      "learning_rate": 9.753848673175707e-05,
      "loss": 0.0069,
      "num_input_tokens_seen": 7001792,
      "step": 34
    },
    {
      "epoch": 0.3088803088803089,
      "grad_norm": 0.018024709075689316,
      "learning_rate": 9.739285247531018e-05,
      "loss": 0.0064,
      "num_input_tokens_seen": 7205952,
      "step": 35
    },
    {
      "epoch": 0.3177054605626034,
      "grad_norm": 0.019729286432266235,
      "learning_rate": 9.724314807191195e-05,
      "loss": 0.006,
      "num_input_tokens_seen": 7406304,
      "step": 36
    },
    {
      "epoch": 0.32653061224489793,
      "grad_norm": 0.01830880530178547,
      "learning_rate": 9.708938637833065e-05,
      "loss": 0.0067,
      "num_input_tokens_seen": 7629568,
      "step": 37
    },
    {
      "epoch": 0.3353557639271925,
      "grad_norm": 0.021113887429237366,
      "learning_rate": 9.693158059977878e-05,
      "loss": 0.0063,
      "num_input_tokens_seen": 7845200,
      "step": 38
    },
    {
      "epoch": 0.34418091560948705,
      "grad_norm": 0.015138108283281326,
      "learning_rate": 9.676974428877901e-05,
      "loss": 0.0058,
      "num_input_tokens_seen": 8061840,
      "step": 39
    },
    {
      "epoch": 0.3530060672917816,
      "grad_norm": 0.017043087631464005,
      "learning_rate": 9.660389134400033e-05,
      "loss": 0.0061,
      "num_input_tokens_seen": 8279664,
      "step": 40
    },
    {
      "epoch": 0.3618312189740761,
      "grad_norm": 0.01955767348408699,
      "learning_rate": 9.643403600906433e-05,
      "loss": 0.0055,
      "num_input_tokens_seen": 8475376,
      "step": 41
    },
    {
      "epoch": 0.37065637065637064,
      "grad_norm": 0.014688636176288128,
      "learning_rate": 9.626019287132203e-05,
      "loss": 0.005,
      "num_input_tokens_seen": 8691760,
      "step": 42
    },
    {
      "epoch": 0.3794815223386652,
      "grad_norm": 0.01973150670528412,
      "learning_rate": 9.608237686060099e-05,
      "loss": 0.006,
      "num_input_tokens_seen": 8884736,
      "step": 43
    },
    {
      "epoch": 0.38830667402095975,
      "grad_norm": 0.01489401888102293,
      "learning_rate": 9.590060324792327e-05,
      "loss": 0.0048,
      "num_input_tokens_seen": 9084064,
      "step": 44
    },
    {
      "epoch": 0.3971318257032543,
      "grad_norm": 0.015995647758245468,
      "learning_rate": 9.571488764419381e-05,
      "loss": 0.0047,
      "num_input_tokens_seen": 9302144,
      "step": 45
    },
    {
      "epoch": 0.4059569773855488,
      "grad_norm": 0.01859475113451481,
      "learning_rate": 9.552524599885981e-05,
      "loss": 0.0053,
      "num_input_tokens_seen": 9517456,
      "step": 46
    },
    {
      "epoch": 0.41478212906784334,
      "grad_norm": 0.018746482208371162,
      "learning_rate": 9.533169459854098e-05,
      "loss": 0.0044,
      "num_input_tokens_seen": 9710768,
      "step": 47
    },
    {
      "epoch": 0.42360728075013787,
      "grad_norm": 0.017155013978481293,
      "learning_rate": 9.513425006563079e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 9914064,
      "step": 48
    },
    {
      "epoch": 0.43243243243243246,
      "grad_norm": 0.015938682481646538,
      "learning_rate": 9.493292935686895e-05,
      "loss": 0.0041,
      "num_input_tokens_seen": 10120208,
      "step": 49
    },
    {
      "epoch": 0.441257584114727,
      "grad_norm": 0.017114240676164627,
      "learning_rate": 9.472774976188515e-05,
      "loss": 0.0044,
      "num_input_tokens_seen": 10346304,
      "step": 50
    },
    {
      "epoch": 0.4500827357970215,
      "grad_norm": 0.014332287944853306,
      "learning_rate": 9.451872890171419e-05,
      "loss": 0.004,
      "num_input_tokens_seen": 10547984,
      "step": 51
    },
    {
      "epoch": 0.45890788747931605,
      "grad_norm": 0.017018554732203484,
      "learning_rate": 9.43058847272827e-05,
      "loss": 0.0045,
      "num_input_tokens_seen": 10754288,
      "step": 52
    },
    {
      "epoch": 0.4677330391616106,
      "grad_norm": 0.013670100830495358,
      "learning_rate": 9.408923551786743e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 10942704,
      "step": 53
    },
    {
      "epoch": 0.4765581908439051,
      "grad_norm": 0.016749229282140732,
      "learning_rate": 9.386879987952549e-05,
      "loss": 0.0034,
      "num_input_tokens_seen": 11150864,
      "step": 54
    },
    {
      "epoch": 0.4853833425261997,
      "grad_norm": 0.01554529182612896,
      "learning_rate": 9.364459674349641e-05,
      "loss": 0.0042,
      "num_input_tokens_seen": 11367728,
      "step": 55
    },
    {
      "epoch": 0.4942084942084942,
      "grad_norm": 0.015070905908942223,
      "learning_rate": 9.341664536457626e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 11575536,
      "step": 56
    },
    {
      "epoch": 0.5030336458907887,
      "grad_norm": 0.016440849751234055,
      "learning_rate": 9.31849653194641e-05,
      "loss": 0.0035,
      "num_input_tokens_seen": 11781328,
      "step": 57
    },
    {
      "epoch": 0.5118587975730833,
      "grad_norm": 0.014468475244939327,
      "learning_rate": 9.294957650508065e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 11981232,
      "step": 58
    },
    {
      "epoch": 0.5206839492553779,
      "grad_norm": 0.014588565565645695,
      "learning_rate": 9.27104991368596e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 12187296,
      "step": 59
    },
    {
      "epoch": 0.5295091009376723,
      "grad_norm": 0.0141281234100461,
      "learning_rate": 9.246775374701139e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 12385632,
      "step": 60
    },
    {
      "epoch": 0.5383342526199669,
      "grad_norm": 0.013463583774864674,
      "learning_rate": 9.222136118275995e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 12588928,
      "step": 61
    },
    {
      "epoch": 0.5471594043022614,
      "grad_norm": 0.014033553190529346,
      "learning_rate": 9.197134260455233e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 12825616,
      "step": 62
    },
    {
      "epoch": 0.555984555984556,
      "grad_norm": 0.013906535692512989,
      "learning_rate": 9.171771948424137e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 13044976,
      "step": 63
    },
    {
      "epoch": 0.5648097076668506,
      "grad_norm": 0.012418747879564762,
      "learning_rate": 9.146051360324166e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 13255280,
      "step": 64
    },
    {
      "epoch": 0.573634859349145,
      "grad_norm": 0.015126565471291542,
      "learning_rate": 9.119974705065901e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 13463456,
      "step": 65
    },
    {
      "epoch": 0.5824600110314396,
      "grad_norm": 0.013123284094035625,
      "learning_rate": 9.093544222139337e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 13667744,
      "step": 66
    },
    {
      "epoch": 0.5912851627137341,
      "grad_norm": 0.014246366918087006,
      "learning_rate": 9.066762181421552e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 13874240,
      "step": 67
    },
    {
      "epoch": 0.6001103143960287,
      "grad_norm": 0.011402356438338757,
      "learning_rate": 9.039630882981768e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 14081392,
      "step": 68
    },
    {
      "epoch": 0.6089354660783233,
      "grad_norm": 0.014725148677825928,
      "learning_rate": 9.012152656883823e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 14300896,
      "step": 69
    },
    {
      "epoch": 0.6177606177606177,
      "grad_norm": 0.014837515540421009,
      "learning_rate": 8.984329862986056e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 14523968,
      "step": 70
    },
    {
      "epoch": 0.6265857694429123,
      "grad_norm": 0.014493652619421482,
      "learning_rate": 8.956164890738643e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 14728960,
      "step": 71
    },
    {
      "epoch": 0.6354109211252068,
      "grad_norm": 0.011806878261268139,
      "learning_rate": 8.927660158978392e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 14912480,
      "step": 72
    },
    {
      "epoch": 0.6442360728075014,
      "grad_norm": 0.01818985864520073,
      "learning_rate": 8.898818115721008e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 15114608,
      "step": 73
    },
    {
      "epoch": 0.6530612244897959,
      "grad_norm": 0.015412255190312862,
      "learning_rate": 8.86964123795085e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 15326112,
      "step": 74
    },
    {
      "epoch": 0.6618863761720905,
      "grad_norm": 0.013063928112387657,
      "learning_rate": 8.84013203140821e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 15545248,
      "step": 75
    },
    {
      "epoch": 0.670711527854385,
      "grad_norm": 0.016336796805262566,
      "learning_rate": 8.810293030374126e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 15751872,
      "step": 76
    },
    {
      "epoch": 0.6795366795366795,
      "grad_norm": 0.010313590988516808,
      "learning_rate": 8.780126797452713e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 15957872,
      "step": 77
    },
    {
      "epoch": 0.6883618312189741,
      "grad_norm": 0.015468253754079342,
      "learning_rate": 8.749635923351107e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 16162640,
      "step": 78
    },
    {
      "epoch": 0.6971869829012686,
      "grad_norm": 0.01543041318655014,
      "learning_rate": 8.71882302665696e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 16352368,
      "step": 79
    },
    {
      "epoch": 0.7060121345835632,
      "grad_norm": 0.01957864873111248,
      "learning_rate": 8.687690753613554e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 16563920,
      "step": 80
    },
    {
      "epoch": 0.7148372862658577,
      "grad_norm": 0.012508533895015717,
      "learning_rate": 8.656241777892543e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 16759024,
      "step": 81
    },
    {
      "epoch": 0.7236624379481522,
      "grad_norm": 0.012273616157472134,
      "learning_rate": 8.624478800364332e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 16973728,
      "step": 82
    },
    {
      "epoch": 0.7324875896304468,
      "grad_norm": 0.01503776852041483,
      "learning_rate": 8.592404548866123e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 17162752,
      "step": 83
    },
    {
      "epoch": 0.7413127413127413,
      "grad_norm": 0.014227951876819134,
      "learning_rate": 8.560021777967649e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 17364064,
      "step": 84
    },
    {
      "epoch": 0.7501378929950359,
      "grad_norm": 0.01252016518265009,
      "learning_rate": 8.527333268734606e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 17564576,
      "step": 85
    },
    {
      "epoch": 0.7589630446773304,
      "grad_norm": 0.011520475149154663,
      "learning_rate": 8.494341828489812e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 17778752,
      "step": 86
    },
    {
      "epoch": 0.7677881963596249,
      "grad_norm": 0.010531144216656685,
      "learning_rate": 8.461050290572114e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 17982448,
      "step": 87
    },
    {
      "epoch": 0.7766133480419195,
      "grad_norm": 0.010875461623072624,
      "learning_rate": 8.427461514093056e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 18180608,
      "step": 88
    },
    {
      "epoch": 0.785438499724214,
      "grad_norm": 0.007611530367285013,
      "learning_rate": 8.393578383691329e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 18384496,
      "step": 89
    },
    {
      "epoch": 0.7942636514065086,
      "grad_norm": 0.010159923695027828,
      "learning_rate": 8.359403809285053e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 18587744,
      "step": 90
    },
    {
      "epoch": 0.803088803088803,
      "grad_norm": 0.011715343222022057,
      "learning_rate": 8.324940725821852e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 18791056,
      "step": 91
    },
    {
      "epoch": 0.8119139547710976,
      "grad_norm": 0.012972251512110233,
      "learning_rate": 8.290192093026805e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 18985008,
      "step": 92
    },
    {
      "epoch": 0.8207391064533922,
      "grad_norm": 0.0135871022939682,
      "learning_rate": 8.255160895148263e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 19193888,
      "step": 93
    },
    {
      "epoch": 0.8295642581356867,
      "grad_norm": 0.011914449743926525,
      "learning_rate": 8.219850140701557e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 19399552,
      "step": 94
    },
    {
      "epoch": 0.8383894098179813,
      "grad_norm": 0.009591113775968552,
      "learning_rate": 8.184262862210624e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 19605120,
      "step": 95
    },
    {
      "epoch": 0.8472145615002757,
      "grad_norm": 0.009942690841853619,
      "learning_rate": 8.148402115947571e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 19802480,
      "step": 96
    },
    {
      "epoch": 0.8560397131825703,
      "grad_norm": 0.012667879462242126,
      "learning_rate": 8.112270981670196e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 20009520,
      "step": 97
    },
    {
      "epoch": 0.8648648648648649,
      "grad_norm": 0.010983509942889214,
      "learning_rate": 8.075872562357501e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 20235888,
      "step": 98
    },
    {
      "epoch": 0.8736900165471594,
      "grad_norm": 0.011479397304356098,
      "learning_rate": 8.039209983943201e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 20433600,
      "step": 99
    },
    {
      "epoch": 0.882515168229454,
      "grad_norm": 0.012184002436697483,
      "learning_rate": 8.002286395047267e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 20631664,
      "step": 100
    },
    {
      "epoch": 0.8913403199117484,
      "grad_norm": 0.009395604953169823,
      "learning_rate": 7.965104966705518e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 20833056,
      "step": 101
    },
    {
      "epoch": 0.900165471594043,
      "grad_norm": 0.013585143722593784,
      "learning_rate": 7.927668892097289e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 21051104,
      "step": 102
    },
    {
      "epoch": 0.9089906232763376,
      "grad_norm": 0.008882119320333004,
      "learning_rate": 7.889981386271201e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 21246080,
      "step": 103
    },
    {
      "epoch": 0.9178157749586321,
      "grad_norm": 0.010433576069772243,
      "learning_rate": 7.852045685869045e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 21439696,
      "step": 104
    },
    {
      "epoch": 0.9266409266409267,
      "grad_norm": 0.01474383007735014,
      "learning_rate": 7.813865048847819e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 21648432,
      "step": 105
    },
    {
      "epoch": 0.9354660783232212,
      "grad_norm": 0.011113091371953487,
      "learning_rate": 7.775442754199928e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 21864368,
      "step": 106
    },
    {
      "epoch": 0.9442912300055157,
      "grad_norm": 0.009181715548038483,
      "learning_rate": 7.736782101671587e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 22061968,
      "step": 107
    },
    {
      "epoch": 0.9531163816878102,
      "grad_norm": 0.0140100521966815,
      "learning_rate": 7.697886411479423e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 22278128,
      "step": 108
    },
    {
      "epoch": 0.9619415333701048,
      "grad_norm": 0.007349591236561537,
      "learning_rate": 7.658759024025349e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 22469056,
      "step": 109
    },
    {
      "epoch": 0.9707666850523994,
      "grad_norm": 0.01252900529652834,
      "learning_rate": 7.619403299609668e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 22662128,
      "step": 110
    },
    {
      "epoch": 0.9795918367346939,
      "grad_norm": 0.012083148583769798,
      "learning_rate": 7.579822618142505e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 22883216,
      "step": 111
    },
    {
      "epoch": 0.9884169884169884,
      "grad_norm": 0.010517132468521595,
      "learning_rate": 7.540020378853523e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 23085888,
      "step": 112
    },
    {
      "epoch": 0.9972421400992829,
      "grad_norm": 0.01143716461956501,
      "learning_rate": 7.500000000000001e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 23307520,
      "step": 113
    },
    {
      "epoch": 1.0088251516822946,
      "grad_norm": 0.0287212785333395,
      "learning_rate": 7.459764918573264e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 23564192,
      "step": 114
    },
    {
      "epoch": 1.0176503033645892,
      "grad_norm": 0.010353313758969307,
      "learning_rate": 7.419318590003523e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 23768816,
      "step": 115
    },
    {
      "epoch": 1.0264754550468835,
      "grad_norm": 0.013796573504805565,
      "learning_rate": 7.378664487863103e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 23974096,
      "step": 116
    },
    {
      "epoch": 1.0353006067291781,
      "grad_norm": 0.006352484691888094,
      "learning_rate": 7.33780610356814e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 24172256,
      "step": 117
    },
    {
      "epoch": 1.0441257584114727,
      "grad_norm": 0.007957457564771175,
      "learning_rate": 7.296746946078736e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 24362208,
      "step": 118
    },
    {
      "epoch": 1.0529509100937673,
      "grad_norm": 0.0068214968778193,
      "learning_rate": 7.255490541597594e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 24562224,
      "step": 119
    },
    {
      "epoch": 1.0617760617760619,
      "grad_norm": 0.00877879373729229,
      "learning_rate": 7.214040433267198e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 24776528,
      "step": 120
    },
    {
      "epoch": 1.0706012134583562,
      "grad_norm": 0.007200079504400492,
      "learning_rate": 7.172400180865513e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 24985008,
      "step": 121
    },
    {
      "epoch": 1.0794263651406508,
      "grad_norm": 0.010829208418726921,
      "learning_rate": 7.130573360500276e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 25200720,
      "step": 122
    },
    {
      "epoch": 1.0882515168229454,
      "grad_norm": 0.010170291177928448,
      "learning_rate": 7.088563564301873e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 25413568,
      "step": 123
    },
    {
      "epoch": 1.09707666850524,
      "grad_norm": 0.007032219786196947,
      "learning_rate": 7.046374400114842e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 25608576,
      "step": 124
    },
    {
      "epoch": 1.1059018201875346,
      "grad_norm": 0.00843306165188551,
      "learning_rate": 7.004009491188022e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 25818400,
      "step": 125
    },
    {
      "epoch": 1.114726971869829,
      "grad_norm": 0.00947788916528225,
      "learning_rate": 6.961472475863405e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 26037424,
      "step": 126
    },
    {
      "epoch": 1.1235521235521235,
      "grad_norm": 0.009593469090759754,
      "learning_rate": 6.918767007263646e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 26250480,
      "step": 127
    },
    {
      "epoch": 1.1323772752344181,
      "grad_norm": 0.012611499056220055,
      "learning_rate": 6.875896752978344e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 26458592,
      "step": 128
    },
    {
      "epoch": 1.1412024269167127,
      "grad_norm": 0.005860932637006044,
      "learning_rate": 6.832865394749065e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 26680256,
      "step": 129
    },
    {
      "epoch": 1.150027578599007,
      "grad_norm": 0.008905632421374321,
      "learning_rate": 6.789676628153143e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 26887424,
      "step": 130
    },
    {
      "epoch": 1.1588527302813016,
      "grad_norm": 0.00839240662753582,
      "learning_rate": 6.746334162286307e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 27112736,
      "step": 131
    },
    {
      "epoch": 1.1676778819635962,
      "grad_norm": 0.010829194448888302,
      "learning_rate": 6.702841719444141e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 27320064,
      "step": 132
    },
    {
      "epoch": 1.1765030336458908,
      "grad_norm": 0.005576102528721094,
      "learning_rate": 6.659203034802397e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 27520544,
      "step": 133
    },
    {
      "epoch": 1.1853281853281854,
      "grad_norm": 0.008609413169324398,
      "learning_rate": 6.615421856096231e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 27737920,
      "step": 134
    },
    {
      "epoch": 1.19415333701048,
      "grad_norm": 0.013195198960602283,
      "learning_rate": 6.571501943298334e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 27947552,
      "step": 135
    },
    {
      "epoch": 1.2029784886927744,
      "grad_norm": 0.008647961542010307,
      "learning_rate": 6.527447068296026e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 28143808,
      "step": 136
    },
    {
      "epoch": 1.211803640375069,
      "grad_norm": 0.006975845899432898,
      "learning_rate": 6.483261014567311e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 28349312,
      "step": 137
    },
    {
      "epoch": 1.2206287920573635,
      "grad_norm": 0.013750969432294369,
      "learning_rate": 6.438947576855968e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 28560096,
      "step": 138
    },
    {
      "epoch": 1.229453943739658,
      "grad_norm": 0.009799162857234478,
      "learning_rate": 6.394510560845637e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 28764544,
      "step": 139
    },
    {
      "epoch": 1.2382790954219525,
      "grad_norm": 0.00819414108991623,
      "learning_rate": 6.349953782832991e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 28949360,
      "step": 140
    },
    {
      "epoch": 1.247104247104247,
      "grad_norm": 0.008884673938155174,
      "learning_rate": 6.305281069399989e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 29148112,
      "step": 141
    },
    {
      "epoch": 1.2559293987865416,
      "grad_norm": 0.009248818270862103,
      "learning_rate": 6.26049625708524e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 29370624,
      "step": 142
    },
    {
      "epoch": 1.2647545504688362,
      "grad_norm": 0.008902438916265965,
      "learning_rate": 6.215603192054522e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 29572464,
      "step": 143
    },
    {
      "epoch": 1.2735797021511308,
      "grad_norm": 0.012439709156751633,
      "learning_rate": 6.17060572977047e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 29771152,
      "step": 144
    },
    {
      "epoch": 1.2824048538334254,
      "grad_norm": 0.013059360906481743,
      "learning_rate": 6.125507734661458e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 29954960,
      "step": 145
    },
    {
      "epoch": 1.2912300055157198,
      "grad_norm": 0.011295526288449764,
      "learning_rate": 6.080313079789723e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 30165568,
      "step": 146
    },
    {
      "epoch": 1.3000551571980143,
      "grad_norm": 0.01000818982720375,
      "learning_rate": 6.035025646518746e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 30372160,
      "step": 147
    },
    {
      "epoch": 1.308880308880309,
      "grad_norm": 0.010914387181401253,
      "learning_rate": 5.989649324179911e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 30572752,
      "step": 148
    },
    {
      "epoch": 1.3177054605626033,
      "grad_norm": 0.009289560839533806,
      "learning_rate": 5.944188009738483e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 30780496,
      "step": 149
    },
    {
      "epoch": 1.3265306122448979,
      "grad_norm": 0.015559184364974499,
      "learning_rate": 5.8986456074589404e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 30975120,
      "step": 150
    },
    {
      "epoch": 1.3353557639271925,
      "grad_norm": 0.00643413420766592,
      "learning_rate": 5.853026028569667e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 31174000,
      "step": 151
    },
    {
      "epoch": 1.344180915609487,
      "grad_norm": 0.0077626509591937065,
      "learning_rate": 5.807333190927053e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 31387088,
      "step": 152
    },
    {
      "epoch": 1.3530060672917816,
      "grad_norm": 0.0083751380443573,
      "learning_rate": 5.761571018679025e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 31576400,
      "step": 153
    },
    {
      "epoch": 1.3618312189740762,
      "grad_norm": 0.007961435243487358,
      "learning_rate": 5.715743441928041e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 31784320,
      "step": 154
    },
    {
      "epoch": 1.3706563706563706,
      "grad_norm": 0.006737589370459318,
      "learning_rate": 5.669854396393559e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 31987520,
      "step": 155
    },
    {
      "epoch": 1.3794815223386652,
      "grad_norm": 0.014642222784459591,
      "learning_rate": 5.6239078230740436e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 32187456,
      "step": 156
    },
    {
      "epoch": 1.3883066740209598,
      "grad_norm": 0.006064648274332285,
      "learning_rate": 5.5779076679085054e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 32384528,
      "step": 157
    },
    {
      "epoch": 1.3971318257032543,
      "grad_norm": 0.009461612440645695,
      "learning_rate": 5.531857881437612e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 32593040,
      "step": 158
    },
    {
      "epoch": 1.4059569773855487,
      "grad_norm": 0.007511747535318136,
      "learning_rate": 5.48576241846443e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 32797952,
      "step": 159
    },
    {
      "epoch": 1.4147821290678433,
      "grad_norm": 0.02702983096241951,
      "learning_rate": 5.4396252377147615e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 33008800,
      "step": 160
    },
    {
      "epoch": 1.4236072807501379,
      "grad_norm": 0.008439299650490284,
      "learning_rate": 5.3934503014971793e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 33208352,
      "step": 161
    },
    {
      "epoch": 1.4324324324324325,
      "grad_norm": 0.0037907836958765984,
      "learning_rate": 5.347241575362729e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 33410208,
      "step": 162
    },
    {
      "epoch": 1.441257584114727,
      "grad_norm": 0.008237862028181553,
      "learning_rate": 5.30100302776438e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 33631888,
      "step": 163
    },
    {
      "epoch": 1.4500827357970216,
      "grad_norm": 0.009860441088676453,
      "learning_rate": 5.254738629716186e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 33825152,
      "step": 164
    },
    {
      "epoch": 1.458907887479316,
      "grad_norm": 0.007564296945929527,
      "learning_rate": 5.208452354452274e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 34020352,
      "step": 165
    },
    {
      "epoch": 1.4677330391616106,
      "grad_norm": 0.019607344642281532,
      "learning_rate": 5.162148177085604e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 34226288,
      "step": 166
    },
    {
      "epoch": 1.4765581908439052,
      "grad_norm": 0.007924061268568039,
      "learning_rate": 5.115830074266591e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 34426672,
      "step": 167
    },
    {
      "epoch": 1.4853833425261997,
      "grad_norm": 0.006358864717185497,
      "learning_rate": 5.0695020238415756e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 34636944,
      "step": 168
    },
    {
      "epoch": 1.494208494208494,
      "grad_norm": 0.010681587271392345,
      "learning_rate": 5.0231680045112176e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 34839456,
      "step": 169
    },
    {
      "epoch": 1.5030336458907887,
      "grad_norm": 0.01033815648406744,
      "learning_rate": 4.976831995488784e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 35031600,
      "step": 170
    },
    {
      "epoch": 1.5118587975730833,
      "grad_norm": 0.016812577843666077,
      "learning_rate": 4.9304979761584256e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 35227728,
      "step": 171
    },
    {
      "epoch": 1.5206839492553779,
      "grad_norm": 0.008957776241004467,
      "learning_rate": 4.884169925733409e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 35436528,
      "step": 172
    },
    {
      "epoch": 1.5295091009376725,
      "grad_norm": 0.006675931625068188,
      "learning_rate": 4.837851822914397e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 35628624,
      "step": 173
    },
    {
      "epoch": 1.538334252619967,
      "grad_norm": 0.006146900821477175,
      "learning_rate": 4.791547645547726e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 35827376,
      "step": 174
    },
    {
      "epoch": 1.5471594043022614,
      "grad_norm": 0.012180755846202374,
      "learning_rate": 4.745261370283817e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 36056560,
      "step": 175
    },
    {
      "epoch": 1.555984555984556,
      "grad_norm": 0.00920344889163971,
      "learning_rate": 4.698996972235622e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 36267568,
      "step": 176
    },
    {
      "epoch": 1.5648097076668506,
      "grad_norm": 0.010103096254169941,
      "learning_rate": 4.652758424637271e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 36473008,
      "step": 177
    },
    {
      "epoch": 1.573634859349145,
      "grad_norm": 0.012086655013263226,
      "learning_rate": 4.606549698502823e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 36670944,
      "step": 178
    },
    {
      "epoch": 1.5824600110314395,
      "grad_norm": 0.0054108137264847755,
      "learning_rate": 4.56037476228524e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 36882256,
      "step": 179
    },
    {
      "epoch": 1.591285162713734,
      "grad_norm": 0.014871139079332352,
      "learning_rate": 4.5142375815355706e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 37091392,
      "step": 180
    },
    {
      "epoch": 1.6001103143960287,
      "grad_norm": 0.005915229208767414,
      "learning_rate": 4.468142118562389e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 37309680,
      "step": 181
    },
    {
      "epoch": 1.6089354660783233,
      "grad_norm": 0.006937643978744745,
      "learning_rate": 4.4220923320914964e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 37517952,
      "step": 182
    },
    {
      "epoch": 1.6177606177606179,
      "grad_norm": 0.00866376981139183,
      "learning_rate": 4.376092176925958e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 37732160,
      "step": 183
    },
    {
      "epoch": 1.6265857694429124,
      "grad_norm": 0.007841500453650951,
      "learning_rate": 4.330145603606441e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 37940368,
      "step": 184
    },
    {
      "epoch": 1.6354109211252068,
      "grad_norm": 0.008568421937525272,
      "learning_rate": 4.2842565580719595e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 38135024,
      "step": 185
    },
    {
      "epoch": 1.6442360728075014,
      "grad_norm": 0.011796732433140278,
      "learning_rate": 4.238428981320975e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 38336176,
      "step": 186
    },
    {
      "epoch": 1.6530612244897958,
      "grad_norm": 0.00755694042891264,
      "learning_rate": 4.192666809072948e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38548880,
      "step": 187
    },
    {
      "epoch": 1.6618863761720903,
      "grad_norm": 0.01243317686021328,
      "learning_rate": 4.146973971430333e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38755920,
      "step": 188
    },
    {
      "epoch": 1.670711527854385,
      "grad_norm": 0.006207725498825312,
      "learning_rate": 4.101354392541061e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 38973328,
      "step": 189
    },
    {
      "epoch": 1.6795366795366795,
      "grad_norm": 0.008532355539500713,
      "learning_rate": 4.0558119902615174e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 39193232,
      "step": 190
    },
    {
      "epoch": 1.688361831218974,
      "grad_norm": 0.008602111600339413,
      "learning_rate": 4.010350675820091e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 39406608,
      "step": 191
    },
    {
      "epoch": 1.6971869829012687,
      "grad_norm": 0.008903734385967255,
      "learning_rate": 3.964974353481254e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 39620160,
      "step": 192
    },
    {
      "epoch": 1.7060121345835633,
      "grad_norm": 0.005871508736163378,
      "learning_rate": 3.919686920210277e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39815952,
      "step": 193
    },
    {
      "epoch": 1.7148372862658579,
      "grad_norm": 0.008220325224101543,
      "learning_rate": 3.874492265338544e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40015408,
      "step": 194
    },
    {
      "epoch": 1.7236624379481522,
      "grad_norm": 0.00940727163106203,
      "learning_rate": 3.829394270229531e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40215328,
      "step": 195
    },
    {
      "epoch": 1.7324875896304468,
      "grad_norm": 0.005745697300881147,
      "learning_rate": 3.784396807945477e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40414384,
      "step": 196
    },
    {
      "epoch": 1.7413127413127412,
      "grad_norm": 0.009524352848529816,
      "learning_rate": 3.7395037429147615e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40620656,
      "step": 197
    },
    {
      "epoch": 1.7501378929950357,
      "grad_norm": 0.00809427909553051,
      "learning_rate": 3.694718930600012e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40847008,
      "step": 198
    },
    {
      "epoch": 1.7589630446773303,
      "grad_norm": 0.0051635075360536575,
      "learning_rate": 3.65004621716701e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 41036368,
      "step": 199
    },
    {
      "epoch": 1.767788196359625,
      "grad_norm": 0.006504002492874861,
      "learning_rate": 3.6054894391543646e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 41252976,
      "step": 200
    },
    {
      "epoch": 1.7766133480419195,
      "grad_norm": 0.009855791926383972,
      "learning_rate": 3.561052423144032e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41465104,
      "step": 201
    },
    {
      "epoch": 1.785438499724214,
      "grad_norm": 0.004304118454456329,
      "learning_rate": 3.5167389854326905e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41670800,
      "step": 202
    },
    {
      "epoch": 1.7942636514065087,
      "grad_norm": 0.014682441018521786,
      "learning_rate": 3.4725529317039754e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 41883536,
      "step": 203
    },
    {
      "epoch": 1.803088803088803,
      "grad_norm": 0.0061918287537992,
      "learning_rate": 3.428498056701665e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42083360,
      "step": 204
    },
    {
      "epoch": 1.8119139547710976,
      "grad_norm": 0.009490927681326866,
      "learning_rate": 3.38457814390377e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42283120,
      "step": 205
    },
    {
      "epoch": 1.8207391064533922,
      "grad_norm": 0.008434086106717587,
      "learning_rate": 3.340796965197604e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42499088,
      "step": 206
    },
    {
      "epoch": 1.8295642581356866,
      "grad_norm": 0.004052174277603626,
      "learning_rate": 3.297158280555862e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42692976,
      "step": 207
    },
    {
      "epoch": 1.8383894098179812,
      "grad_norm": 0.007411065977066755,
      "learning_rate": 3.2536658377136935e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42907216,
      "step": 208
    },
    {
      "epoch": 1.8472145615002757,
      "grad_norm": 0.006996455602347851,
      "learning_rate": 3.210323371846857e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43112448,
      "step": 209
    },
    {
      "epoch": 1.8560397131825703,
      "grad_norm": 0.006998082622885704,
      "learning_rate": 3.167134605250938e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 43340096,
      "step": 210
    },
    {
      "epoch": 1.864864864864865,
      "grad_norm": 0.006418649572879076,
      "learning_rate": 3.124103247021657e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43539664,
      "step": 211
    },
    {
      "epoch": 1.8736900165471595,
      "grad_norm": 0.009151714853942394,
      "learning_rate": 3.081232992736355e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 43727664,
      "step": 212
    },
    {
      "epoch": 1.882515168229454,
      "grad_norm": 0.004692760296165943,
      "learning_rate": 3.0385275241365962e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43953584,
      "step": 213
    },
    {
      "epoch": 1.8913403199117484,
      "grad_norm": 0.006455820985138416,
      "learning_rate": 2.9959905088119776e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44157504,
      "step": 214
    },
    {
      "epoch": 1.900165471594043,
      "grad_norm": 0.006325691007077694,
      "learning_rate": 2.9536255998851613e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44350448,
      "step": 215
    },
    {
      "epoch": 1.9089906232763376,
      "grad_norm": 0.006784004159271717,
      "learning_rate": 2.9114364356981272e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44561472,
      "step": 216
    },
    {
      "epoch": 1.917815774958632,
      "grad_norm": 0.008874817751348019,
      "learning_rate": 2.8694266394997238e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44769936,
      "step": 217
    },
    {
      "epoch": 1.9266409266409266,
      "grad_norm": 0.006964050233364105,
      "learning_rate": 2.8275998191344888e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44979344,
      "step": 218
    },
    {
      "epoch": 1.9354660783232212,
      "grad_norm": 0.014264012686908245,
      "learning_rate": 2.7859595667328026e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45196944,
      "step": 219
    },
    {
      "epoch": 1.9442912300055157,
      "grad_norm": 0.005279663018882275,
      "learning_rate": 2.7445094584024067e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45406832,
      "step": 220
    },
    {
      "epoch": 1.9531163816878103,
      "grad_norm": 0.0171637125313282,
      "learning_rate": 2.7032530539212658e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45603120,
      "step": 221
    },
    {
      "epoch": 1.961941533370105,
      "grad_norm": 0.007687513716518879,
      "learning_rate": 2.6621938964318595e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45805184,
      "step": 222
    },
    {
      "epoch": 1.9707666850523995,
      "grad_norm": 0.0034611017908900976,
      "learning_rate": 2.621335512136899e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46001184,
      "step": 223
    },
    {
      "epoch": 1.9795918367346939,
      "grad_norm": 0.004358428996056318,
      "learning_rate": 2.5806814099964772e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46206288,
      "step": 224
    },
    {
      "epoch": 1.9884169884169884,
      "grad_norm": 0.008765267208218575,
      "learning_rate": 2.540235081426736e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46427344,
      "step": 225
    },
    {
      "epoch": 1.9972421400992828,
      "grad_norm": 0.006889387033879757,
      "learning_rate": 2.500000000000001e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 46627344,
      "step": 226
    },
    {
      "epoch": 2.0088251516822946,
      "grad_norm": 0.043494511395692825,
      "learning_rate": 2.459979621146477e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 46901504,
      "step": 227
    },
    {
      "epoch": 2.017650303364589,
      "grad_norm": 0.007718184031546116,
      "learning_rate": 2.4201773818574956e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47104400,
      "step": 228
    },
    {
      "epoch": 2.0264754550468838,
      "grad_norm": 0.003912526648491621,
      "learning_rate": 2.3805967003903333e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47314176,
      "step": 229
    },
    {
      "epoch": 2.0353006067291783,
      "grad_norm": 0.010783454403281212,
      "learning_rate": 2.3412409759746528e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47525264,
      "step": 230
    },
    {
      "epoch": 2.0441257584114725,
      "grad_norm": 0.0026623259764164686,
      "learning_rate": 2.302113588520578e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47724528,
      "step": 231
    },
    {
      "epoch": 2.052950910093767,
      "grad_norm": 0.00557671207934618,
      "learning_rate": 2.2632178983284153e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47932624,
      "step": 232
    },
    {
      "epoch": 2.0617760617760617,
      "grad_norm": 0.003710981458425522,
      "learning_rate": 2.2245572458000712e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48148608,
      "step": 233
    },
    {
      "epoch": 2.0706012134583562,
      "grad_norm": 0.009742701426148415,
      "learning_rate": 2.1861349511521815e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 48373632,
      "step": 234
    },
    {
      "epoch": 2.079426365140651,
      "grad_norm": 0.009755464270710945,
      "learning_rate": 2.147954314130955e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 48586512,
      "step": 235
    },
    {
      "epoch": 2.0882515168229454,
      "grad_norm": 0.002706202445551753,
      "learning_rate": 2.1100186137288e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48793568,
      "step": 236
    },
    {
      "epoch": 2.09707666850524,
      "grad_norm": 0.005180325359106064,
      "learning_rate": 2.072331107902713e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49006224,
      "step": 237
    },
    {
      "epoch": 2.1059018201875346,
      "grad_norm": 0.005968959536403418,
      "learning_rate": 2.0348950332944834e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49217632,
      "step": 238
    },
    {
      "epoch": 2.114726971869829,
      "grad_norm": 0.0063306307420134544,
      "learning_rate": 1.9977136049527345e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49426624,
      "step": 239
    },
    {
      "epoch": 2.1235521235521237,
      "grad_norm": 0.005157762672752142,
      "learning_rate": 1.960790016056801e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49623376,
      "step": 240
    },
    {
      "epoch": 2.132377275234418,
      "grad_norm": 0.005218483041971922,
      "learning_rate": 1.9241274376425e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49828144,
      "step": 241
    },
    {
      "epoch": 2.1412024269167125,
      "grad_norm": 0.00744604179635644,
      "learning_rate": 1.8877290183298057e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50018448,
      "step": 242
    },
    {
      "epoch": 2.150027578599007,
      "grad_norm": 0.005399591755121946,
      "learning_rate": 1.8515978840524302e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50218176,
      "step": 243
    },
    {
      "epoch": 2.1588527302813016,
      "grad_norm": 0.005761398002505302,
      "learning_rate": 1.815737137789377e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50424896,
      "step": 244
    },
    {
      "epoch": 2.1676778819635962,
      "grad_norm": 0.006964447908103466,
      "learning_rate": 1.7801498592984446e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 50635088,
      "step": 245
    },
    {
      "epoch": 2.176503033645891,
      "grad_norm": 0.002962745726108551,
      "learning_rate": 1.7448391048517376e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50849552,
      "step": 246
    },
    {
      "epoch": 2.1853281853281854,
      "grad_norm": 0.005332667380571365,
      "learning_rate": 1.7098079069731958e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51037776,
      "step": 247
    },
    {
      "epoch": 2.19415333701048,
      "grad_norm": 0.006928949151188135,
      "learning_rate": 1.6750592741781497e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51242672,
      "step": 248
    },
    {
      "epoch": 2.2029784886927746,
      "grad_norm": 0.004213888198137283,
      "learning_rate": 1.640596190714947e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51437008,
      "step": 249
    },
    {
      "epoch": 2.211803640375069,
      "grad_norm": 0.010446918196976185,
      "learning_rate": 1.6064216163086716e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51641264,
      "step": 250
    },
    {
      "epoch": 2.2206287920573633,
      "grad_norm": 0.004029524512588978,
      "learning_rate": 1.5725384859069455e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51842592,
      "step": 251
    },
    {
      "epoch": 2.229453943739658,
      "grad_norm": 0.006790219806134701,
      "learning_rate": 1.538949709427886e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 52047456,
      "step": 252
    },
    {
      "epoch": 2.2382790954219525,
      "grad_norm": 0.003987099044024944,
      "learning_rate": 1.5056581715101886e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52242208,
      "step": 253
    },
    {
      "epoch": 2.247104247104247,
      "grad_norm": 0.008930574171245098,
      "learning_rate": 1.472666731265394e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 52436800,
      "step": 254
    },
    {
      "epoch": 2.2559293987865416,
      "grad_norm": 0.004108684603124857,
      "learning_rate": 1.4399782220323515e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52624752,
      "step": 255
    },
    {
      "epoch": 2.2647545504688362,
      "grad_norm": 0.00732703972607851,
      "learning_rate": 1.4075954511338785e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52836384,
      "step": 256
    },
    {
      "epoch": 2.273579702151131,
      "grad_norm": 0.006608397234231234,
      "learning_rate": 1.3755211996356687e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53059296,
      "step": 257
    },
    {
      "epoch": 2.2824048538334254,
      "grad_norm": 0.002376733347773552,
      "learning_rate": 1.3437582221074573e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53267440,
      "step": 258
    },
    {
      "epoch": 2.29123000551572,
      "grad_norm": 0.004921163432300091,
      "learning_rate": 1.3123092463864456e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53501008,
      "step": 259
    },
    {
      "epoch": 2.300055157198014,
      "grad_norm": 0.0034377635456621647,
      "learning_rate": 1.2811769733430406e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53700432,
      "step": 260
    },
    {
      "epoch": 2.3088803088803087,
      "grad_norm": 0.006821690127253532,
      "learning_rate": 1.250364076648894e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53919616,
      "step": 261
    },
    {
      "epoch": 2.3177054605626033,
      "grad_norm": 0.004776927176862955,
      "learning_rate": 1.2198732025472876e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54130528,
      "step": 262
    },
    {
      "epoch": 2.326530612244898,
      "grad_norm": 0.004824692849069834,
      "learning_rate": 1.1897069696258755e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 54350560,
      "step": 263
    },
    {
      "epoch": 2.3353557639271925,
      "grad_norm": 0.005174586083739996,
      "learning_rate": 1.1598679685917901e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54542224,
      "step": 264
    },
    {
      "epoch": 2.344180915609487,
      "grad_norm": 0.012352543883025646,
      "learning_rate": 1.1303587620491513e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 54745136,
      "step": 265
    },
    {
      "epoch": 2.3530060672917816,
      "grad_norm": 0.005056153051555157,
      "learning_rate": 1.1011818842789928e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54957584,
      "step": 266
    },
    {
      "epoch": 2.361831218974076,
      "grad_norm": 0.010525842197239399,
      "learning_rate": 1.0723398410216084e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55162496,
      "step": 267
    },
    {
      "epoch": 2.370656370656371,
      "grad_norm": 0.0092442212626338,
      "learning_rate": 1.0438351092613569e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 55376544,
      "step": 268
    },
    {
      "epoch": 2.3794815223386654,
      "grad_norm": 0.00699999462813139,
      "learning_rate": 1.0156701370139454e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55583072,
      "step": 269
    },
    {
      "epoch": 2.38830667402096,
      "grad_norm": 0.007677710149437189,
      "learning_rate": 9.878473431161767e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 55801200,
      "step": 270
    },
    {
      "epoch": 2.397131825703254,
      "grad_norm": 0.003174175275489688,
      "learning_rate": 9.603691170182317e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 55998080,
      "step": 271
    },
    {
      "epoch": 2.4059569773855487,
      "grad_norm": 0.005871200002729893,
      "learning_rate": 9.33237818578449e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 56200448,
      "step": 272
    },
    {
      "epoch": 2.4147821290678433,
      "grad_norm": 0.00371691957116127,
      "learning_rate": 9.064557778606631e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 56400416,
      "step": 273
    },
    {
      "epoch": 2.423607280750138,
      "grad_norm": 0.007599337492138147,
      "learning_rate": 8.800252949340998e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 56606128,
      "step": 274
    },
    {
      "epoch": 2.4324324324324325,
      "grad_norm": 0.0015243644593283534,
      "learning_rate": 8.539486396758356e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 56797824,
      "step": 275
    },
    {
      "epoch": 2.441257584114727,
      "grad_norm": 0.0030196798034012318,
      "learning_rate": 8.28228051575864e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57006384,
      "step": 276
    },
    {
      "epoch": 2.4500827357970216,
      "grad_norm": 0.005347589962184429,
      "learning_rate": 8.02865739544767e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57207824,
      "step": 277
    },
    {
      "epoch": 2.458907887479316,
      "grad_norm": 0.005150883924216032,
      "learning_rate": 7.778638817240042e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57415152,
      "step": 278
    },
    {
      "epoch": 2.467733039161611,
      "grad_norm": 0.006857512053102255,
      "learning_rate": 7.532246252988617e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57628096,
      "step": 279
    },
    {
      "epoch": 2.476558190843905,
      "grad_norm": 0.005364645272493362,
      "learning_rate": 7.289500863140414e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57824064,
      "step": 280
    },
    {
      "epoch": 2.4853833425261995,
      "grad_norm": 0.007198365870863199,
      "learning_rate": 7.05042349491935e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 58042720,
      "step": 281
    },
    {
      "epoch": 2.494208494208494,
      "grad_norm": 0.005014900583773851,
      "learning_rate": 6.815034680535915e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58255408,
      "step": 282
    },
    {
      "epoch": 2.5030336458907887,
      "grad_norm": 0.008873779326677322,
      "learning_rate": 6.5833546354237556e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58464800,
      "step": 283
    },
    {
      "epoch": 2.5118587975730833,
      "grad_norm": 0.0044725253246724606,
      "learning_rate": 6.355403256503595e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58672496,
      "step": 284
    },
    {
      "epoch": 2.520683949255378,
      "grad_norm": 0.0047348616644740105,
      "learning_rate": 6.1312001204745115e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 58898256,
      "step": 285
    },
    {
      "epoch": 2.5295091009376725,
      "grad_norm": 0.00710884016007185,
      "learning_rate": 5.910764482132575e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59107152,
      "step": 286
    },
    {
      "epoch": 2.538334252619967,
      "grad_norm": 0.007686229422688484,
      "learning_rate": 5.6941152727173265e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 59307664,
      "step": 287
    },
    {
      "epoch": 2.5471594043022616,
      "grad_norm": 0.014555118046700954,
      "learning_rate": 5.481271098285817e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 59514736,
      "step": 288
    },
    {
      "epoch": 2.5559845559845558,
      "grad_norm": 0.0028200196102261543,
      "learning_rate": 5.272250238114856e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59712512,
      "step": 289
    },
    {
      "epoch": 2.564809707666851,
      "grad_norm": 0.004194322973489761,
      "learning_rate": 5.067070643131055e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59910000,
      "step": 290
    },
    {
      "epoch": 2.573634859349145,
      "grad_norm": 0.006987538188695908,
      "learning_rate": 4.865749934369223e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 60116400,
      "step": 291
    },
    {
      "epoch": 2.5824600110314395,
      "grad_norm": 0.003778768004849553,
      "learning_rate": 4.668305401459022e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 60320368,
      "step": 292
    },
    {
      "epoch": 2.591285162713734,
      "grad_norm": 0.003472360782325268,
      "learning_rate": 4.474754001140191e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 60536528,
      "step": 293
    },
    {
      "epoch": 2.6001103143960287,
      "grad_norm": 0.009052475914359093,
      "learning_rate": 4.285112355806192e-06,
      "loss": 0.001,
      "num_input_tokens_seen": 60743120,
      "step": 294
    },
    {
      "epoch": 2.6089354660783233,
      "grad_norm": 0.0060082292184233665,
      "learning_rate": 4.099396752076745e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 60942704,
      "step": 295
    },
    {
      "epoch": 2.617760617760618,
      "grad_norm": 0.0075798071920871735,
      "learning_rate": 3.917623139399018e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61140128,
      "step": 296
    },
    {
      "epoch": 2.6265857694429124,
      "grad_norm": 0.0055752964690327644,
      "learning_rate": 3.7398071286779857e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61334224,
      "step": 297
    },
    {
      "epoch": 2.6354109211252066,
      "grad_norm": 0.007863204926252365,
      "learning_rate": 3.5659639909356723e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61543280,
      "step": 298
    },
    {
      "epoch": 2.6442360728075016,
      "grad_norm": 0.006538075394928455,
      "learning_rate": 3.3961086559996803e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 61750720,
      "step": 299
    },
    {
      "epoch": 2.6530612244897958,
      "grad_norm": 0.002779777627438307,
      "learning_rate": 3.230255711220992e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61945952,
      "step": 300
    },
    {
      "epoch": 2.6618863761720903,
      "grad_norm": 0.004271807614713907,
      "learning_rate": 3.0684194002212287e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62155632,
      "step": 301
    },
    {
      "epoch": 2.670711527854385,
      "grad_norm": 0.00638817623257637,
      "learning_rate": 2.910613621669356e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62353216,
      "step": 302
    },
    {
      "epoch": 2.6795366795366795,
      "grad_norm": 0.00442032516002655,
      "learning_rate": 2.7568519280880558e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62544128,
      "step": 303
    },
    {
      "epoch": 2.688361831218974,
      "grad_norm": 0.008686737157404423,
      "learning_rate": 2.607147524689829e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 62752688,
      "step": 304
    },
    {
      "epoch": 2.6971869829012687,
      "grad_norm": 0.0059651597402989864,
      "learning_rate": 2.4615132682429374e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62963296,
      "step": 305
    },
    {
      "epoch": 2.7060121345835633,
      "grad_norm": 0.0056177834048867226,
      "learning_rate": 2.3199616659672354e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 63161904,
      "step": 306
    },
    {
      "epoch": 2.714837286265858,
      "grad_norm": 0.0029979923274368048,
      "learning_rate": 2.182504874460006e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 63365744,
      "step": 307
    },
    {
      "epoch": 2.7236624379481524,
      "grad_norm": 0.004314000252634287,
      "learning_rate": 2.049154698651989e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 63571808,
      "step": 308
    },
    {
      "epoch": 2.7324875896304466,
      "grad_norm": 0.006837273947894573,
      "learning_rate": 1.919922590793549e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 63768960,
      "step": 309
    },
    {
      "epoch": 2.741312741312741,
      "grad_norm": 0.0037646403070539236,
      "learning_rate": 1.7948196494711188e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 63979648,
      "step": 310
    },
    {
      "epoch": 2.7501378929950357,
      "grad_norm": 0.0031723175197839737,
      "learning_rate": 1.6738566186540627e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 64189712,
      "step": 311
    },
    {
      "epoch": 2.7589630446773303,
      "grad_norm": 0.005477920174598694,
      "learning_rate": 1.5570438867719694e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 64400624,
      "step": 312
    },
    {
      "epoch": 2.767788196359625,
      "grad_norm": 0.006315939594060183,
      "learning_rate": 1.4443914858224938e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 64626320,
      "step": 313
    },
    {
      "epoch": 2.7766133480419195,
      "grad_norm": 0.004753002431243658,
      "learning_rate": 1.3359090905097848e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 64826480,
      "step": 314
    },
    {
      "epoch": 2.785438499724214,
      "grad_norm": 0.00812880601733923,
      "learning_rate": 1.2316060174136002e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 65031984,
      "step": 315
    },
    {
      "epoch": 2.7942636514065087,
      "grad_norm": 0.0029212606605142355,
      "learning_rate": 1.1314912241892183e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 65239456,
      "step": 316
    },
    {
      "epoch": 2.8030888030888033,
      "grad_norm": 0.006850802339613438,
      "learning_rate": 1.0355733087981378e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 65433888,
      "step": 317
    },
    {
      "epoch": 2.8119139547710974,
      "grad_norm": 0.0020711093675345182,
      "learning_rate": 9.43860508769645e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 65638288,
      "step": 318
    },
    {
      "epoch": 2.8207391064533924,
      "grad_norm": 0.004868640564382076,
      "learning_rate": 8.563607004934193e-07,
      "loss": 0.0002,
      "num_input_tokens_seen": 65855952,
      "step": 319
    },
    {
      "epoch": 2.8295642581356866,
      "grad_norm": 0.006297328509390354,
      "learning_rate": 7.730813985430407e-07,
      "loss": 0.0002,
      "num_input_tokens_seen": 66070192,
      "step": 320
    },
    {
      "epoch": 2.838389409817981,
      "grad_norm": 0.0036759376525878906,
      "learning_rate": 6.940297550306896e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 66283808,
      "step": 321
    },
    {
      "epoch": 2.8472145615002757,
      "grad_norm": 0.0120092136785388,
      "learning_rate": 6.192125589928821e-07,
      "loss": 0.0002,
      "num_input_tokens_seen": 66507776,
      "step": 322
    },
    {
      "epoch": 2.8560397131825703,
      "grad_norm": 0.005414010491222143,
      "learning_rate": 5.486362358074094e-07,
      "loss": 0.0002,
      "num_input_tokens_seen": 66708320,
      "step": 323
    },
    {
      "epoch": 2.864864864864865,
      "grad_norm": 0.007992051541805267,
      "learning_rate": 4.823068466415615e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 66910032,
      "step": 324
    },
    {
      "epoch": 2.8736900165471595,
      "grad_norm": 0.006493248511105776,
      "learning_rate": 4.202300879315446e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 67112784,
      "step": 325
    },
    {
      "epoch": 2.882515168229454,
      "grad_norm": 0.004381334874778986,
      "learning_rate": 3.624112908932942e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 67306464,
      "step": 326
    },
    {
      "epoch": 2.8913403199117482,
      "grad_norm": 0.00577085604891181,
      "learning_rate": 3.088554210646133e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 67504720,
      "step": 327
    },
    {
      "epoch": 2.9001654715940433,
      "grad_norm": 0.003793071024119854,
      "learning_rate": 2.595670778787196e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 67694048,
      "step": 328
    },
    {
      "epoch": 2.9089906232763374,
      "grad_norm": 0.00835067592561245,
      "learning_rate": 2.1455049426926666e-07,
      "loss": 0.0002,
      "num_input_tokens_seen": 67895008,
      "step": 329
    },
    {
      "epoch": 2.917815774958632,
      "grad_norm": 0.005372443702071905,
      "learning_rate": 1.7380953630678488e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 68093168,
      "step": 330
    },
    {
      "epoch": 2.9266409266409266,
      "grad_norm": 0.010219305753707886,
      "learning_rate": 1.373477028666803e-07,
      "loss": 0.0002,
      "num_input_tokens_seen": 68305568,
      "step": 331
    },
    {
      "epoch": 2.935466078323221,
      "grad_norm": 0.0038206197787076235,
      "learning_rate": 1.0516812532873621e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 68506384,
      "step": 332
    },
    {
      "epoch": 2.9442912300055157,
      "grad_norm": 0.007432411424815655,
      "learning_rate": 7.727356730820035e-08,
      "loss": 0.0002,
      "num_input_tokens_seen": 68716160,
      "step": 333
    },
    {
      "epoch": 2.9531163816878103,
      "grad_norm": 0.004036502446979284,
      "learning_rate": 5.3666424418413744e-08,
      "loss": 0.0001,
      "num_input_tokens_seen": 68918048,
      "step": 334
    },
    {
      "epoch": 2.961941533370105,
      "grad_norm": 0.0045955548994243145,
      "learning_rate": 3.4348724065119685e-08,
      "loss": 0.0001,
      "num_input_tokens_seen": 69129152,
      "step": 335
    },
    {
      "epoch": 2.9707666850523995,
      "grad_norm": 0.012164157815277576,
      "learning_rate": 1.9322125272297488e-08,
      "loss": 0.0003,
      "num_input_tokens_seen": 69328576,
      "step": 336
    },
    {
      "epoch": 2.979591836734694,
      "grad_norm": 0.0029640356078743935,
      "learning_rate": 8.587918539726402e-09,
      "loss": 0.0001,
      "num_input_tokens_seen": 69537232,
      "step": 337
    },
    {
      "epoch": 2.988416988416988,
      "grad_norm": 0.005239939782768488,
      "learning_rate": 2.1470257321298813e-09,
      "loss": 0.0001,
      "num_input_tokens_seen": 69761008,
      "step": 338
    },
    {
      "epoch": 2.997242140099283,
      "grad_norm": 0.0060053626075387,
      "learning_rate": 0.0,
      "loss": 0.0001,
      "num_input_tokens_seen": 69953200,
      "step": 339
    },
    {
      "epoch": 2.997242140099283,
      "num_input_tokens_seen": 69953200,
      "step": 339,
      "total_flos": 2.976146663409713e+18,
      "train_loss": 0.004280612113766934,
      "train_runtime": 8852.4475,
      "train_samples_per_second": 4.914,
      "train_steps_per_second": 0.038
    }
  ],
  "logging_steps": 1,
  "max_steps": 339,
  "num_input_tokens_seen": 69953200,
  "num_train_epochs": 3,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.976146663409713e+18,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}