{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 8,
  "global_step": 256,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00390625,
      "grad_norm": 3.380525042530954,
      "learning_rate": 1e-05,
      "loss": 0.2859,
      "step": 1
    },
    {
      "epoch": 0.0078125,
      "grad_norm": 2.6901012326349156,
      "learning_rate": 1e-05,
      "loss": 0.2117,
      "step": 2
    },
    {
      "epoch": 0.01171875,
      "grad_norm": 3.191447237922227,
      "learning_rate": 1e-05,
      "loss": 0.2602,
      "step": 3
    },
    {
      "epoch": 0.015625,
      "grad_norm": 2.204083519446381,
      "learning_rate": 1e-05,
      "loss": 0.1972,
      "step": 4
    },
    {
      "epoch": 0.01953125,
      "grad_norm": 2.0481149317155687,
      "learning_rate": 1e-05,
      "loss": 0.2338,
      "step": 5
    },
    {
      "epoch": 0.0234375,
      "grad_norm": 1.6269814174466988,
      "learning_rate": 1e-05,
      "loss": 0.214,
      "step": 6
    },
    {
      "epoch": 0.02734375,
      "grad_norm": 1.6908703624878527,
      "learning_rate": 1e-05,
      "loss": 0.2088,
      "step": 7
    },
    {
      "epoch": 0.03125,
      "grad_norm": 1.2059719622160197,
      "learning_rate": 1e-05,
      "loss": 0.1975,
      "step": 8
    },
    {
      "epoch": 0.03125,
      "eval_dev_acc": 0.515625,
      "eval_dev_token": 4849.7578125,
      "eval_runtime": 168.4394,
      "eval_samples_per_second": 0.095,
      "eval_steps_per_second": 0.006,
      "step": 8
    },
    {
      "epoch": 0.03515625,
      "grad_norm": 1.6837720712641369,
      "learning_rate": 1e-05,
      "loss": 0.1873,
      "step": 9
    },
    {
      "epoch": 0.0390625,
      "grad_norm": 1.2504651087103098,
      "learning_rate": 1e-05,
      "loss": 0.1959,
      "step": 10
    },
    {
      "epoch": 0.04296875,
      "grad_norm": 1.3187603751382884,
      "learning_rate": 1e-05,
      "loss": 0.2135,
      "step": 11
    },
    {
      "epoch": 0.046875,
      "grad_norm": 1.3545446581007174,
      "learning_rate": 1e-05,
      "loss": 0.2428,
      "step": 12
    },
    {
      "epoch": 0.05078125,
      "grad_norm": 1.6286051945906104,
      "learning_rate": 1e-05,
      "loss": 0.1708,
      "step": 13
    },
    {
      "epoch": 0.0546875,
      "grad_norm": 1.6081830921647842,
      "learning_rate": 1e-05,
      "loss": 0.1471,
      "step": 14
    },
    {
      "epoch": 0.05859375,
      "grad_norm": 1.4305460955933824,
      "learning_rate": 1e-05,
      "loss": 0.1837,
      "step": 15
    },
    {
      "epoch": 0.0625,
      "grad_norm": 1.3961670104174644,
      "learning_rate": 1e-05,
      "loss": 0.1352,
      "step": 16
    },
    {
      "epoch": 0.0625,
      "eval_dev_acc": 0.4296875,
      "eval_dev_token": 5067.265625,
      "eval_runtime": 167.2848,
      "eval_samples_per_second": 0.096,
      "eval_steps_per_second": 0.006,
      "step": 16
    },
    {
      "epoch": 0.06640625,
      "grad_norm": 1.5507019702345457,
      "learning_rate": 1e-05,
      "loss": 0.1657,
      "step": 17
    },
    {
      "epoch": 0.0703125,
      "grad_norm": 1.3395286968352729,
      "learning_rate": 1e-05,
      "loss": 0.1824,
      "step": 18
    },
    {
      "epoch": 0.07421875,
      "grad_norm": 2.201219146342779,
      "learning_rate": 1e-05,
      "loss": 0.1391,
      "step": 19
    },
    {
      "epoch": 0.078125,
      "grad_norm": 1.75559779570709,
      "learning_rate": 1e-05,
      "loss": 0.1351,
      "step": 20
    },
    {
      "epoch": 0.08203125,
      "grad_norm": 2.0359121335172428,
      "learning_rate": 1e-05,
      "loss": 0.1748,
      "step": 21
    },
    {
      "epoch": 0.0859375,
      "grad_norm": 1.6822343317370052,
      "learning_rate": 1e-05,
      "loss": 0.1582,
      "step": 22
    },
    {
      "epoch": 0.08984375,
      "grad_norm": 1.9664935447837442,
      "learning_rate": 1e-05,
      "loss": 0.1338,
      "step": 23
    },
    {
      "epoch": 0.09375,
      "grad_norm": 1.1463903797363937,
      "learning_rate": 1e-05,
      "loss": 0.1139,
      "step": 24
    },
    {
      "epoch": 0.09375,
      "eval_dev_acc": 0.4296875,
      "eval_dev_token": 4994.296875,
      "eval_runtime": 168.4043,
      "eval_samples_per_second": 0.095,
      "eval_steps_per_second": 0.006,
      "step": 24
    },
    {
      "epoch": 0.09765625,
      "grad_norm": 2.1728621095149627,
      "learning_rate": 1e-05,
      "loss": 0.1471,
      "step": 25
    },
    {
      "epoch": 0.1015625,
      "grad_norm": 1.6714738223766954,
      "learning_rate": 1e-05,
      "loss": 0.1349,
      "step": 26
    },
    {
      "epoch": 0.10546875,
      "grad_norm": 1.5574316583381629,
      "learning_rate": 1e-05,
      "loss": 0.1356,
      "step": 27
    },
    {
      "epoch": 0.109375,
      "grad_norm": 1.4728847084572547,
      "learning_rate": 1e-05,
      "loss": 0.1509,
      "step": 28
    },
    {
      "epoch": 0.11328125,
      "grad_norm": 1.4769394661942852,
      "learning_rate": 1e-05,
      "loss": 0.1294,
      "step": 29
    },
    {
      "epoch": 0.1171875,
      "grad_norm": 1.8550097520759188,
      "learning_rate": 1e-05,
      "loss": 0.1208,
      "step": 30
    },
    {
      "epoch": 0.12109375,
      "grad_norm": 1.75157088447911,
      "learning_rate": 1e-05,
      "loss": 0.0993,
      "step": 31
    },
    {
      "epoch": 0.125,
      "grad_norm": 1.6233472727407252,
      "learning_rate": 1e-05,
      "loss": 0.1412,
      "step": 32
    },
    {
      "epoch": 0.125,
      "eval_dev_acc": 0.4609375,
      "eval_dev_token": 4228.15625,
      "eval_runtime": 159.0398,
      "eval_samples_per_second": 0.101,
      "eval_steps_per_second": 0.006,
      "step": 32
    },
    {
      "epoch": 0.12890625,
      "grad_norm": 1.5246001678514782,
      "learning_rate": 1e-05,
      "loss": 0.1268,
      "step": 33
    },
    {
      "epoch": 0.1328125,
      "grad_norm": 1.020147996755851,
      "learning_rate": 1e-05,
      "loss": 0.166,
      "step": 34
    },
    {
      "epoch": 0.13671875,
      "grad_norm": 0.9795032964583498,
      "learning_rate": 1e-05,
      "loss": 0.1223,
      "step": 35
    },
    {
      "epoch": 0.140625,
      "grad_norm": 1.0328587053324862,
      "learning_rate": 1e-05,
      "loss": 0.0889,
      "step": 36
    },
    {
      "epoch": 0.14453125,
      "grad_norm": 0.8587530858129762,
      "learning_rate": 1e-05,
      "loss": 0.1618,
      "step": 37
    },
    {
      "epoch": 0.1484375,
      "grad_norm": 1.0451234874371433,
      "learning_rate": 1e-05,
      "loss": 0.1973,
      "step": 38
    },
    {
      "epoch": 0.15234375,
      "grad_norm": 1.032741287831154,
      "learning_rate": 1e-05,
      "loss": 0.1999,
      "step": 39
    },
    {
      "epoch": 0.15625,
      "grad_norm": 1.0128010813738295,
      "learning_rate": 1e-05,
      "loss": 0.1314,
      "step": 40
    },
    {
      "epoch": 0.15625,
      "eval_dev_acc": 0.40625,
      "eval_dev_token": 5015.7421875,
      "eval_runtime": 167.9354,
      "eval_samples_per_second": 0.095,
      "eval_steps_per_second": 0.006,
      "step": 40
    },
    {
      "epoch": 0.16015625,
      "grad_norm": 0.7085331860395175,
      "learning_rate": 1e-05,
      "loss": 0.1424,
      "step": 41
    },
    {
      "epoch": 0.1640625,
      "grad_norm": 0.8522197113830303,
      "learning_rate": 1e-05,
      "loss": 0.1523,
      "step": 42
    },
    {
      "epoch": 0.16796875,
      "grad_norm": 0.9700458234990689,
      "learning_rate": 1e-05,
      "loss": 0.1655,
      "step": 43
    },
    {
      "epoch": 0.171875,
      "grad_norm": 2.0713947251278855,
      "learning_rate": 1e-05,
      "loss": 0.2946,
      "step": 44
    },
    {
      "epoch": 0.17578125,
      "grad_norm": 1.6441862242379885,
      "learning_rate": 1e-05,
      "loss": 0.2547,
      "step": 45
    },
    {
      "epoch": 0.1796875,
      "grad_norm": 1.7959964112861366,
      "learning_rate": 1e-05,
      "loss": 0.3009,
      "step": 46
    },
    {
      "epoch": 0.18359375,
      "grad_norm": 1.3449858551505456,
      "learning_rate": 1e-05,
      "loss": 0.2094,
      "step": 47
    },
    {
      "epoch": 0.1875,
      "grad_norm": 1.2087309569022056,
      "learning_rate": 1e-05,
      "loss": 0.1908,
      "step": 48
    },
    {
      "epoch": 0.1875,
      "eval_dev_acc": 0.34375,
      "eval_dev_token": 4538.84375,
      "eval_runtime": 161.6976,
      "eval_samples_per_second": 0.099,
      "eval_steps_per_second": 0.006,
      "step": 48
    },
    {
      "epoch": 0.19140625,
      "grad_norm": 1.1559146316352948,
      "learning_rate": 1e-05,
      "loss": 0.3036,
      "step": 49
    },
    {
      "epoch": 0.1953125,
      "grad_norm": 1.131769529502962,
      "learning_rate": 1e-05,
      "loss": 0.2441,
      "step": 50
    },
    {
      "epoch": 0.19921875,
      "grad_norm": 1.4116452844735226,
      "learning_rate": 1e-05,
      "loss": 0.2028,
      "step": 51
    },
    {
      "epoch": 0.203125,
      "grad_norm": 0.7550364491986332,
      "learning_rate": 1e-05,
      "loss": 0.215,
      "step": 52
    },
    {
      "epoch": 0.20703125,
      "grad_norm": 1.3915284765850489,
      "learning_rate": 1e-05,
      "loss": 0.2878,
      "step": 53
    },
    {
      "epoch": 0.2109375,
      "grad_norm": 1.6351241901381652,
      "learning_rate": 1e-05,
      "loss": 0.2446,
      "step": 54
    },
    {
      "epoch": 0.21484375,
      "grad_norm": 1.6083218458029132,
      "learning_rate": 1e-05,
      "loss": 0.2088,
      "step": 55
    },
    {
      "epoch": 0.21875,
      "grad_norm": 0.7434150303822764,
      "learning_rate": 1e-05,
      "loss": 0.2262,
      "step": 56
    },
    {
      "epoch": 0.21875,
      "eval_dev_acc": 0.30708661675453186,
      "eval_dev_token": 5670.251953125,
      "eval_runtime": 174.7692,
      "eval_samples_per_second": 0.092,
      "eval_steps_per_second": 0.006,
      "step": 56
    },
    {
      "epoch": 0.22265625,
      "grad_norm": 1.0769799759099778,
      "learning_rate": 1e-05,
      "loss": 0.208,
      "step": 57
    },
    {
      "epoch": 0.2265625,
      "grad_norm": 0.9298141621627772,
      "learning_rate": 1e-05,
      "loss": 0.1687,
      "step": 58
    },
    {
      "epoch": 0.23046875,
      "grad_norm": 1.285492123129724,
      "learning_rate": 1e-05,
      "loss": 0.2427,
      "step": 59
    },
    {
      "epoch": 0.234375,
      "grad_norm": 0.8346778861730894,
      "learning_rate": 1e-05,
      "loss": 0.219,
      "step": 60
    },
    {
      "epoch": 0.23828125,
      "grad_norm": 0.9873196942775492,
      "learning_rate": 1e-05,
      "loss": 0.242,
      "step": 61
    },
    {
      "epoch": 0.2421875,
      "grad_norm": 0.9596507860915271,
      "learning_rate": 1e-05,
      "loss": 0.2148,
      "step": 62
    },
    {
      "epoch": 0.24609375,
      "grad_norm": 1.0988562593647762,
      "learning_rate": 1e-05,
      "loss": 0.2396,
      "step": 63
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9707635131928222,
      "learning_rate": 1e-05,
      "loss": 0.238,
      "step": 64
    },
    {
      "epoch": 0.25,
      "eval_dev_acc": 0.5390625,
      "eval_dev_token": 4394.921875,
      "eval_runtime": 161.3481,
      "eval_samples_per_second": 0.099,
      "eval_steps_per_second": 0.006,
      "step": 64
    },
    {
      "epoch": 0.25390625,
      "grad_norm": 0.8083595053544823,
      "learning_rate": 1e-05,
      "loss": 0.293,
      "step": 65
    },
    {
      "epoch": 0.2578125,
      "grad_norm": 0.6893947679382126,
      "learning_rate": 1e-05,
      "loss": 0.2866,
      "step": 66
    },
    {
      "epoch": 0.26171875,
      "grad_norm": 1.0271679359276198,
      "learning_rate": 1e-05,
      "loss": 0.2276,
      "step": 67
    },
    {
      "epoch": 0.265625,
      "grad_norm": 1.1776528602190077,
      "learning_rate": 1e-05,
      "loss": 0.1887,
      "step": 68
    },
    {
      "epoch": 0.26953125,
      "grad_norm": 1.163717423684938,
      "learning_rate": 1e-05,
      "loss": 0.2147,
      "step": 69
    },
    {
      "epoch": 0.2734375,
      "grad_norm": 0.8134427746893115,
      "learning_rate": 1e-05,
      "loss": 0.2342,
      "step": 70
    },
    {
      "epoch": 0.27734375,
      "grad_norm": 1.4269332848478926,
      "learning_rate": 1e-05,
      "loss": 0.1919,
      "step": 71
    },
    {
      "epoch": 0.28125,
      "grad_norm": 0.8200789264174901,
      "learning_rate": 1e-05,
      "loss": 0.2175,
      "step": 72
    },
    {
      "epoch": 0.28125,
      "eval_dev_acc": 0.53125,
      "eval_dev_token": 4859.7421875,
      "eval_runtime": 166.6197,
      "eval_samples_per_second": 0.096,
      "eval_steps_per_second": 0.006,
      "step": 72
    },
    {
      "epoch": 0.28515625,
      "grad_norm": 1.007316679088458,
      "learning_rate": 1e-05,
      "loss": 0.3108,
      "step": 73
    },
    {
      "epoch": 0.2890625,
      "grad_norm": 0.6637709768510952,
      "learning_rate": 1e-05,
      "loss": 0.1794,
      "step": 74
    },
    {
      "epoch": 0.29296875,
      "grad_norm": 1.0144512803754202,
      "learning_rate": 1e-05,
      "loss": 0.1905,
      "step": 75
    },
    {
      "epoch": 0.296875,
      "grad_norm": 1.2499777112248354,
      "learning_rate": 1e-05,
      "loss": 0.2014,
      "step": 76
    },
    {
      "epoch": 0.30078125,
      "grad_norm": 1.0642239482819718,
      "learning_rate": 1e-05,
      "loss": 0.1648,
      "step": 77
    },
    {
      "epoch": 0.3046875,
      "grad_norm": 0.8739614674360524,
      "learning_rate": 1e-05,
      "loss": 0.1537,
      "step": 78
    },
    {
      "epoch": 0.30859375,
      "grad_norm": 0.5320613340314281,
      "learning_rate": 1e-05,
      "loss": 0.2128,
      "step": 79
    },
    {
      "epoch": 0.3125,
      "grad_norm": 1.2802208673828028,
      "learning_rate": 1e-05,
      "loss": 0.1939,
      "step": 80
    },
    {
      "epoch": 0.3125,
      "eval_dev_acc": 0.4609375,
      "eval_dev_token": 5065.421875,
      "eval_runtime": 168.4523,
      "eval_samples_per_second": 0.095,
      "eval_steps_per_second": 0.006,
      "step": 80
    },
    {
      "epoch": 0.31640625,
      "grad_norm": 1.1564057868614226,
      "learning_rate": 1e-05,
      "loss": 0.2215,
      "step": 81
    },
    {
      "epoch": 0.3203125,
      "grad_norm": 0.7104999594850884,
      "learning_rate": 1e-05,
      "loss": 0.1224,
      "step": 82
    },
    {
      "epoch": 0.32421875,
      "grad_norm": 0.6466657594813067,
      "learning_rate": 1e-05,
      "loss": 0.145,
      "step": 83
    },
    {
      "epoch": 0.328125,
      "grad_norm": 1.3499118701284736,
      "learning_rate": 1e-05,
      "loss": 0.1963,
      "step": 84
    },
    {
      "epoch": 0.33203125,
      "grad_norm": 0.6363338361760021,
      "learning_rate": 1e-05,
      "loss": 0.1781,
      "step": 85
    },
    {
      "epoch": 0.3359375,
      "grad_norm": 0.8807906150832371,
      "learning_rate": 1e-05,
      "loss": 0.1426,
      "step": 86
    },
    {
      "epoch": 0.33984375,
      "grad_norm": 0.7466707582875238,
      "learning_rate": 1e-05,
      "loss": 0.1629,
      "step": 87
    },
    {
      "epoch": 0.34375,
      "grad_norm": 0.7773292125565866,
      "learning_rate": 1e-05,
      "loss": 0.181,
      "step": 88
    },
    {
      "epoch": 0.34375,
      "eval_dev_acc": 0.4609375,
      "eval_dev_token": 5092.8984375,
      "eval_runtime": 168.9275,
      "eval_samples_per_second": 0.095,
      "eval_steps_per_second": 0.006,
      "step": 88
    },
    {
      "epoch": 0.34765625,
      "grad_norm": 0.9798290139606278,
      "learning_rate": 1e-05,
      "loss": 0.1725,
      "step": 89
    },
    {
      "epoch": 0.3515625,
      "grad_norm": 1.2761428002675261,
      "learning_rate": 1e-05,
      "loss": 0.175,
      "step": 90
    },
    {
      "epoch": 0.35546875,
      "grad_norm": 0.5042091805859357,
      "learning_rate": 1e-05,
      "loss": 0.218,
      "step": 91
    },
    {
      "epoch": 0.359375,
      "grad_norm": 1.017358230975041,
      "learning_rate": 1e-05,
      "loss": 0.2502,
      "step": 92
    },
    {
      "epoch": 0.36328125,
      "grad_norm": 0.7366049175316091,
      "learning_rate": 1e-05,
      "loss": 0.1656,
      "step": 93
    },
    {
      "epoch": 0.3671875,
      "grad_norm": 0.9422427666318486,
      "learning_rate": 1e-05,
      "loss": 0.1455,
      "step": 94
    },
    {
      "epoch": 0.37109375,
      "grad_norm": 0.7689775552730859,
      "learning_rate": 1e-05,
      "loss": 0.1485,
      "step": 95
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.9090457524355386,
      "learning_rate": 1e-05,
      "loss": 0.1411,
      "step": 96
    },
    {
      "epoch": 0.375,
      "eval_dev_acc": 0.453125,
      "eval_dev_token": 4948.8359375,
      "eval_runtime": 165.5377,
      "eval_samples_per_second": 0.097,
      "eval_steps_per_second": 0.006,
      "step": 96
    },
    {
      "epoch": 0.37890625,
      "grad_norm": 0.7235724828873173,
      "learning_rate": 1e-05,
      "loss": 0.2193,
      "step": 97
    },
    {
      "epoch": 0.3828125,
      "grad_norm": 0.7200445685294068,
      "learning_rate": 1e-05,
      "loss": 0.1985,
      "step": 98
    },
    {
      "epoch": 0.38671875,
      "grad_norm": 0.6060156821220763,
      "learning_rate": 1e-05,
      "loss": 0.2096,
      "step": 99
    },
    {
      "epoch": 0.390625,
      "grad_norm": 0.7114968462244617,
      "learning_rate": 1e-05,
      "loss": 0.1928,
      "step": 100
    },
    {
      "epoch": 0.39453125,
      "grad_norm": 0.6397518359548336,
      "learning_rate": 1e-05,
      "loss": 0.2165,
      "step": 101
    },
    {
      "epoch": 0.3984375,
      "grad_norm": 0.7027126137819094,
      "learning_rate": 1e-05,
      "loss": 0.2263,
      "step": 102
    },
    {
      "epoch": 0.40234375,
      "grad_norm": 0.8648981933002193,
      "learning_rate": 1e-05,
      "loss": 0.2874,
      "step": 103
    },
    {
      "epoch": 0.40625,
      "grad_norm": 0.9742992968412495,
      "learning_rate": 1e-05,
      "loss": 0.1755,
      "step": 104
    },
    {
      "epoch": 0.40625,
      "eval_dev_acc": 0.3515625,
      "eval_dev_token": 5303.1796875,
      "eval_runtime": 173.9477,
      "eval_samples_per_second": 0.092,
      "eval_steps_per_second": 0.006,
      "step": 104
    },
    {
      "epoch": 0.41015625,
      "grad_norm": 0.6358933759276069,
      "learning_rate": 1e-05,
      "loss": 0.1907,
      "step": 105
    },
    {
      "epoch": 0.4140625,
      "grad_norm": 0.7859972506268991,
      "learning_rate": 1e-05,
      "loss": 0.1731,
      "step": 106
    },
    {
      "epoch": 0.41796875,
      "grad_norm": 0.6429885607052577,
      "learning_rate": 1e-05,
      "loss": 0.187,
      "step": 107
    },
    {
      "epoch": 0.421875,
      "grad_norm": 0.6314004528855494,
      "learning_rate": 1e-05,
      "loss": 0.2185,
      "step": 108
    },
    {
      "epoch": 0.42578125,
      "grad_norm": 0.8243656111706104,
      "learning_rate": 1e-05,
      "loss": 0.1384,
      "step": 109
    },
    {
      "epoch": 0.4296875,
      "grad_norm": 0.7310074535827911,
      "learning_rate": 1e-05,
      "loss": 0.1724,
      "step": 110
    },
    {
      "epoch": 0.43359375,
      "grad_norm": 1.8710293554497974,
      "learning_rate": 1e-05,
      "loss": 0.273,
      "step": 111
    },
    {
      "epoch": 0.4375,
      "grad_norm": 1.3308164398688347,
      "learning_rate": 1e-05,
      "loss": 0.2852,
      "step": 112
    },
    {
      "epoch": 0.4375,
      "eval_dev_acc": 0.296875,
      "eval_dev_token": 5770.9375,
      "eval_runtime": 175.5918,
      "eval_samples_per_second": 0.091,
      "eval_steps_per_second": 0.006,
      "step": 112
    },
    {
      "epoch": 0.44140625,
      "grad_norm": 0.4499041384963393,
      "learning_rate": 1e-05,
      "loss": 0.1845,
      "step": 113
    },
    {
      "epoch": 0.4453125,
      "grad_norm": 0.5818915994231291,
      "learning_rate": 1e-05,
      "loss": 0.2709,
      "step": 114
    },
    {
      "epoch": 0.44921875,
      "grad_norm": 0.6130904000526848,
      "learning_rate": 1e-05,
      "loss": 0.231,
      "step": 115
    },
    {
      "epoch": 0.453125,
      "grad_norm": 0.7266034880537791,
      "learning_rate": 1e-05,
      "loss": 0.1555,
      "step": 116
    },
    {
      "epoch": 0.45703125,
      "grad_norm": 0.425032745279421,
      "learning_rate": 1e-05,
      "loss": 0.1733,
      "step": 117
    },
    {
      "epoch": 0.4609375,
      "grad_norm": 0.41408811254876093,
      "learning_rate": 1e-05,
      "loss": 0.1793,
      "step": 118
    },
    {
      "epoch": 0.46484375,
      "grad_norm": 0.8433491024471641,
      "learning_rate": 1e-05,
      "loss": 0.2335,
      "step": 119
    },
    {
      "epoch": 0.46875,
      "grad_norm": 0.5585183306922875,
      "learning_rate": 1e-05,
      "loss": 0.2515,
      "step": 120
    },
    {
      "epoch": 0.46875,
      "eval_dev_acc": 0.4724409580230713,
      "eval_dev_token": 4777.55126953125,
      "eval_runtime": 165.1485,
      "eval_samples_per_second": 0.097,
      "eval_steps_per_second": 0.006,
      "step": 120
    },
    {
      "epoch": 0.47265625,
      "grad_norm": 0.9520218462259554,
      "learning_rate": 1e-05,
      "loss": 0.2613,
      "step": 121
    },
    {
      "epoch": 0.4765625,
      "grad_norm": 0.4858585527334522,
      "learning_rate": 1e-05,
      "loss": 0.2379,
      "step": 122
    },
    {
      "epoch": 0.48046875,
      "grad_norm": 0.5772160567620949,
      "learning_rate": 1e-05,
      "loss": 0.241,
      "step": 123
    },
    {
      "epoch": 0.484375,
      "grad_norm": 0.731954162407159,
      "learning_rate": 1e-05,
      "loss": 0.2482,
      "step": 124
    },
    {
      "epoch": 0.48828125,
      "grad_norm": 0.49226621710163243,
      "learning_rate": 1e-05,
      "loss": 0.2333,
      "step": 125
    },
    {
      "epoch": 0.4921875,
      "grad_norm": 0.43779404197089106,
      "learning_rate": 1e-05,
      "loss": 0.185,
      "step": 126
    },
    {
      "epoch": 0.49609375,
      "grad_norm": 0.6856986141306837,
      "learning_rate": 1e-05,
      "loss": 0.1943,
      "step": 127
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6558122415773976,
      "learning_rate": 1e-05,
      "loss": 0.2185,
      "step": 128
    },
    {
      "epoch": 0.5,
      "eval_dev_acc": 0.4765625,
      "eval_dev_token": 4368.859375,
      "eval_runtime": 161.9718,
      "eval_samples_per_second": 0.099,
      "eval_steps_per_second": 0.006,
      "step": 128
    },
    {
      "epoch": 0.50390625,
      "grad_norm": 0.4099906022533745,
      "learning_rate": 1e-05,
      "loss": 0.2113,
      "step": 129
    },
    {
      "epoch": 0.5078125,
      "grad_norm": 0.49752415105495956,
      "learning_rate": 1e-05,
      "loss": 0.2217,
      "step": 130
    },
    {
      "epoch": 0.51171875,
      "grad_norm": 0.8912790018467623,
      "learning_rate": 1e-05,
      "loss": 0.3422,
      "step": 131
    },
    {
      "epoch": 0.515625,
      "grad_norm": 0.6764829647253893,
      "learning_rate": 1e-05,
      "loss": 0.2055,
      "step": 132
    },
    {
      "epoch": 0.51953125,
      "grad_norm": 0.8399641090693946,
      "learning_rate": 1e-05,
      "loss": 0.2087,
      "step": 133
    },
    {
      "epoch": 0.5234375,
      "grad_norm": 0.4594160953603203,
      "learning_rate": 1e-05,
      "loss": 0.2093,
      "step": 134
    },
    {
      "epoch": 0.52734375,
      "grad_norm": 0.7432138703184232,
      "learning_rate": 1e-05,
      "loss": 0.1969,
      "step": 135
    },
    {
      "epoch": 0.53125,
      "grad_norm": 0.4584467325236011,
      "learning_rate": 1e-05,
      "loss": 0.1806,
      "step": 136
    },
    {
      "epoch": 0.53125,
      "eval_dev_acc": 0.4765625,
      "eval_dev_token": 4603.53125,
      "eval_runtime": 164.3452,
      "eval_samples_per_second": 0.097,
      "eval_steps_per_second": 0.006,
      "step": 136
    },
    {
      "epoch": 0.53515625,
      "grad_norm": 0.6458588312529675,
      "learning_rate": 1e-05,
      "loss": 0.2087,
      "step": 137
    },
    {
      "epoch": 0.5390625,
      "grad_norm": 0.7370624067340756,
      "learning_rate": 1e-05,
      "loss": 0.1854,
      "step": 138
    },
    {
      "epoch": 0.54296875,
      "grad_norm": 0.7141604462138248,
      "learning_rate": 1e-05,
      "loss": 0.2535,
      "step": 139
    },
    {
      "epoch": 0.546875,
      "grad_norm": 0.8212814690178184,
      "learning_rate": 1e-05,
      "loss": 0.1668,
      "step": 140
    },
    {
      "epoch": 0.55078125,
      "grad_norm": 0.5799692948316157,
      "learning_rate": 1e-05,
      "loss": 0.2375,
      "step": 141
    },
    {
      "epoch": 0.5546875,
      "grad_norm": 0.5333639624775814,
      "learning_rate": 1e-05,
      "loss": 0.1737,
      "step": 142
    },
    {
      "epoch": 0.55859375,
      "grad_norm": 0.4076841439195106,
      "learning_rate": 1e-05,
      "loss": 0.1627,
      "step": 143
    },
    {
      "epoch": 0.5625,
      "grad_norm": 0.4118175478201596,
      "learning_rate": 1e-05,
      "loss": 0.1576,
      "step": 144
    },
    {
      "epoch": 0.5625,
      "eval_dev_acc": 0.5234375,
      "eval_dev_token": 5125.0703125,
      "eval_runtime": 168.804,
      "eval_samples_per_second": 0.095,
      "eval_steps_per_second": 0.006,
      "step": 144
    },
    {
      "epoch": 0.56640625,
      "grad_norm": 0.5988381099011506,
      "learning_rate": 1e-05,
      "loss": 0.1656,
      "step": 145
    },
    {
      "epoch": 0.5703125,
      "grad_norm": 0.9328153493065982,
      "learning_rate": 1e-05,
      "loss": 0.1788,
      "step": 146
    },
    {
      "epoch": 0.57421875,
      "grad_norm": 0.8013592126955402,
      "learning_rate": 1e-05,
      "loss": 0.2009,
      "step": 147
    },
    {
      "epoch": 0.578125,
      "grad_norm": 0.4868159061171701,
      "learning_rate": 1e-05,
      "loss": 0.217,
      "step": 148
    },
    {
      "epoch": 0.58203125,
      "grad_norm": 0.6758953539585006,
      "learning_rate": 1e-05,
      "loss": 0.2344,
      "step": 149
    },
    {
      "epoch": 0.5859375,
      "grad_norm": 0.8609458752061137,
      "learning_rate": 1e-05,
      "loss": 0.1939,
      "step": 150
    },
    {
      "epoch": 0.58984375,
      "grad_norm": 0.45913847739444186,
      "learning_rate": 1e-05,
      "loss": 0.1691,
      "step": 151
    },
    {
      "epoch": 0.59375,
      "grad_norm": 0.8064977044716175,
      "learning_rate": 1e-05,
      "loss": 0.1949,
      "step": 152
    },
    {
      "epoch": 0.59375,
      "eval_dev_acc": 0.40625,
      "eval_dev_token": 4508.484375,
      "eval_runtime": 160.3398,
      "eval_samples_per_second": 0.1,
      "eval_steps_per_second": 0.006,
      "step": 152
    },
    {
      "epoch": 0.59765625,
      "grad_norm": 0.9904042315049291,
      "learning_rate": 1e-05,
      "loss": 0.2253,
      "step": 153
    },
    {
      "epoch": 0.6015625,
      "grad_norm": 0.5524318414569037,
      "learning_rate": 1e-05,
      "loss": 0.2535,
      "step": 154
    },
    {
      "epoch": 0.60546875,
      "grad_norm": 0.418186463867415,
      "learning_rate": 1e-05,
      "loss": 0.1884,
      "step": 155
    },
    {
      "epoch": 0.609375,
      "grad_norm": 0.6311027708045368,
      "learning_rate": 1e-05,
      "loss": 0.2408,
      "step": 156
    },
    {
      "epoch": 0.61328125,
      "grad_norm": 0.4550696199781805,
      "learning_rate": 1e-05,
      "loss": 0.173,
      "step": 157
    },
    {
      "epoch": 0.6171875,
      "grad_norm": 0.4596598696608727,
      "learning_rate": 1e-05,
      "loss": 0.1592,
      "step": 158
    },
    {
      "epoch": 0.62109375,
      "grad_norm": 0.5573937890044522,
      "learning_rate": 1e-05,
      "loss": 0.1748,
      "step": 159
    },
    {
      "epoch": 0.625,
      "grad_norm": 1.0862165315332113,
      "learning_rate": 1e-05,
      "loss": 0.2369,
      "step": 160
    },
    {
      "epoch": 0.625,
      "eval_dev_acc": 0.4296875,
      "eval_dev_token": 4869.8828125,
      "eval_runtime": 167.2914,
      "eval_samples_per_second": 0.096,
      "eval_steps_per_second": 0.006,
      "step": 160
    },
    {
      "epoch": 0.62890625,
      "grad_norm": 0.46051384064237827,
      "learning_rate": 1e-05,
      "loss": 0.2086,
      "step": 161
    },
    {
      "epoch": 0.6328125,
      "grad_norm": 0.7125397532570018,
      "learning_rate": 1e-05,
      "loss": 0.2212,
      "step": 162
    },
    {
      "epoch": 0.63671875,
      "grad_norm": 0.564820498711706,
      "learning_rate": 1e-05,
      "loss": 0.3019,
      "step": 163
    },
    {
      "epoch": 0.640625,
      "grad_norm": 0.5218656690400247,
      "learning_rate": 1e-05,
      "loss": 0.1324,
      "step": 164
    },
    {
      "epoch": 0.64453125,
      "grad_norm": 0.4994022980399308,
      "learning_rate": 1e-05,
      "loss": 0.1438,
      "step": 165
    },
    {
      "epoch": 0.6484375,
      "grad_norm": 0.7016809849517179,
      "learning_rate": 1e-05,
      "loss": 0.2791,
      "step": 166
    },
    {
      "epoch": 0.65234375,
      "grad_norm": 0.597463304680723,
      "learning_rate": 1e-05,
      "loss": 0.1749,
      "step": 167
    },
    {
      "epoch": 0.65625,
      "grad_norm": 0.5536855781273838,
      "learning_rate": 1e-05,
      "loss": 0.2391,
      "step": 168
    },
    {
      "epoch": 0.65625,
      "eval_dev_acc": 0.3203125,
      "eval_dev_token": 5451.3671875,
      "eval_runtime": 172.7574,
      "eval_samples_per_second": 0.093,
      "eval_steps_per_second": 0.006,
      "step": 168
    },
    {
      "epoch": 0.66015625,
      "grad_norm": 0.9103508979108635,
      "learning_rate": 1e-05,
      "loss": 0.2613,
      "step": 169
    },
    {
      "epoch": 0.6640625,
      "grad_norm": 0.4928845564740678,
      "learning_rate": 1e-05,
      "loss": 0.215,
      "step": 170
    },
    {
      "epoch": 0.66796875,
      "grad_norm": 0.8690405638773996,
      "learning_rate": 1e-05,
      "loss": 0.2355,
      "step": 171
    },
    {
      "epoch": 0.671875,
      "grad_norm": 0.5511255682147113,
      "learning_rate": 1e-05,
      "loss": 0.2406,
      "step": 172
    },
    {
      "epoch": 0.67578125,
      "grad_norm": 0.44346107905460214,
      "learning_rate": 1e-05,
      "loss": 0.1867,
      "step": 173
    },
    {
      "epoch": 0.6796875,
      "grad_norm": 0.4019557678019079,
      "learning_rate": 1e-05,
      "loss": 0.1488,
      "step": 174
    },
    {
      "epoch": 0.68359375,
      "grad_norm": 0.4139658009208469,
      "learning_rate": 1e-05,
      "loss": 0.1666,
      "step": 175
    },
    {
      "epoch": 0.6875,
      "grad_norm": 0.45363011716779816,
      "learning_rate": 1e-05,
      "loss": 0.2006,
      "step": 176
    },
    {
      "epoch": 0.6875,
      "eval_dev_acc": 0.3385826647281647,
      "eval_dev_token": 4971.81884765625,
      "eval_runtime": 166.9967,
      "eval_samples_per_second": 0.096,
      "eval_steps_per_second": 0.006,
      "step": 176
    },
    {
      "epoch": 0.69140625,
      "grad_norm": 0.46674698673244774,
      "learning_rate": 1e-05,
      "loss": 0.1788,
      "step": 177
    },
    {
      "epoch": 0.6953125,
      "grad_norm": 0.5396579551057291,
      "learning_rate": 1e-05,
      "loss": 0.1857,
      "step": 178
    },
    {
      "epoch": 0.69921875,
      "grad_norm": 0.42472472699800484,
      "learning_rate": 1e-05,
      "loss": 0.1707,
      "step": 179
    },
    {
      "epoch": 0.703125,
      "grad_norm": 0.4208916108378261,
      "learning_rate": 1e-05,
      "loss": 0.1736,
      "step": 180
    },
    {
      "epoch": 0.70703125,
      "grad_norm": 0.5161632347165661,
      "learning_rate": 1e-05,
      "loss": 0.2074,
      "step": 181
    },
    {
      "epoch": 0.7109375,
      "grad_norm": 0.4851147968745633,
      "learning_rate": 1e-05,
      "loss": 0.2183,
      "step": 182
    },
    {
      "epoch": 0.71484375,
      "grad_norm": 0.5286494967968609,
      "learning_rate": 1e-05,
      "loss": 0.1877,
      "step": 183
    },
    {
      "epoch": 0.71875,
      "grad_norm": 0.5399316089624949,
      "learning_rate": 1e-05,
      "loss": 0.209,
      "step": 184
    },
    {
      "epoch": 0.71875,
      "eval_dev_acc": 0.3984375,
      "eval_dev_token": 4787.84375,
      "eval_runtime": 166.2574,
      "eval_samples_per_second": 0.096,
      "eval_steps_per_second": 0.006,
      "step": 184
    },
    {
      "epoch": 0.72265625,
      "grad_norm": 0.7188938790166789,
      "learning_rate": 1e-05,
      "loss": 0.2065,
      "step": 185
    },
    {
      "epoch": 0.7265625,
      "grad_norm": 0.5843767003652576,
      "learning_rate": 1e-05,
      "loss": 0.2356,
      "step": 186
    },
    {
      "epoch": 0.73046875,
      "grad_norm": 0.4904003204685076,
      "learning_rate": 1e-05,
      "loss": 0.201,
      "step": 187
    },
    {
      "epoch": 0.734375,
      "grad_norm": 0.485266158116283,
      "learning_rate": 1e-05,
      "loss": 0.1869,
      "step": 188
    },
    {
      "epoch": 0.73828125,
      "grad_norm": 0.5242977395658632,
      "learning_rate": 1e-05,
      "loss": 0.2122,
      "step": 189
    },
    {
      "epoch": 0.7421875,
      "grad_norm": 0.5417537780138298,
      "learning_rate": 1e-05,
      "loss": 0.2799,
      "step": 190
    },
    {
      "epoch": 0.74609375,
      "grad_norm": 0.48949419193338123,
      "learning_rate": 1e-05,
      "loss": 0.212,
      "step": 191
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.48118963817889204,
      "learning_rate": 1e-05,
      "loss": 0.2195,
      "step": 192
    },
    {
      "epoch": 0.75,
      "eval_dev_acc": 0.453125,
      "eval_dev_token": 5056.7421875,
      "eval_runtime": 168.273,
      "eval_samples_per_second": 0.095,
      "eval_steps_per_second": 0.006,
      "step": 192
    },
    {
      "epoch": 0.75390625,
      "grad_norm": 0.6844465372064547,
      "learning_rate": 1e-05,
      "loss": 0.1645,
      "step": 193
    },
    {
      "epoch": 0.7578125,
      "grad_norm": 0.49653100043792153,
      "learning_rate": 1e-05,
      "loss": 0.2023,
      "step": 194
    },
    {
      "epoch": 0.76171875,
      "grad_norm": 0.5539027026151374,
      "learning_rate": 1e-05,
      "loss": 0.2348,
      "step": 195
    },
    {
      "epoch": 0.765625,
      "grad_norm": 0.5003270709383194,
      "learning_rate": 1e-05,
      "loss": 0.2545,
      "step": 196
    },
    {
      "epoch": 0.76953125,
      "grad_norm": 0.5666703162116131,
      "learning_rate": 1e-05,
      "loss": 0.2739,
      "step": 197
    },
    {
      "epoch": 0.7734375,
      "grad_norm": 0.5281121627729704,
      "learning_rate": 1e-05,
      "loss": 0.1927,
      "step": 198
    },
    {
      "epoch": 0.77734375,
      "grad_norm": 0.4691586351966124,
      "learning_rate": 1e-05,
      "loss": 0.2101,
      "step": 199
    },
    {
      "epoch": 0.78125,
      "grad_norm": 0.43348894899907703,
      "learning_rate": 1e-05,
      "loss": 0.1636,
      "step": 200
    },
    {
      "epoch": 0.78125,
      "eval_dev_acc": 0.4296875,
      "eval_dev_token": 5082.265625,
      "eval_runtime": 169.7777,
      "eval_samples_per_second": 0.094,
      "eval_steps_per_second": 0.006,
      "step": 200
    },
    {
      "epoch": 0.78515625,
      "grad_norm": 0.4995118305726593,
      "learning_rate": 1e-05,
      "loss": 0.2149,
      "step": 201
    },
    {
      "epoch": 0.7890625,
      "grad_norm": 0.3958721084761467,
      "learning_rate": 1e-05,
      "loss": 0.1732,
      "step": 202
    },
    {
      "epoch": 0.79296875,
      "grad_norm": 0.4883258744044862,
      "learning_rate": 1e-05,
      "loss": 0.219,
      "step": 203
    },
    {
      "epoch": 0.796875,
      "grad_norm": 0.45472746506302575,
      "learning_rate": 1e-05,
      "loss": 0.2187,
      "step": 204
    },
    {
      "epoch": 0.80078125,
      "grad_norm": 0.45006095039367805,
      "learning_rate": 1e-05,
      "loss": 0.1924,
      "step": 205
    },
    {
      "epoch": 0.8046875,
      "grad_norm": 0.4127537232406072,
      "learning_rate": 1e-05,
      "loss": 0.1736,
      "step": 206
    },
    {
      "epoch": 0.80859375,
      "grad_norm": 0.4669392415601201,
      "learning_rate": 1e-05,
      "loss": 0.1847,
      "step": 207
    },
    {
      "epoch": 0.8125,
      "grad_norm": 0.41469363114093816,
      "learning_rate": 1e-05,
      "loss": 0.1556,
      "step": 208
    },
    {
      "epoch": 0.8125,
      "eval_dev_acc": 0.4609375,
      "eval_dev_token": 4918.28125,
      "eval_runtime": 166.5675,
      "eval_samples_per_second": 0.096,
      "eval_steps_per_second": 0.006,
      "step": 208
    },
    {
      "epoch": 0.81640625,
      "grad_norm": 0.4433576280938302,
      "learning_rate": 1e-05,
      "loss": 0.1934,
      "step": 209
    },
    {
      "epoch": 0.8203125,
      "grad_norm": 0.4355305023653351,
      "learning_rate": 1e-05,
      "loss": 0.1742,
      "step": 210
    },
    {
      "epoch": 0.82421875,
      "grad_norm": 0.44938618579632195,
      "learning_rate": 1e-05,
      "loss": 0.1902,
      "step": 211
    },
    {
      "epoch": 0.828125,
      "grad_norm": 0.5351771463999816,
      "learning_rate": 1e-05,
      "loss": 0.2148,
      "step": 212
    },
    {
      "epoch": 0.83203125,
      "grad_norm": 0.5839350362138708,
      "learning_rate": 1e-05,
      "loss": 0.275,
      "step": 213
    },
    {
      "epoch": 0.8359375,
      "grad_norm": 0.6964110745693202,
      "learning_rate": 1e-05,
      "loss": 0.2179,
      "step": 214
    },
    {
      "epoch": 0.83984375,
      "grad_norm": 0.4337830660702992,
      "learning_rate": 1e-05,
      "loss": 0.2152,
      "step": 215
    },
    {
      "epoch": 0.84375,
      "grad_norm": 0.46223312750006246,
      "learning_rate": 1e-05,
      "loss": 0.2405,
      "step": 216
    },
    {
      "epoch": 0.84375,
      "eval_dev_acc": 0.3828125,
      "eval_dev_token": 5435.3046875,
      "eval_runtime": 173.8173,
      "eval_samples_per_second": 0.092,
      "eval_steps_per_second": 0.006,
      "step": 216
    },
    {
      "epoch": 0.84765625,
      "grad_norm": 0.5541820526606585,
      "learning_rate": 1e-05,
      "loss": 0.2751,
      "step": 217
    },
    {
      "epoch": 0.8515625,
      "grad_norm": 0.4662570041545537,
      "learning_rate": 1e-05,
      "loss": 0.2142,
      "step": 218
    },
    {
      "epoch": 0.85546875,
      "grad_norm": 0.7737037625157579,
      "learning_rate": 1e-05,
      "loss": 0.2397,
      "step": 219
    },
    {
      "epoch": 0.859375,
      "grad_norm": 0.5572195616624243,
      "learning_rate": 1e-05,
      "loss": 0.2421,
      "step": 220
    },
    {
      "epoch": 0.86328125,
      "grad_norm": 0.5088509372691609,
      "learning_rate": 1e-05,
      "loss": 0.1875,
      "step": 221
    },
    {
      "epoch": 0.8671875,
      "grad_norm": 0.508699458613964,
      "learning_rate": 1e-05,
      "loss": 0.1927,
      "step": 222
    },
    {
      "epoch": 0.87109375,
      "grad_norm": 0.5150091482241945,
      "learning_rate": 1e-05,
      "loss": 0.2536,
      "step": 223
    },
    {
      "epoch": 0.875,
      "grad_norm": 0.5203627078659161,
      "learning_rate": 1e-05,
      "loss": 0.2571,
      "step": 224
    },
    {
      "epoch": 0.875,
      "eval_dev_acc": 0.3515625,
      "eval_dev_token": 5227.0859375,
      "eval_runtime": 170.2355,
      "eval_samples_per_second": 0.094,
      "eval_steps_per_second": 0.006,
      "step": 224
    },
    {
      "epoch": 0.87890625,
      "grad_norm": 0.5279392216696818,
      "learning_rate": 1e-05,
      "loss": 0.2278,
      "step": 225
    },
    {
      "epoch": 0.8828125,
      "grad_norm": 0.45017131620724865,
      "learning_rate": 1e-05,
      "loss": 0.2132,
      "step": 226
    },
    {
      "epoch": 0.88671875,
      "grad_norm": 0.48915211275869575,
      "learning_rate": 1e-05,
      "loss": 0.2627,
      "step": 227
    },
    {
      "epoch": 0.890625,
      "grad_norm": 0.4606618945421734,
      "learning_rate": 1e-05,
      "loss": 0.1528,
      "step": 228
    },
    {
      "epoch": 0.89453125,
      "grad_norm": 0.5072593200666395,
      "learning_rate": 1e-05,
      "loss": 0.2148,
      "step": 229
    },
    {
      "epoch": 0.8984375,
      "grad_norm": 0.5513069869439534,
      "learning_rate": 1e-05,
      "loss": 0.2319,
      "step": 230
    },
    {
      "epoch": 0.90234375,
      "grad_norm": 0.4917083878550277,
      "learning_rate": 1e-05,
      "loss": 0.1989,
      "step": 231
    },
    {
      "epoch": 0.90625,
      "grad_norm": 0.4027028580105545,
      "learning_rate": 1e-05,
      "loss": 0.1398,
      "step": 232
    },
    {
      "epoch": 0.90625,
      "eval_dev_acc": 0.3779527544975281,
      "eval_dev_token": 5651.6455078125,
      "eval_runtime": 175.5543,
      "eval_samples_per_second": 0.091,
      "eval_steps_per_second": 0.006,
      "step": 232
    },
    {
      "epoch": 0.91015625,
      "grad_norm": 0.4098440727615931,
      "learning_rate": 1e-05,
      "loss": 0.1481,
      "step": 233
    },
    {
      "epoch": 0.9140625,
      "grad_norm": 0.4379253949500134,
      "learning_rate": 1e-05,
      "loss": 0.172,
      "step": 234
    },
    {
      "epoch": 0.91796875,
      "grad_norm": 0.6161974608496972,
      "learning_rate": 1e-05,
      "loss": 0.2234,
      "step": 235
    },
    {
      "epoch": 0.921875,
      "grad_norm": 0.6431694552333217,
      "learning_rate": 1e-05,
      "loss": 0.2928,
      "step": 236
    },
    {
      "epoch": 0.92578125,
      "grad_norm": 0.7524837454023333,
      "learning_rate": 1e-05,
      "loss": 0.3518,
      "step": 237
    },
    {
      "epoch": 0.9296875,
      "grad_norm": 0.5137794157548315,
      "learning_rate": 1e-05,
      "loss": 0.2371,
      "step": 238
    },
    {
      "epoch": 0.93359375,
      "grad_norm": 0.42726761741926383,
      "learning_rate": 1e-05,
      "loss": 0.1349,
      "step": 239
    },
    {
      "epoch": 0.9375,
      "grad_norm": 0.50721507122848,
      "learning_rate": 1e-05,
      "loss": 0.147,
      "step": 240
    },
    {
      "epoch": 0.9375,
      "eval_dev_acc": 0.4375,
      "eval_dev_token": 5554.34375,
      "eval_runtime": 173.4206,
      "eval_samples_per_second": 0.092,
      "eval_steps_per_second": 0.006,
      "step": 240
    },
    {
      "epoch": 0.94140625,
      "grad_norm": 0.5085504060972834,
      "learning_rate": 1e-05,
      "loss": 0.2115,
      "step": 241
    },
    {
      "epoch": 0.9453125,
      "grad_norm": 0.5245333395138617,
      "learning_rate": 1e-05,
      "loss": 0.2203,
      "step": 242
    },
    {
      "epoch": 0.94921875,
      "grad_norm": 0.5149241747645703,
      "learning_rate": 1e-05,
      "loss": 0.1935,
      "step": 243
    },
    {
      "epoch": 0.953125,
      "grad_norm": 0.45199967311107936,
      "learning_rate": 1e-05,
      "loss": 0.1875,
      "step": 244
    },
    {
      "epoch": 0.95703125,
      "grad_norm": 0.6017279864923942,
      "learning_rate": 1e-05,
      "loss": 0.1964,
      "step": 245
    },
    {
      "epoch": 0.9609375,
      "grad_norm": 0.541548647166723,
      "learning_rate": 1e-05,
      "loss": 0.2029,
      "step": 246
    },
    {
      "epoch": 0.96484375,
      "grad_norm": 0.7095706252744872,
      "learning_rate": 1e-05,
      "loss": 0.1824,
      "step": 247
    },
    {
      "epoch": 0.96875,
      "grad_norm": 0.6630534512223186,
      "learning_rate": 1e-05,
      "loss": 0.2346,
      "step": 248
    },
    {
      "epoch": 0.96875,
      "eval_dev_acc": 0.5234375,
      "eval_dev_token": 5464.203125,
      "eval_runtime": 173.0858,
      "eval_samples_per_second": 0.092,
      "eval_steps_per_second": 0.006,
      "step": 248
    },
    {
      "epoch": 0.97265625,
      "grad_norm": 0.7470938668923351,
      "learning_rate": 1e-05,
      "loss": 0.3028,
      "step": 249
    },
    {
      "epoch": 0.9765625,
      "grad_norm": 0.534162369114681,
      "learning_rate": 1e-05,
      "loss": 0.243,
      "step": 250
    },
    {
      "epoch": 0.98046875,
      "grad_norm": 0.5240149993617814,
      "learning_rate": 1e-05,
      "loss": 0.2475,
      "step": 251
    },
    {
      "epoch": 0.984375,
      "grad_norm": 0.48058164633897993,
      "learning_rate": 1e-05,
      "loss": 0.2234,
      "step": 252
    },
    {
      "epoch": 0.98828125,
      "grad_norm": 0.5427424821749397,
      "learning_rate": 1e-05,
      "loss": 0.2338,
      "step": 253
    },
    {
      "epoch": 0.9921875,
      "grad_norm": 0.5309304323745797,
      "learning_rate": 1e-05,
      "loss": 0.2751,
      "step": 254
    },
    {
      "epoch": 0.99609375,
      "grad_norm": 0.4961154954055658,
      "learning_rate": 1e-05,
      "loss": 0.2329,
      "step": 255
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.519835488758917,
      "learning_rate": 1e-05,
      "loss": 0.2182,
      "step": 256
    },
    {
      "epoch": 1.0,
      "eval_dev_acc": 0.4453125,
      "eval_dev_token": 5674.0546875,
      "eval_runtime": 175.8662,
      "eval_samples_per_second": 0.091,
      "eval_steps_per_second": 0.006,
      "step": 256
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 256,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 64,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 31380919492608.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}