Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95b0e7b6b0ba2885b13c039a90915556d4b51e60ca7e5dc3f6b059ee85242eac
 size 231448

 version https://git-lfs.github.com/spec/v1
+oid sha256:31a571ec42f478840e69a67e0dd57624be90cdb5537d36b5d0435bee9bd0ba6f
 size 231448

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a36bf48bd442b1a64b5cf5cc5b05e6ddc451c123987b662a73e7e2f108da6cf
 size 254576

 version https://git-lfs.github.com/spec/v1
+oid sha256:b13e10c114dcdf5078d47df86fc93f161df9df140dc0304ec9d3915845b663e1
 size 254576

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:468d494961f53b711ad3ae8a88e774c2ebda6dade2564468490d56dbb05c3da9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe54e70e100855887817feed6e22abcd92d3fe3725f3f4cd181c36f9fcb30070
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d94dee72c7d02de6c69d9fa4cc2d9dd3225f09ac52c6adcb59ec7bae1df8f10
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b26348e70deb5f7d6cee52f5eb084c0e6829440001a3c6d0128b93cd074af8c2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 10.155071258544922,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.0061278264599546545,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 277.803,
       "eval_steps_per_second": 69.458,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 21814683107328.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 10.137996673583984,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.00919173968993198,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 277.803,
       "eval_steps_per_second": 69.458,
       "step": 100
+    },
+    {
+      "epoch": 0.0061891047245542005,
+      "grad_norm": 0.3536835014820099,
+      "learning_rate": 3.7313170451399475e-05,
+      "loss": 10.1634,
+      "step": 101
+    },
+    {
+      "epoch": 0.006250382989153747,
+      "grad_norm": 0.476319819688797,
+      "learning_rate": 3.673543141356278e-05,
+      "loss": 10.1683,
+      "step": 102
+    },
+    {
+      "epoch": 0.006311661253753294,
+      "grad_norm": 0.6223771572113037,
+      "learning_rate": 3.6157217926105783e-05,
+      "loss": 10.173,
+      "step": 103
+    },
+    {
+      "epoch": 0.00637293951835284,
+      "grad_norm": 0.5387416481971741,
+      "learning_rate": 3.557868806682255e-05,
+      "loss": 10.18,
+      "step": 104
+    },
+    {
+      "epoch": 0.006434217782952387,
+      "grad_norm": 0.5463670492172241,
+      "learning_rate": 3.5e-05,
+      "loss": 10.1896,
+      "step": 105
+    },
+    {
+      "epoch": 0.006495496047551934,
+      "grad_norm": 0.35652950406074524,
+      "learning_rate": 3.442131193317745e-05,
+      "loss": 10.1564,
+      "step": 106
+    },
+    {
+      "epoch": 0.00655677431215148,
+      "grad_norm": 0.3654034435749054,
+      "learning_rate": 3.384278207389421e-05,
+      "loss": 10.1534,
+      "step": 107
+    },
+    {
+      "epoch": 0.006618052576751026,
+      "grad_norm": 0.38840317726135254,
+      "learning_rate": 3.3264568586437216e-05,
+      "loss": 10.145,
+      "step": 108
+    },
+    {
+      "epoch": 0.006679330841350573,
+      "grad_norm": 0.3647133708000183,
+      "learning_rate": 3.268682954860052e-05,
+      "loss": 10.1413,
+      "step": 109
+    },
+    {
+      "epoch": 0.006740609105950119,
+      "grad_norm": 0.3147537410259247,
+      "learning_rate": 3.210972290846837e-05,
+      "loss": 10.1414,
+      "step": 110
+    },
+    {
+      "epoch": 0.006801887370549666,
+      "grad_norm": 0.35884329676628113,
+      "learning_rate": 3.15334064412338e-05,
+      "loss": 10.148,
+      "step": 111
+    },
+    {
+      "epoch": 0.006863165635149213,
+      "grad_norm": 0.37276944518089294,
+      "learning_rate": 3.0958037706064485e-05,
+      "loss": 10.1512,
+      "step": 112
+    },
+    {
+      "epoch": 0.006924443899748759,
+      "grad_norm": 0.34950560331344604,
+      "learning_rate": 3.038377400302758e-05,
+      "loss": 10.1473,
+      "step": 113
+    },
+    {
+      "epoch": 0.0069857221643483056,
+      "grad_norm": 0.4139955937862396,
+      "learning_rate": 2.9810772330085524e-05,
+      "loss": 10.1526,
+      "step": 114
+    },
+    {
+      "epoch": 0.007047000428947852,
+      "grad_norm": 0.3620222508907318,
+      "learning_rate": 2.9239189340174306e-05,
+      "loss": 10.1458,
+      "step": 115
+    },
+    {
+      "epoch": 0.007108278693547398,
+      "grad_norm": 0.34052902460098267,
+      "learning_rate": 2.8669181298376163e-05,
+      "loss": 10.1478,
+      "step": 116
+    },
+    {
+      "epoch": 0.007169556958146945,
+      "grad_norm": 0.2788581848144531,
+      "learning_rate": 2.8100904039198193e-05,
+      "loss": 10.1468,
+      "step": 117
+    },
+    {
+      "epoch": 0.007230835222746492,
+      "grad_norm": 0.30485856533050537,
+      "learning_rate": 2.7534512923968863e-05,
+      "loss": 10.1488,
+      "step": 118
+    },
+    {
+      "epoch": 0.007292113487346039,
+      "grad_norm": 0.3234477937221527,
+      "learning_rate": 2.6970162798363695e-05,
+      "loss": 10.1477,
+      "step": 119
+    },
+    {
+      "epoch": 0.007353391751945585,
+      "grad_norm": 0.2603645622730255,
+      "learning_rate": 2.640800795007203e-05,
+      "loss": 10.1497,
+      "step": 120
+    },
+    {
+      "epoch": 0.0074146700165451315,
+      "grad_norm": 0.27819761633872986,
+      "learning_rate": 2.5848202066616305e-05,
+      "loss": 10.1482,
+      "step": 121
+    },
+    {
+      "epoch": 0.007475948281144678,
+      "grad_norm": 0.27645042538642883,
+      "learning_rate": 2.5290898193335446e-05,
+      "loss": 10.1457,
+      "step": 122
+    },
+    {
+      "epoch": 0.007537226545744224,
+      "grad_norm": 0.3347417712211609,
+      "learning_rate": 2.4736248691543736e-05,
+      "loss": 10.1412,
+      "step": 123
+    },
+    {
+      "epoch": 0.007598504810343771,
+      "grad_norm": 0.32757794857025146,
+      "learning_rate": 2.4184405196876842e-05,
+      "loss": 10.1332,
+      "step": 124
+    },
+    {
+      "epoch": 0.007659783074943318,
+      "grad_norm": 0.37621769309043884,
+      "learning_rate": 2.363551857783608e-05,
+      "loss": 10.1316,
+      "step": 125
+    },
+    {
+      "epoch": 0.007721061339542864,
+      "grad_norm": 0.3853381872177124,
+      "learning_rate": 2.308973889454249e-05,
+      "loss": 10.129,
+      "step": 126
+    },
+    {
+      "epoch": 0.007782339604142411,
+      "grad_norm": 0.39091774821281433,
+      "learning_rate": 2.2547215357711918e-05,
+      "loss": 10.1291,
+      "step": 127
+    },
+    {
+      "epoch": 0.007843617868741957,
+      "grad_norm": 0.38270658254623413,
+      "learning_rate": 2.2008096287862266e-05,
+      "loss": 10.1289,
+      "step": 128
+    },
+    {
+      "epoch": 0.007904896133341504,
+      "grad_norm": 0.420430451631546,
+      "learning_rate": 2.1472529074764177e-05,
+      "loss": 10.1289,
+      "step": 129
+    },
+    {
+      "epoch": 0.007966174397941051,
+      "grad_norm": 0.39466023445129395,
+      "learning_rate": 2.0940660137146074e-05,
+      "loss": 10.14,
+      "step": 130
+    },
+    {
+      "epoch": 0.008027452662540596,
+      "grad_norm": 0.31119757890701294,
+      "learning_rate": 2.041263488266484e-05,
+      "loss": 10.1597,
+      "step": 131
+    },
+    {
+      "epoch": 0.008088730927140143,
+      "grad_norm": 0.34917810559272766,
+      "learning_rate": 1.988859766815275e-05,
+      "loss": 10.1619,
+      "step": 132
+    },
+    {
+      "epoch": 0.00815000919173969,
+      "grad_norm": 0.24947816133499146,
+      "learning_rate": 1.9368691760151773e-05,
+      "loss": 10.1444,
+      "step": 133
+    },
+    {
+      "epoch": 0.008211287456339237,
+      "grad_norm": 0.32924318313598633,
+      "learning_rate": 1.885305929574593e-05,
+      "loss": 10.151,
+      "step": 134
+    },
+    {
+      "epoch": 0.008272565720938783,
+      "grad_norm": 0.2837226986885071,
+      "learning_rate": 1.8341841243702424e-05,
+      "loss": 10.1519,
+      "step": 135
+    },
+    {
+      "epoch": 0.00833384398553833,
+      "grad_norm": 0.20223724842071533,
+      "learning_rate": 1.7835177365932225e-05,
+      "loss": 10.1404,
+      "step": 136
+    },
+    {
+      "epoch": 0.008395122250137875,
+      "grad_norm": 0.2176276445388794,
+      "learning_rate": 1.7333206179280478e-05,
+      "loss": 10.1289,
+      "step": 137
+    },
+    {
+      "epoch": 0.008456400514737422,
+      "grad_norm": 0.26074570417404175,
+      "learning_rate": 1.6836064917657478e-05,
+      "loss": 10.1237,
+      "step": 138
+    },
+    {
+      "epoch": 0.008517678779336969,
+      "grad_norm": 0.28516310453414917,
+      "learning_rate": 1.6343889494520224e-05,
+      "loss": 10.1245,
+      "step": 139
+    },
+    {
+      "epoch": 0.008578957043936516,
+      "grad_norm": 0.2946498692035675,
+      "learning_rate": 1.5856814465715064e-05,
+      "loss": 10.1295,
+      "step": 140
+    },
+    {
+      "epoch": 0.008640235308536063,
+      "grad_norm": 0.36294224858283997,
+      "learning_rate": 1.5374972992691458e-05,
+      "loss": 10.1264,
+      "step": 141
+    },
+    {
+      "epoch": 0.00870151357313561,
+      "grad_norm": 0.4097118079662323,
+      "learning_rate": 1.4898496806096974e-05,
+      "loss": 10.1203,
+      "step": 142
+    },
+    {
+      "epoch": 0.008762791837735154,
+      "grad_norm": 0.4316818118095398,
+      "learning_rate": 1.4427516169763444e-05,
+      "loss": 10.1269,
+      "step": 143
+    },
+    {
+      "epoch": 0.008824070102334701,
+      "grad_norm": 0.37467852234840393,
+      "learning_rate": 1.396215984509412e-05,
+      "loss": 10.1282,
+      "step": 144
+    },
+    {
+      "epoch": 0.008885348366934248,
+      "grad_norm": 0.2884649932384491,
+      "learning_rate": 1.3502555055861625e-05,
+      "loss": 10.1353,
+      "step": 145
+    },
+    {
+      "epoch": 0.008946626631533795,
+      "grad_norm": 0.21601779758930206,
+      "learning_rate": 1.3048827453426203e-05,
+      "loss": 10.1452,
+      "step": 146
+    },
+    {
+      "epoch": 0.009007904896133342,
+      "grad_norm": 0.4934738278388977,
+      "learning_rate": 1.2601101082383917e-05,
+      "loss": 10.1427,
+      "step": 147
+    },
+    {
+      "epoch": 0.009069183160732889,
+      "grad_norm": 0.4053356349468231,
+      "learning_rate": 1.2159498346654094e-05,
+      "loss": 10.1476,
+      "step": 148
+    },
+    {
+      "epoch": 0.009130461425332435,
+      "grad_norm": 0.5170806646347046,
+      "learning_rate": 1.1724139976015306e-05,
+      "loss": 10.1461,
+      "step": 149
+    },
+    {
+      "epoch": 0.00919173968993198,
+      "grad_norm": 0.46501147747039795,
+      "learning_rate": 1.1295144993099068e-05,
+      "loss": 10.1341,
+      "step": 150
+    },
+    {
+      "epoch": 0.00919173968993198,
+      "eval_loss": 10.137996673583984,
+      "eval_runtime": 99.3132,
+      "eval_samples_per_second": 276.751,
+      "eval_steps_per_second": 69.195,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 32722024660992.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null