Training in progress, step 300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c834c94ccd6327a6e0489d64b97849b6d81c33c5c4bd07105bf49ae53b004bd8
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:227708832b49ac7061c8c8cedfec3f38b21c76d72436fca62de0d18c0032ab53
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abda3127c9ade52926ee1f9e398cf3e4081ef61c32ee845d52ad38f8184b8f26
-size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d9fb08196de88b0882b7cc0b21ec7bbcdafdbe26d855d24029b88bdd529d41c
+size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5504ed3905f70a4dc8b693243a3717452b706115306b2472b12a161c8cfc3819
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4430b9a08c075060ef6b7ad7a7977beb00c91a14854ffdc791c60cb3093cb1e9
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6848a8859edc1a631d95dd7c6bbe41d62f8deb9b0c380a9e73b539cd4782f1cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c5a8c7855b3cc55dff44b95db370c984be8d56bad23c2aea8770dee5814ed88
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6163225173950195,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.05687203791469194,
   "eval_steps": 150,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -128,6 +128,119 @@
       "eval_samples_per_second": 21.015,
       "eval_steps_per_second": 5.256,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -156,7 +269,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3274919492963533e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5615507960319519,
+  "best_model_checkpoint": "miner_id_24/checkpoint-300",
+  "epoch": 0.11374407582938388,
   "eval_steps": 150,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.015,
       "eval_steps_per_second": 5.256,
       "step": 150
+    },
+    {
+      "epoch": 0.06066350710900474,
+      "grad_norm": 0.9639042019844055,
+      "learning_rate": 9.955490656615086e-05,
+      "loss": 0.9907,
+      "step": 160
+    },
+    {
+      "epoch": 0.06445497630331753,
+      "grad_norm": 1.0571763515472412,
+      "learning_rate": 9.947045166170315e-05,
+      "loss": 0.6059,
+      "step": 170
+    },
+    {
+      "epoch": 0.06824644549763033,
+      "grad_norm": 0.8203420639038086,
+      "learning_rate": 9.937870702220684e-05,
+      "loss": 0.5407,
+      "step": 180
+    },
+    {
+      "epoch": 0.07203791469194312,
+      "grad_norm": 0.7809204459190369,
+      "learning_rate": 9.927968616672416e-05,
+      "loss": 0.4592,
+      "step": 190
+    },
+    {
+      "epoch": 0.07582938388625593,
+      "grad_norm": 0.6434981226921082,
+      "learning_rate": 9.917340368650657e-05,
+      "loss": 0.3295,
+      "step": 200
+    },
+    {
+      "epoch": 0.07962085308056872,
+      "grad_norm": 0.8934921026229858,
+      "learning_rate": 9.905987524284471e-05,
+      "loss": 0.9521,
+      "step": 210
+    },
+    {
+      "epoch": 0.08341232227488152,
+      "grad_norm": 0.8254252672195435,
+      "learning_rate": 9.89391175647606e-05,
+      "loss": 0.5738,
+      "step": 220
+    },
+    {
+      "epoch": 0.08720379146919431,
+      "grad_norm": 0.840071976184845,
+      "learning_rate": 9.881114844654249e-05,
+      "loss": 0.5222,
+      "step": 230
+    },
+    {
+      "epoch": 0.0909952606635071,
+      "grad_norm": 0.8142471313476562,
+      "learning_rate": 9.867598674512288e-05,
+      "loss": 0.4142,
+      "step": 240
+    },
+    {
+      "epoch": 0.0947867298578199,
+      "grad_norm": 0.6625562310218811,
+      "learning_rate": 9.853365237729976e-05,
+      "loss": 0.3158,
+      "step": 250
+    },
+    {
+      "epoch": 0.0985781990521327,
+      "grad_norm": 0.9738134145736694,
+      "learning_rate": 9.838416631680176e-05,
+      "loss": 0.9377,
+      "step": 260
+    },
+    {
+      "epoch": 0.1023696682464455,
+      "grad_norm": 0.919395387172699,
+      "learning_rate": 9.822755059119765e-05,
+      "loss": 0.5472,
+      "step": 270
+    },
+    {
+      "epoch": 0.1061611374407583,
+      "grad_norm": 0.9126551151275635,
+      "learning_rate": 9.806382827865035e-05,
+      "loss": 0.4959,
+      "step": 280
+    },
+    {
+      "epoch": 0.10995260663507109,
+      "grad_norm": 0.7662134766578674,
+      "learning_rate": 9.78930235045163e-05,
+      "loss": 0.4471,
+      "step": 290
+    },
+    {
+      "epoch": 0.11374407582938388,
+      "grad_norm": 0.6991143226623535,
+      "learning_rate": 9.771516143779049e-05,
+      "loss": 0.345,
+      "step": 300
+    },
+    {
+      "epoch": 0.11374407582938388,
+      "eval_loss": 0.5615507960319519,
+      "eval_runtime": 210.9515,
+      "eval_samples_per_second": 21.057,
+      "eval_steps_per_second": 5.267,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.6549838985927066e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null