Training in progress, step 1650, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3c5ece6319df12b42a1321ab23cc0d598cb195389f44ad963eb2a55611fa1bb
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:38ff59f65b26f1e229a4f3d4c73b0fefd04c74898553389ea45285c7c03e44fb
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38d317eefa2b55406d7080b244f8c8276671d3ad992293aa7b453dbb94ceedb8
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e68c2fd3fc08f26f68cc6ea31f89eb8432170046fa27022f45200b45830bbfd
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8432027dbbc8dab44e5086e964f9cdb0667714c28870c25714f6895b3ab20859
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac19d5d69213bd6ec3ac71c1dc1e56a89e4422a2146959318340f8687a25d0a0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e81835a72dc0c964cd591ffc9309a23b625c25e3c788c837ad74942ba4e6af0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f26152095eec0fefdbf64011d027c8b7130d36103664f806cba7c1c0501a24f2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.43063661456108093,
-  "best_model_checkpoint": "miner_id_24/checkpoint-1500",
-  "epoch": 0.5687203791469194,
   "eval_steps": 150,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1145,6 +1145,119 @@
       "eval_samples_per_second": 21.012,
       "eval_steps_per_second": 5.255,
       "step": 1500
     }
   ],
   "logging_steps": 10,
@@ -1173,7 +1286,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3314517974405612e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4205625653266907,
+  "best_model_checkpoint": "miner_id_24/checkpoint-1650",
+  "epoch": 0.6255924170616114,
   "eval_steps": 150,
+  "global_step": 1650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.012,
       "eval_steps_per_second": 5.255,
       "step": 1500
+    },
+    {
+      "epoch": 0.5725118483412323,
+      "grad_norm": 0.7785443067550659,
+      "learning_rate": 3.999261602853686e-05,
+      "loss": 0.6699,
+      "step": 1510
+    },
+    {
+      "epoch": 0.576303317535545,
+      "grad_norm": 0.6982720494270325,
+      "learning_rate": 3.93986954553998e-05,
+      "loss": 0.4564,
+      "step": 1520
+    },
+    {
+      "epoch": 0.5800947867298578,
+      "grad_norm": 0.7283275127410889,
+      "learning_rate": 3.880633704106066e-05,
+      "loss": 0.4075,
+      "step": 1530
+    },
+    {
+      "epoch": 0.5838862559241706,
+      "grad_norm": 0.7250307202339172,
+      "learning_rate": 3.821562807269284e-05,
+      "loss": 0.3547,
+      "step": 1540
+    },
+    {
+      "epoch": 0.5876777251184834,
+      "grad_norm": 0.8150220513343811,
+      "learning_rate": 3.762665559441513e-05,
+      "loss": 0.2715,
+      "step": 1550
+    },
+    {
+      "epoch": 0.5914691943127962,
+      "grad_norm": 0.6675704717636108,
+      "learning_rate": 3.703950639446525e-05,
+      "loss": 0.6556,
+      "step": 1560
+    },
+    {
+      "epoch": 0.595260663507109,
+      "grad_norm": 0.7834139466285706,
+      "learning_rate": 3.6454266992411084e-05,
+      "loss": 0.4595,
+      "step": 1570
+    },
+    {
+      "epoch": 0.5990521327014218,
+      "grad_norm": 0.6742093563079834,
+      "learning_rate": 3.5871023626401605e-05,
+      "loss": 0.3832,
+      "step": 1580
+    },
+    {
+      "epoch": 0.6028436018957346,
+      "grad_norm": 0.6419682502746582,
+      "learning_rate": 3.5289862240459255e-05,
+      "loss": 0.3495,
+      "step": 1590
+    },
+    {
+      "epoch": 0.6066350710900474,
+      "grad_norm": 0.6275917291641235,
+      "learning_rate": 3.4710868471815586e-05,
+      "loss": 0.2515,
+      "step": 1600
+    },
+    {
+      "epoch": 0.6104265402843602,
+      "grad_norm": 0.7566835284233093,
+      "learning_rate": 3.413412763829218e-05,
+      "loss": 0.6413,
+      "step": 1610
+    },
+    {
+      "epoch": 0.614218009478673,
+      "grad_norm": 0.6755979657173157,
+      "learning_rate": 3.355972472572859e-05,
+      "loss": 0.4296,
+      "step": 1620
+    },
+    {
+      "epoch": 0.6180094786729858,
+      "grad_norm": 0.7301715612411499,
+      "learning_rate": 3.298774437545924e-05,
+      "loss": 0.4115,
+      "step": 1630
+    },
+    {
+      "epoch": 0.6218009478672986,
+      "grad_norm": 0.6284864544868469,
+      "learning_rate": 3.241827087184112e-05,
+      "loss": 0.3517,
+      "step": 1640
+    },
+    {
+      "epoch": 0.6255924170616114,
+      "grad_norm": 0.6837667226791382,
+      "learning_rate": 3.185138812983393e-05,
+      "loss": 0.2677,
+      "step": 1650
+    },
+    {
+      "epoch": 0.6255924170616114,
+      "eval_loss": 0.4205625653266907,
+      "eval_runtime": 211.4182,
+      "eval_samples_per_second": 21.01,
+      "eval_steps_per_second": 5.255,
+      "step": 1650
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.464578120764883e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null