Training in progress, step 750, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a54da16fe5b7240520a8f0594ca1a306a0a1ecaaf0a8669778d4b19f6f436fe0
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6a5e7e2e9841d8d40165440a3b114fc6d3a87902db66ffbd1b617c4aa2a1f92
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5682899f455e6629f68ca1f9cdb66fc03fe34158aef39f8de70b66a8ec81423
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:c836f87dcb2db7f41a447900b41dd00eae6cdbaa06e92c32e9807a9f578ad1e6
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:820de53dfaf045d5a737950c45788f808d1be0eca4d5a60d4c9e76874bc164e2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b06ba8d87a0f7bcf601543861884286b2d36e86437be80b16b850d3463989780
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f713db28527f6f7f6479d56becbe3f5b41c00c9e5161b1a032f149ce03e9872
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:66d2088500e6ca21e61da50d6c34e788ca76aa5deb1c73d3c503a66913944d14
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.5122374892234802,
-  "best_model_checkpoint": "miner_id_24/checkpoint-600",
-  "epoch": 0.22748815165876776,
   "eval_steps": 150,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -467,6 +467,119 @@
       "eval_samples_per_second": 20.976,
       "eval_steps_per_second": 5.246,
       "step": 600
     }
   ],
   "logging_steps": 10,
@@ -495,7 +608,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.31562472310571e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.49101725220680237,
+  "best_model_checkpoint": "miner_id_24/checkpoint-750",
+  "epoch": 0.2843601895734597,
   "eval_steps": 150,
+  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.976,
       "eval_steps_per_second": 5.246,
       "step": 600
+    },
+    {
+      "epoch": 0.23127962085308057,
+      "grad_norm": 0.8199161291122437,
+      "learning_rate": 8.888529368712357e-05,
+      "loss": 0.8378,
+      "step": 610
+    },
+    {
+      "epoch": 0.23507109004739338,
+      "grad_norm": 0.7916120886802673,
+      "learning_rate": 8.850088975399781e-05,
+      "loss": 0.5298,
+      "step": 620
+    },
+    {
+      "epoch": 0.23886255924170616,
+      "grad_norm": 0.836801290512085,
+      "learning_rate": 8.811081250930902e-05,
+      "loss": 0.4505,
+      "step": 630
+    },
+    {
+      "epoch": 0.24265402843601896,
+      "grad_norm": 0.688791036605835,
+      "learning_rate": 8.771511943302079e-05,
+      "loss": 0.4163,
+      "step": 640
+    },
+    {
+      "epoch": 0.24644549763033174,
+      "grad_norm": 0.7080439925193787,
+      "learning_rate": 8.731386883261952e-05,
+      "loss": 0.3036,
+      "step": 650
+    },
+    {
+      "epoch": 0.2502369668246445,
+      "grad_norm": 0.7296505570411682,
+      "learning_rate": 8.690711983452243e-05,
+      "loss": 0.8379,
+      "step": 660
+    },
+    {
+      "epoch": 0.25402843601895736,
+      "grad_norm": 0.7905020117759705,
+      "learning_rate": 8.649493237536499e-05,
+      "loss": 0.5306,
+      "step": 670
+    },
+    {
+      "epoch": 0.25781990521327014,
+      "grad_norm": 0.8950763940811157,
+      "learning_rate": 8.60773671931689e-05,
+      "loss": 0.46,
+      "step": 680
+    },
+    {
+      "epoch": 0.2616113744075829,
+      "grad_norm": 0.7092387080192566,
+      "learning_rate": 8.56544858183921e-05,
+      "loss": 0.3971,
+      "step": 690
+    },
+    {
+      "epoch": 0.26540284360189575,
+      "grad_norm": 0.7552494406700134,
+      "learning_rate": 8.522635056486181e-05,
+      "loss": 0.2735,
+      "step": 700
+    },
+    {
+      "epoch": 0.26919431279620853,
+      "grad_norm": 0.7642441391944885,
+      "learning_rate": 8.479302452059238e-05,
+      "loss": 0.7899,
+      "step": 710
+    },
+    {
+      "epoch": 0.2729857819905213,
+      "grad_norm": 0.773184061050415,
+      "learning_rate": 8.435457153848887e-05,
+      "loss": 0.5101,
+      "step": 720
+    },
+    {
+      "epoch": 0.27677725118483415,
+      "grad_norm": 0.8441540002822876,
+      "learning_rate": 8.391105622693793e-05,
+      "loss": 0.4299,
+      "step": 730
+    },
+    {
+      "epoch": 0.28056872037914693,
+      "grad_norm": 0.6840046048164368,
+      "learning_rate": 8.346254394028754e-05,
+      "loss": 0.3795,
+      "step": 740
+    },
+    {
+      "epoch": 0.2843601895734597,
+      "grad_norm": 0.5915653705596924,
+      "learning_rate": 8.30091007692166e-05,
+      "loss": 0.2805,
+      "step": 750
+    },
+    {
+      "epoch": 0.2843601895734597,
+      "eval_loss": 0.49101725220680237,
+      "eval_runtime": 211.5623,
+      "eval_samples_per_second": 20.996,
+      "eval_steps_per_second": 5.251,
+      "step": 750
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.652544882269225e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null