Training in progress, step 900, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6a5e7e2e9841d8d40165440a3b114fc6d3a87902db66ffbd1b617c4aa2a1f92
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:2773d103adc0c8ead46e0d1c9d2b732e43a4d7f35c1549395924e393990949aa
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c836f87dcb2db7f41a447900b41dd00eae6cdbaa06e92c32e9807a9f578ad1e6
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa61b3f79af01e7d3e5def7cc983009509b1ffb854e28f10d1b53c286d3e8339
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b06ba8d87a0f7bcf601543861884286b2d36e86437be80b16b850d3463989780
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b38bdd189b57d19eb835886fb130c8330a50be14e952a10893bb9397bd28e4c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66d2088500e6ca21e61da50d6c34e788ca76aa5deb1c73d3c503a66913944d14
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:718698456f8ff8ad30f575ae2e26668e12a9063b8bcc9333e9c52723f1413da8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.49101725220680237,
-  "best_model_checkpoint": "miner_id_24/checkpoint-750",
-  "epoch": 0.2843601895734597,
   "eval_steps": 150,
-  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -580,6 +580,119 @@
       "eval_samples_per_second": 20.996,
       "eval_steps_per_second": 5.251,
       "step": 750
     }
   ],
   "logging_steps": 10,
@@ -608,7 +721,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.652544882269225e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.48085248470306396,
+  "best_model_checkpoint": "miner_id_24/checkpoint-900",
+  "epoch": 0.3412322274881517,
   "eval_steps": 150,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.996,
       "eval_steps_per_second": 5.251,
       "step": 750
+    },
+    {
+      "epoch": 0.2881516587677725,
+      "grad_norm": 0.8108296394348145,
+      "learning_rate": 8.255079353099611e-05,
+      "loss": 0.7564,
+      "step": 760
+    },
+    {
+      "epoch": 0.2919431279620853,
+      "grad_norm": 0.778976559638977,
+      "learning_rate": 8.208768975964338e-05,
+      "loss": 0.5116,
+      "step": 770
+    },
+    {
+      "epoch": 0.2957345971563981,
+      "grad_norm": 0.7423689961433411,
+      "learning_rate": 8.161985769597045e-05,
+      "loss": 0.4358,
+      "step": 780
+    },
+    {
+      "epoch": 0.2995260663507109,
+      "grad_norm": 0.7508371472358704,
+      "learning_rate": 8.114736627752846e-05,
+      "loss": 0.3686,
+      "step": 790
+    },
+    {
+      "epoch": 0.3033175355450237,
+      "grad_norm": 0.5939842462539673,
+      "learning_rate": 8.067028512844929e-05,
+      "loss": 0.2847,
+      "step": 800
+    },
+    {
+      "epoch": 0.3071090047393365,
+      "grad_norm": 0.8010008931159973,
+      "learning_rate": 8.018868454918627e-05,
+      "loss": 0.7743,
+      "step": 810
+    },
+    {
+      "epoch": 0.3109004739336493,
+      "grad_norm": 0.8660693764686584,
+      "learning_rate": 7.970263550615469e-05,
+      "loss": 0.5334,
+      "step": 820
+    },
+    {
+      "epoch": 0.31469194312796206,
+      "grad_norm": 0.708128035068512,
+      "learning_rate": 7.921220962127487e-05,
+      "loss": 0.4534,
+      "step": 830
+    },
+    {
+      "epoch": 0.3184834123222749,
+      "grad_norm": 0.7724855542182922,
+      "learning_rate": 7.871747916141808e-05,
+      "loss": 0.3683,
+      "step": 840
+    },
+    {
+      "epoch": 0.3222748815165877,
+      "grad_norm": 0.6242368817329407,
+      "learning_rate": 7.821851702775765e-05,
+      "loss": 0.2945,
+      "step": 850
+    },
+    {
+      "epoch": 0.32606635071090045,
+      "grad_norm": 0.8044713139533997,
+      "learning_rate": 7.771539674502667e-05,
+      "loss": 0.7826,
+      "step": 860
+    },
+    {
+      "epoch": 0.3298578199052133,
+      "grad_norm": 0.7477179765701294,
+      "learning_rate": 7.720819245068368e-05,
+      "loss": 0.4976,
+      "step": 870
+    },
+    {
+      "epoch": 0.33364928909952607,
+      "grad_norm": 0.7895752191543579,
+      "learning_rate": 7.669697888398812e-05,
+      "loss": 0.4432,
+      "step": 880
+    },
+    {
+      "epoch": 0.33744075829383885,
+      "grad_norm": 0.7435291409492493,
+      "learning_rate": 7.618183137498709e-05,
+      "loss": 0.3796,
+      "step": 890
+    },
+    {
+      "epoch": 0.3412322274881517,
+      "grad_norm": 0.8892961144447327,
+      "learning_rate": 7.56628258334151e-05,
+      "loss": 0.2694,
+      "step": 900
+    },
+    {
+      "epoch": 0.3412322274881517,
+      "eval_loss": 0.48085248470306396,
+      "eval_runtime": 211.2971,
+      "eval_samples_per_second": 21.023,
+      "eval_steps_per_second": 5.258,
+      "step": 900
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 7.983808115512443e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null