Training in progress, step 2250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23e6c68395835c095227904b39332d10c7d34ed81b5571602677e6ef5575a13c
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:20330ea8ceb7989cdeaed0b70028a7280cf91c4a40d7a3dbf16716f4013eb76e
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:730cb00d49078d662595d6151979453a01918923d37aa2ef0eb475c5ee4d0078
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:f930ca3c8cd907232edcf81606166f98bf8373c658b9735840ca38b7917e86d3
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8da0edca726df8f38c4ca0e916639bf4307c82f3e2c93b50d1be5fc1f26a49b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:afe84c11be1cdc087ef0194266840b7ef5f06c05444f30ed4990e9108cb84807
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5ee946f0f01c37e2608b520c9577a5f5f81875a92165f89f7b804fa093c4404
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c383fc6cb5e030b465886a85a32551c8ea17044bece28f4ebe77147ab2b20f37
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.40230637788772583,
-  "best_model_checkpoint": "miner_id_24/checkpoint-2100",
-  "epoch": 0.7962085308056872,
   "eval_steps": 150,
-  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1597,6 +1597,119 @@
       "eval_samples_per_second": 21.048,
       "eval_steps_per_second": 5.264,
       "step": 2100
     }
   ],
   "logging_steps": 10,
@@ -1625,7 +1738,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8643342191325348e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.39911842346191406,
+  "best_model_checkpoint": "miner_id_24/checkpoint-2250",
+  "epoch": 0.8530805687203792,
   "eval_steps": 150,
+  "global_step": 2250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.048,
       "eval_steps_per_second": 5.264,
       "step": 2100
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.7154859900474548,
+      "learning_rate": 9.923392747738264e-06,
+      "loss": 0.6162,
+      "step": 2110
+    },
+    {
+      "epoch": 0.8037914691943128,
+      "grad_norm": 0.7427191734313965,
+      "learning_rate": 9.563425387990149e-06,
+      "loss": 0.4395,
+      "step": 2120
+    },
+    {
+      "epoch": 0.8075829383886256,
+      "grad_norm": 0.6783840656280518,
+      "learning_rate": 9.209416573298567e-06,
+      "loss": 0.3985,
+      "step": 2130
+    },
+    {
+      "epoch": 0.8113744075829384,
+      "grad_norm": 0.7031378149986267,
+      "learning_rate": 8.861418468751542e-06,
+      "loss": 0.3239,
+      "step": 2140
+    },
+    {
+      "epoch": 0.8151658767772512,
+      "grad_norm": 0.7050457000732422,
+      "learning_rate": 8.51948235372686e-06,
+      "loss": 0.2472,
+      "step": 2150
+    },
+    {
+      "epoch": 0.818957345971564,
+      "grad_norm": 0.7675678133964539,
+      "learning_rate": 8.183658614335754e-06,
+      "loss": 0.6221,
+      "step": 2160
+    },
+    {
+      "epoch": 0.8227488151658767,
+      "grad_norm": 0.7096587419509888,
+      "learning_rate": 7.853996735998353e-06,
+      "loss": 0.404,
+      "step": 2170
+    },
+    {
+      "epoch": 0.8265402843601896,
+      "grad_norm": 0.7109266519546509,
+      "learning_rate": 7.530545296151642e-06,
+      "loss": 0.3859,
+      "step": 2180
+    },
+    {
+      "epoch": 0.8303317535545024,
+      "grad_norm": 0.6554428339004517,
+      "learning_rate": 7.213351957091369e-06,
+      "loss": 0.3142,
+      "step": 2190
+    },
+    {
+      "epoch": 0.8341232227488151,
+      "grad_norm": 0.5105351805686951,
+      "learning_rate": 6.902463458948738e-06,
+      "loss": 0.2497,
+      "step": 2200
+    },
+    {
+      "epoch": 0.837914691943128,
+      "grad_norm": 0.8070971965789795,
+      "learning_rate": 6.597925612802969e-06,
+      "loss": 0.6438,
+      "step": 2210
+    },
+    {
+      "epoch": 0.8417061611374408,
+      "grad_norm": 0.8927067518234253,
+      "learning_rate": 6.299783293930844e-06,
+      "loss": 0.4307,
+      "step": 2220
+    },
+    {
+      "epoch": 0.8454976303317535,
+      "grad_norm": 0.6909337043762207,
+      "learning_rate": 6.008080435194074e-06,
+      "loss": 0.3953,
+      "step": 2230
+    },
+    {
+      "epoch": 0.8492890995260663,
+      "grad_norm": 0.7040910720825195,
+      "learning_rate": 5.722860020565551e-06,
+      "loss": 0.3385,
+      "step": 2240
+    },
+    {
+      "epoch": 0.8530805687203792,
+      "grad_norm": 0.5680156350135803,
+      "learning_rate": 5.444164078795444e-06,
+      "loss": 0.247,
+      "step": 2250
+    },
+    {
+      "epoch": 0.8530805687203792,
+      "eval_loss": 0.39911842346191406,
+      "eval_runtime": 211.2832,
+      "eval_samples_per_second": 21.024,
+      "eval_steps_per_second": 5.258,
+      "step": 2250
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.9997233128249754e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null