Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:200a88f61a7e88a93fb00c5dc2da4ba537a81cd94444730c2f73356bcb9fa588
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3c5ece6319df12b42a1321ab23cc0d598cb195389f44ad963eb2a55611fa1bb
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75023e07d60e4e00600120d9257e00fe03185b56bfc95b72efdb36dd2222933b
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:38d317eefa2b55406d7080b244f8c8276671d3ad992293aa7b453dbb94ceedb8
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddf91ecd669f186faeccc2ddc419b2e245a4aca4accac80b04b3de8a0ea96372
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8432027dbbc8dab44e5086e964f9cdb0667714c28870c25714f6895b3ab20859
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6769de87f07ffd3568aa81b9a1fe6ecade894861382192b5a67c276923ba90ef
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e81835a72dc0c964cd591ffc9309a23b625c25e3c788c837ad74942ba4e6af0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4398421049118042,
-  "best_model_checkpoint": "miner_id_24/checkpoint-1350",
-  "epoch": 0.5118483412322274,
   "eval_steps": 150,
-  "global_step": 1350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1032,6 +1032,119 @@
       "eval_samples_per_second": 21.042,
       "eval_steps_per_second": 5.263,
       "step": 1350
     }
   ],
   "logging_steps": 10,
@@ -1060,7 +1173,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.197948345721553e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.43063661456108093,
+  "best_model_checkpoint": "miner_id_24/checkpoint-1500",
+  "epoch": 0.5687203791469194,
   "eval_steps": 150,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.042,
       "eval_steps_per_second": 5.263,
       "step": 1350
+    },
+    {
+      "epoch": 0.5156398104265403,
+      "grad_norm": 0.7083640694618225,
+      "learning_rate": 4.9028935042379894e-05,
+      "loss": 0.7199,
+      "step": 1360
+    },
+    {
+      "epoch": 0.5194312796208531,
+      "grad_norm": 0.7591987252235413,
+      "learning_rate": 4.842218221162174e-05,
+      "loss": 0.4614,
+      "step": 1370
+    },
+    {
+      "epoch": 0.5232227488151658,
+      "grad_norm": 0.6956468820571899,
+      "learning_rate": 4.78156618807346e-05,
+      "loss": 0.4092,
+      "step": 1380
+    },
+    {
+      "epoch": 0.5270142180094787,
+      "grad_norm": 0.6942465901374817,
+      "learning_rate": 4.720946342372596e-05,
+      "loss": 0.3517,
+      "step": 1390
+    },
+    {
+      "epoch": 0.5308056872037915,
+      "grad_norm": 0.6259123086929321,
+      "learning_rate": 4.660367616717337e-05,
+      "loss": 0.258,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5345971563981042,
+      "grad_norm": 0.7933112978935242,
+      "learning_rate": 4.599838937706183e-05,
+      "loss": 0.6823,
+      "step": 1410
+    },
+    {
+      "epoch": 0.5383886255924171,
+      "grad_norm": 0.8216676115989685,
+      "learning_rate": 4.5393692245629936e-05,
+      "loss": 0.4629,
+      "step": 1420
+    },
+    {
+      "epoch": 0.5421800947867299,
+      "grad_norm": 0.6931918263435364,
+      "learning_rate": 4.478967387822697e-05,
+      "loss": 0.402,
+      "step": 1430
+    },
+    {
+      "epoch": 0.5459715639810426,
+      "grad_norm": 0.6871898174285889,
+      "learning_rate": 4.418642328018265e-05,
+      "loss": 0.3666,
+      "step": 1440
+    },
+    {
+      "epoch": 0.5497630331753555,
+      "grad_norm": 0.7060806751251221,
+      "learning_rate": 4.3584029343691805e-05,
+      "loss": 0.2629,
+      "step": 1450
+    },
+    {
+      "epoch": 0.5535545023696683,
+      "grad_norm": 0.7377336025238037,
+      "learning_rate": 4.298258083471563e-05,
+      "loss": 0.7025,
+      "step": 1460
+    },
+    {
+      "epoch": 0.557345971563981,
+      "grad_norm": 0.718527615070343,
+      "learning_rate": 4.238216637990152e-05,
+      "loss": 0.4684,
+      "step": 1470
+    },
+    {
+      "epoch": 0.5611374407582939,
+      "grad_norm": 0.7513172626495361,
+      "learning_rate": 4.178287445352348e-05,
+      "loss": 0.4107,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5649289099526066,
+      "grad_norm": 0.6840953826904297,
+      "learning_rate": 4.118479336444492e-05,
+      "loss": 0.3441,
+      "step": 1490
+    },
+    {
+      "epoch": 0.5687203791469194,
+      "grad_norm": 0.5901861190795898,
+      "learning_rate": 4.058801124310595e-05,
+      "loss": 0.2717,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5687203791469194,
+      "eval_loss": 0.43063661456108093,
+      "eval_runtime": 211.4062,
+      "eval_samples_per_second": 21.012,
+      "eval_steps_per_second": 5.255,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.3314517974405612e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null