Training in progress, step 2550, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:712502ca776105404151dfeac958174c3eed08f2aa25261a982b2f9aa888fe9f
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc7a32ae1a260d232561f8bfa7cadee6bbcd47aca2968958089976f95afd9512
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c223af06d71ce7871dc7649f6cfdee15585b3a08252ccf3975c3b7c0d9857b12
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4630961c792966353518425385bb6bdec4ee01ada3092767c85b23a263ff78d
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ceaa3f2b731557edf0d8aff0b45a00a84d15db8edf47bd49778d983e9466b85
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0df359f92a67934fe621c77a319e3203ed8bf9f11020a6732c84063a23dd6bca
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:334bfcab64a1c8be0f196dcc75ffd76422b0488c7c39f2cac1326be5a0bdb87a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f216ea40a4443b0f449133ae4ca79e6899c677cb6c40f87fbb71204a9e2a38ba
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.39714062213897705,
-  "best_model_checkpoint": "miner_id_24/checkpoint-2400",
-  "epoch": 0.909952606635071,
   "eval_steps": 150,
-  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1823,6 +1823,119 @@
       "eval_samples_per_second": 21.01,
       "eval_steps_per_second": 5.255,
       "step": 2400
     }
   ],
   "logging_steps": 10,
@@ -1851,7 +1964,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.1324725077546107e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.396539568901062,
+  "best_model_checkpoint": "miner_id_24/checkpoint-2550",
+  "epoch": 0.966824644549763,
   "eval_steps": 150,
+  "global_step": 2550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.01,
       "eval_steps_per_second": 5.255,
       "step": 2400
+    },
+    {
+      "epoch": 0.9137440758293839,
+      "grad_norm": 0.7534606456756592,
+      "learning_rate": 1.9028598748504767e-06,
+      "loss": 0.631,
+      "step": 2410
+    },
+    {
+      "epoch": 0.9175355450236967,
+      "grad_norm": 0.7881170511245728,
+      "learning_rate": 1.7405569831232704e-06,
+      "loss": 0.4308,
+      "step": 2420
+    },
+    {
+      "epoch": 0.9213270142180094,
+      "grad_norm": 0.7743288278579712,
+      "learning_rate": 1.5853653778583666e-06,
+      "loss": 0.3928,
+      "step": 2430
+    },
+    {
+      "epoch": 0.9251184834123223,
+      "grad_norm": 0.6832749247550964,
+      "learning_rate": 1.437307927366971e-06,
+      "loss": 0.3336,
+      "step": 2440
+    },
+    {
+      "epoch": 0.9289099526066351,
+      "grad_norm": 0.6585612297058105,
+      "learning_rate": 1.2964064487045236e-06,
+      "loss": 0.2391,
+      "step": 2450
+    },
+    {
+      "epoch": 0.9327014218009478,
+      "grad_norm": 0.7330191135406494,
+      "learning_rate": 1.162681704455798e-06,
+      "loss": 0.6028,
+      "step": 2460
+    },
+    {
+      "epoch": 0.9364928909952607,
+      "grad_norm": 0.8107926249504089,
+      "learning_rate": 1.036153399675488e-06,
+      "loss": 0.4511,
+      "step": 2470
+    },
+    {
+      "epoch": 0.9402843601895735,
+      "grad_norm": 0.7075092792510986,
+      "learning_rate": 9.168401789845183e-07,
+      "loss": 0.3733,
+      "step": 2480
+    },
+    {
+      "epoch": 0.9440758293838862,
+      "grad_norm": 0.6632401347160339,
+      "learning_rate": 8.04759623822654e-07,
+      "loss": 0.3243,
+      "step": 2490
+    },
+    {
+      "epoch": 0.9478672985781991,
+      "grad_norm": 0.6346734166145325,
+      "learning_rate": 6.999282498578174e-07,
+      "loss": 0.2299,
+      "step": 2500
+    },
+    {
+      "epoch": 0.9516587677725118,
+      "grad_norm": 0.7297029495239258,
+      "learning_rate": 6.023615045523844e-07,
+      "loss": 0.6426,
+      "step": 2510
+    },
+    {
+      "epoch": 0.9554502369668246,
+      "grad_norm": 0.6962762475013733,
+      "learning_rate": 5.120737648869389e-07,
+      "loss": 0.4379,
+      "step": 2520
+    },
+    {
+      "epoch": 0.9592417061611375,
+      "grad_norm": 0.7509403824806213,
+      "learning_rate": 4.290783352417338e-07,
+      "loss": 0.3845,
+      "step": 2530
+    },
+    {
+      "epoch": 0.9630331753554502,
+      "grad_norm": 0.7338268160820007,
+      "learning_rate": 3.5338744543622627e-07,
+      "loss": 0.332,
+      "step": 2540
+    },
+    {
+      "epoch": 0.966824644549763,
+      "grad_norm": 0.5980384945869446,
+      "learning_rate": 2.8501224892695245e-07,
+      "loss": 0.2342,
+      "step": 2550
+    },
+    {
+      "epoch": 0.966824644549763,
+      "eval_loss": 0.396539568901062,
+      "eval_runtime": 211.4226,
+      "eval_samples_per_second": 21.01,
+      "eval_steps_per_second": 5.255,
+      "step": 2550
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.2657873952762757e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null