Training in progress, step 600, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54920ba191c3897d93abfae0a14a21bd7a86a9692f46148ebd173663fb27535f
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:a54da16fe5b7240520a8f0594ca1a306a0a1ecaaf0a8669778d4b19f6f436fe0
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9701a6fcd0bec7a7a691c63dc3f672f22d9831364b8c114a2763218f599fac02
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5682899f455e6629f68ca1f9cdb66fc03fe34158aef39f8de70b66a8ec81423
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94ab18e1d59252106afdf4da18e343f22032a2767a4c2723009e6558803b0e96
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:820de53dfaf045d5a737950c45788f808d1be0eca4d5a60d4c9e76874bc164e2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f915568f86cbbb4ec27d1f37808bebd339a27f0f49c65b6033fc00a9a70a87ef
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f713db28527f6f7f6479d56becbe3f5b41c00c9e5161b1a032f149ce03e9872
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.53005450963974,
-  "best_model_checkpoint": "miner_id_24/checkpoint-450",
-  "epoch": 0.17061611374407584,
   "eval_steps": 150,
-  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -354,6 +354,119 @@
       "eval_samples_per_second": 21.047,
       "eval_steps_per_second": 5.264,
       "step": 450
     }
   ],
   "logging_steps": 10,
@@ -382,7 +495,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.9862471318359245e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5122374892234802,
+  "best_model_checkpoint": "miner_id_24/checkpoint-600",
+  "epoch": 0.22748815165876776,
   "eval_steps": 150,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.047,
       "eval_steps_per_second": 5.264,
       "step": 450
+    },
+    {
+      "epoch": 0.17440758293838862,
+      "grad_norm": 0.840986430644989,
+      "learning_rate": 9.393409622681559e-05,
+      "loss": 0.8218,
+      "step": 460
+    },
+    {
+      "epoch": 0.17819905213270143,
+      "grad_norm": 0.8100599050521851,
+      "learning_rate": 9.364110200687738e-05,
+      "loss": 0.5342,
+      "step": 470
+    },
+    {
+      "epoch": 0.1819905213270142,
+      "grad_norm": 0.8114942908287048,
+      "learning_rate": 9.33416770376702e-05,
+      "loss": 0.4595,
+      "step": 480
+    },
+    {
+      "epoch": 0.18578199052132702,
+      "grad_norm": 0.6884726285934448,
+      "learning_rate": 9.303586544106115e-05,
+      "loss": 0.411,
+      "step": 490
+    },
+    {
+      "epoch": 0.1895734597156398,
+      "grad_norm": 0.8265155553817749,
+      "learning_rate": 9.272371228002091e-05,
+      "loss": 0.3095,
+      "step": 500
+    },
+    {
+      "epoch": 0.1933649289099526,
+      "grad_norm": 0.8282197117805481,
+      "learning_rate": 9.240526355198353e-05,
+      "loss": 0.8212,
+      "step": 510
+    },
+    {
+      "epoch": 0.1971563981042654,
+      "grad_norm": 0.783984899520874,
+      "learning_rate": 9.208056618206853e-05,
+      "loss": 0.5332,
+      "step": 520
+    },
+    {
+      "epoch": 0.2009478672985782,
+      "grad_norm": 0.7088342905044556,
+      "learning_rate": 9.174966801616603e-05,
+      "loss": 0.459,
+      "step": 530
+    },
+    {
+      "epoch": 0.204739336492891,
+      "grad_norm": 0.7358261942863464,
+      "learning_rate": 9.141261781388664e-05,
+      "loss": 0.3989,
+      "step": 540
+    },
+    {
+      "epoch": 0.20853080568720378,
+      "grad_norm": 0.686541736125946,
+      "learning_rate": 9.10694652413763e-05,
+      "loss": 0.3132,
+      "step": 550
+    },
+    {
+      "epoch": 0.2123222748815166,
+      "grad_norm": 0.8187770247459412,
+      "learning_rate": 9.072026086399777e-05,
+      "loss": 0.8469,
+      "step": 560
+    },
+    {
+      "epoch": 0.2161137440758294,
+      "grad_norm": 0.8380711674690247,
+      "learning_rate": 9.03650561388796e-05,
+      "loss": 0.5158,
+      "step": 570
+    },
+    {
+      "epoch": 0.21990521327014217,
+      "grad_norm": 0.7505501508712769,
+      "learning_rate": 9.000390340733353e-05,
+      "loss": 0.4408,
+      "step": 580
+    },
+    {
+      "epoch": 0.22369668246445498,
+      "grad_norm": 0.7203567028045654,
+      "learning_rate": 8.963685588714185e-05,
+      "loss": 0.3953,
+      "step": 590
+    },
+    {
+      "epoch": 0.22748815165876776,
+      "grad_norm": 0.6150539517402649,
+      "learning_rate": 8.926396766471537e-05,
+      "loss": 0.2903,
+      "step": 600
+    },
+    {
+      "epoch": 0.22748815165876776,
+      "eval_loss": 0.5122374892234802,
+      "eval_runtime": 211.7681,
+      "eval_samples_per_second": 20.976,
+      "eval_steps_per_second": 5.246,
+      "step": 600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.31562472310571e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null