Training in progress, step 2100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:412e51cdc7d726870ae8f6204741d3d1562e0102dcabde12df717ac957963803
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:23e6c68395835c095227904b39332d10c7d34ed81b5571602677e6ef5575a13c
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a05b3409edce260bc3ca9025cc2358ecfe3019c73e1cafa162b1fd3ffdb415d
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:730cb00d49078d662595d6151979453a01918923d37aa2ef0eb475c5ee4d0078
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:babd590d0742fc32628cbe9db2b8cd70b83c9e903b16900f03ac2712f2748c4b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8da0edca726df8f38c4ca0e916639bf4307c82f3e2c93b50d1be5fc1f26a49b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3db5842dcea39e4b17fa9381afbdc2276af054161f761dc7841162f8c80751ca
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5ee946f0f01c37e2608b520c9577a5f5f81875a92165f89f7b804fa093c4404
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.40772125124931335,
-  "best_model_checkpoint": "miner_id_24/checkpoint-1950",
-  "epoch": 0.7393364928909952,
   "eval_steps": 150,
-  "global_step": 1950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1484,6 +1484,119 @@
       "eval_samples_per_second": 20.994,
       "eval_steps_per_second": 5.251,
       "step": 1950
     }
   ],
   "logging_steps": 10,
@@ -1512,7 +1625,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.731207895808213e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.40230637788772583,
+  "best_model_checkpoint": "miner_id_24/checkpoint-2100",
+  "epoch": 0.7962085308056872,
   "eval_steps": 150,
+  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.994,
       "eval_steps_per_second": 5.251,
       "step": 1950
+    },
+    {
+      "epoch": 0.7431279620853081,
+      "grad_norm": 0.7177047729492188,
+      "learning_rate": 1.5999838850740295e-05,
+      "loss": 0.5998,
+      "step": 1960
+    },
+    {
+      "epoch": 0.7469194312796209,
+      "grad_norm": 0.7692488431930542,
+      "learning_rate": 1.555733080046378e-05,
+      "loss": 0.4557,
+      "step": 1970
+    },
+    {
+      "epoch": 0.7507109004739336,
+      "grad_norm": 0.7131124138832092,
+      "learning_rate": 1.5119898061295162e-05,
+      "loss": 0.3787,
+      "step": 1980
+    },
+    {
+      "epoch": 0.7545023696682465,
+      "grad_norm": 0.7252326011657715,
+      "learning_rate": 1.468760509128288e-05,
+      "loss": 0.3477,
+      "step": 1990
+    },
+    {
+      "epoch": 0.7582938388625592,
+      "grad_norm": 0.6361256241798401,
+      "learning_rate": 1.4260515591103002e-05,
+      "loss": 0.2685,
+      "step": 2000
+    },
+    {
+      "epoch": 0.762085308056872,
+      "grad_norm": 0.741794228553772,
+      "learning_rate": 1.3838692494672462e-05,
+      "loss": 0.6092,
+      "step": 2010
+    },
+    {
+      "epoch": 0.7658767772511849,
+      "grad_norm": 0.7934831976890564,
+      "learning_rate": 1.3422197959875615e-05,
+      "loss": 0.4335,
+      "step": 2020
+    },
+    {
+      "epoch": 0.7696682464454976,
+      "grad_norm": 0.7226603031158447,
+      "learning_rate": 1.3011093359404725e-05,
+      "loss": 0.3835,
+      "step": 2030
+    },
+    {
+      "epoch": 0.7734597156398104,
+      "grad_norm": 0.7291485667228699,
+      "learning_rate": 1.2605439271716517e-05,
+      "loss": 0.3368,
+      "step": 2040
+    },
+    {
+      "epoch": 0.7772511848341233,
+      "grad_norm": 0.47125428915023804,
+      "learning_rate": 1.220529547210556e-05,
+      "loss": 0.239,
+      "step": 2050
+    },
+    {
+      "epoch": 0.781042654028436,
+      "grad_norm": 0.7346218824386597,
+      "learning_rate": 1.181072092389608e-05,
+      "loss": 0.5992,
+      "step": 2060
+    },
+    {
+      "epoch": 0.7848341232227488,
+      "grad_norm": 0.7117639780044556,
+      "learning_rate": 1.1421773769753386e-05,
+      "loss": 0.4201,
+      "step": 2070
+    },
+    {
+      "epoch": 0.7886255924170616,
+      "grad_norm": 0.7014518976211548,
+      "learning_rate": 1.1038511323116208e-05,
+      "loss": 0.387,
+      "step": 2080
+    },
+    {
+      "epoch": 0.7924170616113744,
+      "grad_norm": 0.6080646514892578,
+      "learning_rate": 1.066099005975132e-05,
+      "loss": 0.3142,
+      "step": 2090
+    },
+    {
+      "epoch": 0.7962085308056872,
+      "grad_norm": 0.7223226428031921,
+      "learning_rate": 1.0289265609431536e-05,
+      "loss": 0.2375,
+      "step": 2100
+    },
+    {
+      "epoch": 0.7962085308056872,
+      "eval_loss": 0.40230637788772583,
+      "eval_runtime": 211.0367,
+      "eval_samples_per_second": 21.048,
+      "eval_steps_per_second": 5.264,
+      "step": 2100
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.8643342191325348e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null