Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b54d36fd06528778435dcdefcbd11152a370120e11a6648a8e5f561b8496ff8
 size 116744

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee8d37d5acf7818c1c0e01a672f323d807dc59c147a8ac493551e4e10e28715d
 size 116744

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8f7a99b6c9fb93671df44b750b14d8e7fdabc75d12c6919ca068452d72b5e9b
 size 243310

 version https://git-lfs.github.com/spec/v1
+oid sha256:f62c08185768a1e5ef684b6f4ee3f14235182a2bb43d6b107566bdb319071567
 size 243310

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c98011b317d46e9d480534968001bbc78adb189694ee40a080d9ad5cdf580f79
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c7dbd9ba7f134a5eb17fb5066b23dec20a9133fec58fddd72ff39829cbfdd8f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f37b2aa490ccb1598b01e14cda36e9081f7ce646deab4d3c2d03de0d2169a755
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1df0528620c07325b8faa7567e59b0c1e86a1f1ee6af1245a69c6c0463fe4e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 10.369218826293945,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.0163826998689384,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 298.628,
       "eval_steps_per_second": 149.372,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 10571218944000.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 10.364786148071289,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.0327653997378768,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 298.628,
       "eval_steps_per_second": 149.372,
       "step": 25
+    },
+    {
+      "epoch": 0.01703800786369594,
+      "grad_norm": 0.16739259660243988,
+      "learning_rate": 5e-05,
+      "loss": 10.366,
+      "step": 26
+    },
+    {
+      "epoch": 0.017693315858453473,
+      "grad_norm": 0.1384848654270172,
+      "learning_rate": 4.6729843538492847e-05,
+      "loss": 10.3713,
+      "step": 27
+    },
+    {
+      "epoch": 0.01834862385321101,
+      "grad_norm": 0.16684308648109436,
+      "learning_rate": 4.347369038899744e-05,
+      "loss": 10.3655,
+      "step": 28
+    },
+    {
+      "epoch": 0.019003931847968544,
+      "grad_norm": 0.15990613400936127,
+      "learning_rate": 4.0245483899193595e-05,
+      "loss": 10.3648,
+      "step": 29
+    },
+    {
+      "epoch": 0.019659239842726082,
+      "grad_norm": 0.16474422812461853,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 10.3693,
+      "step": 30
+    },
+    {
+      "epoch": 0.020314547837483616,
+      "grad_norm": 0.1746203899383545,
+      "learning_rate": 3.392802673484193e-05,
+      "loss": 10.3652,
+      "step": 31
+    },
+    {
+      "epoch": 0.020969855832241154,
+      "grad_norm": 0.16651833057403564,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 10.3634,
+      "step": 32
+    },
+    {
+      "epoch": 0.02162516382699869,
+      "grad_norm": 0.1993493288755417,
+      "learning_rate": 2.7885565489049946e-05,
+      "loss": 10.3643,
+      "step": 33
+    },
+    {
+      "epoch": 0.022280471821756225,
+      "grad_norm": 0.16443601250648499,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 10.3667,
+      "step": 34
+    },
+    {
+      "epoch": 0.022935779816513763,
+      "grad_norm": 0.16944949328899384,
+      "learning_rate": 2.2221488349019903e-05,
+      "loss": 10.3641,
+      "step": 35
+    },
+    {
+      "epoch": 0.023591087811271297,
+      "grad_norm": 0.1945168524980545,
+      "learning_rate": 1.9561928549563968e-05,
+      "loss": 10.3754,
+      "step": 36
+    },
+    {
+      "epoch": 0.024246395806028834,
+      "grad_norm": 0.16690050065517426,
+      "learning_rate": 1.703270924499656e-05,
+      "loss": 10.3754,
+      "step": 37
+    },
+    {
+      "epoch": 0.02490170380078637,
+      "grad_norm": 0.1990780085325241,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 10.365,
+      "step": 38
+    },
+    {
+      "epoch": 0.025557011795543906,
+      "grad_norm": 0.22987933456897736,
+      "learning_rate": 1.2408009626051137e-05,
+      "loss": 10.3682,
+      "step": 39
+    },
+    {
+      "epoch": 0.02621231979030144,
+      "grad_norm": 0.21861015260219574,
+      "learning_rate": 1.0332332985438248e-05,
+      "loss": 10.3644,
+      "step": 40
+    },
+    {
+      "epoch": 0.026867627785058978,
+      "grad_norm": 0.19371634721755981,
+      "learning_rate": 8.426519384872733e-06,
+      "loss": 10.3733,
+      "step": 41
+    },
+    {
+      "epoch": 0.027522935779816515,
+      "grad_norm": 0.23852799832820892,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 10.3541,
+      "step": 42
+    },
+    {
+      "epoch": 0.02817824377457405,
+      "grad_norm": 0.26470351219177246,
+      "learning_rate": 5.156362923365588e-06,
+      "loss": 10.3659,
+      "step": 43
+    },
+    {
+      "epoch": 0.028833551769331587,
+      "grad_norm": 0.2550763189792633,
+      "learning_rate": 3.8060233744356633e-06,
+      "loss": 10.3616,
+      "step": 44
+    },
+    {
+      "epoch": 0.02948885976408912,
+      "grad_norm": 0.28359949588775635,
+      "learning_rate": 2.653493525244721e-06,
+      "loss": 10.3618,
+      "step": 45
+    },
+    {
+      "epoch": 0.03014416775884666,
+      "grad_norm": 0.32619985938072205,
+      "learning_rate": 1.70370868554659e-06,
+      "loss": 10.3661,
+      "step": 46
+    },
+    {
+      "epoch": 0.030799475753604193,
+      "grad_norm": 0.3372281789779663,
+      "learning_rate": 9.607359798384785e-07,
+      "loss": 10.3595,
+      "step": 47
+    },
+    {
+      "epoch": 0.03145478374836173,
+      "grad_norm": 0.3841142952442169,
+      "learning_rate": 4.277569313094809e-07,
+      "loss": 10.3643,
+      "step": 48
+    },
+    {
+      "epoch": 0.03211009174311927,
+      "grad_norm": 0.3756624460220337,
+      "learning_rate": 1.0705383806982606e-07,
+      "loss": 10.3708,
+      "step": 49
+    },
+    {
+      "epoch": 0.0327653997378768,
+      "grad_norm": 0.4794245660305023,
+      "learning_rate": 0.0,
+      "loss": 10.381,
+      "step": 50
+    },
+    {
+      "epoch": 0.0327653997378768,
+      "eval_loss": 10.364786148071289,
+      "eval_runtime": 8.5968,
+      "eval_samples_per_second": 299.065,
+      "eval_steps_per_second": 149.591,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 21142437888000.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null