Training in progress, step 1050, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2773d103adc0c8ead46e0d1c9d2b732e43a4d7f35c1549395924e393990949aa
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:d50e369477786043c5b430851002961dd9f9caa36844616c46cc591eef997815
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa61b3f79af01e7d3e5def7cc983009509b1ffb854e28f10d1b53c286d3e8339
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce7f08252a0254378dc4f06a78893a75baf46281ea927e52f1363d5c2a38aa73
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b38bdd189b57d19eb835886fb130c8330a50be14e952a10893bb9397bd28e4c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b9d03f439ef2470796b8838956fc6c9abc3635668ab5869b079253aa045a6d43
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:718698456f8ff8ad30f575ae2e26668e12a9063b8bcc9333e9c52723f1413da8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac137486d76d1388893f1df68d737ba62f99dd1ad4017b78eda04d51748bd9d2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.48085248470306396,
-  "best_model_checkpoint": "miner_id_24/checkpoint-900",
-  "epoch": 0.3412322274881517,
   "eval_steps": 150,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -693,6 +693,119 @@
       "eval_samples_per_second": 21.023,
       "eval_steps_per_second": 5.258,
       "step": 900
     }
   ],
   "logging_steps": 10,
@@ -721,7 +834,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.983808115512443e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4649004638195038,
+  "best_model_checkpoint": "miner_id_24/checkpoint-1050",
+  "epoch": 0.3981042654028436,
   "eval_steps": 150,
+  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.023,
       "eval_steps_per_second": 5.258,
       "step": 900
+    },
+    {
+      "epoch": 0.34502369668246446,
+      "grad_norm": 0.7861023545265198,
+      "learning_rate": 7.514003873750836e-05,
+      "loss": 0.7591,
+      "step": 910
+    },
+    {
+      "epoch": 0.34881516587677724,
+      "grad_norm": 0.7269836068153381,
+      "learning_rate": 7.461354712273526e-05,
+      "loss": 0.502,
+      "step": 920
+    },
+    {
+      "epoch": 0.35260663507109,
+      "grad_norm": 0.7629136443138123,
+      "learning_rate": 7.408342857044484e-05,
+      "loss": 0.4215,
+      "step": 930
+    },
+    {
+      "epoch": 0.35639810426540286,
+      "grad_norm": 0.668658435344696,
+      "learning_rate": 7.354976119643472e-05,
+      "loss": 0.3744,
+      "step": 940
+    },
+    {
+      "epoch": 0.36018957345971564,
+      "grad_norm": 0.6049548387527466,
+      "learning_rate": 7.301262363944035e-05,
+      "loss": 0.2709,
+      "step": 950
+    },
+    {
+      "epoch": 0.3639810426540284,
+      "grad_norm": 0.8917579650878906,
+      "learning_rate": 7.247209504954715e-05,
+      "loss": 0.7532,
+      "step": 960
+    },
+    {
+      "epoch": 0.36777251184834125,
+      "grad_norm": 0.7818393111228943,
+      "learning_rate": 7.192825507652734e-05,
+      "loss": 0.4742,
+      "step": 970
+    },
+    {
+      "epoch": 0.37156398104265403,
+      "grad_norm": 0.7396854162216187,
+      "learning_rate": 7.138118385810313e-05,
+      "loss": 0.4385,
+      "step": 980
+    },
+    {
+      "epoch": 0.3753554502369668,
+      "grad_norm": 0.8227097392082214,
+      "learning_rate": 7.083096200813794e-05,
+      "loss": 0.3656,
+      "step": 990
+    },
+    {
+      "epoch": 0.3791469194312796,
+      "grad_norm": 0.6364562511444092,
+      "learning_rate": 7.027767060475764e-05,
+      "loss": 0.2728,
+      "step": 1000
+    },
+    {
+      "epoch": 0.38293838862559243,
+      "grad_norm": 0.7405619025230408,
+      "learning_rate": 6.972139117840307e-05,
+      "loss": 0.7329,
+      "step": 1010
+    },
+    {
+      "epoch": 0.3867298578199052,
+      "grad_norm": 0.761043131351471,
+      "learning_rate": 6.91622056998163e-05,
+      "loss": 0.4928,
+      "step": 1020
+    },
+    {
+      "epoch": 0.390521327014218,
+      "grad_norm": 0.7283722758293152,
+      "learning_rate": 6.860019656796163e-05,
+      "loss": 0.4324,
+      "step": 1030
+    },
+    {
+      "epoch": 0.3943127962085308,
+      "grad_norm": 0.6700026392936707,
+      "learning_rate": 6.80354465978838e-05,
+      "loss": 0.371,
+      "step": 1040
+    },
+    {
+      "epoch": 0.3981042654028436,
+      "grad_norm": 0.6622222065925598,
+      "learning_rate": 6.746803900850462e-05,
+      "loss": 0.2729,
+      "step": 1050
+    },
+    {
+      "epoch": 0.3981042654028436,
+      "eval_loss": 0.4649004638195038,
+      "eval_runtime": 211.8681,
+      "eval_samples_per_second": 20.966,
+      "eval_steps_per_second": 5.244,
+      "step": 1050
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9.315071348755661e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null