End of training

Browse files

Files changed (6) hide show

README.md +1 -1
adapter_model.safetensors +1 -1
all_results.json +6 -6
train_results.json +6 -6
trainer_state.json +48 -104
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,7 +45,7 @@ The following hyperparameters were used during training:
 - total_train_batch_size: 8
 - optimizer: Use OptimizerNames.PAGED_ADAMW_8BIT with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
-- num_epochs: 5
 - mixed_precision_training: Native AMP
 ### Training results

 - total_train_batch_size: 8
 - optimizer: Use OptimizerNames.PAGED_ADAMW_8BIT with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
+- num_epochs: 3
 - mixed_precision_training: Native AMP
 ### Training results

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5aa93c1b7c6b9c41d9c025d794d95d11a02e903be58aa7c8109a86cabf31a19
 size 7098064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f13b5bc3bfd7e71cc212611755dcdb8e8ff2fa2781efeef6f372a56a4ce707d3
 size 7098064

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "total_flos": 4.0365651456e+18,
-    "train_loss": 0.6317709513287723,
-    "train_runtime": 3451.1568,
-    "train_samples_per_second": 4.017,
-    "train_steps_per_second": 0.503
 }

 {
+    "epoch": 3.0,
+    "total_flos": 2.42193908736e+18,
+    "train_loss": 0.6824458238599852,
+    "train_runtime": 2058.2511,
+    "train_samples_per_second": 4.042,
+    "train_steps_per_second": 0.506
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "total_flos": 4.0365651456e+18,
-    "train_loss": 0.6317709513287723,
-    "train_runtime": 3451.1568,
-    "train_samples_per_second": 4.017,
-    "train_steps_per_second": 0.503
 }

 {
+    "epoch": 3.0,
+    "total_flos": 2.42193908736e+18,
+    "train_loss": 0.6824458238599852,
+    "train_runtime": 2058.2511,
+    "train_samples_per_second": 4.042,
+    "train_steps_per_second": 0.506
 }

trainer_state.json CHANGED Viewed

@@ -1,167 +1,111 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.0,
   "eval_steps": 500,
-  "global_step": 1735,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.2881844380403458,
-      "grad_norm": 1.1160194873809814,
-      "learning_rate": 0.000189164265129683,
-      "loss": 4.0205,
       "step": 100
     },
     {
       "epoch": 0.5763688760806917,
-      "grad_norm": 2.0156755447387695,
-      "learning_rate": 0.0001776368876080692,
-      "loss": 1.605,
       "step": 200
     },
     {
       "epoch": 0.8645533141210374,
-      "grad_norm": 1.7225794792175293,
-      "learning_rate": 0.00016610951008645534,
-      "loss": 0.504,
       "step": 300
     },
     {
       "epoch": 1.1527377521613833,
-      "grad_norm": 1.113335132598877,
-      "learning_rate": 0.00015458213256484151,
-      "loss": 0.4403,
       "step": 400
     },
     {
       "epoch": 1.440922190201729,
-      "grad_norm": 1.4553213119506836,
-      "learning_rate": 0.00014305475504322766,
-      "loss": 0.3956,
       "step": 500
     },
     {
       "epoch": 1.440922190201729,
-      "eval_runtime": 222.0213,
-      "eval_samples_per_second": 5.572,
-      "eval_steps_per_second": 2.788,
       "step": 500
     },
     {
       "epoch": 1.729106628242075,
-      "grad_norm": 1.1621837615966797,
-      "learning_rate": 0.00013152737752161384,
-      "loss": 0.4173,
       "step": 600
     },
     {
       "epoch": 2.0172910662824206,
-      "grad_norm": 1.2616935968399048,
-      "learning_rate": 0.00012,
-      "loss": 0.4011,
       "step": 700
     },
     {
       "epoch": 2.3054755043227666,
-      "grad_norm": 1.4558714628219604,
-      "learning_rate": 0.00010847262247838617,
-      "loss": 0.3526,
       "step": 800
     },
     {
       "epoch": 2.5936599423631126,
-      "grad_norm": 0.9764755964279175,
-      "learning_rate": 9.694524495677234e-05,
-      "loss": 0.3396,
       "step": 900
     },
     {
       "epoch": 2.881844380403458,
-      "grad_norm": 1.3010659217834473,
-      "learning_rate": 8.54178674351585e-05,
-      "loss": 0.331,
       "step": 1000
     },
     {
       "epoch": 2.881844380403458,
-      "eval_runtime": 221.1814,
-      "eval_samples_per_second": 5.593,
-      "eval_steps_per_second": 2.799,
       "step": 1000
     },
     {
-      "epoch": 3.170028818443804,
-      "grad_norm": 1.0955506563186646,
-      "learning_rate": 7.389048991354467e-05,
-      "loss": 0.3304,
-      "step": 1100
-    },
-    {
-      "epoch": 3.4582132564841497,
-      "grad_norm": 1.3507652282714844,
-      "learning_rate": 6.236311239193083e-05,
-      "loss": 0.2925,
-      "step": 1200
-    },
-    {
-      "epoch": 3.7463976945244957,
-      "grad_norm": 1.1415163278579712,
-      "learning_rate": 5.083573487031701e-05,
-      "loss": 0.3203,
-      "step": 1300
-    },
-    {
-      "epoch": 4.034582132564841,
-      "grad_norm": 1.4559412002563477,
-      "learning_rate": 3.930835734870317e-05,
-      "loss": 0.2941,
-      "step": 1400
-    },
-    {
-      "epoch": 4.322766570605188,
-      "grad_norm": 1.3477973937988281,
-      "learning_rate": 2.7780979827089336e-05,
-      "loss": 0.269,
-      "step": 1500
-    },
-    {
-      "epoch": 4.322766570605188,
-      "eval_runtime": 221.2997,
-      "eval_samples_per_second": 5.59,
-      "eval_steps_per_second": 2.797,
-      "step": 1500
-    },
-    {
-      "epoch": 4.610951008645533,
-      "grad_norm": 0.9907336831092834,
-      "learning_rate": 1.6253602305475506e-05,
-      "loss": 0.2738,
-      "step": 1600
-    },
-    {
-      "epoch": 4.899135446685879,
-      "grad_norm": 1.5455944538116455,
-      "learning_rate": 4.726224783861672e-06,
-      "loss": 0.2767,
-      "step": 1700
-    },
-    {
-      "epoch": 5.0,
-      "step": 1735,
-      "total_flos": 4.0365651456e+18,
-      "train_loss": 0.6317709513287723,
-      "train_runtime": 3451.1568,
-      "train_samples_per_second": 4.017,
-      "train_steps_per_second": 0.503
     }
   ],
   "logging_steps": 100,
-  "max_steps": 1735,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -175,7 +119,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.0365651456e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 1041,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.2881844380403458,
+      "grad_norm": 1.4422333240509033,
+      "learning_rate": 0.0001815561959654179,
+      "loss": 3.1655,
       "step": 100
     },
     {
       "epoch": 0.5763688760806917,
+      "grad_norm": 1.9075777530670166,
+      "learning_rate": 0.00016234390009606147,
+      "loss": 0.8772,
       "step": 200
     },
     {
       "epoch": 0.8645533141210374,
+      "grad_norm": 1.9097354412078857,
+      "learning_rate": 0.0001431316042267051,
+      "loss": 0.451,
       "step": 300
     },
     {
       "epoch": 1.1527377521613833,
+      "grad_norm": 1.6237609386444092,
+      "learning_rate": 0.00012391930835734872,
+      "loss": 0.3981,
       "step": 400
     },
     {
       "epoch": 1.440922190201729,
+      "grad_norm": 1.9261122941970825,
+      "learning_rate": 0.00010470701248799233,
+      "loss": 0.367,
       "step": 500
     },
     {
       "epoch": 1.440922190201729,
+      "eval_runtime": 216.0803,
+      "eval_samples_per_second": 5.725,
+      "eval_steps_per_second": 2.865,
       "step": 500
     },
     {
       "epoch": 1.729106628242075,
+      "grad_norm": 1.2721047401428223,
+      "learning_rate": 8.549471661863592e-05,
+      "loss": 0.3705,
       "step": 600
     },
     {
       "epoch": 2.0172910662824206,
+      "grad_norm": 1.371832251548767,
+      "learning_rate": 6.628242074927953e-05,
+      "loss": 0.3746,
       "step": 700
     },
     {
       "epoch": 2.3054755043227666,
+      "grad_norm": 1.7075700759887695,
+      "learning_rate": 4.7070124879923156e-05,
+      "loss": 0.3314,
       "step": 800
     },
     {
       "epoch": 2.5936599423631126,
+      "grad_norm": 1.1070783138275146,
+      "learning_rate": 2.7857829010566765e-05,
+      "loss": 0.3145,
       "step": 900
     },
     {
       "epoch": 2.881844380403458,
+      "grad_norm": 1.6173722743988037,
+      "learning_rate": 8.645533141210376e-06,
+      "loss": 0.3149,
       "step": 1000
     },
     {
       "epoch": 2.881844380403458,
+      "eval_runtime": 213.2376,
+      "eval_samples_per_second": 5.801,
+      "eval_steps_per_second": 2.903,
       "step": 1000
     },
     {
+      "epoch": 3.0,
+      "step": 1041,
+      "total_flos": 2.42193908736e+18,
+      "train_loss": 0.6824458238599852,
+      "train_runtime": 2058.2511,
+      "train_samples_per_second": 4.042,
+      "train_steps_per_second": 0.506
     }
   ],
   "logging_steps": 100,
+  "max_steps": 1041,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.42193908736e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b30f32d48e6fc7612992dedde0fe7264e5f8905c5bd332ddc71486c1d962cef3
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c9472bc82f396ae3da78adc9241f75284ff06546b9dfc82b30aa8a4384c5c76
 size 5304