End of training

Browse files

Files changed (7) hide show

README.md +3 -2
all_results.json +9 -9
eval_results.json +4 -4
train_results.json +5 -5
trainer_state.json +42 -34
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3
 base_model: meta-llama/Meta-Llama-3-70B-Instruct
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: filtered_construction_train_data
@@ -15,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # filtered_construction_train_data
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3-70B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3455
 ## Model description

 base_model: meta-llama/Meta-Llama-3-70B-Instruct
 tags:
 - llama-factory
+- lora
 - generated_from_trainer
 model-index:
 - name: filtered_construction_train_data
 # filtered_construction_train_data
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3-70B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct) on the identity and the filtered_construction_train_data datasets.
 It achieves the following results on the evaluation set:
+- Loss: 0.3448
 ## Model description

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 0.9947460595446584,
-    "eval_loss": 0.2917576730251312,
-    "eval_runtime": 31.1293,
-    "eval_samples_per_second": 6.007,
-    "eval_steps_per_second": 0.385,
-    "total_flos": 70688266911744.0,
-    "train_loss": 0.4186411055041031,
-    "train_runtime": 4104.4724,
-    "train_samples_per_second": 2.225,
-    "train_steps_per_second": 0.017
 }

 {
     "epoch": 0.9947460595446584,
+    "eval_loss": 0.3448218107223511,
+    "eval_runtime": 38.3093,
+    "eval_samples_per_second": 4.881,
+    "eval_steps_per_second": 0.626,
+    "total_flos": 8671839626723328.0,
+    "train_loss": 0.3302016514287868,
+    "train_runtime": 6265.8616,
+    "train_samples_per_second": 1.457,
+    "train_steps_per_second": 0.011
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 0.9947460595446584,
-    "eval_loss": 0.2917576730251312,
-    "eval_runtime": 31.1293,
-    "eval_samples_per_second": 6.007,
-    "eval_steps_per_second": 0.385
 }

 {
     "epoch": 0.9947460595446584,
+    "eval_loss": 0.3448218107223511,
+    "eval_runtime": 38.3093,
+    "eval_samples_per_second": 4.881,
+    "eval_steps_per_second": 0.626
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.9947460595446584,
-    "total_flos": 70688266911744.0,
-    "train_loss": 0.4186411055041031,
-    "train_runtime": 4104.4724,
-    "train_samples_per_second": 2.225,
-    "train_steps_per_second": 0.017
 }

 {
     "epoch": 0.9947460595446584,
+    "total_flos": 8671839626723328.0,
+    "train_loss": 0.3302016514287868,
+    "train_runtime": 6265.8616,
+    "train_samples_per_second": 1.457,
+    "train_steps_per_second": 0.011
 }

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 0.9947460595446584,
-  "eval_steps": 50,
   "global_step": 71,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
@@ -10,69 +10,77 @@
   "log_history": [
     {
       "epoch": 0.14010507880910683,
-      "grad_norm": 4.574825881923724,
-      "learning_rate": 9.975153876827008e-06,
-      "loss": 1.0004,
       "step": 10
     },
     {
       "epoch": 0.28021015761821366,
-      "grad_norm": 3.6081843985187314,
-      "learning_rate": 9.131193871579975e-06,
-      "loss": 0.4861,
       "step": 20
     },
     {
       "epoch": 0.4203152364273205,
-      "grad_norm": 2.905095458038617,
-      "learning_rate": 7.281053286765816e-06,
-      "loss": 0.3534,
       "step": 30
     },
     {
       "epoch": 0.5604203152364273,
-      "grad_norm": 2.2841947965901634,
-      "learning_rate": 4.875346541309637e-06,
-      "loss": 0.2909,
       "step": 40
     },
     {
       "epoch": 0.7005253940455342,
-      "grad_norm": 2.5015051234484025,
-      "learning_rate": 2.5000000000000015e-06,
-      "loss": 0.2979,
       "step": 50
     },
     {
-      "epoch": 0.7005253940455342,
-      "eval_loss": 0.30582478642463684,
-      "eval_runtime": 32.7423,
-      "eval_samples_per_second": 5.711,
-      "eval_steps_per_second": 0.366,
-      "step": 50
     },
     {
       "epoch": 0.840630472854641,
-      "grad_norm": 2.1203165599067386,
-      "learning_rate": 7.33545591839222e-07,
-      "loss": 0.272,
       "step": 60
     },
     {
       "epoch": 0.9807355516637478,
-      "grad_norm": 2.2116991324066575,
-      "learning_rate": 6.215393905388278e-09,
-      "loss": 0.2585,
       "step": 70
     },
     {
       "epoch": 0.9947460595446584,
       "step": 71,
-      "total_flos": 70688266911744.0,
-      "train_loss": 0.4186411055041031,
-      "train_runtime": 4104.4724,
-      "train_samples_per_second": 2.225,
-      "train_steps_per_second": 0.017
     }
   ],
   "logging_steps": 10,
@@ -92,7 +100,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 70688266911744.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 0.9947460595446584,
+  "eval_steps": 30,
   "global_step": 71,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "log_history": [
     {
       "epoch": 0.14010507880910683,
+      "grad_norm": 0.3536237146215911,
+      "learning_rate": 9.975153876827008e-05,
+      "loss": 0.592,
       "step": 10
     },
     {
       "epoch": 0.28021015761821366,
+      "grad_norm": 0.5343947420334044,
+      "learning_rate": 9.131193871579975e-05,
+      "loss": 0.3707,
       "step": 20
     },
     {
       "epoch": 0.4203152364273205,
+      "grad_norm": 0.2601189191872133,
+      "learning_rate": 7.281053286765815e-05,
+      "loss": 0.2838,
+      "step": 30
+    },
+    {
+      "epoch": 0.4203152364273205,
+      "eval_loss": 0.3709219992160797,
+      "eval_runtime": 38.6541,
+      "eval_samples_per_second": 4.838,
+      "eval_steps_per_second": 0.621,
       "step": 30
     },
     {
       "epoch": 0.5604203152364273,
+      "grad_norm": 0.4098038469696863,
+      "learning_rate": 4.875346541309637e-05,
+      "loss": 0.2769,
       "step": 40
     },
     {
       "epoch": 0.7005253940455342,
+      "grad_norm": 0.25178953197662385,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.2928,
       "step": 50
     },
     {
+      "epoch": 0.840630472854641,
+      "grad_norm": 0.26707631949874144,
+      "learning_rate": 7.33545591839222e-06,
+      "loss": 0.2593,
+      "step": 60
     },
     {
       "epoch": 0.840630472854641,
+      "eval_loss": 0.3455033600330353,
+      "eval_runtime": 38.7035,
+      "eval_samples_per_second": 4.832,
+      "eval_steps_per_second": 0.62,
       "step": 60
     },
     {
       "epoch": 0.9807355516637478,
+      "grad_norm": 0.29717693616382934,
+      "learning_rate": 6.215393905388278e-08,
+      "loss": 0.2559,
       "step": 70
     },
     {
       "epoch": 0.9947460595446584,
       "step": 71,
+      "total_flos": 8671839626723328.0,
+      "train_loss": 0.3302016514287868,
+      "train_runtime": 6265.8616,
+      "train_samples_per_second": 1.457,
+      "train_steps_per_second": 0.011
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8671839626723328.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_eval_loss.png CHANGED Viewed

training_loss.png CHANGED Viewed