Training completed

Files changed (4) hide show

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
-license: apache-2.0
-base_model: Qwen/Qwen2-1.5B-Instruct
 tags:
 - generated_from_trainer
 library_name: peft
@@ -14,7 +14,7 @@ should probably proofread and complete it, then remove this comment. -->
 # model
-This model is a fine-tuned version of [Qwen/Qwen2-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2-1.5B-Instruct) on an unknown dataset.
 ## Model description

 ---
+license: llama3.2
+base_model: meta-llama/Llama-3.2-3B-Instruct
 tags:
 - generated_from_trainer
 library_name: peft
 # model
+This model is a fine-tuned version of [meta-llama/Llama-3.2-3B-Instruct](https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct) on an unknown dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.0547945205479452,
-    "total_flos": 7.783158486191309e+16,
-    "train_loss": 2.2262256761391956,
-    "train_runtime": 395.2928,
-    "train_samples_per_second": 12.143,
-    "train_steps_per_second": 0.076
 }

 {
     "epoch": 0.0547945205479452,
+    "total_flos": 1.6697353660111258e+17,
+    "train_loss": 1.2756919225056966,
+    "train_runtime": 450.633,
+    "train_samples_per_second": 10.652,
+    "train_steps_per_second": 0.067
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 0.0547945205479452,
-    "total_flos": 7.783158486191309e+16,
-    "train_loss": 2.2262256761391956,
-    "train_runtime": 395.2928,
-    "train_samples_per_second": 12.143,
-    "train_steps_per_second": 0.076
 }

 {
     "epoch": 0.0547945205479452,
+    "total_flos": 1.6697353660111258e+17,
+    "train_loss": 1.2756919225056966,
+    "train_runtime": 450.633,
+    "train_samples_per_second": 10.652,
+    "train_steps_per_second": 0.067
 }

trainer_state.json CHANGED Viewed

@@ -10,33 +10,33 @@
   "log_history": [
     {
       "epoch": 0.0182648401826484,
-      "grad_norm": 6.306942939758301,
       "learning_rate": 0.0001,
-      "loss": 6.0878,
       "step": 10
     },
     {
       "epoch": 0.0365296803652968,
-      "grad_norm": 2.749385118484497,
       "learning_rate": 0.0001,
-      "loss": 0.5211,
       "step": 20
     },
     {
       "epoch": 0.0547945205479452,
-      "grad_norm": 0.11284179240465164,
       "learning_rate": 0.0001,
-      "loss": 0.0697,
       "step": 30
     },
     {
       "epoch": 0.0547945205479452,
       "step": 30,
-      "total_flos": 7.783158486191309e+16,
-      "train_loss": 2.2262256761391956,
-      "train_runtime": 395.2928,
-      "train_samples_per_second": 12.143,
-      "train_steps_per_second": 0.076
     }
   ],
   "logging_steps": 10,
@@ -56,7 +56,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.783158486191309e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.0182648401826484,
+      "grad_norm": 0.45940226316452026,
       "learning_rate": 0.0001,
+      "loss": 3.7646,
       "step": 10
     },
     {
       "epoch": 0.0365296803652968,
+      "grad_norm": 0.056412823498249054,
       "learning_rate": 0.0001,
+      "loss": 0.0326,
       "step": 20
     },
     {
       "epoch": 0.0547945205479452,
+      "grad_norm": 0.055685561150312424,
       "learning_rate": 0.0001,
+      "loss": 0.0299,
       "step": 30
     },
     {
       "epoch": 0.0547945205479452,
       "step": 30,
+      "total_flos": 1.6697353660111258e+17,
+      "train_loss": 1.2756919225056966,
+      "train_runtime": 450.633,
+      "train_samples_per_second": 10.652,
+      "train_steps_per_second": 0.067
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.6697353660111258e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null