atomwalk12
/

Qwen3-1.7B-Base-SFT

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:668c88be48aeaebb25cec6fc80cb41c3bc00d55728053c8ae4c007c106311a3d
 size 69782384

 version https://git-lfs.github.com/spec/v1
+oid sha256:32fb5eba4a34e3d6791bc2262b22e427943152dbab50d1c54618b1709da3d880
 size 69782384

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 1052153750937600.0,
-    "train_loss": 0.0,
-    "train_runtime": 1.217,
     "train_samples": 5,
-    "train_samples_per_second": 20.542,
-    "train_steps_per_second": 4.108
 }

 {
     "total_flos": 1052153750937600.0,
+    "train_loss": 0.6246463179588317,
+    "train_runtime": 30.525,
     "train_samples": 5,
+    "train_samples_per_second": 0.819,
+    "train_steps_per_second": 0.164
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 1052153750937600.0,
-    "train_loss": 0.0,
-    "train_runtime": 1.217,
     "train_samples": 5,
-    "train_samples_per_second": 20.542,
-    "train_steps_per_second": 4.108
 }

 {
     "total_flos": 1052153750937600.0,
+    "train_loss": 0.6246463179588317,
+    "train_runtime": 30.525,
     "train_samples": 5,
+    "train_samples_per_second": 0.819,
+    "train_steps_per_second": 0.164
 }

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_global_step": null,
-  "best_metric": null,
-  "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 5,
@@ -11,52 +11,97 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.1500861644744873,
       "learning_rate": 0.0,
       "loss": 0.6374,
       "num_tokens": 22235.0,
       "step": 1
     },
     {
       "epoch": 2.0,
-      "grad_norm": 1.1446460485458374,
       "learning_rate": 4e-05,
       "loss": 0.6374,
       "num_tokens": 44470.0,
       "step": 2
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.9402527809143066,
       "learning_rate": 3.472792206135786e-05,
-      "loss": 0.6275,
       "num_tokens": 66705.0,
       "step": 3
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.6751643419265747,
       "learning_rate": 2.2000000000000003e-05,
-      "loss": 0.6142,
       "num_tokens": 88940.0,
       "step": 4
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.5184434056282043,
       "learning_rate": 9.272077938642147e-06,
-      "loss": 0.6059,
       "num_tokens": 111175.0,
       "step": 5
     },
     {
       "epoch": 5.0,
       "step": 5,
       "total_flos": 1052153750937600.0,
-      "train_loss": 0.0,
-      "train_runtime": 1.217,
-      "train_samples_per_second": 20.542,
-      "train_steps_per_second": 4.108
     }
   ],
   "logging_steps": 1,
@@ -65,6 +110,15 @@
   "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
         "should_epoch_stop": false,

 {
+  "best_global_step": 5,
+  "best_metric": 0.6269411444664001,
+  "best_model_checkpoint": "results/Qwen3-1.7B-Base-SFT/checkpoint-5",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 5,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 1.1494814157485962,
       "learning_rate": 0.0,
       "loss": 0.6374,
       "num_tokens": 22235.0,
       "step": 1
     },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.6593228578567505,
+      "eval_num_tokens": 22235.0,
+      "eval_runtime": 1.2252,
+      "eval_samples_per_second": 4.081,
+      "eval_steps_per_second": 4.081,
+      "step": 1
+    },
     {
       "epoch": 2.0,
+      "grad_norm": 1.1454317569732666,
       "learning_rate": 4e-05,
       "loss": 0.6374,
       "num_tokens": 44470.0,
       "step": 2
     },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.6507495641708374,
+      "eval_num_tokens": 44470.0,
+      "eval_runtime": 1.0538,
+      "eval_samples_per_second": 4.745,
+      "eval_steps_per_second": 4.745,
+      "step": 2
+    },
     {
       "epoch": 3.0,
+      "grad_norm": 0.9575749039649963,
       "learning_rate": 3.472792206135786e-05,
+      "loss": 0.628,
       "num_tokens": 66705.0,
       "step": 3
     },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.6390534043312073,
+      "eval_num_tokens": 66705.0,
+      "eval_runtime": 1.0605,
+      "eval_samples_per_second": 4.715,
+      "eval_steps_per_second": 4.715,
+      "step": 3
+    },
     {
       "epoch": 4.0,
+      "grad_norm": 0.6721516847610474,
       "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.6143,
       "num_tokens": 88940.0,
       "step": 4
     },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.6301368474960327,
+      "eval_num_tokens": 88940.0,
+      "eval_runtime": 1.0549,
+      "eval_samples_per_second": 4.74,
+      "eval_steps_per_second": 4.74,
+      "step": 4
+    },
     {
       "epoch": 5.0,
+      "grad_norm": 0.5215439796447754,
       "learning_rate": 9.272077938642147e-06,
+      "loss": 0.6061,
       "num_tokens": 111175.0,
       "step": 5
     },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.6269411444664001,
+      "eval_num_tokens": 111175.0,
+      "eval_runtime": 1.0457,
+      "eval_samples_per_second": 4.782,
+      "eval_steps_per_second": 4.782,
+      "step": 5
+    },
     {
       "epoch": 5.0,
       "step": 5,
       "total_flos": 1052153750937600.0,
+      "train_loss": 0.6246463179588317,
+      "train_runtime": 30.525,
+      "train_samples_per_second": 0.819,
+      "train_steps_per_second": 0.164
     }
   ],
   "logging_steps": 1,
   "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
     "TrainerControl": {
       "args": {
         "should_epoch_stop": false,