Training in progress, step 400

Browse files

Files changed (3) hide show

adapter_model.safetensors +1 -1
wandb/run-20250201_230729-f0utp5v4/files/output.log +51 -0
wandb/run-20250201_230729-f0utp5v4/run-f0utp5v4.wandb +2 -2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c72284f0ab5a1f8edb3293aba448dedc443aad0df7505f6fa3d12fc69911db38
 size 174655536

 version https://git-lfs.github.com/spec/v1
+oid sha256:691508b9afe4a5a54306c4c2dd44c926c6e9505491dc565038253f6d1dffc648
 size 174655536

wandb/run-20250201_230729-f0utp5v4/files/output.log CHANGED Viewed

@@ -162,3 +162,54 @@ The model is not an instance of PreTrainedModel. No liger kernels will be applie
 {'loss': 0.1499, 'grad_norm': 3.43621826171875, 'learning_rate': 3.150732954539309e-05, 'epoch': 0.54}
 {'loss': 0.1666, 'grad_norm': 2.8052310943603516, 'learning_rate': 3.113070548009804e-05, 'epoch': 0.54}
 {'eval_loss': 0.11623318493366241, 'eval_runtime': 29.5732, 'eval_samples_per_second': 16.907, 'eval_steps_per_second': 2.13, 'epoch': 0.54}

 {'loss': 0.1499, 'grad_norm': 3.43621826171875, 'learning_rate': 3.150732954539309e-05, 'epoch': 0.54}
 {'loss': 0.1666, 'grad_norm': 2.8052310943603516, 'learning_rate': 3.113070548009804e-05, 'epoch': 0.54}
 {'eval_loss': 0.11623318493366241, 'eval_runtime': 29.5732, 'eval_samples_per_second': 16.907, 'eval_steps_per_second': 2.13, 'epoch': 0.54}
+{'loss': 0.17, 'grad_norm': 2.426299571990967, 'learning_rate': 3.075390286330013e-05, 'epoch': 0.54}
+{'loss': 0.1207, 'grad_norm': 1.3345648050308228, 'learning_rate': 3.037698119650058e-05, 'epoch': 0.55}
+{'loss': 0.1573, 'grad_norm': 2.7063169479370117, 'learning_rate': 3e-05, 'epoch': 0.55}
+{'loss': 0.142, 'grad_norm': 2.210733413696289, 'learning_rate': 2.962301880349942e-05, 'epoch': 0.55}
+{'loss': 0.1148, 'grad_norm': 1.486210823059082, 'learning_rate': 2.924609713669988e-05, 'epoch': 0.56}
+{'loss': 0.1435, 'grad_norm': 2.974644660949707, 'learning_rate': 2.886929451990196e-05, 'epoch': 0.56}
+{'loss': 0.123, 'grad_norm': 1.56550931930542, 'learning_rate': 2.8492670454606917e-05, 'epoch': 0.56}
+{'loss': 0.1183, 'grad_norm': 2.4411873817443848, 'learning_rate': 2.81162844141206e-05, 'epoch': 0.57}
+{'loss': 0.1462, 'grad_norm': 2.405700206756592, 'learning_rate': 2.7740195834162023e-05, 'epoch': 0.57}
+{'loss': 0.1146, 'grad_norm': 2.126349925994873, 'learning_rate': 2.7364464103477706e-05, 'epoch': 0.58}
+{'loss': 0.0983, 'grad_norm': 2.353076219558716, 'learning_rate': 2.698914855446355e-05, 'epoch': 0.58}
+{'loss': 0.1247, 'grad_norm': 2.0628583431243896, 'learning_rate': 2.661430845379555e-05, 'epoch': 0.58}
+{'loss': 0.1051, 'grad_norm': 2.0266802310943604, 'learning_rate': 2.624000299307087e-05, 'epoch': 0.59}
+{'loss': 0.1325, 'grad_norm': 2.699709892272949, 'learning_rate': 2.586629127946086e-05, 'epoch': 0.59}
+{'loss': 0.1504, 'grad_norm': 2.804131269454956, 'learning_rate': 2.5493232326377288e-05, 'epoch': 0.59}
+{'loss': 0.127, 'grad_norm': 1.8814399242401123, 'learning_rate': 2.5120885044153494e-05, 'epoch': 0.6}
+{'loss': 0.1525, 'grad_norm': 1.59531831741333, 'learning_rate': 2.4749308230741718e-05, 'epoch': 0.6}
+{'loss': 0.0898, 'grad_norm': 1.2122548818588257, 'learning_rate': 2.4378560562428255e-05, 'epoch': 0.6}
+{'loss': 0.1359, 'grad_norm': 2.5824949741363525, 'learning_rate': 2.4008700584567794e-05, 'epoch': 0.61}
+{'loss': 0.1522, 'grad_norm': 2.285902976989746, 'learning_rate': 2.363978670233837e-05, 'epoch': 0.61}
+{'loss': 0.1289, 'grad_norm': 1.8494670391082764, 'learning_rate': 2.3271877171518568e-05, 'epoch': 0.61}
+{'loss': 0.1128, 'grad_norm': 2.558523654937744, 'learning_rate': 2.2905030089288268e-05, 'epoch': 0.62}
+{'loss': 0.1078, 'grad_norm': 1.8527506589889526, 'learning_rate': 2.2539303385054362e-05, 'epoch': 0.62}
+{'loss': 0.1175, 'grad_norm': 1.4011142253875732, 'learning_rate': 2.21747548113031e-05, 'epoch': 0.63}
+{'loss': 0.1059, 'grad_norm': 1.810889482498169, 'learning_rate': 2.1811441934480247e-05, 'epoch': 0.63}
+{'loss': 0.1002, 'grad_norm': 1.4293447732925415, 'learning_rate': 2.1449422125900716e-05, 'epoch': 0.63}
+{'loss': 0.1078, 'grad_norm': 1.6408514976501465, 'learning_rate': 2.1088752552688957e-05, 'epoch': 0.64}
+{'loss': 0.1093, 'grad_norm': 1.416710615158081, 'learning_rate': 2.072949016875158e-05, 'epoch': 0.64}
+{'loss': 0.1395, 'grad_norm': 2.3338820934295654, 'learning_rate': 2.037169170578372e-05, 'epoch': 0.64}
+{'loss': 0.1416, 'grad_norm': 1.7598052024841309, 'learning_rate': 2.0015413664310404e-05, 'epoch': 0.65}
+{'loss': 0.0883, 'grad_norm': 1.3918638229370117, 'learning_rate': 1.9660712304764493e-05, 'epoch': 0.65}
+{'loss': 0.1198, 'grad_norm': 1.8136928081512451, 'learning_rate': 1.930764363860248e-05, 'epoch': 0.65}
+{'loss': 0.1177, 'grad_norm': 2.201503276824951, 'learning_rate': 1.8956263419459662e-05, 'epoch': 0.66}
+{'loss': 0.1047, 'grad_norm': 1.3572255373001099, 'learning_rate': 1.860662713434597e-05, 'epoch': 0.66}
+{'loss': 0.1072, 'grad_norm': 1.726095199584961, 'learning_rate': 1.825878999488393e-05, 'epoch': 0.67}
+{'loss': 0.1501, 'grad_norm': 2.4331276416778564, 'learning_rate': 1.7912806928590123e-05, 'epoch': 0.67}
+{'loss': 0.1229, 'grad_norm': 1.6338403224945068, 'learning_rate': 1.7568732570201476e-05, 'epoch': 0.67}
+{'loss': 0.0864, 'grad_norm': 1.730236530303955, 'learning_rate': 1.722662125304782e-05, 'epoch': 0.68}
+{'loss': 0.0926, 'grad_norm': 2.523324489593506, 'learning_rate': 1.688652700047202e-05, 'epoch': 0.68}
+{'loss': 0.1559, 'grad_norm': 2.318155288696289, 'learning_rate': 1.6548503517299037e-05, 'epoch': 0.68}
+{'loss': 0.1577, 'grad_norm': 2.136455535888672, 'learning_rate': 1.6212604181355367e-05, 'epoch': 0.69}
+{'loss': 0.1852, 'grad_norm': 3.0090556144714355, 'learning_rate': 1.5878882035040024e-05, 'epoch': 0.69}
+{'loss': 0.1258, 'grad_norm': 1.5133270025253296, 'learning_rate': 1.5547389776948536e-05, 'epoch': 0.69}
+{'loss': 0.1096, 'grad_norm': 1.876538634300232, 'learning_rate': 1.5218179753551257e-05, 'epoch': 0.7}
+{'loss': 0.1045, 'grad_norm': 1.905332088470459, 'learning_rate': 1.4891303950927177e-05, 'epoch': 0.7}
+{'loss': 0.0986, 'grad_norm': 1.6653276681900024, 'learning_rate': 1.4566813986554805e-05, 'epoch': 0.7}
+{'loss': 0.1063, 'grad_norm': 2.1951377391815186, 'learning_rate': 1.4244761101161126e-05, 'epoch': 0.71}
+{'loss': 0.142, 'grad_norm': 2.150787591934204, 'learning_rate': 1.3925196150630094e-05, 'epoch': 0.71}
+{'loss': 0.1094, 'grad_norm': 1.8449875116348267, 'learning_rate': 1.360816959797193e-05, 'epoch': 0.72}
+{'loss': 0.1214, 'grad_norm': 1.983917474746704, 'learning_rate': 1.3293731505354372e-05, 'epoch': 0.72}
+{'eval_loss': 0.11013749986886978, 'eval_runtime': 29.5522, 'eval_samples_per_second': 16.919, 'eval_steps_per_second': 2.132, 'epoch': 0.72}

wandb/run-20250201_230729-f0utp5v4/run-f0utp5v4.wandb CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5539a2b8b8897f2ca443266f7458daab30b75af438e69c59f32387d61afca825
-size 688128

 version https://git-lfs.github.com/spec/v1
+oid sha256:04d02a27f7cbadabe8b49867d2ab66a7721e2e2cc1e19abcf27f6350a822b5e1
+size 917504