Training in progress, step 400
Browse files
adapter_model.safetensors
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
size 174655536
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:691508b9afe4a5a54306c4c2dd44c926c6e9505491dc565038253f6d1dffc648
|
3 |
size 174655536
|
wandb/run-20250201_230729-f0utp5v4/files/output.log
CHANGED
@@ -162,3 +162,54 @@ The model is not an instance of PreTrainedModel. No liger kernels will be applie
|
|
162 |
{'loss': 0.1499, 'grad_norm': 3.43621826171875, 'learning_rate': 3.150732954539309e-05, 'epoch': 0.54}
|
163 |
{'loss': 0.1666, 'grad_norm': 2.8052310943603516, 'learning_rate': 3.113070548009804e-05, 'epoch': 0.54}
|
164 |
{'eval_loss': 0.11623318493366241, 'eval_runtime': 29.5732, 'eval_samples_per_second': 16.907, 'eval_steps_per_second': 2.13, 'epoch': 0.54}
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
162 |
{'loss': 0.1499, 'grad_norm': 3.43621826171875, 'learning_rate': 3.150732954539309e-05, 'epoch': 0.54}
|
163 |
{'loss': 0.1666, 'grad_norm': 2.8052310943603516, 'learning_rate': 3.113070548009804e-05, 'epoch': 0.54}
|
164 |
{'eval_loss': 0.11623318493366241, 'eval_runtime': 29.5732, 'eval_samples_per_second': 16.907, 'eval_steps_per_second': 2.13, 'epoch': 0.54}
|
165 |
+
{'loss': 0.17, 'grad_norm': 2.426299571990967, 'learning_rate': 3.075390286330013e-05, 'epoch': 0.54}
|
166 |
+
{'loss': 0.1207, 'grad_norm': 1.3345648050308228, 'learning_rate': 3.037698119650058e-05, 'epoch': 0.55}
|
167 |
+
{'loss': 0.1573, 'grad_norm': 2.7063169479370117, 'learning_rate': 3e-05, 'epoch': 0.55}
|
168 |
+
{'loss': 0.142, 'grad_norm': 2.210733413696289, 'learning_rate': 2.962301880349942e-05, 'epoch': 0.55}
|
169 |
+
{'loss': 0.1148, 'grad_norm': 1.486210823059082, 'learning_rate': 2.924609713669988e-05, 'epoch': 0.56}
|
170 |
+
{'loss': 0.1435, 'grad_norm': 2.974644660949707, 'learning_rate': 2.886929451990196e-05, 'epoch': 0.56}
|
171 |
+
{'loss': 0.123, 'grad_norm': 1.56550931930542, 'learning_rate': 2.8492670454606917e-05, 'epoch': 0.56}
|
172 |
+
{'loss': 0.1183, 'grad_norm': 2.4411873817443848, 'learning_rate': 2.81162844141206e-05, 'epoch': 0.57}
|
173 |
+
{'loss': 0.1462, 'grad_norm': 2.405700206756592, 'learning_rate': 2.7740195834162023e-05, 'epoch': 0.57}
|
174 |
+
{'loss': 0.1146, 'grad_norm': 2.126349925994873, 'learning_rate': 2.7364464103477706e-05, 'epoch': 0.58}
|
175 |
+
{'loss': 0.0983, 'grad_norm': 2.353076219558716, 'learning_rate': 2.698914855446355e-05, 'epoch': 0.58}
|
176 |
+
{'loss': 0.1247, 'grad_norm': 2.0628583431243896, 'learning_rate': 2.661430845379555e-05, 'epoch': 0.58}
|
177 |
+
{'loss': 0.1051, 'grad_norm': 2.0266802310943604, 'learning_rate': 2.624000299307087e-05, 'epoch': 0.59}
|
178 |
+
{'loss': 0.1325, 'grad_norm': 2.699709892272949, 'learning_rate': 2.586629127946086e-05, 'epoch': 0.59}
|
179 |
+
{'loss': 0.1504, 'grad_norm': 2.804131269454956, 'learning_rate': 2.5493232326377288e-05, 'epoch': 0.59}
|
180 |
+
{'loss': 0.127, 'grad_norm': 1.8814399242401123, 'learning_rate': 2.5120885044153494e-05, 'epoch': 0.6}
|
181 |
+
{'loss': 0.1525, 'grad_norm': 1.59531831741333, 'learning_rate': 2.4749308230741718e-05, 'epoch': 0.6}
|
182 |
+
{'loss': 0.0898, 'grad_norm': 1.2122548818588257, 'learning_rate': 2.4378560562428255e-05, 'epoch': 0.6}
|
183 |
+
{'loss': 0.1359, 'grad_norm': 2.5824949741363525, 'learning_rate': 2.4008700584567794e-05, 'epoch': 0.61}
|
184 |
+
{'loss': 0.1522, 'grad_norm': 2.285902976989746, 'learning_rate': 2.363978670233837e-05, 'epoch': 0.61}
|
185 |
+
{'loss': 0.1289, 'grad_norm': 1.8494670391082764, 'learning_rate': 2.3271877171518568e-05, 'epoch': 0.61}
|
186 |
+
{'loss': 0.1128, 'grad_norm': 2.558523654937744, 'learning_rate': 2.2905030089288268e-05, 'epoch': 0.62}
|
187 |
+
{'loss': 0.1078, 'grad_norm': 1.8527506589889526, 'learning_rate': 2.2539303385054362e-05, 'epoch': 0.62}
|
188 |
+
{'loss': 0.1175, 'grad_norm': 1.4011142253875732, 'learning_rate': 2.21747548113031e-05, 'epoch': 0.63}
|
189 |
+
{'loss': 0.1059, 'grad_norm': 1.810889482498169, 'learning_rate': 2.1811441934480247e-05, 'epoch': 0.63}
|
190 |
+
{'loss': 0.1002, 'grad_norm': 1.4293447732925415, 'learning_rate': 2.1449422125900716e-05, 'epoch': 0.63}
|
191 |
+
{'loss': 0.1078, 'grad_norm': 1.6408514976501465, 'learning_rate': 2.1088752552688957e-05, 'epoch': 0.64}
|
192 |
+
{'loss': 0.1093, 'grad_norm': 1.416710615158081, 'learning_rate': 2.072949016875158e-05, 'epoch': 0.64}
|
193 |
+
{'loss': 0.1395, 'grad_norm': 2.3338820934295654, 'learning_rate': 2.037169170578372e-05, 'epoch': 0.64}
|
194 |
+
{'loss': 0.1416, 'grad_norm': 1.7598052024841309, 'learning_rate': 2.0015413664310404e-05, 'epoch': 0.65}
|
195 |
+
{'loss': 0.0883, 'grad_norm': 1.3918638229370117, 'learning_rate': 1.9660712304764493e-05, 'epoch': 0.65}
|
196 |
+
{'loss': 0.1198, 'grad_norm': 1.8136928081512451, 'learning_rate': 1.930764363860248e-05, 'epoch': 0.65}
|
197 |
+
{'loss': 0.1177, 'grad_norm': 2.201503276824951, 'learning_rate': 1.8956263419459662e-05, 'epoch': 0.66}
|
198 |
+
{'loss': 0.1047, 'grad_norm': 1.3572255373001099, 'learning_rate': 1.860662713434597e-05, 'epoch': 0.66}
|
199 |
+
{'loss': 0.1072, 'grad_norm': 1.726095199584961, 'learning_rate': 1.825878999488393e-05, 'epoch': 0.67}
|
200 |
+
{'loss': 0.1501, 'grad_norm': 2.4331276416778564, 'learning_rate': 1.7912806928590123e-05, 'epoch': 0.67}
|
201 |
+
{'loss': 0.1229, 'grad_norm': 1.6338403224945068, 'learning_rate': 1.7568732570201476e-05, 'epoch': 0.67}
|
202 |
+
{'loss': 0.0864, 'grad_norm': 1.730236530303955, 'learning_rate': 1.722662125304782e-05, 'epoch': 0.68}
|
203 |
+
{'loss': 0.0926, 'grad_norm': 2.523324489593506, 'learning_rate': 1.688652700047202e-05, 'epoch': 0.68}
|
204 |
+
{'loss': 0.1559, 'grad_norm': 2.318155288696289, 'learning_rate': 1.6548503517299037e-05, 'epoch': 0.68}
|
205 |
+
{'loss': 0.1577, 'grad_norm': 2.136455535888672, 'learning_rate': 1.6212604181355367e-05, 'epoch': 0.69}
|
206 |
+
{'loss': 0.1852, 'grad_norm': 3.0090556144714355, 'learning_rate': 1.5878882035040024e-05, 'epoch': 0.69}
|
207 |
+
{'loss': 0.1258, 'grad_norm': 1.5133270025253296, 'learning_rate': 1.5547389776948536e-05, 'epoch': 0.69}
|
208 |
+
{'loss': 0.1096, 'grad_norm': 1.876538634300232, 'learning_rate': 1.5218179753551257e-05, 'epoch': 0.7}
|
209 |
+
{'loss': 0.1045, 'grad_norm': 1.905332088470459, 'learning_rate': 1.4891303950927177e-05, 'epoch': 0.7}
|
210 |
+
{'loss': 0.0986, 'grad_norm': 1.6653276681900024, 'learning_rate': 1.4566813986554805e-05, 'epoch': 0.7}
|
211 |
+
{'loss': 0.1063, 'grad_norm': 2.1951377391815186, 'learning_rate': 1.4244761101161126e-05, 'epoch': 0.71}
|
212 |
+
{'loss': 0.142, 'grad_norm': 2.150787591934204, 'learning_rate': 1.3925196150630094e-05, 'epoch': 0.71}
|
213 |
+
{'loss': 0.1094, 'grad_norm': 1.8449875116348267, 'learning_rate': 1.360816959797193e-05, 'epoch': 0.72}
|
214 |
+
{'loss': 0.1214, 'grad_norm': 1.983917474746704, 'learning_rate': 1.3293731505354372e-05, 'epoch': 0.72}
|
215 |
+
{'eval_loss': 0.11013749986886978, 'eval_runtime': 29.5522, 'eval_samples_per_second': 16.919, 'eval_steps_per_second': 2.132, 'epoch': 0.72}
|
wandb/run-20250201_230729-f0utp5v4/run-f0utp5v4.wandb
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
-
size
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:04d02a27f7cbadabe8b49867d2ab66a7721e2e2cc1e19abcf27f6350a822b5e1
|
3 |
+
size 917504
|