|
{ |
|
"best_metric": 0.1539839506149292, |
|
"best_model_checkpoint": "/kaggle/working/bart-la-size-s/checkpoint-5000", |
|
"epoch": 0.09333333333333334, |
|
"eval_steps": 2500, |
|
"global_step": 7000, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.0013333333333333333, |
|
"grad_norm": 1731138.75, |
|
"learning_rate": 1e-05, |
|
"loss": 10.7708, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.0026666666666666666, |
|
"grad_norm": 1756484.75, |
|
"learning_rate": 2e-05, |
|
"loss": 9.1863, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.004, |
|
"grad_norm": 1777691.625, |
|
"learning_rate": 3e-05, |
|
"loss": 6.1644, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.005333333333333333, |
|
"grad_norm": 420227.5, |
|
"learning_rate": 4e-05, |
|
"loss": 2.0913, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 0.006666666666666667, |
|
"grad_norm": 3494.83251953125, |
|
"learning_rate": 5e-05, |
|
"loss": 0.2315, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.008, |
|
"grad_norm": 5325.4130859375, |
|
"learning_rate": 6e-05, |
|
"loss": 0.1778, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 0.009333333333333334, |
|
"grad_norm": 3234.634765625, |
|
"learning_rate": 7e-05, |
|
"loss": 0.1923, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 0.010666666666666666, |
|
"grad_norm": 3789.213134765625, |
|
"learning_rate": 8e-05, |
|
"loss": 0.1892, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 0.012, |
|
"grad_norm": 4346.5576171875, |
|
"learning_rate": 9e-05, |
|
"loss": 0.1866, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 0.013333333333333334, |
|
"grad_norm": 3495.9501953125, |
|
"learning_rate": 0.0001, |
|
"loss": 0.1757, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.014666666666666666, |
|
"grad_norm": 4082.4345703125, |
|
"learning_rate": 9.833333333333333e-05, |
|
"loss": 0.1707, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 0.016, |
|
"grad_norm": 4393.69384765625, |
|
"learning_rate": 9.666666666666667e-05, |
|
"loss": 0.1655, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 0.017333333333333333, |
|
"grad_norm": 5255.02099609375, |
|
"learning_rate": 9.5e-05, |
|
"loss": 0.1697, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 0.018666666666666668, |
|
"grad_norm": 3129.46044921875, |
|
"learning_rate": 9.333333333333334e-05, |
|
"loss": 0.1842, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"grad_norm": 4048.822509765625, |
|
"learning_rate": 9.166666666666667e-05, |
|
"loss": 0.178, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 0.021333333333333333, |
|
"grad_norm": 3680.73046875, |
|
"learning_rate": 9e-05, |
|
"loss": 0.1687, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 0.02266666666666667, |
|
"grad_norm": 7584.31005859375, |
|
"learning_rate": 8.833333333333333e-05, |
|
"loss": 0.1493, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 0.024, |
|
"grad_norm": 6930.2001953125, |
|
"learning_rate": 8.666666666666667e-05, |
|
"loss": 0.1635, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 0.025333333333333333, |
|
"grad_norm": 3993.606689453125, |
|
"learning_rate": 8.5e-05, |
|
"loss": 0.1825, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 0.02666666666666667, |
|
"grad_norm": 4367.501953125, |
|
"learning_rate": 8.333333333333334e-05, |
|
"loss": 0.1641, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 0.028, |
|
"grad_norm": 3890.798095703125, |
|
"learning_rate": 8.166666666666667e-05, |
|
"loss": 0.1389, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 0.029333333333333333, |
|
"grad_norm": 4143.93505859375, |
|
"learning_rate": 8e-05, |
|
"loss": 0.1523, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 0.030666666666666665, |
|
"grad_norm": 3799.543212890625, |
|
"learning_rate": 7.833333333333333e-05, |
|
"loss": 0.1456, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 0.032, |
|
"grad_norm": 4041.04638671875, |
|
"learning_rate": 7.666666666666667e-05, |
|
"loss": 0.1213, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 0.03333333333333333, |
|
"grad_norm": 4422.04248046875, |
|
"learning_rate": 7.500000000000001e-05, |
|
"loss": 0.1501, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 0.03333333333333333, |
|
"eval_loss": 0.20066243410110474, |
|
"eval_runtime": 12367.8365, |
|
"eval_samples_per_second": 14.89, |
|
"eval_steps_per_second": 0.931, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 0.034666666666666665, |
|
"grad_norm": 9264.0322265625, |
|
"learning_rate": 7.333333333333333e-05, |
|
"loss": 0.1659, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 0.036, |
|
"grad_norm": 4891.16015625, |
|
"learning_rate": 7.166666666666667e-05, |
|
"loss": 0.1513, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 0.037333333333333336, |
|
"grad_norm": 4946.96240234375, |
|
"learning_rate": 7e-05, |
|
"loss": 0.1402, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 0.03866666666666667, |
|
"grad_norm": 6305.4404296875, |
|
"learning_rate": 6.833333333333333e-05, |
|
"loss": 0.1437, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"grad_norm": 5814.00244140625, |
|
"learning_rate": 6.666666666666667e-05, |
|
"loss": 0.162, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 0.04133333333333333, |
|
"grad_norm": 4542.61767578125, |
|
"learning_rate": 6.500000000000001e-05, |
|
"loss": 0.1302, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 0.042666666666666665, |
|
"grad_norm": 5265.51806640625, |
|
"learning_rate": 6.333333333333333e-05, |
|
"loss": 0.1355, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 0.044, |
|
"grad_norm": 7862.482421875, |
|
"learning_rate": 6.166666666666667e-05, |
|
"loss": 0.13, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 0.04533333333333334, |
|
"grad_norm": 6594.36669921875, |
|
"learning_rate": 6e-05, |
|
"loss": 0.1447, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 0.04666666666666667, |
|
"grad_norm": 6135.97509765625, |
|
"learning_rate": 5.833333333333334e-05, |
|
"loss": 0.1446, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 0.048, |
|
"grad_norm": 7121.572265625, |
|
"learning_rate": 5.666666666666667e-05, |
|
"loss": 0.1395, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 0.04933333333333333, |
|
"grad_norm": 8947.796875, |
|
"learning_rate": 5.500000000000001e-05, |
|
"loss": 0.1343, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 0.050666666666666665, |
|
"grad_norm": 8219.5732421875, |
|
"learning_rate": 5.333333333333333e-05, |
|
"loss": 0.1186, |
|
"step": 3800 |
|
}, |
|
{ |
|
"epoch": 0.052, |
|
"grad_norm": 7754.8759765625, |
|
"learning_rate": 5.166666666666667e-05, |
|
"loss": 0.1219, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 0.05333333333333334, |
|
"grad_norm": 7000.673828125, |
|
"learning_rate": 5e-05, |
|
"loss": 0.1309, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 0.05466666666666667, |
|
"grad_norm": 5756.7763671875, |
|
"learning_rate": 4.8333333333333334e-05, |
|
"loss": 0.1192, |
|
"step": 4100 |
|
}, |
|
{ |
|
"epoch": 0.056, |
|
"grad_norm": 9121.4453125, |
|
"learning_rate": 4.666666666666667e-05, |
|
"loss": 0.1194, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 0.05733333333333333, |
|
"grad_norm": 12909.078125, |
|
"learning_rate": 4.5e-05, |
|
"loss": 0.1366, |
|
"step": 4300 |
|
}, |
|
{ |
|
"epoch": 0.058666666666666666, |
|
"grad_norm": 10152.21875, |
|
"learning_rate": 4.3333333333333334e-05, |
|
"loss": 0.1196, |
|
"step": 4400 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"grad_norm": 14436.8466796875, |
|
"learning_rate": 4.166666666666667e-05, |
|
"loss": 0.1228, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 0.06133333333333333, |
|
"grad_norm": 8110.03125, |
|
"learning_rate": 4e-05, |
|
"loss": 0.1151, |
|
"step": 4600 |
|
}, |
|
{ |
|
"epoch": 0.06266666666666666, |
|
"grad_norm": 9303.314453125, |
|
"learning_rate": 3.8333333333333334e-05, |
|
"loss": 0.1104, |
|
"step": 4700 |
|
}, |
|
{ |
|
"epoch": 0.064, |
|
"grad_norm": 9055.736328125, |
|
"learning_rate": 3.6666666666666666e-05, |
|
"loss": 0.1023, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 0.06533333333333333, |
|
"grad_norm": 5660.32958984375, |
|
"learning_rate": 3.5e-05, |
|
"loss": 0.0936, |
|
"step": 4900 |
|
}, |
|
{ |
|
"epoch": 0.06666666666666667, |
|
"grad_norm": 7201.54931640625, |
|
"learning_rate": 3.3333333333333335e-05, |
|
"loss": 0.1103, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 0.06666666666666667, |
|
"eval_loss": 0.1539839506149292, |
|
"eval_runtime": 12373.139, |
|
"eval_samples_per_second": 14.883, |
|
"eval_steps_per_second": 0.93, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 0.068, |
|
"grad_norm": 11332.046875, |
|
"learning_rate": 3.1666666666666666e-05, |
|
"loss": 0.0977, |
|
"step": 5100 |
|
}, |
|
{ |
|
"epoch": 0.06933333333333333, |
|
"grad_norm": 13064.806640625, |
|
"learning_rate": 3e-05, |
|
"loss": 0.1043, |
|
"step": 5200 |
|
}, |
|
{ |
|
"epoch": 0.07066666666666667, |
|
"grad_norm": 9356.373046875, |
|
"learning_rate": 2.8333333333333335e-05, |
|
"loss": 0.0983, |
|
"step": 5300 |
|
}, |
|
{ |
|
"epoch": 0.072, |
|
"grad_norm": 9500.935546875, |
|
"learning_rate": 2.6666666666666667e-05, |
|
"loss": 0.102, |
|
"step": 5400 |
|
}, |
|
{ |
|
"epoch": 0.07333333333333333, |
|
"grad_norm": 9010.0517578125, |
|
"learning_rate": 2.5e-05, |
|
"loss": 0.0874, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 0.07466666666666667, |
|
"grad_norm": 9204.0703125, |
|
"learning_rate": 2.3333333333333336e-05, |
|
"loss": 0.0939, |
|
"step": 5600 |
|
}, |
|
{ |
|
"epoch": 0.076, |
|
"grad_norm": 8989.322265625, |
|
"learning_rate": 2.1666666666666667e-05, |
|
"loss": 0.0852, |
|
"step": 5700 |
|
}, |
|
{ |
|
"epoch": 0.07733333333333334, |
|
"grad_norm": 3400.31591796875, |
|
"learning_rate": 2e-05, |
|
"loss": 0.0952, |
|
"step": 5800 |
|
}, |
|
{ |
|
"epoch": 0.07866666666666666, |
|
"grad_norm": 16400.48828125, |
|
"learning_rate": 1.8333333333333333e-05, |
|
"loss": 0.0792, |
|
"step": 5900 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"grad_norm": 3612.99365234375, |
|
"learning_rate": 1.6666666666666667e-05, |
|
"loss": 0.0735, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 0.08133333333333333, |
|
"grad_norm": 9866.6279296875, |
|
"learning_rate": 1.5e-05, |
|
"loss": 0.0931, |
|
"step": 6100 |
|
}, |
|
{ |
|
"epoch": 0.08266666666666667, |
|
"grad_norm": 13096.994140625, |
|
"learning_rate": 1.3333333333333333e-05, |
|
"loss": 0.0955, |
|
"step": 6200 |
|
}, |
|
{ |
|
"epoch": 0.084, |
|
"grad_norm": 6636.74365234375, |
|
"learning_rate": 1.1666666666666668e-05, |
|
"loss": 0.0862, |
|
"step": 6300 |
|
}, |
|
{ |
|
"epoch": 0.08533333333333333, |
|
"grad_norm": 7214.32958984375, |
|
"learning_rate": 1e-05, |
|
"loss": 0.0966, |
|
"step": 6400 |
|
}, |
|
{ |
|
"epoch": 0.08666666666666667, |
|
"grad_norm": 13823.109375, |
|
"learning_rate": 8.333333333333334e-06, |
|
"loss": 0.0853, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 0.088, |
|
"grad_norm": 17792.580078125, |
|
"learning_rate": 6.666666666666667e-06, |
|
"loss": 0.0902, |
|
"step": 6600 |
|
}, |
|
{ |
|
"epoch": 0.08933333333333333, |
|
"grad_norm": 8880.7822265625, |
|
"learning_rate": 5e-06, |
|
"loss": 0.0815, |
|
"step": 6700 |
|
}, |
|
{ |
|
"epoch": 0.09066666666666667, |
|
"grad_norm": 11938.576171875, |
|
"learning_rate": 3.3333333333333333e-06, |
|
"loss": 0.0862, |
|
"step": 6800 |
|
}, |
|
{ |
|
"epoch": 0.092, |
|
"grad_norm": 22440.61328125, |
|
"learning_rate": 1.6666666666666667e-06, |
|
"loss": 0.0848, |
|
"step": 6900 |
|
}, |
|
{ |
|
"epoch": 0.09333333333333334, |
|
"grad_norm": 10622.8349609375, |
|
"learning_rate": 0.0, |
|
"loss": 0.1029, |
|
"step": 7000 |
|
} |
|
], |
|
"logging_steps": 100, |
|
"max_steps": 7000, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 1, |
|
"save_steps": 2500, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": true |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 3.415499744477184e+16, |
|
"train_batch_size": 8, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|