{ "best_metric": 0.1539839506149292, "best_model_checkpoint": "/kaggle/working/bart-la-size-s/checkpoint-5000", "epoch": 0.09333333333333334, "eval_steps": 2500, "global_step": 7000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0013333333333333333, "grad_norm": 1731138.75, "learning_rate": 1e-05, "loss": 10.7708, "step": 100 }, { "epoch": 0.0026666666666666666, "grad_norm": 1756484.75, "learning_rate": 2e-05, "loss": 9.1863, "step": 200 }, { "epoch": 0.004, "grad_norm": 1777691.625, "learning_rate": 3e-05, "loss": 6.1644, "step": 300 }, { "epoch": 0.005333333333333333, "grad_norm": 420227.5, "learning_rate": 4e-05, "loss": 2.0913, "step": 400 }, { "epoch": 0.006666666666666667, "grad_norm": 3494.83251953125, "learning_rate": 5e-05, "loss": 0.2315, "step": 500 }, { "epoch": 0.008, "grad_norm": 5325.4130859375, "learning_rate": 6e-05, "loss": 0.1778, "step": 600 }, { "epoch": 0.009333333333333334, "grad_norm": 3234.634765625, "learning_rate": 7e-05, "loss": 0.1923, "step": 700 }, { "epoch": 0.010666666666666666, "grad_norm": 3789.213134765625, "learning_rate": 8e-05, "loss": 0.1892, "step": 800 }, { "epoch": 0.012, "grad_norm": 4346.5576171875, "learning_rate": 9e-05, "loss": 0.1866, "step": 900 }, { "epoch": 0.013333333333333334, "grad_norm": 3495.9501953125, "learning_rate": 0.0001, "loss": 0.1757, "step": 1000 }, { "epoch": 0.014666666666666666, "grad_norm": 4082.4345703125, "learning_rate": 9.833333333333333e-05, "loss": 0.1707, "step": 1100 }, { "epoch": 0.016, "grad_norm": 4393.69384765625, "learning_rate": 9.666666666666667e-05, "loss": 0.1655, "step": 1200 }, { "epoch": 0.017333333333333333, "grad_norm": 5255.02099609375, "learning_rate": 9.5e-05, "loss": 0.1697, "step": 1300 }, { "epoch": 0.018666666666666668, "grad_norm": 3129.46044921875, "learning_rate": 9.333333333333334e-05, "loss": 0.1842, "step": 1400 }, { "epoch": 0.02, "grad_norm": 4048.822509765625, "learning_rate": 9.166666666666667e-05, "loss": 0.178, "step": 1500 }, { "epoch": 0.021333333333333333, "grad_norm": 3680.73046875, "learning_rate": 9e-05, "loss": 0.1687, "step": 1600 }, { "epoch": 0.02266666666666667, "grad_norm": 7584.31005859375, "learning_rate": 8.833333333333333e-05, "loss": 0.1493, "step": 1700 }, { "epoch": 0.024, "grad_norm": 6930.2001953125, "learning_rate": 8.666666666666667e-05, "loss": 0.1635, "step": 1800 }, { "epoch": 0.025333333333333333, "grad_norm": 3993.606689453125, "learning_rate": 8.5e-05, "loss": 0.1825, "step": 1900 }, { "epoch": 0.02666666666666667, "grad_norm": 4367.501953125, "learning_rate": 8.333333333333334e-05, "loss": 0.1641, "step": 2000 }, { "epoch": 0.028, "grad_norm": 3890.798095703125, "learning_rate": 8.166666666666667e-05, "loss": 0.1389, "step": 2100 }, { "epoch": 0.029333333333333333, "grad_norm": 4143.93505859375, "learning_rate": 8e-05, "loss": 0.1523, "step": 2200 }, { "epoch": 0.030666666666666665, "grad_norm": 3799.543212890625, "learning_rate": 7.833333333333333e-05, "loss": 0.1456, "step": 2300 }, { "epoch": 0.032, "grad_norm": 4041.04638671875, "learning_rate": 7.666666666666667e-05, "loss": 0.1213, "step": 2400 }, { "epoch": 0.03333333333333333, "grad_norm": 4422.04248046875, "learning_rate": 7.500000000000001e-05, "loss": 0.1501, "step": 2500 }, { "epoch": 0.03333333333333333, "eval_loss": 0.20066243410110474, "eval_runtime": 12367.8365, "eval_samples_per_second": 14.89, "eval_steps_per_second": 0.931, "step": 2500 }, { "epoch": 0.034666666666666665, "grad_norm": 9264.0322265625, "learning_rate": 7.333333333333333e-05, "loss": 0.1659, "step": 2600 }, { "epoch": 0.036, "grad_norm": 4891.16015625, "learning_rate": 7.166666666666667e-05, "loss": 0.1513, "step": 2700 }, { "epoch": 0.037333333333333336, "grad_norm": 4946.96240234375, "learning_rate": 7e-05, "loss": 0.1402, "step": 2800 }, { "epoch": 0.03866666666666667, "grad_norm": 6305.4404296875, "learning_rate": 6.833333333333333e-05, "loss": 0.1437, "step": 2900 }, { "epoch": 0.04, "grad_norm": 5814.00244140625, "learning_rate": 6.666666666666667e-05, "loss": 0.162, "step": 3000 }, { "epoch": 0.04133333333333333, "grad_norm": 4542.61767578125, "learning_rate": 6.500000000000001e-05, "loss": 0.1302, "step": 3100 }, { "epoch": 0.042666666666666665, "grad_norm": 5265.51806640625, "learning_rate": 6.333333333333333e-05, "loss": 0.1355, "step": 3200 }, { "epoch": 0.044, "grad_norm": 7862.482421875, "learning_rate": 6.166666666666667e-05, "loss": 0.13, "step": 3300 }, { "epoch": 0.04533333333333334, "grad_norm": 6594.36669921875, "learning_rate": 6e-05, "loss": 0.1447, "step": 3400 }, { "epoch": 0.04666666666666667, "grad_norm": 6135.97509765625, "learning_rate": 5.833333333333334e-05, "loss": 0.1446, "step": 3500 }, { "epoch": 0.048, "grad_norm": 7121.572265625, "learning_rate": 5.666666666666667e-05, "loss": 0.1395, "step": 3600 }, { "epoch": 0.04933333333333333, "grad_norm": 8947.796875, "learning_rate": 5.500000000000001e-05, "loss": 0.1343, "step": 3700 }, { "epoch": 0.050666666666666665, "grad_norm": 8219.5732421875, "learning_rate": 5.333333333333333e-05, "loss": 0.1186, "step": 3800 }, { "epoch": 0.052, "grad_norm": 7754.8759765625, "learning_rate": 5.166666666666667e-05, "loss": 0.1219, "step": 3900 }, { "epoch": 0.05333333333333334, "grad_norm": 7000.673828125, "learning_rate": 5e-05, "loss": 0.1309, "step": 4000 }, { "epoch": 0.05466666666666667, "grad_norm": 5756.7763671875, "learning_rate": 4.8333333333333334e-05, "loss": 0.1192, "step": 4100 }, { "epoch": 0.056, "grad_norm": 9121.4453125, "learning_rate": 4.666666666666667e-05, "loss": 0.1194, "step": 4200 }, { "epoch": 0.05733333333333333, "grad_norm": 12909.078125, "learning_rate": 4.5e-05, "loss": 0.1366, "step": 4300 }, { "epoch": 0.058666666666666666, "grad_norm": 10152.21875, "learning_rate": 4.3333333333333334e-05, "loss": 0.1196, "step": 4400 }, { "epoch": 0.06, "grad_norm": 14436.8466796875, "learning_rate": 4.166666666666667e-05, "loss": 0.1228, "step": 4500 }, { "epoch": 0.06133333333333333, "grad_norm": 8110.03125, "learning_rate": 4e-05, "loss": 0.1151, "step": 4600 }, { "epoch": 0.06266666666666666, "grad_norm": 9303.314453125, "learning_rate": 3.8333333333333334e-05, "loss": 0.1104, "step": 4700 }, { "epoch": 0.064, "grad_norm": 9055.736328125, "learning_rate": 3.6666666666666666e-05, "loss": 0.1023, "step": 4800 }, { "epoch": 0.06533333333333333, "grad_norm": 5660.32958984375, "learning_rate": 3.5e-05, "loss": 0.0936, "step": 4900 }, { "epoch": 0.06666666666666667, "grad_norm": 7201.54931640625, "learning_rate": 3.3333333333333335e-05, "loss": 0.1103, "step": 5000 }, { "epoch": 0.06666666666666667, "eval_loss": 0.1539839506149292, "eval_runtime": 12373.139, "eval_samples_per_second": 14.883, "eval_steps_per_second": 0.93, "step": 5000 }, { "epoch": 0.068, "grad_norm": 11332.046875, "learning_rate": 3.1666666666666666e-05, "loss": 0.0977, "step": 5100 }, { "epoch": 0.06933333333333333, "grad_norm": 13064.806640625, "learning_rate": 3e-05, "loss": 0.1043, "step": 5200 }, { "epoch": 0.07066666666666667, "grad_norm": 9356.373046875, "learning_rate": 2.8333333333333335e-05, "loss": 0.0983, "step": 5300 }, { "epoch": 0.072, "grad_norm": 9500.935546875, "learning_rate": 2.6666666666666667e-05, "loss": 0.102, "step": 5400 }, { "epoch": 0.07333333333333333, "grad_norm": 9010.0517578125, "learning_rate": 2.5e-05, "loss": 0.0874, "step": 5500 }, { "epoch": 0.07466666666666667, "grad_norm": 9204.0703125, "learning_rate": 2.3333333333333336e-05, "loss": 0.0939, "step": 5600 }, { "epoch": 0.076, "grad_norm": 8989.322265625, "learning_rate": 2.1666666666666667e-05, "loss": 0.0852, "step": 5700 }, { "epoch": 0.07733333333333334, "grad_norm": 3400.31591796875, "learning_rate": 2e-05, "loss": 0.0952, "step": 5800 }, { "epoch": 0.07866666666666666, "grad_norm": 16400.48828125, "learning_rate": 1.8333333333333333e-05, "loss": 0.0792, "step": 5900 }, { "epoch": 0.08, "grad_norm": 3612.99365234375, "learning_rate": 1.6666666666666667e-05, "loss": 0.0735, "step": 6000 }, { "epoch": 0.08133333333333333, "grad_norm": 9866.6279296875, "learning_rate": 1.5e-05, "loss": 0.0931, "step": 6100 }, { "epoch": 0.08266666666666667, "grad_norm": 13096.994140625, "learning_rate": 1.3333333333333333e-05, "loss": 0.0955, "step": 6200 }, { "epoch": 0.084, "grad_norm": 6636.74365234375, "learning_rate": 1.1666666666666668e-05, "loss": 0.0862, "step": 6300 }, { "epoch": 0.08533333333333333, "grad_norm": 7214.32958984375, "learning_rate": 1e-05, "loss": 0.0966, "step": 6400 }, { "epoch": 0.08666666666666667, "grad_norm": 13823.109375, "learning_rate": 8.333333333333334e-06, "loss": 0.0853, "step": 6500 }, { "epoch": 0.088, "grad_norm": 17792.580078125, "learning_rate": 6.666666666666667e-06, "loss": 0.0902, "step": 6600 }, { "epoch": 0.08933333333333333, "grad_norm": 8880.7822265625, "learning_rate": 5e-06, "loss": 0.0815, "step": 6700 }, { "epoch": 0.09066666666666667, "grad_norm": 11938.576171875, "learning_rate": 3.3333333333333333e-06, "loss": 0.0862, "step": 6800 }, { "epoch": 0.092, "grad_norm": 22440.61328125, "learning_rate": 1.6666666666666667e-06, "loss": 0.0848, "step": 6900 }, { "epoch": 0.09333333333333334, "grad_norm": 10622.8349609375, "learning_rate": 0.0, "loss": 0.1029, "step": 7000 } ], "logging_steps": 100, "max_steps": 7000, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 2500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 3.415499744477184e+16, "train_batch_size": 8, "trial_name": null, "trial_params": null }