roberta-base-mean-softmax-300 / trainer_state.json

Upload folder using huggingface_hub

881aa6c verified 8 days ago

14.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.04076086956521739,
	"eval_steps": 5,
	"global_step": 300,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0006793478260869565,
	"eval_loss": 4.499350547790527,
	"eval_runtime": 20.1523,
	"eval_samples_per_second": 975.424,
	"eval_steps_per_second": 7.642,
	"step": 5
	},
	{
	"epoch": 0.001358695652173913,
	"eval_loss": 4.498117923736572,
	"eval_runtime": 20.4966,
	"eval_samples_per_second": 959.037,
	"eval_steps_per_second": 7.513,
	"step": 10
	},
	{
	"epoch": 0.0020380434782608695,
	"eval_loss": 4.495996475219727,
	"eval_runtime": 21.0485,
	"eval_samples_per_second": 933.891,
	"eval_steps_per_second": 7.316,
	"step": 15
	},
	{
	"epoch": 0.002717391304347826,
	"eval_loss": 4.492975234985352,
	"eval_runtime": 21.3506,
	"eval_samples_per_second": 920.677,
	"eval_steps_per_second": 7.213,
	"step": 20
	},
	{
	"epoch": 0.0033967391304347825,
	"eval_loss": 4.489028453826904,
	"eval_runtime": 21.5145,
	"eval_samples_per_second": 913.661,
	"eval_steps_per_second": 7.158,
	"step": 25
	},
	{
	"epoch": 0.004076086956521739,
	"eval_loss": 4.484206199645996,
	"eval_runtime": 21.5836,
	"eval_samples_per_second": 910.738,
	"eval_steps_per_second": 7.135,
	"step": 30
	},
	{
	"epoch": 0.004755434782608696,
	"eval_loss": 4.478429317474365,
	"eval_runtime": 21.7892,
	"eval_samples_per_second": 902.143,
	"eval_steps_per_second": 7.068,
	"step": 35
	},
	{
	"epoch": 0.005434782608695652,
	"eval_loss": 4.471565246582031,
	"eval_runtime": 21.9727,
	"eval_samples_per_second": 894.608,
	"eval_steps_per_second": 7.009,
	"step": 40
	},
	{
	"epoch": 0.006114130434782609,
	"eval_loss": 4.463589668273926,
	"eval_runtime": 21.6519,
	"eval_samples_per_second": 907.863,
	"eval_steps_per_second": 7.113,
	"step": 45
	},
	{
	"epoch": 0.006793478260869565,
	"eval_loss": 4.454347610473633,
	"eval_runtime": 21.7784,
	"eval_samples_per_second": 902.593,
	"eval_steps_per_second": 7.071,
	"step": 50
	},
	{
	"epoch": 0.007472826086956522,
	"eval_loss": 4.443789958953857,
	"eval_runtime": 21.9874,
	"eval_samples_per_second": 894.012,
	"eval_steps_per_second": 7.004,
	"step": 55
	},
	{
	"epoch": 0.008152173913043478,
	"eval_loss": 4.432095527648926,
	"eval_runtime": 21.6944,
	"eval_samples_per_second": 906.087,
	"eval_steps_per_second": 7.099,
	"step": 60
	},
	{
	"epoch": 0.008831521739130434,
	"eval_loss": 4.419074535369873,
	"eval_runtime": 21.7766,
	"eval_samples_per_second": 902.668,
	"eval_steps_per_second": 7.072,
	"step": 65
	},
	{
	"epoch": 0.009510869565217392,
	"eval_loss": 4.404222011566162,
	"eval_runtime": 21.9472,
	"eval_samples_per_second": 895.649,
	"eval_steps_per_second": 7.017,
	"step": 70
	},
	{
	"epoch": 0.010190217391304348,
	"eval_loss": 4.387468338012695,
	"eval_runtime": 22.1085,
	"eval_samples_per_second": 889.115,
	"eval_steps_per_second": 6.966,
	"step": 75
	},
	{
	"epoch": 0.010869565217391304,
	"eval_loss": 4.368589878082275,
	"eval_runtime": 21.8154,
	"eval_samples_per_second": 901.063,
	"eval_steps_per_second": 7.059,
	"step": 80
	},
	{
	"epoch": 0.01154891304347826,
	"eval_loss": 4.347426891326904,
	"eval_runtime": 21.8937,
	"eval_samples_per_second": 897.84,
	"eval_steps_per_second": 7.034,
	"step": 85
	},
	{
	"epoch": 0.012228260869565218,
	"eval_loss": 4.32356595993042,
	"eval_runtime": 21.9031,
	"eval_samples_per_second": 897.453,
	"eval_steps_per_second": 7.031,
	"step": 90
	},
	{
	"epoch": 0.012907608695652174,
	"eval_loss": 4.296773433685303,
	"eval_runtime": 22.045,
	"eval_samples_per_second": 891.674,
	"eval_steps_per_second": 6.986,
	"step": 95
	},
	{
	"epoch": 0.01358695652173913,
	"grad_norm": 11.771966934204102,
	"learning_rate": 4.528985507246377e-07,
	"loss": 4.4995,
	"step": 100
	},
	{
	"epoch": 0.01358695652173913,
	"eval_loss": 4.266582489013672,
	"eval_runtime": 21.7748,
	"eval_samples_per_second": 902.742,
	"eval_steps_per_second": 7.072,
	"step": 100
	},
	{
	"epoch": 0.014266304347826086,
	"eval_loss": 4.232626914978027,
	"eval_runtime": 21.7463,
	"eval_samples_per_second": 903.924,
	"eval_steps_per_second": 7.082,
	"step": 105
	},
	{
	"epoch": 0.014945652173913044,
	"eval_loss": 4.194711208343506,
	"eval_runtime": 22.0767,
	"eval_samples_per_second": 890.396,
	"eval_steps_per_second": 6.976,
	"step": 110
	},
	{
	"epoch": 0.015625,
	"eval_loss": 4.151618957519531,
	"eval_runtime": 21.7284,
	"eval_samples_per_second": 904.667,
	"eval_steps_per_second": 7.087,
	"step": 115
	},
	{
	"epoch": 0.016304347826086956,
	"eval_loss": 4.102933883666992,
	"eval_runtime": 21.8375,
	"eval_samples_per_second": 900.149,
	"eval_steps_per_second": 7.052,
	"step": 120
	},
	{
	"epoch": 0.016983695652173912,
	"eval_loss": 4.047597408294678,
	"eval_runtime": 21.8792,
	"eval_samples_per_second": 898.434,
	"eval_steps_per_second": 7.039,
	"step": 125
	},
	{
	"epoch": 0.017663043478260868,
	"eval_loss": 3.9850316047668457,
	"eval_runtime": 22.0074,
	"eval_samples_per_second": 893.2,
	"eval_steps_per_second": 6.998,
	"step": 130
	},
	{
	"epoch": 0.018342391304347828,
	"eval_loss": 3.9161784648895264,
	"eval_runtime": 21.9382,
	"eval_samples_per_second": 896.016,
	"eval_steps_per_second": 7.02,
	"step": 135
	},
	{
	"epoch": 0.019021739130434784,
	"eval_loss": 3.839725971221924,
	"eval_runtime": 21.8144,
	"eval_samples_per_second": 901.1,
	"eval_steps_per_second": 7.06,
	"step": 140
	},
	{
	"epoch": 0.01970108695652174,
	"eval_loss": 3.7521822452545166,
	"eval_runtime": 21.6841,
	"eval_samples_per_second": 906.516,
	"eval_steps_per_second": 7.102,
	"step": 145
	},
	{
	"epoch": 0.020380434782608696,
	"eval_loss": 3.652061700820923,
	"eval_runtime": 21.8254,
	"eval_samples_per_second": 900.648,
	"eval_steps_per_second": 7.056,
	"step": 150
	},
	{
	"epoch": 0.021059782608695652,
	"eval_loss": 3.5387539863586426,
	"eval_runtime": 21.8927,
	"eval_samples_per_second": 897.878,
	"eval_steps_per_second": 7.034,
	"step": 155
	},
	{
	"epoch": 0.021739130434782608,
	"eval_loss": 3.4114441871643066,
	"eval_runtime": 21.8999,
	"eval_samples_per_second": 897.585,
	"eval_steps_per_second": 7.032,
	"step": 160
	},
	{
	"epoch": 0.022418478260869564,
	"eval_loss": 3.2700562477111816,
	"eval_runtime": 22.0501,
	"eval_samples_per_second": 891.469,
	"eval_steps_per_second": 6.984,
	"step": 165
	},
	{
	"epoch": 0.02309782608695652,
	"eval_loss": 3.114734172821045,
	"eval_runtime": 21.7106,
	"eval_samples_per_second": 905.412,
	"eval_steps_per_second": 7.093,
	"step": 170
	},
	{
	"epoch": 0.02377717391304348,
	"eval_loss": 2.9471371173858643,
	"eval_runtime": 21.8419,
	"eval_samples_per_second": 899.966,
	"eval_steps_per_second": 7.051,
	"step": 175
	},
	{
	"epoch": 0.024456521739130436,
	"eval_loss": 2.7709779739379883,
	"eval_runtime": 21.8693,
	"eval_samples_per_second": 898.839,
	"eval_steps_per_second": 7.042,
	"step": 180
	},
	{
	"epoch": 0.025135869565217392,
	"eval_loss": 2.590932607650757,
	"eval_runtime": 22.0818,
	"eval_samples_per_second": 890.189,
	"eval_steps_per_second": 6.974,
	"step": 185
	},
	{
	"epoch": 0.025815217391304348,
	"eval_loss": 2.4126803874969482,
	"eval_runtime": 21.8508,
	"eval_samples_per_second": 899.601,
	"eval_steps_per_second": 7.048,
	"step": 190
	},
	{
	"epoch": 0.026494565217391304,
	"eval_loss": 2.243886947631836,
	"eval_runtime": 21.9268,
	"eval_samples_per_second": 896.483,
	"eval_steps_per_second": 7.023,
	"step": 195
	},
	{
	"epoch": 0.02717391304347826,
	"grad_norm": 25.208101272583008,
	"learning_rate": 9.057971014492754e-07,
	"loss": 3.6918,
	"step": 200
	},
	{
	"epoch": 0.02717391304347826,
	"eval_loss": 2.0869383811950684,
	"eval_runtime": 21.9994,
	"eval_samples_per_second": 893.524,
	"eval_steps_per_second": 7.0,
	"step": 200
	},
	{
	"epoch": 0.027853260869565216,
	"eval_loss": 1.9476724863052368,
	"eval_runtime": 21.8137,
	"eval_samples_per_second": 901.132,
	"eval_steps_per_second": 7.06,
	"step": 205
	},
	{
	"epoch": 0.028532608695652172,
	"eval_loss": 1.8273799419403076,
	"eval_runtime": 21.8665,
	"eval_samples_per_second": 898.954,
	"eval_steps_per_second": 7.043,
	"step": 210
	},
	{
	"epoch": 0.029211956521739132,
	"eval_loss": 1.71555495262146,
	"eval_runtime": 21.8011,
	"eval_samples_per_second": 901.651,
	"eval_steps_per_second": 7.064,
	"step": 215
	},
	{
	"epoch": 0.029891304347826088,
	"eval_loss": 1.621083378791809,
	"eval_runtime": 21.9545,
	"eval_samples_per_second": 895.354,
	"eval_steps_per_second": 7.015,
	"step": 220
	},
	{
	"epoch": 0.030570652173913044,
	"eval_loss": 1.5416371822357178,
	"eval_runtime": 21.6636,
	"eval_samples_per_second": 907.377,
	"eval_steps_per_second": 7.109,
	"step": 225
	},
	{
	"epoch": 0.03125,
	"eval_loss": 1.4732381105422974,
	"eval_runtime": 21.6731,
	"eval_samples_per_second": 906.976,
	"eval_steps_per_second": 7.106,
	"step": 230
	},
	{
	"epoch": 0.03192934782608696,
	"eval_loss": 1.417628288269043,
	"eval_runtime": 21.9177,
	"eval_samples_per_second": 896.857,
	"eval_steps_per_second": 7.026,
	"step": 235
	},
	{
	"epoch": 0.03260869565217391,
	"eval_loss": 1.3701567649841309,
	"eval_runtime": 22.0593,
	"eval_samples_per_second": 891.097,
	"eval_steps_per_second": 6.981,
	"step": 240
	},
	{
	"epoch": 0.03328804347826087,
	"eval_loss": 1.326924204826355,
	"eval_runtime": 21.7518,
	"eval_samples_per_second": 903.694,
	"eval_steps_per_second": 7.08,
	"step": 245
	},
	{
	"epoch": 0.033967391304347824,
	"eval_loss": 1.2892364263534546,
	"eval_runtime": 21.807,
	"eval_samples_per_second": 901.406,
	"eval_steps_per_second": 7.062,
	"step": 250
	},
	{
	"epoch": 0.034646739130434784,
	"eval_loss": 1.256325125694275,
	"eval_runtime": 21.977,
	"eval_samples_per_second": 894.436,
	"eval_steps_per_second": 7.007,
	"step": 255
	},
	{
	"epoch": 0.035326086956521736,
	"eval_loss": 1.2281286716461182,
	"eval_runtime": 21.9123,
	"eval_samples_per_second": 897.075,
	"eval_steps_per_second": 7.028,
	"step": 260
	},
	{
	"epoch": 0.036005434782608696,
	"eval_loss": 1.2023590803146362,
	"eval_runtime": 21.7217,
	"eval_samples_per_second": 904.947,
	"eval_steps_per_second": 7.09,
	"step": 265
	},
	{
	"epoch": 0.036684782608695655,
	"eval_loss": 1.1796302795410156,
	"eval_runtime": 21.8625,
	"eval_samples_per_second": 899.119,
	"eval_steps_per_second": 7.044,
	"step": 270
	},
	{
	"epoch": 0.03736413043478261,
	"eval_loss": 1.1600725650787354,
	"eval_runtime": 22.083,
	"eval_samples_per_second": 890.141,
	"eval_steps_per_second": 6.974,
	"step": 275
	},
	{
	"epoch": 0.03804347826086957,
	"eval_loss": 1.1428364515304565,
	"eval_runtime": 21.958,
	"eval_samples_per_second": 895.209,
	"eval_steps_per_second": 7.013,
	"step": 280
	},
	{
	"epoch": 0.03872282608695652,
	"eval_loss": 1.1271179914474487,
	"eval_runtime": 21.9261,
	"eval_samples_per_second": 896.511,
	"eval_steps_per_second": 7.024,
	"step": 285
	},
	{
	"epoch": 0.03940217391304348,
	"eval_loss": 1.1129034757614136,
	"eval_runtime": 21.8882,
	"eval_samples_per_second": 898.065,
	"eval_steps_per_second": 7.036,
	"step": 290
	},
	{
	"epoch": 0.04008152173913043,
	"eval_loss": 1.100168228149414,
	"eval_runtime": 21.8776,
	"eval_samples_per_second": 898.498,
	"eval_steps_per_second": 7.039,
	"step": 295
	},
	{
	"epoch": 0.04076086956521739,
	"grad_norm": 14.775556564331055,
	"learning_rate": 1.3586956521739131e-06,
	"loss": 1.7071,
	"step": 300
	},
	{
	"epoch": 0.04076086956521739,
	"eval_loss": 1.087642788887024,
	"eval_runtime": 21.8501,
	"eval_samples_per_second": 899.629,
	"eval_steps_per_second": 7.048,
	"step": 300
	}
	],
	"logging_steps": 100,
	"max_steps": 22080,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 5,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 128,
	"trial_name": null,
	"trial_params": null
	}