flan-t5-base-arxiv-cs-ml-question-answering / trainer_state.json

ArtifactAI

Upload folder using huggingface_hub

0b07fb0 over 2 years ago

4.06 kB

	{
	"best_metric": 1.9176584482192993,
	"best_model_checkpoint": "output2/checkpoint-11265",
	"epoch": 5.0,
	"global_step": 11265,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.22,
	"learning_rate": 4.7780736795383934e-05,
	"loss": 2.4603,
	"step": 500
	},
	{
	"epoch": 0.44,
	"learning_rate": 4.5561473590767866e-05,
	"loss": 2.3616,
	"step": 1000
	},
	{
	"epoch": 0.67,
	"learning_rate": 4.33422103861518e-05,
	"loss": 2.3185,
	"step": 1500
	},
	{
	"epoch": 0.89,
	"learning_rate": 4.112294718153573e-05,
	"loss": 2.2906,
	"step": 2000
	},
	{
	"epoch": 1.0,
	"eval_loss": 2.015899181365967,
	"eval_runtime": 25.1172,
	"eval_samples_per_second": 79.746,
	"eval_steps_per_second": 9.993,
	"step": 2253
	},
	{
	"epoch": 1.11,
	"learning_rate": 3.890368397691966e-05,
	"loss": 2.2358,
	"step": 2500
	},
	{
	"epoch": 1.33,
	"learning_rate": 3.668442077230359e-05,
	"loss": 2.2139,
	"step": 3000
	},
	{
	"epoch": 1.55,
	"learning_rate": 3.446515756768753e-05,
	"loss": 2.1943,
	"step": 3500
	},
	{
	"epoch": 1.78,
	"learning_rate": 3.224589436307146e-05,
	"loss": 2.1958,
	"step": 4000
	},
	{
	"epoch": 2.0,
	"learning_rate": 3.002663115845539e-05,
	"loss": 2.1734,
	"step": 4500
	},
	{
	"epoch": 2.0,
	"eval_loss": 1.9603439569473267,
	"eval_runtime": 25.1728,
	"eval_samples_per_second": 79.57,
	"eval_steps_per_second": 9.971,
	"step": 4506
	},
	{
	"epoch": 2.22,
	"learning_rate": 2.7807367953839327e-05,
	"loss": 2.1461,
	"step": 5000
	},
	{
	"epoch": 2.44,
	"learning_rate": 2.558810474922326e-05,
	"loss": 2.1417,
	"step": 5500
	},
	{
	"epoch": 2.66,
	"learning_rate": 2.3368841544607194e-05,
	"loss": 2.119,
	"step": 6000
	},
	{
	"epoch": 2.89,
	"learning_rate": 2.1149578339991125e-05,
	"loss": 2.1154,
	"step": 6500
	},
	{
	"epoch": 3.0,
	"eval_loss": 1.9350425004959106,
	"eval_runtime": 25.1404,
	"eval_samples_per_second": 79.673,
	"eval_steps_per_second": 9.984,
	"step": 6759
	},
	{
	"epoch": 3.11,
	"learning_rate": 1.8930315135375057e-05,
	"loss": 2.1072,
	"step": 7000
	},
	{
	"epoch": 3.33,
	"learning_rate": 1.671105193075899e-05,
	"loss": 2.0763,
	"step": 7500
	},
	{
	"epoch": 3.55,
	"learning_rate": 1.449178872614292e-05,
	"loss": 2.0891,
	"step": 8000
	},
	{
	"epoch": 3.77,
	"learning_rate": 1.2272525521526854e-05,
	"loss": 2.0903,
	"step": 8500
	},
	{
	"epoch": 3.99,
	"learning_rate": 1.0053262316910786e-05,
	"loss": 2.0828,
	"step": 9000
	},
	{
	"epoch": 4.0,
	"eval_loss": 1.921891212463379,
	"eval_runtime": 25.1535,
	"eval_samples_per_second": 79.631,
	"eval_steps_per_second": 9.979,
	"step": 9012
	},
	{
	"epoch": 4.22,
	"learning_rate": 7.833999112294718e-06,
	"loss": 2.0597,
	"step": 9500
	},
	{
	"epoch": 4.44,
	"learning_rate": 5.614735907678651e-06,
	"loss": 2.0766,
	"step": 10000
	},
	{
	"epoch": 4.66,
	"learning_rate": 3.3954727030625836e-06,
	"loss": 2.0622,
	"step": 10500
	},
	{
	"epoch": 4.88,
	"learning_rate": 1.1762094984465157e-06,
	"loss": 2.0666,
	"step": 11000
	},
	{
	"epoch": 5.0,
	"eval_loss": 1.9176584482192993,
	"eval_runtime": 25.1539,
	"eval_samples_per_second": 79.63,
	"eval_steps_per_second": 9.979,
	"step": 11265
	}
	],
	"max_steps": 11265,
	"num_train_epochs": 5,
	"total_flos": 5784701721477120.0,
	"trial_name": null,
	"trial_params": null
	}