{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.04076086956521739,
  "eval_steps": 10,
  "global_step": 300,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.001358695652173913,
      "eval_loss": 2.557396173477173,
      "eval_runtime": 22.5514,
      "eval_samples_per_second": 871.653,
      "eval_steps_per_second": 6.829,
      "step": 10
    },
    {
      "epoch": 0.002717391304347826,
      "eval_loss": 2.5474746227264404,
      "eval_runtime": 23.4021,
      "eval_samples_per_second": 839.969,
      "eval_steps_per_second": 6.581,
      "step": 20
    },
    {
      "epoch": 0.004076086956521739,
      "eval_loss": 2.5305492877960205,
      "eval_runtime": 23.6374,
      "eval_samples_per_second": 831.608,
      "eval_steps_per_second": 6.515,
      "step": 30
    },
    {
      "epoch": 0.005434782608695652,
      "eval_loss": 2.5070903301239014,
      "eval_runtime": 24.1483,
      "eval_samples_per_second": 814.011,
      "eval_steps_per_second": 6.377,
      "step": 40
    },
    {
      "epoch": 0.006793478260869565,
      "eval_loss": 2.4774248600006104,
      "eval_runtime": 24.079,
      "eval_samples_per_second": 816.353,
      "eval_steps_per_second": 6.396,
      "step": 50
    },
    {
      "epoch": 0.008152173913043478,
      "eval_loss": 2.4406001567840576,
      "eval_runtime": 24.1728,
      "eval_samples_per_second": 813.186,
      "eval_steps_per_second": 6.371,
      "step": 60
    },
    {
      "epoch": 0.009510869565217392,
      "eval_loss": 2.3981375694274902,
      "eval_runtime": 24.4575,
      "eval_samples_per_second": 803.72,
      "eval_steps_per_second": 6.297,
      "step": 70
    },
    {
      "epoch": 0.010869565217391304,
      "eval_loss": 2.3499698638916016,
      "eval_runtime": 24.4148,
      "eval_samples_per_second": 805.125,
      "eval_steps_per_second": 6.308,
      "step": 80
    },
    {
      "epoch": 0.012228260869565218,
      "eval_loss": 2.296602964401245,
      "eval_runtime": 24.3099,
      "eval_samples_per_second": 808.6,
      "eval_steps_per_second": 6.335,
      "step": 90
    },
    {
      "epoch": 0.01358695652173913,
      "grad_norm": 13.137834548950195,
      "learning_rate": 4.528985507246377e-07,
      "loss": 2.7614,
      "step": 100
    },
    {
      "epoch": 0.01358695652173913,
      "eval_loss": 2.236211061477661,
      "eval_runtime": 24.5166,
      "eval_samples_per_second": 801.784,
      "eval_steps_per_second": 6.281,
      "step": 100
    },
    {
      "epoch": 0.014945652173913044,
      "eval_loss": 2.167431116104126,
      "eval_runtime": 24.727,
      "eval_samples_per_second": 794.96,
      "eval_steps_per_second": 6.228,
      "step": 110
    },
    {
      "epoch": 0.016304347826086956,
      "eval_loss": 2.0924274921417236,
      "eval_runtime": 24.4656,
      "eval_samples_per_second": 803.454,
      "eval_steps_per_second": 6.295,
      "step": 120
    },
    {
      "epoch": 0.017663043478260868,
      "eval_loss": 2.0152199268341064,
      "eval_runtime": 24.4949,
      "eval_samples_per_second": 802.494,
      "eval_steps_per_second": 6.287,
      "step": 130
    },
    {
      "epoch": 0.019021739130434784,
      "eval_loss": 1.9364519119262695,
      "eval_runtime": 24.771,
      "eval_samples_per_second": 793.548,
      "eval_steps_per_second": 6.217,
      "step": 140
    },
    {
      "epoch": 0.020380434782608696,
      "eval_loss": 1.8548585176467896,
      "eval_runtime": 24.965,
      "eval_samples_per_second": 787.382,
      "eval_steps_per_second": 6.169,
      "step": 150
    },
    {
      "epoch": 0.021739130434782608,
      "eval_loss": 1.7721434831619263,
      "eval_runtime": 24.6507,
      "eval_samples_per_second": 797.423,
      "eval_steps_per_second": 6.247,
      "step": 160
    },
    {
      "epoch": 0.02309782608695652,
      "eval_loss": 1.6912691593170166,
      "eval_runtime": 24.4838,
      "eval_samples_per_second": 802.857,
      "eval_steps_per_second": 6.29,
      "step": 170
    },
    {
      "epoch": 0.024456521739130436,
      "eval_loss": 1.6123912334442139,
      "eval_runtime": 24.6178,
      "eval_samples_per_second": 798.487,
      "eval_steps_per_second": 6.256,
      "step": 180
    },
    {
      "epoch": 0.025815217391304348,
      "eval_loss": 1.5380102396011353,
      "eval_runtime": 24.647,
      "eval_samples_per_second": 797.542,
      "eval_steps_per_second": 6.248,
      "step": 190
    },
    {
      "epoch": 0.02717391304347826,
      "grad_norm": 11.105963706970215,
      "learning_rate": 9.057971014492754e-07,
      "loss": 2.1258,
      "step": 200
    },
    {
      "epoch": 0.02717391304347826,
      "eval_loss": 1.4719674587249756,
      "eval_runtime": 24.4673,
      "eval_samples_per_second": 803.4,
      "eval_steps_per_second": 6.294,
      "step": 200
    },
    {
      "epoch": 0.028532608695652172,
      "eval_loss": 1.412487268447876,
      "eval_runtime": 24.5194,
      "eval_samples_per_second": 801.692,
      "eval_steps_per_second": 6.281,
      "step": 210
    },
    {
      "epoch": 0.029891304347826088,
      "eval_loss": 1.3594743013381958,
      "eval_runtime": 24.8868,
      "eval_samples_per_second": 789.855,
      "eval_steps_per_second": 6.188,
      "step": 220
    },
    {
      "epoch": 0.03125,
      "eval_loss": 1.3123195171356201,
      "eval_runtime": 24.6051,
      "eval_samples_per_second": 798.9,
      "eval_steps_per_second": 6.259,
      "step": 230
    },
    {
      "epoch": 0.03260869565217391,
      "eval_loss": 1.2703003883361816,
      "eval_runtime": 24.4299,
      "eval_samples_per_second": 804.629,
      "eval_steps_per_second": 6.304,
      "step": 240
    },
    {
      "epoch": 0.033967391304347824,
      "eval_loss": 1.232729196548462,
      "eval_runtime": 24.6424,
      "eval_samples_per_second": 797.692,
      "eval_steps_per_second": 6.249,
      "step": 250
    },
    {
      "epoch": 0.035326086956521736,
      "eval_loss": 1.2010678052902222,
      "eval_runtime": 24.3424,
      "eval_samples_per_second": 807.519,
      "eval_steps_per_second": 6.326,
      "step": 260
    },
    {
      "epoch": 0.036684782608695655,
      "eval_loss": 1.1734068393707275,
      "eval_runtime": 24.3106,
      "eval_samples_per_second": 808.577,
      "eval_steps_per_second": 6.335,
      "step": 270
    },
    {
      "epoch": 0.03804347826086957,
      "eval_loss": 1.149535894393921,
      "eval_runtime": 24.2813,
      "eval_samples_per_second": 809.553,
      "eval_steps_per_second": 6.342,
      "step": 280
    },
    {
      "epoch": 0.03940217391304348,
      "eval_loss": 1.1289809942245483,
      "eval_runtime": 24.8638,
      "eval_samples_per_second": 790.588,
      "eval_steps_per_second": 6.194,
      "step": 290
    },
    {
      "epoch": 0.04076086956521739,
      "grad_norm": 7.440733432769775,
      "learning_rate": 1.3586956521739131e-06,
      "loss": 1.4465,
      "step": 300
    },
    {
      "epoch": 0.04076086956521739,
      "eval_loss": 1.1101850271224976,
      "eval_runtime": 24.4423,
      "eval_samples_per_second": 804.222,
      "eval_steps_per_second": 6.301,
      "step": 300
    }
  ],
  "logging_steps": 100,
  "max_steps": 22080,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 10,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 128,
  "trial_name": null,
  "trial_params": null
}