cat-searcher commited on Jul 17, 2024

Commit

41fc73e

verified ·

1 Parent(s): eea3bd2

Training in progress, epoch 6, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step1382/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1382/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1382/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1382/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1382/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1382/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1382/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1382/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1382/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1382/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1382/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1382/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1382/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1382/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1382/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1382/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step1382/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5edc639329efc382f1596e9be6ac92eec76c1fdd8e4a69123e4acea724783a10
+size 2506176112

last-checkpoint/global_step1382/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da7df7280f43cce9ec67ef31ffff618527964de214ff45ae23ac9e1d1168893b
+size 2506176112

last-checkpoint/global_step1382/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e17290a4120dc42280154868406961335a33157e6f3114ff90c09acb8b24acb
+size 2506176112

last-checkpoint/global_step1382/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d26faf01a63c156ebbe630b0524846f2815bbf2cc5f46f73747cc22527df907
+size 2506176112

last-checkpoint/global_step1382/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bec63be9931390bc6d71ce2735ac3dd8e7f802a28e26956bea12eb605fd9505e
+size 2506176112

last-checkpoint/global_step1382/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:441c120cbd3652396561ac5f4d4ccc64200145087f637c5e239099ba974a949d
+size 2506176112

last-checkpoint/global_step1382/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ca143448b9530345df4b969d2299b4bf1da9619c327d7c642d3a438222c4bd2
+size 2506176112

last-checkpoint/global_step1382/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fa39a4703bdb28ffd77786fec2b404f228fb9e9bb77ad247f053ae92863ca74
+size 2506176112

last-checkpoint/global_step1382/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7eef319adec752ebcb7e5756859278b3f0ff682fe8235144859d0abf9869be7
+size 85570

last-checkpoint/global_step1382/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8af85528c85925f43ae266b7b8588a10cc6efa2c1dccabc0ecd20bfb236d97a9
+size 85506

last-checkpoint/global_step1382/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b67f5b7768a185948bdb34ca7228765fcca69bd7cc4d4d9baa4469d6c52e078
+size 85506

last-checkpoint/global_step1382/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:218725051515ca7bd445cecc5c6757cf4ae94075236a0cc2c155cc02815190f7
+size 85506

last-checkpoint/global_step1382/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12e6a54fd2770a9cabb78c97f1391e3bbed91e1829a79395e3f41d605ced7922
+size 85506

last-checkpoint/global_step1382/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be913c9be8c2851c3625e30850b9ee412f151791e096510473ef072bcd54d79e
+size 85506

last-checkpoint/global_step1382/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4277b50ed5eab841afd7db113fdbcd6660bb2d15561600ca14392448022caaf
+size 85506

last-checkpoint/global_step1382/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:834f8c3943871f1e3af96c72bda8aa89d8d9edd3952ae3b8718b93d7a0cf4b02
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1185~~


1	+ global_step1382

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbec331a03b63bf09d63c111d004f44d4e1b4622bd66a68a51c8a93312a7aaed
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:f02726a44bd4780d17e35e236963b8fce24dc953bf71f40b4952f4922816c337
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f62a449b2e0be7027fb456871163c3388d55fd9f5230ef65a2e8ae1bd77075ac
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:10b91f43ac308f747e0c6169d0cc727dbf1d843ea3d107cf67c9329f99912a02
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0628a9017696045a3a29e9eaffc71e9262d855716e773c0c3be760a1fe85bc8
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7d7e02ffb4d440dce7ab4ce0b5617578ec9ce3672acee7434ed6f1153f1ae0c
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df342004a4d8e3626bf2a9f689fde7c8bfd6d995e14931f5496eda1f456cb6f2
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5b40ca759e432b2688f021b81291d74a40f56a205e9842119f7e772275eebd3
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f02096eb4e8850b91490e80e4a042e2e60f71bd2abc6a269d62c271649cb77d2
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdaef955ddd36d6bc1c40584113dd6205483e2aa85b02439b8b27e82e02a8359
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:326c778d3d0e7e3d5665fa0a9ecd92986609c430da08b41611d6c05dc19815a8
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:10b14ae5db356e6512538751d6b386c190754e307cc99cd652d5c6dd891e1f82
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d978dcb0c34e022ee6750e9d86814b8c82e4965d7e07662f35f06eeac12938f3
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f26e28be26826eeeed244b77185c67b443ac185175f8d4bf5ba94caa8b271bc5
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01e83399aed1d9d173c3e07b2efa8530c956b62b2b68394c2ed0d43bd8bba9d1
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:847cedc1d6ca26f299a132c2ade9754887374acb9d98f26594a85d4c7742d474
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:606ab3ca92e3d20c327c69fdcce7f7e39bec2f2c3538b036088b255f917e3ba4
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcd043d1690ae0ff6991b03322799a0b28f021427b15fd9f1e5ed8b9905d9307
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1276a987dd22c9093fec58921ba19f340a28f18bff635cc01324e09a3c37ac3a
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:772190f7e6667c865d25fc72da7bdd1b5d39f46fe03bb5c2d754aee1ad3c99c7
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:251c2a48bb3a46f7c0365ebd02f9e250fbea04549ecdfec993cf3e0a3155f3a0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0dd882b6f08b8cde72a038748b9c995e480ab99405e1f7e6c7a03592bdad6355
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.0,
   "eval_steps": 100,
-  "global_step": 1185,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1792,6 +1792,306 @@
       "rewards/margins": 0.30018630623817444,
       "rewards/rejected": -0.2124231606721878,
       "step": 1180
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.99746835443038,
   "eval_steps": 100,
+  "global_step": 1382,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.30018630623817444,
       "rewards/rejected": -0.2124231606721878,
       "step": 1180
+    },
+    {
+      "epoch": 6.025316455696203,
+      "grad_norm": 1287103.6124582873,
+      "learning_rate": 3.691632717016609e-07,
+      "logits/chosen": -6.58931827545166,
+      "logits/rejected": -6.494097709655762,
+      "logps/chosen": -136.68003845214844,
+      "logps/rejected": -493.61822509765625,
+      "loss": 41587.3125,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.10335598886013031,
+      "rewards/margins": 0.36172229051589966,
+      "rewards/rejected": -0.25836625695228577,
+      "step": 1190
+    },
+    {
+      "epoch": 6.075949367088608,
+      "grad_norm": 1654691.3160849167,
+      "learning_rate": 3.675963647759323e-07,
+      "logits/chosen": -5.342609882354736,
+      "logits/rejected": -5.393660545349121,
+      "logps/chosen": -116.93675231933594,
+      "logps/rejected": -476.22833251953125,
+      "loss": 38118.9437,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.10985767841339111,
+      "rewards/margins": 0.3632175922393799,
+      "rewards/rejected": -0.25335997343063354,
+      "step": 1200
+    },
+    {
+      "epoch": 6.1265822784810124,
+      "grad_norm": 1390108.9081190277,
+      "learning_rate": 3.6602945785020365e-07,
+      "logits/chosen": -5.185478687286377,
+      "logits/rejected": -4.843894958496094,
+      "logps/chosen": -128.81143188476562,
+      "logps/rejected": -519.8304443359375,
+      "loss": 36511.2875,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1154375821352005,
+      "rewards/margins": 0.3926604092121124,
+      "rewards/rejected": -0.27722278237342834,
+      "step": 1210
+    },
+    {
+      "epoch": 6.177215189873418,
+      "grad_norm": 1502780.5568957475,
+      "learning_rate": 3.644625509244751e-07,
+      "logits/chosen": -4.163270473480225,
+      "logits/rejected": -3.8083653450012207,
+      "logps/chosen": -120.57966613769531,
+      "logps/rejected": -497.63226318359375,
+      "loss": 37966.2937,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.11406160891056061,
+      "rewards/margins": 0.37608999013900757,
+      "rewards/rejected": -0.2620283365249634,
+      "step": 1220
+    },
+    {
+      "epoch": 6.227848101265823,
+      "grad_norm": 1846607.9980803088,
+      "learning_rate": 3.6289564399874647e-07,
+      "logits/chosen": -4.317009925842285,
+      "logits/rejected": -4.062619209289551,
+      "logps/chosen": -112.0468521118164,
+      "logps/rejected": -490.73974609375,
+      "loss": 36750.4688,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.11853437125682831,
+      "rewards/margins": 0.37694281339645386,
+      "rewards/rejected": -0.25840842723846436,
+      "step": 1230
+    },
+    {
+      "epoch": 6.2784810126582276,
+      "grad_norm": 1432477.9223833755,
+      "learning_rate": 3.613287370730179e-07,
+      "logits/chosen": -4.580340385437012,
+      "logits/rejected": -4.493284225463867,
+      "logps/chosen": -123.97422790527344,
+      "logps/rejected": -509.47076416015625,
+      "loss": 37540.4875,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.11854572594165802,
+      "rewards/margins": 0.38835546374320984,
+      "rewards/rejected": -0.2698097229003906,
+      "step": 1240
+    },
+    {
+      "epoch": 6.329113924050633,
+      "grad_norm": 1551602.6793086384,
+      "learning_rate": 3.5976183014728924e-07,
+      "logits/chosen": -3.541313886642456,
+      "logits/rejected": -3.6754157543182373,
+      "logps/chosen": -120.3751220703125,
+      "logps/rejected": -483.46221923828125,
+      "loss": 35927.6062,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.10841184854507446,
+      "rewards/margins": 0.3652178645133972,
+      "rewards/rejected": -0.25680604577064514,
+      "step": 1250
+    },
+    {
+      "epoch": 6.379746835443038,
+      "grad_norm": 1628016.050343189,
+      "learning_rate": 3.5819492322156066e-07,
+      "logits/chosen": -3.570946216583252,
+      "logits/rejected": -3.6950716972351074,
+      "logps/chosen": -134.7080535888672,
+      "logps/rejected": -500.80108642578125,
+      "loss": 36467.1375,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1038375124335289,
+      "rewards/margins": 0.36301389336586,
+      "rewards/rejected": -0.2591763734817505,
+      "step": 1260
+    },
+    {
+      "epoch": 6.430379746835443,
+      "grad_norm": 1416336.114974791,
+      "learning_rate": 3.56628016295832e-07,
+      "logits/chosen": -2.9958808422088623,
+      "logits/rejected": -3.158600330352783,
+      "logps/chosen": -120.319580078125,
+      "logps/rejected": -493.46075439453125,
+      "loss": 35704.05,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.11720545589923859,
+      "rewards/margins": 0.3729427754878998,
+      "rewards/rejected": -0.2557373046875,
+      "step": 1270
+    },
+    {
+      "epoch": 6.481012658227848,
+      "grad_norm": 1429276.465119334,
+      "learning_rate": 3.5506110937010343e-07,
+      "logits/chosen": -5.23915958404541,
+      "logits/rejected": -5.513189792633057,
+      "logps/chosen": -106.6229476928711,
+      "logps/rejected": -512.9346923828125,
+      "loss": 37476.4688,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1187194362282753,
+      "rewards/margins": 0.4039131700992584,
+      "rewards/rejected": -0.2851937413215637,
+      "step": 1280
+    },
+    {
+      "epoch": 6.531645569620253,
+      "grad_norm": 1838991.6289765981,
+      "learning_rate": 3.534942024443748e-07,
+      "logits/chosen": -3.1320407390594482,
+      "logits/rejected": -3.531493663787842,
+      "logps/chosen": -114.69315338134766,
+      "logps/rejected": -521.70458984375,
+      "loss": 37236.3688,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.12156815826892853,
+      "rewards/margins": 0.39552414417266846,
+      "rewards/rejected": -0.2739560008049011,
+      "step": 1290
+    },
+    {
+      "epoch": 6.582278481012658,
+      "grad_norm": 1965294.5428377022,
+      "learning_rate": 3.519272955186462e-07,
+      "logits/chosen": -3.1404528617858887,
+      "logits/rejected": -3.159364938735962,
+      "logps/chosen": -108.1359634399414,
+      "logps/rejected": -441.573486328125,
+      "loss": 35760.8688,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.10433737188577652,
+      "rewards/margins": 0.3334364593029022,
+      "rewards/rejected": -0.2290991097688675,
+      "step": 1300
+    },
+    {
+      "epoch": 6.632911392405063,
+      "grad_norm": 1744782.725381992,
+      "learning_rate": 3.5036038859291756e-07,
+      "logits/chosen": -5.149240970611572,
+      "logits/rejected": -4.872938632965088,
+      "logps/chosen": -110.17635345458984,
+      "logps/rejected": -462.6591796875,
+      "loss": 38854.3313,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.10797703266143799,
+      "rewards/margins": 0.35402077436447144,
+      "rewards/rejected": -0.24604372680187225,
+      "step": 1310
+    },
+    {
+      "epoch": 6.6835443037974684,
+      "grad_norm": 1449584.094036676,
+      "learning_rate": 3.4879348166718897e-07,
+      "logits/chosen": -5.302030086517334,
+      "logits/rejected": -5.005532264709473,
+      "logps/chosen": -114.39412689208984,
+      "logps/rejected": -497.2879943847656,
+      "loss": 37031.9281,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.11388063430786133,
+      "rewards/margins": 0.38410684466362,
+      "rewards/rejected": -0.27022621035575867,
+      "step": 1320
+    },
+    {
+      "epoch": 6.734177215189874,
+      "grad_norm": 1655726.3529691189,
+      "learning_rate": 3.4722657474146033e-07,
+      "logits/chosen": -5.846579074859619,
+      "logits/rejected": -5.164810657501221,
+      "logps/chosen": -122.16035461425781,
+      "logps/rejected": -490.97503662109375,
+      "loss": 35881.3438,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.11242518573999405,
+      "rewards/margins": 0.3698340058326721,
+      "rewards/rejected": -0.2574087679386139,
+      "step": 1330
+    },
+    {
+      "epoch": 6.784810126582278,
+      "grad_norm": 1473850.8586688952,
+      "learning_rate": 3.4565966781573174e-07,
+      "logits/chosen": -6.604684352874756,
+      "logits/rejected": -6.540472984313965,
+      "logps/chosen": -141.56655883789062,
+      "logps/rejected": -504.536865234375,
+      "loss": 35791.1937,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.11088699102401733,
+      "rewards/margins": 0.36103492975234985,
+      "rewards/rejected": -0.2501479685306549,
+      "step": 1340
+    },
+    {
+      "epoch": 6.8354430379746836,
+      "grad_norm": 1716575.4855753484,
+      "learning_rate": 3.440927608900031e-07,
+      "logits/chosen": -5.3845696449279785,
+      "logits/rejected": -5.094508647918701,
+      "logps/chosen": -126.5009536743164,
+      "logps/rejected": -501.36407470703125,
+      "loss": 36855.7281,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.12023582309484482,
+      "rewards/margins": 0.3794700503349304,
+      "rewards/rejected": -0.2592342793941498,
+      "step": 1350
+    },
+    {
+      "epoch": 6.886075949367089,
+      "grad_norm": 1860603.9086510486,
+      "learning_rate": 3.425258539642745e-07,
+      "logits/chosen": -5.825100898742676,
+      "logits/rejected": -5.165715217590332,
+      "logps/chosen": -123.0651626586914,
+      "logps/rejected": -519.5916748046875,
+      "loss": 37158.7969,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.11998645961284637,
+      "rewards/margins": 0.40252119302749634,
+      "rewards/rejected": -0.28253474831581116,
+      "step": 1360
+    },
+    {
+      "epoch": 6.936708860759493,
+      "grad_norm": 1781429.39957367,
+      "learning_rate": 3.4095894703854587e-07,
+      "logits/chosen": -5.593798637390137,
+      "logits/rejected": -5.400781631469727,
+      "logps/chosen": -122.57585144042969,
+      "logps/rejected": -500.21844482421875,
+      "loss": 36281.8938,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.11947381496429443,
+      "rewards/margins": 0.377518892288208,
+      "rewards/rejected": -0.25804510712623596,
+      "step": 1370
+    },
+    {
+      "epoch": 6.987341772151899,
+      "grad_norm": 1883344.192547866,
+      "learning_rate": 3.393920401128173e-07,
+      "logits/chosen": -5.272061347961426,
+      "logits/rejected": -5.000374794006348,
+      "logps/chosen": -109.66764831542969,
+      "logps/rejected": -471.388916015625,
+      "loss": 37081.4062,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.11030924320220947,
+      "rewards/margins": 0.36379513144493103,
+      "rewards/rejected": -0.25348588824272156,
+      "step": 1380
     }
   ],
   "logging_steps": 10,