cat-searcher commited on Jul 17, 2024

Commit

8e2644b

verified ·

1 Parent(s): e5d4e75

Training in progress, epoch 12, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step2567/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2567/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2567/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2567/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2567/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2567/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2567/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2567/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2567/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2567/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2567/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2567/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2567/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2567/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2567/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2567/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +287 -2

last-checkpoint/global_step2567/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5df0dfda7753955a3b1a7c57e32045ecd4ee5a9ecaa6ab09eabac1176fb60756
+size 2506176112

last-checkpoint/global_step2567/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:beaab569569fa9e9974b7c2c8aab4010a914d1f9761715fb409817fb8fa33b7e
+size 2506176112

last-checkpoint/global_step2567/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f50bd801c72f28b97ebd7ee0600339b6665560d61267fec66e2c8a1416188e94
+size 2506176112

last-checkpoint/global_step2567/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:249ab69ccb0ef4ce4cd80e00b5665af8a64f38847c4d26d04cf8ff39ae62537c
+size 2506176112

last-checkpoint/global_step2567/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51163e652d04cb476fcfb9d469310033832cfc62b9b765cc2e069fcdc78053bb
+size 2506176112

last-checkpoint/global_step2567/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d234aa42bda89791cb7d131f27e23e89dbccb1085f1c1e360ef686fcf2b43b7
+size 2506176112

last-checkpoint/global_step2567/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:565e00554947705715c69538ad4fdbba2135918d55fd1eac26bff0709d89b13b
+size 2506176112

last-checkpoint/global_step2567/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c515529768ebde36752b6bb1c83e4b81332f8aa9703556918914490ed8d150d
+size 2506176112

last-checkpoint/global_step2567/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1112a0ce6047e224c0d4055aa91e143f1983e512467d18befeebd90215f467e
+size 85570

last-checkpoint/global_step2567/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2184e21318ac898b809f679e6b4c7651cff724486bf10d48097ecba3a51c9066
+size 85506

last-checkpoint/global_step2567/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68574640ec1db60949f0119373598557248ab690791c8c7b4437b5d0969b86d1
+size 85506

last-checkpoint/global_step2567/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc4477293d8ea587976b0a2143cc2df3d00351c399c3e980c03aaa37f2412fce
+size 85506

last-checkpoint/global_step2567/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ddc2c09b1b33dea736afa89199ad10c27814b8da145bc5d167b22bb480bed3f
+size 85506

last-checkpoint/global_step2567/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37312ab5b415aba4ca7ed61ca1cac9f46a58dd5d77f7bc89c5bb78d05cd6d054
+size 85506

last-checkpoint/global_step2567/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b510f4c4fdab13d1a5ab5570ff44824c6b3c61e67db13ecd4057a73fa00a9fd
+size 85506

last-checkpoint/global_step2567/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01bfecfc893fd6030f488f501386e110af2a2f886229a7e230009eab593fb8a6
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2370~~


1	+ global_step2567

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb90761b8d1100caed65f46e62bc543938eea85fd3c409acef5287472762cc31
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:31a59d02512e22c8fde96ae53ade5fd3efb11b708a7c65545ed6a6a202751a37
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:933b765e67fd27d0106fb7378964b3b6e3a143eaa550740f03ab1d3a10ff3bea
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:43b5816e1bbc869b1c3d647caa31746b3c9674dc2e4dd47857a690cd4ee4639b
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:feb6462d333dbc5bb5e497ea9b0adb960f7616f79e6eea63222de6d5bd559516
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1bec598899f9d59e70c1b4705ce420a1e0a670957b6c8153a589880068ae5a4
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b045e1bfa728f51c8b51ab0faa20b128a4fbd350da006b9b39a19e24abdf5a74
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c60d2348aae518f4c44693db9c9b4b3a3299c556e7f0a86c188b2e4c3e364a7c
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f76a3d058d2628a61848c2441d313f251278bd8f74ce43dc44d8cd8ad3e619a8
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ffe5a79d3bcb4ce033de360bc765e616316e3562aba25887cd85c4adbb935abf
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7f72fc498e6eaa671cdc0e8a627a668b8ef607063a22ddb4edbc05e791be830
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9a9d1f6e22677721841890e6a27855857e6840137650d609eb8e4ac13b71d29
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12889af98e175b734a788f4c5b8c4da91dd61ff3a05aaf61b9d4c66aa3dd8ad6
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcac4ff84388a6a4fe3bcae6207c68b2ee5528fb3b6de8cc3588fe1975462aa5
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe21a86abfceeac2cf2f48afd61a9a506cf61a287f3403f1adf391bb2ffa5a83
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:33fce3cdf5c1b8a8a291e0c73b384e3ad5252640e21e942b44b26b8b0928ffa9
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73488bec91f9dee6d8105d06f99edaf4d27b6b064250d4c7023f33285b2f3132
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:919e675f3bcaf4f3c8ba35cd8debf85aec3bbc3c8e5019b74431e0a314e4d37a
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:edf6ee1cc2e1325b428a21172ec4e61b7220c5489751ea11c06bb66c77a0cd08
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:8bf6479ce82b88efc6a72a8ee512162b3d0ecab972817296d38ab9c448bb8d96
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80293d1d3039c03cadd9a7663af0dceb761b51cb1e901c839618d66f90e7f384
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b9eb2db72f0e418efa4f13d7448db05b4ce751b00def470d4d8f87d4965bb17c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 12.0,
   "eval_steps": 100,
-  "global_step": 2370,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3577,6 +3577,291 @@
       "rewards/margins": 0.5158518552780151,
       "rewards/rejected": -0.3514222800731659,
       "step": 2370
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 12.99746835443038,
   "eval_steps": 100,
+  "global_step": 2567,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.5158518552780151,
       "rewards/rejected": -0.3514222800731659,
       "step": 2370
+    },
+    {
+      "epoch": 12.050632911392405,
+      "grad_norm": 924736.9233899026,
+      "learning_rate": 1.827013475399561e-07,
+      "logits/chosen": 0.09384210407733917,
+      "logits/rejected": 0.38976824283599854,
+      "logps/chosen": -60.1981315612793,
+      "logps/rejected": -569.2012329101562,
+      "loss": 16551.6906,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1783694624900818,
+      "rewards/margins": 0.5092591047286987,
+      "rewards/rejected": -0.33088964223861694,
+      "step": 2380
+    },
+    {
+      "epoch": 12.10126582278481,
+      "grad_norm": 453683.3343967912,
+      "learning_rate": 1.811344406142275e-07,
+      "logits/chosen": -0.1967567503452301,
+      "logits/rejected": 0.26000285148620605,
+      "logps/chosen": -51.80207443237305,
+      "logps/rejected": -586.1417846679688,
+      "loss": 16650.6516,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.19160635769367218,
+      "rewards/margins": 0.5359978079795837,
+      "rewards/rejected": -0.34439152479171753,
+      "step": 2390
+    },
+    {
+      "epoch": 12.151898734177216,
+      "grad_norm": 760637.6347084254,
+      "learning_rate": 1.7956753368849888e-07,
+      "logits/chosen": -2.4950621128082275,
+      "logits/rejected": -1.7182337045669556,
+      "logps/chosen": -54.441162109375,
+      "logps/rejected": -569.5804443359375,
+      "loss": 16525.3187,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1771778166294098,
+      "rewards/margins": 0.5123227834701538,
+      "rewards/rejected": -0.335144966840744,
+      "step": 2400
+    },
+    {
+      "epoch": 12.20253164556962,
+      "grad_norm": 760695.8247001156,
+      "learning_rate": 1.7800062676277027e-07,
+      "logits/chosen": 2.4408202171325684,
+      "logits/rejected": 1.941209077835083,
+      "logps/chosen": -50.47087097167969,
+      "logps/rejected": -550.1649169921875,
+      "loss": 16281.4594,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1683485209941864,
+      "rewards/margins": 0.5019410848617554,
+      "rewards/rejected": -0.33359256386756897,
+      "step": 2410
+    },
+    {
+      "epoch": 12.253164556962025,
+      "grad_norm": 501646.8806860111,
+      "learning_rate": 1.7643371983704165e-07,
+      "logits/chosen": -1.7683095932006836,
+      "logits/rejected": -1.838817834854126,
+      "logps/chosen": -53.41362762451172,
+      "logps/rejected": -574.3419799804688,
+      "loss": 16772.675,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18047122657299042,
+      "rewards/margins": 0.5231555700302124,
+      "rewards/rejected": -0.342684268951416,
+      "step": 2420
+    },
+    {
+      "epoch": 12.30379746835443,
+      "grad_norm": 705638.6344046313,
+      "learning_rate": 1.7486681291131307e-07,
+      "logits/chosen": 0.6870694756507874,
+      "logits/rejected": 0.9879606366157532,
+      "logps/chosen": -60.645713806152344,
+      "logps/rejected": -565.5677490234375,
+      "loss": 16990.1125,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.180276021361351,
+      "rewards/margins": 0.5076194405555725,
+      "rewards/rejected": -0.3273434340953827,
+      "step": 2430
+    },
+    {
+      "epoch": 12.354430379746836,
+      "grad_norm": 583239.6869039454,
+      "learning_rate": 1.7329990598558445e-07,
+      "logits/chosen": -0.015002572908997536,
+      "logits/rejected": 0.6669713258743286,
+      "logps/chosen": -59.69384765625,
+      "logps/rejected": -595.3045654296875,
+      "loss": 16570.7625,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.19047938287258148,
+      "rewards/margins": 0.5352143049240112,
+      "rewards/rejected": -0.34473496675491333,
+      "step": 2440
+    },
+    {
+      "epoch": 12.405063291139241,
+      "grad_norm": 717458.0522613698,
+      "learning_rate": 1.7173299905985584e-07,
+      "logits/chosen": -1.5561044216156006,
+      "logits/rejected": -1.511528730392456,
+      "logps/chosen": -48.24024200439453,
+      "logps/rejected": -585.71484375,
+      "loss": 16296.25,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18336063623428345,
+      "rewards/margins": 0.5371404886245728,
+      "rewards/rejected": -0.3537798523902893,
+      "step": 2450
+    },
+    {
+      "epoch": 12.455696202531646,
+      "grad_norm": 1561201.446100151,
+      "learning_rate": 1.7016609213412722e-07,
+      "logits/chosen": -0.5445646047592163,
+      "logits/rejected": 0.5015290379524231,
+      "logps/chosen": -57.12273025512695,
+      "logps/rejected": -596.54248046875,
+      "loss": 17012.2562,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1852089911699295,
+      "rewards/margins": 0.5424550771713257,
+      "rewards/rejected": -0.35724616050720215,
+      "step": 2460
+    },
+    {
+      "epoch": 12.50632911392405,
+      "grad_norm": 576931.8180998629,
+      "learning_rate": 1.685991852083986e-07,
+      "logits/chosen": 0.7103387713432312,
+      "logits/rejected": 0.5729061365127563,
+      "logps/chosen": -45.429290771484375,
+      "logps/rejected": -540.9015502929688,
+      "loss": 17545.0859,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.17228493094444275,
+      "rewards/margins": 0.49700021743774414,
+      "rewards/rejected": -0.3247153162956238,
+      "step": 2470
+    },
+    {
+      "epoch": 12.556962025316455,
+      "grad_norm": 790199.4841189157,
+      "learning_rate": 1.6703227828267e-07,
+      "logits/chosen": 0.757542610168457,
+      "logits/rejected": 1.3497235774993896,
+      "logps/chosen": -60.74102020263672,
+      "logps/rejected": -570.23583984375,
+      "loss": 17645.0094,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.17620857059955597,
+      "rewards/margins": 0.5084448456764221,
+      "rewards/rejected": -0.33223623037338257,
+      "step": 2480
+    },
+    {
+      "epoch": 12.60759493670886,
+      "grad_norm": 1168730.408088866,
+      "learning_rate": 1.6546537135694138e-07,
+      "logits/chosen": 1.1095263957977295,
+      "logits/rejected": 1.6450704336166382,
+      "logps/chosen": -55.1762580871582,
+      "logps/rejected": -562.0362548828125,
+      "loss": 17481.3469,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1728857308626175,
+      "rewards/margins": 0.5043104887008667,
+      "rewards/rejected": -0.3314247727394104,
+      "step": 2490
+    },
+    {
+      "epoch": 12.658227848101266,
+      "grad_norm": 492108.78941813926,
+      "learning_rate": 1.6389846443121277e-07,
+      "logits/chosen": 0.4340684413909912,
+      "logits/rejected": 0.34048348665237427,
+      "logps/chosen": -56.212928771972656,
+      "logps/rejected": -578.192138671875,
+      "loss": 16462.5594,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.17624449729919434,
+      "rewards/margins": 0.5216260552406311,
+      "rewards/rejected": -0.3453815281391144,
+      "step": 2500
+    },
+    {
+      "epoch": 12.708860759493671,
+      "grad_norm": 513189.7522025148,
+      "learning_rate": 1.6233155750548415e-07,
+      "logits/chosen": -0.21513333916664124,
+      "logits/rejected": -0.05444493144750595,
+      "logps/chosen": -60.96831512451172,
+      "logps/rejected": -583.4918823242188,
+      "loss": 16903.7125,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1871432662010193,
+      "rewards/margins": 0.5204809904098511,
+      "rewards/rejected": -0.3333377242088318,
+      "step": 2510
+    },
+    {
+      "epoch": 12.759493670886076,
+      "grad_norm": 527855.7040773877,
+      "learning_rate": 1.6076465057975556e-07,
+      "logits/chosen": -1.166076421737671,
+      "logits/rejected": -0.5938941240310669,
+      "logps/chosen": -66.41789245605469,
+      "logps/rejected": -565.521728515625,
+      "loss": 16873.3,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.18609380722045898,
+      "rewards/margins": 0.5067971348762512,
+      "rewards/rejected": -0.32070332765579224,
+      "step": 2520
+    },
+    {
+      "epoch": 12.810126582278482,
+      "grad_norm": 454333.8693268159,
+      "learning_rate": 1.5919774365402695e-07,
+      "logits/chosen": -3.2188408374786377,
+      "logits/rejected": -2.827929735183716,
+      "logps/chosen": -64.64167785644531,
+      "logps/rejected": -578.556396484375,
+      "loss": 17413.3594,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1842392235994339,
+      "rewards/margins": 0.5160521268844604,
+      "rewards/rejected": -0.33181288838386536,
+      "step": 2530
+    },
+    {
+      "epoch": 12.860759493670885,
+      "grad_norm": 613283.375359761,
+      "learning_rate": 1.5763083672829833e-07,
+      "logits/chosen": -2.0415351390838623,
+      "logits/rejected": -1.1543810367584229,
+      "logps/chosen": -56.55009841918945,
+      "logps/rejected": -565.3232421875,
+      "loss": 16952.7828,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.17874039709568024,
+      "rewards/margins": 0.5064669847488403,
+      "rewards/rejected": -0.3277265429496765,
+      "step": 2540
+    },
+    {
+      "epoch": 12.91139240506329,
+      "grad_norm": 973991.6151861927,
+      "learning_rate": 1.5606392980256972e-07,
+      "logits/chosen": -1.9052120447158813,
+      "logits/rejected": -1.2125427722930908,
+      "logps/chosen": -56.37163162231445,
+      "logps/rejected": -575.3190307617188,
+      "loss": 17272.6656,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18349668383598328,
+      "rewards/margins": 0.5194507837295532,
+      "rewards/rejected": -0.33595409989356995,
+      "step": 2550
+    },
+    {
+      "epoch": 12.962025316455696,
+      "grad_norm": 1049016.1677939103,
+      "learning_rate": 1.544970228768411e-07,
+      "logits/chosen": -0.479561984539032,
+      "logits/rejected": -0.6837025284767151,
+      "logps/chosen": -56.96269989013672,
+      "logps/rejected": -579.6213989257812,
+      "loss": 17023.0859,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1867980808019638,
+      "rewards/margins": 0.5234028100967407,
+      "rewards/rejected": -0.3366047739982605,
+      "step": 2560
     }
   ],
   "logging_steps": 10,