cat-searcher commited on Jul 17, 2024

Commit

dec42a0

verified ·

1 Parent(s): d150634

Training in progress, epoch 4, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step790/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step790/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step790/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step790/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step790/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step790/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step790/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step790/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step790/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step790/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step790/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step790/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step790/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step790/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step790/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step790/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step790/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ebab2c06b29452f6de93c8bffdef75f42f32a9d435d5c9e37f3e1ac9543ab37
+size 2506176112

last-checkpoint/global_step790/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:926a4ce57de0b6b06c925063ca470c3ca68122b9c5724a355b7c3fe7910d20fc
+size 2506176112

last-checkpoint/global_step790/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75a93542c0f12727b123d1d54335bf8097436511a3587dd0905ebe9d09ed2f06
+size 2506176112

last-checkpoint/global_step790/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4d8c48f03e6556d2d2606e9707b476bd4bb5262212f4150977fb1e42ed1df0f
+size 2506176112

last-checkpoint/global_step790/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:772b1ea3808f5fc20fdf22edd66e1ae4ae4ef34605b2ebe5e1745d5e14d55671
+size 2506176112

last-checkpoint/global_step790/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d625662771aba327b77816ceed0565d20080a0c5a305c3e2248fbcebfa2bb063
+size 2506176112

last-checkpoint/global_step790/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:180938c313e2814458e72fc67603d6ba0a533c8dae500fbefbc94f1e0b7b0720
+size 2506176112

last-checkpoint/global_step790/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6cc16a9757eb5a6a23c61fb2323541d1567d476e1d39be2964eb4a984e0555a
+size 2506176112

last-checkpoint/global_step790/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06f0ca6d02959847dc60015859018bd1ea389bedd8e3efcd16cdc28802f5c321
+size 85570

last-checkpoint/global_step790/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e302486d8f9cafaf089fddf7804b4384a3dea043c10f31dbd4d21a8b1ac3eb75
+size 85506

last-checkpoint/global_step790/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b0e31d7289e9670875e12ade9d5b693da2855f0920ccb85863e84b8af9ca363
+size 85506

last-checkpoint/global_step790/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02305061948a94bf55878779df7195ad8c84c7e1280ac3482e11389e587bc1a7
+size 85506

last-checkpoint/global_step790/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e5057064fdcdd6528512c1dc18a1216d398b90bdde5bfc7e73b5e0457ba1e6d
+size 85506

last-checkpoint/global_step790/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51a5b62db0169425bf97984191b8caec2b640adf6d7f112b0230e10b92a7e044
+size 85506

last-checkpoint/global_step790/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0f9dbbfa290fd66199bc446429e9e6a11e5ed24bb2a70c8f85b2bc5de7ac4ff
+size 85506

last-checkpoint/global_step790/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8543e807f4dc246ae05e1758933f3b6c81ed5b3d4e8ab40ae76ccb4d84c05b54
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step592~~


1	+ global_step790

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3134047f2f0f5b6606ba7f39ebac7011215d2546becd91f868f44e1a3a2a36f
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ee3f893a00b883ea2140dd40c1fb5676a8e4b4c39e9f77ab126e1a38a9c2786
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3d94a5b51729f4e9144b68f58645cf9e4208ff217517d5c899baafc7b82b472
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:391cf44d17535a2b42d0a567444b9ca191b26d208e2891eee80e248f7f6c3747
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08282b46825aa78d10fe10e3fea89555c5b5a691b261a3ddfd58fcb58370edff
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:36d2a2034ebb05cb71c510897f2795b31164e50f17b270bc25d2be3ad9a17b22
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbab71d98a3a9a92df82a6bba463947327c3a1bcf35cd9f4f46114641fc42dd9
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:060dfdb1c49102cbdc8868a6031e68787601b4ccd782f3fb9b137e20c1fd2c7a
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:caac82d57d878d30219a4f9ec289a97ff90c53afc160b968f251b3fd3454b8d8
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:af01895cb66e616591f2e4baa8dcd8151530eab133c73571ccb31c74f35422ce
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19762d2d370222b01817da11bbaa6665d542293373186d66f754e7246bb861ed
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:677921992b1e0cef3aee776f245975003d22f51d9bd6ed20f248ded1deb72fa9
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00c7508b346a7d3c5c23392845f1d013331114ade778794b76e919cb3ed5d33e
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d69353c629541c690c5471f8ec05fdab2bfecf3d37afaa436bc45939da6db68f
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b89de7d14dd20a191f56b74c816ef8b7fe5c171e31efbeadbf321c4539ed68c3
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e40ba6668cc03c9162c68a933d164bf38ae2d196a9a6fec03ae615491201185
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c71152053553e6e22d670fbc4fd7550bf8a046b54cad7b71869787986a6a42c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:870968fea834e24b2e099cf3e4fe1e3fb8caf38d8f8e5b790d7d47386d4d05f5
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b67db12a26a26ffe03d9afc84a43857eb2e5b2fec2dd189653b415f74208190
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9e19618bee7c6ef43256fea25abe19bca88535eb1e7dc213cde8929ae4e8180
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83e8d6cb171d4563e280d4ca4761e24d8366d2865f6f1dda2bd2597b587d30c2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b9e01fb8119366f950b23568c9c5eaa6d3e352534620301a9291190e4d0ef8f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.9974683544303797,
   "eval_steps": 100,
-  "global_step": 592,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -907,6 +907,306 @@
       "rewards/margins": 0.053022872656583786,
       "rewards/rejected": -0.04732084274291992,
       "step": 590
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 100,
+  "global_step": 790,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.053022872656583786,
       "rewards/rejected": -0.04732084274291992,
       "step": 590
+    },
+    {
+      "epoch": 3.037974683544304,
+      "grad_norm": 1435515.2852262415,
+      "learning_rate": 4.61610780319649e-07,
+      "logits/chosen": -7.956998348236084,
+      "logits/rejected": -7.496169090270996,
+      "logps/chosen": -219.92410278320312,
+      "logps/rejected": -310.20123291015625,
+      "loss": 95986.4875,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.016220271587371826,
+      "rewards/margins": 0.09167212247848511,
+      "rewards/rejected": -0.07545184344053268,
+      "step": 600
+    },
+    {
+      "epoch": 3.088607594936709,
+      "grad_norm": 1646011.901841717,
+      "learning_rate": 4.6004387339392035e-07,
+      "logits/chosen": -7.747580051422119,
+      "logits/rejected": -7.5227952003479,
+      "logps/chosen": -217.8295440673828,
+      "logps/rejected": -343.4312438964844,
+      "loss": 91538.925,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.02667585015296936,
+      "rewards/margins": 0.12547221779823303,
+      "rewards/rejected": -0.09879636764526367,
+      "step": 610
+    },
+    {
+      "epoch": 3.1392405063291138,
+      "grad_norm": 1631989.4144731541,
+      "learning_rate": 4.5847696646819176e-07,
+      "logits/chosen": -6.8127121925354,
+      "logits/rejected": -6.8090972900390625,
+      "logps/chosen": -209.46859741210938,
+      "logps/rejected": -332.0594482421875,
+      "loss": 92242.9,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.026208167895674706,
+      "rewards/margins": 0.12268342822790146,
+      "rewards/rejected": -0.0964752584695816,
+      "step": 620
+    },
+    {
+      "epoch": 3.189873417721519,
+      "grad_norm": 1627589.9925143481,
+      "learning_rate": 4.569100595424631e-07,
+      "logits/chosen": -6.631221771240234,
+      "logits/rejected": -6.502354621887207,
+      "logps/chosen": -211.57974243164062,
+      "logps/rejected": -333.447265625,
+      "loss": 89921.25,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.022689208388328552,
+      "rewards/margins": 0.12395058572292328,
+      "rewards/rejected": -0.10126137733459473,
+      "step": 630
+    },
+    {
+      "epoch": 3.240506329113924,
+      "grad_norm": 1780107.5787213328,
+      "learning_rate": 4.5534315261673453e-07,
+      "logits/chosen": -7.868208885192871,
+      "logits/rejected": -7.755393981933594,
+      "logps/chosen": -209.3970184326172,
+      "logps/rejected": -341.9508056640625,
+      "loss": 89608.1875,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.027028566226363182,
+      "rewards/margins": 0.133165642619133,
+      "rewards/rejected": -0.10613708198070526,
+      "step": 640
+    },
+    {
+      "epoch": 3.291139240506329,
+      "grad_norm": 1730512.4518714033,
+      "learning_rate": 4.5377624569100595e-07,
+      "logits/chosen": -7.359053134918213,
+      "logits/rejected": -7.324367523193359,
+      "logps/chosen": -193.1954803466797,
+      "logps/rejected": -309.5513610839844,
+      "loss": 93257.225,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.028996175155043602,
+      "rewards/margins": 0.11760006099939346,
+      "rewards/rejected": -0.08860386908054352,
+      "step": 650
+    },
+    {
+      "epoch": 3.3417721518987342,
+      "grad_norm": 1692816.769511115,
+      "learning_rate": 4.5220933876527736e-07,
+      "logits/chosen": -8.043203353881836,
+      "logits/rejected": -8.003018379211426,
+      "logps/chosen": -211.73648071289062,
+      "logps/rejected": -336.10455322265625,
+      "loss": 88400.4688,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.024640550836920738,
+      "rewards/margins": 0.12655004858970642,
+      "rewards/rejected": -0.10190950334072113,
+      "step": 660
+    },
+    {
+      "epoch": 3.392405063291139,
+      "grad_norm": 1906377.7496358757,
+      "learning_rate": 4.506424318395487e-07,
+      "logits/chosen": -7.25619649887085,
+      "logits/rejected": -7.37869119644165,
+      "logps/chosen": -197.8258819580078,
+      "logps/rejected": -324.2138671875,
+      "loss": 89983.5688,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.026263948529958725,
+      "rewards/margins": 0.12702925503253937,
+      "rewards/rejected": -0.10076530277729034,
+      "step": 670
+    },
+    {
+      "epoch": 3.4430379746835444,
+      "grad_norm": 1785643.0594316572,
+      "learning_rate": 4.4907552491382013e-07,
+      "logits/chosen": -6.798577785491943,
+      "logits/rejected": -6.7768073081970215,
+      "logps/chosen": -208.5835723876953,
+      "logps/rejected": -323.3017883300781,
+      "loss": 89767.5,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.025741413235664368,
+      "rewards/margins": 0.1167701929807663,
+      "rewards/rejected": -0.09102877229452133,
+      "step": 680
+    },
+    {
+      "epoch": 3.4936708860759493,
+      "grad_norm": 2393957.296937455,
+      "learning_rate": 4.475086179880915e-07,
+      "logits/chosen": -6.352355480194092,
+      "logits/rejected": -6.526197910308838,
+      "logps/chosen": -187.56597900390625,
+      "logps/rejected": -306.5972595214844,
+      "loss": 89036.6875,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.024061182513833046,
+      "rewards/margins": 0.11990946531295776,
+      "rewards/rejected": -0.09584827721118927,
+      "step": 690
+    },
+    {
+      "epoch": 3.5443037974683547,
+      "grad_norm": 1811486.2204670438,
+      "learning_rate": 4.459417110623629e-07,
+      "logits/chosen": -5.7466630935668945,
+      "logits/rejected": -5.797163486480713,
+      "logps/chosen": -212.6585235595703,
+      "logps/rejected": -364.36199951171875,
+      "loss": 88031.3,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.027677077800035477,
+      "rewards/margins": 0.14764061570167542,
+      "rewards/rejected": -0.11996352672576904,
+      "step": 700
+    },
+    {
+      "epoch": 3.5949367088607596,
+      "grad_norm": 1724684.5755440604,
+      "learning_rate": 4.4437480413663426e-07,
+      "logits/chosen": -5.412962436676025,
+      "logits/rejected": -5.541121959686279,
+      "logps/chosen": -202.39065551757812,
+      "logps/rejected": -333.0758056640625,
+      "loss": 86956.675,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.0247800350189209,
+      "rewards/margins": 0.12825721502304077,
+      "rewards/rejected": -0.10347716510295868,
+      "step": 710
+    },
+    {
+      "epoch": 3.6455696202531644,
+      "grad_norm": 1933271.7611355048,
+      "learning_rate": 4.4280789721090567e-07,
+      "logits/chosen": -5.053005218505859,
+      "logits/rejected": -4.886711597442627,
+      "logps/chosen": -199.10885620117188,
+      "logps/rejected": -317.7257385253906,
+      "loss": 86655.0125,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.02152046002447605,
+      "rewards/margins": 0.11774978786706924,
+      "rewards/rejected": -0.09622932970523834,
+      "step": 720
+    },
+    {
+      "epoch": 3.6962025316455698,
+      "grad_norm": 2267463.489494214,
+      "learning_rate": 4.4124099028517703e-07,
+      "logits/chosen": -6.616279602050781,
+      "logits/rejected": -6.9615797996521,
+      "logps/chosen": -200.58961486816406,
+      "logps/rejected": -351.6376953125,
+      "loss": 86181.3938,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.032253801822662354,
+      "rewards/margins": 0.14937567710876465,
+      "rewards/rejected": -0.1171218603849411,
+      "step": 730
+    },
+    {
+      "epoch": 3.7468354430379747,
+      "grad_norm": 1734288.0953653858,
+      "learning_rate": 4.3967408335944844e-07,
+      "logits/chosen": -5.873335361480713,
+      "logits/rejected": -5.689335823059082,
+      "logps/chosen": -217.43637084960938,
+      "logps/rejected": -350.2752990722656,
+      "loss": 86780.825,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.031159091740846634,
+      "rewards/margins": 0.13692796230316162,
+      "rewards/rejected": -0.10576887428760529,
+      "step": 740
+    },
+    {
+      "epoch": 3.7974683544303796,
+      "grad_norm": 1741715.9901586007,
+      "learning_rate": 4.381071764337198e-07,
+      "logits/chosen": -7.123785972595215,
+      "logits/rejected": -7.188807487487793,
+      "logps/chosen": -207.00045776367188,
+      "logps/rejected": -336.5976867675781,
+      "loss": 86139.5625,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.03052128478884697,
+      "rewards/margins": 0.13043463230133057,
+      "rewards/rejected": -0.0999133437871933,
+      "step": 750
+    },
+    {
+      "epoch": 3.848101265822785,
+      "grad_norm": 1879351.8394690978,
+      "learning_rate": 4.365402695079912e-07,
+      "logits/chosen": -7.820990085601807,
+      "logits/rejected": -7.7128729820251465,
+      "logps/chosen": -213.57388305664062,
+      "logps/rejected": -362.5634460449219,
+      "loss": 87478.3625,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.03660900145769119,
+      "rewards/margins": 0.1480773240327835,
+      "rewards/rejected": -0.11146833002567291,
+      "step": 760
+    },
+    {
+      "epoch": 3.8987341772151898,
+      "grad_norm": 1968713.4204386624,
+      "learning_rate": 4.349733625822626e-07,
+      "logits/chosen": -7.314540863037109,
+      "logits/rejected": -7.363668918609619,
+      "logps/chosen": -213.6930694580078,
+      "logps/rejected": -367.44073486328125,
+      "loss": 86825.5813,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.026752913370728493,
+      "rewards/margins": 0.15061405301094055,
+      "rewards/rejected": -0.1238611489534378,
+      "step": 770
+    },
+    {
+      "epoch": 3.9493670886075947,
+      "grad_norm": 2163439.406665409,
+      "learning_rate": 4.33406455656534e-07,
+      "logits/chosen": -7.67099666595459,
+      "logits/rejected": -7.536408424377441,
+      "logps/chosen": -213.9747772216797,
+      "logps/rejected": -344.7560119628906,
+      "loss": 86913.0375,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.029844319447875023,
+      "rewards/margins": 0.12930825352668762,
+      "rewards/rejected": -0.09946390986442566,
+      "step": 780
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1866234.1823014135,
+      "learning_rate": 4.3183954873080535e-07,
+      "logits/chosen": -7.922532081604004,
+      "logits/rejected": -7.692726135253906,
+      "logps/chosen": -211.41653442382812,
+      "logps/rejected": -349.7116394042969,
+      "loss": 86592.8938,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.027728911489248276,
+      "rewards/margins": 0.1435452550649643,
+      "rewards/rejected": -0.11581633985042572,
+      "step": 790
     }
   ],
   "logging_steps": 10,