cat-searcher commited on Jul 17, 2024

Commit

c4d97fc

verified ·

1 Parent(s): b9c54d3

Training in progress, epoch 30, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step5916/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5916/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5916/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5916/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5916/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5916/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5916/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5916/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5916/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5916/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5916/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5916/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5916/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5916/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5916/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5916/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step5916/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b18fdebf275477c0bca9d0b7e0f80b1cb03caf57b8df661089b9827471e91fbb
+size 2506176112

last-checkpoint/global_step5916/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2916828579c6438c0f61c89512acda82e3307305bfbfe675be41245a453dba3b
+size 2506176112

last-checkpoint/global_step5916/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8be451455a282d6fa4afdcfcec6b588b88c66217eeb4d427737432d4441f6de1
+size 2506176112

last-checkpoint/global_step5916/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:513012075929a38b46c9ab66651ed948062a9cc18e2bf3a5c39c4dd12e5ea795
+size 2506176112

last-checkpoint/global_step5916/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51c9e1fd5ae664f552446fa3555c9ecf3335137a3a1072cb0090c5f33389fa78
+size 2506176112

last-checkpoint/global_step5916/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04c41fe7fbb304471dbf2512e289491172a5280c76eec719e4da8e2921cc8335
+size 2506176112

last-checkpoint/global_step5916/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac25d8faf9414e2fd21a0c1810e7ac093d908a70e1f1dd2c6a66a9db5ef2b745
+size 2506176112

last-checkpoint/global_step5916/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d72d83348654c08933eab87d5b552549c388ee3191c4615e14f78305cf8034db
+size 2506176112

last-checkpoint/global_step5916/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6d113b8a546176efdfdd4193aa760c8dd58cc3ac05f292d3a4a1037164b0015
+size 85570

last-checkpoint/global_step5916/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e02adc94e97faf702adae82aeb4d9cb85bacfafaa5b0593e9e580dcd23045a9
+size 85506

last-checkpoint/global_step5916/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b618c03c6520f69d65a52cc3cb38e9052921b0e1df0791946a86c37b6516c92
+size 85506

last-checkpoint/global_step5916/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2541aba1009e69905001c19347ed7049287b08a1e30af9f66a4cd00acf843073
+size 85506

last-checkpoint/global_step5916/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e60f9ddba6fbfcef5726792e69653d27a5e9f835fbbfe0838eba8a8a7343525
+size 85506

last-checkpoint/global_step5916/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4c3ff328e9e8ce49b1b7b9e0b4dd7f86c7fb5c6a22706fc6b2deac1bb9ca734
+size 85506

last-checkpoint/global_step5916/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d945c0954cfce168d7f7376d407748d133cfbf6ce4c999f81f22272d9e6c70a
+size 85506

last-checkpoint/global_step5916/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f768a950f1cacb0dea94a1c2017128c7d786d436c044197f5940e93bfb27250a
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step5718~~


1	+ global_step5916

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cfa3379a77e192ab0af64fe78334db958cf6214addb3b4fbbc67569fb9f2e836
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d3b3ba3d73fcfe06684964aa6a0da80302158d0b45234f7473a31d0a8f86d45
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c217d7738abb0675dccca5614343dba054b625a983adb5b66bb33a2cf128b5c4
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:d86e8e9eec87ad0431303407e43b154a156dec7fa7e56ad78330489a8ac89828
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a205f64c86d241517037857e791fc7cdcfd1b2d8a26ca46ff4e6430fc9491c64
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c6c5e7528cb919bf0e448095ef87b2e21b836859cd72ece77237cb822e78f88
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:384e04a3f342b13aa2aff82b03d67994ff48a7b6e7d90ad53291b0ccf1124755
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3be13484e2a524a3f5e79f3e726fd41b0876252a9d0898131fc1ccf0d86f6a8
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c75af15b2dde4bfa82f45cc3b48588a123bca20dd4b565a0312d5c1198d8bca9
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f070bbb32dc96a08f76f5f85c2e01ae98d5e4d16dd18623bfab6b4b54e1d03c4
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8162e1d617d2045c999376967bb33455e9055c2882d00e9e6c3e5639106c7cf2
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f43d659c0909b37d66f4502f36b99850e3f553b6e2fb3ac13de4a060aa1cdc1
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37df018beaaf1bcb0a0451dcfd03f257c34b245315c9d5243bad309614abb972
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c80a51e24107d3bf93a1e4d903f42d6626efe1c5b8bd714f393fb93f840c5ce2
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc45f95eb705f82fae244f5f5bb1d1d060492c8b55aba2aa58162687e28952bc
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:e624a5e2e5c07e8e80b5d066ec132b4a872761dcba6d77f7386705eb95f67228
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8ed548560db42b0406ce39f0d4bce5fac64c200cc3ab9248f1dd703dde9dfef
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc47fa553a7e6a70b45be521b98449ef920fe0d39f6cf85ae50b9a45d6c9da85
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:865e7aa49ec74e2e8e5ffbc2b62c9edb6308476119fe3e77f2fe29961dd5deaf
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8a0e7009351aac3c555f7946c515a64baa2d14aa4706e4a371e0c2df02b5a90
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3921aadd9f9af170d702817ed4b4c15515108ff8717773c58f7ba3567a43d1be
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:db6ce75ecc7db03a363686e05ba8e98d2588fcd56e7f730c69ff2320b79e2de2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 28.99746835443038,
   "eval_steps": 100,
-  "global_step": 5718,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8587,6 +8587,306 @@
       "rewards/margins": 0.5581387281417847,
       "rewards/rejected": -0.35167163610458374,
       "step": 5710
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 30.0,
   "eval_steps": 100,
+  "global_step": 5916,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.5581387281417847,
       "rewards/rejected": -0.35167163610458374,
       "step": 5710
+    },
+    {
+      "epoch": 29.00759493670886,
+      "grad_norm": 177867.60188083298,
+      "learning_rate": 1.0748981510498275e-07,
+      "logits/chosen": -2.0902795791625977,
+      "logits/rejected": -1.2426658868789673,
+      "logps/chosen": -25.984241485595703,
+      "logps/rejected": -595.5320434570312,
+      "loss": 12101.3188,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21571488678455353,
+      "rewards/margins": 0.5755189061164856,
+      "rewards/rejected": -0.3598039150238037,
+      "step": 5720
+    },
+    {
+      "epoch": 29.058227848101264,
+      "grad_norm": 175055.77768040166,
+      "learning_rate": 1.0670636164211845e-07,
+      "logits/chosen": -3.0874876976013184,
+      "logits/rejected": -1.9259151220321655,
+      "logps/chosen": -30.317163467407227,
+      "logps/rejected": -582.4378662109375,
+      "loss": 12058.957,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20789256691932678,
+      "rewards/margins": 0.5540691018104553,
+      "rewards/rejected": -0.3461765944957733,
+      "step": 5730
+    },
+    {
+      "epoch": 29.10886075949367,
+      "grad_norm": 330095.71026448795,
+      "learning_rate": 1.0592290817925414e-07,
+      "logits/chosen": -0.40818461775779724,
+      "logits/rejected": -0.17450471222400665,
+      "logps/chosen": -37.967308044433594,
+      "logps/rejected": -574.5567626953125,
+      "loss": 12163.9234,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.199508398771286,
+      "rewards/margins": 0.5361432433128357,
+      "rewards/rejected": -0.3366348147392273,
+      "step": 5740
+    },
+    {
+      "epoch": 29.159493670886075,
+      "grad_norm": 207868.2185307626,
+      "learning_rate": 1.0513945471638983e-07,
+      "logits/chosen": -1.1228978633880615,
+      "logits/rejected": -0.8512986302375793,
+      "logps/chosen": -36.19347381591797,
+      "logps/rejected": -572.5546264648438,
+      "loss": 12217.475,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.20709916949272156,
+      "rewards/margins": 0.5452824234962463,
+      "rewards/rejected": -0.3381832540035248,
+      "step": 5750
+    },
+    {
+      "epoch": 29.21012658227848,
+      "grad_norm": 180300.955366917,
+      "learning_rate": 1.0435600125352554e-07,
+      "logits/chosen": -2.1935715675354004,
+      "logits/rejected": -1.450584888458252,
+      "logps/chosen": -41.38114547729492,
+      "logps/rejected": -551.9308471679688,
+      "loss": 11531.2219,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.19797861576080322,
+      "rewards/margins": 0.5134168267250061,
+      "rewards/rejected": -0.3154382109642029,
+      "step": 5760
+    },
+    {
+      "epoch": 29.260759493670886,
+      "grad_norm": 230065.76491246693,
+      "learning_rate": 1.0357254779066123e-07,
+      "logits/chosen": -2.1162705421447754,
+      "logits/rejected": -1.343379020690918,
+      "logps/chosen": -26.30475425720215,
+      "logps/rejected": -584.0765380859375,
+      "loss": 12178.225,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21349939703941345,
+      "rewards/margins": 0.5615987181663513,
+      "rewards/rejected": -0.34809932112693787,
+      "step": 5770
+    },
+    {
+      "epoch": 29.31139240506329,
+      "grad_norm": 150891.5620522627,
+      "learning_rate": 1.0278909432779692e-07,
+      "logits/chosen": -0.6437171101570129,
+      "logits/rejected": -0.06186608225107193,
+      "logps/chosen": -32.27136993408203,
+      "logps/rejected": -575.0911865234375,
+      "loss": 12350.1367,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.20223280787467957,
+      "rewards/margins": 0.5462868213653564,
+      "rewards/rejected": -0.3440539240837097,
+      "step": 5780
+    },
+    {
+      "epoch": 29.362025316455696,
+      "grad_norm": 268215.91577526846,
+      "learning_rate": 1.0200564086493262e-07,
+      "logits/chosen": -2.4000306129455566,
+      "logits/rejected": -1.5239673852920532,
+      "logps/chosen": -44.228759765625,
+      "logps/rejected": -603.037109375,
+      "loss": 11602.7789,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.21766121685504913,
+      "rewards/margins": 0.5693429112434387,
+      "rewards/rejected": -0.3516816794872284,
+      "step": 5790
+    },
+    {
+      "epoch": 29.4126582278481,
+      "grad_norm": 153754.6030127712,
+      "learning_rate": 1.0122218740206831e-07,
+      "logits/chosen": 1.1010842323303223,
+      "logits/rejected": 1.6098358631134033,
+      "logps/chosen": -25.794830322265625,
+      "logps/rejected": -580.6827392578125,
+      "loss": 12135.457,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20671968162059784,
+      "rewards/margins": 0.5531316995620728,
+      "rewards/rejected": -0.3464120328426361,
+      "step": 5800
+    },
+    {
+      "epoch": 29.463291139240507,
+      "grad_norm": 237857.15032498536,
+      "learning_rate": 1.00438733939204e-07,
+      "logits/chosen": -2.2038140296936035,
+      "logits/rejected": -1.9258426427841187,
+      "logps/chosen": -24.270652770996094,
+      "logps/rejected": -592.76806640625,
+      "loss": 12368.1,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20859424769878387,
+      "rewards/margins": 0.5708917379379272,
+      "rewards/rejected": -0.3622974455356598,
+      "step": 5810
+    },
+    {
+      "epoch": 29.513924050632912,
+      "grad_norm": 229363.27347544604,
+      "learning_rate": 9.96552804763397e-08,
+      "logits/chosen": -1.733412742614746,
+      "logits/rejected": -1.8426891565322876,
+      "logps/chosen": -27.749902725219727,
+      "logps/rejected": -591.9719848632812,
+      "loss": 12434.6094,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20853643119335175,
+      "rewards/margins": 0.559594452381134,
+      "rewards/rejected": -0.3510579764842987,
+      "step": 5820
+    },
+    {
+      "epoch": 29.564556962025318,
+      "grad_norm": 204423.82729459935,
+      "learning_rate": 9.887182701347539e-08,
+      "logits/chosen": -0.8372312784194946,
+      "logits/rejected": -0.9436752200126648,
+      "logps/chosen": -23.713529586791992,
+      "logps/rejected": -551.91748046875,
+      "loss": 12191.0797,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1975078582763672,
+      "rewards/margins": 0.5233575105667114,
+      "rewards/rejected": -0.32584962248802185,
+      "step": 5830
+    },
+    {
+      "epoch": 29.615189873417723,
+      "grad_norm": 196500.42803475718,
+      "learning_rate": 9.808837355061108e-08,
+      "logits/chosen": -0.07084647566080093,
+      "logits/rejected": 0.9050701856613159,
+      "logps/chosen": -29.59817886352539,
+      "logps/rejected": -567.6174926757812,
+      "loss": 12194.2234,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.20393919944763184,
+      "rewards/margins": 0.5439929366111755,
+      "rewards/rejected": -0.3400537371635437,
+      "step": 5840
+    },
+    {
+      "epoch": 29.665822784810125,
+      "grad_norm": 226455.28104673527,
+      "learning_rate": 9.730492008774677e-08,
+      "logits/chosen": -3.320272445678711,
+      "logits/rejected": -3.3560733795166016,
+      "logps/chosen": -28.402095794677734,
+      "logps/rejected": -602.0023193359375,
+      "loss": 12657.2406,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2187713086605072,
+      "rewards/margins": 0.5724385976791382,
+      "rewards/rejected": -0.35366731882095337,
+      "step": 5850
+    },
+    {
+      "epoch": 29.71645569620253,
+      "grad_norm": 162035.60177504522,
+      "learning_rate": 9.652146662488248e-08,
+      "logits/chosen": -1.8201286792755127,
+      "logits/rejected": -1.7938740253448486,
+      "logps/chosen": -35.96394348144531,
+      "logps/rejected": -611.4141845703125,
+      "loss": 12011.9406,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21413405239582062,
+      "rewards/margins": 0.5712839365005493,
+      "rewards/rejected": -0.3571499288082123,
+      "step": 5860
+    },
+    {
+      "epoch": 29.767088607594935,
+      "grad_norm": 162090.09030278528,
+      "learning_rate": 9.573801316201817e-08,
+      "logits/chosen": -0.6652274131774902,
+      "logits/rejected": -0.600281834602356,
+      "logps/chosen": -24.422576904296875,
+      "logps/rejected": -566.0366821289062,
+      "loss": 12593.6359,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1961481273174286,
+      "rewards/margins": 0.5393214821815491,
+      "rewards/rejected": -0.3431733250617981,
+      "step": 5870
+    },
+    {
+      "epoch": 29.81772151898734,
+      "grad_norm": 365229.93961962714,
+      "learning_rate": 9.495455969915387e-08,
+      "logits/chosen": -2.613847017288208,
+      "logits/rejected": -2.108478546142578,
+      "logps/chosen": -29.573253631591797,
+      "logps/rejected": -577.60546875,
+      "loss": 12424.4891,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20539173483848572,
+      "rewards/margins": 0.5470829010009766,
+      "rewards/rejected": -0.34169113636016846,
+      "step": 5880
+    },
+    {
+      "epoch": 29.868354430379746,
+      "grad_norm": 173325.82955161307,
+      "learning_rate": 9.417110623628956e-08,
+      "logits/chosen": -1.4006824493408203,
+      "logits/rejected": -0.5856371521949768,
+      "logps/chosen": -27.345510482788086,
+      "logps/rejected": -584.8424072265625,
+      "loss": 12358.3133,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2079104632139206,
+      "rewards/margins": 0.5603929758071899,
+      "rewards/rejected": -0.35248249769210815,
+      "step": 5890
+    },
+    {
+      "epoch": 29.91898734177215,
+      "grad_norm": 287432.0969704827,
+      "learning_rate": 9.338765277342525e-08,
+      "logits/chosen": -0.21508927643299103,
+      "logits/rejected": -0.1394989937543869,
+      "logps/chosen": -30.839313507080078,
+      "logps/rejected": -594.2600708007812,
+      "loss": 11980.4219,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21064691245555878,
+      "rewards/margins": 0.5655493140220642,
+      "rewards/rejected": -0.354902446269989,
+      "step": 5900
+    },
+    {
+      "epoch": 29.969620253164557,
+      "grad_norm": 365207.2969153869,
+      "learning_rate": 9.260419931056094e-08,
+      "logits/chosen": -0.40759915113449097,
+      "logits/rejected": 0.3133270740509033,
+      "logps/chosen": -25.633676528930664,
+      "logps/rejected": -578.2957763671875,
+      "loss": 12223.2844,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20843228697776794,
+      "rewards/margins": 0.5534237027168274,
+      "rewards/rejected": -0.34499144554138184,
+      "step": 5910
     }
   ],
   "logging_steps": 10,