cat-searcher commited on Jul 17, 2024

Commit

9165fc3

verified ·

1 Parent(s): 731b321

Training in progress, epoch 2, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step395/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step395/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step395/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step395/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step395/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step395/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step395/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step395/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step395/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step395/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step395/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step395/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step395/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step395/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step395/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step395/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step395/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:086c52b28660ca782f6ee675cc801159bd0026030f049bda56af9f9324fac11a
+size 2506176112

last-checkpoint/global_step395/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1dbdabe9b8be25d459a371ec014f993acff4868b046e50ba4daca55e126096cb
+size 2506176112

last-checkpoint/global_step395/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca1c520ae86ae3b5a4db616c312bb6717f6951825750c2ed8cda24633db64023
+size 2506176112

last-checkpoint/global_step395/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9395c5e3a847278aba424706d7d370416acba646f8ebcd45eaf4ca591ca22f6
+size 2506176112

last-checkpoint/global_step395/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d13964d138f5fd50dfcc8161b79ecb300ccd9416b4028fd2a4534186ce1009ac
+size 2506176112

last-checkpoint/global_step395/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ae90343b471783dc9fe197f8da232df3bddc6ebdfa93965ead020d8dc6cbd08
+size 2506176112

last-checkpoint/global_step395/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16e48c3bcf2e872f10422d3cf57963915450d25d29a7204d0c7ae86254ba000e
+size 2506176112

last-checkpoint/global_step395/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a307c885ef2ba3e560866bf94c14405881b4e572d92f5b10e2fa9ac1e170aa8a
+size 2506176112

last-checkpoint/global_step395/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75bb878a0ed7adc2cface3f9bc8e631a0aab4f0e45334e96e3fe13d39bcff9de
+size 85570

last-checkpoint/global_step395/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47dbee4c51823b9b6cd890f3af7501acf75345058e84edd142d58a0b3781d53e
+size 85506

last-checkpoint/global_step395/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e64fcc2246057ef1b8fdd6d60377768654cb2153f5b61e9078abbc625ee500f6
+size 85506

last-checkpoint/global_step395/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af5c06052957a77edb29cfb1b5a7c8d5f7db0d7612c989a726e0ba2ae2150d79
+size 85506

last-checkpoint/global_step395/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1eb333edde2ea77272b49d6674c33db7d9e9531b3547fa98a6d6b0bea7f89f2c
+size 85506

last-checkpoint/global_step395/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9eb7f7e9313028c684e3a54685d085b32caf69a34848d7376578882c5865ed48
+size 85506

last-checkpoint/global_step395/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1dd1e18b37316704dc77c6de9d1e5716674a83e6f94c71c71b5c9e646cf4d8b
+size 85506

last-checkpoint/global_step395/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25726a31f653af8737c40bd8a739caed00f3b94b1460a5a80e1fdf39cabfe2db
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step197~~


1	+ global_step395

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27d7c0dfbbc6e28570f86b38b11d2817a5b8c5c2bc889b8312668d033b216d0a
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:731d149712afa98318e30f48083df4b1e2a718b770eb7e709dd7592a1503e28f
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78e0d61af8a24b88b19ca4a8e4ee2f71049da12e01f51c0fb9e87eef0586b015
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ccbe171405888a5d7edb0b1d77178ea2e7f377564c0c2a9d150a60457fc4e88
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:575119a228f98110923ffa2dedcb50e3317251b26054355d015e0b2240d566f2
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad8a35afd8967cbb748405387e44426e43ad127028e826eddc9b67d2ca873c85
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0728b56dab7abb5ef8a0d4bae3519c5767c97467bdd886d26bf19cc8599d0312
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f338ce80d7c441076bfc8c53b84067a0181f5a14e80c13d5acb8150b659f4d73
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4e481d4ef1546694da7337f6bb6c658b866dcb79b85deeb477da0d27ebe851e
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9fbc9fa428939be10b46779f0eb5cd833e0da426b1cbdee77b3a55b6952235b
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:353c60be37ea56fc992fca446598ceca5d1fd002aa3bd6dbb9ad740e6f47ebb3
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac55dba0b79d5fa4699d239da2f966d52040d576d31234ac8d4632e6956481bc
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9107fe964ba7205e354084b85210e5a5ea1c98cfd4d38adb9cd3926945dcae4
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:af2d0c015100768ffa23faf3b6c2d54ea89eb045603e30e55cd211e06ff34972
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69d1bb1abee38b92e53f3f23549b642ce0f1edcdccf7b6129847ac61636e96d5
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c60a1b40608e34bc801c8231f97b81c53b5290dfaed1b9cd0ccbeca29574a991
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afd5516048e20f36959601574e29e40106085a7d3cdc7bf425ce5e84633490e6
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ad6a142a403eb9aafc4a3a9a856bca648fe31fd22d796867baca31fb13656aa
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e2c46927fc06939b4c976a01e4b95dec1f8b98ceaea86d31a5d756fc30ff006
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:38bc23a138cc800b22881742c0f3f9a71731a9a7111c6058a0077e6274d21773
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc279b723e739fa2285d5a9080ed83f238eeeaa9774b6d10de050af2cc8ff7be
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4d84901e6619ac64838b9206ce48d7b495f836174ff70c8bf3fe0cbb24ca9e1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9974683544303797,
   "eval_steps": 100,
-  "global_step": 197,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -307,6 +307,306 @@
       "rewards/margins": 0.00019036220328416675,
       "rewards/rejected": -0.0012195140589028597,
       "step": 190
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 100,
+  "global_step": 395,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.00019036220328416675,
       "rewards/rejected": -0.0012195140589028597,
       "step": 190
+    },
+    {
+      "epoch": 1.0126582278481013,
+      "grad_norm": 497332.98430491646,
+      "learning_rate": 2.8169014084507043e-07,
+      "logits/chosen": -16.127140045166016,
+      "logits/rejected": -15.988116264343262,
+      "logps/chosen": -225.9070587158203,
+      "logps/rejected": -227.90145874023438,
+      "loss": 126358.875,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.0012379485415294766,
+      "rewards/margins": 0.0006675361073575914,
+      "rewards/rejected": -0.001905484707094729,
+      "step": 200
+    },
+    {
+      "epoch": 1.0632911392405062,
+      "grad_norm": 935063.760892245,
+      "learning_rate": 2.957746478873239e-07,
+      "logits/chosen": -16.701793670654297,
+      "logits/rejected": -16.669902801513672,
+      "logps/chosen": -230.3677520751953,
+      "logps/rejected": -229.03921508789062,
+      "loss": 124250.775,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.0006614397279918194,
+      "rewards/margins": 0.003238010685890913,
+      "rewards/rejected": -0.003899450646713376,
+      "step": 210
+    },
+    {
+      "epoch": 1.1139240506329113,
+      "grad_norm": 517399.2020129059,
+      "learning_rate": 3.098591549295774e-07,
+      "logits/chosen": -16.413972854614258,
+      "logits/rejected": -16.371458053588867,
+      "logps/chosen": -247.8984832763672,
+      "logps/rejected": -249.5322723388672,
+      "loss": 124993.7375,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.0012706981506198645,
+      "rewards/margins": 0.003060612827539444,
+      "rewards/rejected": -0.004331310745328665,
+      "step": 220
+    },
+    {
+      "epoch": 1.1645569620253164,
+      "grad_norm": 499036.7717944408,
+      "learning_rate": 3.23943661971831e-07,
+      "logits/chosen": -15.908624649047852,
+      "logits/rejected": -15.847338676452637,
+      "logps/chosen": -236.7013397216797,
+      "logps/rejected": -239.3136749267578,
+      "loss": 122842.5,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.0006655483739450574,
+      "rewards/margins": 0.0032406128011643887,
+      "rewards/rejected": -0.0039061610586941242,
+      "step": 230
+    },
+    {
+      "epoch": 1.2151898734177216,
+      "grad_norm": 540681.7856619481,
+      "learning_rate": 3.380281690140845e-07,
+      "logits/chosen": -16.052249908447266,
+      "logits/rejected": -15.99653148651123,
+      "logps/chosen": -229.74832153320312,
+      "logps/rejected": -230.9803009033203,
+      "loss": 124587.3625,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.0007962372037582099,
+      "rewards/margins": 0.0025483998470008373,
+      "rewards/rejected": -0.003344637108966708,
+      "step": 240
+    },
+    {
+      "epoch": 1.2658227848101267,
+      "grad_norm": 1023950.8355601664,
+      "learning_rate": 3.52112676056338e-07,
+      "logits/chosen": -15.299288749694824,
+      "logits/rejected": -15.215815544128418,
+      "logps/chosen": -231.2301788330078,
+      "logps/rejected": -232.03359985351562,
+      "loss": 121822.4,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -7.512583579227794e-06,
+      "rewards/margins": 0.003883513854816556,
+      "rewards/rejected": -0.0038910270668566227,
+      "step": 250
+    },
+    {
+      "epoch": 1.3164556962025316,
+      "grad_norm": 620253.8184950812,
+      "learning_rate": 3.6619718309859155e-07,
+      "logits/chosen": -16.167770385742188,
+      "logits/rejected": -15.915590286254883,
+      "logps/chosen": -238.9904327392578,
+      "logps/rejected": -239.73953247070312,
+      "loss": 123388.8625,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.00017356239550281316,
+      "rewards/margins": 0.0050824107602238655,
+      "rewards/rejected": -0.005255972500890493,
+      "step": 260
+    },
+    {
+      "epoch": 1.3670886075949367,
+      "grad_norm": 575104.3218096169,
+      "learning_rate": 3.8028169014084507e-07,
+      "logits/chosen": -15.480558395385742,
+      "logits/rejected": -15.386639595031738,
+      "logps/chosen": -241.60879516601562,
+      "logps/rejected": -250.003173828125,
+      "loss": 123555.7,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.001139859901741147,
+      "rewards/margins": 0.005077657289803028,
+      "rewards/rejected": -0.0062175169587135315,
+      "step": 270
+    },
+    {
+      "epoch": 1.4177215189873418,
+      "grad_norm": 601224.4433091934,
+      "learning_rate": 3.9436619718309853e-07,
+      "logits/chosen": -15.266016960144043,
+      "logits/rejected": -15.313554763793945,
+      "logps/chosen": -230.73397827148438,
+      "logps/rejected": -237.3317108154297,
+      "loss": 125556.675,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": 0.0007209269679151475,
+      "rewards/margins": 0.00534270191565156,
+      "rewards/rejected": -0.004621774889528751,
+      "step": 280
+    },
+    {
+      "epoch": 1.4683544303797469,
+      "grad_norm": 751936.3077706753,
+      "learning_rate": 4.084507042253521e-07,
+      "logits/chosen": -14.600263595581055,
+      "logits/rejected": -14.538311958312988,
+      "logps/chosen": -224.1177520751953,
+      "logps/rejected": -226.97879028320312,
+      "loss": 123584.675,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": 0.0011863496620208025,
+      "rewards/margins": 0.007649322040379047,
+      "rewards/rejected": -0.006462973542511463,
+      "step": 290
+    },
+    {
+      "epoch": 1.518987341772152,
+      "grad_norm": 575660.5828565176,
+      "learning_rate": 4.225352112676056e-07,
+      "logits/chosen": -14.935551643371582,
+      "logits/rejected": -15.062429428100586,
+      "logps/chosen": -235.7123565673828,
+      "logps/rejected": -245.36181640625,
+      "loss": 122562.1375,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.0014863747637718916,
+      "rewards/margins": 0.0057060932740569115,
+      "rewards/rejected": -0.0042197187431156635,
+      "step": 300
+    },
+    {
+      "epoch": 1.5696202531645569,
+      "grad_norm": 619514.1083852616,
+      "learning_rate": 4.366197183098591e-07,
+      "logits/chosen": -14.678690910339355,
+      "logits/rejected": -14.617218017578125,
+      "logps/chosen": -229.6386260986328,
+      "logps/rejected": -234.1474151611328,
+      "loss": 123630.225,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.0006864996394142509,
+      "rewards/margins": 0.004933560267090797,
+      "rewards/rejected": -0.004247060976922512,
+      "step": 310
+    },
+    {
+      "epoch": 1.620253164556962,
+      "grad_norm": 738538.1512211321,
+      "learning_rate": 4.5070422535211266e-07,
+      "logits/chosen": -14.131611824035645,
+      "logits/rejected": -14.156657218933105,
+      "logps/chosen": -241.20156860351562,
+      "logps/rejected": -248.2321319580078,
+      "loss": 124158.6,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.0009155808947980404,
+      "rewards/margins": 0.006913213524967432,
+      "rewards/rejected": -0.007828795351088047,
+      "step": 320
+    },
+    {
+      "epoch": 1.6708860759493671,
+      "grad_norm": 688317.7143989427,
+      "learning_rate": 4.647887323943662e-07,
+      "logits/chosen": -13.791796684265137,
+      "logits/rejected": -13.970884323120117,
+      "logps/chosen": -228.53079223632812,
+      "logps/rejected": -235.5008087158203,
+      "loss": 123378.175,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.0017698236042633653,
+      "rewards/margins": 0.006004182621836662,
+      "rewards/rejected": -0.004234359599649906,
+      "step": 330
+    },
+    {
+      "epoch": 1.721518987341772,
+      "grad_norm": 693314.5034252935,
+      "learning_rate": 4.788732394366196e-07,
+      "logits/chosen": -13.555567741394043,
+      "logits/rejected": -13.32630729675293,
+      "logps/chosen": -227.0249481201172,
+      "logps/rejected": -232.2772216796875,
+      "loss": 122521.475,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": 0.001143553527072072,
+      "rewards/margins": 0.009070896543562412,
+      "rewards/rejected": -0.00792734231799841,
+      "step": 340
+    },
+    {
+      "epoch": 1.7721518987341773,
+      "grad_norm": 758709.6120906892,
+      "learning_rate": 4.929577464788733e-07,
+      "logits/chosen": -13.520563125610352,
+      "logits/rejected": -13.633130073547363,
+      "logps/chosen": -234.7182159423828,
+      "logps/rejected": -248.12890625,
+      "loss": 121557.575,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.00047356385039165616,
+      "rewards/margins": 0.00813873577862978,
+      "rewards/rejected": -0.008612299337983131,
+      "step": 350
+    },
+    {
+      "epoch": 1.8227848101265822,
+      "grad_norm": 689974.393201542,
+      "learning_rate": 4.992165465371357e-07,
+      "logits/chosen": -12.841153144836426,
+      "logits/rejected": -12.86094856262207,
+      "logps/chosen": -232.314697265625,
+      "logps/rejected": -232.64297485351562,
+      "loss": 121436.65,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.0036194869317114353,
+      "rewards/margins": 0.009506477043032646,
+      "rewards/rejected": -0.005886988714337349,
+      "step": 360
+    },
+    {
+      "epoch": 1.8734177215189873,
+      "grad_norm": 883375.543329047,
+      "learning_rate": 4.976496396114071e-07,
+      "logits/chosen": -12.77904224395752,
+      "logits/rejected": -12.76900577545166,
+      "logps/chosen": -239.8730010986328,
+      "logps/rejected": -251.4569549560547,
+      "loss": 122456.925,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.0006393647054210305,
+      "rewards/margins": 0.008665768429636955,
+      "rewards/rejected": -0.009305133484303951,
+      "step": 370
+    },
+    {
+      "epoch": 1.9240506329113924,
+      "grad_norm": 797554.0864386982,
+      "learning_rate": 4.960827326856785e-07,
+      "logits/chosen": -13.028135299682617,
+      "logits/rejected": -13.148831367492676,
+      "logps/chosen": -237.040771484375,
+      "logps/rejected": -244.45181274414062,
+      "loss": 124907.725,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.0025544934906065464,
+      "rewards/margins": 0.008132859133183956,
+      "rewards/rejected": -0.005578366108238697,
+      "step": 380
+    },
+    {
+      "epoch": 1.9746835443037973,
+      "grad_norm": 793120.1180084129,
+      "learning_rate": 4.945158257599498e-07,
+      "logits/chosen": -12.312803268432617,
+      "logits/rejected": -12.135167121887207,
+      "logps/chosen": -235.60360717773438,
+      "logps/rejected": -242.9219207763672,
+      "loss": 121583.8,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.003660207614302635,
+      "rewards/margins": 0.011001082137227058,
+      "rewards/rejected": -0.007340874522924423,
+      "step": 390
     }
   ],
   "logging_steps": 10,