cat-searcher commited on Jul 17, 2024

Commit

f3d421e

verified ·

1 Parent(s): 7f3f51c

Training in progress, epoch 8, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step1580/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1580/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1580/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1580/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1580/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1580/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1580/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1580/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1580/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1580/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1580/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1580/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1580/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1580/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1580/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1580/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step1580/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35b8d916c014ce248bb98e73a3806d83db0060df242c4851d6304d9ac624587a
+size 2506176112

last-checkpoint/global_step1580/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffec229c0d2dd05f50e617b7f5dbb7e07ac92f8a1f9a7f705ff3d70f90464e39
+size 2506176112

last-checkpoint/global_step1580/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03483348e6552301cb13fc8304e7de58faa7fa806b7ccc77448967ab7c9c140b
+size 2506176112

last-checkpoint/global_step1580/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:756c27dc2358f438b45bd626b25026fae77fc421f5018eb282c8f023f0dcc46e
+size 2506176112

last-checkpoint/global_step1580/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd329bfac8f118af8025cdaeaf69703e913ea32a6f301d6af1dfccdb73171352
+size 2506176112

last-checkpoint/global_step1580/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:484b5403a8824ef95137ff82bb37f4e4a7236ad81b461ca02535d897bb210d64
+size 2506176112

last-checkpoint/global_step1580/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ffa5eb8f4626caf4beb17f20b54f219b9c6a63e53e69c89ba3b916fa5409f27
+size 2506176112

last-checkpoint/global_step1580/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23a8e73036cb47e552f1bb09c2098f42541b69bf120c99ec30d00ddf8d53789a
+size 2506176112

last-checkpoint/global_step1580/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68743fb792877033bfb3aedb8d7d498df0e80df4fa97f3b49df7392f14046293
+size 85570

last-checkpoint/global_step1580/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:562ab1107c2e6e61e559e052443b7b8804c2b7284cebe971d0bd6bbf89c38695
+size 85506

last-checkpoint/global_step1580/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d09fd2b95b4260467ebd2b91d2758ff7dac5a6b4d5bc17d41d9e4f4034421dba
+size 85506

last-checkpoint/global_step1580/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d82f1ee7ab57e1ddcc9ef0f135ee190da1b92285b3914a186314ade3393eaab3
+size 85506

last-checkpoint/global_step1580/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d9076aab39103ad4399e01117b7df76cf8bf23a6f4c5764716d87171d24267e
+size 85506

last-checkpoint/global_step1580/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9908edca5b40c6ba0f8ba54a93a80c05c032c21df25828608487d14975abeced
+size 85506

last-checkpoint/global_step1580/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8eb8caed2a09d6d17007ab0248eb74db5df6263c83f0a0cad02eecc5f8ceb78c
+size 85506

last-checkpoint/global_step1580/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6a30d04f9a8013c674a78929c0d2dbe739edd246e8526478f31634ef534f97f
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1382~~


1	+ global_step1580

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f02726a44bd4780d17e35e236963b8fce24dc953bf71f40b4952f4922816c337
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d4c8b92632023613bca2cbaab82aff2bfc0f1b7c62aab671b9cfd3d8f06b448
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10b91f43ac308f747e0c6169d0cc727dbf1d843ea3d107cf67c9329f99912a02
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:12c27030d235bb5b6be6f9fb6111ad0d2904a9ae1dbba3911f671ef6abf0b238
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7d7e02ffb4d440dce7ab4ce0b5617578ec9ce3672acee7434ed6f1153f1ae0c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ee195ebde9bf012f945f068f133e7fe22fef5450c496607e3ef11cc2034a186
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5b40ca759e432b2688f021b81291d74a40f56a205e9842119f7e772275eebd3
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf0fe1a3315d60b197207c5cb249d0ce4f9ce6d7585e696276d9ffbcb5379893
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdaef955ddd36d6bc1c40584113dd6205483e2aa85b02439b8b27e82e02a8359
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:01c5bd6eae04542162b3e94245555bd81312524066bc01d0ebbfc4fd8554240e
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10b14ae5db356e6512538751d6b386c190754e307cc99cd652d5c6dd891e1f82
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:45b74942c68b00d657cfce186b0eeb4aa8f52efa04b114803b605fee8de45972
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f26e28be26826eeeed244b77185c67b443ac185175f8d4bf5ba94caa8b271bc5
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cd66dd2ba958fc9929441817d8154abbd929c0aa9cd66ff3171965bdaaf5d78
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:847cedc1d6ca26f299a132c2ade9754887374acb9d98f26594a85d4c7742d474
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:89eeedefdd62514d0130acc330a5c08e9774c95d38c60997905cfd65fc54b710
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcd043d1690ae0ff6991b03322799a0b28f021427b15fd9f1e5ed8b9905d9307
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f43ced939100082608f57561a10e1888e69210c80675068db530c5815889910e
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:772190f7e6667c865d25fc72da7bdd1b5d39f46fe03bb5c2d754aee1ad3c99c7
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d8d6ee244d99525e7004ae3f02d44ae63082d81fbbab7306f641ac6aeeb736f
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0dd882b6f08b8cde72a038748b9c995e480ab99405e1f7e6c7a03592bdad6355
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4222d0b9fadaea1c2825a6be6146f638b45462a966591dbc095e76b291c3b43f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.99746835443038,
   "eval_steps": 100,
-  "global_step": 1382,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2092,6 +2092,306 @@
       "rewards/margins": 0.36379513144493103,
       "rewards/rejected": -0.25348588824272156,
       "step": 1380
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.0,
   "eval_steps": 100,
+  "global_step": 1580,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.36379513144493103,
       "rewards/rejected": -0.25348588824272156,
       "step": 1380
+    },
+    {
+      "epoch": 7.037974683544304,
+      "grad_norm": 1158283.9951295503,
+      "learning_rate": 3.3782513318708864e-07,
+      "logits/chosen": -4.4635396003723145,
+      "logits/rejected": -4.055373668670654,
+      "logps/chosen": -126.25242614746094,
+      "logps/rejected": -513.0021362304688,
+      "loss": 32182.2562,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.12364669889211655,
+      "rewards/margins": 0.39015716314315796,
+      "rewards/rejected": -0.2665104568004608,
+      "step": 1390
+    },
+    {
+      "epoch": 7.0886075949367084,
+      "grad_norm": 1635336.0000705447,
+      "learning_rate": 3.3625822626136005e-07,
+      "logits/chosen": -3.2711379528045654,
+      "logits/rejected": -2.849708080291748,
+      "logps/chosen": -120.3502426147461,
+      "logps/rejected": -554.61669921875,
+      "loss": 28154.0125,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1400633156299591,
+      "rewards/margins": 0.4437219500541687,
+      "rewards/rejected": -0.3036586344242096,
+      "step": 1400
+    },
+    {
+      "epoch": 7.139240506329114,
+      "grad_norm": 1478880.6175367055,
+      "learning_rate": 3.346913193356314e-07,
+      "logits/chosen": -1.498684048652649,
+      "logits/rejected": -1.5719478130340576,
+      "logps/chosen": -97.41731262207031,
+      "logps/rejected": -528.29833984375,
+      "loss": 30443.8531,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.13250485062599182,
+      "rewards/margins": 0.4276755452156067,
+      "rewards/rejected": -0.29517072439193726,
+      "step": 1410
+    },
+    {
+      "epoch": 7.189873417721519,
+      "grad_norm": 1190966.9261622827,
+      "learning_rate": 3.331244124099029e-07,
+      "logits/chosen": -3.576815366744995,
+      "logits/rejected": -3.1508662700653076,
+      "logps/chosen": -92.4610595703125,
+      "logps/rejected": -499.2225646972656,
+      "loss": 30200.7656,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1342589408159256,
+      "rewards/margins": 0.40714582800865173,
+      "rewards/rejected": -0.2728869318962097,
+      "step": 1420
+    },
+    {
+      "epoch": 7.2405063291139244,
+      "grad_norm": 1654460.4321586012,
+      "learning_rate": 3.3155750548417424e-07,
+      "logits/chosen": -3.6517982482910156,
+      "logits/rejected": -2.912386894226074,
+      "logps/chosen": -113.77073669433594,
+      "logps/rejected": -548.2919921875,
+      "loss": 29291.1719,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.13462531566619873,
+      "rewards/margins": 0.435891717672348,
+      "rewards/rejected": -0.3012663722038269,
+      "step": 1430
+    },
+    {
+      "epoch": 7.291139240506329,
+      "grad_norm": 1547048.8074025025,
+      "learning_rate": 3.2999059855844565e-07,
+      "logits/chosen": -4.762998580932617,
+      "logits/rejected": -4.417517185211182,
+      "logps/chosen": -103.59019470214844,
+      "logps/rejected": -516.0870361328125,
+      "loss": 30597.95,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1253672093153,
+      "rewards/margins": 0.4090943932533264,
+      "rewards/rejected": -0.28372713923454285,
+      "step": 1440
+    },
+    {
+      "epoch": 7.341772151898734,
+      "grad_norm": 1083334.846955902,
+      "learning_rate": 3.28423691632717e-07,
+      "logits/chosen": -4.341902732849121,
+      "logits/rejected": -3.4809889793395996,
+      "logps/chosen": -105.1113052368164,
+      "logps/rejected": -537.7858276367188,
+      "loss": 28933.9125,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.139817476272583,
+      "rewards/margins": 0.4371423125267029,
+      "rewards/rejected": -0.2973248362541199,
+      "step": 1450
+    },
+    {
+      "epoch": 7.3924050632911396,
+      "grad_norm": 1583721.4157786674,
+      "learning_rate": 3.268567847069884e-07,
+      "logits/chosen": -5.8856353759765625,
+      "logits/rejected": -5.3746867179870605,
+      "logps/chosen": -94.76522827148438,
+      "logps/rejected": -525.3110961914062,
+      "loss": 29575.7844,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.13582661747932434,
+      "rewards/margins": 0.4354213774204254,
+      "rewards/rejected": -0.29959478974342346,
+      "step": 1460
+    },
+    {
+      "epoch": 7.443037974683544,
+      "grad_norm": 1391896.6733071958,
+      "learning_rate": 3.252898777812598e-07,
+      "logits/chosen": -3.2749342918395996,
+      "logits/rejected": -3.6061177253723145,
+      "logps/chosen": -99.21089172363281,
+      "logps/rejected": -534.4422607421875,
+      "loss": 29207.5719,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1312985122203827,
+      "rewards/margins": 0.433136522769928,
+      "rewards/rejected": -0.3018379807472229,
+      "step": 1470
+    },
+    {
+      "epoch": 7.493670886075949,
+      "grad_norm": 1294960.5242478126,
+      "learning_rate": 3.237229708555312e-07,
+      "logits/chosen": -2.985567808151245,
+      "logits/rejected": -1.8726612329483032,
+      "logps/chosen": -112.32755279541016,
+      "logps/rejected": -509.37286376953125,
+      "loss": 29187.1594,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1289207637310028,
+      "rewards/margins": 0.4079267978668213,
+      "rewards/rejected": -0.27900606393814087,
+      "step": 1480
+    },
+    {
+      "epoch": 7.544303797468355,
+      "grad_norm": 1193173.6877739348,
+      "learning_rate": 3.2215606392980255e-07,
+      "logits/chosen": -2.0656161308288574,
+      "logits/rejected": -2.3443799018859863,
+      "logps/chosen": -97.64754486083984,
+      "logps/rejected": -511.40576171875,
+      "loss": 29322.4313,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.13589712977409363,
+      "rewards/margins": 0.413860946893692,
+      "rewards/rejected": -0.2779638171195984,
+      "step": 1490
+    },
+    {
+      "epoch": 7.594936708860759,
+      "grad_norm": 1279108.0637389964,
+      "learning_rate": 3.2058915700407396e-07,
+      "logits/chosen": -3.5005557537078857,
+      "logits/rejected": -3.4204413890838623,
+      "logps/chosen": -107.39742279052734,
+      "logps/rejected": -530.2638549804688,
+      "loss": 27542.3625,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.13995657861232758,
+      "rewards/margins": 0.42647701501846313,
+      "rewards/rejected": -0.28652042150497437,
+      "step": 1500
+    },
+    {
+      "epoch": 7.6455696202531644,
+      "grad_norm": 2707102.044355496,
+      "learning_rate": 3.190222500783453e-07,
+      "logits/chosen": -4.715664863586426,
+      "logits/rejected": -4.245431900024414,
+      "logps/chosen": -101.01532745361328,
+      "logps/rejected": -561.7377319335938,
+      "loss": 29571.3625,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.14493677020072937,
+      "rewards/margins": 0.4646069407463074,
+      "rewards/rejected": -0.3196701109409332,
+      "step": 1510
+    },
+    {
+      "epoch": 7.69620253164557,
+      "grad_norm": 1346703.2802720347,
+      "learning_rate": 3.1745534315261674e-07,
+      "logits/chosen": -2.4094414710998535,
+      "logits/rejected": -2.316082715988159,
+      "logps/chosen": -90.64556121826172,
+      "logps/rejected": -524.6895751953125,
+      "loss": 29962.2875,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1430484652519226,
+      "rewards/margins": 0.4339544177055359,
+      "rewards/rejected": -0.2909059524536133,
+      "step": 1520
+    },
+    {
+      "epoch": 7.746835443037975,
+      "grad_norm": 1570681.8076612286,
+      "learning_rate": 3.158884362268881e-07,
+      "logits/chosen": -1.977839708328247,
+      "logits/rejected": -1.748456597328186,
+      "logps/chosen": -95.17073822021484,
+      "logps/rejected": -536.3465576171875,
+      "loss": 29005.075,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.13247540593147278,
+      "rewards/margins": 0.44195109605789185,
+      "rewards/rejected": -0.3094756603240967,
+      "step": 1530
+    },
+    {
+      "epoch": 7.7974683544303796,
+      "grad_norm": 1321655.562082779,
+      "learning_rate": 3.143215293011595e-07,
+      "logits/chosen": -5.75424861907959,
+      "logits/rejected": -5.283251762390137,
+      "logps/chosen": -109.5367202758789,
+      "logps/rejected": -538.626220703125,
+      "loss": 29057.1688,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.14621947705745697,
+      "rewards/margins": 0.43537068367004395,
+      "rewards/rejected": -0.2891511619091034,
+      "step": 1540
+    },
+    {
+      "epoch": 7.848101265822785,
+      "grad_norm": 1360253.1191038797,
+      "learning_rate": 3.1275462237543087e-07,
+      "logits/chosen": -3.4590229988098145,
+      "logits/rejected": -3.5962212085723877,
+      "logps/chosen": -114.27938079833984,
+      "logps/rejected": -566.5555419921875,
+      "loss": 29716.3094,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1347774863243103,
+      "rewards/margins": 0.44886675477027893,
+      "rewards/rejected": -0.314089298248291,
+      "step": 1550
+    },
+    {
+      "epoch": 7.89873417721519,
+      "grad_norm": 1269167.0621019504,
+      "learning_rate": 3.111877154497023e-07,
+      "logits/chosen": -1.0884647369384766,
+      "logits/rejected": -0.7194244265556335,
+      "logps/chosen": -89.07111358642578,
+      "logps/rejected": -494.15789794921875,
+      "loss": 29335.9875,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1284293383359909,
+      "rewards/margins": 0.4071559011936188,
+      "rewards/rejected": -0.2787265181541443,
+      "step": 1560
+    },
+    {
+      "epoch": 7.949367088607595,
+      "grad_norm": 1453875.4579149496,
+      "learning_rate": 3.0962080852397364e-07,
+      "logits/chosen": -2.750883102416992,
+      "logits/rejected": -3.123683452606201,
+      "logps/chosen": -98.0600357055664,
+      "logps/rejected": -508.206298828125,
+      "loss": 29392.4875,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.13056252896785736,
+      "rewards/margins": 0.4083867073059082,
+      "rewards/rejected": -0.2778242230415344,
+      "step": 1570
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 1764041.9454831716,
+      "learning_rate": 3.0805390159824505e-07,
+      "logits/chosen": -3.7020182609558105,
+      "logits/rejected": -2.8675622940063477,
+      "logps/chosen": -112.20640563964844,
+      "logps/rejected": -527.1363525390625,
+      "loss": 30214.225,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1370132714509964,
+      "rewards/margins": 0.42148295044898987,
+      "rewards/rejected": -0.2844696640968323,
+      "step": 1580
     }
   ],
   "logging_steps": 10,