Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

generation_config.json +2 -1
model.safetensors +1 -1
trainer_state.json +471 -816
training_args.bin +1 -1

generation_config.json CHANGED Viewed

@@ -9,5 +9,6 @@
   "temperature": 0.6,
   "top_k": 20,
   "top_p": 0.95,
-  "transformers_version": "4.55.0"
 }

   "temperature": 0.6,
   "top_k": 20,
   "top_p": 0.95,
+  "transformers_version": "4.55.0",
+  "presence_penalty": 1.5
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c51ce2cb6bf69f96633cce65d321f6e767bf121cecd033069e90a149c3f7a76
 size 3441185608

 version https://git-lfs.github.com/spec/v1
+oid sha256:15024564b172a09f1deea887d9bb3fd42a3eb629435e2fb92c7d1a6698ef9fca
 size 3441185608

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0019372336303758234,
   "eval_steps": 500,
-  "global_step": 80,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -16,27 +16,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 5021.0,
-      "completions/max_terminated_length": 5021.0,
-      "completions/mean_length": 3011.5625,
-      "completions/mean_terminated_length": 3011.5625,
-      "completions/min_length": 1324.0,
-      "completions/min_terminated_length": 1324.0,
-      "epoch": 2.4215420379697792e-05,
-      "grad_norm": 0.0013862343573498733,
-      "kl": 0.000823974609375,
       "learning_rate": 0.0,
-      "loss": -0.0001,
-      "num_tokens": 227146.0,
-      "reward": 0.8549610376358032,
-      "reward_std": 0.021876953542232513,
-      "rewards/avg_thinking_length_func": 157.7991485595703,
-      "rewards/correct_answer_reward_func": 0.75,
-      "rewards/efficient_thinking_reward_func": 0.9122447304419112,
       "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.7957969903945923,
-      "rewards/tool_execution_reward_func": 1.9947917461395264,
-      "rewards/visit_tool_reward_func": 0.9724012017250061,
       "step": 1
     },
     {
@@ -45,11 +45,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 4.8430840759395585e-05,
-      "grad_norm": 0.0013858304532204059,
-      "kl": 0.000823974609375,
       "learning_rate": 6.25e-08,
-      "loss": -0.0001,
       "step": 2
     },
     {
@@ -58,11 +58,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 7.264626113909338e-05,
-      "grad_norm": 0.0013865629989697915,
-      "kl": 0.000820159912109375,
       "learning_rate": 1.25e-07,
-      "loss": -0.0001,
       "step": 3
     },
     {
@@ -71,11 +71,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 9.686168151879117e-05,
-      "grad_norm": 0.0013802536996446572,
-      "kl": 0.0008420944213867188,
       "learning_rate": 1.875e-07,
-      "loss": -0.0001,
       "step": 4
     },
     {
@@ -85,27 +85,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 8221.0,
-      "completions/max_terminated_length": 8221.0,
-      "completions/mean_length": 5079.5625,
-      "completions/mean_terminated_length": 5079.5625,
-      "completions/min_length": 2306.0,
-      "completions/min_terminated_length": 2306.0,
-      "epoch": 0.00012107710189848896,
-      "grad_norm": 0.03869369457145168,
-      "kl": 0.0009288787841796875,
       "learning_rate": 2.5e-07,
-      "loss": 0.0052,
-      "num_tokens": 580872.0,
-      "reward": 0.30476048588752747,
-      "reward_std": 0.4756142497062683,
-      "rewards/avg_thinking_length_func": 195.94981384277344,
-      "rewards/correct_answer_reward_func": 0.3125,
-      "rewards/efficient_thinking_reward_func": 0.8946171495693498,
       "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.3311374187469482,
-      "rewards/tool_execution_reward_func": 2.0,
-      "rewards/visit_tool_reward_func": 1.0090813636779785,
       "step": 5
     },
     {
@@ -114,11 +114,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.00014529252227818675,
-      "grad_norm": 0.03816851177241048,
-      "kl": 0.0009202957153320312,
       "learning_rate": 3.1249999999999997e-07,
-      "loss": 0.0052,
       "step": 6
     },
     {
@@ -127,11 +127,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.00016950794265788453,
-      "grad_norm": 0.03841593140613752,
-      "kl": 0.0009307861328125,
       "learning_rate": 3.75e-07,
-      "loss": 0.0052,
       "step": 7
     },
     {
@@ -140,11 +140,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.00019372336303758234,
-      "grad_norm": 0.03873458948340372,
-      "kl": 0.000919342041015625,
       "learning_rate": 4.375e-07,
-      "loss": 0.0052,
       "step": 8
     },
     {
@@ -154,27 +154,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 8205.0,
-      "completions/max_terminated_length": 8205.0,
-      "completions/mean_length": 4930.875,
-      "completions/mean_terminated_length": 4930.875,
-      "completions/min_length": 2085.0,
-      "completions/min_terminated_length": 2085.0,
-      "epoch": 0.00021793878341728012,
-      "grad_norm": 0.027339756517219562,
-      "kl": 0.0009183883666992188,
       "learning_rate": 5e-07,
-      "loss": 0.0039,
-      "num_tokens": 926931.0,
-      "reward": 0.41861122846603394,
-      "reward_std": 0.399558424949646,
-      "rewards/avg_thinking_length_func": 189.7052764892578,
-      "rewards/correct_answer_reward_func": 0.40625,
-      "rewards/efficient_thinking_reward_func": 0.9012974528882096,
       "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.572190284729004,
-      "rewards/tool_execution_reward_func": 2.0,
-      "rewards/visit_tool_reward_func": 1.0377196073532104,
       "step": 9
     },
     {
@@ -183,11 +183,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.00024215420379697792,
-      "grad_norm": 0.027389009217824802,
-      "kl": 0.0009317398071289062,
       "learning_rate": 5.625e-07,
-      "loss": 0.0039,
       "step": 10
     },
     {
@@ -196,11 +196,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0002663696241766757,
-      "grad_norm": 0.027404975057647246,
-      "kl": 0.0009403228759765625,
       "learning_rate": 6.249999999999999e-07,
-      "loss": 0.0039,
       "step": 11
     },
     {
@@ -209,11 +209,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0002905850445563735,
-      "grad_norm": 0.027663414412920105,
-      "kl": 0.0010051727294921875,
       "learning_rate": 6.875e-07,
-      "loss": 0.0039,
       "step": 12
     },
     {
@@ -223,27 +223,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 8889.0,
-      "completions/max_terminated_length": 8889.0,
-      "completions/mean_length": 5363.5,
-      "completions/mean_terminated_length": 5363.5,
-      "completions/min_length": 1743.0,
-      "completions/min_terminated_length": 1743.0,
-      "epoch": 0.0003148004649360713,
-      "grad_norm": 0.0407893748945086,
-      "kl": 0.0009937286376953125,
       "learning_rate": 7.5e-07,
-      "loss": -0.0002,
-      "num_tokens": 1294834.0,
-      "reward": 0.3248969614505768,
-      "reward_std": 0.6025969982147217,
-      "rewards/avg_thinking_length_func": 197.81080627441406,
-      "rewards/correct_answer_reward_func": 0.375,
-      "rewards/efficient_thinking_reward_func": 0.8764530262818557,
       "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.5131020545959473,
-      "rewards/tool_execution_reward_func": 1.9973957538604736,
-      "rewards/visit_tool_reward_func": 1.029296636581421,
       "step": 13
     },
     {
@@ -252,11 +252,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.00033901588531576906,
-      "grad_norm": 0.04111370827114344,
-      "kl": 0.0009851455688476562,
       "learning_rate": 8.125e-07,
-      "loss": -0.0002,
       "step": 14
     },
     {
@@ -265,11 +265,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.00036323130569546687,
-      "grad_norm": 0.040997833074323406,
-      "kl": 0.0010662078857421875,
       "learning_rate": 8.75e-07,
-      "loss": -0.0002,
       "step": 15
     },
     {
@@ -278,11 +278,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0003874467260751647,
-      "grad_norm": 0.04130516332775726,
-      "kl": 0.0011501312255859375,
       "learning_rate": 9.374999999999999e-07,
-      "loss": -0.0002,
       "step": 16
     },
     {
@@ -292,27 +292,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 8681.0,
-      "completions/max_terminated_length": 8681.0,
-      "completions/mean_length": 5228.8125,
-      "completions/mean_terminated_length": 5228.8125,
-      "completions/min_length": 2233.0,
-      "completions/min_terminated_length": 2233.0,
-      "epoch": 0.0004116621464548625,
-      "grad_norm": 0.03978610475757746,
-      "kl": 0.001308441162109375,
       "learning_rate": 1e-06,
-      "loss": 0.006,
-      "num_tokens": 1648672.0,
-      "reward": 0.34718748927116394,
-      "reward_std": 0.5881420969963074,
-      "rewards/avg_thinking_length_func": 195.60931396484375,
-      "rewards/correct_answer_reward_func": 0.34375,
-      "rewards/efficient_thinking_reward_func": 0.8885279571058924,
       "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.63374924659729,
-      "rewards/tool_execution_reward_func": 2.0,
-      "rewards/visit_tool_reward_func": 1.035430908203125,
       "step": 17
     },
     {
@@ -321,11 +321,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.00043587756683456023,
-      "grad_norm": 0.04006457357588843,
-      "kl": 0.001514434814453125,
       "learning_rate": 1.0625e-06,
-      "loss": 0.006,
       "step": 18
     },
     {
@@ -334,11 +334,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.00046009298721425804,
-      "grad_norm": 0.04053645195569142,
-      "kl": 0.0020732879638671875,
       "learning_rate": 1.125e-06,
-      "loss": 0.006,
       "step": 19
     },
     {
@@ -347,11 +347,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.00048430840759395585,
-      "grad_norm": 0.040941267103466746,
-      "kl": 0.002826690673828125,
       "learning_rate": 1.1874999999999999e-06,
-      "loss": 0.006,
       "step": 20
     },
     {
@@ -361,27 +361,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 8595.0,
-      "completions/max_terminated_length": 8595.0,
-      "completions/mean_length": 5146.78125,
-      "completions/mean_terminated_length": 5146.78125,
-      "completions/min_length": 2093.0,
-      "completions/min_terminated_length": 2093.0,
-      "epoch": 0.0005085238279736536,
-      "grad_norm": 0.034201382636368564,
-      "kl": 0.00348663330078125,
       "learning_rate": 1.2499999999999999e-06,
-      "loss": 0.0012,
-      "num_tokens": 2015057.0,
-      "reward": 0.3354427218437195,
-      "reward_std": 0.5395293831825256,
-      "rewards/avg_thinking_length_func": 181.95034790039062,
-      "rewards/correct_answer_reward_func": 0.4375,
-      "rewards/efficient_thinking_reward_func": 0.8707138202597767,
-      "rewards/format_reward_func": 0.9997023940086365,
-      "rewards/num_xml_reward_func": 1.4494500160217285,
-      "rewards/tool_execution_reward_func": 2.0,
-      "rewards/visit_tool_reward_func": 1.0431455373764038,
       "step": 21
     },
     {
@@ -390,11 +390,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0005327392483533514,
-      "grad_norm": 0.03384948845768777,
-      "kl": 0.00420379638671875,
       "learning_rate": 1.3125e-06,
-      "loss": 0.0012,
       "step": 22
     },
     {
@@ -403,11 +403,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0005569546687330492,
-      "grad_norm": 0.03413362282042912,
-      "kl": 0.0050048828125,
       "learning_rate": 1.375e-06,
-      "loss": 0.0012,
       "step": 23
     },
     {
@@ -416,11 +416,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.000581170089112747,
-      "grad_norm": 0.03410120905325483,
-      "kl": 0.0059661865234375,
       "learning_rate": 1.4375e-06,
-      "loss": 0.0012,
       "step": 24
     },
     {
@@ -430,27 +430,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 8285.0,
-      "completions/max_terminated_length": 8285.0,
-      "completions/mean_length": 5087.59375,
-      "completions/mean_terminated_length": 5087.59375,
-      "completions/min_length": 2272.0,
-      "completions/min_terminated_length": 2272.0,
-      "epoch": 0.0006053855094924448,
-      "grad_norm": 0.044445551609988844,
-      "kl": 0.00791168212890625,
       "learning_rate": 1.5e-06,
-      "loss": 0.0078,
-      "num_tokens": 2383540.0,
-      "reward": 0.3267378509044647,
-      "reward_std": 0.4416780471801758,
-      "rewards/avg_thinking_length_func": 174.10765075683594,
-      "rewards/correct_answer_reward_func": 0.28125,
-      "rewards/efficient_thinking_reward_func": 0.9263086220559518,
       "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.755671501159668,
-      "rewards/tool_execution_reward_func": 1.9970238208770752,
-      "rewards/visit_tool_reward_func": 1.0175025463104248,
       "step": 25
     },
     {
@@ -459,11 +459,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0006296009298721426,
-      "grad_norm": 0.04825803348555062,
-      "kl": 0.012359619140625,
       "learning_rate": 1.5624999999999999e-06,
-      "loss": 0.0078,
       "step": 26
     },
     {
@@ -472,11 +472,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0006538163502518403,
-      "grad_norm": 0.05116686338837774,
-      "kl": 0.021484375,
       "learning_rate": 1.625e-06,
-      "loss": 0.0078,
       "step": 27
     },
     {
@@ -485,11 +485,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0006780317706315381,
-      "grad_norm": 0.05316346328608609,
-      "kl": 0.03985595703125,
       "learning_rate": 1.6875e-06,
-      "loss": 0.0078,
       "step": 28
     },
     {
@@ -499,27 +499,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 7189.0,
-      "completions/max_terminated_length": 7189.0,
-      "completions/mean_length": 4996.46875,
-      "completions/mean_terminated_length": 4996.46875,
-      "completions/min_length": 2314.0,
-      "completions/min_terminated_length": 2314.0,
-      "epoch": 0.0007022471910112359,
-      "grad_norm": 0.04891502789141398,
-      "kl": 0.04736328125,
       "learning_rate": 1.75e-06,
-      "loss": 0.0067,
-      "num_tokens": 2761999.0,
-      "reward": 0.41611552238464355,
-      "reward_std": 0.456102192401886,
-      "rewards/avg_thinking_length_func": 165.63626098632812,
-      "rewards/correct_answer_reward_func": 0.40625,
-      "rewards/efficient_thinking_reward_func": 0.9453047237018808,
-      "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.5178555250167847,
-      "rewards/tool_execution_reward_func": 1.9925000667572021,
-      "rewards/visit_tool_reward_func": 1.0254861116409302,
       "step": 29
     },
     {
@@ -528,11 +528,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0007264626113909337,
-      "grad_norm": 0.05075936350489512,
-      "kl": 0.07891845703125,
       "learning_rate": 1.8125e-06,
-      "loss": 0.0067,
       "step": 30
     },
     {
@@ -541,11 +541,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0007506780317706315,
-      "grad_norm": 0.05378691343356215,
-      "kl": 0.1292724609375,
       "learning_rate": 1.8749999999999998e-06,
-      "loss": 0.0068,
       "step": 31
     },
     {
@@ -554,11 +554,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0007748934521503294,
-      "grad_norm": 0.06810533074784274,
-      "kl": 0.19677734375,
       "learning_rate": 1.9375e-06,
-      "loss": 0.0069,
       "step": 32
     },
     {
@@ -568,27 +568,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 6880.0,
-      "completions/max_terminated_length": 6880.0,
-      "completions/mean_length": 5091.3125,
-      "completions/mean_terminated_length": 5091.3125,
-      "completions/min_length": 2317.0,
-      "completions/min_terminated_length": 2317.0,
-      "epoch": 0.0007991088725300272,
-      "grad_norm": 0.1762564569620267,
-      "kl": 0.204345703125,
       "learning_rate": 2e-06,
-      "loss": 0.0021,
-      "num_tokens": 3193245.0,
-      "reward": 0.606549859046936,
-      "reward_std": 0.42073318362236023,
-      "rewards/avg_thinking_length_func": 136.30906677246094,
-      "rewards/correct_answer_reward_func": 0.5625,
-      "rewards/efficient_thinking_reward_func": 0.9376242936192475,
       "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.400514841079712,
-      "rewards/tool_execution_reward_func": 2.0,
-      "rewards/visit_tool_reward_func": 1.0149691104888916,
       "step": 33
     },
     {
@@ -597,11 +597,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.000823324292909725,
-      "grad_norm": 0.09601002970053912,
-      "kl": 0.177001953125,
       "learning_rate": 2e-06,
-      "loss": 0.0021,
       "step": 34
     },
     {
@@ -610,11 +610,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0008475397132894227,
-      "grad_norm": 0.059153354466426514,
-      "kl": 0.1494140625,
       "learning_rate": 2e-06,
-      "loss": 0.002,
       "step": 35
     },
     {
@@ -623,11 +623,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0008717551336691205,
-      "grad_norm": 0.04692926604339145,
-      "kl": 0.134033203125,
       "learning_rate": 2e-06,
-      "loss": 0.002,
       "step": 36
     },
     {
@@ -637,27 +637,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 6702.0,
-      "completions/max_terminated_length": 6702.0,
-      "completions/mean_length": 4464.4375,
-      "completions/mean_terminated_length": 4464.4375,
-      "completions/min_length": 2517.0,
-      "completions/min_terminated_length": 2517.0,
-      "epoch": 0.0008959705540488183,
-      "grad_norm": 0.04156023447496563,
-      "kl": 0.089111328125,
       "learning_rate": 2e-06,
-      "loss": 0.0009,
-      "num_tokens": 3614725.0,
-      "reward": 0.5230777859687805,
-      "reward_std": 0.4564175009727478,
-      "rewards/avg_thinking_length_func": 113.61294555664062,
-      "rewards/correct_answer_reward_func": 0.5,
-      "rewards/efficient_thinking_reward_func": 0.8956072636293169,
-      "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.4630262851715088,
-      "rewards/tool_execution_reward_func": 1.9854960441589355,
-      "rewards/visit_tool_reward_func": 0.9511741399765015,
       "step": 37
     },
     {
@@ -666,11 +666,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0009201859744285161,
-      "grad_norm": 0.030847266935293525,
-      "kl": 0.0772705078125,
       "learning_rate": 2e-06,
-      "loss": 0.0009,
       "step": 38
     },
     {
@@ -679,11 +679,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0009444013948082139,
-      "grad_norm": 0.029857330293238966,
-      "kl": 0.0762939453125,
       "learning_rate": 2e-06,
-      "loss": 0.0009,
       "step": 39
     },
     {
@@ -692,11 +692,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0009686168151879117,
-      "grad_norm": 0.029616934835158485,
-      "kl": 0.0780029296875,
       "learning_rate": 2e-06,
-      "loss": 0.0009,
       "step": 40
     },
     {
@@ -706,27 +706,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 5952.0,
-      "completions/max_terminated_length": 5952.0,
-      "completions/mean_length": 4219.25,
-      "completions/mean_terminated_length": 4219.25,
-      "completions/min_length": 2282.0,
-      "completions/min_terminated_length": 2282.0,
-      "epoch": 0.0009928322355676094,
-      "grad_norm": 0.027887879707077786,
-      "kl": 0.0771484375,
       "learning_rate": 2e-06,
-      "loss": 0.0014,
-      "num_tokens": 4009367.0,
-      "reward": 0.6270047426223755,
-      "reward_std": 0.432157427072525,
-      "rewards/avg_thinking_length_func": 115.17754364013672,
-      "rewards/correct_answer_reward_func": 0.59375,
-      "rewards/efficient_thinking_reward_func": 0.9136282100129471,
       "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.6435627937316895,
-      "rewards/tool_execution_reward_func": 1.9891107082366943,
-      "rewards/visit_tool_reward_func": 0.9315186738967896,
       "step": 41
     },
     {
@@ -735,11 +735,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0010170476559473072,
-      "grad_norm": 0.02835635253506866,
-      "kl": 0.0794677734375,
       "learning_rate": 2e-06,
-      "loss": 0.0014,
       "step": 42
     },
     {
@@ -748,11 +748,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.001041263076327005,
-      "grad_norm": 0.028940878534019835,
-      "kl": 0.083740234375,
       "learning_rate": 2e-06,
-      "loss": 0.0014,
       "step": 43
     },
     {
@@ -761,11 +761,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0010654784967067028,
-      "grad_norm": 0.029849752671864262,
-      "kl": 0.08837890625,
       "learning_rate": 2e-06,
-      "loss": 0.0014,
       "step": 44
     },
     {
@@ -775,27 +775,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 6019.0,
-      "completions/max_terminated_length": 6019.0,
-      "completions/mean_length": 4090.75,
-      "completions/mean_terminated_length": 4090.75,
-      "completions/min_length": 2240.0,
-      "completions/min_terminated_length": 2240.0,
-      "epoch": 0.0010896939170864006,
-      "grad_norm": 0.02660440382201049,
-      "kl": 0.09228515625,
       "learning_rate": 2e-06,
-      "loss": -0.0002,
-      "num_tokens": 4366159.0,
-      "reward": 0.6755548715591431,
-      "reward_std": 0.47086238861083984,
-      "rewards/avg_thinking_length_func": 125.40975189208984,
-      "rewards/correct_answer_reward_func": 0.6875,
-      "rewards/efficient_thinking_reward_func": 0.9314815674427694,
-      "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.7004401683807373,
-      "rewards/tool_execution_reward_func": 2.0,
-      "rewards/visit_tool_reward_func": 0.9642323851585388,
       "step": 45
     },
     {
@@ -804,11 +804,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0011139093374660984,
-      "grad_norm": 0.026841083756153995,
-      "kl": 0.09619140625,
       "learning_rate": 2e-06,
-      "loss": -0.0002,
       "step": 46
     },
     {
@@ -817,11 +817,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0011381247578457962,
-      "grad_norm": 0.026782109601823232,
-      "kl": 0.0999755859375,
       "learning_rate": 2e-06,
-      "loss": -0.0002,
       "step": 47
     },
     {
@@ -830,11 +830,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.001162340178225494,
-      "grad_norm": 0.02659970469430567,
-      "kl": 0.103515625,
       "learning_rate": 2e-06,
-      "loss": -0.0002,
       "step": 48
     },
     {
@@ -844,27 +844,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 5239.0,
-      "completions/max_terminated_length": 5239.0,
-      "completions/mean_length": 3787.1875,
-      "completions/mean_terminated_length": 3787.1875,
-      "completions/min_length": 2194.0,
-      "completions/min_terminated_length": 2194.0,
-      "epoch": 0.0011865555986051918,
-      "grad_norm": 0.02076190210123295,
-      "kl": 0.0938720703125,
       "learning_rate": 2e-06,
-      "loss": 0.0001,
-      "num_tokens": 4663125.0,
-      "reward": 0.7249662280082703,
-      "reward_std": 0.16501030325889587,
-      "rewards/avg_thinking_length_func": 140.40789794921875,
-      "rewards/correct_answer_reward_func": 0.625,
-      "rewards/efficient_thinking_reward_func": 0.9519768288322725,
       "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.8708701133728027,
-      "rewards/tool_execution_reward_func": 2.0,
-      "rewards/visit_tool_reward_func": 0.9880074858665466,
       "step": 49
     },
     {
@@ -873,11 +873,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0012107710189848896,
-      "grad_norm": 0.020723077749825757,
-      "kl": 0.0958251953125,
       "learning_rate": 2e-06,
-      "loss": 0.0001,
       "step": 50
     },
     {
@@ -886,11 +886,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0012349864393645874,
-      "grad_norm": 0.02054164461884488,
-      "kl": 0.09716796875,
       "learning_rate": 2e-06,
-      "loss": 0.0001,
       "step": 51
     },
     {
@@ -899,11 +899,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0012592018597442853,
-      "grad_norm": 0.020335770375883248,
-      "kl": 0.0972900390625,
       "learning_rate": 2e-06,
-      "loss": 0.0001,
       "step": 52
     },
     {
@@ -913,27 +913,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 5500.0,
-      "completions/max_terminated_length": 5500.0,
-      "completions/mean_length": 3872.6875,
-      "completions/mean_terminated_length": 3872.6875,
-      "completions/min_length": 1995.0,
-      "completions/min_terminated_length": 1995.0,
-      "epoch": 0.001283417280123983,
-      "grad_norm": 0.019885369914639652,
-      "kl": 0.1060791015625,
       "learning_rate": 2e-06,
-      "loss": -0.0001,
-      "num_tokens": 4965048.0,
-      "reward": 0.8397980332374573,
-      "reward_std": 0.24992188811302185,
-      "rewards/avg_thinking_length_func": 148.27633666992188,
-      "rewards/correct_answer_reward_func": 0.71875,
-      "rewards/efficient_thinking_reward_func": 0.9891416230502088,
       "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.8712050914764404,
       "rewards/tool_execution_reward_func": 2.0,
-      "rewards/visit_tool_reward_func": 1.0259138345718384,
       "step": 53
     },
     {
@@ -942,11 +942,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0013076327005036806,
-      "grad_norm": 0.019647566668717146,
-      "kl": 0.1060791015625,
       "learning_rate": 2e-06,
-      "loss": -0.0001,
       "step": 54
     },
     {
@@ -955,11 +955,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0013318481208833785,
-      "grad_norm": 0.01955130786377932,
-      "kl": 0.10595703125,
       "learning_rate": 2e-06,
-      "loss": -0.0001,
       "step": 55
     },
     {
@@ -968,11 +968,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0013560635412630763,
-      "grad_norm": 0.01954445177850349,
-      "kl": 0.1064453125,
       "learning_rate": 2e-06,
-      "loss": -0.0001,
       "step": 56
     },
     {
@@ -982,27 +982,27 @@
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 5363.0,
-      "completions/max_terminated_length": 5363.0,
-      "completions/mean_length": 3860.25,
-      "completions/mean_terminated_length": 3860.25,
-      "completions/min_length": 2462.0,
-      "completions/min_terminated_length": 2462.0,
-      "epoch": 0.001380278961642774,
-      "grad_norm": 0.024884617159235588,
-      "kl": 0.093994140625,
       "learning_rate": 2e-06,
-      "loss": 0.0007,
-      "num_tokens": 5246738.0,
-      "reward": 0.6381564140319824,
-      "reward_std": 0.36967217922210693,
-      "rewards/avg_thinking_length_func": 145.39739990234375,
-      "rewards/correct_answer_reward_func": 0.59375,
-      "rewards/efficient_thinking_reward_func": 0.9513852113551942,
       "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.8717927932739258,
-      "rewards/tool_execution_reward_func": 2.0,
-      "rewards/visit_tool_reward_func": 1.0618340969085693,
       "step": 57
     },
     {
@@ -1011,11 +1011,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0014044943820224719,
-      "grad_norm": 0.02492436560745493,
-      "kl": 0.09375,
       "learning_rate": 2e-06,
-      "loss": 0.0007,
       "step": 58
     },
     {
@@ -1024,11 +1024,11 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0014287098024021697,
-      "grad_norm": 0.02501212297767101,
-      "kl": 0.09326171875,
       "learning_rate": 2e-06,
-      "loss": 0.0007,
       "step": 59
     },
     {
@@ -1037,362 +1037,17 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0014529252227818675,
-      "grad_norm": 0.02474493078785747,
-      "kl": 0.093017578125,
       "learning_rate": 2e-06,
-      "loss": 0.0007,
       "step": 60
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0,
-      "completions/max_length": 6190.0,
-      "completions/max_terminated_length": 6190.0,
-      "completions/mean_length": 4112.90625,
-      "completions/mean_terminated_length": 4112.90625,
-      "completions/min_length": 2503.0,
-      "completions/min_terminated_length": 2503.0,
-      "epoch": 0.0014771406431615653,
-      "grad_norm": 0.02178738104725311,
-      "kl": 0.0994873046875,
-      "learning_rate": 2e-06,
-      "loss": 0.0011,
-      "num_tokens": 5531673.0,
-      "reward": 0.7260021567344666,
-      "reward_std": 0.4103294909000397,
-      "rewards/avg_thinking_length_func": 154.5753936767578,
-      "rewards/correct_answer_reward_func": 0.65625,
-      "rewards/efficient_thinking_reward_func": 0.9408740694270286,
-      "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.8727319240570068,
-      "rewards/tool_execution_reward_func": 2.0,
-      "rewards/visit_tool_reward_func": 1.1154723167419434,
-      "step": 61
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.001501356063541263,
-      "grad_norm": 0.022400760235574114,
-      "kl": 0.09912109375,
-      "learning_rate": 2e-06,
-      "loss": 0.0011,
-      "step": 62
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.001525571483920961,
-      "grad_norm": 0.02241024326849516,
-      "kl": 0.0986328125,
-      "learning_rate": 2e-06,
-      "loss": 0.0011,
-      "step": 63
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0015497869043006587,
-      "grad_norm": 0.02284296428778258,
-      "kl": 0.098388671875,
-      "learning_rate": 2e-06,
-      "loss": 0.0011,
-      "step": 64
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0,
-      "completions/max_length": 6287.0,
-      "completions/max_terminated_length": 6287.0,
-      "completions/mean_length": 4386.625,
-      "completions/mean_terminated_length": 4386.625,
-      "completions/min_length": 3015.0,
-      "completions/min_terminated_length": 3015.0,
-      "epoch": 0.0015740023246803565,
-      "grad_norm": 0.024442904812157877,
-      "kl": 0.096923828125,
-      "learning_rate": 2e-06,
-      "loss": -0.0003,
-      "num_tokens": 5833487.0,
-      "reward": 0.8125966787338257,
-      "reward_std": 0.40657174587249756,
-      "rewards/avg_thinking_length_func": 169.9393310546875,
-      "rewards/correct_answer_reward_func": 0.6875,
-      "rewards/efficient_thinking_reward_func": 0.9483068783516069,
-      "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.875028371810913,
-      "rewards/tool_execution_reward_func": 2.0,
-      "rewards/visit_tool_reward_func": 1.0933895111083984,
-      "step": 65
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0015982177450600543,
-      "grad_norm": 0.024525067733314074,
-      "kl": 0.096435546875,
-      "learning_rate": 2e-06,
-      "loss": -0.0003,
-      "step": 66
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0016224331654397521,
-      "grad_norm": 0.024873815112161177,
-      "kl": 0.0960693359375,
-      "learning_rate": 2e-06,
-      "loss": -0.0003,
-      "step": 67
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.00164664858581945,
-      "grad_norm": 0.025222911405096846,
-      "kl": 0.0955810546875,
-      "learning_rate": 2e-06,
-      "loss": -0.0003,
-      "step": 68
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0,
-      "completions/max_length": 7582.0,
-      "completions/max_terminated_length": 7582.0,
-      "completions/mean_length": 4336.375,
-      "completions/mean_terminated_length": 4336.375,
-      "completions/min_length": 2926.0,
-      "completions/min_terminated_length": 2926.0,
-      "epoch": 0.0016708640061991475,
-      "grad_norm": 0.017478901741330728,
-      "kl": 0.0911865234375,
-      "learning_rate": 2e-06,
-      "loss": 0.0019,
-      "num_tokens": 6132990.0,
-      "reward": 0.7490283846855164,
-      "reward_std": 0.15198753774166107,
-      "rewards/avg_thinking_length_func": 179.77679443359375,
-      "rewards/correct_answer_reward_func": 0.65625,
-      "rewards/efficient_thinking_reward_func": 0.938588221110238,
-      "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.9357295036315918,
-      "rewards/tool_execution_reward_func": 2.0,
-      "rewards/visit_tool_reward_func": 0.9721688032150269,
-      "step": 69
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0016950794265788453,
-      "grad_norm": 0.018875622948253925,
-      "kl": 0.0909423828125,
-      "learning_rate": 2e-06,
-      "loss": 0.0019,
-      "step": 70
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0017192948469585431,
-      "grad_norm": 0.020484617082338733,
-      "kl": 0.0911865234375,
-      "learning_rate": 2e-06,
-      "loss": 0.0019,
-      "step": 71
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.001743510267338241,
-      "grad_norm": 0.021532205957360162,
-      "kl": 0.0933837890625,
-      "learning_rate": 2e-06,
-      "loss": 0.0019,
-      "step": 72
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0,
-      "completions/max_length": 6065.0,
-      "completions/max_terminated_length": 6065.0,
-      "completions/mean_length": 4207.40625,
-      "completions/mean_terminated_length": 4207.40625,
-      "completions/min_length": 2648.0,
-      "completions/min_terminated_length": 2648.0,
-      "epoch": 0.0017677256877179387,
-      "grad_norm": 0.02249842465908536,
-      "kl": 0.1011962890625,
-      "learning_rate": 2e-06,
-      "loss": 0.0006,
-      "num_tokens": 6415549.0,
-      "reward": 0.7511920928955078,
-      "reward_std": 0.23255480825901031,
-      "rewards/avg_thinking_length_func": 180.5469207763672,
-      "rewards/correct_answer_reward_func": 0.65625,
-      "rewards/efficient_thinking_reward_func": 0.9317484663097895,
-      "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.9344795942306519,
-      "rewards/tool_execution_reward_func": 1.990625023841858,
-      "rewards/visit_tool_reward_func": 0.9795504808425903,
-      "step": 73
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0017919411080976365,
-      "grad_norm": 0.05340931146356945,
-      "kl": 0.13232421875,
-      "learning_rate": 2e-06,
-      "loss": 0.0007,
-      "step": 74
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0018161565284773344,
-      "grad_norm": 0.02675181315227704,
-      "kl": 0.1058349609375,
-      "learning_rate": 2e-06,
-      "loss": 0.0006,
-      "step": 75
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0018403719488570322,
-      "grad_norm": 0.02697259723804417,
-      "kl": 0.091064453125,
-      "learning_rate": 2e-06,
-      "loss": 0.0006,
-      "step": 76
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0,
-      "completions/max_length": 6482.0,
-      "completions/max_terminated_length": 6482.0,
-      "completions/mean_length": 4148.40625,
-      "completions/mean_terminated_length": 4148.40625,
-      "completions/min_length": 2778.0,
-      "completions/min_terminated_length": 2778.0,
-      "epoch": 0.00186458736923673,
-      "grad_norm": 0.03330572791868595,
-      "kl": 0.096923828125,
-      "learning_rate": 2e-06,
-      "loss": 0.0014,
-      "num_tokens": 6703449.0,
-      "reward": 0.6695541739463806,
-      "reward_std": 0.3436514735221863,
-      "rewards/avg_thinking_length_func": 184.87484741210938,
-      "rewards/correct_answer_reward_func": 0.59375,
-      "rewards/efficient_thinking_reward_func": 0.9242631827661938,
-      "rewards/format_reward_func": 1.0,
-      "rewards/num_xml_reward_func": 1.9313738346099854,
-      "rewards/tool_execution_reward_func": 2.0,
-      "rewards/visit_tool_reward_func": 0.9495425224304199,
-      "step": 77
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0018888027896164278,
-      "grad_norm": 0.03702086074093763,
-      "kl": 0.0970458984375,
-      "learning_rate": 2e-06,
-      "loss": 0.0014,
-      "step": 78
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0019130182099961256,
-      "grad_norm": 0.039763093996501166,
-      "kl": 0.1046142578125,
-      "learning_rate": 2e-06,
-      "loss": 0.0015,
-      "step": 79
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "epoch": 0.0019372336303758234,
-      "grad_norm": 0.04490759555701776,
-      "kl": 0.1263427734375,
-      "learning_rate": 2e-06,
-      "loss": 0.0015,
-      "step": 80
     }
   ],
   "logging_steps": 1,
   "max_steps": 640,
-  "num_input_tokens_seen": 6703449,
   "num_train_epochs": 1,
   "save_steps": 20,
   "stateful_callbacks": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0014534883720930232,
   "eval_steps": 500,
+  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 10086.0,
+      "completions/max_terminated_length": 10086.0,
+      "completions/mean_length": 4296.546875,
+      "completions/mean_terminated_length": 4296.546875,
+      "completions/min_length": 1720.0,
+      "completions/min_terminated_length": 1720.0,
+      "epoch": 2.4224806201550387e-05,
+      "grad_norm": 0.016954593260394005,
+      "kl": 0.0009393692016601562,
       "learning_rate": 0.0,
+      "loss": -0.0003,
+      "num_tokens": 601834.0,
+      "reward": 0.4602593183517456,
+      "reward_std": 0.24803586304187775,
+      "rewards/avg_thinking_length_func": 185.02471923828125,
+      "rewards/correct_answer_reward_func": 0.453125,
+      "rewards/efficient_thinking_reward_func": 0.8889554441999474,
       "rewards/format_reward_func": 1.0,
+      "rewards/num_xml_reward_func": 1.7176268100738525,
+      "rewards/tool_execution_reward_func": 1.9936248064041138,
+      "rewards/visit_tool_reward_func": 0.9308543801307678,
       "step": 1
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 4.8449612403100775e-05,
+      "grad_norm": 0.016953615886545852,
+      "kl": 0.0009393692016601562,
       "learning_rate": 6.25e-08,
+      "loss": -0.0003,
       "step": 2
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 7.267441860465116e-05,
+      "grad_norm": 0.016864690676516626,
+      "kl": 0.0009565353393554688,
       "learning_rate": 1.25e-07,
+      "loss": -0.0003,
       "step": 3
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 9.689922480620155e-05,
+      "grad_norm": 0.016822420848305722,
+      "kl": 0.0009622573852539062,
       "learning_rate": 1.875e-07,
+      "loss": -0.0003,
       "step": 4
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 9385.0,
+      "completions/max_terminated_length": 9385.0,
+      "completions/mean_length": 4270.703125,
+      "completions/mean_terminated_length": 4270.703125,
+      "completions/min_length": 1390.0,
+      "completions/min_terminated_length": 1390.0,
+      "epoch": 0.00012112403100775194,
+      "grad_norm": 0.025862550499858347,
+      "kl": 0.000957489013671875,
       "learning_rate": 2.5e-07,
+      "loss": 0.0031,
+      "num_tokens": 1199795.0,
+      "reward": 0.566771388053894,
+      "reward_std": 0.48137491941452026,
+      "rewards/avg_thinking_length_func": 182.33303833007812,
+      "rewards/correct_answer_reward_func": 0.578125,
+      "rewards/efficient_thinking_reward_func": 0.8707049785861538,
       "rewards/format_reward_func": 1.0,
+      "rewards/num_xml_reward_func": 1.7195165157318115,
+      "rewards/tool_execution_reward_func": 1.9965277910232544,
+      "rewards/visit_tool_reward_func": 0.9274243116378784,
       "step": 5
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.00014534883720930232,
+      "grad_norm": 0.025877236026611388,
+      "kl": 0.0009489059448242188,
       "learning_rate": 3.1249999999999997e-07,
+      "loss": 0.0031,
       "step": 6
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0001695736434108527,
+      "grad_norm": 0.025817236127475232,
+      "kl": 0.0009660720825195312,
       "learning_rate": 3.75e-07,
+      "loss": 0.0031,
       "step": 7
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0001937984496124031,
+      "grad_norm": 0.02584169829863559,
+      "kl": 0.0009441375732421875,
       "learning_rate": 4.375e-07,
+      "loss": 0.0031,
       "step": 8
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 7008.0,
+      "completions/max_terminated_length": 7008.0,
+      "completions/mean_length": 4088.546875,
+      "completions/mean_terminated_length": 4088.546875,
+      "completions/min_length": 1705.0,
+      "completions/min_terminated_length": 1705.0,
+      "epoch": 0.00021802325581395349,
+      "grad_norm": 0.01625597308376849,
+      "kl": 0.0009918212890625,
       "learning_rate": 5e-07,
+      "loss": 0.0013,
+      "num_tokens": 1783761.0,
+      "reward": 0.3732198178768158,
+      "reward_std": 0.2907864451408386,
+      "rewards/avg_thinking_length_func": 177.95510864257812,
+      "rewards/correct_answer_reward_func": 0.390625,
+      "rewards/efficient_thinking_reward_func": 0.8993925619789238,
       "rewards/format_reward_func": 1.0,
+      "rewards/num_xml_reward_func": 1.6866124868392944,
+      "rewards/tool_execution_reward_func": 1.950781226158142,
+      "rewards/visit_tool_reward_func": 0.8574961423873901,
       "step": 9
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.00024224806201550387,
+      "grad_norm": 0.016618535814852814,
+      "kl": 0.0009899139404296875,
       "learning_rate": 5.625e-07,
+      "loss": 0.0013,
       "step": 10
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.00026647286821705426,
+      "grad_norm": 0.016248156263205492,
+      "kl": 0.0009660720825195312,
       "learning_rate": 6.249999999999999e-07,
+      "loss": 0.0013,
       "step": 11
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.00029069767441860465,
+      "grad_norm": 0.016111032400620007,
+      "kl": 0.0009870529174804688,
       "learning_rate": 6.875e-07,
+      "loss": 0.0013,
       "step": 12
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 6572.0,
+      "completions/max_terminated_length": 6572.0,
+      "completions/mean_length": 4119.703125,
+      "completions/mean_terminated_length": 4119.703125,
+      "completions/min_length": 1356.0,
+      "completions/min_terminated_length": 1356.0,
+      "epoch": 0.00031492248062015503,
+      "grad_norm": 0.019643777904198217,
+      "kl": 0.0009822845458984375,
       "learning_rate": 7.5e-07,
+      "loss": -0.0008,
+      "num_tokens": 2367034.0,
+      "reward": 0.6774564981460571,
+      "reward_std": 0.3563808798789978,
+      "rewards/avg_thinking_length_func": 176.69476318359375,
+      "rewards/correct_answer_reward_func": 0.625,
+      "rewards/efficient_thinking_reward_func": 0.8704519537344548,
       "rewards/format_reward_func": 1.0,
+      "rewards/num_xml_reward_func": 1.6578426361083984,
+      "rewards/tool_execution_reward_func": 2.0,
+      "rewards/visit_tool_reward_func": 0.9361900091171265,
       "step": 13
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0003391472868217054,
+      "grad_norm": 0.0194815826710202,
+      "kl": 0.0010242462158203125,
       "learning_rate": 8.125e-07,
+      "loss": -0.0008,
       "step": 14
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0003633720930232558,
+      "grad_norm": 0.019402854833833996,
+      "kl": 0.0010585784912109375,
       "learning_rate": 8.75e-07,
+      "loss": -0.0008,
       "step": 15
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0003875968992248062,
+      "grad_norm": 0.019438299719581362,
+      "kl": 0.0011272430419921875,
       "learning_rate": 9.374999999999999e-07,
+      "loss": -0.0008,
       "step": 16
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 7597.0,
+      "completions/max_terminated_length": 7597.0,
+      "completions/mean_length": 4205.671875,
+      "completions/mean_terminated_length": 4205.671875,
+      "completions/min_length": 1507.0,
+      "completions/min_terminated_length": 1507.0,
+      "epoch": 0.0004118217054263566,
+      "grad_norm": 0.014823687168402296,
+      "kl": 0.0011005401611328125,
       "learning_rate": 1e-06,
+      "loss": 0.0009,
+      "num_tokens": 2985545.0,
+      "reward": 0.3260263204574585,
+      "reward_std": 0.2300996333360672,
+      "rewards/avg_thinking_length_func": 177.14329528808594,
+      "rewards/correct_answer_reward_func": 0.375,
+      "rewards/efficient_thinking_reward_func": 0.8988714947132084,
       "rewards/format_reward_func": 1.0,
+      "rewards/num_xml_reward_func": 1.8095711469650269,
+      "rewards/tool_execution_reward_func": 1.99609375,
+      "rewards/visit_tool_reward_func": 0.852025032043457,
       "step": 17
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.00043604651162790697,
+      "grad_norm": 0.014727006858324664,
+      "kl": 0.0011577606201171875,
       "learning_rate": 1.0625e-06,
+      "loss": 0.0009,
       "step": 18
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.00046027131782945736,
+      "grad_norm": 0.014837711956269274,
+      "kl": 0.0012722015380859375,
       "learning_rate": 1.125e-06,
+      "loss": 0.0009,
       "step": 19
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.00048449612403100775,
+      "grad_norm": 0.014894430575329584,
+      "kl": 0.00146484375,
       "learning_rate": 1.1874999999999999e-06,
+      "loss": 0.0009,
       "step": 20
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 7476.0,
+      "completions/max_terminated_length": 7476.0,
+      "completions/mean_length": 4097.921875,
+      "completions/mean_terminated_length": 4097.921875,
+      "completions/min_length": 1514.0,
+      "completions/min_terminated_length": 1514.0,
+      "epoch": 0.0005087209302325581,
+      "grad_norm": 0.0189498267274778,
+      "kl": 0.0019931793212890625,
       "learning_rate": 1.2499999999999999e-06,
+      "loss": 0.0003,
+      "num_tokens": 3561495.0,
+      "reward": 0.5717383623123169,
+      "reward_std": 0.33007949590682983,
+      "rewards/avg_thinking_length_func": 177.5142822265625,
+      "rewards/correct_answer_reward_func": 0.53125,
+      "rewards/efficient_thinking_reward_func": 0.8662384906971484,
+      "rewards/format_reward_func": 0.9937499761581421,
+      "rewards/num_xml_reward_func": 1.779766321182251,
+      "rewards/tool_execution_reward_func": 1.979819416999817,
+      "rewards/visit_tool_reward_func": 0.9004297256469727,
       "step": 21
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0005329457364341085,
+      "grad_norm": 0.019010527717988047,
+      "kl": 0.00229644775390625,
       "learning_rate": 1.3125e-06,
+      "loss": 0.0003,
       "step": 22
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0005571705426356589,
+      "grad_norm": 0.01910688815244073,
+      "kl": 0.00276947021484375,
       "learning_rate": 1.375e-06,
+      "loss": 0.0003,
       "step": 23
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0005813953488372093,
+      "grad_norm": 0.019047374161024387,
+      "kl": 0.00327301025390625,
       "learning_rate": 1.4375e-06,
+      "loss": 0.0003,
       "step": 24
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 7779.0,
+      "completions/max_terminated_length": 7779.0,
+      "completions/mean_length": 4011.9375,
+      "completions/mean_terminated_length": 4011.9375,
+      "completions/min_length": 1884.0,
+      "completions/min_terminated_length": 1884.0,
+      "epoch": 0.0006056201550387597,
+      "grad_norm": 0.01969391991938911,
+      "kl": 0.0029449462890625,
       "learning_rate": 1.5e-06,
+      "loss": 0.0003,
+      "num_tokens": 4148002.0,
+      "reward": 0.4466557502746582,
+      "reward_std": 0.2478387951850891,
+      "rewards/avg_thinking_length_func": 174.6974639892578,
+      "rewards/correct_answer_reward_func": 0.40625,
+      "rewards/efficient_thinking_reward_func": 0.9054659197504085,
       "rewards/format_reward_func": 1.0,
+      "rewards/num_xml_reward_func": 1.806973934173584,
+      "rewards/tool_execution_reward_func": 1.9922122955322266,
+      "rewards/visit_tool_reward_func": 0.871803879737854,
       "step": 25
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0006298449612403101,
+      "grad_norm": 0.01979038843755439,
+      "kl": 0.003414154052734375,
       "learning_rate": 1.5624999999999999e-06,
+      "loss": 0.0003,
       "step": 26
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0006540697674418605,
+      "grad_norm": 0.019676702255338734,
+      "kl": 0.004245758056640625,
       "learning_rate": 1.625e-06,
+      "loss": 0.0003,
       "step": 27
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0006782945736434108,
+      "grad_norm": 0.0198896583655868,
+      "kl": 0.00508880615234375,
       "learning_rate": 1.6875e-06,
+      "loss": 0.0003,
       "step": 28
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 7881.0,
+      "completions/max_terminated_length": 7881.0,
+      "completions/mean_length": 4278.0,
+      "completions/mean_terminated_length": 4278.0,
+      "completions/min_length": 1269.0,
+      "completions/min_terminated_length": 1269.0,
+      "epoch": 0.0007025193798449612,
+      "grad_norm": 0.02473412222614823,
+      "kl": 0.00722503662109375,
       "learning_rate": 1.75e-06,
+      "loss": 0.0005,
+      "num_tokens": 4732732.0,
+      "reward": 0.639769971370697,
+      "reward_std": 0.3489268720149994,
+      "rewards/avg_thinking_length_func": 183.79090881347656,
+      "rewards/correct_answer_reward_func": 0.640625,
+      "rewards/efficient_thinking_reward_func": 0.8433743364598003,
+      "rewards/format_reward_func": 0.9991071224212646,
+      "rewards/num_xml_reward_func": 1.686936616897583,
+      "rewards/tool_execution_reward_func": 1.9818710088729858,
+      "rewards/visit_tool_reward_func": 0.923589289188385,
       "step": 29
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0007267441860465116,
+      "grad_norm": 0.024757116664213524,
+      "kl": 0.0076904296875,
       "learning_rate": 1.8125e-06,
+      "loss": 0.0005,
       "step": 30
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.000750968992248062,
+      "grad_norm": 0.02444644630643307,
+      "kl": 0.0073394775390625,
       "learning_rate": 1.8749999999999998e-06,
+      "loss": 0.0005,
       "step": 31
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0007751937984496124,
+      "grad_norm": 0.024210451469423133,
+      "kl": 0.007171630859375,
       "learning_rate": 1.9375e-06,
+      "loss": 0.0005,
       "step": 32
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 7912.0,
+      "completions/max_terminated_length": 7912.0,
+      "completions/mean_length": 4317.890625,
+      "completions/mean_terminated_length": 4317.890625,
+      "completions/min_length": 1736.0,
+      "completions/min_terminated_length": 1736.0,
+      "epoch": 0.0007994186046511628,
+      "grad_norm": 0.020658762871057952,
+      "kl": 0.007049560546875,
       "learning_rate": 2e-06,
+      "loss": -0.0,
+      "num_tokens": 5347783.0,
+      "reward": 0.33683592081069946,
+      "reward_std": 0.32624948024749756,
+      "rewards/avg_thinking_length_func": 177.01129150390625,
+      "rewards/correct_answer_reward_func": 0.375,
+      "rewards/efficient_thinking_reward_func": 0.8817601664392056,
       "rewards/format_reward_func": 1.0,
+      "rewards/num_xml_reward_func": 1.5408036708831787,
+      "rewards/tool_execution_reward_func": 1.9917367696762085,
+      "rewards/visit_tool_reward_func": 0.9276807308197021,
       "step": 33
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0008236434108527132,
+      "grad_norm": 0.02072632567074888,
+      "kl": 0.0077972412109375,
       "learning_rate": 2e-06,
+      "loss": -0.0,
       "step": 34
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0008478682170542636,
+      "grad_norm": 0.020770020029080613,
+      "kl": 0.0087432861328125,
       "learning_rate": 2e-06,
+      "loss": -0.0,
       "step": 35
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0008720930232558139,
+      "grad_norm": 0.020487067102301602,
+      "kl": 0.0097198486328125,
       "learning_rate": 2e-06,
+      "loss": -0.0,
       "step": 36
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 7378.0,
+      "completions/max_terminated_length": 7378.0,
+      "completions/mean_length": 4152.5,
+      "completions/mean_terminated_length": 4152.5,
+      "completions/min_length": 1423.0,
+      "completions/min_terminated_length": 1423.0,
+      "epoch": 0.0008963178294573643,
+      "grad_norm": 0.022364107178309313,
+      "kl": 0.0112152099609375,
       "learning_rate": 2e-06,
+      "loss": -0.0001,
+      "num_tokens": 5921090.0,
+      "reward": 0.6556656360626221,
+      "reward_std": 0.5008378028869629,
+      "rewards/avg_thinking_length_func": 170.4791259765625,
+      "rewards/correct_answer_reward_func": 0.625,
+      "rewards/efficient_thinking_reward_func": 0.8892575272805912,
+      "rewards/format_reward_func": 0.987500011920929,
+      "rewards/num_xml_reward_func": 1.5408031940460205,
+      "rewards/tool_execution_reward_func": 1.96875,
+      "rewards/visit_tool_reward_func": 0.9249746799468994,
       "step": 37
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0009205426356589147,
+      "grad_norm": 0.022597206540891295,
+      "kl": 0.0123443603515625,
       "learning_rate": 2e-06,
+      "loss": -0.0001,
       "step": 38
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0009447674418604651,
+      "grad_norm": 0.02246679376217943,
+      "kl": 0.013580322265625,
       "learning_rate": 2e-06,
+      "loss": -0.0001,
       "step": 39
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0009689922480620155,
+      "grad_norm": 0.022296105800735398,
+      "kl": 0.015106201171875,
       "learning_rate": 2e-06,
+      "loss": -0.0001,
       "step": 40
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 7494.0,
+      "completions/max_terminated_length": 7494.0,
+      "completions/mean_length": 4562.296875,
+      "completions/mean_terminated_length": 4562.296875,
+      "completions/min_length": 2143.0,
+      "completions/min_terminated_length": 2143.0,
+      "epoch": 0.0009932170542635659,
+      "grad_norm": 0.021503135345542313,
+      "kl": 0.015594482421875,
       "learning_rate": 2e-06,
+      "loss": 0.0007,
+      "num_tokens": 6556719.0,
+      "reward": 0.47225743532180786,
+      "reward_std": 0.3904932141304016,
+      "rewards/avg_thinking_length_func": 169.57839965820312,
+      "rewards/correct_answer_reward_func": 0.4375,
+      "rewards/efficient_thinking_reward_func": 0.917264621947748,
       "rewards/format_reward_func": 1.0,
+      "rewards/num_xml_reward_func": 1.817958116531372,
+      "rewards/tool_execution_reward_func": 1.9884111881256104,
+      "rewards/visit_tool_reward_func": 0.9651369452476501,
       "step": 41
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0010174418604651163,
+      "grad_norm": 0.02149252867250571,
+      "kl": 0.01715087890625,
       "learning_rate": 2e-06,
+      "loss": 0.0007,
       "step": 42
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0010416666666666667,
+      "grad_norm": 0.02173596902997293,
+      "kl": 0.018798828125,
       "learning_rate": 2e-06,
+      "loss": 0.0007,
       "step": 43
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.001065891472868217,
+      "grad_norm": 0.02188237517399594,
+      "kl": 0.020751953125,
       "learning_rate": 2e-06,
+      "loss": 0.0007,
       "step": 44
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 9017.0,
+      "completions/max_terminated_length": 9017.0,
+      "completions/mean_length": 4664.796875,
+      "completions/mean_terminated_length": 4664.796875,
+      "completions/min_length": 1910.0,
+      "completions/min_terminated_length": 1910.0,
+      "epoch": 0.0010901162790697674,
+      "grad_norm": 0.02354857583102173,
+      "kl": 0.020477294921875,
       "learning_rate": 2e-06,
+      "loss": -0.0014,
+      "num_tokens": 7181732.0,
+      "reward": 0.7991669178009033,
+      "reward_std": 0.36247026920318604,
+      "rewards/avg_thinking_length_func": 171.8461151123047,
+      "rewards/correct_answer_reward_func": 0.703125,
+      "rewards/efficient_thinking_reward_func": 0.8915984372821139,
+      "rewards/format_reward_func": 0.9998437166213989,
+      "rewards/num_xml_reward_func": 1.8501074314117432,
+      "rewards/tool_execution_reward_func": 1.9971354007720947,
+      "rewards/visit_tool_reward_func": 1.071668028831482,
       "step": 45
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0011143410852713178,
+      "grad_norm": 0.023994471938115103,
+      "kl": 0.0224609375,
       "learning_rate": 2e-06,
+      "loss": -0.0014,
       "step": 46
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0011385658914728682,
+      "grad_norm": 0.026516939220345738,
+      "kl": 0.02508544921875,
       "learning_rate": 2e-06,
+      "loss": -0.0014,
       "step": 47
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0011627906976744186,
+      "grad_norm": 0.024485287814160223,
+      "kl": 0.0262451171875,
       "learning_rate": 2e-06,
+      "loss": -0.0014,
       "step": 48
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 8522.0,
+      "completions/max_terminated_length": 8522.0,
+      "completions/mean_length": 4866.125,
+      "completions/mean_terminated_length": 4866.125,
+      "completions/min_length": 1959.0,
+      "completions/min_terminated_length": 1959.0,
+      "epoch": 0.001187015503875969,
+      "grad_norm": 0.02407332594201,
+      "kl": 0.032012939453125,
       "learning_rate": 2e-06,
+      "loss": 0.0014,
+      "num_tokens": 7868034.0,
+      "reward": 0.39128515124320984,
+      "reward_std": 0.3533371090888977,
+      "rewards/avg_thinking_length_func": 164.74734497070312,
+      "rewards/correct_answer_reward_func": 0.359375,
+      "rewards/efficient_thinking_reward_func": 0.9209367558816545,
       "rewards/format_reward_func": 1.0,
+      "rewards/num_xml_reward_func": 1.6406757831573486,
+      "rewards/tool_execution_reward_func": 1.98927903175354,
+      "rewards/visit_tool_reward_func": 1.0120830535888672,
       "step": 49
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0012112403100775194,
+      "grad_norm": 0.02479690454991753,
+      "kl": 0.035888671875,
       "learning_rate": 2e-06,
+      "loss": 0.0014,
       "step": 50
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0012354651162790698,
+      "grad_norm": 0.027012142633289393,
+      "kl": 0.04046630859375,
       "learning_rate": 2e-06,
+      "loss": 0.0014,
       "step": 51
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0012596899224806201,
+      "grad_norm": 0.026499465739179152,
+      "kl": 0.04803466796875,
       "learning_rate": 2e-06,
+      "loss": 0.0014,
       "step": 52
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 7622.0,
+      "completions/max_terminated_length": 7622.0,
+      "completions/mean_length": 4509.75,
+      "completions/mean_terminated_length": 4509.75,
+      "completions/min_length": 1816.0,
+      "completions/min_terminated_length": 1816.0,
+      "epoch": 0.0012839147286821705,
+      "grad_norm": 0.019741394516818018,
+      "kl": 0.04510498046875,
       "learning_rate": 2e-06,
+      "loss": 0.0,
+      "num_tokens": 8481102.0,
+      "reward": 0.7655854225158691,
+      "reward_std": 0.27847254276275635,
+      "rewards/avg_thinking_length_func": 158.9434051513672,
+      "rewards/correct_answer_reward_func": 0.671875,
+      "rewards/efficient_thinking_reward_func": 0.884494477975468,
       "rewards/format_reward_func": 1.0,
+      "rewards/num_xml_reward_func": 1.8834664821624756,
       "rewards/tool_execution_reward_func": 2.0,
+      "rewards/visit_tool_reward_func": 1.1049017906188965,
       "step": 53
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.001308139534883721,
+      "grad_norm": 0.028517188784132036,
+      "kl": 0.06060791015625,
       "learning_rate": 2e-06,
+      "loss": 0.0001,
       "step": 54
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0013323643410852713,
+      "grad_norm": 0.02643367822401968,
+      "kl": 0.06280517578125,
       "learning_rate": 2e-06,
+      "loss": 0.0001,
       "step": 55
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0013565891472868217,
+      "grad_norm": 0.020594752118506976,
+      "kl": 0.056884765625,
       "learning_rate": 2e-06,
+      "loss": 0.0001,
       "step": 56
     },
     {
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 7375.0,
+      "completions/max_terminated_length": 7375.0,
+      "completions/mean_length": 4285.046875,
+      "completions/mean_terminated_length": 4285.046875,
+      "completions/min_length": 2418.0,
+      "completions/min_terminated_length": 2418.0,
+      "epoch": 0.001380813953488372,
+      "grad_norm": 0.019100627823517295,
+      "kl": 0.06195068359375,
       "learning_rate": 2e-06,
+      "loss": 0.0005,
+      "num_tokens": 9112297.0,
+      "reward": 0.5274717807769775,
+      "reward_std": 0.2380232810974121,
+      "rewards/avg_thinking_length_func": 145.75924682617188,
+      "rewards/correct_answer_reward_func": 0.453125,
+      "rewards/efficient_thinking_reward_func": 0.9274070198828231,
       "rewards/format_reward_func": 1.0,
+      "rewards/num_xml_reward_func": 1.7929463386535645,
+      "rewards/tool_execution_reward_func": 1.9959805011749268,
+      "rewards/visit_tool_reward_func": 1.0335674285888672,
       "step": 57
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0014050387596899225,
+      "grad_norm": 0.019834849658967178,
+      "kl": 0.06695556640625,
       "learning_rate": 2e-06,
+      "loss": 0.0005,
       "step": 58
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0014292635658914728,
+      "grad_norm": 0.020359737753586633,
+      "kl": 0.0740966796875,
       "learning_rate": 2e-06,
+      "loss": 0.0005,
       "step": 59
     },
     {
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "epoch": 0.0014534883720930232,
+      "grad_norm": 0.020904893352951728,
+      "kl": 0.085693359375,
       "learning_rate": 2e-06,
+      "loss": 0.0005,
       "step": 60
     }
   ],
   "logging_steps": 1,
   "max_steps": 640,
+  "num_input_tokens_seen": 9112297,
   "num_train_epochs": 1,
   "save_steps": 20,
   "stateful_callbacks": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11bcd76e4cac994c7f4a4f0f72f38922a2e0592872e99e4bfd16fb340f40dfb4
 size 8465

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ae74d09b5b242d5ca59c2266e1297852a0f23aabeea82e2a73b716a08ef1d73
 size 8465