diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,28034 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.73972602739726,
+  "eval_steps": 500,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 463.84375,
+      "epoch": 0.0013698630136986301,
+      "grad_norm": 3.912295341491699,
+      "kl": 0.0006895065307617188,
+      "learning_rate": 9.995433789954337e-07,
+      "loss": 0.0,
+      "reward": 0.734375,
+      "reward_std": 0.6482069045305252,
+      "rewards/accuracy_reward": 0.296875,
+      "rewards/format_reward": 0.4375,
+      "step": 1
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 480.53125,
+      "epoch": 0.0027397260273972603,
+      "grad_norm": 4.425003528594971,
+      "kl": 0.0008821487426757812,
+      "learning_rate": 9.990867579908674e-07,
+      "loss": 0.0,
+      "reward": 0.734375,
+      "reward_std": 0.5391269624233246,
+      "rewards/accuracy_reward": 0.296875,
+      "rewards/format_reward": 0.4375,
+      "step": 2
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 407.46875,
+      "epoch": 0.00410958904109589,
+      "grad_norm": 4.136044979095459,
+      "kl": 0.0013284683227539062,
+      "learning_rate": 9.986301369863014e-07,
+      "loss": 0.0,
+      "reward": 0.909375011920929,
+      "reward_std": 0.49507734179496765,
+      "rewards/accuracy_reward": 0.25312499701976776,
+      "rewards/format_reward": 0.65625,
+      "step": 3
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 463.9375,
+      "epoch": 0.005479452054794521,
+      "grad_norm": 3.070124864578247,
+      "kl": 0.0018978118896484375,
+      "learning_rate": 9.98173515981735e-07,
+      "loss": 0.0,
+      "reward": 0.859375,
+      "reward_std": 0.5979855433106422,
+      "rewards/accuracy_reward": 0.265625,
+      "rewards/format_reward": 0.59375,
+      "step": 4
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 348.75,
+      "epoch": 0.00684931506849315,
+      "grad_norm": 3.5212478637695312,
+      "kl": 0.00206756591796875,
+      "learning_rate": 9.977168949771688e-07,
+      "loss": 0.0,
+      "reward": 1.3125,
+      "reward_std": 0.6811521649360657,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 0.78125,
+      "step": 5
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.0625,
+      "epoch": 0.00821917808219178,
+      "grad_norm": 3.7381842136383057,
+      "kl": 0.002559661865234375,
+      "learning_rate": 9.972602739726028e-07,
+      "loss": 0.0,
+      "reward": 1.109375,
+      "reward_std": 0.3039700835943222,
+      "rewards/accuracy_reward": 0.171875,
+      "rewards/format_reward": 0.9375,
+      "step": 6
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.1875,
+      "epoch": 0.009589041095890411,
+      "grad_norm": 2.0565128326416016,
+      "kl": 0.003376007080078125,
+      "learning_rate": 9.968036529680365e-07,
+      "loss": 0.0,
+      "reward": 1.296875,
+      "reward_std": 0.1530819907784462,
+      "rewards/accuracy_reward": 0.296875,
+      "rewards/format_reward": 1.0,
+      "step": 7
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 381.5625,
+      "epoch": 0.010958904109589041,
+      "grad_norm": 3.6933867931365967,
+      "kl": 0.004985809326171875,
+      "learning_rate": 9.963470319634703e-07,
+      "loss": 0.0,
+      "reward": 1.390625,
+      "reward_std": 0.5591665953397751,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 0.875,
+      "step": 8
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 539.625,
+      "epoch": 0.012328767123287671,
+      "grad_norm": 15.956212043762207,
+      "kl": 0.006072998046875,
+      "learning_rate": 9.95890410958904e-07,
+      "loss": 0.0,
+      "reward": 1.1119791865348816,
+      "reward_std": 0.5166353359818459,
+      "rewards/accuracy_reward": 0.2369791567325592,
+      "rewards/format_reward": 0.875,
+      "step": 9
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 557.15625,
+      "epoch": 0.0136986301369863,
+      "grad_norm": 2.227487802505493,
+      "kl": 0.0097808837890625,
+      "learning_rate": 9.954337899543377e-07,
+      "loss": 0.0,
+      "reward": 1.0885416567325592,
+      "reward_std": 0.4930662214756012,
+      "rewards/accuracy_reward": 0.2760416716337204,
+      "rewards/format_reward": 0.8125,
+      "step": 10
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.625,
+      "epoch": 0.015068493150684932,
+      "grad_norm": 4.018799781799316,
+      "kl": 0.00763702392578125,
+      "learning_rate": 9.949771689497717e-07,
+      "loss": 0.0,
+      "reward": 1.234375,
+      "reward_std": 0.49322642385959625,
+      "rewards/accuracy_reward": 0.328125,
+      "rewards/format_reward": 0.90625,
+      "step": 11
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 506.96875,
+      "epoch": 0.01643835616438356,
+      "grad_norm": 2.298476219177246,
+      "kl": 0.01721954345703125,
+      "learning_rate": 9.945205479452054e-07,
+      "loss": 0.0,
+      "reward": 1.15625,
+      "reward_std": 0.5379246100783348,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 0.875,
+      "step": 12
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 581.78125,
+      "epoch": 0.01780821917808219,
+      "grad_norm": 5.038638591766357,
+      "kl": 0.015594482421875,
+      "learning_rate": 9.940639269406391e-07,
+      "loss": 0.0,
+      "reward": 1.1875,
+      "reward_std": 0.48483333736658096,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 0.875,
+      "step": 13
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.40625,
+      "epoch": 0.019178082191780823,
+      "grad_norm": 3.0773346424102783,
+      "kl": 0.0150146484375,
+      "learning_rate": 9.93607305936073e-07,
+      "loss": 0.0,
+      "reward": 1.15625,
+      "reward_std": 0.3471629247069359,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/format_reward": 0.96875,
+      "step": 14
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 564.25,
+      "epoch": 0.02054794520547945,
+      "grad_norm": 4.9919514656066895,
+      "kl": 0.02197265625,
+      "learning_rate": 9.931506849315068e-07,
+      "loss": 0.0,
+      "reward": 1.234375,
+      "reward_std": 0.40913281589746475,
+      "rewards/accuracy_reward": 0.265625,
+      "rewards/format_reward": 0.96875,
+      "step": 15
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 573.25,
+      "epoch": 0.021917808219178082,
+      "grad_norm": 4.952914714813232,
+      "kl": 0.0227508544921875,
+      "learning_rate": 9.926940639269406e-07,
+      "loss": 0.0,
+      "reward": 1.3359375,
+      "reward_std": 0.3955412805080414,
+      "rewards/accuracy_reward": 0.4296875,
+      "rewards/format_reward": 0.90625,
+      "step": 16
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 447.96875,
+      "epoch": 0.023287671232876714,
+      "grad_norm": 2.7455577850341797,
+      "kl": 0.0212554931640625,
+      "learning_rate": 9.922374429223745e-07,
+      "loss": 0.0,
+      "reward": 1.25,
+      "reward_std": 0.4765502139925957,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 0.96875,
+      "step": 17
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 607.875,
+      "epoch": 0.024657534246575342,
+      "grad_norm": 5.91363525390625,
+      "kl": 0.021270751953125,
+      "learning_rate": 9.917808219178082e-07,
+      "loss": 0.0,
+      "reward": 1.2265625,
+      "reward_std": 0.5312308222055435,
+      "rewards/accuracy_reward": 0.3203125,
+      "rewards/format_reward": 0.90625,
+      "step": 18
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 538.09375,
+      "epoch": 0.026027397260273973,
+      "grad_norm": 4.743810653686523,
+      "kl": 0.0315704345703125,
+      "learning_rate": 9.91324200913242e-07,
+      "loss": 0.0,
+      "reward": 1.1875,
+      "reward_std": 0.6161536350846291,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 0.875,
+      "step": 19
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 450.5,
+      "epoch": 0.0273972602739726,
+      "grad_norm": 1.7055182456970215,
+      "kl": 0.027923583984375,
+      "learning_rate": 9.908675799086757e-07,
+      "loss": 0.0,
+      "reward": 1.234375,
+      "reward_std": 0.13939543068408966,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 20
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 600.6875,
+      "epoch": 0.028767123287671233,
+      "grad_norm": 2.169266700744629,
+      "kl": 0.04107666015625,
+      "learning_rate": 9.904109589041094e-07,
+      "loss": 0.0,
+      "reward": 1.3229166865348816,
+      "reward_std": 0.23428862541913986,
+      "rewards/accuracy_reward": 0.3541666567325592,
+      "rewards/format_reward": 0.96875,
+      "step": 21
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 531.53125,
+      "epoch": 0.030136986301369864,
+      "grad_norm": 3.142946720123291,
+      "kl": 0.0318145751953125,
+      "learning_rate": 9.899543378995434e-07,
+      "loss": 0.0,
+      "reward": 1.2890625,
+      "reward_std": 0.46334072202444077,
+      "rewards/accuracy_reward": 0.3515625,
+      "rewards/format_reward": 0.9375,
+      "step": 22
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 383.65625,
+      "epoch": 0.031506849315068496,
+      "grad_norm": 4.148040294647217,
+      "kl": 0.021270751953125,
+      "learning_rate": 9.894977168949771e-07,
+      "loss": 0.0,
+      "reward": 1.234375,
+      "reward_std": 0.3653144985437393,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 23
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 524.15625,
+      "epoch": 0.03287671232876712,
+      "grad_norm": 3.037674903869629,
+      "kl": 0.03924560546875,
+      "learning_rate": 9.89041095890411e-07,
+      "loss": 0.0,
+      "reward": 1.3385416865348816,
+      "reward_std": 0.3099621832370758,
+      "rewards/accuracy_reward": 0.3697916567325592,
+      "rewards/format_reward": 0.96875,
+      "step": 24
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 554.1875,
+      "epoch": 0.03424657534246575,
+      "grad_norm": 4.072643280029297,
+      "kl": 0.036590576171875,
+      "learning_rate": 9.885844748858448e-07,
+      "loss": 0.0,
+      "reward": 1.453125,
+      "reward_std": 0.40609828382730484,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 25
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 414.90625,
+      "epoch": 0.03561643835616438,
+      "grad_norm": 6.202883243560791,
+      "kl": 0.03265380859375,
+      "learning_rate": 9.881278538812785e-07,
+      "loss": 0.0,
+      "reward": 1.171875,
+      "reward_std": 0.19583626091480255,
+      "rewards/accuracy_reward": 0.171875,
+      "rewards/format_reward": 1.0,
+      "step": 26
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 531.75,
+      "epoch": 0.036986301369863014,
+      "grad_norm": 2.829223155975342,
+      "kl": 0.0391693115234375,
+      "learning_rate": 9.876712328767123e-07,
+      "loss": 0.0,
+      "reward": 1.46875,
+      "reward_std": 0.22084104642271996,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 27
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 398.96875,
+      "epoch": 0.038356164383561646,
+      "grad_norm": 3.0730113983154297,
+      "kl": 0.043853759765625,
+      "learning_rate": 9.87214611872146e-07,
+      "loss": 0.0,
+      "reward": 1.46875,
+      "reward_std": 0.36339621990919113,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.96875,
+      "step": 28
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 627.34375,
+      "epoch": 0.03972602739726028,
+      "grad_norm": 3.6202750205993652,
+      "kl": 0.0521240234375,
+      "learning_rate": 9.867579908675797e-07,
+      "loss": 0.0001,
+      "reward": 1.43359375,
+      "reward_std": 0.4707936607301235,
+      "rewards/accuracy_reward": 0.52734375,
+      "rewards/format_reward": 0.90625,
+      "step": 29
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.75,
+      "epoch": 0.0410958904109589,
+      "grad_norm": 2.320294141769409,
+      "kl": 0.040008544921875,
+      "learning_rate": 9.863013698630137e-07,
+      "loss": 0.0,
+      "reward": 1.0,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.03125,
+      "rewards/format_reward": 0.96875,
+      "step": 30
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 598.125,
+      "epoch": 0.04246575342465753,
+      "grad_norm": 3.044395685195923,
+      "kl": 0.05633544921875,
+      "learning_rate": 9.858447488584474e-07,
+      "loss": 0.0001,
+      "reward": 1.46875,
+      "reward_std": 0.346555445343256,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.96875,
+      "step": 31
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.65625,
+      "epoch": 0.043835616438356165,
+      "grad_norm": 2.4935569763183594,
+      "kl": 0.04290771484375,
+      "learning_rate": 9.853881278538814e-07,
+      "loss": 0.0,
+      "reward": 1.09375,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.09375,
+      "rewards/format_reward": 1.0,
+      "step": 32
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 430.46875,
+      "epoch": 0.045205479452054796,
+      "grad_norm": 2.3980815410614014,
+      "kl": 0.06085205078125,
+      "learning_rate": 9.84931506849315e-07,
+      "loss": 0.0001,
+      "reward": 1.28125,
+      "reward_std": 0.30371319502592087,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 0.96875,
+      "step": 33
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 556.6875,
+      "epoch": 0.04657534246575343,
+      "grad_norm": 1.6388932466506958,
+      "kl": 0.04888916015625,
+      "learning_rate": 9.844748858447488e-07,
+      "loss": 0.0,
+      "reward": 1.421875,
+      "reward_std": 0.1711306795477867,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 34
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 525.09375,
+      "epoch": 0.04794520547945205,
+      "grad_norm": 2.9538469314575195,
+      "kl": 0.054229736328125,
+      "learning_rate": 9.840182648401826e-07,
+      "loss": 0.0001,
+      "reward": 1.34375,
+      "reward_std": 0.1523548737168312,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 35
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 396.28125,
+      "epoch": 0.049315068493150684,
+      "grad_norm": 1.2823041677474976,
+      "kl": 0.032958984375,
+      "learning_rate": 9.835616438356163e-07,
+      "loss": 0.0,
+      "reward": 1.21875,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 36
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 581.96875,
+      "epoch": 0.050684931506849315,
+      "grad_norm": 10.917831420898438,
+      "kl": 0.0721435546875,
+      "learning_rate": 9.831050228310502e-07,
+      "loss": 0.0001,
+      "reward": 1.50390625,
+      "reward_std": 0.08883348293602467,
+      "rewards/accuracy_reward": 0.50390625,
+      "rewards/format_reward": 1.0,
+      "step": 37
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 489.15625,
+      "epoch": 0.052054794520547946,
+      "grad_norm": 3.121203660964966,
+      "kl": 0.04541015625,
+      "learning_rate": 9.82648401826484e-07,
+      "loss": 0.0,
+      "reward": 1.25,
+      "reward_std": 0.2925042062997818,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 0.96875,
+      "step": 38
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 476.96875,
+      "epoch": 0.05342465753424658,
+      "grad_norm": 2.3028512001037598,
+      "kl": 0.0438232421875,
+      "learning_rate": 9.821917808219177e-07,
+      "loss": 0.0,
+      "reward": 1.4739583134651184,
+      "reward_std": 0.2700696364045143,
+      "rewards/accuracy_reward": 0.4739583432674408,
+      "rewards/format_reward": 1.0,
+      "step": 39
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 626.96875,
+      "epoch": 0.0547945205479452,
+      "grad_norm": 1.8145931959152222,
+      "kl": 0.056488037109375,
+      "learning_rate": 9.817351598173517e-07,
+      "loss": 0.0001,
+      "reward": 1.2421875,
+      "reward_std": 0.3533598557114601,
+      "rewards/accuracy_reward": 0.3046875,
+      "rewards/format_reward": 0.9375,
+      "step": 40
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 507.59375,
+      "epoch": 0.056164383561643834,
+      "grad_norm": 3.3131184577941895,
+      "kl": 0.044189453125,
+      "learning_rate": 9.812785388127854e-07,
+      "loss": 0.0,
+      "reward": 1.34375,
+      "reward_std": 0.4578060656785965,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 0.96875,
+      "step": 41
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 639.9375,
+      "epoch": 0.057534246575342465,
+      "grad_norm": 8.756609916687012,
+      "kl": 0.059814453125,
+      "learning_rate": 9.808219178082191e-07,
+      "loss": 0.0001,
+      "reward": 1.5703125,
+      "reward_std": 0.4013843312859535,
+      "rewards/accuracy_reward": 0.6015625,
+      "rewards/format_reward": 0.96875,
+      "step": 42
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 472.96875,
+      "epoch": 0.0589041095890411,
+      "grad_norm": 2.866149663925171,
+      "kl": 0.0538330078125,
+      "learning_rate": 9.803652968036529e-07,
+      "loss": 0.0001,
+      "reward": 1.3515625,
+      "reward_std": 0.34194046072661877,
+      "rewards/accuracy_reward": 0.3515625,
+      "rewards/format_reward": 1.0,
+      "step": 43
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 667.09375,
+      "epoch": 0.06027397260273973,
+      "grad_norm": 6.409434795379639,
+      "kl": 0.058013916015625,
+      "learning_rate": 9.799086757990868e-07,
+      "loss": 0.0001,
+      "reward": 1.5218749642372131,
+      "reward_std": 0.34158414881676435,
+      "rewards/accuracy_reward": 0.5843749791383743,
+      "rewards/format_reward": 0.9375,
+      "step": 44
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 716.84375,
+      "epoch": 0.06164383561643835,
+      "grad_norm": 1.960483431816101,
+      "kl": 0.0870361328125,
+      "learning_rate": 9.794520547945205e-07,
+      "loss": 0.0001,
+      "reward": 1.3515625,
+      "reward_std": 0.26203832402825356,
+      "rewards/accuracy_reward": 0.3828125,
+      "rewards/format_reward": 0.96875,
+      "step": 45
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 633.34375,
+      "epoch": 0.06301369863013699,
+      "grad_norm": 1.6870055198669434,
+      "kl": 0.06658935546875,
+      "learning_rate": 9.789954337899543e-07,
+      "loss": 0.0001,
+      "reward": 1.2578125,
+      "reward_std": 0.32489965856075287,
+      "rewards/accuracy_reward": 0.3828125,
+      "rewards/format_reward": 0.875,
+      "step": 46
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 515.34375,
+      "epoch": 0.06438356164383562,
+      "grad_norm": 2.6664040088653564,
+      "kl": 0.0615234375,
+      "learning_rate": 9.78538812785388e-07,
+      "loss": 0.0001,
+      "reward": 1.3828125,
+      "reward_std": 0.1984097883105278,
+      "rewards/accuracy_reward": 0.3828125,
+      "rewards/format_reward": 1.0,
+      "step": 47
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 758.625,
+      "epoch": 0.06575342465753424,
+      "grad_norm": 6.174232482910156,
+      "kl": 0.07745361328125,
+      "learning_rate": 9.78082191780822e-07,
+      "loss": 0.0001,
+      "reward": 1.2946428656578064,
+      "reward_std": 0.6038303673267365,
+      "rewards/accuracy_reward": 0.4821428507566452,
+      "rewards/format_reward": 0.8125,
+      "step": 48
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 478.3125,
+      "epoch": 0.06712328767123288,
+      "grad_norm": 4.74515438079834,
+      "kl": 0.06597900390625,
+      "learning_rate": 9.776255707762557e-07,
+      "loss": 0.0001,
+      "reward": 1.2734375,
+      "reward_std": 0.24417023360729218,
+      "rewards/accuracy_reward": 0.2734375,
+      "rewards/format_reward": 1.0,
+      "step": 49
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 534.71875,
+      "epoch": 0.0684931506849315,
+      "grad_norm": 3.3720693588256836,
+      "kl": 0.056671142578125,
+      "learning_rate": 9.771689497716894e-07,
+      "loss": 0.0001,
+      "reward": 1.5,
+      "reward_std": 0.23194295540452003,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 50
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 610.125,
+      "epoch": 0.06986301369863014,
+      "grad_norm": 1.075783133506775,
+      "kl": 0.07354736328125,
+      "learning_rate": 9.767123287671234e-07,
+      "loss": 0.0001,
+      "reward": 1.140625,
+      "reward_std": 0.1530819907784462,
+      "rewards/accuracy_reward": 0.171875,
+      "rewards/format_reward": 0.96875,
+      "step": 51
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 541.5,
+      "epoch": 0.07123287671232877,
+      "grad_norm": 4.1653876304626465,
+      "kl": 0.0670166015625,
+      "learning_rate": 9.762557077625571e-07,
+      "loss": 0.0001,
+      "reward": 1.4375,
+      "reward_std": 0.35381053015589714,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 0.96875,
+      "step": 52
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 659.1875,
+      "epoch": 0.07260273972602739,
+      "grad_norm": 2.497183322906494,
+      "kl": 0.07391357421875,
+      "learning_rate": 9.757990867579908e-07,
+      "loss": 0.0001,
+      "reward": 1.703125,
+      "reward_std": 0.2172447368502617,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 1.0,
+      "step": 53
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 531.5,
+      "epoch": 0.07397260273972603,
+      "grad_norm": 1.2262613773345947,
+      "kl": 0.06640625,
+      "learning_rate": 9.753424657534246e-07,
+      "loss": 0.0001,
+      "reward": 1.15625,
+      "reward_std": 0.1356339044868946,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/format_reward": 0.96875,
+      "step": 54
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 710.59375,
+      "epoch": 0.07534246575342465,
+      "grad_norm": 1.7770954370498657,
+      "kl": 0.0960693359375,
+      "learning_rate": 9.748858447488583e-07,
+      "loss": 0.0001,
+      "reward": 1.6171875,
+      "reward_std": 0.18259718269109726,
+      "rewards/accuracy_reward": 0.6171875,
+      "rewards/format_reward": 1.0,
+      "step": 55
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 621.71875,
+      "epoch": 0.07671232876712329,
+      "grad_norm": 2.9477083683013916,
+      "kl": 0.08294677734375,
+      "learning_rate": 9.744292237442923e-07,
+      "loss": 0.0001,
+      "reward": 1.375,
+      "reward_std": 0.2698745857924223,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 56
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 633.40625,
+      "epoch": 0.07808219178082192,
+      "grad_norm": 2.187389850616455,
+      "kl": 0.07904052734375,
+      "learning_rate": 9.73972602739726e-07,
+      "loss": 0.0001,
+      "reward": 1.4620535373687744,
+      "reward_std": 0.3073258101940155,
+      "rewards/accuracy_reward": 0.493303582072258,
+      "rewards/format_reward": 0.96875,
+      "step": 57
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 722.9375,
+      "epoch": 0.07945205479452055,
+      "grad_norm": 1.8998942375183105,
+      "kl": 0.1063232421875,
+      "learning_rate": 9.735159817351597e-07,
+      "loss": 0.0001,
+      "reward": 1.3177083432674408,
+      "reward_std": 0.2553338035941124,
+      "rewards/accuracy_reward": 0.3489583283662796,
+      "rewards/format_reward": 0.96875,
+      "step": 58
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 606.84375,
+      "epoch": 0.08082191780821918,
+      "grad_norm": 2.1120872497558594,
+      "kl": 0.07696533203125,
+      "learning_rate": 9.730593607305937e-07,
+      "loss": 0.0001,
+      "reward": 1.265625,
+      "reward_std": 0.26977966725826263,
+      "rewards/accuracy_reward": 0.265625,
+      "rewards/format_reward": 1.0,
+      "step": 59
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 413.28125,
+      "epoch": 0.0821917808219178,
+      "grad_norm": 3.2552480697631836,
+      "kl": 0.06304931640625,
+      "learning_rate": 9.726027397260274e-07,
+      "loss": 0.0001,
+      "reward": 1.125,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/format_reward": 1.0,
+      "step": 60
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 510.9375,
+      "epoch": 0.08356164383561644,
+      "grad_norm": 2.9126460552215576,
+      "kl": 0.0733642578125,
+      "learning_rate": 9.721461187214611e-07,
+      "loss": 0.0001,
+      "reward": 1.328125,
+      "reward_std": 0.28930897638201714,
+      "rewards/accuracy_reward": 0.328125,
+      "rewards/format_reward": 1.0,
+      "step": 61
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 511.8125,
+      "epoch": 0.08493150684931507,
+      "grad_norm": 1.73414146900177,
+      "kl": 0.0865478515625,
+      "learning_rate": 9.716894977168949e-07,
+      "loss": 0.0001,
+      "reward": 1.203125,
+      "reward_std": 0.33669837564229965,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 0.96875,
+      "step": 62
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 692.09375,
+      "epoch": 0.0863013698630137,
+      "grad_norm": 1.9965529441833496,
+      "kl": 0.1036376953125,
+      "learning_rate": 9.712328767123286e-07,
+      "loss": 0.0001,
+      "reward": 1.7749256193637848,
+      "reward_std": 0.1739531122148037,
+      "rewards/accuracy_reward": 0.7749256044626236,
+      "rewards/format_reward": 1.0,
+      "step": 63
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 695.1875,
+      "epoch": 0.08767123287671233,
+      "grad_norm": 1.9106062650680542,
+      "kl": 0.094482421875,
+      "learning_rate": 9.707762557077626e-07,
+      "loss": 0.0001,
+      "reward": 1.580729216337204,
+      "reward_std": 0.07768097147345543,
+      "rewards/accuracy_reward": 0.5807291567325592,
+      "rewards/format_reward": 1.0,
+      "step": 64
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 511.75,
+      "epoch": 0.08904109589041095,
+      "grad_norm": 2.800123929977417,
+      "kl": 0.0806884765625,
+      "learning_rate": 9.703196347031963e-07,
+      "loss": 0.0001,
+      "reward": 1.50390625,
+      "reward_std": 0.30879483185708523,
+      "rewards/accuracy_reward": 0.50390625,
+      "rewards/format_reward": 1.0,
+      "step": 65
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 559.1875,
+      "epoch": 0.09041095890410959,
+      "grad_norm": 3.2412710189819336,
+      "kl": 0.0830078125,
+      "learning_rate": 9.6986301369863e-07,
+      "loss": 0.0001,
+      "reward": 1.515625,
+      "reward_std": 0.5082386285066605,
+      "rewards/accuracy_reward": 0.546875,
+      "rewards/format_reward": 0.96875,
+      "step": 66
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 457.75,
+      "epoch": 0.09178082191780822,
+      "grad_norm": 4.994422912597656,
+      "kl": 0.0894775390625,
+      "learning_rate": 9.69406392694064e-07,
+      "loss": 0.0001,
+      "reward": 1.1796875,
+      "reward_std": 0.12073516845703125,
+      "rewards/accuracy_reward": 0.1796875,
+      "rewards/format_reward": 1.0,
+      "step": 67
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 532.15625,
+      "epoch": 0.09315068493150686,
+      "grad_norm": 0.836651623249054,
+      "kl": 0.0897216796875,
+      "learning_rate": 9.689497716894977e-07,
+      "loss": 0.0001,
+      "reward": 1.1796875,
+      "reward_std": 0.04005437344312668,
+      "rewards/accuracy_reward": 0.1796875,
+      "rewards/format_reward": 1.0,
+      "step": 68
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 488.65625,
+      "epoch": 0.09452054794520548,
+      "grad_norm": 3.8262500762939453,
+      "kl": 0.0775146484375,
+      "learning_rate": 9.684931506849314e-07,
+      "loss": 0.0001,
+      "reward": 1.3515625,
+      "reward_std": 0.15467960201203823,
+      "rewards/accuracy_reward": 0.3515625,
+      "rewards/format_reward": 1.0,
+      "step": 69
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 525.3125,
+      "epoch": 0.0958904109589041,
+      "grad_norm": 15.291179656982422,
+      "kl": 0.069091796875,
+      "learning_rate": 9.680365296803652e-07,
+      "loss": 0.0001,
+      "reward": 1.2265625,
+      "reward_std": 0.14807433634996414,
+      "rewards/accuracy_reward": 0.2265625,
+      "rewards/format_reward": 1.0,
+      "step": 70
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 480.1875,
+      "epoch": 0.09726027397260274,
+      "grad_norm": 2.252143383026123,
+      "kl": 0.07574462890625,
+      "learning_rate": 9.675799086757991e-07,
+      "loss": 0.0001,
+      "reward": 1.359375,
+      "reward_std": 0.2109457477927208,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 1.0,
+      "step": 71
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 575.8125,
+      "epoch": 0.09863013698630137,
+      "grad_norm": 2.375014305114746,
+      "kl": 0.0933837890625,
+      "learning_rate": 9.671232876712329e-07,
+      "loss": 0.0001,
+      "reward": 1.359375,
+      "reward_std": 0.2414703369140625,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 1.0,
+      "step": 72
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 424.03125,
+      "epoch": 0.1,
+      "grad_norm": 3.685784101486206,
+      "kl": 0.05877685546875,
+      "learning_rate": 9.666666666666666e-07,
+      "loss": 0.0001,
+      "reward": 1.421875,
+      "reward_std": 0.37769732251763344,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 73
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 496.0,
+      "epoch": 0.10136986301369863,
+      "grad_norm": 2.5997228622436523,
+      "kl": 0.07012939453125,
+      "learning_rate": 9.662100456621003e-07,
+      "loss": 0.0001,
+      "reward": 1.5,
+      "reward_std": 0.31046149134635925,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 74
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 598.75,
+      "epoch": 0.10273972602739725,
+      "grad_norm": 2.172786235809326,
+      "kl": 0.12713623046875,
+      "learning_rate": 9.657534246575343e-07,
+      "loss": 0.0001,
+      "reward": 1.234375,
+      "reward_std": 0.17358146235346794,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 75
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 653.59375,
+      "epoch": 0.10410958904109589,
+      "grad_norm": 2.230001449584961,
+      "kl": 0.1158447265625,
+      "learning_rate": 9.65296803652968e-07,
+      "loss": 0.0001,
+      "reward": 1.453125,
+      "reward_std": 0.23453032225370407,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 0.96875,
+      "step": 76
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 612.0,
+      "epoch": 0.10547945205479452,
+      "grad_norm": 3.474895477294922,
+      "kl": 0.1109619140625,
+      "learning_rate": 9.648401826484017e-07,
+      "loss": 0.0001,
+      "reward": 1.7578125,
+      "reward_std": 0.15931576862931252,
+      "rewards/accuracy_reward": 0.7578125,
+      "rewards/format_reward": 1.0,
+      "step": 77
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 433.8125,
+      "epoch": 0.10684931506849316,
+      "grad_norm": 2.6400644779205322,
+      "kl": 0.0609130859375,
+      "learning_rate": 9.643835616438357e-07,
+      "loss": 0.0001,
+      "reward": 1.28125,
+      "reward_std": 0.2709311693906784,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 78
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 556.4375,
+      "epoch": 0.10821917808219178,
+      "grad_norm": 3.992541790008545,
+      "kl": 0.09515380859375,
+      "learning_rate": 9.639269406392694e-07,
+      "loss": 0.0001,
+      "reward": 1.7578125,
+      "reward_std": 0.4703022539615631,
+      "rewards/accuracy_reward": 0.7578125,
+      "rewards/format_reward": 1.0,
+      "step": 79
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 647.96875,
+      "epoch": 0.1095890410958904,
+      "grad_norm": 3.139620065689087,
+      "kl": 0.106689453125,
+      "learning_rate": 9.634703196347032e-07,
+      "loss": 0.0001,
+      "reward": 1.53515625,
+      "reward_std": 0.22270986810326576,
+      "rewards/accuracy_reward": 0.53515625,
+      "rewards/format_reward": 1.0,
+      "step": 80
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 626.8125,
+      "epoch": 0.11095890410958904,
+      "grad_norm": 1.872832179069519,
+      "kl": 0.1011962890625,
+      "learning_rate": 9.630136986301369e-07,
+      "loss": 0.0001,
+      "reward": 1.6640625,
+      "reward_std": 0.14312389120459557,
+      "rewards/accuracy_reward": 0.6640625,
+      "rewards/format_reward": 1.0,
+      "step": 81
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 568.96875,
+      "epoch": 0.11232876712328767,
+      "grad_norm": 1.6903170347213745,
+      "kl": 0.0982666015625,
+      "learning_rate": 9.625570776255706e-07,
+      "loss": 0.0001,
+      "reward": 1.234375,
+      "reward_std": 0.1804211586713791,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 82
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 578.625,
+      "epoch": 0.1136986301369863,
+      "grad_norm": 2.276421546936035,
+      "kl": 0.095947265625,
+      "learning_rate": 9.621004566210046e-07,
+      "loss": 0.0001,
+      "reward": 1.4453125,
+      "reward_std": 0.232578843832016,
+      "rewards/accuracy_reward": 0.4453125,
+      "rewards/format_reward": 1.0,
+      "step": 83
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 576.03125,
+      "epoch": 0.11506849315068493,
+      "grad_norm": 3.133164882659912,
+      "kl": 0.109130859375,
+      "learning_rate": 9.616438356164383e-07,
+      "loss": 0.0001,
+      "reward": 1.6015625,
+      "reward_std": 0.2483602836728096,
+      "rewards/accuracy_reward": 0.6015625,
+      "rewards/format_reward": 1.0,
+      "step": 84
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 512.8125,
+      "epoch": 0.11643835616438356,
+      "grad_norm": 2.0008928775787354,
+      "kl": 0.0712890625,
+      "learning_rate": 9.61187214611872e-07,
+      "loss": 0.0001,
+      "reward": 1.328125,
+      "reward_std": 0.30617379024624825,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 0.96875,
+      "step": 85
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 523.75,
+      "epoch": 0.1178082191780822,
+      "grad_norm": 1.2373316287994385,
+      "kl": 0.082275390625,
+      "learning_rate": 9.60730593607306e-07,
+      "loss": 0.0001,
+      "reward": 1.390625,
+      "reward_std": 0.10205793008208275,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 1.0,
+      "step": 86
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 417.5,
+      "epoch": 0.11917808219178082,
+      "grad_norm": 22.696931838989258,
+      "kl": 0.0906982421875,
+      "learning_rate": 9.602739726027397e-07,
+      "loss": 0.0001,
+      "reward": 1.171875,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.171875,
+      "rewards/format_reward": 1.0,
+      "step": 87
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.84375,
+      "epoch": 0.12054794520547946,
+      "grad_norm": 4.310155868530273,
+      "kl": 0.05987548828125,
+      "learning_rate": 9.598173515981735e-07,
+      "loss": 0.0001,
+      "reward": 1.1875,
+      "reward_std": 0.3104073107242584,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/format_reward": 1.0,
+      "step": 88
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 588.21875,
+      "epoch": 0.12191780821917808,
+      "grad_norm": 0.8474344611167908,
+      "kl": 0.09967041015625,
+      "learning_rate": 9.593607305936072e-07,
+      "loss": 0.0001,
+      "reward": 1.1875,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/format_reward": 1.0,
+      "step": 89
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 642.03125,
+      "epoch": 0.1232876712328767,
+      "grad_norm": 2.66658091545105,
+      "kl": 0.12939453125,
+      "learning_rate": 9.58904109589041e-07,
+      "loss": 0.0001,
+      "reward": 1.4296875,
+      "reward_std": 0.2822495624423027,
+      "rewards/accuracy_reward": 0.4609375,
+      "rewards/format_reward": 0.96875,
+      "step": 90
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 631.40625,
+      "epoch": 0.12465753424657534,
+      "grad_norm": 1.2776012420654297,
+      "kl": 0.1162109375,
+      "learning_rate": 9.584474885844749e-07,
+      "loss": 0.0001,
+      "reward": 1.34375,
+      "reward_std": 0.10888781771063805,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 91
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 463.25,
+      "epoch": 0.12602739726027398,
+      "grad_norm": 1.5968950986862183,
+      "kl": 0.09906005859375,
+      "learning_rate": 9.579908675799086e-07,
+      "loss": 0.0001,
+      "reward": 1.3125,
+      "reward_std": 0.1356339044868946,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 92
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 601.21875,
+      "epoch": 0.1273972602739726,
+      "grad_norm": 6.543825149536133,
+      "kl": 0.112060546875,
+      "learning_rate": 9.575342465753423e-07,
+      "loss": 0.0001,
+      "reward": 1.5546875,
+      "reward_std": 0.29614376835525036,
+      "rewards/accuracy_reward": 0.5546875,
+      "rewards/format_reward": 1.0,
+      "step": 93
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 710.5625,
+      "epoch": 0.12876712328767123,
+      "grad_norm": 4.022386074066162,
+      "kl": 0.1082763671875,
+      "learning_rate": 9.570776255707763e-07,
+      "loss": 0.0001,
+      "reward": 1.2916666865348816,
+      "reward_std": 0.289409551769495,
+      "rewards/accuracy_reward": 0.3854166716337204,
+      "rewards/format_reward": 0.90625,
+      "step": 94
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 499.5625,
+      "epoch": 0.13013698630136986,
+      "grad_norm": 1.6726783514022827,
+      "kl": 0.103271484375,
+      "learning_rate": 9.5662100456621e-07,
+      "loss": 0.0001,
+      "reward": 1.2265625,
+      "reward_std": 0.14807433634996414,
+      "rewards/accuracy_reward": 0.2265625,
+      "rewards/format_reward": 1.0,
+      "step": 95
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 636.5,
+      "epoch": 0.13150684931506848,
+      "grad_norm": 2.4275333881378174,
+      "kl": 0.109130859375,
+      "learning_rate": 9.561643835616437e-07,
+      "loss": 0.0001,
+      "reward": 1.4453125,
+      "reward_std": 0.35531364381313324,
+      "rewards/accuracy_reward": 0.4765625,
+      "rewards/format_reward": 0.96875,
+      "step": 96
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 639.40625,
+      "epoch": 0.13287671232876713,
+      "grad_norm": 1.4377013444900513,
+      "kl": 0.12249755859375,
+      "learning_rate": 9.557077625570777e-07,
+      "loss": 0.0001,
+      "reward": 1.6145833432674408,
+      "reward_std": 0.15587851032614708,
+      "rewards/accuracy_reward": 0.6145833432674408,
+      "rewards/format_reward": 1.0,
+      "step": 97
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 697.5625,
+      "epoch": 0.13424657534246576,
+      "grad_norm": 2.026230573654175,
+      "kl": 0.1431884765625,
+      "learning_rate": 9.552511415525114e-07,
+      "loss": 0.0001,
+      "reward": 1.6875,
+      "reward_std": 0.18185461685061455,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 98
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 616.28125,
+      "epoch": 0.13561643835616438,
+      "grad_norm": 4.95074462890625,
+      "kl": 0.153564453125,
+      "learning_rate": 9.547945205479452e-07,
+      "loss": 0.0002,
+      "reward": 2.0625,
+      "reward_std": 0.3226073309779167,
+      "rewards/accuracy_reward": 1.09375,
+      "rewards/format_reward": 0.96875,
+      "step": 99
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 694.40625,
+      "epoch": 0.136986301369863,
+      "grad_norm": 3.2093119621276855,
+      "kl": 0.1156005859375,
+      "learning_rate": 9.54337899543379e-07,
+      "loss": 0.0001,
+      "reward": 1.4140625,
+      "reward_std": 0.18956539407372475,
+      "rewards/accuracy_reward": 0.4453125,
+      "rewards/format_reward": 0.96875,
+      "step": 100
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 465.21875,
+      "epoch": 0.13835616438356163,
+      "grad_norm": 3.3832147121429443,
+      "kl": 0.0748291015625,
+      "learning_rate": 9.538812785388126e-07,
+      "loss": 0.0001,
+      "reward": 1.2604166865348816,
+      "reward_std": 0.24269168078899384,
+      "rewards/accuracy_reward": 0.2604166567325592,
+      "rewards/format_reward": 1.0,
+      "step": 101
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 451.53125,
+      "epoch": 0.13972602739726028,
+      "grad_norm": 0.012525072321295738,
+      "kl": 0.08740234375,
+      "learning_rate": 9.534246575342465e-07,
+      "loss": 0.0001,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 102
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 740.4375,
+      "epoch": 0.1410958904109589,
+      "grad_norm": 1.9927910566329956,
+      "kl": 0.1253662109375,
+      "learning_rate": 9.529680365296803e-07,
+      "loss": 0.0001,
+      "reward": 1.59375,
+      "reward_std": 0.16675157472491264,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 103
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 503.375,
+      "epoch": 0.14246575342465753,
+      "grad_norm": 3.8206396102905273,
+      "kl": 0.1165771484375,
+      "learning_rate": 9.525114155251142e-07,
+      "loss": 0.0001,
+      "reward": 0.9375,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 0.9375,
+      "step": 104
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 696.6875,
+      "epoch": 0.14383561643835616,
+      "grad_norm": 8.162276268005371,
+      "kl": 0.134521484375,
+      "learning_rate": 9.520547945205479e-07,
+      "loss": 0.0001,
+      "reward": 1.6171875,
+      "reward_std": 0.19097032584249973,
+      "rewards/accuracy_reward": 0.6171875,
+      "rewards/format_reward": 1.0,
+      "step": 105
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 656.78125,
+      "epoch": 0.14520547945205478,
+      "grad_norm": 2.644918441772461,
+      "kl": 0.1160888671875,
+      "learning_rate": 9.515981735159817e-07,
+      "loss": 0.0001,
+      "reward": 1.86328125,
+      "reward_std": 0.41913160867989063,
+      "rewards/accuracy_reward": 0.86328125,
+      "rewards/format_reward": 1.0,
+      "step": 106
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 613.90625,
+      "epoch": 0.14657534246575343,
+      "grad_norm": 3.6577141284942627,
+      "kl": 0.1168212890625,
+      "learning_rate": 9.511415525114155e-07,
+      "loss": 0.0001,
+      "reward": 1.359375,
+      "reward_std": 0.19939782842993736,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 1.0,
+      "step": 107
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 679.875,
+      "epoch": 0.14794520547945206,
+      "grad_norm": 4.23774528503418,
+      "kl": 0.1524658203125,
+      "learning_rate": 9.506849315068493e-07,
+      "loss": 0.0002,
+      "reward": 1.7565104365348816,
+      "reward_std": 0.21211734786629677,
+      "rewards/accuracy_reward": 0.7565104365348816,
+      "rewards/format_reward": 1.0,
+      "step": 108
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 684.34375,
+      "epoch": 0.14931506849315068,
+      "grad_norm": 0.013699422590434551,
+      "kl": 0.1331787109375,
+      "learning_rate": 9.50228310502283e-07,
+      "loss": 0.0001,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 109
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 584.3125,
+      "epoch": 0.1506849315068493,
+      "grad_norm": 9.379846572875977,
+      "kl": 0.1199951171875,
+      "learning_rate": 9.497716894977168e-07,
+      "loss": 0.0001,
+      "reward": 1.640625,
+      "reward_std": 0.36036762222647667,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 110
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 718.03125,
+      "epoch": 0.15205479452054796,
+      "grad_norm": 4.443063735961914,
+      "kl": 0.126708984375,
+      "learning_rate": 9.493150684931507e-07,
+      "loss": 0.0001,
+      "reward": 1.4427083134651184,
+      "reward_std": 0.17040568217635155,
+      "rewards/accuracy_reward": 0.4739583283662796,
+      "rewards/format_reward": 0.96875,
+      "step": 111
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 735.9375,
+      "epoch": 0.15342465753424658,
+      "grad_norm": 2.7463929653167725,
+      "kl": 0.1220703125,
+      "learning_rate": 9.488584474885845e-07,
+      "loss": 0.0001,
+      "reward": 1.46875,
+      "reward_std": 0.47249409183859825,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 0.875,
+      "step": 112
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 444.25,
+      "epoch": 0.1547945205479452,
+      "grad_norm": 3.2011280059814453,
+      "kl": 0.0909423828125,
+      "learning_rate": 9.484018264840182e-07,
+      "loss": 0.0001,
+      "reward": 1.15625,
+      "reward_std": 0.3061639815568924,
+      "rewards/accuracy_reward": 0.15625,
+      "rewards/format_reward": 1.0,
+      "step": 113
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 504.8125,
+      "epoch": 0.15616438356164383,
+      "grad_norm": 3.5561389923095703,
+      "kl": 0.10040283203125,
+      "learning_rate": 9.47945205479452e-07,
+      "loss": 0.0001,
+      "reward": 1.203125,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.203125,
+      "rewards/format_reward": 1.0,
+      "step": 114
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 519.15625,
+      "epoch": 0.15753424657534246,
+      "grad_norm": 1.8714385032653809,
+      "kl": 0.100341796875,
+      "learning_rate": 9.474885844748858e-07,
+      "loss": 0.0001,
+      "reward": 1.265625,
+      "reward_std": 0.19408093392848969,
+      "rewards/accuracy_reward": 0.265625,
+      "rewards/format_reward": 1.0,
+      "step": 115
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 411.625,
+      "epoch": 0.1589041095890411,
+      "grad_norm": 6.825204849243164,
+      "kl": 0.086181640625,
+      "learning_rate": 9.470319634703196e-07,
+      "loss": 0.0001,
+      "reward": 1.21875,
+      "reward_std": 0.2756393924355507,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 116
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 616.34375,
+      "epoch": 0.16027397260273973,
+      "grad_norm": 1.6678544282913208,
+      "kl": 0.112060546875,
+      "learning_rate": 9.465753424657534e-07,
+      "loss": 0.0001,
+      "reward": 1.3333333134651184,
+      "reward_std": 0.1900147907435894,
+      "rewards/accuracy_reward": 0.3645833134651184,
+      "rewards/format_reward": 0.96875,
+      "step": 117
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 418.1875,
+      "epoch": 0.16164383561643836,
+      "grad_norm": 2.2251501083374023,
+      "kl": 0.0775146484375,
+      "learning_rate": 9.461187214611872e-07,
+      "loss": 0.0001,
+      "reward": 1.1953125,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.1953125,
+      "rewards/format_reward": 1.0,
+      "step": 118
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 633.8125,
+      "epoch": 0.16301369863013698,
+      "grad_norm": 1.6605937480926514,
+      "kl": 0.1004638671875,
+      "learning_rate": 9.45662100456621e-07,
+      "loss": 0.0001,
+      "reward": 1.6875,
+      "reward_std": 0.1872510462999344,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 119
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 488.3125,
+      "epoch": 0.1643835616438356,
+      "grad_norm": 10.110955238342285,
+      "kl": 0.1434326171875,
+      "learning_rate": 9.452054794520548e-07,
+      "loss": 0.0001,
+      "reward": 1.171875,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.171875,
+      "rewards/format_reward": 1.0,
+      "step": 120
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 670.28125,
+      "epoch": 0.16575342465753426,
+      "grad_norm": 1.275918960571289,
+      "kl": 0.1370849609375,
+      "learning_rate": 9.447488584474885e-07,
+      "loss": 0.0001,
+      "reward": 1.1302083432674408,
+      "reward_std": 0.014731401577591896,
+      "rewards/accuracy_reward": 0.1302083283662796,
+      "rewards/format_reward": 1.0,
+      "step": 121
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 479.28125,
+      "epoch": 0.16712328767123288,
+      "grad_norm": 2.001127004623413,
+      "kl": 0.1129150390625,
+      "learning_rate": 9.442922374429223e-07,
+      "loss": 0.0001,
+      "reward": 1.3125,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 122
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 420.59375,
+      "epoch": 0.1684931506849315,
+      "grad_norm": 4.077696800231934,
+      "kl": 0.0904541015625,
+      "learning_rate": 9.438356164383561e-07,
+      "loss": 0.0001,
+      "reward": 1.375,
+      "reward_std": 0.2619796171784401,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 123
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 491.8125,
+      "epoch": 0.16986301369863013,
+      "grad_norm": 4.269510269165039,
+      "kl": 0.09326171875,
+      "learning_rate": 9.4337899543379e-07,
+      "loss": 0.0001,
+      "reward": 1.390625,
+      "reward_std": 0.2665942460298538,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 1.0,
+      "step": 124
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 578.78125,
+      "epoch": 0.17123287671232876,
+      "grad_norm": 3.122952938079834,
+      "kl": 0.1368408203125,
+      "learning_rate": 9.429223744292237e-07,
+      "loss": 0.0001,
+      "reward": 1.453125,
+      "reward_std": 0.16415906324982643,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 125
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 522.25,
+      "epoch": 0.1726027397260274,
+      "grad_norm": 1.53658926486969,
+      "kl": 0.129150390625,
+      "learning_rate": 9.424657534246575e-07,
+      "loss": 0.0001,
+      "reward": 1.66015625,
+      "reward_std": 0.19974715635180473,
+      "rewards/accuracy_reward": 0.66015625,
+      "rewards/format_reward": 1.0,
+      "step": 126
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 548.1875,
+      "epoch": 0.17397260273972603,
+      "grad_norm": 2.161501884460449,
+      "kl": 0.117919921875,
+      "learning_rate": 9.420091324200913e-07,
+      "loss": 0.0001,
+      "reward": 1.25,
+      "reward_std": 0.1462521031498909,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 127
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.65625,
+      "epoch": 0.17534246575342466,
+      "grad_norm": 2.8414783477783203,
+      "kl": 0.0875244140625,
+      "learning_rate": 9.41552511415525e-07,
+      "loss": 0.0001,
+      "reward": 1.5625,
+      "reward_std": 0.3335031494498253,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 128
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 607.3125,
+      "epoch": 0.17671232876712328,
+      "grad_norm": 2.295241355895996,
+      "kl": 0.1317138671875,
+      "learning_rate": 9.410958904109588e-07,
+      "loss": 0.0001,
+      "reward": 1.6302083134651184,
+      "reward_std": 0.18143897131085396,
+      "rewards/accuracy_reward": 0.6302083283662796,
+      "rewards/format_reward": 1.0,
+      "step": 129
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 596.71875,
+      "epoch": 0.1780821917808219,
+      "grad_norm": 2.436352491378784,
+      "kl": 0.13232421875,
+      "learning_rate": 9.406392694063926e-07,
+      "loss": 0.0001,
+      "reward": 1.7109375,
+      "reward_std": 0.2758216764777899,
+      "rewards/accuracy_reward": 0.7109375,
+      "rewards/format_reward": 1.0,
+      "step": 130
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 539.25,
+      "epoch": 0.17945205479452056,
+      "grad_norm": 3.0529682636260986,
+      "kl": 0.13720703125,
+      "learning_rate": 9.401826484018265e-07,
+      "loss": 0.0001,
+      "reward": 1.50390625,
+      "reward_std": 0.07282309234142303,
+      "rewards/accuracy_reward": 0.50390625,
+      "rewards/format_reward": 1.0,
+      "step": 131
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 483.15625,
+      "epoch": 0.18082191780821918,
+      "grad_norm": 1.2933306694030762,
+      "kl": 0.123291015625,
+      "learning_rate": 9.397260273972603e-07,
+      "loss": 0.0001,
+      "reward": 1.09375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.09375,
+      "rewards/format_reward": 1.0,
+      "step": 132
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 562.71875,
+      "epoch": 0.1821917808219178,
+      "grad_norm": 1.558491826057434,
+      "kl": 0.11572265625,
+      "learning_rate": 9.39269406392694e-07,
+      "loss": 0.0001,
+      "reward": 1.5677083432674408,
+      "reward_std": 0.0725951585918665,
+      "rewards/accuracy_reward": 0.5677083432674408,
+      "rewards/format_reward": 1.0,
+      "step": 133
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 488.78125,
+      "epoch": 0.18356164383561643,
+      "grad_norm": 2.861250400543213,
+      "kl": 0.113525390625,
+      "learning_rate": 9.388127853881278e-07,
+      "loss": 0.0001,
+      "reward": 1.375,
+      "reward_std": 0.2966036908328533,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 0.96875,
+      "step": 134
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 567.28125,
+      "epoch": 0.18493150684931506,
+      "grad_norm": 2.4764702320098877,
+      "kl": 0.123291015625,
+      "learning_rate": 9.383561643835616e-07,
+      "loss": 0.0001,
+      "reward": 1.5825892686843872,
+      "reward_std": 0.20715469866991043,
+      "rewards/accuracy_reward": 0.5825892686843872,
+      "rewards/format_reward": 1.0,
+      "step": 135
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 539.53125,
+      "epoch": 0.1863013698630137,
+      "grad_norm": 2.0686910152435303,
+      "kl": 0.1162109375,
+      "learning_rate": 9.378995433789953e-07,
+      "loss": 0.0001,
+      "reward": 1.40234375,
+      "reward_std": 0.21405773982405663,
+      "rewards/accuracy_reward": 0.40234375,
+      "rewards/format_reward": 1.0,
+      "step": 136
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 659.84375,
+      "epoch": 0.18767123287671234,
+      "grad_norm": 1.7358382940292358,
+      "kl": 0.1298828125,
+      "learning_rate": 9.374429223744292e-07,
+      "loss": 0.0001,
+      "reward": 1.6507812142372131,
+      "reward_std": 0.2213343046605587,
+      "rewards/accuracy_reward": 0.6820312440395355,
+      "rewards/format_reward": 0.96875,
+      "step": 137
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 395.5,
+      "epoch": 0.18904109589041096,
+      "grad_norm": 2.3077900409698486,
+      "kl": 0.114501953125,
+      "learning_rate": 9.36986301369863e-07,
+      "loss": 0.0001,
+      "reward": 1.2265625,
+      "reward_std": 0.22621294669806957,
+      "rewards/accuracy_reward": 0.2265625,
+      "rewards/format_reward": 1.0,
+      "step": 138
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 580.59375,
+      "epoch": 0.19041095890410958,
+      "grad_norm": 0.7606338262557983,
+      "kl": 0.135498046875,
+      "learning_rate": 9.365296803652968e-07,
+      "loss": 0.0001,
+      "reward": 1.3333333134651184,
+      "reward_std": 0.07042950391769409,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/format_reward": 1.0,
+      "step": 139
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 691.9375,
+      "epoch": 0.1917808219178082,
+      "grad_norm": 3.7832796573638916,
+      "kl": 0.1358642578125,
+      "learning_rate": 9.360730593607306e-07,
+      "loss": 0.0001,
+      "reward": 1.526041716337204,
+      "reward_std": 0.2930229790508747,
+      "rewards/accuracy_reward": 0.5885416567325592,
+      "rewards/format_reward": 0.9375,
+      "step": 140
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 681.34375,
+      "epoch": 0.19315068493150686,
+      "grad_norm": 5.2146830558776855,
+      "kl": 0.1507568359375,
+      "learning_rate": 9.356164383561643e-07,
+      "loss": 0.0002,
+      "reward": 1.734375,
+      "reward_std": 0.16887323930859566,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 141
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 628.59375,
+      "epoch": 0.19452054794520549,
+      "grad_norm": 1.6805075407028198,
+      "kl": 0.158935546875,
+      "learning_rate": 9.351598173515981e-07,
+      "loss": 0.0002,
+      "reward": 1.3515625,
+      "reward_std": 0.07996084354817867,
+      "rewards/accuracy_reward": 0.3515625,
+      "rewards/format_reward": 1.0,
+      "step": 142
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 453.8125,
+      "epoch": 0.1958904109589041,
+      "grad_norm": 2.2252542972564697,
+      "kl": 0.130615234375,
+      "learning_rate": 9.347031963470319e-07,
+      "loss": 0.0001,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 143
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 487.96875,
+      "epoch": 0.19726027397260273,
+      "grad_norm": 2.0735678672790527,
+      "kl": 0.164306640625,
+      "learning_rate": 9.342465753424658e-07,
+      "loss": 0.0002,
+      "reward": 1.4791666567325592,
+      "reward_std": 0.23902175202965736,
+      "rewards/accuracy_reward": 0.4791666567325592,
+      "rewards/format_reward": 1.0,
+      "step": 144
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 534.96875,
+      "epoch": 0.19863013698630136,
+      "grad_norm": 1.4199141263961792,
+      "kl": 0.1151123046875,
+      "learning_rate": 9.337899543378995e-07,
+      "loss": 0.0001,
+      "reward": 1.328125,
+      "reward_std": 0.220042884349823,
+      "rewards/accuracy_reward": 0.328125,
+      "rewards/format_reward": 1.0,
+      "step": 145
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 446.3125,
+      "epoch": 0.2,
+      "grad_norm": 4.550744533538818,
+      "kl": 0.13037109375,
+      "learning_rate": 9.333333333333333e-07,
+      "loss": 0.0001,
+      "reward": 1.53125,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 146
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 583.625,
+      "epoch": 0.20136986301369864,
+      "grad_norm": 0.7138487100601196,
+      "kl": 0.1424560546875,
+      "learning_rate": 9.328767123287671e-07,
+      "loss": 0.0001,
+      "reward": 1.15625,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.15625,
+      "rewards/format_reward": 1.0,
+      "step": 147
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 536.65625,
+      "epoch": 0.20273972602739726,
+      "grad_norm": 5.086813449859619,
+      "kl": 0.1173095703125,
+      "learning_rate": 9.324200913242009e-07,
+      "loss": 0.0001,
+      "reward": 1.4609375,
+      "reward_std": 0.05476716160774231,
+      "rewards/accuracy_reward": 0.4609375,
+      "rewards/format_reward": 1.0,
+      "step": 148
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 673.65625,
+      "epoch": 0.20410958904109588,
+      "grad_norm": 0.8646766543388367,
+      "kl": 0.1317138671875,
+      "learning_rate": 9.319634703196346e-07,
+      "loss": 0.0001,
+      "reward": 1.5104166567325592,
+      "reward_std": 0.32082508504390717,
+      "rewards/accuracy_reward": 0.5416666865348816,
+      "rewards/format_reward": 0.96875,
+      "step": 149
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 396.40625,
+      "epoch": 0.2054794520547945,
+      "grad_norm": 2.680182456970215,
+      "kl": 0.12353515625,
+      "learning_rate": 9.315068493150684e-07,
+      "loss": 0.0001,
+      "reward": 1.40625,
+      "reward_std": 0.4045617878437042,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 150
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 614.90625,
+      "epoch": 0.20684931506849316,
+      "grad_norm": 1.8212926387786865,
+      "kl": 0.108642578125,
+      "learning_rate": 9.310502283105023e-07,
+      "loss": 0.0001,
+      "reward": 1.3177083432674408,
+      "reward_std": 0.13903126679360867,
+      "rewards/accuracy_reward": 0.3177083432674408,
+      "rewards/format_reward": 1.0,
+      "step": 151
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 510.625,
+      "epoch": 0.20821917808219179,
+      "grad_norm": 2.6356329917907715,
+      "kl": 0.1246337890625,
+      "learning_rate": 9.30593607305936e-07,
+      "loss": 0.0001,
+      "reward": 1.4812500178813934,
+      "reward_std": 0.45198121294379234,
+      "rewards/accuracy_reward": 0.512499988079071,
+      "rewards/format_reward": 0.96875,
+      "step": 152
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 449.8125,
+      "epoch": 0.2095890410958904,
+      "grad_norm": 3.026435613632202,
+      "kl": 0.1207275390625,
+      "learning_rate": 9.301369863013698e-07,
+      "loss": 0.0001,
+      "reward": 1.3125,
+      "reward_std": 0.3230287954211235,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 153
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 630.15625,
+      "epoch": 0.21095890410958903,
+      "grad_norm": 0.8813155293464661,
+      "kl": 0.1131591796875,
+      "learning_rate": 9.296803652968036e-07,
+      "loss": 0.0001,
+      "reward": 1.3294270634651184,
+      "reward_std": 0.18091023340821266,
+      "rewards/accuracy_reward": 0.3606770634651184,
+      "rewards/format_reward": 0.96875,
+      "step": 154
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 514.59375,
+      "epoch": 0.21232876712328766,
+      "grad_norm": 2.931427001953125,
+      "kl": 0.1202392578125,
+      "learning_rate": 9.292237442922374e-07,
+      "loss": 0.0001,
+      "reward": 1.515625,
+      "reward_std": 0.17358146235346794,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 155
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 426.25,
+      "epoch": 0.2136986301369863,
+      "grad_norm": 1.421940803527832,
+      "kl": 0.1243896484375,
+      "learning_rate": 9.287671232876712e-07,
+      "loss": 0.0001,
+      "reward": 1.125,
+      "reward_std": 0.13363061845302582,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/format_reward": 1.0,
+      "step": 156
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 627.15625,
+      "epoch": 0.21506849315068494,
+      "grad_norm": 0.9390948414802551,
+      "kl": 0.134521484375,
+      "learning_rate": 9.28310502283105e-07,
+      "loss": 0.0001,
+      "reward": 1.35546875,
+      "reward_std": 0.06765139661729336,
+      "rewards/accuracy_reward": 0.35546875,
+      "rewards/format_reward": 1.0,
+      "step": 157
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 721.1875,
+      "epoch": 0.21643835616438356,
+      "grad_norm": 1.8904517889022827,
+      "kl": 0.130615234375,
+      "learning_rate": 9.278538812785388e-07,
+      "loss": 0.0001,
+      "reward": 1.3515625,
+      "reward_std": 0.10474801808595657,
+      "rewards/accuracy_reward": 0.3515625,
+      "rewards/format_reward": 1.0,
+      "step": 158
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 517.71875,
+      "epoch": 0.21780821917808219,
+      "grad_norm": 6.320685386657715,
+      "kl": 0.1202392578125,
+      "learning_rate": 9.273972602739726e-07,
+      "loss": 0.0001,
+      "reward": 1.4107142686843872,
+      "reward_std": 0.2957366779446602,
+      "rewards/accuracy_reward": 0.4107142984867096,
+      "rewards/format_reward": 1.0,
+      "step": 159
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 613.5625,
+      "epoch": 0.2191780821917808,
+      "grad_norm": 0.6069585680961609,
+      "kl": 0.1357421875,
+      "learning_rate": 9.269406392694063e-07,
+      "loss": 0.0001,
+      "reward": 1.1875,
+      "reward_std": 0.06681530922651291,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/format_reward": 1.0,
+      "step": 160
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.25,
+      "epoch": 0.22054794520547946,
+      "grad_norm": 3.5432889461517334,
+      "kl": 0.18798828125,
+      "learning_rate": 9.264840182648401e-07,
+      "loss": 0.0002,
+      "reward": 1.5,
+      "reward_std": 0.2314550280570984,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 161
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 645.9375,
+      "epoch": 0.2219178082191781,
+      "grad_norm": 2.56186580657959,
+      "kl": 0.149169921875,
+      "learning_rate": 9.260273972602739e-07,
+      "loss": 0.0001,
+      "reward": 1.6875,
+      "reward_std": 0.1825428232550621,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 162
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 556.8125,
+      "epoch": 0.2232876712328767,
+      "grad_norm": 5.973612308502197,
+      "kl": 0.14306640625,
+      "learning_rate": 9.255707762557077e-07,
+      "loss": 0.0001,
+      "reward": 1.359375,
+      "reward_std": 0.19939782842993736,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 1.0,
+      "step": 163
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 401.125,
+      "epoch": 0.22465753424657534,
+      "grad_norm": 1.2704259157180786,
+      "kl": 0.14794921875,
+      "learning_rate": 9.251141552511416e-07,
+      "loss": 0.0001,
+      "reward": 1.1796875,
+      "reward_std": 0.04005437344312668,
+      "rewards/accuracy_reward": 0.1796875,
+      "rewards/format_reward": 1.0,
+      "step": 164
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 500.28125,
+      "epoch": 0.22602739726027396,
+      "grad_norm": 2.514188289642334,
+      "kl": 0.126220703125,
+      "learning_rate": 9.246575342465753e-07,
+      "loss": 0.0001,
+      "reward": 1.515625,
+      "reward_std": 0.2561880201101303,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 165
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 701.75,
+      "epoch": 0.2273972602739726,
+      "grad_norm": 1.1485939025878906,
+      "kl": 0.116943359375,
+      "learning_rate": 9.242009132420091e-07,
+      "loss": 0.0001,
+      "reward": 1.265625,
+      "reward_std": 0.2461063265800476,
+      "rewards/accuracy_reward": 0.328125,
+      "rewards/format_reward": 0.9375,
+      "step": 166
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 625.125,
+      "epoch": 0.22876712328767124,
+      "grad_norm": 16.20563316345215,
+      "kl": 0.132568359375,
+      "learning_rate": 9.237442922374429e-07,
+      "loss": 0.0001,
+      "reward": 1.550000011920929,
+      "reward_std": 0.15476782992482185,
+      "rewards/accuracy_reward": 0.5499999970197678,
+      "rewards/format_reward": 1.0,
+      "step": 167
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 476.78125,
+      "epoch": 0.23013698630136986,
+      "grad_norm": 0.7318564057350159,
+      "kl": 0.146728515625,
+      "learning_rate": 9.232876712328766e-07,
+      "loss": 0.0001,
+      "reward": 1.21875,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 168
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 577.28125,
+      "epoch": 0.23150684931506849,
+      "grad_norm": 3.2940330505371094,
+      "kl": 0.136962890625,
+      "learning_rate": 9.228310502283104e-07,
+      "loss": 0.0001,
+      "reward": 1.5013020634651184,
+      "reward_std": 0.0952342264354229,
+      "rewards/accuracy_reward": 0.5013020783662796,
+      "rewards/format_reward": 1.0,
+      "step": 169
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 475.6875,
+      "epoch": 0.2328767123287671,
+      "grad_norm": 6.060558795928955,
+      "kl": 0.1484375,
+      "learning_rate": 9.223744292237442e-07,
+      "loss": 0.0001,
+      "reward": 1.4140625,
+      "reward_std": 0.2114126794040203,
+      "rewards/accuracy_reward": 0.4140625,
+      "rewards/format_reward": 1.0,
+      "step": 170
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 559.96875,
+      "epoch": 0.23424657534246576,
+      "grad_norm": 2.6800572872161865,
+      "kl": 0.1197509765625,
+      "learning_rate": 9.219178082191781e-07,
+      "loss": 0.0001,
+      "reward": 1.4947916567325592,
+      "reward_std": 0.1304523590952158,
+      "rewards/accuracy_reward": 0.4947916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 171
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 597.0625,
+      "epoch": 0.2356164383561644,
+      "grad_norm": 1.535984992980957,
+      "kl": 0.2501220703125,
+      "learning_rate": 9.214611872146119e-07,
+      "loss": 0.0002,
+      "reward": 1.28125,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 172
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 520.125,
+      "epoch": 0.236986301369863,
+      "grad_norm": 1.8922423124313354,
+      "kl": 0.1363525390625,
+      "learning_rate": 9.210045662100456e-07,
+      "loss": 0.0001,
+      "reward": 1.3671875,
+      "reward_std": 0.16834918968379498,
+      "rewards/accuracy_reward": 0.3671875,
+      "rewards/format_reward": 1.0,
+      "step": 173
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 489.4375,
+      "epoch": 0.23835616438356164,
+      "grad_norm": 4.069134712219238,
+      "kl": 0.154052734375,
+      "learning_rate": 9.205479452054794e-07,
+      "loss": 0.0002,
+      "reward": 1.5,
+      "reward_std": 0.33614395931363106,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 174
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 562.1875,
+      "epoch": 0.23972602739726026,
+      "grad_norm": 3.013641119003296,
+      "kl": 0.1435546875,
+      "learning_rate": 9.200913242009132e-07,
+      "loss": 0.0001,
+      "reward": 1.21875,
+      "reward_std": 0.1552036553621292,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 175
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 602.9375,
+      "epoch": 0.2410958904109589,
+      "grad_norm": 1.713585376739502,
+      "kl": 0.1307373046875,
+      "learning_rate": 9.196347031963469e-07,
+      "loss": 0.0001,
+      "reward": 1.6640625,
+      "reward_std": 0.202580526471138,
+      "rewards/accuracy_reward": 0.6640625,
+      "rewards/format_reward": 1.0,
+      "step": 176
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 458.90625,
+      "epoch": 0.24246575342465754,
+      "grad_norm": 1.653497576713562,
+      "kl": 0.133544921875,
+      "learning_rate": 9.191780821917808e-07,
+      "loss": 0.0001,
+      "reward": 1.3828125,
+      "reward_std": 0.23987272381782532,
+      "rewards/accuracy_reward": 0.3828125,
+      "rewards/format_reward": 1.0,
+      "step": 177
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.875,
+      "epoch": 0.24383561643835616,
+      "grad_norm": 1.537979006767273,
+      "kl": 0.167236328125,
+      "learning_rate": 9.187214611872146e-07,
+      "loss": 0.0002,
+      "reward": 1.0625,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/format_reward": 1.0,
+      "step": 178
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 538.28125,
+      "epoch": 0.2452054794520548,
+      "grad_norm": 1.1757584810256958,
+      "kl": 0.146484375,
+      "learning_rate": 9.182648401826484e-07,
+      "loss": 0.0001,
+      "reward": 1.6953125,
+      "reward_std": 0.08516896516084671,
+      "rewards/accuracy_reward": 0.6953125,
+      "rewards/format_reward": 1.0,
+      "step": 179
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 525.3125,
+      "epoch": 0.2465753424657534,
+      "grad_norm": 2.4092350006103516,
+      "kl": 0.143310546875,
+      "learning_rate": 9.178082191780822e-07,
+      "loss": 0.0001,
+      "reward": 1.4921875,
+      "reward_std": 0.22854942083358765,
+      "rewards/accuracy_reward": 0.4921875,
+      "rewards/format_reward": 1.0,
+      "step": 180
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 616.53125,
+      "epoch": 0.24794520547945206,
+      "grad_norm": 2.0598623752593994,
+      "kl": 0.1513671875,
+      "learning_rate": 9.173515981735159e-07,
+      "loss": 0.0002,
+      "reward": 1.3125,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 181
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 592.84375,
+      "epoch": 0.2493150684931507,
+      "grad_norm": 3.4757208824157715,
+      "kl": 0.15380859375,
+      "learning_rate": 9.168949771689497e-07,
+      "loss": 0.0002,
+      "reward": 1.4322916567325592,
+      "reward_std": 0.11389755457639694,
+      "rewards/accuracy_reward": 0.4322916716337204,
+      "rewards/format_reward": 1.0,
+      "step": 182
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 428.53125,
+      "epoch": 0.25068493150684934,
+      "grad_norm": 1.2352172136306763,
+      "kl": 0.1416015625,
+      "learning_rate": 9.164383561643835e-07,
+      "loss": 0.0001,
+      "reward": 1.7265625,
+      "reward_std": 0.14262642711400986,
+      "rewards/accuracy_reward": 0.7265625,
+      "rewards/format_reward": 1.0,
+      "step": 183
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 479.46875,
+      "epoch": 0.25205479452054796,
+      "grad_norm": 2.0595240592956543,
+      "kl": 0.143798828125,
+      "learning_rate": 9.159817351598174e-07,
+      "loss": 0.0001,
+      "reward": 1.671875,
+      "reward_std": 0.3808670938014984,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 184
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 542.75,
+      "epoch": 0.2534246575342466,
+      "grad_norm": 2.4244847297668457,
+      "kl": 0.14208984375,
+      "learning_rate": 9.155251141552511e-07,
+      "loss": 0.0001,
+      "reward": 1.3046875,
+      "reward_std": 0.04339781776070595,
+      "rewards/accuracy_reward": 0.3046875,
+      "rewards/format_reward": 1.0,
+      "step": 185
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 411.1875,
+      "epoch": 0.2547945205479452,
+      "grad_norm": 2.7618906497955322,
+      "kl": 0.138671875,
+      "learning_rate": 9.150684931506849e-07,
+      "loss": 0.0001,
+      "reward": 1.3828125,
+      "reward_std": 0.13782460056245327,
+      "rewards/accuracy_reward": 0.3828125,
+      "rewards/format_reward": 1.0,
+      "step": 186
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 480.375,
+      "epoch": 0.25616438356164384,
+      "grad_norm": 1.3447990417480469,
+      "kl": 0.16015625,
+      "learning_rate": 9.146118721461187e-07,
+      "loss": 0.0002,
+      "reward": 1.2942708432674408,
+      "reward_std": 0.11083479970693588,
+      "rewards/accuracy_reward": 0.2942708283662796,
+      "rewards/format_reward": 1.0,
+      "step": 187
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 482.59375,
+      "epoch": 0.25753424657534246,
+      "grad_norm": 1.3052458763122559,
+      "kl": 0.17041015625,
+      "learning_rate": 9.141552511415525e-07,
+      "loss": 0.0002,
+      "reward": 1.40625,
+      "reward_std": 0.1246790662407875,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 188
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 524.96875,
+      "epoch": 0.2589041095890411,
+      "grad_norm": 1.417614221572876,
+      "kl": 0.1513671875,
+      "learning_rate": 9.136986301369862e-07,
+      "loss": 0.0002,
+      "reward": 1.2109375,
+      "reward_std": 0.17315101623535156,
+      "rewards/accuracy_reward": 0.2109375,
+      "rewards/format_reward": 1.0,
+      "step": 189
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 485.75,
+      "epoch": 0.2602739726027397,
+      "grad_norm": 1.8264148235321045,
+      "kl": 0.179931640625,
+      "learning_rate": 9.1324200913242e-07,
+      "loss": 0.0002,
+      "reward": 1.359375,
+      "reward_std": 0.09143973141908646,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 1.0,
+      "step": 190
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 398.78125,
+      "epoch": 0.26164383561643834,
+      "grad_norm": 2.271404266357422,
+      "kl": 0.276123046875,
+      "learning_rate": 9.127853881278539e-07,
+      "loss": 0.0003,
+      "reward": 1.5,
+      "reward_std": 0.1293042004108429,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 191
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 579.90625,
+      "epoch": 0.26301369863013696,
+      "grad_norm": 1.1621103286743164,
+      "kl": 0.146484375,
+      "learning_rate": 9.123287671232876e-07,
+      "loss": 0.0001,
+      "reward": 1.34375,
+      "reward_std": 0.10888781771063805,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 192
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 418.71875,
+      "epoch": 0.26438356164383564,
+      "grad_norm": 2.4608054161071777,
+      "kl": 0.1552734375,
+      "learning_rate": 9.118721461187214e-07,
+      "loss": 0.0002,
+      "reward": 1.84375,
+      "reward_std": 0.2704022154211998,
+      "rewards/accuracy_reward": 0.84375,
+      "rewards/format_reward": 1.0,
+      "step": 193
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 422.65625,
+      "epoch": 0.26575342465753427,
+      "grad_norm": 2.2332265377044678,
+      "kl": 0.152587890625,
+      "learning_rate": 9.114155251141552e-07,
+      "loss": 0.0002,
+      "reward": 1.5546875,
+      "reward_std": 0.27746163308620453,
+      "rewards/accuracy_reward": 0.5546875,
+      "rewards/format_reward": 1.0,
+      "step": 194
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 527.59375,
+      "epoch": 0.2671232876712329,
+      "grad_norm": 1.5108232498168945,
+      "kl": 0.13525390625,
+      "learning_rate": 9.10958904109589e-07,
+      "loss": 0.0001,
+      "reward": 1.375,
+      "reward_std": 0.115727499127388,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 195
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 435.625,
+      "epoch": 0.2684931506849315,
+      "grad_norm": 4.214125633239746,
+      "kl": 0.14013671875,
+      "learning_rate": 9.105022831050228e-07,
+      "loss": 0.0001,
+      "reward": 1.3984375,
+      "reward_std": 0.18013210594654083,
+      "rewards/accuracy_reward": 0.3984375,
+      "rewards/format_reward": 1.0,
+      "step": 196
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 539.3125,
+      "epoch": 0.26986301369863014,
+      "grad_norm": 5.064935207366943,
+      "kl": 0.165771484375,
+      "learning_rate": 9.100456621004566e-07,
+      "loss": 0.0002,
+      "reward": 1.7109375,
+      "reward_std": 0.27000918984413147,
+      "rewards/accuracy_reward": 0.7109375,
+      "rewards/format_reward": 1.0,
+      "step": 197
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 428.4375,
+      "epoch": 0.27123287671232876,
+      "grad_norm": 1.5454697608947754,
+      "kl": 0.18994140625,
+      "learning_rate": 9.095890410958904e-07,
+      "loss": 0.0002,
+      "reward": 1.4296875,
+      "reward_std": 0.13488983362913132,
+      "rewards/accuracy_reward": 0.4296875,
+      "rewards/format_reward": 1.0,
+      "step": 198
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 391.34375,
+      "epoch": 0.2726027397260274,
+      "grad_norm": 4.849545478820801,
+      "kl": 0.1414794921875,
+      "learning_rate": 9.091324200913242e-07,
+      "loss": 0.0001,
+      "reward": 1.234375,
+      "reward_std": 0.432646207511425,
+      "rewards/accuracy_reward": 0.296875,
+      "rewards/format_reward": 0.9375,
+      "step": 199
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 587.40625,
+      "epoch": 0.273972602739726,
+      "grad_norm": 1.7864863872528076,
+      "kl": 0.173583984375,
+      "learning_rate": 9.08675799086758e-07,
+      "loss": 0.0002,
+      "reward": 1.53125,
+      "reward_std": 0.14913516864180565,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 200
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 515.65625,
+      "epoch": 0.27534246575342464,
+      "grad_norm": 1.9118916988372803,
+      "kl": 0.177734375,
+      "learning_rate": 9.082191780821917e-07,
+      "loss": 0.0002,
+      "reward": 1.640625,
+      "reward_std": 0.35035815089941025,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 201
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 428.84375,
+      "epoch": 0.27671232876712326,
+      "grad_norm": 3.346449613571167,
+      "kl": 0.16943359375,
+      "learning_rate": 9.077625570776255e-07,
+      "loss": 0.0002,
+      "reward": 1.875,
+      "reward_std": 0.4419417232275009,
+      "rewards/accuracy_reward": 0.90625,
+      "rewards/format_reward": 0.96875,
+      "step": 202
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 607.90625,
+      "epoch": 0.27808219178082194,
+      "grad_norm": 2.130422830581665,
+      "kl": 0.161865234375,
+      "learning_rate": 9.073059360730593e-07,
+      "loss": 0.0002,
+      "reward": 1.2890625,
+      "reward_std": 0.27090023458004,
+      "rewards/accuracy_reward": 0.4140625,
+      "rewards/format_reward": 0.875,
+      "step": 203
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 521.65625,
+      "epoch": 0.27945205479452057,
+      "grad_norm": 2.6185011863708496,
+      "kl": 0.1533203125,
+      "learning_rate": 9.068493150684932e-07,
+      "loss": 0.0002,
+      "reward": 1.625,
+      "reward_std": 0.18702642805874348,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 204
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 430.5625,
+      "epoch": 0.2808219178082192,
+      "grad_norm": 5.361741065979004,
+      "kl": 0.174072265625,
+      "learning_rate": 9.063926940639269e-07,
+      "loss": 0.0002,
+      "reward": 1.34375,
+      "reward_std": 0.19149437546730042,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 205
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 417.5625,
+      "epoch": 0.2821917808219178,
+      "grad_norm": 1.3938766717910767,
+      "kl": 0.155517578125,
+      "learning_rate": 9.059360730593607e-07,
+      "loss": 0.0002,
+      "reward": 1.453125,
+      "reward_std": 0.10205793008208275,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 206
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 437.875,
+      "epoch": 0.28356164383561644,
+      "grad_norm": 1.8740441799163818,
+      "kl": 0.191162109375,
+      "learning_rate": 9.054794520547945e-07,
+      "loss": 0.0002,
+      "reward": 1.3125,
+      "reward_std": 0.1872510462999344,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 207
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 438.59375,
+      "epoch": 0.28493150684931506,
+      "grad_norm": 10.041444778442383,
+      "kl": 0.17919921875,
+      "learning_rate": 9.050228310502282e-07,
+      "loss": 0.0002,
+      "reward": 1.4453125,
+      "reward_std": 0.26258746162056923,
+      "rewards/accuracy_reward": 0.4453125,
+      "rewards/format_reward": 1.0,
+      "step": 208
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 443.15625,
+      "epoch": 0.2863013698630137,
+      "grad_norm": 2.726414203643799,
+      "kl": 0.166015625,
+      "learning_rate": 9.04566210045662e-07,
+      "loss": 0.0002,
+      "reward": 1.453125,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 209
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.84375,
+      "epoch": 0.2876712328767123,
+      "grad_norm": 1.979183554649353,
+      "kl": 0.167724609375,
+      "learning_rate": 9.041095890410958e-07,
+      "loss": 0.0002,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 210
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 512.84375,
+      "epoch": 0.28904109589041094,
+      "grad_norm": 1.7484036684036255,
+      "kl": 0.17041015625,
+      "learning_rate": 9.036529680365297e-07,
+      "loss": 0.0002,
+      "reward": 1.453125,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 211
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 473.84375,
+      "epoch": 0.29041095890410956,
+      "grad_norm": 0.7065235376358032,
+      "kl": 0.157958984375,
+      "learning_rate": 9.031963470319635e-07,
+      "loss": 0.0002,
+      "reward": 1.1953125,
+      "reward_std": 0.09704047441482544,
+      "rewards/accuracy_reward": 0.1953125,
+      "rewards/format_reward": 1.0,
+      "step": 212
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 529.21875,
+      "epoch": 0.29178082191780824,
+      "grad_norm": 2.361640453338623,
+      "kl": 0.18505859375,
+      "learning_rate": 9.027397260273972e-07,
+      "loss": 0.0002,
+      "reward": 1.6070312559604645,
+      "reward_std": 0.23584069684147835,
+      "rewards/accuracy_reward": 0.6070312410593033,
+      "rewards/format_reward": 1.0,
+      "step": 213
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 644.40625,
+      "epoch": 0.29315068493150687,
+      "grad_norm": 2.628955125808716,
+      "kl": 0.17041015625,
+      "learning_rate": 9.02283105022831e-07,
+      "loss": 0.0002,
+      "reward": 1.42578125,
+      "reward_std": 0.028628919273614883,
+      "rewards/accuracy_reward": 0.42578125,
+      "rewards/format_reward": 1.0,
+      "step": 214
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 460.65625,
+      "epoch": 0.2945205479452055,
+      "grad_norm": 5.236007213592529,
+      "kl": 0.173828125,
+      "learning_rate": 9.018264840182648e-07,
+      "loss": 0.0002,
+      "reward": 1.643750011920929,
+      "reward_std": 0.30251236632466316,
+      "rewards/accuracy_reward": 0.643750011920929,
+      "rewards/format_reward": 1.0,
+      "step": 215
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 440.25,
+      "epoch": 0.2958904109589041,
+      "grad_norm": 3.1358797550201416,
+      "kl": 0.176513671875,
+      "learning_rate": 9.013698630136985e-07,
+      "loss": 0.0002,
+      "reward": 1.4453125,
+      "reward_std": 0.22854942083358765,
+      "rewards/accuracy_reward": 0.4453125,
+      "rewards/format_reward": 1.0,
+      "step": 216
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 446.75,
+      "epoch": 0.29726027397260274,
+      "grad_norm": 1.5145561695098877,
+      "kl": 0.185791015625,
+      "learning_rate": 9.009132420091324e-07,
+      "loss": 0.0002,
+      "reward": 1.19140625,
+      "reward_std": 0.11935807205736637,
+      "rewards/accuracy_reward": 0.19140625,
+      "rewards/format_reward": 1.0,
+      "step": 217
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 377.40625,
+      "epoch": 0.29863013698630136,
+      "grad_norm": 1.9805744886398315,
+      "kl": 0.181884765625,
+      "learning_rate": 9.004566210045662e-07,
+      "loss": 0.0002,
+      "reward": 1.28125,
+      "reward_std": 0.19149437546730042,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 218
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 429.84375,
+      "epoch": 0.3,
+      "grad_norm": 8.512849807739258,
+      "kl": 0.184814453125,
+      "learning_rate": 9e-07,
+      "loss": 0.0002,
+      "reward": 1.53125,
+      "reward_std": 0.22301281243562698,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 219
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 415.09375,
+      "epoch": 0.3013698630136986,
+      "grad_norm": 0.7778679132461548,
+      "kl": 0.225341796875,
+      "learning_rate": 8.995433789954338e-07,
+      "loss": 0.0002,
+      "reward": 1.34375,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 220
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 480.75,
+      "epoch": 0.30273972602739724,
+      "grad_norm": 6.034634590148926,
+      "kl": 0.19775390625,
+      "learning_rate": 8.990867579908675e-07,
+      "loss": 0.0002,
+      "reward": 1.375,
+      "reward_std": 0.16279494389891624,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 221
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 501.40625,
+      "epoch": 0.3041095890410959,
+      "grad_norm": 0.8172019720077515,
+      "kl": 0.258544921875,
+      "learning_rate": 8.986301369863013e-07,
+      "loss": 0.0003,
+      "reward": 1.578125,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.578125,
+      "rewards/format_reward": 1.0,
+      "step": 222
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 468.28125,
+      "epoch": 0.30547945205479454,
+      "grad_norm": 2.73528790473938,
+      "kl": 0.19140625,
+      "learning_rate": 8.981735159817351e-07,
+      "loss": 0.0002,
+      "reward": 1.3645833432674408,
+      "reward_std": 0.2686460316181183,
+      "rewards/accuracy_reward": 0.3645833283662796,
+      "rewards/format_reward": 1.0,
+      "step": 223
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 475.09375,
+      "epoch": 0.30684931506849317,
+      "grad_norm": 0.015807894989848137,
+      "kl": 0.178466796875,
+      "learning_rate": 8.97716894977169e-07,
+      "loss": 0.0002,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 224
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 673.03125,
+      "epoch": 0.3082191780821918,
+      "grad_norm": 1.2931923866271973,
+      "kl": 0.155029296875,
+      "learning_rate": 8.972602739726027e-07,
+      "loss": 0.0002,
+      "reward": 1.3515625,
+      "reward_std": 0.2547192648053169,
+      "rewards/accuracy_reward": 0.3828125,
+      "rewards/format_reward": 0.96875,
+      "step": 225
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 581.40625,
+      "epoch": 0.3095890410958904,
+      "grad_norm": 2.7091639041900635,
+      "kl": 0.183349609375,
+      "learning_rate": 8.968036529680365e-07,
+      "loss": 0.0002,
+      "reward": 1.390625,
+      "reward_std": 0.2109457477927208,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 1.0,
+      "step": 226
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 497.9375,
+      "epoch": 0.31095890410958904,
+      "grad_norm": 1.3506500720977783,
+      "kl": 0.1748046875,
+      "learning_rate": 8.963470319634703e-07,
+      "loss": 0.0002,
+      "reward": 1.09375,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/format_reward": 0.96875,
+      "step": 227
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 377.8125,
+      "epoch": 0.31232876712328766,
+      "grad_norm": 1.4593608379364014,
+      "kl": 0.183349609375,
+      "learning_rate": 8.958904109589041e-07,
+      "loss": 0.0002,
+      "reward": 1.34375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 228
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 566.3125,
+      "epoch": 0.3136986301369863,
+      "grad_norm": 0.8097538948059082,
+      "kl": 0.159423828125,
+      "learning_rate": 8.954337899543378e-07,
+      "loss": 0.0002,
+      "reward": 1.1875,
+      "reward_std": 0.06681530922651291,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/format_reward": 1.0,
+      "step": 229
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 608.09375,
+      "epoch": 0.3150684931506849,
+      "grad_norm": 2.8190650939941406,
+      "kl": 0.18408203125,
+      "learning_rate": 8.949771689497716e-07,
+      "loss": 0.0002,
+      "reward": 1.40625,
+      "reward_std": 0.1552036553621292,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 230
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 519.1875,
+      "epoch": 0.31643835616438354,
+      "grad_norm": 1.5466049909591675,
+      "kl": 0.1650390625,
+      "learning_rate": 8.945205479452055e-07,
+      "loss": 0.0002,
+      "reward": 1.40625,
+      "reward_std": 0.27339156717061996,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 0.96875,
+      "step": 231
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 601.09375,
+      "epoch": 0.3178082191780822,
+      "grad_norm": 8.43017864227295,
+      "kl": 0.15771484375,
+      "learning_rate": 8.940639269406392e-07,
+      "loss": 0.0002,
+      "reward": 1.203125,
+      "reward_std": 0.26621313393116,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 0.96875,
+      "step": 232
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 458.96875,
+      "epoch": 0.31917808219178084,
+      "grad_norm": 3.6506810188293457,
+      "kl": 0.197509765625,
+      "learning_rate": 8.93607305936073e-07,
+      "loss": 0.0002,
+      "reward": 1.625,
+      "reward_std": 0.4045617878437042,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 233
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 642.0,
+      "epoch": 0.32054794520547947,
+      "grad_norm": 2.9570024013519287,
+      "kl": 0.17041015625,
+      "learning_rate": 8.931506849315068e-07,
+      "loss": 0.0002,
+      "reward": 1.4375,
+      "reward_std": 0.3128525000065565,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.9375,
+      "step": 234
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 569.78125,
+      "epoch": 0.3219178082191781,
+      "grad_norm": 1.4737908840179443,
+      "kl": 0.158203125,
+      "learning_rate": 8.926940639269406e-07,
+      "loss": 0.0002,
+      "reward": 1.765625,
+      "reward_std": 0.41709377616643906,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 1.0,
+      "step": 235
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 656.59375,
+      "epoch": 0.3232876712328767,
+      "grad_norm": 3.560518264770508,
+      "kl": 0.168701171875,
+      "learning_rate": 8.922374429223744e-07,
+      "loss": 0.0002,
+      "reward": 1.6796875,
+      "reward_std": 0.12393621355295181,
+      "rewards/accuracy_reward": 0.6796875,
+      "rewards/format_reward": 1.0,
+      "step": 236
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 568.59375,
+      "epoch": 0.32465753424657534,
+      "grad_norm": 1.0155640840530396,
+      "kl": 0.16259765625,
+      "learning_rate": 8.917808219178081e-07,
+      "loss": 0.0002,
+      "reward": 1.28125,
+      "reward_std": 0.07312605157494545,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 237
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 572.84375,
+      "epoch": 0.32602739726027397,
+      "grad_norm": 0.018812214955687523,
+      "kl": 0.177490234375,
+      "learning_rate": 8.91324200913242e-07,
+      "loss": 0.0002,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 238
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 714.375,
+      "epoch": 0.3273972602739726,
+      "grad_norm": 1.2518051862716675,
+      "kl": 0.1611328125,
+      "learning_rate": 8.908675799086758e-07,
+      "loss": 0.0002,
+      "reward": 1.8567708134651184,
+      "reward_std": 0.23625470884144306,
+      "rewards/accuracy_reward": 0.8880208134651184,
+      "rewards/format_reward": 0.96875,
+      "step": 239
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 471.78125,
+      "epoch": 0.3287671232876712,
+      "grad_norm": 0.015509501099586487,
+      "kl": 0.189453125,
+      "learning_rate": 8.904109589041095e-07,
+      "loss": 0.0002,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 240
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 660.5625,
+      "epoch": 0.33013698630136984,
+      "grad_norm": 2.026989459991455,
+      "kl": 0.18701171875,
+      "learning_rate": 8.899543378995433e-07,
+      "loss": 0.0002,
+      "reward": 1.6953125,
+      "reward_std": 0.229622982442379,
+      "rewards/accuracy_reward": 0.6953125,
+      "rewards/format_reward": 1.0,
+      "step": 241
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 691.1875,
+      "epoch": 0.3315068493150685,
+      "grad_norm": 1.3158351182937622,
+      "kl": 0.180419921875,
+      "learning_rate": 8.894977168949771e-07,
+      "loss": 0.0002,
+      "reward": 1.65625,
+      "reward_std": 0.1462521031498909,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 242
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 721.46875,
+      "epoch": 0.33287671232876714,
+      "grad_norm": 1.1662763357162476,
+      "kl": 0.147216796875,
+      "learning_rate": 8.890410958904109e-07,
+      "loss": 0.0001,
+      "reward": 1.7299107313156128,
+      "reward_std": 0.14230500534176826,
+      "rewards/accuracy_reward": 0.7299107015132904,
+      "rewards/format_reward": 1.0,
+      "step": 243
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 594.09375,
+      "epoch": 0.33424657534246577,
+      "grad_norm": 2.274336814880371,
+      "kl": 0.17529296875,
+      "learning_rate": 8.885844748858448e-07,
+      "loss": 0.0002,
+      "reward": 1.4114583432674408,
+      "reward_std": 0.17236988991498947,
+      "rewards/accuracy_reward": 0.4114583432674408,
+      "rewards/format_reward": 1.0,
+      "step": 244
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 450.25,
+      "epoch": 0.3356164383561644,
+      "grad_norm": 1.401793360710144,
+      "kl": 0.201416015625,
+      "learning_rate": 8.881278538812785e-07,
+      "loss": 0.0002,
+      "reward": 1.328125,
+      "reward_std": 0.12255740165710449,
+      "rewards/accuracy_reward": 0.328125,
+      "rewards/format_reward": 1.0,
+      "step": 245
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 584.71875,
+      "epoch": 0.336986301369863,
+      "grad_norm": 1.7275149822235107,
+      "kl": 0.1708984375,
+      "learning_rate": 8.876712328767123e-07,
+      "loss": 0.0002,
+      "reward": 1.4192708432674408,
+      "reward_std": 0.12374339066445827,
+      "rewards/accuracy_reward": 0.4192708432674408,
+      "rewards/format_reward": 1.0,
+      "step": 246
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 548.875,
+      "epoch": 0.33835616438356164,
+      "grad_norm": 10.723580360412598,
+      "kl": 0.16357421875,
+      "learning_rate": 8.872146118721461e-07,
+      "loss": 0.0002,
+      "reward": 1.2890625,
+      "reward_std": 0.16597744077444077,
+      "rewards/accuracy_reward": 0.2890625,
+      "rewards/format_reward": 1.0,
+      "step": 247
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 618.375,
+      "epoch": 0.33972602739726027,
+      "grad_norm": 5.1156816482543945,
+      "kl": 0.235107421875,
+      "learning_rate": 8.867579908675798e-07,
+      "loss": 0.0002,
+      "reward": 1.625,
+      "reward_std": 0.24456444010138512,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 248
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 449.625,
+      "epoch": 0.3410958904109589,
+      "grad_norm": 2.348053216934204,
+      "kl": 0.185546875,
+      "learning_rate": 8.863013698630136e-07,
+      "loss": 0.0002,
+      "reward": 1.421875,
+      "reward_std": 0.29355230554938316,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 249
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 694.375,
+      "epoch": 0.3424657534246575,
+      "grad_norm": 0.8780984878540039,
+      "kl": 0.171630859375,
+      "learning_rate": 8.858447488584474e-07,
+      "loss": 0.0002,
+      "reward": 1.234375,
+      "reward_std": 0.1173202246427536,
+      "rewards/accuracy_reward": 0.265625,
+      "rewards/format_reward": 0.96875,
+      "step": 250
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 533.1875,
+      "epoch": 0.34383561643835614,
+      "grad_norm": 3.7509207725524902,
+      "kl": 0.19140625,
+      "learning_rate": 8.853881278538813e-07,
+      "loss": 0.0002,
+      "reward": 1.4375,
+      "reward_std": 0.2734241336584091,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 251
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 571.5,
+      "epoch": 0.3452054794520548,
+      "grad_norm": 1.7510371208190918,
+      "kl": 0.3330078125,
+      "learning_rate": 8.849315068493151e-07,
+      "loss": 0.0003,
+      "reward": 1.53125,
+      "reward_std": 0.26409146934747696,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 252
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 497.0625,
+      "epoch": 0.34657534246575344,
+      "grad_norm": 0.7126864790916443,
+      "kl": 0.1669921875,
+      "learning_rate": 8.844748858447488e-07,
+      "loss": 0.0002,
+      "reward": 1.2890625,
+      "reward_std": 0.3738361746072769,
+      "rewards/accuracy_reward": 0.3515625,
+      "rewards/format_reward": 0.9375,
+      "step": 253
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.6875,
+      "epoch": 0.34794520547945207,
+      "grad_norm": 2.1832709312438965,
+      "kl": 0.1943359375,
+      "learning_rate": 8.840182648401826e-07,
+      "loss": 0.0002,
+      "reward": 1.3515625,
+      "reward_std": 0.1815449744462967,
+      "rewards/accuracy_reward": 0.3515625,
+      "rewards/format_reward": 1.0,
+      "step": 254
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.0,
+      "epoch": 0.3493150684931507,
+      "grad_norm": 2.6141257286071777,
+      "kl": 0.217041015625,
+      "learning_rate": 8.835616438356164e-07,
+      "loss": 0.0002,
+      "reward": 1.203125,
+      "reward_std": 0.22097086533904076,
+      "rewards/accuracy_reward": 0.203125,
+      "rewards/format_reward": 1.0,
+      "step": 255
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 601.78125,
+      "epoch": 0.3506849315068493,
+      "grad_norm": 1.7095686197280884,
+      "kl": 0.1640625,
+      "learning_rate": 8.831050228310501e-07,
+      "loss": 0.0002,
+      "reward": 1.3671875,
+      "reward_std": 0.21604011207818985,
+      "rewards/accuracy_reward": 0.3984375,
+      "rewards/format_reward": 0.96875,
+      "step": 256
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 666.25,
+      "epoch": 0.35205479452054794,
+      "grad_norm": 1.052132487297058,
+      "kl": 0.1669921875,
+      "learning_rate": 8.826484018264839e-07,
+      "loss": 0.0002,
+      "reward": 1.609375,
+      "reward_std": 0.1315089538693428,
+      "rewards/accuracy_reward": 0.609375,
+      "rewards/format_reward": 1.0,
+      "step": 257
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 630.0,
+      "epoch": 0.35342465753424657,
+      "grad_norm": 17.632997512817383,
+      "kl": 0.168212890625,
+      "learning_rate": 8.821917808219178e-07,
+      "loss": 0.0002,
+      "reward": 1.671875,
+      "reward_std": 0.38394393771886826,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 0.96875,
+      "step": 258
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 533.46875,
+      "epoch": 0.3547945205479452,
+      "grad_norm": 1.7030237913131714,
+      "kl": 0.17041015625,
+      "learning_rate": 8.817351598173516e-07,
+      "loss": 0.0002,
+      "reward": 1.53125,
+      "reward_std": 0.1552036553621292,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 259
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 385.09375,
+      "epoch": 0.3561643835616438,
+      "grad_norm": 3.2231457233428955,
+      "kl": 0.19873046875,
+      "learning_rate": 8.812785388127854e-07,
+      "loss": 0.0002,
+      "reward": 1.15625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.15625,
+      "rewards/format_reward": 1.0,
+      "step": 260
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 697.28125,
+      "epoch": 0.35753424657534244,
+      "grad_norm": 1.5386288166046143,
+      "kl": 0.18798828125,
+      "learning_rate": 8.808219178082191e-07,
+      "loss": 0.0002,
+      "reward": 1.5078125,
+      "reward_std": 0.1916224267333746,
+      "rewards/accuracy_reward": 0.5390625,
+      "rewards/format_reward": 0.96875,
+      "step": 261
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 533.25,
+      "epoch": 0.3589041095890411,
+      "grad_norm": 17.967370986938477,
+      "kl": 0.21240234375,
+      "learning_rate": 8.803652968036529e-07,
+      "loss": 0.0002,
+      "reward": 1.6458333432674408,
+      "reward_std": 0.26592448726296425,
+      "rewards/accuracy_reward": 0.6458333432674408,
+      "rewards/format_reward": 1.0,
+      "step": 262
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 553.34375,
+      "epoch": 0.36027397260273974,
+      "grad_norm": 1.2522979974746704,
+      "kl": 0.169921875,
+      "learning_rate": 8.799086757990867e-07,
+      "loss": 0.0002,
+      "reward": 1.4791666269302368,
+      "reward_std": 0.12335556373000145,
+      "rewards/accuracy_reward": 0.4791666567325592,
+      "rewards/format_reward": 1.0,
+      "step": 263
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.53125,
+      "epoch": 0.36164383561643837,
+      "grad_norm": 1.5335299968719482,
+      "kl": 0.187744140625,
+      "learning_rate": 8.794520547945205e-07,
+      "loss": 0.0002,
+      "reward": 1.28125,
+      "reward_std": 0.1962025985121727,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 264
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 556.9375,
+      "epoch": 0.363013698630137,
+      "grad_norm": 1.35916006565094,
+      "kl": 0.24365234375,
+      "learning_rate": 8.789954337899543e-07,
+      "loss": 0.0002,
+      "reward": 1.390625,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 0.96875,
+      "step": 265
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 546.75,
+      "epoch": 0.3643835616438356,
+      "grad_norm": 0.8804590702056885,
+      "kl": 0.2041015625,
+      "learning_rate": 8.785388127853881e-07,
+      "loss": 0.0002,
+      "reward": 1.3515625,
+      "reward_std": 0.09704046696424484,
+      "rewards/accuracy_reward": 0.3515625,
+      "rewards/format_reward": 1.0,
+      "step": 266
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 594.875,
+      "epoch": 0.36575342465753424,
+      "grad_norm": 1.8236092329025269,
+      "kl": 0.188720703125,
+      "learning_rate": 8.780821917808219e-07,
+      "loss": 0.0002,
+      "reward": 2.078125,
+      "reward_std": 0.0776018276810646,
+      "rewards/accuracy_reward": 1.078125,
+      "rewards/format_reward": 1.0,
+      "step": 267
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 386.59375,
+      "epoch": 0.36712328767123287,
+      "grad_norm": 11.162297248840332,
+      "kl": 0.190185546875,
+      "learning_rate": 8.776255707762557e-07,
+      "loss": 0.0002,
+      "reward": 1.5859375,
+      "reward_std": 0.23224157467484474,
+      "rewards/accuracy_reward": 0.5859375,
+      "rewards/format_reward": 1.0,
+      "step": 268
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 578.5625,
+      "epoch": 0.3684931506849315,
+      "grad_norm": 2.6213197708129883,
+      "kl": 0.214111328125,
+      "learning_rate": 8.771689497716894e-07,
+      "loss": 0.0002,
+      "reward": 1.58984375,
+      "reward_std": 0.33964164927601814,
+      "rewards/accuracy_reward": 0.58984375,
+      "rewards/format_reward": 1.0,
+      "step": 269
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 543.5,
+      "epoch": 0.3698630136986301,
+      "grad_norm": 2.206378221511841,
+      "kl": 0.1650390625,
+      "learning_rate": 8.767123287671232e-07,
+      "loss": 0.0002,
+      "reward": 1.6437499523162842,
+      "reward_std": 0.4507673643529415,
+      "rewards/accuracy_reward": 0.6749999970197678,
+      "rewards/format_reward": 0.96875,
+      "step": 270
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 611.84375,
+      "epoch": 0.37123287671232874,
+      "grad_norm": 3.658581018447876,
+      "kl": 0.167236328125,
+      "learning_rate": 8.762557077625571e-07,
+      "loss": 0.0002,
+      "reward": 1.2125000059604645,
+      "reward_std": 0.09996108617633581,
+      "rewards/accuracy_reward": 0.2124999761581421,
+      "rewards/format_reward": 1.0,
+      "step": 271
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 384.375,
+      "epoch": 0.3726027397260274,
+      "grad_norm": 2.4175188541412354,
+      "kl": 0.258056640625,
+      "learning_rate": 8.757990867579908e-07,
+      "loss": 0.0003,
+      "reward": 1.515625,
+      "reward_std": 0.30721208080649376,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 272
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 484.53125,
+      "epoch": 0.37397260273972605,
+      "grad_norm": 1.4815560579299927,
+      "kl": 0.1787109375,
+      "learning_rate": 8.753424657534246e-07,
+      "loss": 0.0002,
+      "reward": 1.359375,
+      "reward_std": 0.1804211586713791,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 1.0,
+      "step": 273
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 636.0,
+      "epoch": 0.37534246575342467,
+      "grad_norm": 2.208836078643799,
+      "kl": 0.159423828125,
+      "learning_rate": 8.748858447488584e-07,
+      "loss": 0.0002,
+      "reward": 1.5859375,
+      "reward_std": 0.19568835757672787,
+      "rewards/accuracy_reward": 0.5859375,
+      "rewards/format_reward": 1.0,
+      "step": 274
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 570.1875,
+      "epoch": 0.3767123287671233,
+      "grad_norm": 2.3311572074890137,
+      "kl": 0.16748046875,
+      "learning_rate": 8.744292237442922e-07,
+      "loss": 0.0002,
+      "reward": 1.609375,
+      "reward_std": 0.269338458776474,
+      "rewards/accuracy_reward": 0.609375,
+      "rewards/format_reward": 1.0,
+      "step": 275
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 502.78125,
+      "epoch": 0.3780821917808219,
+      "grad_norm": 2.8278110027313232,
+      "kl": 0.22265625,
+      "learning_rate": 8.73972602739726e-07,
+      "loss": 0.0002,
+      "reward": 1.296875,
+      "reward_std": 0.1583191677927971,
+      "rewards/accuracy_reward": 0.296875,
+      "rewards/format_reward": 1.0,
+      "step": 276
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 708.03125,
+      "epoch": 0.37945205479452054,
+      "grad_norm": 1.0638788938522339,
+      "kl": 0.224853515625,
+      "learning_rate": 8.735159817351597e-07,
+      "loss": 0.0002,
+      "reward": 1.3984375,
+      "reward_std": 0.13941731117665768,
+      "rewards/accuracy_reward": 0.4296875,
+      "rewards/format_reward": 0.96875,
+      "step": 277
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 582.6875,
+      "epoch": 0.38082191780821917,
+      "grad_norm": 0.551222026348114,
+      "kl": 0.21728515625,
+      "learning_rate": 8.730593607305936e-07,
+      "loss": 0.0002,
+      "reward": 1.078125,
+      "reward_std": 0.13258251547813416,
+      "rewards/accuracy_reward": 0.109375,
+      "rewards/format_reward": 0.96875,
+      "step": 278
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 418.125,
+      "epoch": 0.3821917808219178,
+      "grad_norm": 2.8419177532196045,
+      "kl": 0.177978515625,
+      "learning_rate": 8.726027397260274e-07,
+      "loss": 0.0002,
+      "reward": 1.515625,
+      "reward_std": 0.3098084479570389,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 279
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 613.46875,
+      "epoch": 0.3835616438356164,
+      "grad_norm": 2.1832010746002197,
+      "kl": 0.171875,
+      "learning_rate": 8.721461187214611e-07,
+      "loss": 0.0002,
+      "reward": 1.734375,
+      "reward_std": 0.22673699632287025,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 280
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 407.8125,
+      "epoch": 0.38493150684931504,
+      "grad_norm": 1.6464120149612427,
+      "kl": 0.18115234375,
+      "learning_rate": 8.716894977168949e-07,
+      "loss": 0.0002,
+      "reward": 1.203125,
+      "reward_std": 0.22097086161375046,
+      "rewards/accuracy_reward": 0.203125,
+      "rewards/format_reward": 1.0,
+      "step": 281
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 549.125,
+      "epoch": 0.3863013698630137,
+      "grad_norm": 1.0540616512298584,
+      "kl": 0.1845703125,
+      "learning_rate": 8.712328767123287e-07,
+      "loss": 0.0002,
+      "reward": 1.546875,
+      "reward_std": 0.05444390885531902,
+      "rewards/accuracy_reward": 0.546875,
+      "rewards/format_reward": 1.0,
+      "step": 282
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 583.4375,
+      "epoch": 0.38767123287671235,
+      "grad_norm": 0.87820965051651,
+      "kl": 0.15380859375,
+      "learning_rate": 8.707762557077625e-07,
+      "loss": 0.0002,
+      "reward": 1.3020833134651184,
+      "reward_std": 0.029462769627571106,
+      "rewards/accuracy_reward": 0.3020833283662796,
+      "rewards/format_reward": 1.0,
+      "step": 283
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 651.53125,
+      "epoch": 0.38904109589041097,
+      "grad_norm": 3.814786434173584,
+      "kl": 0.184326171875,
+      "learning_rate": 8.703196347031964e-07,
+      "loss": 0.0002,
+      "reward": 1.5679687559604645,
+      "reward_std": 0.125592902302742,
+      "rewards/accuracy_reward": 0.5679687559604645,
+      "rewards/format_reward": 1.0,
+      "step": 284
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 660.59375,
+      "epoch": 0.3904109589041096,
+      "grad_norm": 8.2400484085083,
+      "kl": 0.18896484375,
+      "learning_rate": 8.698630136986301e-07,
+      "loss": 0.0002,
+      "reward": 1.7677083015441895,
+      "reward_std": 0.2733229286968708,
+      "rewards/accuracy_reward": 0.7989583611488342,
+      "rewards/format_reward": 0.96875,
+      "step": 285
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 505.28125,
+      "epoch": 0.3917808219178082,
+      "grad_norm": 1.994737982749939,
+      "kl": 0.18994140625,
+      "learning_rate": 8.694063926940639e-07,
+      "loss": 0.0002,
+      "reward": 1.4140625,
+      "reward_std": 0.10613362491130829,
+      "rewards/accuracy_reward": 0.4140625,
+      "rewards/format_reward": 1.0,
+      "step": 286
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 511.8125,
+      "epoch": 0.39315068493150684,
+      "grad_norm": 5.628194808959961,
+      "kl": 0.166748046875,
+      "learning_rate": 8.689497716894977e-07,
+      "loss": 0.0002,
+      "reward": 1.7578125,
+      "reward_std": 0.21267853677272797,
+      "rewards/accuracy_reward": 0.7578125,
+      "rewards/format_reward": 1.0,
+      "step": 287
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 445.21875,
+      "epoch": 0.39452054794520547,
+      "grad_norm": 2.055222749710083,
+      "kl": 0.202392578125,
+      "learning_rate": 8.684931506849314e-07,
+      "loss": 0.0002,
+      "reward": 1.7187499701976776,
+      "reward_std": 0.23613503947854042,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 1.0,
+      "step": 288
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 406.75,
+      "epoch": 0.3958904109589041,
+      "grad_norm": 0.7133424282073975,
+      "kl": 0.19189453125,
+      "learning_rate": 8.680365296803652e-07,
+      "loss": 0.0002,
+      "reward": 1.5703125,
+      "reward_std": 0.05725783854722977,
+      "rewards/accuracy_reward": 0.5703125,
+      "rewards/format_reward": 1.0,
+      "step": 289
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 573.25,
+      "epoch": 0.3972602739726027,
+      "grad_norm": 1.4115186929702759,
+      "kl": 0.185546875,
+      "learning_rate": 8.67579908675799e-07,
+      "loss": 0.0002,
+      "reward": 1.96875,
+      "reward_std": 0.23833239078521729,
+      "rewards/accuracy_reward": 0.96875,
+      "rewards/format_reward": 1.0,
+      "step": 290
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 531.625,
+      "epoch": 0.39863013698630134,
+      "grad_norm": 1.865753173828125,
+      "kl": 0.2314453125,
+      "learning_rate": 8.671232876712329e-07,
+      "loss": 0.0002,
+      "reward": 1.5546875,
+      "reward_std": 0.18630647659301758,
+      "rewards/accuracy_reward": 0.5546875,
+      "rewards/format_reward": 1.0,
+      "step": 291
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 523.46875,
+      "epoch": 0.4,
+      "grad_norm": 1.9343034029006958,
+      "kl": 0.18505859375,
+      "learning_rate": 8.666666666666667e-07,
+      "loss": 0.0002,
+      "reward": 1.640625,
+      "reward_std": 0.31587694957852364,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 292
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 515.9375,
+      "epoch": 0.40136986301369865,
+      "grad_norm": 1.4373409748077393,
+      "kl": 0.17578125,
+      "learning_rate": 8.662100456621004e-07,
+      "loss": 0.0002,
+      "reward": 1.6388888359069824,
+      "reward_std": 0.1706457920372486,
+      "rewards/accuracy_reward": 0.6388888955116272,
+      "rewards/format_reward": 1.0,
+      "step": 293
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 509.96875,
+      "epoch": 0.40273972602739727,
+      "grad_norm": 1.1212681531906128,
+      "kl": 0.19921875,
+      "learning_rate": 8.657534246575342e-07,
+      "loss": 0.0002,
+      "reward": 1.203125,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.203125,
+      "rewards/format_reward": 1.0,
+      "step": 294
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 536.65625,
+      "epoch": 0.4041095890410959,
+      "grad_norm": 1.6588208675384521,
+      "kl": 0.193359375,
+      "learning_rate": 8.65296803652968e-07,
+      "loss": 0.0002,
+      "reward": 1.3971354067325592,
+      "reward_std": 0.03875125199556351,
+      "rewards/accuracy_reward": 0.3971354067325592,
+      "rewards/format_reward": 1.0,
+      "step": 295
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 582.1875,
+      "epoch": 0.4054794520547945,
+      "grad_norm": 1.8998637199401855,
+      "kl": 0.22900390625,
+      "learning_rate": 8.648401826484017e-07,
+      "loss": 0.0002,
+      "reward": 1.96875,
+      "reward_std": 0.2519447058439255,
+      "rewards/accuracy_reward": 0.96875,
+      "rewards/format_reward": 1.0,
+      "step": 296
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 514.46875,
+      "epoch": 0.40684931506849314,
+      "grad_norm": 1.1315598487854004,
+      "kl": 0.178955078125,
+      "learning_rate": 8.643835616438355e-07,
+      "loss": 0.0002,
+      "reward": 1.3828125,
+      "reward_std": 0.09021057933568954,
+      "rewards/accuracy_reward": 0.3828125,
+      "rewards/format_reward": 1.0,
+      "step": 297
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 481.6875,
+      "epoch": 0.40821917808219177,
+      "grad_norm": 1.4266315698623657,
+      "kl": 0.209716796875,
+      "learning_rate": 8.639269406392694e-07,
+      "loss": 0.0002,
+      "reward": 1.3203125,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.3203125,
+      "rewards/format_reward": 1.0,
+      "step": 298
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 432.6875,
+      "epoch": 0.4095890410958904,
+      "grad_norm": 0.9578768014907837,
+      "kl": 0.186279296875,
+      "learning_rate": 8.634703196347032e-07,
+      "loss": 0.0002,
+      "reward": 1.203125,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.203125,
+      "rewards/format_reward": 1.0,
+      "step": 299
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 602.875,
+      "epoch": 0.410958904109589,
+      "grad_norm": 1.1748281717300415,
+      "kl": 0.247802734375,
+      "learning_rate": 8.63013698630137e-07,
+      "loss": 0.0002,
+      "reward": 1.3671875,
+      "reward_std": 0.08679073117673397,
+      "rewards/accuracy_reward": 0.3671875,
+      "rewards/format_reward": 1.0,
+      "step": 300
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 459.375,
+      "epoch": 0.4123287671232877,
+      "grad_norm": 1.2540714740753174,
+      "kl": 0.2158203125,
+      "learning_rate": 8.625570776255707e-07,
+      "loss": 0.0002,
+      "reward": 1.9296875,
+      "reward_std": 0.1649293377995491,
+      "rewards/accuracy_reward": 0.9296875,
+      "rewards/format_reward": 1.0,
+      "step": 301
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 583.5625,
+      "epoch": 0.4136986301369863,
+      "grad_norm": 1.9239349365234375,
+      "kl": 0.167724609375,
+      "learning_rate": 8.621004566210045e-07,
+      "loss": 0.0002,
+      "reward": 1.5446428060531616,
+      "reward_std": 0.05746740661561489,
+      "rewards/accuracy_reward": 0.5446428954601288,
+      "rewards/format_reward": 1.0,
+      "step": 302
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 524.46875,
+      "epoch": 0.41506849315068495,
+      "grad_norm": 2.8443050384521484,
+      "kl": 0.185546875,
+      "learning_rate": 8.616438356164383e-07,
+      "loss": 0.0002,
+      "reward": 1.5546875,
+      "reward_std": 0.15467960387468338,
+      "rewards/accuracy_reward": 0.5546875,
+      "rewards/format_reward": 1.0,
+      "step": 303
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 369.8125,
+      "epoch": 0.41643835616438357,
+      "grad_norm": 2.6606931686401367,
+      "kl": 0.226318359375,
+      "learning_rate": 8.611872146118721e-07,
+      "loss": 0.0002,
+      "reward": 1.71875,
+      "reward_std": 0.38481390848755836,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 1.0,
+      "step": 304
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 574.625,
+      "epoch": 0.4178082191780822,
+      "grad_norm": 1.6216801404953003,
+      "kl": 0.1943359375,
+      "learning_rate": 8.607305936073059e-07,
+      "loss": 0.0002,
+      "reward": 1.21875,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 305
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 566.3125,
+      "epoch": 0.4191780821917808,
+      "grad_norm": 2.814319372177124,
+      "kl": 0.189453125,
+      "learning_rate": 8.602739726027397e-07,
+      "loss": 0.0002,
+      "reward": 1.515625,
+      "reward_std": 0.36036762222647667,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 306
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 473.53125,
+      "epoch": 0.42054794520547945,
+      "grad_norm": 2.310194730758667,
+      "kl": 0.187255859375,
+      "learning_rate": 8.598173515981735e-07,
+      "loss": 0.0002,
+      "reward": 1.578125,
+      "reward_std": 0.30617379024624825,
+      "rewards/accuracy_reward": 0.578125,
+      "rewards/format_reward": 1.0,
+      "step": 307
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 659.25,
+      "epoch": 0.42191780821917807,
+      "grad_norm": 0.9056942462921143,
+      "kl": 0.190673828125,
+      "learning_rate": 8.593607305936073e-07,
+      "loss": 0.0002,
+      "reward": 1.359375,
+      "reward_std": 0.19408094882965088,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 1.0,
+      "step": 308
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 389.1875,
+      "epoch": 0.4232876712328767,
+      "grad_norm": 0.03478769585490227,
+      "kl": 0.239501953125,
+      "learning_rate": 8.58904109589041e-07,
+      "loss": 0.0002,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 309
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 453.59375,
+      "epoch": 0.4246575342465753,
+      "grad_norm": 7.321046829223633,
+      "kl": 0.204345703125,
+      "learning_rate": 8.584474885844748e-07,
+      "loss": 0.0002,
+      "reward": 1.3046875,
+      "reward_std": 0.30941806733608246,
+      "rewards/accuracy_reward": 0.3359375,
+      "rewards/format_reward": 0.96875,
+      "step": 310
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 475.28125,
+      "epoch": 0.426027397260274,
+      "grad_norm": 3.1986887454986572,
+      "kl": 0.221435546875,
+      "learning_rate": 8.579908675799087e-07,
+      "loss": 0.0002,
+      "reward": 1.421875,
+      "reward_std": 0.4004939943552017,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 0.96875,
+      "step": 311
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 576.9375,
+      "epoch": 0.4273972602739726,
+      "grad_norm": 1.7835962772369385,
+      "kl": 0.18798828125,
+      "learning_rate": 8.575342465753424e-07,
+      "loss": 0.0002,
+      "reward": 2.171875,
+      "reward_std": 0.23280548676848412,
+      "rewards/accuracy_reward": 1.171875,
+      "rewards/format_reward": 1.0,
+      "step": 312
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 506.5625,
+      "epoch": 0.42876712328767125,
+      "grad_norm": 2.5982441902160645,
+      "kl": 0.175537109375,
+      "learning_rate": 8.570776255707762e-07,
+      "loss": 0.0002,
+      "reward": 1.46875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 313
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 481.71875,
+      "epoch": 0.4301369863013699,
+      "grad_norm": 0.013101520948112011,
+      "kl": 0.212890625,
+      "learning_rate": 8.5662100456621e-07,
+      "loss": 0.0002,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 314
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 465.71875,
+      "epoch": 0.4315068493150685,
+      "grad_norm": 5.282835960388184,
+      "kl": 0.212890625,
+      "learning_rate": 8.561643835616438e-07,
+      "loss": 0.0002,
+      "reward": 1.1796875,
+      "reward_std": 0.12073516845703125,
+      "rewards/accuracy_reward": 0.1796875,
+      "rewards/format_reward": 1.0,
+      "step": 315
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 538.96875,
+      "epoch": 0.4328767123287671,
+      "grad_norm": 2.862443447113037,
+      "kl": 0.21142578125,
+      "learning_rate": 8.557077625570776e-07,
+      "loss": 0.0002,
+      "reward": 2.234375,
+      "reward_std": 0.44417304918169975,
+      "rewards/accuracy_reward": 1.234375,
+      "rewards/format_reward": 1.0,
+      "step": 316
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 707.71875,
+      "epoch": 0.43424657534246575,
+      "grad_norm": 1.707274317741394,
+      "kl": 0.19287109375,
+      "learning_rate": 8.552511415525113e-07,
+      "loss": 0.0002,
+      "reward": 1.7218749523162842,
+      "reward_std": 0.0844996627420187,
+      "rewards/accuracy_reward": 0.721875011920929,
+      "rewards/format_reward": 1.0,
+      "step": 317
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 455.0,
+      "epoch": 0.43561643835616437,
+      "grad_norm": 2.739851713180542,
+      "kl": 0.216796875,
+      "learning_rate": 8.547945205479452e-07,
+      "loss": 0.0002,
+      "reward": 1.328125,
+      "reward_std": 0.29355230554938316,
+      "rewards/accuracy_reward": 0.328125,
+      "rewards/format_reward": 1.0,
+      "step": 318
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 501.71875,
+      "epoch": 0.436986301369863,
+      "grad_norm": 1.7768224477767944,
+      "kl": 0.217529296875,
+      "learning_rate": 8.54337899543379e-07,
+      "loss": 0.0002,
+      "reward": 1.25,
+      "reward_std": 0.3535533770918846,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 0.96875,
+      "step": 319
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 387.8125,
+      "epoch": 0.4383561643835616,
+      "grad_norm": 5.192182540893555,
+      "kl": 0.357421875,
+      "learning_rate": 8.538812785388127e-07,
+      "loss": 0.0004,
+      "reward": 1.3697916865348816,
+      "reward_std": 0.1467284932732582,
+      "rewards/accuracy_reward": 0.3697916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 320
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 466.8125,
+      "epoch": 0.4397260273972603,
+      "grad_norm": 1.898450493812561,
+      "kl": 0.24365234375,
+      "learning_rate": 8.534246575342465e-07,
+      "loss": 0.0002,
+      "reward": 1.2265625,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.2265625,
+      "rewards/format_reward": 1.0,
+      "step": 321
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 412.375,
+      "epoch": 0.4410958904109589,
+      "grad_norm": 1.9675666093826294,
+      "kl": 0.231689453125,
+      "learning_rate": 8.529680365296803e-07,
+      "loss": 0.0002,
+      "reward": 1.375,
+      "reward_std": 0.1825428232550621,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 322
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.5,
+      "epoch": 0.44246575342465755,
+      "grad_norm": 1.3606637716293335,
+      "kl": 0.257568359375,
+      "learning_rate": 8.52511415525114e-07,
+      "loss": 0.0003,
+      "reward": 1.25,
+      "reward_std": 0.0704294964671135,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 323
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 673.0,
+      "epoch": 0.4438356164383562,
+      "grad_norm": 1.0777534246444702,
+      "kl": 0.18701171875,
+      "learning_rate": 8.52054794520548e-07,
+      "loss": 0.0002,
+      "reward": 1.6614583134651184,
+      "reward_std": 0.0961906760931015,
+      "rewards/accuracy_reward": 0.6614583432674408,
+      "rewards/format_reward": 1.0,
+      "step": 324
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 640.09375,
+      "epoch": 0.4452054794520548,
+      "grad_norm": 1.1463043689727783,
+      "kl": 0.205078125,
+      "learning_rate": 8.515981735159817e-07,
+      "loss": 0.0002,
+      "reward": 1.390625,
+      "reward_std": 0.12255740165710449,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 1.0,
+      "step": 325
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 483.25,
+      "epoch": 0.4465753424657534,
+      "grad_norm": 3.938135862350464,
+      "kl": 0.256591796875,
+      "learning_rate": 8.511415525114155e-07,
+      "loss": 0.0003,
+      "reward": 1.60546875,
+      "reward_std": 0.2536969259381294,
+      "rewards/accuracy_reward": 0.60546875,
+      "rewards/format_reward": 1.0,
+      "step": 326
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 707.46875,
+      "epoch": 0.44794520547945205,
+      "grad_norm": 2.0289745330810547,
+      "kl": 0.170166015625,
+      "learning_rate": 8.506849315068493e-07,
+      "loss": 0.0002,
+      "reward": 1.75,
+      "reward_std": 0.16622394509613514,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 327
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 496.15625,
+      "epoch": 0.44931506849315067,
+      "grad_norm": 1.461342215538025,
+      "kl": 0.2412109375,
+      "learning_rate": 8.50228310502283e-07,
+      "loss": 0.0002,
+      "reward": 1.390625,
+      "reward_std": 0.1446593925356865,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 1.0,
+      "step": 328
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 693.28125,
+      "epoch": 0.4506849315068493,
+      "grad_norm": 1.320560336112976,
+      "kl": 0.18310546875,
+      "learning_rate": 8.497716894977168e-07,
+      "loss": 0.0002,
+      "reward": 1.703125,
+      "reward_std": 0.3912949990481138,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 0.96875,
+      "step": 329
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 649.65625,
+      "epoch": 0.4520547945205479,
+      "grad_norm": 2.9369583129882812,
+      "kl": 0.19384765625,
+      "learning_rate": 8.493150684931506e-07,
+      "loss": 0.0002,
+      "reward": 1.80859375,
+      "reward_std": 0.1918780878186226,
+      "rewards/accuracy_reward": 0.80859375,
+      "rewards/format_reward": 1.0,
+      "step": 330
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 461.03125,
+      "epoch": 0.4534246575342466,
+      "grad_norm": 2.696607828140259,
+      "kl": 0.252685546875,
+      "learning_rate": 8.488584474885845e-07,
+      "loss": 0.0003,
+      "reward": 1.45703125,
+      "reward_std": 0.16619354858994484,
+      "rewards/accuracy_reward": 0.45703125,
+      "rewards/format_reward": 1.0,
+      "step": 331
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 378.0625,
+      "epoch": 0.4547945205479452,
+      "grad_norm": 1.493513822555542,
+      "kl": 0.244140625,
+      "learning_rate": 8.484018264840183e-07,
+      "loss": 0.0002,
+      "reward": 1.234375,
+      "reward_std": 0.1530819907784462,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 332
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 503.59375,
+      "epoch": 0.45616438356164385,
+      "grad_norm": 2.641517162322998,
+      "kl": 0.220703125,
+      "learning_rate": 8.47945205479452e-07,
+      "loss": 0.0002,
+      "reward": 1.7890625,
+      "reward_std": 0.2441160511225462,
+      "rewards/accuracy_reward": 0.7890625,
+      "rewards/format_reward": 1.0,
+      "step": 333
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 580.84375,
+      "epoch": 0.4575342465753425,
+      "grad_norm": 1.104002594947815,
+      "kl": 0.206298828125,
+      "learning_rate": 8.474885844748858e-07,
+      "loss": 0.0002,
+      "reward": 1.4296875,
+      "reward_std": 0.09704047441482544,
+      "rewards/accuracy_reward": 0.4296875,
+      "rewards/format_reward": 1.0,
+      "step": 334
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 480.6875,
+      "epoch": 0.4589041095890411,
+      "grad_norm": 2.944154977798462,
+      "kl": 0.2412109375,
+      "learning_rate": 8.470319634703196e-07,
+      "loss": 0.0002,
+      "reward": 1.3671875,
+      "reward_std": 0.1678851991891861,
+      "rewards/accuracy_reward": 0.3671875,
+      "rewards/format_reward": 1.0,
+      "step": 335
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 633.9375,
+      "epoch": 0.4602739726027397,
+      "grad_norm": 1.3954813480377197,
+      "kl": 1.03955078125,
+      "learning_rate": 8.465753424657533e-07,
+      "loss": 0.001,
+      "reward": 1.1614583432674408,
+      "reward_std": 0.026702914386987686,
+      "rewards/accuracy_reward": 0.1614583283662796,
+      "rewards/format_reward": 1.0,
+      "step": 336
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 606.25,
+      "epoch": 0.46164383561643835,
+      "grad_norm": 1.2163310050964355,
+      "kl": 0.23876953125,
+      "learning_rate": 8.461187214611871e-07,
+      "loss": 0.0002,
+      "reward": 1.75,
+      "reward_std": 0.1733490191400051,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 337
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 477.625,
+      "epoch": 0.46301369863013697,
+      "grad_norm": 1.4970253705978394,
+      "kl": 0.2275390625,
+      "learning_rate": 8.45662100456621e-07,
+      "loss": 0.0002,
+      "reward": 1.34375,
+      "reward_std": 0.1356339044868946,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 338
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 580.5,
+      "epoch": 0.4643835616438356,
+      "grad_norm": 2.083859920501709,
+      "kl": 0.19677734375,
+      "learning_rate": 8.452054794520548e-07,
+      "loss": 0.0002,
+      "reward": 1.62109375,
+      "reward_std": 0.06917708925902843,
+      "rewards/accuracy_reward": 0.62109375,
+      "rewards/format_reward": 1.0,
+      "step": 339
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 503.34375,
+      "epoch": 0.4657534246575342,
+      "grad_norm": 0.6715368628501892,
+      "kl": 0.2392578125,
+      "learning_rate": 8.447488584474886e-07,
+      "loss": 0.0002,
+      "reward": 1.49609375,
+      "reward_std": 0.04555431008338928,
+      "rewards/accuracy_reward": 0.49609375,
+      "rewards/format_reward": 1.0,
+      "step": 340
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 613.625,
+      "epoch": 0.4671232876712329,
+      "grad_norm": 1.0103129148483276,
+      "kl": 0.19287109375,
+      "learning_rate": 8.442922374429223e-07,
+      "loss": 0.0002,
+      "reward": 1.3606770634651184,
+      "reward_std": 0.040511311031877995,
+      "rewards/accuracy_reward": 0.3606770783662796,
+      "rewards/format_reward": 1.0,
+      "step": 341
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 512.5,
+      "epoch": 0.4684931506849315,
+      "grad_norm": 0.989227831363678,
+      "kl": 0.186767578125,
+      "learning_rate": 8.438356164383561e-07,
+      "loss": 0.0002,
+      "reward": 1.84375,
+      "reward_std": 0.21564550511538982,
+      "rewards/accuracy_reward": 0.84375,
+      "rewards/format_reward": 1.0,
+      "step": 342
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 534.0,
+      "epoch": 0.46986301369863015,
+      "grad_norm": 1.0388092994689941,
+      "kl": 0.19189453125,
+      "learning_rate": 8.433789954337899e-07,
+      "loss": 0.0002,
+      "reward": 1.34375,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 343
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 502.3125,
+      "epoch": 0.4712328767123288,
+      "grad_norm": 2.6138434410095215,
+      "kl": 0.216552734375,
+      "learning_rate": 8.429223744292237e-07,
+      "loss": 0.0002,
+      "reward": 1.234375,
+      "reward_std": 0.1437886729836464,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 344
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 666.34375,
+      "epoch": 0.4726027397260274,
+      "grad_norm": 2.721027135848999,
+      "kl": 0.189453125,
+      "learning_rate": 8.424657534246576e-07,
+      "loss": 0.0002,
+      "reward": 1.453125,
+      "reward_std": 0.2909114882349968,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 0.9375,
+      "step": 345
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 521.65625,
+      "epoch": 0.473972602739726,
+      "grad_norm": 1.8512462377548218,
+      "kl": 0.235107421875,
+      "learning_rate": 8.420091324200913e-07,
+      "loss": 0.0002,
+      "reward": 1.2109375,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.2109375,
+      "rewards/format_reward": 1.0,
+      "step": 346
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 502.125,
+      "epoch": 0.47534246575342465,
+      "grad_norm": 0.8181569576263428,
+      "kl": 0.232177734375,
+      "learning_rate": 8.415525114155251e-07,
+      "loss": 0.0002,
+      "reward": 1.2447916567325592,
+      "reward_std": 0.05193428695201874,
+      "rewards/accuracy_reward": 0.2447916865348816,
+      "rewards/format_reward": 1.0,
+      "step": 347
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 625.875,
+      "epoch": 0.4767123287671233,
+      "grad_norm": 1.4510343074798584,
+      "kl": 0.21044921875,
+      "learning_rate": 8.410958904109589e-07,
+      "loss": 0.0002,
+      "reward": 2.015625,
+      "reward_std": 0.3187600150704384,
+      "rewards/accuracy_reward": 1.015625,
+      "rewards/format_reward": 1.0,
+      "step": 348
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 632.625,
+      "epoch": 0.4780821917808219,
+      "grad_norm": 0.8320886492729187,
+      "kl": 0.21875,
+      "learning_rate": 8.406392694063926e-07,
+      "loss": 0.0002,
+      "reward": 1.328125,
+      "reward_std": 0.2824692949652672,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 0.96875,
+      "step": 349
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 485.75,
+      "epoch": 0.4794520547945205,
+      "grad_norm": 2.6687960624694824,
+      "kl": 0.2578125,
+      "learning_rate": 8.401826484018264e-07,
+      "loss": 0.0003,
+      "reward": 1.32421875,
+      "reward_std": 0.26008394733071327,
+      "rewards/accuracy_reward": 0.32421875,
+      "rewards/format_reward": 1.0,
+      "step": 350
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 614.84375,
+      "epoch": 0.4808219178082192,
+      "grad_norm": 1.2626047134399414,
+      "kl": 0.199462890625,
+      "learning_rate": 8.397260273972603e-07,
+      "loss": 0.0002,
+      "reward": 1.453125,
+      "reward_std": 0.19960851781070232,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 0.96875,
+      "step": 351
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 760.0,
+      "epoch": 0.4821917808219178,
+      "grad_norm": 1.4241095781326294,
+      "kl": 0.26806640625,
+      "learning_rate": 8.39269406392694e-07,
+      "loss": 0.0003,
+      "reward": 1.5312499701976776,
+      "reward_std": 0.19424722902476788,
+      "rewards/accuracy_reward": 0.5624999850988388,
+      "rewards/format_reward": 0.96875,
+      "step": 352
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 389.09375,
+      "epoch": 0.48356164383561645,
+      "grad_norm": 2.1359047889709473,
+      "kl": 0.23779296875,
+      "learning_rate": 8.388127853881279e-07,
+      "loss": 0.0002,
+      "reward": 1.359375,
+      "reward_std": 0.27564920112490654,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 1.0,
+      "step": 353
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 498.59375,
+      "epoch": 0.4849315068493151,
+      "grad_norm": 2.235769510269165,
+      "kl": 0.20361328125,
+      "learning_rate": 8.383561643835616e-07,
+      "loss": 0.0002,
+      "reward": 1.25,
+      "reward_std": 0.2314550280570984,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 354
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 754.40625,
+      "epoch": 0.4863013698630137,
+      "grad_norm": 0.011801384389400482,
+      "kl": 0.194091796875,
+      "learning_rate": 8.378995433789954e-07,
+      "loss": 0.0002,
+      "reward": 1.125,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/format_reward": 1.0,
+      "step": 355
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 571.09375,
+      "epoch": 0.4876712328767123,
+      "grad_norm": 3.116180181503296,
+      "kl": 0.214599609375,
+      "learning_rate": 8.374429223744292e-07,
+      "loss": 0.0002,
+      "reward": 1.9453125,
+      "reward_std": 0.35993071645498276,
+      "rewards/accuracy_reward": 0.9453125,
+      "rewards/format_reward": 1.0,
+      "step": 356
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 500.90625,
+      "epoch": 0.48904109589041095,
+      "grad_norm": 2.013319492340088,
+      "kl": 0.21240234375,
+      "learning_rate": 8.369863013698629e-07,
+      "loss": 0.0002,
+      "reward": 1.5546875,
+      "reward_std": 0.19226671755313873,
+      "rewards/accuracy_reward": 0.5546875,
+      "rewards/format_reward": 1.0,
+      "step": 357
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 684.53125,
+      "epoch": 0.4904109589041096,
+      "grad_norm": 1.1122536659240723,
+      "kl": 0.219970703125,
+      "learning_rate": 8.365296803652968e-07,
+      "loss": 0.0002,
+      "reward": 1.6927083134651184,
+      "reward_std": 0.13533581793308258,
+      "rewards/accuracy_reward": 0.6927083432674408,
+      "rewards/format_reward": 1.0,
+      "step": 358
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 591.5,
+      "epoch": 0.4917808219178082,
+      "grad_norm": 3.6900923252105713,
+      "kl": 0.253173828125,
+      "learning_rate": 8.360730593607306e-07,
+      "loss": 0.0003,
+      "reward": 1.140625,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.140625,
+      "rewards/format_reward": 1.0,
+      "step": 359
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 402.375,
+      "epoch": 0.4931506849315068,
+      "grad_norm": 1.4678456783294678,
+      "kl": 0.254150390625,
+      "learning_rate": 8.356164383561643e-07,
+      "loss": 0.0003,
+      "reward": 1.375,
+      "reward_std": 0.2925042062997818,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 0.96875,
+      "step": 360
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 464.90625,
+      "epoch": 0.4945205479452055,
+      "grad_norm": 0.8065510392189026,
+      "kl": 0.238037109375,
+      "learning_rate": 8.351598173515981e-07,
+      "loss": 0.0002,
+      "reward": 1.484375,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 361
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 437.53125,
+      "epoch": 0.4958904109589041,
+      "grad_norm": 0.8244228959083557,
+      "kl": 0.2685546875,
+      "learning_rate": 8.347031963470319e-07,
+      "loss": 0.0003,
+      "reward": 1.1953125,
+      "reward_std": 0.04005437344312668,
+      "rewards/accuracy_reward": 0.1953125,
+      "rewards/format_reward": 1.0,
+      "step": 362
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.59375,
+      "epoch": 0.49726027397260275,
+      "grad_norm": 0.8816384077072144,
+      "kl": 0.24267578125,
+      "learning_rate": 8.342465753424657e-07,
+      "loss": 0.0002,
+      "reward": 1.234375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 363
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 694.5,
+      "epoch": 0.4986301369863014,
+      "grad_norm": 1.5277591943740845,
+      "kl": 0.229248046875,
+      "learning_rate": 8.337899543378996e-07,
+      "loss": 0.0002,
+      "reward": 1.9697916805744171,
+      "reward_std": 0.2954293917864561,
+      "rewards/accuracy_reward": 0.9697916805744171,
+      "rewards/format_reward": 1.0,
+      "step": 364
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 584.96875,
+      "epoch": 0.5,
+      "grad_norm": 0.6433670520782471,
+      "kl": 0.241455078125,
+      "learning_rate": 8.333333333333333e-07,
+      "loss": 0.0002,
+      "reward": 1.453125,
+      "reward_std": 0.13258251547813416,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 365
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.78125,
+      "epoch": 0.5013698630136987,
+      "grad_norm": 2.3756937980651855,
+      "kl": 0.272216796875,
+      "learning_rate": 8.328767123287671e-07,
+      "loss": 0.0003,
+      "reward": 1.28125,
+      "reward_std": 0.2346404492855072,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 366
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 733.40625,
+      "epoch": 0.5027397260273972,
+      "grad_norm": 2.2720232009887695,
+      "kl": 0.206298828125,
+      "learning_rate": 8.324200913242009e-07,
+      "loss": 0.0002,
+      "reward": 1.8359375,
+      "reward_std": 0.1747150868177414,
+      "rewards/accuracy_reward": 0.8359375,
+      "rewards/format_reward": 1.0,
+      "step": 367
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 443.53125,
+      "epoch": 0.5041095890410959,
+      "grad_norm": 2.717717170715332,
+      "kl": 0.2490234375,
+      "learning_rate": 8.319634703196346e-07,
+      "loss": 0.0002,
+      "reward": 1.15625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.15625,
+      "rewards/format_reward": 1.0,
+      "step": 368
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.96875,
+      "epoch": 0.5054794520547945,
+      "grad_norm": 1.975050449371338,
+      "kl": 0.249267578125,
+      "learning_rate": 8.315068493150684e-07,
+      "loss": 0.0002,
+      "reward": 1.21875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 369
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 548.09375,
+      "epoch": 0.5068493150684932,
+      "grad_norm": 4.310245990753174,
+      "kl": 0.254638671875,
+      "learning_rate": 8.310502283105022e-07,
+      "loss": 0.0003,
+      "reward": 1.59375,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 370
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.375,
+      "epoch": 0.5082191780821917,
+      "grad_norm": 487.17987060546875,
+      "kl": 0.27783203125,
+      "learning_rate": 8.305936073059361e-07,
+      "loss": 0.0003,
+      "reward": 1.46875,
+      "reward_std": 0.2346404492855072,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 371
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 449.71875,
+      "epoch": 0.5095890410958904,
+      "grad_norm": 6.600228309631348,
+      "kl": 0.24365234375,
+      "learning_rate": 8.301369863013699e-07,
+      "loss": 0.0002,
+      "reward": 1.46875,
+      "reward_std": 0.17965975776314735,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 372
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 409.6875,
+      "epoch": 0.510958904109589,
+      "grad_norm": 1.2109966278076172,
+      "kl": 0.24609375,
+      "learning_rate": 8.296803652968036e-07,
+      "loss": 0.0002,
+      "reward": 1.33984375,
+      "reward_std": 0.08086705580353737,
+      "rewards/accuracy_reward": 0.33984375,
+      "rewards/format_reward": 1.0,
+      "step": 373
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 525.96875,
+      "epoch": 0.5123287671232877,
+      "grad_norm": 1.2593879699707031,
+      "kl": 0.23974609375,
+      "learning_rate": 8.292237442922374e-07,
+      "loss": 0.0002,
+      "reward": 1.9322916567325592,
+      "reward_std": 0.07365694083273411,
+      "rewards/accuracy_reward": 0.9322916716337204,
+      "rewards/format_reward": 1.0,
+      "step": 374
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 654.34375,
+      "epoch": 0.5136986301369864,
+      "grad_norm": 1.1873910427093506,
+      "kl": 0.228515625,
+      "learning_rate": 8.287671232876712e-07,
+      "loss": 0.0002,
+      "reward": 1.5208333730697632,
+      "reward_std": 0.06780947372317314,
+      "rewards/accuracy_reward": 0.5208333134651184,
+      "rewards/format_reward": 1.0,
+      "step": 375
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 592.625,
+      "epoch": 0.5150684931506849,
+      "grad_norm": 2.3675568103790283,
+      "kl": 0.3232421875,
+      "learning_rate": 8.283105022831049e-07,
+      "loss": 0.0003,
+      "reward": 1.74609375,
+      "reward_std": 0.18580568581819534,
+      "rewards/accuracy_reward": 0.74609375,
+      "rewards/format_reward": 1.0,
+      "step": 376
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 413.6875,
+      "epoch": 0.5164383561643836,
+      "grad_norm": 1.0833803415298462,
+      "kl": 0.29248046875,
+      "learning_rate": 8.278538812785387e-07,
+      "loss": 0.0003,
+      "reward": 1.2109375,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.2109375,
+      "rewards/format_reward": 1.0,
+      "step": 377
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 556.5625,
+      "epoch": 0.5178082191780822,
+      "grad_norm": 2.686486005783081,
+      "kl": 0.234130859375,
+      "learning_rate": 8.273972602739726e-07,
+      "loss": 0.0002,
+      "reward": 1.8828125,
+      "reward_std": 0.08731903322041035,
+      "rewards/accuracy_reward": 0.8828125,
+      "rewards/format_reward": 1.0,
+      "step": 378
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 428.8125,
+      "epoch": 0.5191780821917809,
+      "grad_norm": 0.7580247521400452,
+      "kl": 0.2861328125,
+      "learning_rate": 8.269406392694064e-07,
+      "loss": 0.0003,
+      "reward": 1.2578125,
+      "reward_std": 0.09704047441482544,
+      "rewards/accuracy_reward": 0.2578125,
+      "rewards/format_reward": 1.0,
+      "step": 379
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 399.46875,
+      "epoch": 0.5205479452054794,
+      "grad_norm": 0.9390192627906799,
+      "kl": 0.2568359375,
+      "learning_rate": 8.264840182648402e-07,
+      "loss": 0.0003,
+      "reward": 1.359375,
+      "reward_std": 0.19408094882965088,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 1.0,
+      "step": 380
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 440.59375,
+      "epoch": 0.5219178082191781,
+      "grad_norm": 1.6535121202468872,
+      "kl": 0.2880859375,
+      "learning_rate": 8.260273972602739e-07,
+      "loss": 0.0003,
+      "reward": 1.4765625,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.4765625,
+      "rewards/format_reward": 1.0,
+      "step": 381
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 631.625,
+      "epoch": 0.5232876712328767,
+      "grad_norm": 32.29432678222656,
+      "kl": 0.25146484375,
+      "learning_rate": 8.255707762557077e-07,
+      "loss": 0.0003,
+      "reward": 1.578125,
+      "reward_std": 0.10205793008208275,
+      "rewards/accuracy_reward": 0.578125,
+      "rewards/format_reward": 1.0,
+      "step": 382
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 654.96875,
+      "epoch": 0.5246575342465754,
+      "grad_norm": 4.199236869812012,
+      "kl": 0.243896484375,
+      "learning_rate": 8.251141552511415e-07,
+      "loss": 0.0002,
+      "reward": 1.4739583134651184,
+      "reward_std": 0.10995287448167801,
+      "rewards/accuracy_reward": 0.4739583283662796,
+      "rewards/format_reward": 1.0,
+      "step": 383
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.28125,
+      "epoch": 0.5260273972602739,
+      "grad_norm": 14.366601943969727,
+      "kl": 0.306640625,
+      "learning_rate": 8.246575342465753e-07,
+      "loss": 0.0003,
+      "reward": 1.421875,
+      "reward_std": 0.2877064570784569,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 384
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 419.9375,
+      "epoch": 0.5273972602739726,
+      "grad_norm": 1.405211329460144,
+      "kl": 0.2666015625,
+      "learning_rate": 8.242009132420092e-07,
+      "loss": 0.0003,
+      "reward": 1.5494791269302368,
+      "reward_std": 0.10189040005207062,
+      "rewards/accuracy_reward": 0.5494791567325592,
+      "rewards/format_reward": 1.0,
+      "step": 385
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 501.96875,
+      "epoch": 0.5287671232876713,
+      "grad_norm": 1.3458356857299805,
+      "kl": 0.250244140625,
+      "learning_rate": 8.237442922374429e-07,
+      "loss": 0.0003,
+      "reward": 1.4140625,
+      "reward_std": 0.15268651396036148,
+      "rewards/accuracy_reward": 0.4140625,
+      "rewards/format_reward": 1.0,
+      "step": 386
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 679.59375,
+      "epoch": 0.5301369863013699,
+      "grad_norm": 1.6495295763015747,
+      "kl": 0.23291015625,
+      "learning_rate": 8.232876712328767e-07,
+      "loss": 0.0002,
+      "reward": 1.7203125059604645,
+      "reward_std": 0.15397237055003643,
+      "rewards/accuracy_reward": 0.7203124761581421,
+      "rewards/format_reward": 1.0,
+      "step": 387
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 518.90625,
+      "epoch": 0.5315068493150685,
+      "grad_norm": 1.8638428449630737,
+      "kl": 0.28076171875,
+      "learning_rate": 8.228310502283105e-07,
+      "loss": 0.0003,
+      "reward": 1.421875,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 388
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 477.375,
+      "epoch": 0.5328767123287671,
+      "grad_norm": 2.2824759483337402,
+      "kl": 0.250732421875,
+      "learning_rate": 8.223744292237442e-07,
+      "loss": 0.0003,
+      "reward": 1.8055555820465088,
+      "reward_std": 0.19911032635718584,
+      "rewards/accuracy_reward": 0.8055555671453476,
+      "rewards/format_reward": 1.0,
+      "step": 389
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 428.59375,
+      "epoch": 0.5342465753424658,
+      "grad_norm": 2.9996278285980225,
+      "kl": 0.259765625,
+      "learning_rate": 8.21917808219178e-07,
+      "loss": 0.0003,
+      "reward": 2.0,
+      "reward_std": 0.16151439771056175,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 390
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 446.9375,
+      "epoch": 0.5356164383561643,
+      "grad_norm": 2.858344316482544,
+      "kl": 0.2744140625,
+      "learning_rate": 8.214611872146119e-07,
+      "loss": 0.0003,
+      "reward": 1.3828125,
+      "reward_std": 0.2894125059247017,
+      "rewards/accuracy_reward": 0.3828125,
+      "rewards/format_reward": 1.0,
+      "step": 391
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 477.03125,
+      "epoch": 0.536986301369863,
+      "grad_norm": 5.41072940826416,
+      "kl": 0.30810546875,
+      "learning_rate": 8.210045662100456e-07,
+      "loss": 0.0003,
+      "reward": 1.21875,
+      "reward_std": 0.1552036553621292,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 392
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 717.78125,
+      "epoch": 0.5383561643835616,
+      "grad_norm": 1.8393654823303223,
+      "kl": 0.301025390625,
+      "learning_rate": 8.205479452054795e-07,
+      "loss": 0.0003,
+      "reward": 1.40625,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 0.96875,
+      "step": 393
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.125,
+      "epoch": 0.5397260273972603,
+      "grad_norm": 1.726664662361145,
+      "kl": 0.287109375,
+      "learning_rate": 8.200913242009132e-07,
+      "loss": 0.0003,
+      "reward": 1.265625,
+      "reward_std": 0.17730122804641724,
+      "rewards/accuracy_reward": 0.265625,
+      "rewards/format_reward": 1.0,
+      "step": 394
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 593.46875,
+      "epoch": 0.541095890410959,
+      "grad_norm": 1.4600183963775635,
+      "kl": 0.23193359375,
+      "learning_rate": 8.19634703196347e-07,
+      "loss": 0.0002,
+      "reward": 1.578125,
+      "reward_std": 0.1983242630958557,
+      "rewards/accuracy_reward": 0.578125,
+      "rewards/format_reward": 1.0,
+      "step": 395
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 610.34375,
+      "epoch": 0.5424657534246575,
+      "grad_norm": 1.1658108234405518,
+      "kl": 0.25390625,
+      "learning_rate": 8.191780821917808e-07,
+      "loss": 0.0003,
+      "reward": 1.9140625,
+      "reward_std": 0.1649293377995491,
+      "rewards/accuracy_reward": 0.9140625,
+      "rewards/format_reward": 1.0,
+      "step": 396
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 634.875,
+      "epoch": 0.5438356164383562,
+      "grad_norm": 1.2310694456100464,
+      "kl": 0.251953125,
+      "learning_rate": 8.187214611872145e-07,
+      "loss": 0.0003,
+      "reward": 1.453125,
+      "reward_std": 0.10205793008208275,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 397
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 502.3125,
+      "epoch": 0.5452054794520548,
+      "grad_norm": 1.6130096912384033,
+      "kl": 0.244140625,
+      "learning_rate": 8.182648401826484e-07,
+      "loss": 0.0002,
+      "reward": 1.6171875,
+      "reward_std": 0.0765409953892231,
+      "rewards/accuracy_reward": 0.6171875,
+      "rewards/format_reward": 1.0,
+      "step": 398
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 700.3125,
+      "epoch": 0.5465753424657535,
+      "grad_norm": 1.6435996294021606,
+      "kl": 0.229736328125,
+      "learning_rate": 8.178082191780822e-07,
+      "loss": 0.0002,
+      "reward": 1.5677083134651184,
+      "reward_std": 0.3693719878792763,
+      "rewards/accuracy_reward": 0.6302083283662796,
+      "rewards/format_reward": 0.9375,
+      "step": 399
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 347.75,
+      "epoch": 0.547945205479452,
+      "grad_norm": 0.7573147416114807,
+      "kl": 0.2626953125,
+      "learning_rate": 8.173515981735159e-07,
+      "loss": 0.0003,
+      "reward": 1.703125,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 1.0,
+      "step": 400
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 858.03125,
+      "epoch": 0.5493150684931507,
+      "grad_norm": 2.761258602142334,
+      "kl": 0.218994140625,
+      "learning_rate": 8.168949771689498e-07,
+      "loss": 0.0002,
+      "reward": 1.125,
+      "reward_std": 0.2925042062997818,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 0.875,
+      "step": 401
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 362.5625,
+      "epoch": 0.5506849315068493,
+      "grad_norm": 4.398726463317871,
+      "kl": 0.285400390625,
+      "learning_rate": 8.164383561643835e-07,
+      "loss": 0.0003,
+      "reward": 1.40625,
+      "reward_std": 0.24511480331420898,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 402
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 824.625,
+      "epoch": 0.552054794520548,
+      "grad_norm": 1.2996392250061035,
+      "kl": 0.2373046875,
+      "learning_rate": 8.159817351598172e-07,
+      "loss": 0.0002,
+      "reward": 1.6875,
+      "reward_std": 0.6573142260313034,
+      "rewards/accuracy_reward": 0.8125,
+      "rewards/format_reward": 0.875,
+      "step": 403
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 847.0,
+      "epoch": 0.5534246575342465,
+      "grad_norm": 1.484923243522644,
+      "kl": 0.2275390625,
+      "learning_rate": 8.155251141552512e-07,
+      "loss": 0.0002,
+      "reward": 1.640625,
+      "reward_std": 0.5366625860333443,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 0.875,
+      "step": 404
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 619.21875,
+      "epoch": 0.5547945205479452,
+      "grad_norm": 2.970003843307495,
+      "kl": 0.255859375,
+      "learning_rate": 8.150684931506849e-07,
+      "loss": 0.0003,
+      "reward": 1.4921875,
+      "reward_std": 0.336070965975523,
+      "rewards/accuracy_reward": 0.5234375,
+      "rewards/format_reward": 0.96875,
+      "step": 405
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 843.25,
+      "epoch": 0.5561643835616439,
+      "grad_norm": 2.474311113357544,
+      "kl": 0.22802734375,
+      "learning_rate": 8.146118721461187e-07,
+      "loss": 0.0002,
+      "reward": 1.90625,
+      "reward_std": 0.5572120249271393,
+      "rewards/accuracy_reward": 0.96875,
+      "rewards/format_reward": 0.9375,
+      "step": 406
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 494.5625,
+      "epoch": 0.5575342465753425,
+      "grad_norm": 3.557459592819214,
+      "kl": 0.23876953125,
+      "learning_rate": 8.141552511415525e-07,
+      "loss": 0.0002,
+      "reward": 1.6197916567325592,
+      "reward_std": 0.1845790259540081,
+      "rewards/accuracy_reward": 0.6197916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 407
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 509.65625,
+      "epoch": 0.5589041095890411,
+      "grad_norm": 4.341843605041504,
+      "kl": 0.25634765625,
+      "learning_rate": 8.136986301369862e-07,
+      "loss": 0.0003,
+      "reward": 1.4375,
+      "reward_std": 0.49022960662841797,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.9375,
+      "step": 408
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 659.375,
+      "epoch": 0.5602739726027397,
+      "grad_norm": 1.4180370569229126,
+      "kl": 0.231689453125,
+      "learning_rate": 8.132420091324201e-07,
+      "loss": 0.0002,
+      "reward": 1.59375,
+      "reward_std": 0.30327702313661575,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 0.96875,
+      "step": 409
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 618.65625,
+      "epoch": 0.5616438356164384,
+      "grad_norm": 1.4287060499191284,
+      "kl": 0.273193359375,
+      "learning_rate": 8.127853881278538e-07,
+      "loss": 0.0003,
+      "reward": 1.484375,
+      "reward_std": 0.2497537788003683,
+      "rewards/accuracy_reward": 0.546875,
+      "rewards/format_reward": 0.9375,
+      "step": 410
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 769.59375,
+      "epoch": 0.563013698630137,
+      "grad_norm": 1.4561328887939453,
+      "kl": 0.249267578125,
+      "learning_rate": 8.123287671232877e-07,
+      "loss": 0.0002,
+      "reward": 1.328125,
+      "reward_std": 0.09143973141908646,
+      "rewards/accuracy_reward": 0.328125,
+      "rewards/format_reward": 1.0,
+      "step": 411
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.5625,
+      "epoch": 0.5643835616438356,
+      "grad_norm": 1.4629502296447754,
+      "kl": 0.26904296875,
+      "learning_rate": 8.118721461187215e-07,
+      "loss": 0.0003,
+      "reward": 1.34375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 412
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 458.34375,
+      "epoch": 0.5657534246575342,
+      "grad_norm": 4.4141669273376465,
+      "kl": 0.276611328125,
+      "learning_rate": 8.114155251141552e-07,
+      "loss": 0.0003,
+      "reward": 1.3828125,
+      "reward_std": 0.17702843621373177,
+      "rewards/accuracy_reward": 0.3828125,
+      "rewards/format_reward": 1.0,
+      "step": 413
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 432.84375,
+      "epoch": 0.5671232876712329,
+      "grad_norm": 0.015535110607743263,
+      "kl": 0.278564453125,
+      "learning_rate": 8.10958904109589e-07,
+      "loss": 0.0003,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 414
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 547.53125,
+      "epoch": 0.5684931506849316,
+      "grad_norm": 5.981386661529541,
+      "kl": 0.2919921875,
+      "learning_rate": 8.105022831050228e-07,
+      "loss": 0.0003,
+      "reward": 1.640625,
+      "reward_std": 0.2777610570192337,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 415
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 462.8125,
+      "epoch": 0.5698630136986301,
+      "grad_norm": 2.892124652862549,
+      "kl": 0.279296875,
+      "learning_rate": 8.100456621004565e-07,
+      "loss": 0.0003,
+      "reward": 1.765625,
+      "reward_std": 0.35141606256365776,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 1.0,
+      "step": 416
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 685.75,
+      "epoch": 0.5712328767123288,
+      "grad_norm": 1.2724870443344116,
+      "kl": 0.252685546875,
+      "learning_rate": 8.095890410958903e-07,
+      "loss": 0.0003,
+      "reward": 1.390625,
+      "reward_std": 0.12255740165710449,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 1.0,
+      "step": 417
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 443.0,
+      "epoch": 0.5726027397260274,
+      "grad_norm": 2.105574131011963,
+      "kl": 0.296875,
+      "learning_rate": 8.091324200913242e-07,
+      "loss": 0.0003,
+      "reward": 1.46875,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 418
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 442.21875,
+      "epoch": 0.5739726027397261,
+      "grad_norm": 4.214569091796875,
+      "kl": 0.3125,
+      "learning_rate": 8.08675799086758e-07,
+      "loss": 0.0003,
+      "reward": 1.640625,
+      "reward_std": 0.18648964539170265,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 419
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 436.59375,
+      "epoch": 0.5753424657534246,
+      "grad_norm": 4.964509963989258,
+      "kl": 0.2587890625,
+      "learning_rate": 8.082191780821918e-07,
+      "loss": 0.0003,
+      "reward": 1.453125,
+      "reward_std": 0.28664068691432476,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 420
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 669.875,
+      "epoch": 0.5767123287671233,
+      "grad_norm": 2.2054591178894043,
+      "kl": 0.243408203125,
+      "learning_rate": 8.077625570776255e-07,
+      "loss": 0.0002,
+      "reward": 1.71484375,
+      "reward_std": 0.11598511412739754,
+      "rewards/accuracy_reward": 0.71484375,
+      "rewards/format_reward": 1.0,
+      "step": 421
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 543.125,
+      "epoch": 0.5780821917808219,
+      "grad_norm": 2.5887465476989746,
+      "kl": 0.28125,
+      "learning_rate": 8.073059360730593e-07,
+      "loss": 0.0003,
+      "reward": 1.515625,
+      "reward_std": 0.23243396915495396,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 422
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 539.84375,
+      "epoch": 0.5794520547945206,
+      "grad_norm": 3.1099772453308105,
+      "kl": 0.29345703125,
+      "learning_rate": 8.068493150684931e-07,
+      "loss": 0.0003,
+      "reward": 1.4810267686843872,
+      "reward_std": 0.10061977338045835,
+      "rewards/accuracy_reward": 0.4810267835855484,
+      "rewards/format_reward": 1.0,
+      "step": 423
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 427.875,
+      "epoch": 0.5808219178082191,
+      "grad_norm": 2.3216264247894287,
+      "kl": 0.57421875,
+      "learning_rate": 8.063926940639269e-07,
+      "loss": 0.0006,
+      "reward": 1.140625,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.140625,
+      "rewards/format_reward": 1.0,
+      "step": 424
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.0,
+      "epoch": 0.5821917808219178,
+      "grad_norm": 1.1300055980682373,
+      "kl": 0.27392578125,
+      "learning_rate": 8.059360730593608e-07,
+      "loss": 0.0003,
+      "reward": 1.140625,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.140625,
+      "rewards/format_reward": 1.0,
+      "step": 425
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 517.5,
+      "epoch": 0.5835616438356165,
+      "grad_norm": 1.6136479377746582,
+      "kl": 0.2802734375,
+      "learning_rate": 8.054794520547945e-07,
+      "loss": 0.0003,
+      "reward": 1.859375,
+      "reward_std": 0.19408093392848969,
+      "rewards/accuracy_reward": 0.859375,
+      "rewards/format_reward": 1.0,
+      "step": 426
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.6875,
+      "epoch": 0.584931506849315,
+      "grad_norm": 3.859463930130005,
+      "kl": 0.30029296875,
+      "learning_rate": 8.050228310502283e-07,
+      "loss": 0.0003,
+      "reward": 1.4375,
+      "reward_std": 0.4182215705513954,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 427
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 491.25,
+      "epoch": 0.5863013698630137,
+      "grad_norm": 3.137112617492676,
+      "kl": 0.2880859375,
+      "learning_rate": 8.045662100456621e-07,
+      "loss": 0.0003,
+      "reward": 1.4713541865348816,
+      "reward_std": 0.18944428488612175,
+      "rewards/accuracy_reward": 0.4713541716337204,
+      "rewards/format_reward": 1.0,
+      "step": 428
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 589.84375,
+      "epoch": 0.5876712328767123,
+      "grad_norm": 2.1864824295043945,
+      "kl": 0.30810546875,
+      "learning_rate": 8.041095890410958e-07,
+      "loss": 0.0003,
+      "reward": 1.6171875,
+      "reward_std": 0.14428602531552315,
+      "rewards/accuracy_reward": 0.6171875,
+      "rewards/format_reward": 1.0,
+      "step": 429
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 412.46875,
+      "epoch": 0.589041095890411,
+      "grad_norm": 4.553158283233643,
+      "kl": 0.33642578125,
+      "learning_rate": 8.036529680365296e-07,
+      "loss": 0.0003,
+      "reward": 1.5390625,
+      "reward_std": 0.25012245774269104,
+      "rewards/accuracy_reward": 0.5390625,
+      "rewards/format_reward": 1.0,
+      "step": 430
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 521.96875,
+      "epoch": 0.5904109589041096,
+      "grad_norm": 2.7253074645996094,
+      "kl": 0.31884765625,
+      "learning_rate": 8.031963470319635e-07,
+      "loss": 0.0003,
+      "reward": 1.453125,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 431
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 434.8125,
+      "epoch": 0.5917808219178082,
+      "grad_norm": 1.4084954261779785,
+      "kl": 0.275634765625,
+      "learning_rate": 8.027397260273972e-07,
+      "loss": 0.0003,
+      "reward": 1.19921875,
+      "reward_std": 0.06874492764472961,
+      "rewards/accuracy_reward": 0.19921875,
+      "rewards/format_reward": 1.0,
+      "step": 432
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 485.96875,
+      "epoch": 0.5931506849315068,
+      "grad_norm": 4.675118446350098,
+      "kl": 0.31787109375,
+      "learning_rate": 8.022831050228311e-07,
+      "loss": 0.0003,
+      "reward": 1.640625,
+      "reward_std": 0.10205793008208275,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 433
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 479.9375,
+      "epoch": 0.5945205479452055,
+      "grad_norm": 2.0734643936157227,
+      "kl": 0.2802734375,
+      "learning_rate": 8.018264840182648e-07,
+      "loss": 0.0003,
+      "reward": 1.671875,
+      "reward_std": 0.15101328492164612,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 434
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.59375,
+      "epoch": 0.5958904109589042,
+      "grad_norm": 4.225161075592041,
+      "kl": 0.31201171875,
+      "learning_rate": 8.013698630136985e-07,
+      "loss": 0.0003,
+      "reward": 1.53125,
+      "reward_std": 0.24511480331420898,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 435
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 651.125,
+      "epoch": 0.5972602739726027,
+      "grad_norm": 1.829791784286499,
+      "kl": 0.298828125,
+      "learning_rate": 8.009132420091324e-07,
+      "loss": 0.0003,
+      "reward": 1.66015625,
+      "reward_std": 0.3770730784162879,
+      "rewards/accuracy_reward": 0.6914062350988388,
+      "rewards/format_reward": 0.96875,
+      "step": 436
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 207.25,
+      "epoch": 0.5986301369863014,
+      "grad_norm": 3.862016439437866,
+      "kl": 0.26318359375,
+      "learning_rate": 8.004566210045661e-07,
+      "loss": 0.0003,
+      "reward": 1.46875,
+      "reward_std": 0.3198433741927147,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 437
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 546.21875,
+      "epoch": 0.6,
+      "grad_norm": 3.7712178230285645,
+      "kl": 0.283203125,
+      "learning_rate": 8e-07,
+      "loss": 0.0003,
+      "reward": 1.5989583134651184,
+      "reward_std": 0.37473164498806,
+      "rewards/accuracy_reward": 0.6302083134651184,
+      "rewards/format_reward": 0.96875,
+      "step": 438
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 540.53125,
+      "epoch": 0.6013698630136987,
+      "grad_norm": 3.2269580364227295,
+      "kl": 0.2978515625,
+      "learning_rate": 7.995433789954338e-07,
+      "loss": 0.0003,
+      "reward": 1.40625,
+      "reward_std": 0.18662459589540958,
+      "rewards/accuracy_reward": 0.4062499850988388,
+      "rewards/format_reward": 1.0,
+      "step": 439
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 528.15625,
+      "epoch": 0.6027397260273972,
+      "grad_norm": 2.537423610687256,
+      "kl": 0.30517578125,
+      "learning_rate": 7.990867579908675e-07,
+      "loss": 0.0003,
+      "reward": 1.4791666567325592,
+      "reward_std": 0.22078385017812252,
+      "rewards/accuracy_reward": 0.4791666567325592,
+      "rewards/format_reward": 1.0,
+      "step": 440
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 448.1875,
+      "epoch": 0.6041095890410959,
+      "grad_norm": 2.5535776615142822,
+      "kl": 0.28759765625,
+      "learning_rate": 7.986301369863014e-07,
+      "loss": 0.0003,
+      "reward": 1.59375,
+      "reward_std": 0.2167138308286667,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 441
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 666.71875,
+      "epoch": 0.6054794520547945,
+      "grad_norm": 2.6353836059570312,
+      "kl": 0.27392578125,
+      "learning_rate": 7.981735159817351e-07,
+      "loss": 0.0003,
+      "reward": 1.8463541567325592,
+      "reward_std": 0.2513718083500862,
+      "rewards/accuracy_reward": 0.8776041567325592,
+      "rewards/format_reward": 0.96875,
+      "step": 442
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 640.34375,
+      "epoch": 0.6068493150684932,
+      "grad_norm": 2.2128899097442627,
+      "kl": 0.265625,
+      "learning_rate": 7.977168949771688e-07,
+      "loss": 0.0003,
+      "reward": 1.859375,
+      "reward_std": 0.17806704714894295,
+      "rewards/accuracy_reward": 0.859375,
+      "rewards/format_reward": 1.0,
+      "step": 443
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 427.8125,
+      "epoch": 0.6082191780821918,
+      "grad_norm": 2.6061644554138184,
+      "kl": 0.287109375,
+      "learning_rate": 7.972602739726027e-07,
+      "loss": 0.0003,
+      "reward": 1.4375,
+      "reward_std": 0.09127141162753105,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 444
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.46875,
+      "epoch": 0.6095890410958904,
+      "grad_norm": 13.305716514587402,
+      "kl": 0.30712890625,
+      "learning_rate": 7.968036529680365e-07,
+      "loss": 0.0003,
+      "reward": 1.4196428656578064,
+      "reward_std": 0.2756448173895478,
+      "rewards/accuracy_reward": 0.419642835855484,
+      "rewards/format_reward": 1.0,
+      "step": 445
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 561.03125,
+      "epoch": 0.6109589041095891,
+      "grad_norm": 3.1724693775177,
+      "kl": 0.27685546875,
+      "learning_rate": 7.963470319634703e-07,
+      "loss": 0.0003,
+      "reward": 1.296875,
+      "reward_std": 0.1446593925356865,
+      "rewards/accuracy_reward": 0.296875,
+      "rewards/format_reward": 1.0,
+      "step": 446
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 562.15625,
+      "epoch": 0.6123287671232877,
+      "grad_norm": 3.927133798599243,
+      "kl": 0.369140625,
+      "learning_rate": 7.958904109589041e-07,
+      "loss": 0.0004,
+      "reward": 1.564843773841858,
+      "reward_std": 0.18459024094045162,
+      "rewards/accuracy_reward": 0.5648437440395355,
+      "rewards/format_reward": 1.0,
+      "step": 447
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 617.625,
+      "epoch": 0.6136986301369863,
+      "grad_norm": 1.9001963138580322,
+      "kl": 0.26806640625,
+      "learning_rate": 7.954337899543378e-07,
+      "loss": 0.0003,
+      "reward": 1.6171875,
+      "reward_std": 0.148872472345829,
+      "rewards/accuracy_reward": 0.6171875149011612,
+      "rewards/format_reward": 1.0,
+      "step": 448
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 466.96875,
+      "epoch": 0.6150684931506849,
+      "grad_norm": 0.014812873676419258,
+      "kl": 0.29345703125,
+      "learning_rate": 7.949771689497717e-07,
+      "loss": 0.0003,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 449
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 555.25,
+      "epoch": 0.6164383561643836,
+      "grad_norm": 4.2387614250183105,
+      "kl": 0.345703125,
+      "learning_rate": 7.945205479452054e-07,
+      "loss": 0.0003,
+      "reward": 1.5859375,
+      "reward_std": 0.21959786862134933,
+      "rewards/accuracy_reward": 0.5859375,
+      "rewards/format_reward": 1.0,
+      "step": 450
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 483.5,
+      "epoch": 0.6178082191780822,
+      "grad_norm": 1.1416374444961548,
+      "kl": 0.29345703125,
+      "learning_rate": 7.940639269406393e-07,
+      "loss": 0.0003,
+      "reward": 1.4531249701976776,
+      "reward_std": 0.11806126311421394,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 451
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 562.5,
+      "epoch": 0.6191780821917808,
+      "grad_norm": 2.7325708866119385,
+      "kl": 0.296875,
+      "learning_rate": 7.936073059360731e-07,
+      "loss": 0.0003,
+      "reward": 1.8020833432674408,
+      "reward_std": 0.1516590639948845,
+      "rewards/accuracy_reward": 0.8020833283662796,
+      "rewards/format_reward": 1.0,
+      "step": 452
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 698.15625,
+      "epoch": 0.6205479452054794,
+      "grad_norm": 1.962207317352295,
+      "kl": 0.2685546875,
+      "learning_rate": 7.931506849315068e-07,
+      "loss": 0.0003,
+      "reward": 1.4609375,
+      "reward_std": 0.10126157477498055,
+      "rewards/accuracy_reward": 0.4609375,
+      "rewards/format_reward": 1.0,
+      "step": 453
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 594.25,
+      "epoch": 0.6219178082191781,
+      "grad_norm": 2.9467625617980957,
+      "kl": 0.254150390625,
+      "learning_rate": 7.926940639269406e-07,
+      "loss": 0.0003,
+      "reward": 1.7825521230697632,
+      "reward_std": 0.37998438626527786,
+      "rewards/accuracy_reward": 0.8138020634651184,
+      "rewards/format_reward": 0.96875,
+      "step": 454
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 578.5625,
+      "epoch": 0.6232876712328768,
+      "grad_norm": 2.3912293910980225,
+      "kl": 0.299072265625,
+      "learning_rate": 7.922374429223744e-07,
+      "loss": 0.0003,
+      "reward": 1.71484375,
+      "reward_std": 0.41244056448340416,
+      "rewards/accuracy_reward": 0.74609375,
+      "rewards/format_reward": 0.96875,
+      "step": 455
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 459.84375,
+      "epoch": 0.6246575342465753,
+      "grad_norm": 2.0481388568878174,
+      "kl": 0.271240234375,
+      "learning_rate": 7.917808219178081e-07,
+      "loss": 0.0003,
+      "reward": 1.4296875,
+      "reward_std": 0.23987272381782532,
+      "rewards/accuracy_reward": 0.4296875,
+      "rewards/format_reward": 1.0,
+      "step": 456
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 582.1875,
+      "epoch": 0.626027397260274,
+      "grad_norm": 1.0337698459625244,
+      "kl": 0.2783203125,
+      "learning_rate": 7.91324200913242e-07,
+      "loss": 0.0003,
+      "reward": 1.140625,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.140625,
+      "rewards/format_reward": 1.0,
+      "step": 457
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 479.8125,
+      "epoch": 0.6273972602739726,
+      "grad_norm": 3.085940361022949,
+      "kl": 0.267578125,
+      "learning_rate": 7.908675799086758e-07,
+      "loss": 0.0003,
+      "reward": 1.3984375,
+      "reward_std": 0.21758441254496574,
+      "rewards/accuracy_reward": 0.4296875,
+      "rewards/format_reward": 0.96875,
+      "step": 458
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 722.125,
+      "epoch": 0.6287671232876713,
+      "grad_norm": 2.2344439029693604,
+      "kl": 0.243408203125,
+      "learning_rate": 7.904109589041096e-07,
+      "loss": 0.0002,
+      "reward": 1.7083333730697632,
+      "reward_std": 0.10860283300280571,
+      "rewards/accuracy_reward": 0.7083333432674408,
+      "rewards/format_reward": 1.0,
+      "step": 459
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 448.84375,
+      "epoch": 0.6301369863013698,
+      "grad_norm": 2.974860429763794,
+      "kl": 0.2705078125,
+      "learning_rate": 7.899543378995434e-07,
+      "loss": 0.0003,
+      "reward": 1.453125,
+      "reward_std": 0.11100946366786957,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 460
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 468.53125,
+      "epoch": 0.6315068493150685,
+      "grad_norm": 2.6200695037841797,
+      "kl": 0.289794921875,
+      "learning_rate": 7.894977168949771e-07,
+      "loss": 0.0003,
+      "reward": 1.265625,
+      "reward_std": 0.1804211586713791,
+      "rewards/accuracy_reward": 0.265625,
+      "rewards/format_reward": 1.0,
+      "step": 461
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 731.0,
+      "epoch": 0.6328767123287671,
+      "grad_norm": 2.422001838684082,
+      "kl": 0.307861328125,
+      "learning_rate": 7.890410958904109e-07,
+      "loss": 0.0003,
+      "reward": 1.9296875,
+      "reward_std": 0.31823596358299255,
+      "rewards/accuracy_reward": 0.9296875,
+      "rewards/format_reward": 1.0,
+      "step": 462
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 685.46875,
+      "epoch": 0.6342465753424658,
+      "grad_norm": 2.2778875827789307,
+      "kl": 0.2734375,
+      "learning_rate": 7.885844748858447e-07,
+      "loss": 0.0003,
+      "reward": 1.7734375,
+      "reward_std": 0.1592222936451435,
+      "rewards/accuracy_reward": 0.7734375,
+      "rewards/format_reward": 1.0,
+      "step": 463
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 683.90625,
+      "epoch": 0.6356164383561644,
+      "grad_norm": 1.6627824306488037,
+      "kl": 0.251708984375,
+      "learning_rate": 7.881278538812784e-07,
+      "loss": 0.0003,
+      "reward": 1.5598958134651184,
+      "reward_std": 0.04366161487996578,
+      "rewards/accuracy_reward": 0.5598958283662796,
+      "rewards/format_reward": 1.0,
+      "step": 464
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 450.0625,
+      "epoch": 0.636986301369863,
+      "grad_norm": 2.5756311416625977,
+      "kl": 0.251220703125,
+      "learning_rate": 7.876712328767124e-07,
+      "loss": 0.0003,
+      "reward": 1.203125,
+      "reward_std": 0.2824692949652672,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 0.96875,
+      "step": 465
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 682.375,
+      "epoch": 0.6383561643835617,
+      "grad_norm": 2.5796759128570557,
+      "kl": 0.2705078125,
+      "learning_rate": 7.872146118721461e-07,
+      "loss": 0.0003,
+      "reward": 1.4140625,
+      "reward_std": 0.03234682232141495,
+      "rewards/accuracy_reward": 0.4140625,
+      "rewards/format_reward": 1.0,
+      "step": 466
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 731.21875,
+      "epoch": 0.6397260273972603,
+      "grad_norm": 2.126073122024536,
+      "kl": 0.257568359375,
+      "learning_rate": 7.867579908675798e-07,
+      "loss": 0.0003,
+      "reward": 1.7682291567325592,
+      "reward_std": 0.19275827147066593,
+      "rewards/accuracy_reward": 0.768229141831398,
+      "rewards/format_reward": 1.0,
+      "step": 467
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 554.9375,
+      "epoch": 0.6410958904109589,
+      "grad_norm": 1.904000163078308,
+      "kl": 0.2880859375,
+      "learning_rate": 7.863013698630137e-07,
+      "loss": 0.0003,
+      "reward": 1.65625,
+      "reward_std": 0.1246790662407875,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 468
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 690.0,
+      "epoch": 0.6424657534246575,
+      "grad_norm": 1.2763168811798096,
+      "kl": 0.28125,
+      "learning_rate": 7.858447488584474e-07,
+      "loss": 0.0003,
+      "reward": 1.421875,
+      "reward_std": 0.06646592170000076,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 469
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 689.65625,
+      "epoch": 0.6438356164383562,
+      "grad_norm": 1.074062705039978,
+      "kl": 0.2880859375,
+      "learning_rate": 7.853881278538812e-07,
+      "loss": 0.0003,
+      "reward": 1.578125,
+      "reward_std": 0.09300297498703003,
+      "rewards/accuracy_reward": 0.609375,
+      "rewards/format_reward": 0.96875,
+      "step": 470
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.03125,
+      "epoch": 0.6452054794520548,
+      "grad_norm": 7.623113632202148,
+      "kl": 0.27197265625,
+      "learning_rate": 7.849315068493151e-07,
+      "loss": 0.0003,
+      "reward": 1.28125,
+      "reward_std": 0.3471629247069359,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 471
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.34375,
+      "epoch": 0.6465753424657534,
+      "grad_norm": 1.6552479267120361,
+      "kl": 0.3212890625,
+      "learning_rate": 7.844748858447488e-07,
+      "loss": 0.0003,
+      "reward": 1.34375,
+      "reward_std": 0.16279494389891624,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 472
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 434.875,
+      "epoch": 0.647945205479452,
+      "grad_norm": 2.9016270637512207,
+      "kl": 0.2880859375,
+      "learning_rate": 7.840182648401827e-07,
+      "loss": 0.0003,
+      "reward": 1.421875,
+      "reward_std": 0.3365500792860985,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 0.96875,
+      "step": 473
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 436.46875,
+      "epoch": 0.6493150684931507,
+      "grad_norm": 2.371548652648926,
+      "kl": 0.30126953125,
+      "learning_rate": 7.835616438356164e-07,
+      "loss": 0.0003,
+      "reward": 1.6510416567325592,
+      "reward_std": 0.15049929916858673,
+      "rewards/accuracy_reward": 0.6510416716337204,
+      "rewards/format_reward": 1.0,
+      "step": 474
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 535.125,
+      "epoch": 0.6506849315068494,
+      "grad_norm": 1.709067940711975,
+      "kl": 0.29541015625,
+      "learning_rate": 7.831050228310501e-07,
+      "loss": 0.0003,
+      "reward": 1.5,
+      "reward_std": 0.1825428232550621,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 475
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.53125,
+      "epoch": 0.6520547945205479,
+      "grad_norm": 0.8692818284034729,
+      "kl": 0.29931640625,
+      "learning_rate": 7.82648401826484e-07,
+      "loss": 0.0003,
+      "reward": 1.5729166269302368,
+      "reward_std": 0.07952611148357391,
+      "rewards/accuracy_reward": 0.5729166567325592,
+      "rewards/format_reward": 1.0,
+      "step": 476
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 441.5,
+      "epoch": 0.6534246575342466,
+      "grad_norm": 3.1770925521850586,
+      "kl": 0.2998046875,
+      "learning_rate": 7.821917808219177e-07,
+      "loss": 0.0003,
+      "reward": 1.875,
+      "reward_std": 0.27724190801382065,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 477
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 734.28125,
+      "epoch": 0.6547945205479452,
+      "grad_norm": 6.152999401092529,
+      "kl": 0.271484375,
+      "learning_rate": 7.817351598173516e-07,
+      "loss": 0.0003,
+      "reward": 1.5234375,
+      "reward_std": 0.11048543080687523,
+      "rewards/accuracy_reward": 0.5234375,
+      "rewards/format_reward": 1.0,
+      "step": 478
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 575.75,
+      "epoch": 0.6561643835616439,
+      "grad_norm": 2.7290778160095215,
+      "kl": 0.269287109375,
+      "learning_rate": 7.812785388127854e-07,
+      "loss": 0.0003,
+      "reward": 1.5729166865348816,
+      "reward_std": 0.18791258335113525,
+      "rewards/accuracy_reward": 0.5729166865348816,
+      "rewards/format_reward": 1.0,
+      "step": 479
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 463.03125,
+      "epoch": 0.6575342465753424,
+      "grad_norm": 1.3419233560562134,
+      "kl": 0.322021484375,
+      "learning_rate": 7.808219178082191e-07,
+      "loss": 0.0003,
+      "reward": 1.375,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 480
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 624.03125,
+      "epoch": 0.6589041095890411,
+      "grad_norm": 2.2850310802459717,
+      "kl": 0.2744140625,
+      "learning_rate": 7.80365296803653e-07,
+      "loss": 0.0003,
+      "reward": 1.63671875,
+      "reward_std": 0.17153325304389,
+      "rewards/accuracy_reward": 0.63671875,
+      "rewards/format_reward": 1.0,
+      "step": 481
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 606.03125,
+      "epoch": 0.6602739726027397,
+      "grad_norm": 1.9118156433105469,
+      "kl": 0.247802734375,
+      "learning_rate": 7.799086757990867e-07,
+      "loss": 0.0002,
+      "reward": 1.53125,
+      "reward_std": 0.102588826790452,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 482
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.625,
+      "epoch": 0.6616438356164384,
+      "grad_norm": 15.575130462646484,
+      "kl": 0.304931640625,
+      "learning_rate": 7.794520547945204e-07,
+      "loss": 0.0003,
+      "reward": 1.34375,
+      "reward_std": 0.18861131370067596,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 483
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 507.46875,
+      "epoch": 0.663013698630137,
+      "grad_norm": 2.0344674587249756,
+      "kl": 0.3017578125,
+      "learning_rate": 7.789954337899543e-07,
+      "loss": 0.0003,
+      "reward": 1.5234375,
+      "reward_std": 0.29708079993724823,
+      "rewards/accuracy_reward": 0.5546875,
+      "rewards/format_reward": 0.96875,
+      "step": 484
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 773.5625,
+      "epoch": 0.6643835616438356,
+      "grad_norm": 1.7942973375320435,
+      "kl": 0.3359375,
+      "learning_rate": 7.785388127853881e-07,
+      "loss": 0.0003,
+      "reward": 1.59375,
+      "reward_std": 0.1514892801642418,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 485
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 480.84375,
+      "epoch": 0.6657534246575343,
+      "grad_norm": 4.269023418426514,
+      "kl": 0.285400390625,
+      "learning_rate": 7.780821917808219e-07,
+      "loss": 0.0003,
+      "reward": 1.359375,
+      "reward_std": 0.43254324793815613,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 0.96875,
+      "step": 486
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 642.53125,
+      "epoch": 0.6671232876712329,
+      "grad_norm": 1.3577572107315063,
+      "kl": 0.267578125,
+      "learning_rate": 7.776255707762557e-07,
+      "loss": 0.0003,
+      "reward": 1.453125,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 0.96875,
+      "step": 487
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 797.6875,
+      "epoch": 0.6684931506849315,
+      "grad_norm": 0.8058923482894897,
+      "kl": 0.247802734375,
+      "learning_rate": 7.771689497716894e-07,
+      "loss": 0.0002,
+      "reward": 1.15625,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.15625,
+      "rewards/format_reward": 1.0,
+      "step": 488
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 631.90625,
+      "epoch": 0.6698630136986301,
+      "grad_norm": 1.1615171432495117,
+      "kl": 0.2861328125,
+      "learning_rate": 7.767123287671233e-07,
+      "loss": 0.0003,
+      "reward": 1.3802083432674408,
+      "reward_std": 0.0725951585918665,
+      "rewards/accuracy_reward": 0.3802083432674408,
+      "rewards/format_reward": 1.0,
+      "step": 489
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 511.8125,
+      "epoch": 0.6712328767123288,
+      "grad_norm": 2.5159947872161865,
+      "kl": 0.248779296875,
+      "learning_rate": 7.76255707762557e-07,
+      "loss": 0.0002,
+      "reward": 1.2421875,
+      "reward_std": 0.19887377880513668,
+      "rewards/accuracy_reward": 0.2734375,
+      "rewards/format_reward": 0.96875,
+      "step": 490
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 630.34375,
+      "epoch": 0.6726027397260274,
+      "grad_norm": 3.6898646354675293,
+      "kl": 0.26513671875,
+      "learning_rate": 7.757990867579909e-07,
+      "loss": 0.0003,
+      "reward": 1.5572916269302368,
+      "reward_std": 0.22042623907327652,
+      "rewards/accuracy_reward": 0.5572916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 491
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 443.15625,
+      "epoch": 0.673972602739726,
+      "grad_norm": 0.8622454404830933,
+      "kl": 0.2578125,
+      "learning_rate": 7.753424657534247e-07,
+      "loss": 0.0003,
+      "reward": 1.6875,
+      "reward_std": 0.06681530922651291,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 492
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 514.40625,
+      "epoch": 0.6753424657534246,
+      "grad_norm": 6.587668418884277,
+      "kl": 0.26904296875,
+      "learning_rate": 7.748858447488584e-07,
+      "loss": 0.0003,
+      "reward": 1.7760416269302368,
+      "reward_std": 0.11938937567174435,
+      "rewards/accuracy_reward": 0.7760416567325592,
+      "rewards/format_reward": 1.0,
+      "step": 493
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 649.5625,
+      "epoch": 0.6767123287671233,
+      "grad_norm": 1.662431001663208,
+      "kl": 0.2685546875,
+      "learning_rate": 7.744292237442922e-07,
+      "loss": 0.0003,
+      "reward": 1.5390625,
+      "reward_std": 0.15148437581956387,
+      "rewards/accuracy_reward": 0.5390625,
+      "rewards/format_reward": 1.0,
+      "step": 494
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 841.1875,
+      "epoch": 0.678082191780822,
+      "grad_norm": 2.413971424102783,
+      "kl": 0.218994140625,
+      "learning_rate": 7.73972602739726e-07,
+      "loss": 0.0002,
+      "reward": 1.2734375,
+      "reward_std": 0.4280551001429558,
+      "rewards/accuracy_reward": 0.3671875,
+      "rewards/format_reward": 0.90625,
+      "step": 495
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 699.34375,
+      "epoch": 0.6794520547945205,
+      "grad_norm": 1.9714837074279785,
+      "kl": 0.2646484375,
+      "learning_rate": 7.735159817351597e-07,
+      "loss": 0.0003,
+      "reward": 1.4921875,
+      "reward_std": 0.43332719057798386,
+      "rewards/accuracy_reward": 0.5859375,
+      "rewards/format_reward": 0.90625,
+      "step": 496
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.53125,
+      "epoch": 0.6808219178082192,
+      "grad_norm": 5.755354881286621,
+      "kl": 0.29296875,
+      "learning_rate": 7.730593607305936e-07,
+      "loss": 0.0003,
+      "reward": 1.375,
+      "reward_std": 0.3945523276925087,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 0.96875,
+      "step": 497
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 889.03125,
+      "epoch": 0.6821917808219178,
+      "grad_norm": 1.7405959367752075,
+      "kl": 0.22509765625,
+      "learning_rate": 7.726027397260274e-07,
+      "loss": 0.0002,
+      "reward": 1.7942708134651184,
+      "reward_std": 0.7046211212873459,
+      "rewards/accuracy_reward": 0.9192708432674408,
+      "rewards/format_reward": 0.875,
+      "step": 498
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 740.78125,
+      "epoch": 0.6835616438356165,
+      "grad_norm": 2.4895272254943848,
+      "kl": 0.259521484375,
+      "learning_rate": 7.721461187214611e-07,
+      "loss": 0.0003,
+      "reward": 1.3125,
+      "reward_std": 0.6559129282832146,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 0.84375,
+      "step": 499
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 684.9375,
+      "epoch": 0.684931506849315,
+      "grad_norm": 1.2708057165145874,
+      "kl": 0.2705078125,
+      "learning_rate": 7.71689497716895e-07,
+      "loss": 0.0003,
+      "reward": 1.078125,
+      "reward_std": 0.3463020324707031,
+      "rewards/accuracy_reward": 0.171875,
+      "rewards/format_reward": 0.90625,
+      "step": 500
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 385.6875,
+      "epoch": 0.6863013698630137,
+      "grad_norm": 2.6224188804626465,
+      "kl": 0.279052734375,
+      "learning_rate": 7.712328767123287e-07,
+      "loss": 0.0003,
+      "reward": 0.96875,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.03125,
+      "rewards/format_reward": 0.9375,
+      "step": 501
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 511.8125,
+      "epoch": 0.6876712328767123,
+      "grad_norm": 3.9175403118133545,
+      "kl": 0.35009765625,
+      "learning_rate": 7.707762557077625e-07,
+      "loss": 0.0004,
+      "reward": 1.625,
+      "reward_std": 0.29514501616358757,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 502
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 627.9375,
+      "epoch": 0.689041095890411,
+      "grad_norm": 6.975749492645264,
+      "kl": 0.266357421875,
+      "learning_rate": 7.703196347031963e-07,
+      "loss": 0.0003,
+      "reward": 2.0,
+      "reward_std": 0.45176807790994644,
+      "rewards/accuracy_reward": 1.03125,
+      "rewards/format_reward": 0.96875,
+      "step": 503
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.9375,
+      "epoch": 0.6904109589041096,
+      "grad_norm": 5.680784225463867,
+      "kl": 0.28369140625,
+      "learning_rate": 7.6986301369863e-07,
+      "loss": 0.0003,
+      "reward": 1.46875,
+      "reward_std": 0.4729364886879921,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.96875,
+      "step": 504
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 821.1875,
+      "epoch": 0.6917808219178082,
+      "grad_norm": 1.110270380973816,
+      "kl": 0.23046875,
+      "learning_rate": 7.69406392694064e-07,
+      "loss": 0.0002,
+      "reward": 0.9375,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 0.9375,
+      "step": 505
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 656.78125,
+      "epoch": 0.6931506849315069,
+      "grad_norm": 1.595416784286499,
+      "kl": 0.2509765625,
+      "learning_rate": 7.689497716894977e-07,
+      "loss": 0.0003,
+      "reward": 1.8359375,
+      "reward_std": 0.26719603314995766,
+      "rewards/accuracy_reward": 0.8359375,
+      "rewards/format_reward": 1.0,
+      "step": 506
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 606.8125,
+      "epoch": 0.6945205479452055,
+      "grad_norm": 4.328030586242676,
+      "kl": 0.26171875,
+      "learning_rate": 7.684931506849314e-07,
+      "loss": 0.0003,
+      "reward": 1.234375,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 507
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 608.65625,
+      "epoch": 0.6958904109589041,
+      "grad_norm": 0.007987846620380878,
+      "kl": 0.261474609375,
+      "learning_rate": 7.680365296803653e-07,
+      "loss": 0.0003,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 508
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 501.03125,
+      "epoch": 0.6972602739726027,
+      "grad_norm": 3.3370308876037598,
+      "kl": 0.268310546875,
+      "learning_rate": 7.67579908675799e-07,
+      "loss": 0.0003,
+      "reward": 1.1875,
+      "reward_std": 0.2619796171784401,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 0.96875,
+      "step": 509
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 597.25,
+      "epoch": 0.6986301369863014,
+      "grad_norm": 3.816755533218384,
+      "kl": 0.287109375,
+      "learning_rate": 7.671232876712328e-07,
+      "loss": 0.0003,
+      "reward": 1.09375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.09375,
+      "rewards/format_reward": 1.0,
+      "step": 510
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 431.0,
+      "epoch": 0.7,
+      "grad_norm": 0.028308337554335594,
+      "kl": 0.325439453125,
+      "learning_rate": 7.666666666666667e-07,
+      "loss": 0.0003,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 511
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 758.375,
+      "epoch": 0.7013698630136986,
+      "grad_norm": 2.2149853706359863,
+      "kl": 0.2958984375,
+      "learning_rate": 7.662100456621004e-07,
+      "loss": 0.0003,
+      "reward": 1.6875,
+      "reward_std": 0.05892554949969053,
+      "rewards/accuracy_reward": 0.6874999850988388,
+      "rewards/format_reward": 1.0,
+      "step": 512
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 593.5625,
+      "epoch": 0.7027397260273973,
+      "grad_norm": 3.7374677658081055,
+      "kl": 0.328857421875,
+      "learning_rate": 7.657534246575343e-07,
+      "loss": 0.0003,
+      "reward": 1.7734375,
+      "reward_std": 0.30776159279048443,
+      "rewards/accuracy_reward": 0.7734375,
+      "rewards/format_reward": 1.0,
+      "step": 513
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 581.09375,
+      "epoch": 0.7041095890410959,
+      "grad_norm": 1.2948936223983765,
+      "kl": 0.260986328125,
+      "learning_rate": 7.65296803652968e-07,
+      "loss": 0.0003,
+      "reward": 1.6953125,
+      "reward_std": 0.15467960201203823,
+      "rewards/accuracy_reward": 0.6953125,
+      "rewards/format_reward": 1.0,
+      "step": 514
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 438.53125,
+      "epoch": 0.7054794520547946,
+      "grad_norm": 6.833772659301758,
+      "kl": 0.3134765625,
+      "learning_rate": 7.648401826484017e-07,
+      "loss": 0.0003,
+      "reward": 1.75,
+      "reward_std": 0.22778154164552689,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 515
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.03125,
+      "epoch": 0.7068493150684931,
+      "grad_norm": 8.628284454345703,
+      "kl": 0.315185546875,
+      "learning_rate": 7.643835616438356e-07,
+      "loss": 0.0003,
+      "reward": 1.5,
+      "reward_std": 0.18861131370067596,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 516
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 709.09375,
+      "epoch": 0.7082191780821918,
+      "grad_norm": 3.9952471256256104,
+      "kl": 0.2568359375,
+      "learning_rate": 7.639269406392693e-07,
+      "loss": 0.0003,
+      "reward": 1.4375,
+      "reward_std": 0.08548713475465775,
+      "rewards/accuracy_reward": 0.4374999850988388,
+      "rewards/format_reward": 1.0,
+      "step": 517
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 569.03125,
+      "epoch": 0.7095890410958904,
+      "grad_norm": 0.01444815844297409,
+      "kl": 0.294921875,
+      "learning_rate": 7.634703196347032e-07,
+      "loss": 0.0003,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 518
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 435.21875,
+      "epoch": 0.7109589041095891,
+      "grad_norm": 3.509876251220703,
+      "kl": 0.31005859375,
+      "learning_rate": 7.63013698630137e-07,
+      "loss": 0.0003,
+      "reward": 1.640625,
+      "reward_std": 0.3361537680029869,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 519
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 570.625,
+      "epoch": 0.7123287671232876,
+      "grad_norm": 2.812932252883911,
+      "kl": 0.3154296875,
+      "learning_rate": 7.625570776255707e-07,
+      "loss": 0.0003,
+      "reward": 1.578125,
+      "reward_std": 0.2109457477927208,
+      "rewards/accuracy_reward": 0.578125,
+      "rewards/format_reward": 1.0,
+      "step": 520
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 564.75,
+      "epoch": 0.7136986301369863,
+      "grad_norm": 1.0527565479278564,
+      "kl": 0.28515625,
+      "learning_rate": 7.621004566210046e-07,
+      "loss": 0.0003,
+      "reward": 1.21875,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 521
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 583.125,
+      "epoch": 0.7150684931506849,
+      "grad_norm": 1.4227604866027832,
+      "kl": 0.26123046875,
+      "learning_rate": 7.616438356164383e-07,
+      "loss": 0.0003,
+      "reward": 1.6328125,
+      "reward_std": 0.20593809336423874,
+      "rewards/accuracy_reward": 0.6328125,
+      "rewards/format_reward": 1.0,
+      "step": 522
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 411.34375,
+      "epoch": 0.7164383561643836,
+      "grad_norm": 1.042665719985962,
+      "kl": 0.3056640625,
+      "learning_rate": 7.61187214611872e-07,
+      "loss": 0.0003,
+      "reward": 1.21875,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 523
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 697.65625,
+      "epoch": 0.7178082191780822,
+      "grad_norm": 4.018407344818115,
+      "kl": 0.2666015625,
+      "learning_rate": 7.607305936073059e-07,
+      "loss": 0.0003,
+      "reward": 1.6953125,
+      "reward_std": 0.16724733635783195,
+      "rewards/accuracy_reward": 0.6953125,
+      "rewards/format_reward": 1.0,
+      "step": 524
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 565.78125,
+      "epoch": 0.7191780821917808,
+      "grad_norm": 1.4768673181533813,
+      "kl": 0.28564453125,
+      "learning_rate": 7.602739726027397e-07,
+      "loss": 0.0003,
+      "reward": 1.4114583134651184,
+      "reward_std": 0.09781630150973797,
+      "rewards/accuracy_reward": 0.4114583283662796,
+      "rewards/format_reward": 1.0,
+      "step": 525
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 602.15625,
+      "epoch": 0.7205479452054795,
+      "grad_norm": 1.8076670169830322,
+      "kl": 0.254638671875,
+      "learning_rate": 7.598173515981735e-07,
+      "loss": 0.0003,
+      "reward": 1.875,
+      "reward_std": 0.13363061845302582,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 526
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 553.625,
+      "epoch": 0.7219178082191781,
+      "grad_norm": 2.97518253326416,
+      "kl": 0.26708984375,
+      "learning_rate": 7.593607305936073e-07,
+      "loss": 0.0003,
+      "reward": 1.59375,
+      "reward_std": 0.1552036553621292,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 527
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 690.125,
+      "epoch": 0.7232876712328767,
+      "grad_norm": 3.0159289836883545,
+      "kl": 0.29248046875,
+      "learning_rate": 7.58904109589041e-07,
+      "loss": 0.0003,
+      "reward": 1.6875,
+      "reward_std": 0.3495672009885311,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 0.96875,
+      "step": 528
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 547.53125,
+      "epoch": 0.7246575342465753,
+      "grad_norm": 0.024200087413191795,
+      "kl": 0.3154296875,
+      "learning_rate": 7.584474885844749e-07,
+      "loss": 0.0003,
+      "reward": 1.125,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/format_reward": 1.0,
+      "step": 529
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 559.3125,
+      "epoch": 0.726027397260274,
+      "grad_norm": 16.51392936706543,
+      "kl": 0.2783203125,
+      "learning_rate": 7.579908675799086e-07,
+      "loss": 0.0003,
+      "reward": 1.7708333134651184,
+      "reward_std": 0.24923127330839634,
+      "rewards/accuracy_reward": 0.7708333283662796,
+      "rewards/format_reward": 1.0,
+      "step": 530
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 670.75,
+      "epoch": 0.7273972602739726,
+      "grad_norm": 2.6126623153686523,
+      "kl": 0.275390625,
+      "learning_rate": 7.575342465753424e-07,
+      "loss": 0.0003,
+      "reward": 1.7552083432674408,
+      "reward_std": 0.14971192181110382,
+      "rewards/accuracy_reward": 0.7552083432674408,
+      "rewards/format_reward": 1.0,
+      "step": 531
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 566.21875,
+      "epoch": 0.7287671232876712,
+      "grad_norm": 1.1948318481445312,
+      "kl": 0.2802734375,
+      "learning_rate": 7.570776255707763e-07,
+      "loss": 0.0003,
+      "reward": 1.4375,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 532
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 527.375,
+      "epoch": 0.7301369863013699,
+      "grad_norm": 23.645620346069336,
+      "kl": 0.320556640625,
+      "learning_rate": 7.5662100456621e-07,
+      "loss": 0.0003,
+      "reward": 1.46875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 533
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 403.96875,
+      "epoch": 0.7315068493150685,
+      "grad_norm": 3.456782579421997,
+      "kl": 0.36669921875,
+      "learning_rate": 7.561643835616438e-07,
+      "loss": 0.0004,
+      "reward": 1.6354166269302368,
+      "reward_std": 0.20183072239160538,
+      "rewards/accuracy_reward": 0.6354166865348816,
+      "rewards/format_reward": 1.0,
+      "step": 534
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.625,
+      "epoch": 0.7328767123287672,
+      "grad_norm": 2.4733662605285645,
+      "kl": 0.30615234375,
+      "learning_rate": 7.557077625570776e-07,
+      "loss": 0.0003,
+      "reward": 1.15625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.15625,
+      "rewards/format_reward": 1.0,
+      "step": 535
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 543.875,
+      "epoch": 0.7342465753424657,
+      "grad_norm": 3.866555690765381,
+      "kl": 0.3017578125,
+      "learning_rate": 7.552511415525113e-07,
+      "loss": 0.0003,
+      "reward": 1.875,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 536
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 422.59375,
+      "epoch": 0.7356164383561644,
+      "grad_norm": 85.90696716308594,
+      "kl": 0.3330078125,
+      "learning_rate": 7.547945205479452e-07,
+      "loss": 0.0003,
+      "reward": 1.75,
+      "reward_std": 0.22461533173918724,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 537
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.5625,
+      "epoch": 0.736986301369863,
+      "grad_norm": 5.220126628875732,
+      "kl": 0.30078125,
+      "learning_rate": 7.54337899543379e-07,
+      "loss": 0.0003,
+      "reward": 1.3125,
+      "reward_std": 0.20044592767953873,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 538
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.40625,
+      "epoch": 0.7383561643835617,
+      "grad_norm": 5.28268575668335,
+      "kl": 0.310546875,
+      "learning_rate": 7.538812785388127e-07,
+      "loss": 0.0003,
+      "reward": 1.7890625,
+      "reward_std": 0.26380185037851334,
+      "rewards/accuracy_reward": 0.7890625,
+      "rewards/format_reward": 1.0,
+      "step": 539
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 691.09375,
+      "epoch": 0.7397260273972602,
+      "grad_norm": 2.411632537841797,
+      "kl": 0.29296875,
+      "learning_rate": 7.534246575342466e-07,
+      "loss": 0.0003,
+      "reward": 1.65625,
+      "reward_std": 0.1552036553621292,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 540
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 563.8125,
+      "epoch": 0.7410958904109589,
+      "grad_norm": 1.7370656728744507,
+      "kl": 0.31689453125,
+      "learning_rate": 7.529680365296803e-07,
+      "loss": 0.0003,
+      "reward": 1.375,
+      "reward_std": 0.13363061845302582,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 541
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 556.75,
+      "epoch": 0.7424657534246575,
+      "grad_norm": 1.8685580492019653,
+      "kl": 0.2685546875,
+      "learning_rate": 7.525114155251141e-07,
+      "loss": 0.0003,
+      "reward": 1.5052083432674408,
+      "reward_std": 0.1630059964954853,
+      "rewards/accuracy_reward": 0.5052083283662796,
+      "rewards/format_reward": 1.0,
+      "step": 542
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 416.1875,
+      "epoch": 0.7438356164383562,
+      "grad_norm": 4.826626777648926,
+      "kl": 0.28369140625,
+      "learning_rate": 7.520547945205479e-07,
+      "loss": 0.0003,
+      "reward": 1.546875,
+      "reward_std": 0.319402813911438,
+      "rewards/accuracy_reward": 0.546875,
+      "rewards/format_reward": 1.0,
+      "step": 543
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 549.8125,
+      "epoch": 0.7452054794520548,
+      "grad_norm": 1.5942007303237915,
+      "kl": 0.27001953125,
+      "learning_rate": 7.515981735159816e-07,
+      "loss": 0.0003,
+      "reward": 1.4375,
+      "reward_std": 0.06681530922651291,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 544
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 548.1875,
+      "epoch": 0.7465753424657534,
+      "grad_norm": 0.8855934739112854,
+      "kl": 0.2890625,
+      "learning_rate": 7.511415525114156e-07,
+      "loss": 0.0003,
+      "reward": 1.4453125,
+      "reward_std": 0.0521576851606369,
+      "rewards/accuracy_reward": 0.4453125,
+      "rewards/format_reward": 1.0,
+      "step": 545
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 416.75,
+      "epoch": 0.7479452054794521,
+      "grad_norm": 9.443655967712402,
+      "kl": 0.31640625,
+      "learning_rate": 7.506849315068493e-07,
+      "loss": 0.0003,
+      "reward": 1.53125,
+      "reward_std": 0.17358146235346794,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 546
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 559.25,
+      "epoch": 0.7493150684931507,
+      "grad_norm": 1.2628391981124878,
+      "kl": 0.2822265625,
+      "learning_rate": 7.50228310502283e-07,
+      "loss": 0.0003,
+      "reward": 1.478124976158142,
+      "reward_std": 0.08902433887124062,
+      "rewards/accuracy_reward": 0.4781249761581421,
+      "rewards/format_reward": 1.0,
+      "step": 547
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 683.21875,
+      "epoch": 0.7506849315068493,
+      "grad_norm": 2.95210599899292,
+      "kl": 0.349609375,
+      "learning_rate": 7.497716894977169e-07,
+      "loss": 0.0004,
+      "reward": 1.7135416865348816,
+      "reward_std": 0.18521836958825588,
+      "rewards/accuracy_reward": 0.7135416716337204,
+      "rewards/format_reward": 1.0,
+      "step": 548
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 717.96875,
+      "epoch": 0.7520547945205479,
+      "grad_norm": 17.074256896972656,
+      "kl": 0.2978515625,
+      "learning_rate": 7.493150684931506e-07,
+      "loss": 0.0003,
+      "reward": 1.6614583134651184,
+      "reward_std": 0.1296813301742077,
+      "rewards/accuracy_reward": 0.6614583432674408,
+      "rewards/format_reward": 1.0,
+      "step": 549
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 460.6875,
+      "epoch": 0.7534246575342466,
+      "grad_norm": 3.607158660888672,
+      "kl": 0.283203125,
+      "learning_rate": 7.488584474885844e-07,
+      "loss": 0.0003,
+      "reward": 1.640625,
+      "reward_std": 0.3824852555990219,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 0.96875,
+      "step": 550
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 683.0,
+      "epoch": 0.7547945205479452,
+      "grad_norm": 1.7502480745315552,
+      "kl": 0.26708984375,
+      "learning_rate": 7.484018264840183e-07,
+      "loss": 0.0003,
+      "reward": 1.6238839328289032,
+      "reward_std": 0.12080634757876396,
+      "rewards/accuracy_reward": 0.623883917927742,
+      "rewards/format_reward": 1.0,
+      "step": 551
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 528.1875,
+      "epoch": 0.7561643835616438,
+      "grad_norm": 6.180083274841309,
+      "kl": 0.29345703125,
+      "learning_rate": 7.47945205479452e-07,
+      "loss": 0.0003,
+      "reward": 1.8828125,
+      "reward_std": 0.31077960692346096,
+      "rewards/accuracy_reward": 0.8828124850988388,
+      "rewards/format_reward": 1.0,
+      "step": 552
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 549.1875,
+      "epoch": 0.7575342465753425,
+      "grad_norm": 0.9904180765151978,
+      "kl": 0.2626953125,
+      "learning_rate": 7.474885844748859e-07,
+      "loss": 0.0003,
+      "reward": 1.546875,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.546875,
+      "rewards/format_reward": 1.0,
+      "step": 553
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 716.78125,
+      "epoch": 0.7589041095890411,
+      "grad_norm": 2.229074478149414,
+      "kl": 0.24365234375,
+      "learning_rate": 7.470319634703196e-07,
+      "loss": 0.0002,
+      "reward": 1.8260416388511658,
+      "reward_std": 0.1378844864666462,
+      "rewards/accuracy_reward": 0.826041653752327,
+      "rewards/format_reward": 1.0,
+      "step": 554
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 594.5625,
+      "epoch": 0.7602739726027398,
+      "grad_norm": 4.273021697998047,
+      "kl": 0.277587890625,
+      "learning_rate": 7.465753424657533e-07,
+      "loss": 0.0003,
+      "reward": 1.8828125,
+      "reward_std": 0.15702588856220245,
+      "rewards/accuracy_reward": 0.8828125,
+      "rewards/format_reward": 1.0,
+      "step": 555
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.03125,
+      "epoch": 0.7616438356164383,
+      "grad_norm": 0.02915891632437706,
+      "kl": 0.322265625,
+      "learning_rate": 7.461187214611872e-07,
+      "loss": 0.0003,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 556
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 565.90625,
+      "epoch": 0.763013698630137,
+      "grad_norm": 1.1693438291549683,
+      "kl": 0.29638671875,
+      "learning_rate": 7.456621004566209e-07,
+      "loss": 0.0003,
+      "reward": 1.34375,
+      "reward_std": 0.06681530922651291,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 557
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 465.09375,
+      "epoch": 0.7643835616438356,
+      "grad_norm": 0.9773749113082886,
+      "kl": 0.3115234375,
+      "learning_rate": 7.452054794520548e-07,
+      "loss": 0.0003,
+      "reward": 1.3046875,
+      "reward_std": 0.09704047441482544,
+      "rewards/accuracy_reward": 0.3046875,
+      "rewards/format_reward": 1.0,
+      "step": 558
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.03125,
+      "epoch": 0.7657534246575343,
+      "grad_norm": 6.028942108154297,
+      "kl": 0.28271484375,
+      "learning_rate": 7.447488584474886e-07,
+      "loss": 0.0003,
+      "reward": 1.765625,
+      "reward_std": 0.10698894783854485,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 1.0,
+      "step": 559
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 469.125,
+      "epoch": 0.7671232876712328,
+      "grad_norm": 6.394768714904785,
+      "kl": 0.3134765625,
+      "learning_rate": 7.442922374429223e-07,
+      "loss": 0.0003,
+      "reward": 1.609375,
+      "reward_std": 0.17236988618969917,
+      "rewards/accuracy_reward": 0.609375,
+      "rewards/format_reward": 1.0,
+      "step": 560
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 768.28125,
+      "epoch": 0.7684931506849315,
+      "grad_norm": 1.2454359531402588,
+      "kl": 0.275390625,
+      "learning_rate": 7.438356164383562e-07,
+      "loss": 0.0003,
+      "reward": 1.4140625,
+      "reward_std": 0.09704046696424484,
+      "rewards/accuracy_reward": 0.4140625,
+      "rewards/format_reward": 1.0,
+      "step": 561
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 476.40625,
+      "epoch": 0.7698630136986301,
+      "grad_norm": 4.182791233062744,
+      "kl": 0.27001953125,
+      "learning_rate": 7.433789954337899e-07,
+      "loss": 0.0003,
+      "reward": 1.484375,
+      "reward_std": 0.23144521936774254,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 562
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 430.8125,
+      "epoch": 0.7712328767123288,
+      "grad_norm": 2.8904168605804443,
+      "kl": 0.3212890625,
+      "learning_rate": 7.429223744292236e-07,
+      "loss": 0.0003,
+      "reward": 1.40625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 563
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 630.15625,
+      "epoch": 0.7726027397260274,
+      "grad_norm": 10.556282997131348,
+      "kl": 0.28759765625,
+      "learning_rate": 7.424657534246575e-07,
+      "loss": 0.0003,
+      "reward": 1.46875,
+      "reward_std": 0.047245558351278305,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 564
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 788.96875,
+      "epoch": 0.773972602739726,
+      "grad_norm": 2.3608124256134033,
+      "kl": 0.26708984375,
+      "learning_rate": 7.420091324200913e-07,
+      "loss": 0.0003,
+      "reward": 1.4427083730697632,
+      "reward_std": 0.10979808866977692,
+      "rewards/accuracy_reward": 0.4427083432674408,
+      "rewards/format_reward": 1.0,
+      "step": 565
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 600.4375,
+      "epoch": 0.7753424657534247,
+      "grad_norm": 1.940722942352295,
+      "kl": 0.26904296875,
+      "learning_rate": 7.415525114155251e-07,
+      "loss": 0.0003,
+      "reward": 1.78125,
+      "reward_std": 0.16675157472491264,
+      "rewards/accuracy_reward": 0.78125,
+      "rewards/format_reward": 1.0,
+      "step": 566
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 606.8125,
+      "epoch": 0.7767123287671233,
+      "grad_norm": 1.715049147605896,
+      "kl": 0.27685546875,
+      "learning_rate": 7.410958904109589e-07,
+      "loss": 0.0003,
+      "reward": 1.62109375,
+      "reward_std": 0.20764102414250374,
+      "rewards/accuracy_reward": 0.65234375,
+      "rewards/format_reward": 0.96875,
+      "step": 567
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 634.90625,
+      "epoch": 0.7780821917808219,
+      "grad_norm": 2.0080249309539795,
+      "kl": 0.255859375,
+      "learning_rate": 7.406392694063926e-07,
+      "loss": 0.0003,
+      "reward": 1.4375,
+      "reward_std": 0.1462521031498909,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 568
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 792.75,
+      "epoch": 0.7794520547945205,
+      "grad_norm": 1.9278701543807983,
+      "kl": 0.27001953125,
+      "learning_rate": 7.401826484018265e-07,
+      "loss": 0.0003,
+      "reward": 1.375,
+      "reward_std": 0.07312605157494545,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 569
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.28125,
+      "epoch": 0.7808219178082192,
+      "grad_norm": 0.017607873305678368,
+      "kl": 0.31640625,
+      "learning_rate": 7.397260273972602e-07,
+      "loss": 0.0003,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 570
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 608.0625,
+      "epoch": 0.7821917808219178,
+      "grad_norm": 4.558350086212158,
+      "kl": 0.3037109375,
+      "learning_rate": 7.39269406392694e-07,
+      "loss": 0.0003,
+      "reward": 1.25,
+      "reward_std": 0.2925042062997818,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 0.96875,
+      "step": 571
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 448.625,
+      "epoch": 0.7835616438356164,
+      "grad_norm": 5.511167049407959,
+      "kl": 0.361328125,
+      "learning_rate": 7.388127853881279e-07,
+      "loss": 0.0004,
+      "reward": 1.6484375,
+      "reward_std": 0.2647695615887642,
+      "rewards/accuracy_reward": 0.6796875,
+      "rewards/format_reward": 0.96875,
+      "step": 572
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 610.5,
+      "epoch": 0.7849315068493151,
+      "grad_norm": 3.1493077278137207,
+      "kl": 0.3115234375,
+      "learning_rate": 7.383561643835616e-07,
+      "loss": 0.0003,
+      "reward": 1.4453125,
+      "reward_std": 0.09021057933568954,
+      "rewards/accuracy_reward": 0.4453125,
+      "rewards/format_reward": 1.0,
+      "step": 573
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 659.9375,
+      "epoch": 0.7863013698630137,
+      "grad_norm": 2.7337605953216553,
+      "kl": 0.266357421875,
+      "learning_rate": 7.378995433789954e-07,
+      "loss": 0.0003,
+      "reward": 1.5859375,
+      "reward_std": 0.4949648827314377,
+      "rewards/accuracy_reward": 0.7109375,
+      "rewards/format_reward": 0.875,
+      "step": 574
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 803.21875,
+      "epoch": 0.7876712328767124,
+      "grad_norm": 1.5574761629104614,
+      "kl": 0.269775390625,
+      "learning_rate": 7.374429223744292e-07,
+      "loss": 0.0003,
+      "reward": 1.703125,
+      "reward_std": 0.3444985970854759,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 0.96875,
+      "step": 575
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 594.21875,
+      "epoch": 0.7890410958904109,
+      "grad_norm": 2.1322855949401855,
+      "kl": 0.28125,
+      "learning_rate": 7.369863013698629e-07,
+      "loss": 0.0003,
+      "reward": 1.6328125,
+      "reward_std": 0.38375694304704666,
+      "rewards/accuracy_reward": 0.6640625,
+      "rewards/format_reward": 0.96875,
+      "step": 576
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 811.1875,
+      "epoch": 0.7904109589041096,
+      "grad_norm": 2.1284778118133545,
+      "kl": 0.27099609375,
+      "learning_rate": 7.365296803652968e-07,
+      "loss": 0.0003,
+      "reward": 1.65625,
+      "reward_std": 0.2121911160647869,
+      "rewards/accuracy_reward": 0.6875000298023224,
+      "rewards/format_reward": 0.96875,
+      "step": 577
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 432.84375,
+      "epoch": 0.7917808219178082,
+      "grad_norm": 2.501584529876709,
+      "kl": 0.2880859375,
+      "learning_rate": 7.360730593607306e-07,
+      "loss": 0.0003,
+      "reward": 1.7604166269302368,
+      "reward_std": 0.19149437546730042,
+      "rewards/accuracy_reward": 0.7604166269302368,
+      "rewards/format_reward": 1.0,
+      "step": 578
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 709.5625,
+      "epoch": 0.7931506849315069,
+      "grad_norm": 2.271083354949951,
+      "kl": 0.2861328125,
+      "learning_rate": 7.356164383561643e-07,
+      "loss": 0.0003,
+      "reward": 1.7109375,
+      "reward_std": 0.29368035681545734,
+      "rewards/accuracy_reward": 0.7421875,
+      "rewards/format_reward": 0.96875,
+      "step": 579
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 570.21875,
+      "epoch": 0.7945205479452054,
+      "grad_norm": 0.75428706407547,
+      "kl": 0.2734375,
+      "learning_rate": 7.351598173515982e-07,
+      "loss": 0.0003,
+      "reward": 1.3828125,
+      "reward_std": 0.26397860050201416,
+      "rewards/accuracy_reward": 0.4453125,
+      "rewards/format_reward": 0.9375,
+      "step": 580
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 551.28125,
+      "epoch": 0.7958904109589041,
+      "grad_norm": 6.066575527191162,
+      "kl": 0.29150390625,
+      "learning_rate": 7.347031963470319e-07,
+      "loss": 0.0003,
+      "reward": 2.0625,
+      "reward_std": 0.21965250372886658,
+      "rewards/accuracy_reward": 1.0625,
+      "rewards/format_reward": 1.0,
+      "step": 581
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 565.875,
+      "epoch": 0.7972602739726027,
+      "grad_norm": 2.4375851154327393,
+      "kl": 0.28125,
+      "learning_rate": 7.342465753424657e-07,
+      "loss": 0.0003,
+      "reward": 1.7734375,
+      "reward_std": 0.14333692379295826,
+      "rewards/accuracy_reward": 0.7734375,
+      "rewards/format_reward": 1.0,
+      "step": 582
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 560.75,
+      "epoch": 0.7986301369863014,
+      "grad_norm": 4.929551601409912,
+      "kl": 0.30712890625,
+      "learning_rate": 7.337899543378995e-07,
+      "loss": 0.0003,
+      "reward": 1.5885416865348816,
+      "reward_std": 0.33561520278453827,
+      "rewards/accuracy_reward": 0.6197916716337204,
+      "rewards/format_reward": 0.96875,
+      "step": 583
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 583.96875,
+      "epoch": 0.8,
+      "grad_norm": 3.666161298751831,
+      "kl": 0.294921875,
+      "learning_rate": 7.333333333333332e-07,
+      "loss": 0.0003,
+      "reward": 1.6875,
+      "reward_std": 0.20616560243070126,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 584
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.90625,
+      "epoch": 0.8013698630136986,
+      "grad_norm": 3.3543715476989746,
+      "kl": 0.31201171875,
+      "learning_rate": 7.328767123287672e-07,
+      "loss": 0.0003,
+      "reward": 1.4140625,
+      "reward_std": 0.22327817976474762,
+      "rewards/accuracy_reward": 0.4140625,
+      "rewards/format_reward": 1.0,
+      "step": 585
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 377.5625,
+      "epoch": 0.8027397260273973,
+      "grad_norm": 4.409224987030029,
+      "kl": 0.28857421875,
+      "learning_rate": 7.324200913242009e-07,
+      "loss": 0.0003,
+      "reward": 1.875,
+      "reward_std": 0.1934976615011692,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 586
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 545.78125,
+      "epoch": 0.8041095890410959,
+      "grad_norm": 2.494868278503418,
+      "kl": 0.3046875,
+      "learning_rate": 7.319634703196346e-07,
+      "loss": 0.0003,
+      "reward": 1.703125,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 1.0,
+      "step": 587
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 409.3125,
+      "epoch": 0.8054794520547945,
+      "grad_norm": 4.713694095611572,
+      "kl": 0.3271484375,
+      "learning_rate": 7.315068493150685e-07,
+      "loss": 0.0003,
+      "reward": 1.21875,
+      "reward_std": 0.29305070638656616,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 0.9375,
+      "step": 588
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 567.4375,
+      "epoch": 0.8068493150684931,
+      "grad_norm": 4.22615909576416,
+      "kl": 0.288818359375,
+      "learning_rate": 7.310502283105022e-07,
+      "loss": 0.0003,
+      "reward": 1.6979166269302368,
+      "reward_std": 0.14746366813778877,
+      "rewards/accuracy_reward": 0.6979166567325592,
+      "rewards/format_reward": 1.0,
+      "step": 589
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 515.46875,
+      "epoch": 0.8082191780821918,
+      "grad_norm": 3.3240842819213867,
+      "kl": 0.29296875,
+      "learning_rate": 7.30593607305936e-07,
+      "loss": 0.0003,
+      "reward": 1.8515625,
+      "reward_std": 0.07912752032279968,
+      "rewards/accuracy_reward": 0.8515625,
+      "rewards/format_reward": 1.0,
+      "step": 590
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 371.59375,
+      "epoch": 0.8095890410958904,
+      "grad_norm": 2.9559454917907715,
+      "kl": 0.45556640625,
+      "learning_rate": 7.301369863013699e-07,
+      "loss": 0.0005,
+      "reward": 1.3984375,
+      "reward_std": 0.08679073117673397,
+      "rewards/accuracy_reward": 0.3984375,
+      "rewards/format_reward": 1.0,
+      "step": 591
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 698.65625,
+      "epoch": 0.810958904109589,
+      "grad_norm": 6.2642693519592285,
+      "kl": 0.29150390625,
+      "learning_rate": 7.296803652968036e-07,
+      "loss": 0.0003,
+      "reward": 1.390625,
+      "reward_std": 0.1825350895524025,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 0.96875,
+      "step": 592
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 542.78125,
+      "epoch": 0.8123287671232877,
+      "grad_norm": 1.58978271484375,
+      "kl": 0.2802734375,
+      "learning_rate": 7.292237442922375e-07,
+      "loss": 0.0003,
+      "reward": 1.453125,
+      "reward_std": 0.10669417306780815,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 593
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 551.75,
+      "epoch": 0.8136986301369863,
+      "grad_norm": 3.9518697261810303,
+      "kl": 0.2890625,
+      "learning_rate": 7.287671232876712e-07,
+      "loss": 0.0003,
+      "reward": 1.9453125,
+      "reward_std": 0.26032389141619205,
+      "rewards/accuracy_reward": 0.9453125,
+      "rewards/format_reward": 1.0,
+      "step": 594
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 398.9375,
+      "epoch": 0.815068493150685,
+      "grad_norm": 2.4345860481262207,
+      "kl": 0.30078125,
+      "learning_rate": 7.283105022831049e-07,
+      "loss": 0.0003,
+      "reward": 1.390625,
+      "reward_std": 0.17358146235346794,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 1.0,
+      "step": 595
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 566.90625,
+      "epoch": 0.8164383561643835,
+      "grad_norm": 1.7585220336914062,
+      "kl": 0.260009765625,
+      "learning_rate": 7.278538812785388e-07,
+      "loss": 0.0003,
+      "reward": 1.7447916269302368,
+      "reward_std": 0.11100948229432106,
+      "rewards/accuracy_reward": 0.7447916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 596
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 414.03125,
+      "epoch": 0.8178082191780822,
+      "grad_norm": 10.006606101989746,
+      "kl": 0.2744140625,
+      "learning_rate": 7.273972602739725e-07,
+      "loss": 0.0003,
+      "reward": 1.3828125,
+      "reward_std": 0.08679073117673397,
+      "rewards/accuracy_reward": 0.3828125,
+      "rewards/format_reward": 1.0,
+      "step": 597
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 571.84375,
+      "epoch": 0.8191780821917808,
+      "grad_norm": 3.1597371101379395,
+      "kl": 0.293701171875,
+      "learning_rate": 7.269406392694064e-07,
+      "loss": 0.0003,
+      "reward": 1.6015625,
+      "reward_std": 0.1936504878103733,
+      "rewards/accuracy_reward": 0.6015625,
+      "rewards/format_reward": 1.0,
+      "step": 598
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 715.8125,
+      "epoch": 0.8205479452054795,
+      "grad_norm": 1.5528578758239746,
+      "kl": 0.28076171875,
+      "learning_rate": 7.264840182648402e-07,
+      "loss": 0.0003,
+      "reward": 1.4765625,
+      "reward_std": 0.07860555313527584,
+      "rewards/accuracy_reward": 0.4765625,
+      "rewards/format_reward": 1.0,
+      "step": 599
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 751.15625,
+      "epoch": 0.821917808219178,
+      "grad_norm": 1.6795881986618042,
+      "kl": 0.312744140625,
+      "learning_rate": 7.260273972602739e-07,
+      "loss": 0.0003,
+      "reward": 1.875,
+      "reward_std": 0.21018434315919876,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 600
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.125,
+      "epoch": 0.8232876712328767,
+      "grad_norm": 1.0556623935699463,
+      "kl": 0.32861328125,
+      "learning_rate": 7.255707762557078e-07,
+      "loss": 0.0003,
+      "reward": 1.171875,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.171875,
+      "rewards/format_reward": 1.0,
+      "step": 601
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 638.03125,
+      "epoch": 0.8246575342465754,
+      "grad_norm": 4.618863105773926,
+      "kl": 0.28955078125,
+      "learning_rate": 7.251141552511415e-07,
+      "loss": 0.0003,
+      "reward": 1.609375,
+      "reward_std": 0.3098084628582001,
+      "rewards/accuracy_reward": 0.609375,
+      "rewards/format_reward": 1.0,
+      "step": 602
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 724.4375,
+      "epoch": 0.826027397260274,
+      "grad_norm": 3.4050896167755127,
+      "kl": 0.2763671875,
+      "learning_rate": 7.246575342465752e-07,
+      "loss": 0.0003,
+      "reward": 1.6015625,
+      "reward_std": 0.1325697861611843,
+      "rewards/accuracy_reward": 0.6015625,
+      "rewards/format_reward": 1.0,
+      "step": 603
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 779.09375,
+      "epoch": 0.8273972602739726,
+      "grad_norm": 2.157498836517334,
+      "kl": 0.27197265625,
+      "learning_rate": 7.242009132420091e-07,
+      "loss": 0.0003,
+      "reward": 2.125,
+      "reward_std": 0.4762524124234915,
+      "rewards/accuracy_reward": 1.15625,
+      "rewards/format_reward": 0.96875,
+      "step": 604
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 460.0,
+      "epoch": 0.8287671232876712,
+      "grad_norm": 2.8244545459747314,
+      "kl": 0.29443359375,
+      "learning_rate": 7.237442922374429e-07,
+      "loss": 0.0003,
+      "reward": 1.671875,
+      "reward_std": 0.22097086161375046,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 605
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 597.0,
+      "epoch": 0.8301369863013699,
+      "grad_norm": 3.9018266201019287,
+      "kl": 0.28271484375,
+      "learning_rate": 7.232876712328767e-07,
+      "loss": 0.0003,
+      "reward": 1.5736607313156128,
+      "reward_std": 0.1770894043147564,
+      "rewards/accuracy_reward": 0.5736607313156128,
+      "rewards/format_reward": 1.0,
+      "step": 606
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 425.84375,
+      "epoch": 0.8315068493150685,
+      "grad_norm": 3.512537956237793,
+      "kl": 0.3349609375,
+      "learning_rate": 7.228310502283105e-07,
+      "loss": 0.0003,
+      "reward": 1.375,
+      "reward_std": 0.1472245752811432,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 607
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 641.84375,
+      "epoch": 0.8328767123287671,
+      "grad_norm": 2.6885643005371094,
+      "kl": 0.28564453125,
+      "learning_rate": 7.223744292237442e-07,
+      "loss": 0.0003,
+      "reward": 1.4765625,
+      "reward_std": 0.29774628579616547,
+      "rewards/accuracy_reward": 0.5390625,
+      "rewards/format_reward": 0.9375,
+      "step": 608
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 468.8125,
+      "epoch": 0.8342465753424657,
+      "grad_norm": 2.3910205364227295,
+      "kl": 0.345947265625,
+      "learning_rate": 7.219178082191781e-07,
+      "loss": 0.0003,
+      "reward": 1.140625,
+      "reward_std": 0.3463020324707031,
+      "rewards/accuracy_reward": 0.203125,
+      "rewards/format_reward": 0.9375,
+      "step": 609
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 475.6875,
+      "epoch": 0.8356164383561644,
+      "grad_norm": 1.3065999746322632,
+      "kl": 0.326171875,
+      "learning_rate": 7.214611872146118e-07,
+      "loss": 0.0003,
+      "reward": 1.390625,
+      "reward_std": 0.08456665836274624,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 1.0,
+      "step": 610
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 621.9375,
+      "epoch": 0.836986301369863,
+      "grad_norm": 1.250556468963623,
+      "kl": 0.34521484375,
+      "learning_rate": 7.210045662100456e-07,
+      "loss": 0.0003,
+      "reward": 1.359375,
+      "reward_std": 0.27564920112490654,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 0.9375,
+      "step": 611
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 808.1875,
+      "epoch": 0.8383561643835616,
+      "grad_norm": 1.4332400560379028,
+      "kl": 0.263671875,
+      "learning_rate": 7.205479452054795e-07,
+      "loss": 0.0003,
+      "reward": 1.8890624940395355,
+      "reward_std": 0.47034546732902527,
+      "rewards/accuracy_reward": 0.9828124940395355,
+      "rewards/format_reward": 0.90625,
+      "step": 612
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 819.65625,
+      "epoch": 0.8397260273972603,
+      "grad_norm": 1.6501152515411377,
+      "kl": 0.258544921875,
+      "learning_rate": 7.200913242009132e-07,
+      "loss": 0.0003,
+      "reward": 1.75,
+      "reward_std": 0.4389287531375885,
+      "rewards/accuracy_reward": 0.8125,
+      "rewards/format_reward": 0.9375,
+      "step": 613
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 588.34375,
+      "epoch": 0.8410958904109589,
+      "grad_norm": 0.8255899548530579,
+      "kl": 0.30078125,
+      "learning_rate": 7.19634703196347e-07,
+      "loss": 0.0003,
+      "reward": 1.765625,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 1.0,
+      "step": 614
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 467.28125,
+      "epoch": 0.8424657534246576,
+      "grad_norm": 0.9710884094238281,
+      "kl": 0.30859375,
+      "learning_rate": 7.191780821917808e-07,
+      "loss": 0.0003,
+      "reward": 1.484375,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 615
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 790.28125,
+      "epoch": 0.8438356164383561,
+      "grad_norm": 1.5235772132873535,
+      "kl": 0.28076171875,
+      "learning_rate": 7.187214611872145e-07,
+      "loss": 0.0003,
+      "reward": 1.75,
+      "reward_std": 0.15580293536186218,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 616
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 753.9375,
+      "epoch": 0.8452054794520548,
+      "grad_norm": 2.7367019653320312,
+      "kl": 0.279296875,
+      "learning_rate": 7.182648401826484e-07,
+      "loss": 0.0003,
+      "reward": 2.5677083134651184,
+      "reward_std": 0.48400574177503586,
+      "rewards/accuracy_reward": 1.5989583134651184,
+      "rewards/format_reward": 0.96875,
+      "step": 617
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 550.375,
+      "epoch": 0.8465753424657534,
+      "grad_norm": 3.4342260360717773,
+      "kl": 0.29248046875,
+      "learning_rate": 7.178082191780822e-07,
+      "loss": 0.0003,
+      "reward": 1.97265625,
+      "reward_std": 0.23257054761052132,
+      "rewards/accuracy_reward": 0.97265625,
+      "rewards/format_reward": 1.0,
+      "step": 618
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 558.65625,
+      "epoch": 0.8479452054794521,
+      "grad_norm": 5.605570316314697,
+      "kl": 0.28662109375,
+      "learning_rate": 7.173515981735159e-07,
+      "loss": 0.0003,
+      "reward": 1.8854166269302368,
+      "reward_std": 0.23936405219137669,
+      "rewards/accuracy_reward": 0.885416641831398,
+      "rewards/format_reward": 1.0,
+      "step": 619
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.84375,
+      "epoch": 0.8493150684931506,
+      "grad_norm": 2.4277820587158203,
+      "kl": 0.318359375,
+      "learning_rate": 7.168949771689498e-07,
+      "loss": 0.0003,
+      "reward": 1.6328125,
+      "reward_std": 0.13782460056245327,
+      "rewards/accuracy_reward": 0.6328125,
+      "rewards/format_reward": 1.0,
+      "step": 620
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 668.28125,
+      "epoch": 0.8506849315068493,
+      "grad_norm": 1.7949193716049194,
+      "kl": 0.28271484375,
+      "learning_rate": 7.164383561643835e-07,
+      "loss": 0.0003,
+      "reward": 1.6276041567325592,
+      "reward_std": 0.09027346037328243,
+      "rewards/accuracy_reward": 0.6276041567325592,
+      "rewards/format_reward": 1.0,
+      "step": 621
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 706.1875,
+      "epoch": 0.852054794520548,
+      "grad_norm": 3.527575969696045,
+      "kl": 0.27978515625,
+      "learning_rate": 7.159817351598173e-07,
+      "loss": 0.0003,
+      "reward": 1.421875,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 622
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 700.46875,
+      "epoch": 0.8534246575342466,
+      "grad_norm": 1.6975399255752563,
+      "kl": 0.28515625,
+      "learning_rate": 7.155251141552511e-07,
+      "loss": 0.0003,
+      "reward": 1.4375,
+      "reward_std": 0.0936255231499672,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 623
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 539.59375,
+      "epoch": 0.8547945205479452,
+      "grad_norm": 4.774352550506592,
+      "kl": 0.3291015625,
+      "learning_rate": 7.150684931506848e-07,
+      "loss": 0.0003,
+      "reward": 1.6901041865348816,
+      "reward_std": 0.15677691251039505,
+      "rewards/accuracy_reward": 0.690104141831398,
+      "rewards/format_reward": 1.0,
+      "step": 624
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 529.5625,
+      "epoch": 0.8561643835616438,
+      "grad_norm": 3.3761487007141113,
+      "kl": 0.3056640625,
+      "learning_rate": 7.146118721461188e-07,
+      "loss": 0.0003,
+      "reward": 1.68359375,
+      "reward_std": 0.26938531920313835,
+      "rewards/accuracy_reward": 0.68359375,
+      "rewards/format_reward": 1.0,
+      "step": 625
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.375,
+      "epoch": 0.8575342465753425,
+      "grad_norm": 3.5964181423187256,
+      "kl": 0.38427734375,
+      "learning_rate": 7.141552511415525e-07,
+      "loss": 0.0004,
+      "reward": 1.515625,
+      "reward_std": 0.17782479152083397,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 626
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 200.78125,
+      "epoch": 0.8589041095890411,
+      "grad_norm": 1.3047560453414917,
+      "kl": 0.3671875,
+      "learning_rate": 7.136986301369862e-07,
+      "loss": 0.0004,
+      "reward": 1.453125,
+      "reward_std": 0.02670290134847164,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 627
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 500.15625,
+      "epoch": 0.8602739726027397,
+      "grad_norm": 3.4180963039398193,
+      "kl": 0.37451171875,
+      "learning_rate": 7.132420091324201e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.11659536883234978,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 628
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 503.59375,
+      "epoch": 0.8616438356164383,
+      "grad_norm": 3.0317859649658203,
+      "kl": 0.31884765625,
+      "learning_rate": 7.127853881278538e-07,
+      "loss": 0.0003,
+      "reward": 1.9609375,
+      "reward_std": 0.40251583606004715,
+      "rewards/accuracy_reward": 0.9921875,
+      "rewards/format_reward": 0.96875,
+      "step": 629
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.46875,
+      "epoch": 0.863013698630137,
+      "grad_norm": 5.503389358520508,
+      "kl": 0.404296875,
+      "learning_rate": 7.123287671232876e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.3335031494498253,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 630
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 446.84375,
+      "epoch": 0.8643835616438356,
+      "grad_norm": 1.256745457649231,
+      "kl": 0.33642578125,
+      "learning_rate": 7.118721461187215e-07,
+      "loss": 0.0003,
+      "reward": 1.6197916269302368,
+      "reward_std": 0.051934316754341125,
+      "rewards/accuracy_reward": 0.6197916269302368,
+      "rewards/format_reward": 1.0,
+      "step": 631
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 481.125,
+      "epoch": 0.8657534246575342,
+      "grad_norm": 2.3345208168029785,
+      "kl": 0.35302734375,
+      "learning_rate": 7.114155251141552e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.10888781771063805,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 632
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 465.625,
+      "epoch": 0.8671232876712329,
+      "grad_norm": 2.5264086723327637,
+      "kl": 0.33544921875,
+      "learning_rate": 7.109589041095891e-07,
+      "loss": 0.0003,
+      "reward": 1.609375,
+      "reward_std": 0.2382849156856537,
+      "rewards/accuracy_reward": 0.609375,
+      "rewards/format_reward": 1.0,
+      "step": 633
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 480.78125,
+      "epoch": 0.8684931506849315,
+      "grad_norm": 2.600130081176758,
+      "kl": 0.34765625,
+      "learning_rate": 7.105022831050228e-07,
+      "loss": 0.0003,
+      "reward": 1.9562499523162842,
+      "reward_std": 0.1930173598229885,
+      "rewards/accuracy_reward": 0.956250011920929,
+      "rewards/format_reward": 1.0,
+      "step": 634
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 490.625,
+      "epoch": 0.8698630136986302,
+      "grad_norm": 3.292919874191284,
+      "kl": 0.35791015625,
+      "learning_rate": 7.100456621004565e-07,
+      "loss": 0.0004,
+      "reward": 1.8541666567325592,
+      "reward_std": 0.193493926897645,
+      "rewards/accuracy_reward": 0.8541666716337204,
+      "rewards/format_reward": 1.0,
+      "step": 635
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.59375,
+      "epoch": 0.8712328767123287,
+      "grad_norm": 14.443897247314453,
+      "kl": 0.42919921875,
+      "learning_rate": 7.095890410958904e-07,
+      "loss": 0.0004,
+      "reward": 1.1875,
+      "reward_std": 0.06681530922651291,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/format_reward": 1.0,
+      "step": 636
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 234.125,
+      "epoch": 0.8726027397260274,
+      "grad_norm": 1.4970674514770508,
+      "kl": 0.3974609375,
+      "learning_rate": 7.091324200913241e-07,
+      "loss": 0.0004,
+      "reward": 1.2265625,
+      "reward_std": 0.03234682232141495,
+      "rewards/accuracy_reward": 0.2265625,
+      "rewards/format_reward": 1.0,
+      "step": 637
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 227.375,
+      "epoch": 0.873972602739726,
+      "grad_norm": 4.312900543212891,
+      "kl": 0.39453125,
+      "learning_rate": 7.08675799086758e-07,
+      "loss": 0.0004,
+      "reward": 1.484375,
+      "reward_std": 0.27092268504202366,
+      "rewards/accuracy_reward": 0.4843750298023224,
+      "rewards/format_reward": 1.0,
+      "step": 638
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.6875,
+      "epoch": 0.8753424657534247,
+      "grad_norm": 1.0829259157180786,
+      "kl": 0.49462890625,
+      "learning_rate": 7.082191780821918e-07,
+      "loss": 0.0005,
+      "reward": 1.3125,
+      "reward_std": 0.10022296756505966,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 639
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.5,
+      "epoch": 0.8767123287671232,
+      "grad_norm": 5.12158203125,
+      "kl": 0.37353515625,
+      "learning_rate": 7.077625570776255e-07,
+      "loss": 0.0004,
+      "reward": 1.375,
+      "reward_std": 0.25693800300359726,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 0.96875,
+      "step": 640
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 413.96875,
+      "epoch": 0.8780821917808219,
+      "grad_norm": 3.457838773727417,
+      "kl": 0.376953125,
+      "learning_rate": 7.073059360730594e-07,
+      "loss": 0.0004,
+      "reward": 1.578125,
+      "reward_std": 0.30377669632434845,
+      "rewards/accuracy_reward": 0.578125,
+      "rewards/format_reward": 1.0,
+      "step": 641
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 542.09375,
+      "epoch": 0.8794520547945206,
+      "grad_norm": 3.6919641494750977,
+      "kl": 0.31689453125,
+      "learning_rate": 7.068493150684931e-07,
+      "loss": 0.0003,
+      "reward": 1.859375,
+      "reward_std": 0.34486518055200577,
+      "rewards/accuracy_reward": 0.890625,
+      "rewards/format_reward": 0.96875,
+      "step": 642
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 627.125,
+      "epoch": 0.8808219178082192,
+      "grad_norm": 1.8475896120071411,
+      "kl": 0.34619140625,
+      "learning_rate": 7.063926940639268e-07,
+      "loss": 0.0003,
+      "reward": 1.78125,
+      "reward_std": 0.4355708882212639,
+      "rewards/accuracy_reward": 0.9375,
+      "rewards/format_reward": 0.84375,
+      "step": 643
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 680.34375,
+      "epoch": 0.8821917808219178,
+      "grad_norm": 2.7510480880737305,
+      "kl": 0.29150390625,
+      "learning_rate": 7.059360730593607e-07,
+      "loss": 0.0003,
+      "reward": 1.578125,
+      "reward_std": 0.2629348188638687,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 0.9375,
+      "step": 644
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 421.53125,
+      "epoch": 0.8835616438356164,
+      "grad_norm": 4.39385986328125,
+      "kl": 0.3525390625,
+      "learning_rate": 7.054794520547945e-07,
+      "loss": 0.0004,
+      "reward": 1.125,
+      "reward_std": 0.3104073107242584,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/format_reward": 0.9375,
+      "step": 645
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.90625,
+      "epoch": 0.8849315068493151,
+      "grad_norm": 3.439211368560791,
+      "kl": 0.32080078125,
+      "learning_rate": 7.050228310502283e-07,
+      "loss": 0.0003,
+      "reward": 1.15625,
+      "reward_std": 0.3438149690628052,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 0.9375,
+      "step": 646
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.5625,
+      "epoch": 0.8863013698630137,
+      "grad_norm": 2.4772706031799316,
+      "kl": 0.3466796875,
+      "learning_rate": 7.045662100456621e-07,
+      "loss": 0.0003,
+      "reward": 1.15625,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.15625,
+      "rewards/format_reward": 1.0,
+      "step": 647
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 590.21875,
+      "epoch": 0.8876712328767123,
+      "grad_norm": 1.3561179637908936,
+      "kl": 0.341796875,
+      "learning_rate": 7.041095890410958e-07,
+      "loss": 0.0003,
+      "reward": 1.4765625,
+      "reward_std": 0.10474801808595657,
+      "rewards/accuracy_reward": 0.4765625,
+      "rewards/format_reward": 1.0,
+      "step": 648
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 464.78125,
+      "epoch": 0.8890410958904109,
+      "grad_norm": 45.053157806396484,
+      "kl": 0.33154296875,
+      "learning_rate": 7.036529680365297e-07,
+      "loss": 0.0003,
+      "reward": 1.59375,
+      "reward_std": 0.4626970961689949,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 0.9375,
+      "step": 649
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.5,
+      "epoch": 0.8904109589041096,
+      "grad_norm": 3.172072649002075,
+      "kl": 0.3642578125,
+      "learning_rate": 7.031963470319634e-07,
+      "loss": 0.0004,
+      "reward": 1.3515625,
+      "reward_std": 0.3067816346883774,
+      "rewards/accuracy_reward": 0.3828125,
+      "rewards/format_reward": 0.96875,
+      "step": 650
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 448.53125,
+      "epoch": 0.8917808219178082,
+      "grad_norm": 1.1374866962432861,
+      "kl": 0.3310546875,
+      "learning_rate": 7.027397260273972e-07,
+      "loss": 0.0003,
+      "reward": 1.184374988079071,
+      "reward_std": 0.022903122007846832,
+      "rewards/accuracy_reward": 0.18437501788139343,
+      "rewards/format_reward": 1.0,
+      "step": 651
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 639.3125,
+      "epoch": 0.8931506849315068,
+      "grad_norm": 2.0539586544036865,
+      "kl": 0.29931640625,
+      "learning_rate": 7.022831050228311e-07,
+      "loss": 0.0003,
+      "reward": 1.6953125,
+      "reward_std": 0.24830512702465057,
+      "rewards/accuracy_reward": 0.7265625,
+      "rewards/format_reward": 0.96875,
+      "step": 652
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 467.65625,
+      "epoch": 0.8945205479452055,
+      "grad_norm": 3.450404405593872,
+      "kl": 0.3037109375,
+      "learning_rate": 7.018264840182648e-07,
+      "loss": 0.0003,
+      "reward": 1.65625,
+      "reward_std": 0.49012404680252075,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 0.96875,
+      "step": 653
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 453.96875,
+      "epoch": 0.8958904109589041,
+      "grad_norm": 5.490792274475098,
+      "kl": 0.3271484375,
+      "learning_rate": 7.013698630136986e-07,
+      "loss": 0.0003,
+      "reward": 1.2750000059604645,
+      "reward_std": 0.13220207020640373,
+      "rewards/accuracy_reward": 0.2750000059604645,
+      "rewards/format_reward": 1.0,
+      "step": 654
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 474.78125,
+      "epoch": 0.8972602739726028,
+      "grad_norm": 4.403593063354492,
+      "kl": 0.3408203125,
+      "learning_rate": 7.009132420091324e-07,
+      "loss": 0.0003,
+      "reward": 1.203125,
+      "reward_std": 0.30935921147465706,
+      "rewards/accuracy_reward": 0.265625,
+      "rewards/format_reward": 0.9375,
+      "step": 655
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 529.5,
+      "epoch": 0.8986301369863013,
+      "grad_norm": 1.4611150026321411,
+      "kl": 0.3193359375,
+      "learning_rate": 7.004566210045661e-07,
+      "loss": 0.0003,
+      "reward": 1.359375,
+      "reward_std": 0.10205793008208275,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 0.96875,
+      "step": 656
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 347.375,
+      "epoch": 0.9,
+      "grad_norm": 3.657111644744873,
+      "kl": 0.330078125,
+      "learning_rate": 7e-07,
+      "loss": 0.0003,
+      "reward": 1.640625,
+      "reward_std": 0.28412990644574165,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 657
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 547.5625,
+      "epoch": 0.9013698630136986,
+      "grad_norm": 2.3929004669189453,
+      "kl": 0.3193359375,
+      "learning_rate": 6.995433789954338e-07,
+      "loss": 0.0003,
+      "reward": 1.859375,
+      "reward_std": 0.30617378652095795,
+      "rewards/accuracy_reward": 0.859375,
+      "rewards/format_reward": 1.0,
+      "step": 658
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 484.4375,
+      "epoch": 0.9027397260273973,
+      "grad_norm": 2.0510473251342773,
+      "kl": 0.3330078125,
+      "learning_rate": 6.990867579908675e-07,
+      "loss": 0.0003,
+      "reward": 1.6953125,
+      "reward_std": 0.2706219367682934,
+      "rewards/accuracy_reward": 0.6953125,
+      "rewards/format_reward": 1.0,
+      "step": 659
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 683.28125,
+      "epoch": 0.9041095890410958,
+      "grad_norm": 9.588709831237793,
+      "kl": 0.32958984375,
+      "learning_rate": 6.986301369863014e-07,
+      "loss": 0.0003,
+      "reward": 1.9114583730697632,
+      "reward_std": 0.13045240752398968,
+      "rewards/accuracy_reward": 0.9114583432674408,
+      "rewards/format_reward": 1.0,
+      "step": 660
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.28125,
+      "epoch": 0.9054794520547945,
+      "grad_norm": 3.2910804748535156,
+      "kl": 0.373046875,
+      "learning_rate": 6.981735159817351e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.3061639815568924,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 0.96875,
+      "step": 661
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 581.09375,
+      "epoch": 0.9068493150684932,
+      "grad_norm": 1.6819573640823364,
+      "kl": 0.32080078125,
+      "learning_rate": 6.977168949771689e-07,
+      "loss": 0.0003,
+      "reward": 1.5052083134651184,
+      "reward_std": 0.11100949719548225,
+      "rewards/accuracy_reward": 0.5052083134651184,
+      "rewards/format_reward": 1.0,
+      "step": 662
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 657.21875,
+      "epoch": 0.9082191780821918,
+      "grad_norm": 1.5459468364715576,
+      "kl": 0.3544921875,
+      "learning_rate": 6.972602739726027e-07,
+      "loss": 0.0004,
+      "reward": 1.453125,
+      "reward_std": 0.10205793008208275,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 663
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 608.4375,
+      "epoch": 0.9095890410958904,
+      "grad_norm": 2.212812900543213,
+      "kl": 0.3076171875,
+      "learning_rate": 6.968036529680364e-07,
+      "loss": 0.0003,
+      "reward": 1.7638888359069824,
+      "reward_std": 0.22503389045596123,
+      "rewards/accuracy_reward": 0.7951388657093048,
+      "rewards/format_reward": 0.96875,
+      "step": 664
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 762.3125,
+      "epoch": 0.910958904109589,
+      "grad_norm": 2.2994203567504883,
+      "kl": 0.29345703125,
+      "learning_rate": 6.963470319634704e-07,
+      "loss": 0.0003,
+      "reward": 1.9127604067325592,
+      "reward_std": 0.33594274893403053,
+      "rewards/accuracy_reward": 0.9440104067325592,
+      "rewards/format_reward": 0.96875,
+      "step": 665
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 574.3125,
+      "epoch": 0.9123287671232877,
+      "grad_norm": 6.928981304168701,
+      "kl": 0.2998046875,
+      "learning_rate": 6.958904109589041e-07,
+      "loss": 0.0003,
+      "reward": 1.2291666567325592,
+      "reward_std": 0.022271782159805298,
+      "rewards/accuracy_reward": 0.2291666567325592,
+      "rewards/format_reward": 1.0,
+      "step": 666
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.15625,
+      "epoch": 0.9136986301369863,
+      "grad_norm": 7.005854606628418,
+      "kl": 0.3505859375,
+      "learning_rate": 6.954337899543378e-07,
+      "loss": 0.0004,
+      "reward": 1.3125,
+      "reward_std": 0.2925042062997818,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 667
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 367.78125,
+      "epoch": 0.915068493150685,
+      "grad_norm": 4.68707275390625,
+      "kl": 0.37255859375,
+      "learning_rate": 6.949771689497717e-07,
+      "loss": 0.0004,
+      "reward": 0.96875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 0.96875,
+      "step": 668
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 447.375,
+      "epoch": 0.9164383561643835,
+      "grad_norm": 3.7123045921325684,
+      "kl": 0.380859375,
+      "learning_rate": 6.945205479452054e-07,
+      "loss": 0.0004,
+      "reward": 1.671875,
+      "reward_std": 0.41054617613554,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 669
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 583.65625,
+      "epoch": 0.9178082191780822,
+      "grad_norm": 1.5095117092132568,
+      "kl": 0.30859375,
+      "learning_rate": 6.940639269406392e-07,
+      "loss": 0.0003,
+      "reward": 1.44921875,
+      "reward_std": 0.055597566068172455,
+      "rewards/accuracy_reward": 0.44921875,
+      "rewards/format_reward": 1.0,
+      "step": 670
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 580.25,
+      "epoch": 0.9191780821917809,
+      "grad_norm": 1.7842953205108643,
+      "kl": 0.40478515625,
+      "learning_rate": 6.93607305936073e-07,
+      "loss": 0.0004,
+      "reward": 1.1796875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.2109375,
+      "rewards/format_reward": 0.96875,
+      "step": 671
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 496.84375,
+      "epoch": 0.9205479452054794,
+      "grad_norm": 3.0466763973236084,
+      "kl": 0.32470703125,
+      "learning_rate": 6.931506849315068e-07,
+      "loss": 0.0003,
+      "reward": 1.62109375,
+      "reward_std": 0.17449257895350456,
+      "rewards/accuracy_reward": 0.62109375,
+      "rewards/format_reward": 1.0,
+      "step": 672
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 622.59375,
+      "epoch": 0.9219178082191781,
+      "grad_norm": 6.0069193840026855,
+      "kl": 0.3232421875,
+      "learning_rate": 6.926940639269407e-07,
+      "loss": 0.0003,
+      "reward": 1.4479166567325592,
+      "reward_std": 0.17747542820870876,
+      "rewards/accuracy_reward": 0.4479166567325592,
+      "rewards/format_reward": 1.0,
+      "step": 673
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 583.59375,
+      "epoch": 0.9232876712328767,
+      "grad_norm": 2.055826425552368,
+      "kl": 0.3134765625,
+      "learning_rate": 6.922374429223744e-07,
+      "loss": 0.0003,
+      "reward": 1.75,
+      "reward_std": 0.24671732261776924,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 674
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 595.25,
+      "epoch": 0.9246575342465754,
+      "grad_norm": 0.03342582285404205,
+      "kl": 0.3740234375,
+      "learning_rate": 6.917808219178081e-07,
+      "loss": 0.0004,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 675
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 472.21875,
+      "epoch": 0.9260273972602739,
+      "grad_norm": 2.0904788970947266,
+      "kl": 0.34375,
+      "learning_rate": 6.91324200913242e-07,
+      "loss": 0.0003,
+      "reward": 1.3541666865348816,
+      "reward_std": 0.10767630115151405,
+      "rewards/accuracy_reward": 0.3541666865348816,
+      "rewards/format_reward": 1.0,
+      "step": 676
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 589.59375,
+      "epoch": 0.9273972602739726,
+      "grad_norm": 2.1896920204162598,
+      "kl": 0.32666015625,
+      "learning_rate": 6.908675799086757e-07,
+      "loss": 0.0003,
+      "reward": 1.453125,
+      "reward_std": 0.20648781582713127,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 0.96875,
+      "step": 677
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 612.15625,
+      "epoch": 0.9287671232876712,
+      "grad_norm": 1.9878590106964111,
+      "kl": 0.32666015625,
+      "learning_rate": 6.904109589041097e-07,
+      "loss": 0.0003,
+      "reward": 1.546875,
+      "reward_std": 0.1446593925356865,
+      "rewards/accuracy_reward": 0.609375,
+      "rewards/format_reward": 0.9375,
+      "step": 678
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 521.78125,
+      "epoch": 0.9301369863013699,
+      "grad_norm": 4.627434253692627,
+      "kl": 0.3154296875,
+      "learning_rate": 6.899543378995434e-07,
+      "loss": 0.0003,
+      "reward": 1.811718761920929,
+      "reward_std": 0.12913026381283998,
+      "rewards/accuracy_reward": 0.811718761920929,
+      "rewards/format_reward": 1.0,
+      "step": 679
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 703.84375,
+      "epoch": 0.9315068493150684,
+      "grad_norm": 2.76521897315979,
+      "kl": 0.3232421875,
+      "learning_rate": 6.894977168949771e-07,
+      "loss": 0.0003,
+      "reward": 2.1796875,
+      "reward_std": 0.18400542438030243,
+      "rewards/accuracy_reward": 1.1796875,
+      "rewards/format_reward": 1.0,
+      "step": 680
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 573.75,
+      "epoch": 0.9328767123287671,
+      "grad_norm": 3.8087267875671387,
+      "kl": 0.43505859375,
+      "learning_rate": 6.89041095890411e-07,
+      "loss": 0.0004,
+      "reward": 1.359375,
+      "reward_std": 0.17782479152083397,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 1.0,
+      "step": 681
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 346.0625,
+      "epoch": 0.9342465753424658,
+      "grad_norm": 1.986623764038086,
+      "kl": 0.35986328125,
+      "learning_rate": 6.885844748858447e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.13363061845302582,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 682
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 594.40625,
+      "epoch": 0.9356164383561644,
+      "grad_norm": 2.0661747455596924,
+      "kl": 0.3330078125,
+      "learning_rate": 6.881278538812784e-07,
+      "loss": 0.0003,
+      "reward": 1.515625,
+      "reward_std": 0.18997547030448914,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 683
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 703.46875,
+      "epoch": 0.936986301369863,
+      "grad_norm": 13.223034858703613,
+      "kl": 0.33251953125,
+      "learning_rate": 6.876712328767123e-07,
+      "loss": 0.0003,
+      "reward": 2.14453125,
+      "reward_std": 0.1712184101343155,
+      "rewards/accuracy_reward": 1.14453125,
+      "rewards/format_reward": 1.0,
+      "step": 684
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 377.0625,
+      "epoch": 0.9383561643835616,
+      "grad_norm": 3.540472984313965,
+      "kl": 0.341796875,
+      "learning_rate": 6.872146118721461e-07,
+      "loss": 0.0003,
+      "reward": 1.37109375,
+      "reward_std": 0.14941447600722313,
+      "rewards/accuracy_reward": 0.37109375,
+      "rewards/format_reward": 1.0,
+      "step": 685
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.71875,
+      "epoch": 0.9397260273972603,
+      "grad_norm": 4.10709285736084,
+      "kl": 0.36865234375,
+      "learning_rate": 6.867579908675799e-07,
+      "loss": 0.0004,
+      "reward": 1.09375,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/format_reward": 0.96875,
+      "step": 686
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 766.8125,
+      "epoch": 0.9410958904109589,
+      "grad_norm": 2.0390625,
+      "kl": 0.3642578125,
+      "learning_rate": 6.863013698630137e-07,
+      "loss": 0.0004,
+      "reward": 1.7942708134651184,
+      "reward_std": 0.28445861861109734,
+      "rewards/accuracy_reward": 0.8255208432674408,
+      "rewards/format_reward": 0.96875,
+      "step": 687
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 573.40625,
+      "epoch": 0.9424657534246575,
+      "grad_norm": 2.7066261768341064,
+      "kl": 0.3212890625,
+      "learning_rate": 6.858447488584474e-07,
+      "loss": 0.0003,
+      "reward": 1.390625,
+      "reward_std": 0.10205793008208275,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 1.0,
+      "step": 688
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 447.59375,
+      "epoch": 0.9438356164383561,
+      "grad_norm": 1.330697774887085,
+      "kl": 0.36767578125,
+      "learning_rate": 6.853881278538813e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.22301282733678818,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 689
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 582.25,
+      "epoch": 0.9452054794520548,
+      "grad_norm": 1.8517435789108276,
+      "kl": 0.3125,
+      "learning_rate": 6.84931506849315e-07,
+      "loss": 0.0003,
+      "reward": 1.4921875,
+      "reward_std": 0.23285578191280365,
+      "rewards/accuracy_reward": 0.5234375,
+      "rewards/format_reward": 0.96875,
+      "step": 690
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 502.96875,
+      "epoch": 0.9465753424657535,
+      "grad_norm": 7.800582408905029,
+      "kl": 0.33154296875,
+      "learning_rate": 6.844748858447487e-07,
+      "loss": 0.0003,
+      "reward": 1.21875,
+      "reward_std": 0.1552036553621292,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 691
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.5,
+      "epoch": 0.947945205479452,
+      "grad_norm": 2.3165299892425537,
+      "kl": 0.3642578125,
+      "learning_rate": 6.840182648401827e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.1462521031498909,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 692
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 488.1875,
+      "epoch": 0.9493150684931507,
+      "grad_norm": 1.7786669731140137,
+      "kl": 0.31591796875,
+      "learning_rate": 6.835616438356164e-07,
+      "loss": 0.0003,
+      "reward": 1.3828125,
+      "reward_std": 0.16173411160707474,
+      "rewards/accuracy_reward": 0.3828125,
+      "rewards/format_reward": 1.0,
+      "step": 693
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 457.96875,
+      "epoch": 0.9506849315068493,
+      "grad_norm": 0.027479765936732292,
+      "kl": 0.33447265625,
+      "learning_rate": 6.831050228310502e-07,
+      "loss": 0.0003,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 694
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 417.96875,
+      "epoch": 0.952054794520548,
+      "grad_norm": 2.6095175743103027,
+      "kl": 0.36181640625,
+      "learning_rate": 6.82648401826484e-07,
+      "loss": 0.0004,
+      "reward": 1.4609375,
+      "reward_std": 0.20912351459264755,
+      "rewards/accuracy_reward": 0.4921875,
+      "rewards/format_reward": 0.96875,
+      "step": 695
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 600.96875,
+      "epoch": 0.9534246575342465,
+      "grad_norm": 1.3289512395858765,
+      "kl": 0.328125,
+      "learning_rate": 6.821917808219177e-07,
+      "loss": 0.0003,
+      "reward": 1.34375,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 696
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 569.1875,
+      "epoch": 0.9547945205479452,
+      "grad_norm": 0.9503890872001648,
+      "kl": 0.33642578125,
+      "learning_rate": 6.817351598173516e-07,
+      "loss": 0.0003,
+      "reward": 1.243749976158142,
+      "reward_std": 0.04580627381801605,
+      "rewards/accuracy_reward": 0.24375002086162567,
+      "rewards/format_reward": 1.0,
+      "step": 697
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 600.0625,
+      "epoch": 0.9561643835616438,
+      "grad_norm": 6.267343044281006,
+      "kl": 0.34130859375,
+      "learning_rate": 6.812785388127854e-07,
+      "loss": 0.0003,
+      "reward": 1.2890625,
+      "reward_std": 0.14807433634996414,
+      "rewards/accuracy_reward": 0.2890625,
+      "rewards/format_reward": 1.0,
+      "step": 698
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 480.59375,
+      "epoch": 0.9575342465753425,
+      "grad_norm": 3.089637517929077,
+      "kl": 0.33935546875,
+      "learning_rate": 6.808219178082191e-07,
+      "loss": 0.0003,
+      "reward": 1.4895833134651184,
+      "reward_std": 0.2777084931731224,
+      "rewards/accuracy_reward": 0.4895833134651184,
+      "rewards/format_reward": 1.0,
+      "step": 699
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 606.03125,
+      "epoch": 0.958904109589041,
+      "grad_norm": 1.276449203491211,
+      "kl": 1.47900390625,
+      "learning_rate": 6.80365296803653e-07,
+      "loss": 0.0015,
+      "reward": 1.7890625,
+      "reward_std": 0.06629125773906708,
+      "rewards/accuracy_reward": 0.7890625,
+      "rewards/format_reward": 1.0,
+      "step": 700
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 490.3125,
+      "epoch": 0.9602739726027397,
+      "grad_norm": 0.03158112242817879,
+      "kl": 0.37646484375,
+      "learning_rate": 6.799086757990867e-07,
+      "loss": 0.0004,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 701
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 446.4375,
+      "epoch": 0.9616438356164384,
+      "grad_norm": 2.683041572570801,
+      "kl": 0.31982421875,
+      "learning_rate": 6.794520547945205e-07,
+      "loss": 0.0003,
+      "reward": 1.453125,
+      "reward_std": 0.1751839816570282,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 702
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 744.75,
+      "epoch": 0.963013698630137,
+      "grad_norm": 3.1106810569763184,
+      "kl": 0.32958984375,
+      "learning_rate": 6.789954337899543e-07,
+      "loss": 0.0003,
+      "reward": 1.9375,
+      "reward_std": 0.328794926404953,
+      "rewards/accuracy_reward": 0.9375,
+      "rewards/format_reward": 1.0,
+      "step": 703
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 721.6875,
+      "epoch": 0.9643835616438357,
+      "grad_norm": 2.060368776321411,
+      "kl": 0.31201171875,
+      "learning_rate": 6.78538812785388e-07,
+      "loss": 0.0003,
+      "reward": 1.53125,
+      "reward_std": 0.1422954723238945,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 704
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 616.1875,
+      "epoch": 0.9657534246575342,
+      "grad_norm": 1.8324370384216309,
+      "kl": 0.30078125,
+      "learning_rate": 6.78082191780822e-07,
+      "loss": 0.0003,
+      "reward": 1.34375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 705
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 412.0,
+      "epoch": 0.9671232876712329,
+      "grad_norm": 6.562459468841553,
+      "kl": 0.341796875,
+      "learning_rate": 6.776255707762557e-07,
+      "loss": 0.0003,
+      "reward": 1.5546875,
+      "reward_std": 0.4100441411137581,
+      "rewards/accuracy_reward": 0.5546875,
+      "rewards/format_reward": 1.0,
+      "step": 706
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 461.4375,
+      "epoch": 0.9684931506849315,
+      "grad_norm": 2.6876327991485596,
+      "kl": 0.36376953125,
+      "learning_rate": 6.771689497716894e-07,
+      "loss": 0.0004,
+      "reward": 1.453125,
+      "reward_std": 0.18807452730834484,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 707
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.4375,
+      "epoch": 0.9698630136986301,
+      "grad_norm": 1.8336397409439087,
+      "kl": 0.35595703125,
+      "learning_rate": 6.767123287671233e-07,
+      "loss": 0.0004,
+      "reward": 1.703125,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 1.0,
+      "step": 708
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 563.90625,
+      "epoch": 0.9712328767123287,
+      "grad_norm": 4.356468200683594,
+      "kl": 0.32275390625,
+      "learning_rate": 6.76255707762557e-07,
+      "loss": 0.0003,
+      "reward": 1.3828125,
+      "reward_std": 0.09069566056132317,
+      "rewards/accuracy_reward": 0.3828125,
+      "rewards/format_reward": 1.0,
+      "step": 709
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 452.8125,
+      "epoch": 0.9726027397260274,
+      "grad_norm": 1.405023217201233,
+      "kl": 0.328125,
+      "learning_rate": 6.757990867579907e-07,
+      "loss": 0.0003,
+      "reward": 1.484375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 710
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 324.1875,
+      "epoch": 0.9739726027397261,
+      "grad_norm": 3.4619688987731934,
+      "kl": 0.361328125,
+      "learning_rate": 6.753424657534246e-07,
+      "loss": 0.0004,
+      "reward": 1.8125,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.8125,
+      "rewards/format_reward": 1.0,
+      "step": 711
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.59375,
+      "epoch": 0.9753424657534246,
+      "grad_norm": 3.3762919902801514,
+      "kl": 0.33642578125,
+      "learning_rate": 6.748858447488584e-07,
+      "loss": 0.0003,
+      "reward": 1.59375,
+      "reward_std": 0.3072218894958496,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 712
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 757.53125,
+      "epoch": 0.9767123287671233,
+      "grad_norm": 1.4996120929718018,
+      "kl": 0.29296875,
+      "learning_rate": 6.744292237442923e-07,
+      "loss": 0.0003,
+      "reward": 1.518750011920929,
+      "reward_std": 0.2324894331395626,
+      "rewards/accuracy_reward": 0.5812499821186066,
+      "rewards/format_reward": 0.9375,
+      "step": 713
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 517.5,
+      "epoch": 0.9780821917808219,
+      "grad_norm": 1.4486969709396362,
+      "kl": 0.3935546875,
+      "learning_rate": 6.73972602739726e-07,
+      "loss": 0.0004,
+      "reward": 1.421875,
+      "reward_std": 0.11100948229432106,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 714
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 668.375,
+      "epoch": 0.9794520547945206,
+      "grad_norm": 2.0050597190856934,
+      "kl": 0.310546875,
+      "learning_rate": 6.735159817351597e-07,
+      "loss": 0.0003,
+      "reward": 1.625,
+      "reward_std": 0.11230766586959362,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 715
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 544.59375,
+      "epoch": 0.9808219178082191,
+      "grad_norm": 1.8048930168151855,
+      "kl": 0.31787109375,
+      "learning_rate": 6.730593607305936e-07,
+      "loss": 0.0003,
+      "reward": 1.59375,
+      "reward_std": 0.08065321296453476,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 716
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 533.78125,
+      "epoch": 0.9821917808219178,
+      "grad_norm": 0.010665824636816978,
+      "kl": 0.32568359375,
+      "learning_rate": 6.726027397260273e-07,
+      "loss": 0.0003,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 717
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 655.6875,
+      "epoch": 0.9835616438356164,
+      "grad_norm": 1.4615073204040527,
+      "kl": 0.3134765625,
+      "learning_rate": 6.721461187214613e-07,
+      "loss": 0.0003,
+      "reward": 1.5078125,
+      "reward_std": 0.12534979730844498,
+      "rewards/accuracy_reward": 0.5078125,
+      "rewards/format_reward": 1.0,
+      "step": 718
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 437.4375,
+      "epoch": 0.9849315068493151,
+      "grad_norm": 1.7689210176467896,
+      "kl": 0.341796875,
+      "learning_rate": 6.71689497716895e-07,
+      "loss": 0.0003,
+      "reward": 1.509374976158142,
+      "reward_std": 0.10276375338435173,
+      "rewards/accuracy_reward": 0.5093749761581421,
+      "rewards/format_reward": 1.0,
+      "step": 719
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 521.53125,
+      "epoch": 0.9863013698630136,
+      "grad_norm": 7.66063117980957,
+      "kl": 0.33544921875,
+      "learning_rate": 6.712328767123287e-07,
+      "loss": 0.0003,
+      "reward": 1.63671875,
+      "reward_std": 0.25478895008563995,
+      "rewards/accuracy_reward": 0.63671875,
+      "rewards/format_reward": 1.0,
+      "step": 720
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 672.34375,
+      "epoch": 0.9876712328767123,
+      "grad_norm": 3.410891532897949,
+      "kl": 0.3125,
+      "learning_rate": 6.707762557077626e-07,
+      "loss": 0.0003,
+      "reward": 2.002604156732559,
+      "reward_std": 0.156676534563303,
+      "rewards/accuracy_reward": 1.0026041567325592,
+      "rewards/format_reward": 1.0,
+      "step": 721
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 421.59375,
+      "epoch": 0.989041095890411,
+      "grad_norm": 2.7770752906799316,
+      "kl": 0.359375,
+      "learning_rate": 6.703196347031963e-07,
+      "loss": 0.0004,
+      "reward": 1.390625,
+      "reward_std": 0.2824692949652672,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 1.0,
+      "step": 722
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 403.40625,
+      "epoch": 0.9904109589041096,
+      "grad_norm": 4.406149387359619,
+      "kl": 0.3603515625,
+      "learning_rate": 6.6986301369863e-07,
+      "loss": 0.0004,
+      "reward": 1.7109375,
+      "reward_std": 0.3282610699534416,
+      "rewards/accuracy_reward": 0.7109375,
+      "rewards/format_reward": 1.0,
+      "step": 723
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 426.5625,
+      "epoch": 0.9917808219178083,
+      "grad_norm": 3.31536602973938,
+      "kl": 0.390625,
+      "learning_rate": 6.694063926940639e-07,
+      "loss": 0.0004,
+      "reward": 1.453125,
+      "reward_std": 0.24556982144713402,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 724
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 524.75,
+      "epoch": 0.9931506849315068,
+      "grad_norm": 4.0502424240112305,
+      "kl": 0.39697265625,
+      "learning_rate": 6.689497716894977e-07,
+      "loss": 0.0004,
+      "reward": 1.8671875,
+      "reward_std": 0.16954397037625313,
+      "rewards/accuracy_reward": 0.8671875,
+      "rewards/format_reward": 1.0,
+      "step": 725
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 615.25,
+      "epoch": 0.9945205479452055,
+      "grad_norm": 4.198473930358887,
+      "kl": 0.31005859375,
+      "learning_rate": 6.684931506849316e-07,
+      "loss": 0.0003,
+      "reward": 1.7578125,
+      "reward_std": 0.17160805128514767,
+      "rewards/accuracy_reward": 0.7578125,
+      "rewards/format_reward": 1.0,
+      "step": 726
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 530.1875,
+      "epoch": 0.9958904109589041,
+      "grad_norm": 2.3717732429504395,
+      "kl": 0.33544921875,
+      "learning_rate": 6.680365296803653e-07,
+      "loss": 0.0003,
+      "reward": 2.010416656732559,
+      "reward_std": 0.2956680431962013,
+      "rewards/accuracy_reward": 1.0104166567325592,
+      "rewards/format_reward": 1.0,
+      "step": 727
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 523.90625,
+      "epoch": 0.9972602739726028,
+      "grad_norm": 1.4983484745025635,
+      "kl": 0.3330078125,
+      "learning_rate": 6.67579908675799e-07,
+      "loss": 0.0003,
+      "reward": 1.671875,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 728
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 431.34375,
+      "epoch": 0.9986301369863013,
+      "grad_norm": 2.0858328342437744,
+      "kl": 0.42578125,
+      "learning_rate": 6.671232876712329e-07,
+      "loss": 0.0004,
+      "reward": 1.22265625,
+      "reward_std": 0.11446718871593475,
+      "rewards/accuracy_reward": 0.22265625,
+      "rewards/format_reward": 1.0,
+      "step": 729
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 510.15625,
+      "epoch": 1.0,
+      "grad_norm": 3.0337514877319336,
+      "kl": 0.3486328125,
+      "learning_rate": 6.666666666666666e-07,
+      "loss": 0.0003,
+      "reward": 1.5234375,
+      "reward_std": 0.1662898138165474,
+      "rewards/accuracy_reward": 0.5234375,
+      "rewards/format_reward": 1.0,
+      "step": 730
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 391.5625,
+      "epoch": 1.0013698630136987,
+      "grad_norm": 1.1392573118209839,
+      "kl": 0.33984375,
+      "learning_rate": 6.662100456621003e-07,
+      "loss": 0.0003,
+      "reward": 1.2265625,
+      "reward_std": 0.03234682232141495,
+      "rewards/accuracy_reward": 0.2265625,
+      "rewards/format_reward": 1.0,
+      "step": 731
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 482.75,
+      "epoch": 1.0027397260273974,
+      "grad_norm": 3.7406272888183594,
+      "kl": 0.3173828125,
+      "learning_rate": 6.657534246575343e-07,
+      "loss": 0.0003,
+      "reward": 1.0,
+      "reward_std": 0.2925042062997818,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/format_reward": 0.9375,
+      "step": 732
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 407.84375,
+      "epoch": 1.0041095890410958,
+      "grad_norm": 1.7799715995788574,
+      "kl": 0.34912109375,
+      "learning_rate": 6.65296803652968e-07,
+      "loss": 0.0003,
+      "reward": 1.484375,
+      "reward_std": 0.22097086161375046,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 733
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 498.59375,
+      "epoch": 1.0054794520547945,
+      "grad_norm": 6.9609904289245605,
+      "kl": 0.34375,
+      "learning_rate": 6.648401826484019e-07,
+      "loss": 0.0003,
+      "reward": 1.8333333134651184,
+      "reward_std": 0.17943118885159492,
+      "rewards/accuracy_reward": 0.8333333134651184,
+      "rewards/format_reward": 1.0,
+      "step": 734
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 586.25,
+      "epoch": 1.0068493150684932,
+      "grad_norm": 2.033268928527832,
+      "kl": 0.3408203125,
+      "learning_rate": 6.643835616438356e-07,
+      "loss": 0.0003,
+      "reward": 1.7291666269302368,
+      "reward_std": 0.1323188804090023,
+      "rewards/accuracy_reward": 0.7291666567325592,
+      "rewards/format_reward": 1.0,
+      "step": 735
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 522.78125,
+      "epoch": 1.0082191780821919,
+      "grad_norm": 1.8167824745178223,
+      "kl": 0.35107421875,
+      "learning_rate": 6.639269406392693e-07,
+      "loss": 0.0004,
+      "reward": 1.81640625,
+      "reward_std": 0.2947664186358452,
+      "rewards/accuracy_reward": 0.81640625,
+      "rewards/format_reward": 1.0,
+      "step": 736
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.4375,
+      "epoch": 1.0095890410958903,
+      "grad_norm": 8.44912338256836,
+      "kl": 0.37841796875,
+      "learning_rate": 6.634703196347032e-07,
+      "loss": 0.0004,
+      "reward": 1.4609375,
+      "reward_std": 0.3800046369433403,
+      "rewards/accuracy_reward": 0.4609375,
+      "rewards/format_reward": 1.0,
+      "step": 737
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 499.15625,
+      "epoch": 1.010958904109589,
+      "grad_norm": 2.3125061988830566,
+      "kl": 0.34716796875,
+      "learning_rate": 6.63013698630137e-07,
+      "loss": 0.0003,
+      "reward": 1.7330728769302368,
+      "reward_std": 0.23545794188976288,
+      "rewards/accuracy_reward": 0.7643229067325592,
+      "rewards/format_reward": 0.96875,
+      "step": 738
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 435.9375,
+      "epoch": 1.0123287671232877,
+      "grad_norm": 3.3824410438537598,
+      "kl": 0.34521484375,
+      "learning_rate": 6.625570776255707e-07,
+      "loss": 0.0003,
+      "reward": 1.453125,
+      "reward_std": 0.1173202246427536,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 739
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 402.25,
+      "epoch": 1.0136986301369864,
+      "grad_norm": 2.3408203125,
+      "kl": 0.35205078125,
+      "learning_rate": 6.621004566210046e-07,
+      "loss": 0.0004,
+      "reward": 1.4609375,
+      "reward_std": 0.19531989470124245,
+      "rewards/accuracy_reward": 0.4609375,
+      "rewards/format_reward": 1.0,
+      "step": 740
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 623.28125,
+      "epoch": 1.015068493150685,
+      "grad_norm": 2.0831456184387207,
+      "kl": 0.349609375,
+      "learning_rate": 6.616438356164383e-07,
+      "loss": 0.0003,
+      "reward": 1.7421875,
+      "reward_std": 0.09021057933568954,
+      "rewards/accuracy_reward": 0.7421875,
+      "rewards/format_reward": 1.0,
+      "step": 741
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.03125,
+      "epoch": 1.0164383561643835,
+      "grad_norm": 2.4400479793548584,
+      "kl": 0.333984375,
+      "learning_rate": 6.61187214611872e-07,
+      "loss": 0.0003,
+      "reward": 1.5234375,
+      "reward_std": 0.22642776370048523,
+      "rewards/accuracy_reward": 0.5234375,
+      "rewards/format_reward": 1.0,
+      "step": 742
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 515.15625,
+      "epoch": 1.0178082191780822,
+      "grad_norm": 1.4530420303344727,
+      "kl": 0.35107421875,
+      "learning_rate": 6.607305936073059e-07,
+      "loss": 0.0004,
+      "reward": 1.4765625,
+      "reward_std": 0.1708463504910469,
+      "rewards/accuracy_reward": 0.4765625,
+      "rewards/format_reward": 1.0,
+      "step": 743
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.125,
+      "epoch": 1.0191780821917809,
+      "grad_norm": 3.7937586307525635,
+      "kl": 0.419921875,
+      "learning_rate": 6.602739726027396e-07,
+      "loss": 0.0004,
+      "reward": 1.375,
+      "reward_std": 0.1629730723798275,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 744
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 467.0,
+      "epoch": 1.0205479452054795,
+      "grad_norm": 1.1267149448394775,
+      "kl": 0.40283203125,
+      "learning_rate": 6.598173515981736e-07,
+      "loss": 0.0004,
+      "reward": 0.96875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 0.96875,
+      "step": 745
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 455.9375,
+      "epoch": 1.021917808219178,
+      "grad_norm": 1.195306658744812,
+      "kl": 0.35009765625,
+      "learning_rate": 6.593607305936073e-07,
+      "loss": 0.0003,
+      "reward": 1.34375,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 746
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 565.15625,
+      "epoch": 1.0232876712328767,
+      "grad_norm": 1.5478026866912842,
+      "kl": 0.3720703125,
+      "learning_rate": 6.58904109589041e-07,
+      "loss": 0.0004,
+      "reward": 1.703125,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 1.0,
+      "step": 747
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 431.1875,
+      "epoch": 1.0246575342465754,
+      "grad_norm": 2.914033889770508,
+      "kl": 0.33740234375,
+      "learning_rate": 6.584474885844749e-07,
+      "loss": 0.0003,
+      "reward": 1.86328125,
+      "reward_std": 0.5137732066214085,
+      "rewards/accuracy_reward": 0.89453125,
+      "rewards/format_reward": 0.96875,
+      "step": 748
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 556.71875,
+      "epoch": 1.026027397260274,
+      "grad_norm": 1.969694972038269,
+      "kl": 0.3681640625,
+      "learning_rate": 6.579908675799086e-07,
+      "loss": 0.0004,
+      "reward": 1.6796875,
+      "reward_std": 0.11048541404306889,
+      "rewards/accuracy_reward": 0.6796875298023224,
+      "rewards/format_reward": 1.0,
+      "step": 749
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.75,
+      "epoch": 1.0273972602739727,
+      "grad_norm": 5.528670787811279,
+      "kl": 0.39990234375,
+      "learning_rate": 6.575342465753423e-07,
+      "loss": 0.0004,
+      "reward": 1.6015625,
+      "reward_std": 0.17859892547130585,
+      "rewards/accuracy_reward": 0.6015625,
+      "rewards/format_reward": 1.0,
+      "step": 750
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 428.46875,
+      "epoch": 1.0287671232876712,
+      "grad_norm": 4.909811973571777,
+      "kl": 0.39013671875,
+      "learning_rate": 6.570776255707762e-07,
+      "loss": 0.0004,
+      "reward": 1.640625,
+      "reward_std": 0.0776018276810646,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 751
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 455.4375,
+      "epoch": 1.0301369863013699,
+      "grad_norm": 5.930173397064209,
+      "kl": 0.35498046875,
+      "learning_rate": 6.5662100456621e-07,
+      "loss": 0.0004,
+      "reward": 1.7734375,
+      "reward_std": 0.2153516486287117,
+      "rewards/accuracy_reward": 0.7734375,
+      "rewards/format_reward": 1.0,
+      "step": 752
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 577.5,
+      "epoch": 1.0315068493150685,
+      "grad_norm": 2.4682910442352295,
+      "kl": 0.3642578125,
+      "learning_rate": 6.561643835616439e-07,
+      "loss": 0.0004,
+      "reward": 1.7369791865348816,
+      "reward_std": 0.2828553803265095,
+      "rewards/accuracy_reward": 0.7682291865348816,
+      "rewards/format_reward": 0.96875,
+      "step": 753
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 442.28125,
+      "epoch": 1.0328767123287672,
+      "grad_norm": 3.169569969177246,
+      "kl": 0.3759765625,
+      "learning_rate": 6.557077625570776e-07,
+      "loss": 0.0004,
+      "reward": 1.625,
+      "reward_std": 0.21937815099954605,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 754
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 558.6875,
+      "epoch": 1.0342465753424657,
+      "grad_norm": 3.002521514892578,
+      "kl": 0.35986328125,
+      "learning_rate": 6.552511415525113e-07,
+      "loss": 0.0004,
+      "reward": 1.671875,
+      "reward_std": 0.22208165377378464,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 755
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 546.5625,
+      "epoch": 1.0356164383561643,
+      "grad_norm": 2.0301320552825928,
+      "kl": 0.36865234375,
+      "learning_rate": 6.547945205479452e-07,
+      "loss": 0.0004,
+      "reward": 1.8772321939468384,
+      "reward_std": 0.2395726516842842,
+      "rewards/accuracy_reward": 0.908482164144516,
+      "rewards/format_reward": 0.96875,
+      "step": 756
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.46875,
+      "epoch": 1.036986301369863,
+      "grad_norm": 2.746330738067627,
+      "kl": 0.4189453125,
+      "learning_rate": 6.543378995433789e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.249358132481575,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 757
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 454.34375,
+      "epoch": 1.0383561643835617,
+      "grad_norm": 2.1871116161346436,
+      "kl": 0.40625,
+      "learning_rate": 6.538812785388129e-07,
+      "loss": 0.0004,
+      "reward": 1.6692708134651184,
+      "reward_std": 0.11145787499845028,
+      "rewards/accuracy_reward": 0.6692708134651184,
+      "rewards/format_reward": 1.0,
+      "step": 758
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 458.96875,
+      "epoch": 1.0397260273972604,
+      "grad_norm": 15.84890365600586,
+      "kl": 0.40673828125,
+      "learning_rate": 6.534246575342466e-07,
+      "loss": 0.0004,
+      "reward": 1.7109375,
+      "reward_std": 0.21829968504607677,
+      "rewards/accuracy_reward": 0.7109375,
+      "rewards/format_reward": 1.0,
+      "step": 759
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.09375,
+      "epoch": 1.0410958904109588,
+      "grad_norm": 2.4201431274414062,
+      "kl": 0.37158203125,
+      "learning_rate": 6.529680365296803e-07,
+      "loss": 0.0004,
+      "reward": 1.5390625,
+      "reward_std": 0.18201877176761627,
+      "rewards/accuracy_reward": 0.5390625,
+      "rewards/format_reward": 1.0,
+      "step": 760
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.375,
+      "epoch": 1.0424657534246575,
+      "grad_norm": 1.7726272344589233,
+      "kl": 0.4150390625,
+      "learning_rate": 6.525114155251142e-07,
+      "loss": 0.0004,
+      "reward": 1.1640625,
+      "reward_std": 0.03234682232141495,
+      "rewards/accuracy_reward": 0.1640625,
+      "rewards/format_reward": 1.0,
+      "step": 761
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 406.59375,
+      "epoch": 1.0438356164383562,
+      "grad_norm": 3.5865135192871094,
+      "kl": 0.35986328125,
+      "learning_rate": 6.520547945205479e-07,
+      "loss": 0.0004,
+      "reward": 1.703125,
+      "reward_std": 0.36083250865340233,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 1.0,
+      "step": 762
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 480.4375,
+      "epoch": 1.0452054794520549,
+      "grad_norm": 4.15688943862915,
+      "kl": 0.37939453125,
+      "learning_rate": 6.515981735159816e-07,
+      "loss": 0.0004,
+      "reward": 1.78125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.78125,
+      "rewards/format_reward": 1.0,
+      "step": 763
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 525.5625,
+      "epoch": 1.0465753424657533,
+      "grad_norm": 1.4329558610916138,
+      "kl": 0.361328125,
+      "learning_rate": 6.511415525114155e-07,
+      "loss": 0.0004,
+      "reward": 1.5026041865348816,
+      "reward_std": 0.19893107935786247,
+      "rewards/accuracy_reward": 0.5338541716337204,
+      "rewards/format_reward": 0.96875,
+      "step": 764
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 389.625,
+      "epoch": 1.047945205479452,
+      "grad_norm": 2.296790599822998,
+      "kl": 0.3896484375,
+      "learning_rate": 6.506849315068493e-07,
+      "loss": 0.0004,
+      "reward": 1.8984375,
+      "reward_std": 0.13098490238189697,
+      "rewards/accuracy_reward": 0.8984375,
+      "rewards/format_reward": 1.0,
+      "step": 765
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.0625,
+      "epoch": 1.0493150684931507,
+      "grad_norm": 4.319180011749268,
+      "kl": 0.47119140625,
+      "learning_rate": 6.502283105022832e-07,
+      "loss": 0.0005,
+      "reward": 1.44921875,
+      "reward_std": 0.29051198065280914,
+      "rewards/accuracy_reward": 0.44921875,
+      "rewards/format_reward": 1.0,
+      "step": 766
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 392.8125,
+      "epoch": 1.0506849315068494,
+      "grad_norm": 1.033851146697998,
+      "kl": 0.45166015625,
+      "learning_rate": 6.497716894977169e-07,
+      "loss": 0.0005,
+      "reward": 1.375,
+      "reward_std": 0.1602174937725067,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 0.96875,
+      "step": 767
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 514.625,
+      "epoch": 1.0520547945205478,
+      "grad_norm": 3.8175528049468994,
+      "kl": 0.408203125,
+      "learning_rate": 6.493150684931506e-07,
+      "loss": 0.0004,
+      "reward": 1.3125,
+      "reward_std": 0.1872510462999344,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 768
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 501.90625,
+      "epoch": 1.0534246575342465,
+      "grad_norm": 3.4146058559417725,
+      "kl": 0.37744140625,
+      "learning_rate": 6.488584474885845e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.3107999712228775,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 0.9375,
+      "step": 769
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 364.4375,
+      "epoch": 1.0547945205479452,
+      "grad_norm": 2.580096960067749,
+      "kl": 0.390625,
+      "learning_rate": 6.484018264840182e-07,
+      "loss": 0.0004,
+      "reward": 1.5703125,
+      "reward_std": 0.11353681609034538,
+      "rewards/accuracy_reward": 0.5703125,
+      "rewards/format_reward": 1.0,
+      "step": 770
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.6875,
+      "epoch": 1.0561643835616439,
+      "grad_norm": 3.621427297592163,
+      "kl": 0.4423828125,
+      "learning_rate": 6.479452054794519e-07,
+      "loss": 0.0004,
+      "reward": 1.09375,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.09375,
+      "rewards/format_reward": 1.0,
+      "step": 771
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 444.125,
+      "epoch": 1.0575342465753426,
+      "grad_norm": 6.84398889541626,
+      "kl": 0.5302734375,
+      "learning_rate": 6.474885844748859e-07,
+      "loss": 0.0005,
+      "reward": 1.328125,
+      "reward_std": 0.30537302792072296,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 0.96875,
+      "step": 772
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 696.125,
+      "epoch": 1.058904109589041,
+      "grad_norm": 2.4137730598449707,
+      "kl": 0.3642578125,
+      "learning_rate": 6.470319634703196e-07,
+      "loss": 0.0004,
+      "reward": 1.65625,
+      "reward_std": 0.5298669151961803,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 0.90625,
+      "step": 773
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 552.1875,
+      "epoch": 1.0602739726027397,
+      "grad_norm": 2.266726493835449,
+      "kl": 0.36181640625,
+      "learning_rate": 6.465753424657535e-07,
+      "loss": 0.0004,
+      "reward": 1.390625,
+      "reward_std": 0.2643740847706795,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 0.9375,
+      "step": 774
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 521.53125,
+      "epoch": 1.0616438356164384,
+      "grad_norm": 2.0069427490234375,
+      "kl": 0.39306640625,
+      "learning_rate": 6.461187214611872e-07,
+      "loss": 0.0004,
+      "reward": 1.6328125,
+      "reward_std": 0.20269311219453812,
+      "rewards/accuracy_reward": 0.6640625,
+      "rewards/format_reward": 0.96875,
+      "step": 775
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 539.0625,
+      "epoch": 1.063013698630137,
+      "grad_norm": 2.6422464847564697,
+      "kl": 0.35205078125,
+      "learning_rate": 6.456621004566209e-07,
+      "loss": 0.0004,
+      "reward": 1.3671875,
+      "reward_std": 0.08891239576041698,
+      "rewards/accuracy_reward": 0.3671875,
+      "rewards/format_reward": 1.0,
+      "step": 776
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 396.0,
+      "epoch": 1.0643835616438355,
+      "grad_norm": 2.95044207572937,
+      "kl": 0.4296875,
+      "learning_rate": 6.452054794520548e-07,
+      "loss": 0.0004,
+      "reward": 1.21875,
+      "reward_std": 0.2651650384068489,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 0.96875,
+      "step": 777
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 618.21875,
+      "epoch": 1.0657534246575342,
+      "grad_norm": 3.2683823108673096,
+      "kl": 0.33740234375,
+      "learning_rate": 6.447488584474886e-07,
+      "loss": 0.0003,
+      "reward": 1.296875,
+      "reward_std": 0.7756812795996666,
+      "rewards/accuracy_reward": 0.578125,
+      "rewards/format_reward": 0.71875,
+      "step": 778
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 453.40625,
+      "epoch": 1.0671232876712329,
+      "grad_norm": 3.376239061355591,
+      "kl": 0.38623046875,
+      "learning_rate": 6.442922374429223e-07,
+      "loss": 0.0004,
+      "reward": 1.4140625,
+      "reward_std": 0.5326974391937256,
+      "rewards/accuracy_reward": 0.4765625,
+      "rewards/format_reward": 0.9375,
+      "step": 779
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 429.84375,
+      "epoch": 1.0684931506849316,
+      "grad_norm": 0.967551052570343,
+      "kl": 0.42138671875,
+      "learning_rate": 6.438356164383562e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.1735912710428238,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 0.96875,
+      "step": 780
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 412.125,
+      "epoch": 1.0698630136986302,
+      "grad_norm": 7.696181297302246,
+      "kl": 0.38427734375,
+      "learning_rate": 6.433789954337899e-07,
+      "loss": 0.0004,
+      "reward": 1.265625,
+      "reward_std": 0.1446593925356865,
+      "rewards/accuracy_reward": 0.265625,
+      "rewards/format_reward": 1.0,
+      "step": 781
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 382.5625,
+      "epoch": 1.0712328767123287,
+      "grad_norm": 3.0563812255859375,
+      "kl": 0.4501953125,
+      "learning_rate": 6.429223744292238e-07,
+      "loss": 0.0005,
+      "reward": 1.640625,
+      "reward_std": 0.17358146235346794,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 782
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 391.96875,
+      "epoch": 1.0726027397260274,
+      "grad_norm": 0.024443048983812332,
+      "kl": 0.388671875,
+      "learning_rate": 6.424657534246575e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 783
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 412.40625,
+      "epoch": 1.073972602739726,
+      "grad_norm": 1.1630728244781494,
+      "kl": 0.365234375,
+      "learning_rate": 6.420091324200912e-07,
+      "loss": 0.0004,
+      "reward": 1.484375,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 784
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 538.1875,
+      "epoch": 1.0753424657534247,
+      "grad_norm": 3.8575427532196045,
+      "kl": 0.38916015625,
+      "learning_rate": 6.415525114155252e-07,
+      "loss": 0.0004,
+      "reward": 1.375,
+      "reward_std": 0.4482543617486954,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 0.9375,
+      "step": 785
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 401.6875,
+      "epoch": 1.0767123287671232,
+      "grad_norm": 3.8265440464019775,
+      "kl": 0.37060546875,
+      "learning_rate": 6.410958904109589e-07,
+      "loss": 0.0004,
+      "reward": 1.3984375,
+      "reward_std": 0.2753252908587456,
+      "rewards/accuracy_reward": 0.3984375,
+      "rewards/format_reward": 1.0,
+      "step": 786
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 389.5625,
+      "epoch": 1.0780821917808219,
+      "grad_norm": 10.559552192687988,
+      "kl": 0.38232421875,
+      "learning_rate": 6.406392694063926e-07,
+      "loss": 0.0004,
+      "reward": 1.4765625,
+      "reward_std": 0.1541428230702877,
+      "rewards/accuracy_reward": 0.4765625,
+      "rewards/format_reward": 1.0,
+      "step": 787
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 516.8125,
+      "epoch": 1.0794520547945206,
+      "grad_norm": 2.3642754554748535,
+      "kl": 0.35791015625,
+      "learning_rate": 6.401826484018265e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.10888781771063805,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 788
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 597.8125,
+      "epoch": 1.0808219178082192,
+      "grad_norm": 2.5423686504364014,
+      "kl": 0.3876953125,
+      "learning_rate": 6.397260273972602e-07,
+      "loss": 0.0004,
+      "reward": 1.8723958432674408,
+      "reward_std": 0.20485981926321983,
+      "rewards/accuracy_reward": 0.8723958283662796,
+      "rewards/format_reward": 1.0,
+      "step": 789
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 626.28125,
+      "epoch": 1.0821917808219177,
+      "grad_norm": 0.012947800569236279,
+      "kl": 0.38232421875,
+      "learning_rate": 6.39269406392694e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 790
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 514.875,
+      "epoch": 1.0835616438356164,
+      "grad_norm": 2.922663688659668,
+      "kl": 0.38818359375,
+      "learning_rate": 6.388127853881278e-07,
+      "loss": 0.0004,
+      "reward": 2.0546875,
+      "reward_std": 0.2646155208349228,
+      "rewards/accuracy_reward": 1.0546875,
+      "rewards/format_reward": 1.0,
+      "step": 791
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 636.09375,
+      "epoch": 1.084931506849315,
+      "grad_norm": 1.6584970951080322,
+      "kl": 0.4111328125,
+      "learning_rate": 6.383561643835616e-07,
+      "loss": 0.0004,
+      "reward": 1.84375,
+      "reward_std": 0.19999710842967033,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 0.96875,
+      "step": 792
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.8125,
+      "epoch": 1.0863013698630137,
+      "grad_norm": 1.3865472078323364,
+      "kl": 0.39599609375,
+      "learning_rate": 6.378995433789955e-07,
+      "loss": 0.0004,
+      "reward": 1.2135416567325592,
+      "reward_std": 0.026702916249632835,
+      "rewards/accuracy_reward": 0.2135416567325592,
+      "rewards/format_reward": 1.0,
+      "step": 793
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 559.65625,
+      "epoch": 1.0876712328767124,
+      "grad_norm": 9.972989082336426,
+      "kl": 0.33984375,
+      "learning_rate": 6.374429223744292e-07,
+      "loss": 0.0003,
+      "reward": 1.453125,
+      "reward_std": 0.3874029070138931,
+      "rewards/accuracy_reward": 0.546875,
+      "rewards/format_reward": 0.90625,
+      "step": 794
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 418.5,
+      "epoch": 1.0890410958904109,
+      "grad_norm": 3.65055513381958,
+      "kl": 0.39306640625,
+      "learning_rate": 6.369863013698629e-07,
+      "loss": 0.0004,
+      "reward": 1.734375,
+      "reward_std": 0.33669837564229965,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 0.96875,
+      "step": 795
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 385.75,
+      "epoch": 1.0904109589041096,
+      "grad_norm": 7.232997417449951,
+      "kl": 0.38671875,
+      "learning_rate": 6.365296803652968e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.23827510699629784,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 796
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.34375,
+      "epoch": 1.0917808219178082,
+      "grad_norm": 4.632352828979492,
+      "kl": 0.39208984375,
+      "learning_rate": 6.360730593607305e-07,
+      "loss": 0.0004,
+      "reward": 1.578125,
+      "reward_std": 0.24831003323197365,
+      "rewards/accuracy_reward": 0.578125,
+      "rewards/format_reward": 1.0,
+      "step": 797
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 502.90625,
+      "epoch": 1.093150684931507,
+      "grad_norm": 2.5987162590026855,
+      "kl": 0.3681640625,
+      "learning_rate": 6.356164383561645e-07,
+      "loss": 0.0004,
+      "reward": 1.640625,
+      "reward_std": 0.3057369217276573,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 798
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 623.25,
+      "epoch": 1.0945205479452054,
+      "grad_norm": 2.42681884765625,
+      "kl": 0.380859375,
+      "learning_rate": 6.351598173515982e-07,
+      "loss": 0.0004,
+      "reward": 1.953125,
+      "reward_std": 0.2366182692348957,
+      "rewards/accuracy_reward": 0.953125,
+      "rewards/format_reward": 1.0,
+      "step": 799
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 608.6875,
+      "epoch": 1.095890410958904,
+      "grad_norm": 2.0286333560943604,
+      "kl": 0.3779296875,
+      "learning_rate": 6.347031963470319e-07,
+      "loss": 0.0004,
+      "reward": 1.6484375,
+      "reward_std": 0.13488983362913132,
+      "rewards/accuracy_reward": 0.6484375,
+      "rewards/format_reward": 1.0,
+      "step": 800
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 397.625,
+      "epoch": 1.0972602739726027,
+      "grad_norm": 3.4189932346343994,
+      "kl": 0.36962890625,
+      "learning_rate": 6.342465753424658e-07,
+      "loss": 0.0004,
+      "reward": 1.21875,
+      "reward_std": 0.1552036553621292,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 801
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 670.96875,
+      "epoch": 1.0986301369863014,
+      "grad_norm": 2.2040603160858154,
+      "kl": 0.39013671875,
+      "learning_rate": 6.337899543378995e-07,
+      "loss": 0.0004,
+      "reward": 1.7276785373687744,
+      "reward_std": 0.21270384266972542,
+      "rewards/accuracy_reward": 0.7589285373687744,
+      "rewards/format_reward": 0.96875,
+      "step": 802
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.96875,
+      "epoch": 1.1,
+      "grad_norm": 2.4739291667938232,
+      "kl": 0.35107421875,
+      "learning_rate": 6.333333333333332e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.1462521031498909,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 803
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 524.8125,
+      "epoch": 1.1013698630136985,
+      "grad_norm": 3.376389980316162,
+      "kl": 0.39453125,
+      "learning_rate": 6.328767123287671e-07,
+      "loss": 0.0004,
+      "reward": 2.2265625,
+      "reward_std": 0.40516645461320877,
+      "rewards/accuracy_reward": 1.2265625,
+      "rewards/format_reward": 1.0,
+      "step": 804
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.3125,
+      "epoch": 1.1027397260273972,
+      "grad_norm": 3.8003089427948,
+      "kl": 0.36767578125,
+      "learning_rate": 6.324200913242009e-07,
+      "loss": 0.0004,
+      "reward": 1.6328125,
+      "reward_std": 0.23646268248558044,
+      "rewards/accuracy_reward": 0.6328125,
+      "rewards/format_reward": 1.0,
+      "step": 805
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 488.375,
+      "epoch": 1.104109589041096,
+      "grad_norm": 0.9171125888824463,
+      "kl": 0.39794921875,
+      "learning_rate": 6.319634703196348e-07,
+      "loss": 0.0004,
+      "reward": 1.234375,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 806
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 602.375,
+      "epoch": 1.1054794520547946,
+      "grad_norm": 2.2937474250793457,
+      "kl": 0.46240234375,
+      "learning_rate": 6.315068493150685e-07,
+      "loss": 0.0005,
+      "reward": 1.953125,
+      "reward_std": 0.22367356345057487,
+      "rewards/accuracy_reward": 0.953125,
+      "rewards/format_reward": 1.0,
+      "step": 807
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 499.25,
+      "epoch": 1.106849315068493,
+      "grad_norm": 1.2261008024215698,
+      "kl": 0.39794921875,
+      "learning_rate": 6.310502283105022e-07,
+      "loss": 0.0004,
+      "reward": 1.6875,
+      "reward_std": 0.06681530922651291,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 808
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 574.65625,
+      "epoch": 1.1082191780821917,
+      "grad_norm": 10.46350383758545,
+      "kl": 0.41455078125,
+      "learning_rate": 6.305936073059361e-07,
+      "loss": 0.0004,
+      "reward": 1.5546875,
+      "reward_std": 0.19728106819093227,
+      "rewards/accuracy_reward": 0.5859375,
+      "rewards/format_reward": 0.96875,
+      "step": 809
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 393.0625,
+      "epoch": 1.1095890410958904,
+      "grad_norm": 0.021392615512013435,
+      "kl": 0.39013671875,
+      "learning_rate": 6.301369863013698e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 810
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.0,
+      "epoch": 1.110958904109589,
+      "grad_norm": 7.004191875457764,
+      "kl": 0.33984375,
+      "learning_rate": 6.296803652968035e-07,
+      "loss": 0.0003,
+      "reward": 1.03125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.03125,
+      "rewards/format_reward": 1.0,
+      "step": 811
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 397.21875,
+      "epoch": 1.1123287671232878,
+      "grad_norm": 1.1587871313095093,
+      "kl": 0.38330078125,
+      "learning_rate": 6.292237442922375e-07,
+      "loss": 0.0004,
+      "reward": 1.21875,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 812
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 497.53125,
+      "epoch": 1.1136986301369862,
+      "grad_norm": 1.5848588943481445,
+      "kl": 0.42041015625,
+      "learning_rate": 6.287671232876712e-07,
+      "loss": 0.0004,
+      "reward": 1.9352678656578064,
+      "reward_std": 0.08208167925477028,
+      "rewards/accuracy_reward": 0.9352678507566452,
+      "rewards/format_reward": 1.0,
+      "step": 813
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 485.90625,
+      "epoch": 1.115068493150685,
+      "grad_norm": 2.042673349380493,
+      "kl": 0.3955078125,
+      "learning_rate": 6.283105022831051e-07,
+      "loss": 0.0004,
+      "reward": 1.6822916865348816,
+      "reward_std": 0.031000984832644463,
+      "rewards/accuracy_reward": 0.6822916716337204,
+      "rewards/format_reward": 1.0,
+      "step": 814
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 400.625,
+      "epoch": 1.1164383561643836,
+      "grad_norm": 3.0837056636810303,
+      "kl": 0.3740234375,
+      "learning_rate": 6.278538812785388e-07,
+      "loss": 0.0004,
+      "reward": 1.296875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.296875,
+      "rewards/format_reward": 1.0,
+      "step": 815
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 577.84375,
+      "epoch": 1.1178082191780823,
+      "grad_norm": 2.6489899158477783,
+      "kl": 0.4033203125,
+      "learning_rate": 6.273972602739725e-07,
+      "loss": 0.0004,
+      "reward": 1.66015625,
+      "reward_std": 0.12530867382884026,
+      "rewards/accuracy_reward": 0.66015625,
+      "rewards/format_reward": 1.0,
+      "step": 816
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 481.25,
+      "epoch": 1.1191780821917807,
+      "grad_norm": 2.778820514678955,
+      "kl": 0.412109375,
+      "learning_rate": 6.269406392694064e-07,
+      "loss": 0.0004,
+      "reward": 1.6093749403953552,
+      "reward_std": 0.2615504954010248,
+      "rewards/accuracy_reward": 0.6406249850988388,
+      "rewards/format_reward": 0.96875,
+      "step": 817
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 487.5,
+      "epoch": 1.1205479452054794,
+      "grad_norm": 2.434713363647461,
+      "kl": 0.39013671875,
+      "learning_rate": 6.264840182648402e-07,
+      "loss": 0.0004,
+      "reward": 1.421875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 818
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.0625,
+      "epoch": 1.121917808219178,
+      "grad_norm": 5.153371334075928,
+      "kl": 0.4091796875,
+      "learning_rate": 6.260273972602739e-07,
+      "loss": 0.0004,
+      "reward": 1.796875,
+      "reward_std": 0.2057085707783699,
+      "rewards/accuracy_reward": 0.796875,
+      "rewards/format_reward": 1.0,
+      "step": 819
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 396.0625,
+      "epoch": 1.1232876712328768,
+      "grad_norm": 1.432228922843933,
+      "kl": 0.37451171875,
+      "learning_rate": 6.255707762557078e-07,
+      "loss": 0.0004,
+      "reward": 1.2421875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.2734375,
+      "rewards/format_reward": 0.96875,
+      "step": 820
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 596.5625,
+      "epoch": 1.1246575342465754,
+      "grad_norm": 0.9751577377319336,
+      "kl": 0.396484375,
+      "learning_rate": 6.251141552511415e-07,
+      "loss": 0.0004,
+      "reward": 1.484375,
+      "reward_std": 0.1966201364994049,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 0.96875,
+      "step": 821
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 565.125,
+      "epoch": 1.126027397260274,
+      "grad_norm": 1.529309868812561,
+      "kl": 0.3896484375,
+      "learning_rate": 6.246575342465754e-07,
+      "loss": 0.0004,
+      "reward": 1.4140625,
+      "reward_std": 0.0810895636677742,
+      "rewards/accuracy_reward": 0.4140625,
+      "rewards/format_reward": 1.0,
+      "step": 822
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 498.65625,
+      "epoch": 1.1273972602739726,
+      "grad_norm": 2.0530521869659424,
+      "kl": 0.404296875,
+      "learning_rate": 6.242009132420091e-07,
+      "loss": 0.0004,
+      "reward": 1.796875,
+      "reward_std": 0.24911179021000862,
+      "rewards/accuracy_reward": 0.828125,
+      "rewards/format_reward": 0.96875,
+      "step": 823
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 617.65625,
+      "epoch": 1.1287671232876713,
+      "grad_norm": 1.90122389793396,
+      "kl": 0.376953125,
+      "learning_rate": 6.237442922374428e-07,
+      "loss": 0.0004,
+      "reward": 1.5924479365348816,
+      "reward_std": 0.15607357770204544,
+      "rewards/accuracy_reward": 0.5924479216337204,
+      "rewards/format_reward": 1.0,
+      "step": 824
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 559.5,
+      "epoch": 1.13013698630137,
+      "grad_norm": 2.433654546737671,
+      "kl": 0.3994140625,
+      "learning_rate": 6.232876712328768e-07,
+      "loss": 0.0004,
+      "reward": 1.9285714030265808,
+      "reward_std": 0.07229206152260303,
+      "rewards/accuracy_reward": 0.9285714030265808,
+      "rewards/format_reward": 1.0,
+      "step": 825
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 371.78125,
+      "epoch": 1.1315068493150684,
+      "grad_norm": 1.0846009254455566,
+      "kl": 0.40673828125,
+      "learning_rate": 6.228310502283105e-07,
+      "loss": 0.0004,
+      "reward": 1.390625,
+      "reward_std": 0.08010874688625336,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 1.0,
+      "step": 826
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.375,
+      "epoch": 1.132876712328767,
+      "grad_norm": 3.237276554107666,
+      "kl": 0.42041015625,
+      "learning_rate": 6.223744292237442e-07,
+      "loss": 0.0004,
+      "reward": 1.609375,
+      "reward_std": 0.24567490443587303,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 0.96875,
+      "step": 827
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.875,
+      "epoch": 1.1342465753424658,
+      "grad_norm": 1.206854224205017,
+      "kl": 0.37841796875,
+      "learning_rate": 6.219178082191781e-07,
+      "loss": 0.0004,
+      "reward": 1.1640625,
+      "reward_std": 0.046501487493515015,
+      "rewards/accuracy_reward": 0.1640625,
+      "rewards/format_reward": 1.0,
+      "step": 828
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 397.8125,
+      "epoch": 1.1356164383561644,
+      "grad_norm": 0.02847045287489891,
+      "kl": 0.41259765625,
+      "learning_rate": 6.214611872146118e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 829
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 459.15625,
+      "epoch": 1.1369863013698631,
+      "grad_norm": 9.929925918579102,
+      "kl": 0.390625,
+      "learning_rate": 6.210045662100457e-07,
+      "loss": 0.0004,
+      "reward": 1.8880208730697632,
+      "reward_std": 0.16971025243401527,
+      "rewards/accuracy_reward": 0.8880208432674408,
+      "rewards/format_reward": 1.0,
+      "step": 830
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 378.3125,
+      "epoch": 1.1383561643835616,
+      "grad_norm": 1.0134655237197876,
+      "kl": 0.404296875,
+      "learning_rate": 6.205479452054794e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.06681530922651291,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 831
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 472.71875,
+      "epoch": 1.1397260273972603,
+      "grad_norm": 1.1163495779037476,
+      "kl": 0.39990234375,
+      "learning_rate": 6.200913242009132e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.09449111670255661,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 832
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.1875,
+      "epoch": 1.141095890410959,
+      "grad_norm": 2.4487106800079346,
+      "kl": 0.40185546875,
+      "learning_rate": 6.196347031963471e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.96875,
+      "step": 833
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 516.15625,
+      "epoch": 1.1424657534246576,
+      "grad_norm": 8.19469165802002,
+      "kl": 0.376953125,
+      "learning_rate": 6.191780821917808e-07,
+      "loss": 0.0004,
+      "reward": 1.8093750476837158,
+      "reward_std": 0.04783010669052601,
+      "rewards/accuracy_reward": 0.809374988079071,
+      "rewards/format_reward": 1.0,
+      "step": 834
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 454.21875,
+      "epoch": 1.143835616438356,
+      "grad_norm": 0.01866794563829899,
+      "kl": 0.4033203125,
+      "learning_rate": 6.187214611872145e-07,
+      "loss": 0.0004,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 835
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 570.21875,
+      "epoch": 1.1452054794520548,
+      "grad_norm": 0.9545954465866089,
+      "kl": 0.41162109375,
+      "learning_rate": 6.182648401826484e-07,
+      "loss": 0.0004,
+      "reward": 2.1468749940395355,
+      "reward_std": 0.048065248876810074,
+      "rewards/accuracy_reward": 1.1468749940395355,
+      "rewards/format_reward": 1.0,
+      "step": 836
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 488.8125,
+      "epoch": 1.1465753424657534,
+      "grad_norm": 2.1958019733428955,
+      "kl": 0.40283203125,
+      "learning_rate": 6.178082191780821e-07,
+      "loss": 0.0004,
+      "reward": 1.8671875,
+      "reward_std": 0.20912351086735725,
+      "rewards/accuracy_reward": 0.8671875,
+      "rewards/format_reward": 1.0,
+      "step": 837
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 416.125,
+      "epoch": 1.1479452054794521,
+      "grad_norm": 1.0978032350540161,
+      "kl": 0.3486328125,
+      "learning_rate": 6.173515981735161e-07,
+      "loss": 0.0003,
+      "reward": 1.44921875,
+      "reward_std": 0.0817250907421112,
+      "rewards/accuracy_reward": 0.44921875,
+      "rewards/format_reward": 1.0,
+      "step": 838
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 484.03125,
+      "epoch": 1.1493150684931508,
+      "grad_norm": 0.019236719235777855,
+      "kl": 0.4033203125,
+      "learning_rate": 6.168949771689498e-07,
+      "loss": 0.0004,
+      "reward": 1.625,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 839
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 448.65625,
+      "epoch": 1.1506849315068493,
+      "grad_norm": 0.01787232607603073,
+      "kl": 0.431640625,
+      "learning_rate": 6.164383561643835e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 840
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 390.53125,
+      "epoch": 1.152054794520548,
+      "grad_norm": 5.282984733581543,
+      "kl": 0.40185546875,
+      "learning_rate": 6.159817351598174e-07,
+      "loss": 0.0004,
+      "reward": 1.734375,
+      "reward_std": 0.22097086533904076,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 841
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 537.6875,
+      "epoch": 1.1534246575342466,
+      "grad_norm": 0.8666876554489136,
+      "kl": 0.39599609375,
+      "learning_rate": 6.155251141552511e-07,
+      "loss": 0.0004,
+      "reward": 1.65625,
+      "reward_std": 0.11410887539386749,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 842
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.90625,
+      "epoch": 1.1547945205479453,
+      "grad_norm": 2.4815289974212646,
+      "kl": 0.43505859375,
+      "learning_rate": 6.150684931506848e-07,
+      "loss": 0.0004,
+      "reward": 1.3984375,
+      "reward_std": 0.2441160511225462,
+      "rewards/accuracy_reward": 0.3984375,
+      "rewards/format_reward": 1.0,
+      "step": 843
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.84375,
+      "epoch": 1.1561643835616437,
+      "grad_norm": 8.32512378692627,
+      "kl": 0.37744140625,
+      "learning_rate": 6.146118721461187e-07,
+      "loss": 0.0004,
+      "reward": 1.6875,
+      "reward_std": 0.1356339044868946,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 844
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 637.96875,
+      "epoch": 1.1575342465753424,
+      "grad_norm": 5.9347052574157715,
+      "kl": 0.40380859375,
+      "learning_rate": 6.141552511415525e-07,
+      "loss": 0.0004,
+      "reward": 1.9375,
+      "reward_std": 0.19219962693750858,
+      "rewards/accuracy_reward": 0.9375,
+      "rewards/format_reward": 1.0,
+      "step": 845
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 155.78125,
+      "epoch": 1.158904109589041,
+      "grad_norm": 2.557178020477295,
+      "kl": 0.35595703125,
+      "learning_rate": 6.136986301369864e-07,
+      "loss": 0.0004,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 846
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 364.09375,
+      "epoch": 1.1602739726027398,
+      "grad_norm": 0.9839144945144653,
+      "kl": 0.369140625,
+      "learning_rate": 6.132420091324201e-07,
+      "loss": 0.0004,
+      "reward": 1.21875,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 847
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 416.1875,
+      "epoch": 1.1616438356164385,
+      "grad_norm": 0.01052401214838028,
+      "kl": 0.3525390625,
+      "learning_rate": 6.127853881278538e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 848
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 586.25,
+      "epoch": 1.163013698630137,
+      "grad_norm": 2.7697222232818604,
+      "kl": 0.35546875,
+      "learning_rate": 6.123287671232877e-07,
+      "loss": 0.0004,
+      "reward": 1.774999976158142,
+      "reward_std": 0.13462574779987335,
+      "rewards/accuracy_reward": 0.7749999463558197,
+      "rewards/format_reward": 1.0,
+      "step": 849
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 524.90625,
+      "epoch": 1.1643835616438356,
+      "grad_norm": 3.054478406906128,
+      "kl": 0.35205078125,
+      "learning_rate": 6.118721461187214e-07,
+      "loss": 0.0004,
+      "reward": 1.5390625,
+      "reward_std": 0.2896413579583168,
+      "rewards/accuracy_reward": 0.5390625,
+      "rewards/format_reward": 1.0,
+      "step": 850
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 540.125,
+      "epoch": 1.1657534246575343,
+      "grad_norm": 1.4414507150650024,
+      "kl": 0.3310546875,
+      "learning_rate": 6.114155251141551e-07,
+      "loss": 0.0003,
+      "reward": 1.4375,
+      "reward_std": 0.07312605157494545,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 851
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 641.875,
+      "epoch": 1.167123287671233,
+      "grad_norm": 0.9515066146850586,
+      "kl": 0.35302734375,
+      "learning_rate": 6.109589041095891e-07,
+      "loss": 0.0004,
+      "reward": 1.421875,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 852
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 430.6875,
+      "epoch": 1.1684931506849314,
+      "grad_norm": 2.1378560066223145,
+      "kl": 0.36083984375,
+      "learning_rate": 6.105022831050228e-07,
+      "loss": 0.0004,
+      "reward": 2.0,
+      "reward_std": 0.12179600074887276,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 853
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 543.9375,
+      "epoch": 1.16986301369863,
+      "grad_norm": 1.0797525644302368,
+      "kl": 0.3515625,
+      "learning_rate": 6.100456621004567e-07,
+      "loss": 0.0004,
+      "reward": 1.421875,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 854
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.71875,
+      "epoch": 1.1712328767123288,
+      "grad_norm": 2.498821258544922,
+      "kl": 0.341796875,
+      "learning_rate": 6.095890410958904e-07,
+      "loss": 0.0003,
+      "reward": 1.375,
+      "reward_std": 0.13363061845302582,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 855
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 443.53125,
+      "epoch": 1.1726027397260275,
+      "grad_norm": 1.0982065200805664,
+      "kl": 0.36279296875,
+      "learning_rate": 6.091324200913241e-07,
+      "loss": 0.0004,
+      "reward": 1.21875,
+      "reward_std": 0.033407654613256454,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 856
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 404.75,
+      "epoch": 1.1739726027397261,
+      "grad_norm": 6.744996547698975,
+      "kl": 0.3828125,
+      "learning_rate": 6.08675799086758e-07,
+      "loss": 0.0004,
+      "reward": 1.8333333730697632,
+      "reward_std": 0.13888481445610523,
+      "rewards/accuracy_reward": 0.8333333432674408,
+      "rewards/format_reward": 1.0,
+      "step": 857
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 579.25,
+      "epoch": 1.1753424657534246,
+      "grad_norm": 3.830198049545288,
+      "kl": 0.36181640625,
+      "learning_rate": 6.082191780821918e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.3230287954211235,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 0.96875,
+      "step": 858
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 463.59375,
+      "epoch": 1.1767123287671233,
+      "grad_norm": 2.6295642852783203,
+      "kl": 0.35009765625,
+      "learning_rate": 6.077625570776255e-07,
+      "loss": 0.0003,
+      "reward": 1.1875,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/format_reward": 1.0,
+      "step": 859
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 428.25,
+      "epoch": 1.178082191780822,
+      "grad_norm": 3.0436506271362305,
+      "kl": 0.35498046875,
+      "learning_rate": 6.073059360730594e-07,
+      "loss": 0.0004,
+      "reward": 1.921875,
+      "reward_std": 0.1446593925356865,
+      "rewards/accuracy_reward": 0.921875,
+      "rewards/format_reward": 1.0,
+      "step": 860
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 590.28125,
+      "epoch": 1.1794520547945206,
+      "grad_norm": 3.9150311946868896,
+      "kl": 0.39208984375,
+      "learning_rate": 6.068493150684931e-07,
+      "loss": 0.0004,
+      "reward": 1.484375,
+      "reward_std": 0.1366081517189741,
+      "rewards/accuracy_reward": 0.4843749701976776,
+      "rewards/format_reward": 1.0,
+      "step": 861
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 577.53125,
+      "epoch": 1.180821917808219,
+      "grad_norm": 1.7237287759780884,
+      "kl": 0.33984375,
+      "learning_rate": 6.06392694063927e-07,
+      "loss": 0.0003,
+      "reward": 1.609375,
+      "reward_std": 0.39774755015969276,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 0.9375,
+      "step": 862
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 558.21875,
+      "epoch": 1.1821917808219178,
+      "grad_norm": 4.21384334564209,
+      "kl": 0.33203125,
+      "learning_rate": 6.059360730593607e-07,
+      "loss": 0.0003,
+      "reward": 1.7738094925880432,
+      "reward_std": 0.27128167636692524,
+      "rewards/accuracy_reward": 0.8050595223903656,
+      "rewards/format_reward": 0.96875,
+      "step": 863
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 703.3125,
+      "epoch": 1.1835616438356165,
+      "grad_norm": 1.8811252117156982,
+      "kl": 0.36279296875,
+      "learning_rate": 6.054794520547944e-07,
+      "loss": 0.0004,
+      "reward": 1.9895833134651184,
+      "reward_std": 0.1106601133942604,
+      "rewards/accuracy_reward": 0.9895833283662796,
+      "rewards/format_reward": 1.0,
+      "step": 864
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 552.3125,
+      "epoch": 1.1849315068493151,
+      "grad_norm": 1.4166743755340576,
+      "kl": 0.357421875,
+      "learning_rate": 6.050228310502284e-07,
+      "loss": 0.0004,
+      "reward": 1.8359375,
+      "reward_std": 0.061278700828552246,
+      "rewards/accuracy_reward": 0.8359375,
+      "rewards/format_reward": 1.0,
+      "step": 865
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.34375,
+      "epoch": 1.1863013698630138,
+      "grad_norm": 3.5078675746917725,
+      "kl": 0.37109375,
+      "learning_rate": 6.045662100456621e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.2644027303904295,
+      "rewards/accuracy_reward": 0.4999999850988388,
+      "rewards/format_reward": 1.0,
+      "step": 866
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 494.53125,
+      "epoch": 1.1876712328767123,
+      "grad_norm": 2.0775046348571777,
+      "kl": 0.44140625,
+      "learning_rate": 6.041095890410958e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.1462521031498909,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 867
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 617.40625,
+      "epoch": 1.189041095890411,
+      "grad_norm": 3.112804651260376,
+      "kl": 0.349609375,
+      "learning_rate": 6.036529680365297e-07,
+      "loss": 0.0003,
+      "reward": 1.7890625,
+      "reward_std": 0.3950253389775753,
+      "rewards/accuracy_reward": 0.8203125,
+      "rewards/format_reward": 0.96875,
+      "step": 868
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 738.625,
+      "epoch": 1.1904109589041096,
+      "grad_norm": 0.8393311500549316,
+      "kl": 0.34765625,
+      "learning_rate": 6.031963470319634e-07,
+      "loss": 0.0003,
+      "reward": 1.46875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.96875,
+      "step": 869
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 455.5,
+      "epoch": 1.191780821917808,
+      "grad_norm": 1.9282116889953613,
+      "kl": 0.3583984375,
+      "learning_rate": 6.027397260273972e-07,
+      "loss": 0.0004,
+      "reward": 1.1875,
+      "reward_std": 0.06681530922651291,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/format_reward": 1.0,
+      "step": 870
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 578.90625,
+      "epoch": 1.1931506849315068,
+      "grad_norm": 1.3332931995391846,
+      "kl": 0.37451171875,
+      "learning_rate": 6.02283105022831e-07,
+      "loss": 0.0004,
+      "reward": 1.7109375,
+      "reward_std": 0.0765409953892231,
+      "rewards/accuracy_reward": 0.7109375,
+      "rewards/format_reward": 1.0,
+      "step": 871
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 515.5625,
+      "epoch": 1.1945205479452055,
+      "grad_norm": 2.1982920169830322,
+      "kl": 0.36279296875,
+      "learning_rate": 6.018264840182648e-07,
+      "loss": 0.0004,
+      "reward": 1.2083333134651184,
+      "reward_std": 0.031497031450271606,
+      "rewards/accuracy_reward": 0.2083333432674408,
+      "rewards/format_reward": 1.0,
+      "step": 872
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 619.4375,
+      "epoch": 1.1958904109589041,
+      "grad_norm": 1.4797850847244263,
+      "kl": 0.37353515625,
+      "learning_rate": 6.013698630136987e-07,
+      "loss": 0.0004,
+      "reward": 1.3776041567325592,
+      "reward_std": 0.10277634114027023,
+      "rewards/accuracy_reward": 0.3776041567325592,
+      "rewards/format_reward": 1.0,
+      "step": 873
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 551.28125,
+      "epoch": 1.1972602739726028,
+      "grad_norm": 1.9213581085205078,
+      "kl": 0.37158203125,
+      "learning_rate": 6.009132420091324e-07,
+      "loss": 0.0004,
+      "reward": 1.5833333432674408,
+      "reward_std": 0.09757299907505512,
+      "rewards/accuracy_reward": 0.5833333283662796,
+      "rewards/format_reward": 1.0,
+      "step": 874
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 425.0625,
+      "epoch": 1.1986301369863013,
+      "grad_norm": 3.607898712158203,
+      "kl": 0.4130859375,
+      "learning_rate": 6.004566210045661e-07,
+      "loss": 0.0004,
+      "reward": 1.7734375,
+      "reward_std": 0.2514927387237549,
+      "rewards/accuracy_reward": 0.7734375,
+      "rewards/format_reward": 1.0,
+      "step": 875
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 402.34375,
+      "epoch": 1.2,
+      "grad_norm": 5.052751541137695,
+      "kl": 0.46923828125,
+      "learning_rate": 6e-07,
+      "loss": 0.0005,
+      "reward": 1.546875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.546875,
+      "rewards/format_reward": 1.0,
+      "step": 876
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 585.96875,
+      "epoch": 1.2013698630136986,
+      "grad_norm": 4.230776309967041,
+      "kl": 0.46435546875,
+      "learning_rate": 5.995433789954337e-07,
+      "loss": 0.0005,
+      "reward": 1.8444940447807312,
+      "reward_std": 0.1678207330405712,
+      "rewards/accuracy_reward": 0.8444940149784088,
+      "rewards/format_reward": 1.0,
+      "step": 877
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.78125,
+      "epoch": 1.2027397260273973,
+      "grad_norm": 8.833257675170898,
+      "kl": 0.41357421875,
+      "learning_rate": 5.990867579908675e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.1462521031498909,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 878
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 437.96875,
+      "epoch": 1.2041095890410958,
+      "grad_norm": 6.765456199645996,
+      "kl": 0.45166015625,
+      "learning_rate": 5.986301369863014e-07,
+      "loss": 0.0005,
+      "reward": 1.8531250357627869,
+      "reward_std": 0.34787509217858315,
+      "rewards/accuracy_reward": 0.8843750059604645,
+      "rewards/format_reward": 0.96875,
+      "step": 879
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 524.6875,
+      "epoch": 1.2054794520547945,
+      "grad_norm": 1.5083391666412354,
+      "kl": 0.39013671875,
+      "learning_rate": 5.981735159817351e-07,
+      "loss": 0.0004,
+      "reward": 1.5703125,
+      "reward_std": 0.0657544769346714,
+      "rewards/accuracy_reward": 0.5703125,
+      "rewards/format_reward": 1.0,
+      "step": 880
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.84375,
+      "epoch": 1.2068493150684931,
+      "grad_norm": 0.8882075548171997,
+      "kl": 0.4072265625,
+      "learning_rate": 5.97716894977169e-07,
+      "loss": 0.0004,
+      "reward": 1.453125,
+      "reward_std": 0.0867956355214119,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 881
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.40625,
+      "epoch": 1.2082191780821918,
+      "grad_norm": 1.7317863702774048,
+      "kl": 0.427734375,
+      "learning_rate": 5.972602739726027e-07,
+      "loss": 0.0004,
+      "reward": 1.65625,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 882
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 560.3125,
+      "epoch": 1.2095890410958905,
+      "grad_norm": 11.200748443603516,
+      "kl": 0.46435546875,
+      "learning_rate": 5.968036529680364e-07,
+      "loss": 0.0005,
+      "reward": 1.5625,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 883
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 425.90625,
+      "epoch": 1.210958904109589,
+      "grad_norm": 5.06436014175415,
+      "kl": 0.44775390625,
+      "learning_rate": 5.963470319634703e-07,
+      "loss": 0.0004,
+      "reward": 1.625,
+      "reward_std": 0.2314550280570984,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 884
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.125,
+      "epoch": 1.2123287671232876,
+      "grad_norm": 3.117278575897217,
+      "kl": 0.39013671875,
+      "learning_rate": 5.958904109589041e-07,
+      "loss": 0.0004,
+      "reward": 1.15625,
+      "reward_std": 0.3061639815568924,
+      "rewards/accuracy_reward": 0.15625,
+      "rewards/format_reward": 1.0,
+      "step": 885
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 679.0625,
+      "epoch": 1.2136986301369863,
+      "grad_norm": 3.001260757446289,
+      "kl": 0.390625,
+      "learning_rate": 5.95433789954338e-07,
+      "loss": 0.0004,
+      "reward": 2.359375,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 1.359375,
+      "rewards/format_reward": 1.0,
+      "step": 886
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 422.78125,
+      "epoch": 1.215068493150685,
+      "grad_norm": 4.375697135925293,
+      "kl": 0.39306640625,
+      "learning_rate": 5.949771689497717e-07,
+      "loss": 0.0004,
+      "reward": 1.5625,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 887
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 574.71875,
+      "epoch": 1.2164383561643834,
+      "grad_norm": 1.2586559057235718,
+      "kl": 0.3837890625,
+      "learning_rate": 5.945205479452054e-07,
+      "loss": 0.0004,
+      "reward": 1.421875,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 888
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 536.21875,
+      "epoch": 1.2178082191780821,
+      "grad_norm": 0.010667498223483562,
+      "kl": 0.3828125,
+      "learning_rate": 5.940639269406393e-07,
+      "loss": 0.0004,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 889
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 631.0625,
+      "epoch": 1.2191780821917808,
+      "grad_norm": 4.928837299346924,
+      "kl": 0.37646484375,
+      "learning_rate": 5.93607305936073e-07,
+      "loss": 0.0004,
+      "reward": 2.0390625,
+      "reward_std": 0.061278700828552246,
+      "rewards/accuracy_reward": 1.0390625,
+      "rewards/format_reward": 1.0,
+      "step": 890
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 567.6875,
+      "epoch": 1.2205479452054795,
+      "grad_norm": 3.472158193588257,
+      "kl": 0.39794921875,
+      "learning_rate": 5.931506849315067e-07,
+      "loss": 0.0004,
+      "reward": 1.6875,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 891
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 517.375,
+      "epoch": 1.2219178082191782,
+      "grad_norm": 1.6116597652435303,
+      "kl": 0.41357421875,
+      "learning_rate": 5.926940639269407e-07,
+      "loss": 0.0004,
+      "reward": 1.109375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.109375,
+      "rewards/format_reward": 1.0,
+      "step": 892
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 548.46875,
+      "epoch": 1.2232876712328766,
+      "grad_norm": 2.2251503467559814,
+      "kl": 0.39697265625,
+      "learning_rate": 5.922374429223744e-07,
+      "loss": 0.0004,
+      "reward": 1.8541666865348816,
+      "reward_std": 0.32778636924922466,
+      "rewards/accuracy_reward": 0.8854166567325592,
+      "rewards/format_reward": 0.96875,
+      "step": 893
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 571.15625,
+      "epoch": 1.2246575342465753,
+      "grad_norm": 2.8448946475982666,
+      "kl": 0.3955078125,
+      "learning_rate": 5.917808219178083e-07,
+      "loss": 0.0004,
+      "reward": 1.375,
+      "reward_std": 0.1552036553621292,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 894
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 538.8125,
+      "epoch": 1.226027397260274,
+      "grad_norm": 2.6070163249969482,
+      "kl": 0.400390625,
+      "learning_rate": 5.91324200913242e-07,
+      "loss": 0.0004,
+      "reward": 1.734375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 895
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 655.21875,
+      "epoch": 1.2273972602739727,
+      "grad_norm": 1.7733893394470215,
+      "kl": 0.38232421875,
+      "learning_rate": 5.908675799086757e-07,
+      "loss": 0.0004,
+      "reward": 1.55859375,
+      "reward_std": 0.07789094373583794,
+      "rewards/accuracy_reward": 0.55859375,
+      "rewards/format_reward": 1.0,
+      "step": 896
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 431.40625,
+      "epoch": 1.2287671232876711,
+      "grad_norm": 4.120666027069092,
+      "kl": 0.40087890625,
+      "learning_rate": 5.904109589041096e-07,
+      "loss": 0.0004,
+      "reward": 1.6651785373687744,
+      "reward_std": 0.17251565493643284,
+      "rewards/accuracy_reward": 0.6651785373687744,
+      "rewards/format_reward": 1.0,
+      "step": 897
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 547.0625,
+      "epoch": 1.2301369863013698,
+      "grad_norm": 2.522732973098755,
+      "kl": 0.38720703125,
+      "learning_rate": 5.899543378995433e-07,
+      "loss": 0.0004,
+      "reward": 1.6119791567325592,
+      "reward_std": 0.25090846233069897,
+      "rewards/accuracy_reward": 0.6119791716337204,
+      "rewards/format_reward": 1.0,
+      "step": 898
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 572.9375,
+      "epoch": 1.2315068493150685,
+      "grad_norm": 2.1330246925354004,
+      "kl": 0.390625,
+      "learning_rate": 5.894977168949771e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.2925042062997818,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 0.96875,
+      "step": 899
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 482.0625,
+      "epoch": 1.2328767123287672,
+      "grad_norm": 6.462682247161865,
+      "kl": 0.38671875,
+      "learning_rate": 5.89041095890411e-07,
+      "loss": 0.0004,
+      "reward": 1.4609375,
+      "reward_std": 0.1662898138165474,
+      "rewards/accuracy_reward": 0.4609375,
+      "rewards/format_reward": 1.0,
+      "step": 900
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 550.21875,
+      "epoch": 1.2342465753424658,
+      "grad_norm": 2.9799962043762207,
+      "kl": 0.37939453125,
+      "learning_rate": 5.885844748858447e-07,
+      "loss": 0.0004,
+      "reward": 2.119791656732559,
+      "reward_std": 0.014731401577591896,
+      "rewards/accuracy_reward": 1.1197916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 901
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 422.90625,
+      "epoch": 1.2356164383561643,
+      "grad_norm": 3.0818071365356445,
+      "kl": 0.4287109375,
+      "learning_rate": 5.881278538812785e-07,
+      "loss": 0.0004,
+      "reward": 1.546875,
+      "reward_std": 0.22733328863978386,
+      "rewards/accuracy_reward": 0.5468750149011612,
+      "rewards/format_reward": 1.0,
+      "step": 902
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 457.28125,
+      "epoch": 1.236986301369863,
+      "grad_norm": 0.7816328406333923,
+      "kl": 0.41259765625,
+      "learning_rate": 5.876712328767123e-07,
+      "loss": 0.0004,
+      "reward": 1.609375,
+      "reward_std": 0.17278572916984558,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 0.96875,
+      "step": 903
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 578.96875,
+      "epoch": 1.2383561643835617,
+      "grad_norm": 2.238757848739624,
+      "kl": 0.37060546875,
+      "learning_rate": 5.87214611872146e-07,
+      "loss": 0.0004,
+      "reward": 1.8671875,
+      "reward_std": 0.27381716668605804,
+      "rewards/accuracy_reward": 0.8984375,
+      "rewards/format_reward": 0.96875,
+      "step": 904
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 568.5625,
+      "epoch": 1.2397260273972603,
+      "grad_norm": 2.3652467727661133,
+      "kl": 0.38232421875,
+      "learning_rate": 5.8675799086758e-07,
+      "loss": 0.0004,
+      "reward": 1.5364583134651184,
+      "reward_std": 0.13729207031428814,
+      "rewards/accuracy_reward": 0.5364583283662796,
+      "rewards/format_reward": 1.0,
+      "step": 905
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 601.53125,
+      "epoch": 1.2410958904109588,
+      "grad_norm": 0.013698413036763668,
+      "kl": 0.3779296875,
+      "learning_rate": 5.863013698630137e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 906
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 468.875,
+      "epoch": 1.2424657534246575,
+      "grad_norm": 2.4582483768463135,
+      "kl": 0.35595703125,
+      "learning_rate": 5.858447488584474e-07,
+      "loss": 0.0004,
+      "reward": 1.484375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 907
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 414.53125,
+      "epoch": 1.2438356164383562,
+      "grad_norm": 1.652496576309204,
+      "kl": 0.4560546875,
+      "learning_rate": 5.853881278538813e-07,
+      "loss": 0.0005,
+      "reward": 1.03125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.03125,
+      "rewards/format_reward": 1.0,
+      "step": 908
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 557.53125,
+      "epoch": 1.2452054794520548,
+      "grad_norm": 1.0350927114486694,
+      "kl": 0.3720703125,
+      "learning_rate": 5.84931506849315e-07,
+      "loss": 0.0004,
+      "reward": 1.671875,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 909
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 528.375,
+      "epoch": 1.2465753424657535,
+      "grad_norm": 2.5157017707824707,
+      "kl": 0.40625,
+      "learning_rate": 5.844748858447488e-07,
+      "loss": 0.0004,
+      "reward": 1.4947916567325592,
+      "reward_std": 0.1395920068025589,
+      "rewards/accuracy_reward": 0.4947916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 910
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 358.375,
+      "epoch": 1.247945205479452,
+      "grad_norm": 1.965340256690979,
+      "kl": 0.37060546875,
+      "learning_rate": 5.840182648401826e-07,
+      "loss": 0.0004,
+      "reward": 1.203125,
+      "reward_std": 0.1530819907784462,
+      "rewards/accuracy_reward": 0.203125,
+      "rewards/format_reward": 1.0,
+      "step": 911
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 463.15625,
+      "epoch": 1.2493150684931507,
+      "grad_norm": 1.2656036615371704,
+      "kl": 0.39697265625,
+      "learning_rate": 5.835616438356164e-07,
+      "loss": 0.0004,
+      "reward": 1.359375,
+      "reward_std": 0.12255740165710449,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 1.0,
+      "step": 912
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 378.375,
+      "epoch": 1.2506849315068493,
+      "grad_norm": 2.7013890743255615,
+      "kl": 0.37451171875,
+      "learning_rate": 5.831050228310503e-07,
+      "loss": 0.0004,
+      "reward": 1.734375,
+      "reward_std": 0.22097086533904076,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 913
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 610.34375,
+      "epoch": 1.252054794520548,
+      "grad_norm": 2.896122932434082,
+      "kl": 0.3740234375,
+      "learning_rate": 5.82648401826484e-07,
+      "loss": 0.0004,
+      "reward": 2.0625,
+      "reward_std": 0.26197961531579494,
+      "rewards/accuracy_reward": 1.0625,
+      "rewards/format_reward": 1.0,
+      "step": 914
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 382.09375,
+      "epoch": 1.2534246575342465,
+      "grad_norm": 3.789921998977661,
+      "kl": 0.3935546875,
+      "learning_rate": 5.821917808219177e-07,
+      "loss": 0.0004,
+      "reward": 1.328125,
+      "reward_std": 0.28930897638201714,
+      "rewards/accuracy_reward": 0.328125,
+      "rewards/format_reward": 1.0,
+      "step": 915
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 542.21875,
+      "epoch": 1.2547945205479452,
+      "grad_norm": 2.50876522064209,
+      "kl": 0.408203125,
+      "learning_rate": 5.817351598173516e-07,
+      "loss": 0.0004,
+      "reward": 1.671875,
+      "reward_std": 0.1583191677927971,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 916
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 632.125,
+      "epoch": 1.2561643835616438,
+      "grad_norm": 2.9093079566955566,
+      "kl": 0.380859375,
+      "learning_rate": 5.812785388127853e-07,
+      "loss": 0.0004,
+      "reward": 2.0078125,
+      "reward_std": 0.163336630910635,
+      "rewards/accuracy_reward": 1.0078125,
+      "rewards/format_reward": 1.0,
+      "step": 917
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 578.65625,
+      "epoch": 1.2575342465753425,
+      "grad_norm": 1.01085364818573,
+      "kl": 0.37353515625,
+      "learning_rate": 5.808219178082191e-07,
+      "loss": 0.0004,
+      "reward": 1.484375,
+      "reward_std": 0.021564556285738945,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 918
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 572.0625,
+      "epoch": 1.2589041095890412,
+      "grad_norm": 1.2397353649139404,
+      "kl": 0.36962890625,
+      "learning_rate": 5.80365296803653e-07,
+      "loss": 0.0004,
+      "reward": 1.1875,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 0.96875,
+      "step": 919
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 478.5,
+      "epoch": 1.2602739726027397,
+      "grad_norm": 1.3165117502212524,
+      "kl": 0.3916015625,
+      "learning_rate": 5.799086757990867e-07,
+      "loss": 0.0004,
+      "reward": 1.5625,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 920
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 682.6875,
+      "epoch": 1.2616438356164383,
+      "grad_norm": 2.271702289581299,
+      "kl": 0.3701171875,
+      "learning_rate": 5.794520547945206e-07,
+      "loss": 0.0004,
+      "reward": 1.77734375,
+      "reward_std": 0.32882310450077057,
+      "rewards/accuracy_reward": 0.80859375,
+      "rewards/format_reward": 0.96875,
+      "step": 921
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 375.09375,
+      "epoch": 1.263013698630137,
+      "grad_norm": 0.017480703070759773,
+      "kl": 0.3984375,
+      "learning_rate": 5.789954337899543e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 922
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 504.65625,
+      "epoch": 1.2643835616438357,
+      "grad_norm": 1.695114016532898,
+      "kl": 0.4033203125,
+      "learning_rate": 5.78538812785388e-07,
+      "loss": 0.0004,
+      "reward": 1.5234375,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.5234375,
+      "rewards/format_reward": 1.0,
+      "step": 923
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 596.90625,
+      "epoch": 1.2657534246575342,
+      "grad_norm": 1.5401252508163452,
+      "kl": 0.353515625,
+      "learning_rate": 5.780821917808219e-07,
+      "loss": 0.0004,
+      "reward": 1.7708333134651184,
+      "reward_std": 0.05891544930636883,
+      "rewards/accuracy_reward": 0.7708333283662796,
+      "rewards/format_reward": 1.0,
+      "step": 924
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 469.78125,
+      "epoch": 1.2671232876712328,
+      "grad_norm": 3.2033495903015137,
+      "kl": 0.39013671875,
+      "learning_rate": 5.776255707762557e-07,
+      "loss": 0.0004,
+      "reward": 1.55859375,
+      "reward_std": 0.27621358167380095,
+      "rewards/accuracy_reward": 0.58984375,
+      "rewards/format_reward": 0.96875,
+      "step": 925
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 585.28125,
+      "epoch": 1.2684931506849315,
+      "grad_norm": 3.77433705329895,
+      "kl": 0.4111328125,
+      "learning_rate": 5.771689497716896e-07,
+      "loss": 0.0004,
+      "reward": 1.3177083134651184,
+      "reward_std": 0.4321344643831253,
+      "rewards/accuracy_reward": 0.3802083283662796,
+      "rewards/format_reward": 0.9375,
+      "step": 926
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 591.78125,
+      "epoch": 1.2698630136986302,
+      "grad_norm": 4.000980854034424,
+      "kl": 0.3642578125,
+      "learning_rate": 5.767123287671233e-07,
+      "loss": 0.0004,
+      "reward": 1.515625,
+      "reward_std": 0.0828370526432991,
+      "rewards/accuracy_reward": 0.5156249701976776,
+      "rewards/format_reward": 1.0,
+      "step": 927
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.28125,
+      "epoch": 1.2712328767123289,
+      "grad_norm": 2.266773223876953,
+      "kl": 0.37060546875,
+      "learning_rate": 5.76255707762557e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 928
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 498.125,
+      "epoch": 1.2726027397260273,
+      "grad_norm": 5.215886116027832,
+      "kl": 0.4228515625,
+      "learning_rate": 5.757990867579909e-07,
+      "loss": 0.0004,
+      "reward": 1.6822916269302368,
+      "reward_std": 0.24831003323197365,
+      "rewards/accuracy_reward": 0.7135416269302368,
+      "rewards/format_reward": 0.96875,
+      "step": 929
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 477.78125,
+      "epoch": 1.273972602739726,
+      "grad_norm": 1.8586878776550293,
+      "kl": 0.44384765625,
+      "learning_rate": 5.753424657534246e-07,
+      "loss": 0.0004,
+      "reward": 1.390625,
+      "reward_std": 0.2302001230418682,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 0.96875,
+      "step": 930
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 773.1875,
+      "epoch": 1.2753424657534247,
+      "grad_norm": 1.8589192628860474,
+      "kl": 0.36376953125,
+      "learning_rate": 5.748858447488583e-07,
+      "loss": 0.0004,
+      "reward": 2.052604168653488,
+      "reward_std": 0.25580091029405594,
+      "rewards/accuracy_reward": 1.0838541686534882,
+      "rewards/format_reward": 0.96875,
+      "step": 931
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 592.84375,
+      "epoch": 1.2767123287671232,
+      "grad_norm": 1.5999672412872314,
+      "kl": 1.4580078125,
+      "learning_rate": 5.744292237442923e-07,
+      "loss": 0.0015,
+      "reward": 1.46875,
+      "reward_std": 0.033407654613256454,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 932
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 668.84375,
+      "epoch": 1.2780821917808218,
+      "grad_norm": 1.7803735733032227,
+      "kl": 0.39013671875,
+      "learning_rate": 5.73972602739726e-07,
+      "loss": 0.0004,
+      "reward": 2.435156285762787,
+      "reward_std": 0.16129423771053553,
+      "rewards/accuracy_reward": 1.4351562857627869,
+      "rewards/format_reward": 1.0,
+      "step": 933
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 625.46875,
+      "epoch": 1.2794520547945205,
+      "grad_norm": 3.8296427726745605,
+      "kl": 0.39404296875,
+      "learning_rate": 5.735159817351598e-07,
+      "loss": 0.0004,
+      "reward": 1.65625,
+      "reward_std": 0.22201896272599697,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 934
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 509.03125,
+      "epoch": 1.2808219178082192,
+      "grad_norm": 0.021630197763442993,
+      "kl": 0.4111328125,
+      "learning_rate": 5.730593607305936e-07,
+      "loss": 0.0004,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 935
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 511.90625,
+      "epoch": 1.2821917808219179,
+      "grad_norm": 1.9150142669677734,
+      "kl": 0.42236328125,
+      "learning_rate": 5.726027397260273e-07,
+      "loss": 0.0004,
+      "reward": 1.4791666269302368,
+      "reward_std": 0.3344755917787552,
+      "rewards/accuracy_reward": 0.5104166716337204,
+      "rewards/format_reward": 0.96875,
+      "step": 936
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 778.40625,
+      "epoch": 1.2835616438356166,
+      "grad_norm": 1.2064579725265503,
+      "kl": 0.3486328125,
+      "learning_rate": 5.721461187214612e-07,
+      "loss": 0.0003,
+      "reward": 1.671875,
+      "reward_std": 0.22097086533904076,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 0.96875,
+      "step": 937
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.5625,
+      "epoch": 1.284931506849315,
+      "grad_norm": 2.410706043243408,
+      "kl": 0.44140625,
+      "learning_rate": 5.716894977168949e-07,
+      "loss": 0.0004,
+      "reward": 1.0625,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/format_reward": 1.0,
+      "step": 938
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 592.0,
+      "epoch": 1.2863013698630137,
+      "grad_norm": 2.2251358032226562,
+      "kl": 0.3798828125,
+      "learning_rate": 5.712328767123287e-07,
+      "loss": 0.0004,
+      "reward": 1.734375,
+      "reward_std": 0.24511976540088654,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 939
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 461.78125,
+      "epoch": 1.2876712328767124,
+      "grad_norm": 2.1631131172180176,
+      "kl": 0.4345703125,
+      "learning_rate": 5.707762557077626e-07,
+      "loss": 0.0004,
+      "reward": 1.3177083134651184,
+      "reward_std": 0.3885781615972519,
+      "rewards/accuracy_reward": 0.3489583134651184,
+      "rewards/format_reward": 0.96875,
+      "step": 940
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 517.125,
+      "epoch": 1.2890410958904108,
+      "grad_norm": 2.293469190597534,
+      "kl": 0.51708984375,
+      "learning_rate": 5.703196347031963e-07,
+      "loss": 0.0005,
+      "reward": 1.421875,
+      "reward_std": 0.1446593925356865,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 941
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 559.53125,
+      "epoch": 1.2904109589041095,
+      "grad_norm": 0.01647823676466942,
+      "kl": 0.3896484375,
+      "learning_rate": 5.698630136986301e-07,
+      "loss": 0.0004,
+      "reward": 2.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.5,
+      "rewards/format_reward": 1.0,
+      "step": 942
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 623.71875,
+      "epoch": 1.2917808219178082,
+      "grad_norm": 2.266577959060669,
+      "kl": 0.80126953125,
+      "learning_rate": 5.694063926940639e-07,
+      "loss": 0.0008,
+      "reward": 1.5963541865348816,
+      "reward_std": 0.2827804908156395,
+      "rewards/accuracy_reward": 0.6276041865348816,
+      "rewards/format_reward": 0.96875,
+      "step": 943
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 576.25,
+      "epoch": 1.2931506849315069,
+      "grad_norm": 3.0220417976379395,
+      "kl": 0.40234375,
+      "learning_rate": 5.689497716894976e-07,
+      "loss": 0.0004,
+      "reward": 1.515625,
+      "reward_std": 0.16828217171132565,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 944
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 693.875,
+      "epoch": 1.2945205479452055,
+      "grad_norm": 0.9308492541313171,
+      "kl": 0.3837890625,
+      "learning_rate": 5.684931506849316e-07,
+      "loss": 0.0004,
+      "reward": 1.6796875,
+      "reward_std": 0.09704047441482544,
+      "rewards/accuracy_reward": 0.6796875,
+      "rewards/format_reward": 1.0,
+      "step": 945
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 581.5,
+      "epoch": 1.2958904109589042,
+      "grad_norm": 1.6099046468734741,
+      "kl": 0.5966796875,
+      "learning_rate": 5.680365296803653e-07,
+      "loss": 0.0006,
+      "reward": 1.3203125,
+      "reward_std": 0.10436524450778961,
+      "rewards/accuracy_reward": 0.3203125,
+      "rewards/format_reward": 1.0,
+      "step": 946
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 635.0625,
+      "epoch": 1.2972602739726027,
+      "grad_norm": 2.74033784866333,
+      "kl": 0.3798828125,
+      "learning_rate": 5.67579908675799e-07,
+      "loss": 0.0004,
+      "reward": 1.8953125476837158,
+      "reward_std": 0.3537486009299755,
+      "rewards/accuracy_reward": 0.9265625178813934,
+      "rewards/format_reward": 0.96875,
+      "step": 947
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 654.90625,
+      "epoch": 1.2986301369863014,
+      "grad_norm": 1.12486732006073,
+      "kl": 0.41796875,
+      "learning_rate": 5.671232876712329e-07,
+      "loss": 0.0004,
+      "reward": 1.5078125,
+      "reward_std": 0.306659497320652,
+      "rewards/accuracy_reward": 0.5703125,
+      "rewards/format_reward": 0.9375,
+      "step": 948
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 574.1875,
+      "epoch": 1.3,
+      "grad_norm": 0.8883933424949646,
+      "kl": 0.41259765625,
+      "learning_rate": 5.666666666666666e-07,
+      "loss": 0.0004,
+      "reward": 1.734375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 949
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 503.03125,
+      "epoch": 1.3013698630136985,
+      "grad_norm": 3.347505569458008,
+      "kl": 0.39111328125,
+      "learning_rate": 5.662100456621004e-07,
+      "loss": 0.0004,
+      "reward": 1.515625,
+      "reward_std": 0.1304589118808508,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 950
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 493.15625,
+      "epoch": 1.3027397260273972,
+      "grad_norm": 2.3713202476501465,
+      "kl": 0.46923828125,
+      "learning_rate": 5.657534246575342e-07,
+      "loss": 0.0005,
+      "reward": 1.2864583730697632,
+      "reward_std": 0.13258253410458565,
+      "rewards/accuracy_reward": 0.3177083432674408,
+      "rewards/format_reward": 0.96875,
+      "step": 951
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 650.3125,
+      "epoch": 1.3041095890410959,
+      "grad_norm": 3.497941017150879,
+      "kl": 0.37890625,
+      "learning_rate": 5.65296803652968e-07,
+      "loss": 0.0004,
+      "reward": 1.0625,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/format_reward": 1.0,
+      "step": 952
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 620.25,
+      "epoch": 1.3054794520547945,
+      "grad_norm": 2.711280107498169,
+      "kl": 0.38818359375,
+      "learning_rate": 5.648401826484019e-07,
+      "loss": 0.0004,
+      "reward": 1.70703125,
+      "reward_std": 0.19521116837859154,
+      "rewards/accuracy_reward": 0.70703125,
+      "rewards/format_reward": 1.0,
+      "step": 953
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 506.21875,
+      "epoch": 1.3068493150684932,
+      "grad_norm": 2.053891181945801,
+      "kl": 0.4052734375,
+      "learning_rate": 5.643835616438356e-07,
+      "loss": 0.0004,
+      "reward": 1.5625,
+      "reward_std": 0.249358132481575,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 954
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 473.5625,
+      "epoch": 1.308219178082192,
+      "grad_norm": 6.742806911468506,
+      "kl": 0.4111328125,
+      "learning_rate": 5.639269406392693e-07,
+      "loss": 0.0004,
+      "reward": 1.3177083134651184,
+      "reward_std": 0.16407955065369606,
+      "rewards/accuracy_reward": 0.3489583283662796,
+      "rewards/format_reward": 0.96875,
+      "step": 955
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 397.0,
+      "epoch": 1.3095890410958904,
+      "grad_norm": 3.2806613445281982,
+      "kl": 0.6689453125,
+      "learning_rate": 5.634703196347032e-07,
+      "loss": 0.0007,
+      "reward": 1.34375,
+      "reward_std": 0.482940673828125,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 0.96875,
+      "step": 956
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 721.625,
+      "epoch": 1.310958904109589,
+      "grad_norm": 2.4216856956481934,
+      "kl": 0.380859375,
+      "learning_rate": 5.630136986301369e-07,
+      "loss": 0.0004,
+      "reward": 1.8515625,
+      "reward_std": 0.1936504878103733,
+      "rewards/accuracy_reward": 0.8515625,
+      "rewards/format_reward": 1.0,
+      "step": 957
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 626.96875,
+      "epoch": 1.3123287671232877,
+      "grad_norm": 2.3214023113250732,
+      "kl": 0.375,
+      "learning_rate": 5.625570776255707e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.2884480655193329,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.96875,
+      "step": 958
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 606.1875,
+      "epoch": 1.3136986301369862,
+      "grad_norm": 0.8679585456848145,
+      "kl": 0.41845703125,
+      "learning_rate": 5.621004566210046e-07,
+      "loss": 0.0004,
+      "reward": 1.21875,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 959
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 591.90625,
+      "epoch": 1.3150684931506849,
+      "grad_norm": 1.6525453329086304,
+      "kl": 0.37451171875,
+      "learning_rate": 5.616438356164383e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.2925042062997818,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 0.96875,
+      "step": 960
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 617.59375,
+      "epoch": 1.3164383561643835,
+      "grad_norm": 1.9350600242614746,
+      "kl": 0.37255859375,
+      "learning_rate": 5.611872146118722e-07,
+      "loss": 0.0004,
+      "reward": 1.8984375,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.9296875,
+      "rewards/format_reward": 0.96875,
+      "step": 961
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 417.8125,
+      "epoch": 1.3178082191780822,
+      "grad_norm": 2.944469928741455,
+      "kl": 0.416015625,
+      "learning_rate": 5.607305936073059e-07,
+      "loss": 0.0004,
+      "reward": 1.5234375,
+      "reward_std": 0.4395580645650625,
+      "rewards/accuracy_reward": 0.5546875,
+      "rewards/format_reward": 0.96875,
+      "step": 962
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 625.84375,
+      "epoch": 1.319178082191781,
+      "grad_norm": 3.110598564147949,
+      "kl": 0.39990234375,
+      "learning_rate": 5.602739726027396e-07,
+      "loss": 0.0004,
+      "reward": 1.4921875,
+      "reward_std": 0.1297733597457409,
+      "rewards/accuracy_reward": 0.4921874701976776,
+      "rewards/format_reward": 1.0,
+      "step": 963
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 516.3125,
+      "epoch": 1.3205479452054796,
+      "grad_norm": 3.190995216369629,
+      "kl": 0.39306640625,
+      "learning_rate": 5.598173515981735e-07,
+      "loss": 0.0004,
+      "reward": 1.6953125,
+      "reward_std": 0.2972095049917698,
+      "rewards/accuracy_reward": 0.6953125,
+      "rewards/format_reward": 1.0,
+      "step": 964
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 624.34375,
+      "epoch": 1.321917808219178,
+      "grad_norm": 1.7255425453186035,
+      "kl": 0.41748046875,
+      "learning_rate": 5.593607305936073e-07,
+      "loss": 0.0004,
+      "reward": 1.515625,
+      "reward_std": 0.24831003323197365,
+      "rewards/accuracy_reward": 0.546875,
+      "rewards/format_reward": 0.96875,
+      "step": 965
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 684.375,
+      "epoch": 1.3232876712328767,
+      "grad_norm": 2.058529853820801,
+      "kl": 0.36181640625,
+      "learning_rate": 5.589041095890411e-07,
+      "loss": 0.0004,
+      "reward": 1.84375,
+      "reward_std": 0.30173346400260925,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 0.96875,
+      "step": 966
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 666.5625,
+      "epoch": 1.3246575342465754,
+      "grad_norm": 0.08733844757080078,
+      "kl": 0.435546875,
+      "learning_rate": 5.584474885844749e-07,
+      "loss": 0.0004,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 967
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 534.5,
+      "epoch": 1.3260273972602739,
+      "grad_norm": 4.318344593048096,
+      "kl": 0.40234375,
+      "learning_rate": 5.579908675799086e-07,
+      "loss": 0.0004,
+      "reward": 1.09375,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.09375,
+      "rewards/format_reward": 1.0,
+      "step": 968
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.4375,
+      "epoch": 1.3273972602739725,
+      "grad_norm": 7.782508373260498,
+      "kl": 0.4287109375,
+      "learning_rate": 5.575342465753425e-07,
+      "loss": 0.0004,
+      "reward": 1.28125,
+      "reward_std": 0.4218914955854416,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 969
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 784.46875,
+      "epoch": 1.3287671232876712,
+      "grad_norm": 3.4223484992980957,
+      "kl": 0.35205078125,
+      "learning_rate": 5.570776255707762e-07,
+      "loss": 0.0004,
+      "reward": 1.15625,
+      "reward_std": 0.2651650384068489,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 0.9375,
+      "step": 970
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 512.125,
+      "epoch": 1.33013698630137,
+      "grad_norm": 1.055464267730713,
+      "kl": 0.39599609375,
+      "learning_rate": 5.566210045662099e-07,
+      "loss": 0.0004,
+      "reward": 1.45703125,
+      "reward_std": 0.028628919273614883,
+      "rewards/accuracy_reward": 0.45703125,
+      "rewards/format_reward": 1.0,
+      "step": 971
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 455.53125,
+      "epoch": 1.3315068493150686,
+      "grad_norm": 3.628035068511963,
+      "kl": 0.41015625,
+      "learning_rate": 5.561643835616439e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.4397946000099182,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.96875,
+      "step": 972
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 442.3125,
+      "epoch": 1.3328767123287673,
+      "grad_norm": 1.331992745399475,
+      "kl": 0.4189453125,
+      "learning_rate": 5.557077625570776e-07,
+      "loss": 0.0004,
+      "reward": 1.59375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 973
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 660.0625,
+      "epoch": 1.3342465753424657,
+      "grad_norm": 1.930756688117981,
+      "kl": 0.373046875,
+      "learning_rate": 5.552511415525114e-07,
+      "loss": 0.0004,
+      "reward": 1.625,
+      "reward_std": 0.2925042062997818,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 0.96875,
+      "step": 974
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 542.09375,
+      "epoch": 1.3356164383561644,
+      "grad_norm": 9.222930908203125,
+      "kl": 0.39697265625,
+      "learning_rate": 5.547945205479452e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.3777071312069893,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 0.96875,
+      "step": 975
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 683.3125,
+      "epoch": 1.336986301369863,
+      "grad_norm": 2.1612720489501953,
+      "kl": 0.38427734375,
+      "learning_rate": 5.543378995433789e-07,
+      "loss": 0.0004,
+      "reward": 1.7994791567325592,
+      "reward_std": 0.37991958670318127,
+      "rewards/accuracy_reward": 0.8307291567325592,
+      "rewards/format_reward": 0.96875,
+      "step": 976
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 667.65625,
+      "epoch": 1.3383561643835615,
+      "grad_norm": 3.2220661640167236,
+      "kl": 0.3798828125,
+      "learning_rate": 5.538812785388128e-07,
+      "loss": 0.0004,
+      "reward": 1.1953125,
+      "reward_std": 0.12073516845703125,
+      "rewards/accuracy_reward": 0.2265625,
+      "rewards/format_reward": 0.96875,
+      "step": 977
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 709.03125,
+      "epoch": 1.3397260273972602,
+      "grad_norm": 7.830074310302734,
+      "kl": 0.39794921875,
+      "learning_rate": 5.534246575342465e-07,
+      "loss": 0.0004,
+      "reward": 1.765625,
+      "reward_std": 0.05444390885531902,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 1.0,
+      "step": 978
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 673.5625,
+      "epoch": 1.341095890410959,
+      "grad_norm": 2.3540923595428467,
+      "kl": 0.3916015625,
+      "learning_rate": 5.529680365296803e-07,
+      "loss": 0.0004,
+      "reward": 1.03125,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/format_reward": 0.96875,
+      "step": 979
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 534.375,
+      "epoch": 1.3424657534246576,
+      "grad_norm": 12.305758476257324,
+      "kl": 0.44287109375,
+      "learning_rate": 5.525114155251142e-07,
+      "loss": 0.0004,
+      "reward": 1.9375,
+      "reward_std": 0.2884863168001175,
+      "rewards/accuracy_reward": 0.9375000596046448,
+      "rewards/format_reward": 1.0,
+      "step": 980
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 665.3125,
+      "epoch": 1.3438356164383563,
+      "grad_norm": 5.535678863525391,
+      "kl": 0.3837890625,
+      "learning_rate": 5.520547945205479e-07,
+      "loss": 0.0004,
+      "reward": 1.576562523841858,
+      "reward_std": 0.16898519545793533,
+      "rewards/accuracy_reward": 0.5765625238418579,
+      "rewards/format_reward": 1.0,
+      "step": 981
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 740.0,
+      "epoch": 1.345205479452055,
+      "grad_norm": 0.8980807065963745,
+      "kl": 0.4013671875,
+      "learning_rate": 5.515981735159817e-07,
+      "loss": 0.0004,
+      "reward": 2.253125011920929,
+      "reward_std": 0.13258251547813416,
+      "rewards/accuracy_reward": 1.253125011920929,
+      "rewards/format_reward": 1.0,
+      "step": 982
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 435.0,
+      "epoch": 1.3465753424657534,
+      "grad_norm": 1.950405240058899,
+      "kl": 0.40380859375,
+      "learning_rate": 5.511415525114155e-07,
+      "loss": 0.0004,
+      "reward": 1.5625,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 983
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 785.625,
+      "epoch": 1.347945205479452,
+      "grad_norm": 0.8518653512001038,
+      "kl": 0.357421875,
+      "learning_rate": 5.506849315068492e-07,
+      "loss": 0.0004,
+      "reward": 1.21875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 0.96875,
+      "step": 984
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 726.53125,
+      "epoch": 1.3493150684931507,
+      "grad_norm": 1.3810690641403198,
+      "kl": 0.40283203125,
+      "learning_rate": 5.502283105022832e-07,
+      "loss": 0.0004,
+      "reward": 1.7838541269302368,
+      "reward_std": 0.05391141213476658,
+      "rewards/accuracy_reward": 0.7838541567325592,
+      "rewards/format_reward": 1.0,
+      "step": 985
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 675.5625,
+      "epoch": 1.3506849315068492,
+      "grad_norm": 3.373875141143799,
+      "kl": 0.36474609375,
+      "learning_rate": 5.497716894977169e-07,
+      "loss": 0.0004,
+      "reward": 1.84375,
+      "reward_std": 0.28276579082012177,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 0.96875,
+      "step": 986
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 655.59375,
+      "epoch": 1.3520547945205479,
+      "grad_norm": 1.4311509132385254,
+      "kl": 0.4384765625,
+      "learning_rate": 5.493150684931506e-07,
+      "loss": 0.0004,
+      "reward": 1.5364583134651184,
+      "reward_std": 0.36767221987247467,
+      "rewards/accuracy_reward": 0.5677083283662796,
+      "rewards/format_reward": 0.96875,
+      "step": 987
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 621.25,
+      "epoch": 1.3534246575342466,
+      "grad_norm": 4.090206146240234,
+      "kl": 0.40185546875,
+      "learning_rate": 5.488584474885845e-07,
+      "loss": 0.0004,
+      "reward": 2.08203125,
+      "reward_std": 0.19203272461891174,
+      "rewards/accuracy_reward": 1.08203125,
+      "rewards/format_reward": 1.0,
+      "step": 988
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 418.34375,
+      "epoch": 1.3547945205479452,
+      "grad_norm": 0.023737359791994095,
+      "kl": 0.44921875,
+      "learning_rate": 5.484018264840182e-07,
+      "loss": 0.0005,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 989
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 583.9375,
+      "epoch": 1.356164383561644,
+      "grad_norm": 3.110661029815674,
+      "kl": 0.40283203125,
+      "learning_rate": 5.47945205479452e-07,
+      "loss": 0.0004,
+      "reward": 1.5104166567325592,
+      "reward_std": 0.18662460334599018,
+      "rewards/accuracy_reward": 0.5104166567325592,
+      "rewards/format_reward": 1.0,
+      "step": 990
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 621.4375,
+      "epoch": 1.3575342465753424,
+      "grad_norm": 2.7677109241485596,
+      "kl": 0.3935546875,
+      "learning_rate": 5.474885844748858e-07,
+      "loss": 0.0004,
+      "reward": 1.7395833134651184,
+      "reward_std": 0.09139656275510788,
+      "rewards/accuracy_reward": 0.7395833432674408,
+      "rewards/format_reward": 1.0,
+      "step": 991
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 611.59375,
+      "epoch": 1.358904109589041,
+      "grad_norm": 1.7430964708328247,
+      "kl": 0.37451171875,
+      "learning_rate": 5.470319634703196e-07,
+      "loss": 0.0004,
+      "reward": 1.765625,
+      "reward_std": 0.1804211586713791,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 1.0,
+      "step": 992
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 731.75,
+      "epoch": 1.3602739726027397,
+      "grad_norm": 3.005925178527832,
+      "kl": 0.38525390625,
+      "learning_rate": 5.465753424657535e-07,
+      "loss": 0.0004,
+      "reward": 2.6171875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 1.6171875,
+      "rewards/format_reward": 1.0,
+      "step": 993
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 609.21875,
+      "epoch": 1.3616438356164384,
+      "grad_norm": 1.7805390357971191,
+      "kl": 0.39306640625,
+      "learning_rate": 5.461187214611872e-07,
+      "loss": 0.0004,
+      "reward": 1.8854166269302368,
+      "reward_std": 0.10773438680917025,
+      "rewards/accuracy_reward": 0.8854166269302368,
+      "rewards/format_reward": 1.0,
+      "step": 994
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.5,
+      "epoch": 1.3630136986301369,
+      "grad_norm": 3.8102054595947266,
+      "kl": 0.46337890625,
+      "learning_rate": 5.456621004566209e-07,
+      "loss": 0.0005,
+      "reward": 1.65625,
+      "reward_std": 0.4218914955854416,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 995
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 712.1875,
+      "epoch": 1.3643835616438356,
+      "grad_norm": 1.8652178049087524,
+      "kl": 0.3828125,
+      "learning_rate": 5.452054794520548e-07,
+      "loss": 0.0004,
+      "reward": 1.7265625,
+      "reward_std": 0.03234682232141495,
+      "rewards/accuracy_reward": 0.7265625,
+      "rewards/format_reward": 1.0,
+      "step": 996
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 396.96875,
+      "epoch": 1.3657534246575342,
+      "grad_norm": 3.4569380283355713,
+      "kl": 0.4541015625,
+      "learning_rate": 5.447488584474885e-07,
+      "loss": 0.0005,
+      "reward": 1.25,
+      "reward_std": 0.2314550280570984,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 997
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 550.40625,
+      "epoch": 1.367123287671233,
+      "grad_norm": 0.03730163723230362,
+      "kl": 0.39794921875,
+      "learning_rate": 5.442922374429223e-07,
+      "loss": 0.0004,
+      "reward": 1.375,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 998
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 727.78125,
+      "epoch": 1.3684931506849316,
+      "grad_norm": 1.656997799873352,
+      "kl": 0.39501953125,
+      "learning_rate": 5.438356164383562e-07,
+      "loss": 0.0004,
+      "reward": 1.676041603088379,
+      "reward_std": 0.11559091322124004,
+      "rewards/accuracy_reward": 0.6760416626930237,
+      "rewards/format_reward": 1.0,
+      "step": 999
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 724.75,
+      "epoch": 1.36986301369863,
+      "grad_norm": 1.8627666234970093,
+      "kl": 0.45703125,
+      "learning_rate": 5.433789954337899e-07,
+      "loss": 0.0005,
+      "reward": 1.546875,
+      "reward_std": 0.2690962068736553,
+      "rewards/accuracy_reward": 0.578125,
+      "rewards/format_reward": 0.96875,
+      "step": 1000
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 614.0625,
+      "epoch": 1.3712328767123287,
+      "grad_norm": 2.418375015258789,
+      "kl": 0.400390625,
+      "learning_rate": 5.429223744292238e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.2404065802693367,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 1001
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 605.1875,
+      "epoch": 1.3726027397260274,
+      "grad_norm": 1.8359637260437012,
+      "kl": 0.4228515625,
+      "learning_rate": 5.424657534246575e-07,
+      "loss": 0.0004,
+      "reward": 1.3984375,
+      "reward_std": 0.09916213154792786,
+      "rewards/accuracy_reward": 0.3984375,
+      "rewards/format_reward": 1.0,
+      "step": 1002
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 706.21875,
+      "epoch": 1.373972602739726,
+      "grad_norm": 0.9900186061859131,
+      "kl": 0.3818359375,
+      "learning_rate": 5.420091324200912e-07,
+      "loss": 0.0004,
+      "reward": 1.7265625,
+      "reward_std": 0.06629125773906708,
+      "rewards/accuracy_reward": 0.7265625,
+      "rewards/format_reward": 1.0,
+      "step": 1003
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 651.09375,
+      "epoch": 1.3753424657534246,
+      "grad_norm": 7.1562066078186035,
+      "kl": 0.35888671875,
+      "learning_rate": 5.415525114155251e-07,
+      "loss": 0.0004,
+      "reward": 1.48828125,
+      "reward_std": 0.26590822637081146,
+      "rewards/accuracy_reward": 0.51953125,
+      "rewards/format_reward": 0.96875,
+      "step": 1004
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 486.03125,
+      "epoch": 1.3767123287671232,
+      "grad_norm": 7.467992305755615,
+      "kl": 0.3916015625,
+      "learning_rate": 5.410958904109589e-07,
+      "loss": 0.0004,
+      "reward": 1.3125,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 1005
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 577.1875,
+      "epoch": 1.378082191780822,
+      "grad_norm": 1.0159043073654175,
+      "kl": 0.42822265625,
+      "learning_rate": 5.406392694063927e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.09449111670255661,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 1006
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 591.3125,
+      "epoch": 1.3794520547945206,
+      "grad_norm": 2.2844886779785156,
+      "kl": 0.400390625,
+      "learning_rate": 5.401826484018265e-07,
+      "loss": 0.0004,
+      "reward": 1.59375,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 1007
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 593.53125,
+      "epoch": 1.3808219178082193,
+      "grad_norm": 9.832568168640137,
+      "kl": 0.39501953125,
+      "learning_rate": 5.397260273972602e-07,
+      "loss": 0.0004,
+      "reward": 1.234375,
+      "reward_std": 0.1804211586713791,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 1008
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 484.21875,
+      "epoch": 1.3821917808219177,
+      "grad_norm": 6.589068412780762,
+      "kl": 0.43408203125,
+      "learning_rate": 5.392694063926941e-07,
+      "loss": 0.0004,
+      "reward": 1.9296875,
+      "reward_std": 0.28407670371234417,
+      "rewards/accuracy_reward": 0.9296875,
+      "rewards/format_reward": 1.0,
+      "step": 1009
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 583.25,
+      "epoch": 1.3835616438356164,
+      "grad_norm": 2.737316131591797,
+      "kl": 0.43896484375,
+      "learning_rate": 5.388127853881278e-07,
+      "loss": 0.0004,
+      "reward": 2.1875,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 1.1875,
+      "rewards/format_reward": 1.0,
+      "step": 1010
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 543.21875,
+      "epoch": 1.384931506849315,
+      "grad_norm": 3.161360263824463,
+      "kl": 0.42236328125,
+      "learning_rate": 5.383561643835615e-07,
+      "loss": 0.0004,
+      "reward": 1.59375,
+      "reward_std": 0.16703827306628227,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 1011
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 565.375,
+      "epoch": 1.3863013698630138,
+      "grad_norm": 4.014094829559326,
+      "kl": 0.4326171875,
+      "learning_rate": 5.378995433789955e-07,
+      "loss": 0.0004,
+      "reward": 1.765625,
+      "reward_std": 0.286712609231472,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 1.0,
+      "step": 1012
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 564.9375,
+      "epoch": 1.3876712328767122,
+      "grad_norm": 1.9165242910385132,
+      "kl": 0.39501953125,
+      "learning_rate": 5.374429223744292e-07,
+      "loss": 0.0004,
+      "reward": 1.796875,
+      "reward_std": 0.1890309453010559,
+      "rewards/accuracy_reward": 0.796875,
+      "rewards/format_reward": 1.0,
+      "step": 1013
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 646.96875,
+      "epoch": 1.389041095890411,
+      "grad_norm": 2.345351457595825,
+      "kl": 0.3955078125,
+      "learning_rate": 5.36986301369863e-07,
+      "loss": 0.0004,
+      "reward": 1.875,
+      "reward_std": 0.12156742438673973,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 1014
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 469.375,
+      "epoch": 1.3904109589041096,
+      "grad_norm": 4.595534801483154,
+      "kl": 0.44091796875,
+      "learning_rate": 5.365296803652968e-07,
+      "loss": 0.0004,
+      "reward": 1.58984375,
+      "reward_std": 0.21516440343111753,
+      "rewards/accuracy_reward": 0.58984375,
+      "rewards/format_reward": 1.0,
+      "step": 1015
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 665.3125,
+      "epoch": 1.3917808219178083,
+      "grad_norm": 1.722609519958496,
+      "kl": 0.39697265625,
+      "learning_rate": 5.360730593607305e-07,
+      "loss": 0.0004,
+      "reward": 2.234375,
+      "reward_std": 0.021564556285738945,
+      "rewards/accuracy_reward": 1.234375,
+      "rewards/format_reward": 1.0,
+      "step": 1016
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 589.28125,
+      "epoch": 1.393150684931507,
+      "grad_norm": 4.602550983428955,
+      "kl": 0.39794921875,
+      "learning_rate": 5.356164383561644e-07,
+      "loss": 0.0004,
+      "reward": 1.671875,
+      "reward_std": 0.08685378730297089,
+      "rewards/accuracy_reward": 0.6718750149011612,
+      "rewards/format_reward": 1.0,
+      "step": 1017
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 393.4375,
+      "epoch": 1.3945205479452054,
+      "grad_norm": 3.207709550857544,
+      "kl": 0.427734375,
+      "learning_rate": 5.351598173515981e-07,
+      "loss": 0.0004,
+      "reward": 1.5703125,
+      "reward_std": 0.4040377363562584,
+      "rewards/accuracy_reward": 0.5703125,
+      "rewards/format_reward": 1.0,
+      "step": 1018
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 472.84375,
+      "epoch": 1.395890410958904,
+      "grad_norm": 3.2689685821533203,
+      "kl": 0.67431640625,
+      "learning_rate": 5.347031963470319e-07,
+      "loss": 0.0007,
+      "reward": 1.21875,
+      "reward_std": 0.1552036553621292,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 1019
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 589.375,
+      "epoch": 1.3972602739726028,
+      "grad_norm": 0.9958803057670593,
+      "kl": 0.3916015625,
+      "learning_rate": 5.342465753424658e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 1020
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 674.09375,
+      "epoch": 1.3986301369863012,
+      "grad_norm": 0.011750375851988792,
+      "kl": 0.37744140625,
+      "learning_rate": 5.337899543378995e-07,
+      "loss": 0.0004,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1021
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 469.75,
+      "epoch": 1.4,
+      "grad_norm": 1.9731483459472656,
+      "kl": 0.416015625,
+      "learning_rate": 5.333333333333333e-07,
+      "loss": 0.0004,
+      "reward": 1.296875,
+      "reward_std": 0.1583191677927971,
+      "rewards/accuracy_reward": 0.296875,
+      "rewards/format_reward": 1.0,
+      "step": 1022
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 446.25,
+      "epoch": 1.4013698630136986,
+      "grad_norm": 1.9909659624099731,
+      "kl": 0.4716796875,
+      "learning_rate": 5.328767123287671e-07,
+      "loss": 0.0005,
+      "reward": 1.6770833134651184,
+      "reward_std": 0.1493791677057743,
+      "rewards/accuracy_reward": 0.6770833432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1023
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 459.75,
+      "epoch": 1.4027397260273973,
+      "grad_norm": 2.081906318664551,
+      "kl": 0.44482421875,
+      "learning_rate": 5.324200913242008e-07,
+      "loss": 0.0004,
+      "reward": 1.453125,
+      "reward_std": 0.10205793008208275,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 1024
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 455.125,
+      "epoch": 1.404109589041096,
+      "grad_norm": 3.8932840824127197,
+      "kl": 0.43310546875,
+      "learning_rate": 5.319634703196348e-07,
+      "loss": 0.0004,
+      "reward": 1.5703125,
+      "reward_std": 0.21006812900304794,
+      "rewards/accuracy_reward": 0.5703125,
+      "rewards/format_reward": 1.0,
+      "step": 1025
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 640.46875,
+      "epoch": 1.4054794520547946,
+      "grad_norm": 1.4310927391052246,
+      "kl": 0.3798828125,
+      "learning_rate": 5.315068493150685e-07,
+      "loss": 0.0004,
+      "reward": 2.3046875,
+      "reward_std": 0.22509318217635155,
+      "rewards/accuracy_reward": 1.3359375,
+      "rewards/format_reward": 0.96875,
+      "step": 1026
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 672.25,
+      "epoch": 1.406849315068493,
+      "grad_norm": 1.759132981300354,
+      "kl": 0.40185546875,
+      "learning_rate": 5.310502283105022e-07,
+      "loss": 0.0004,
+      "reward": 2.203125,
+      "reward_std": 0.08886474184691906,
+      "rewards/accuracy_reward": 1.203125,
+      "rewards/format_reward": 1.0,
+      "step": 1027
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 615.375,
+      "epoch": 1.4082191780821918,
+      "grad_norm": 3.479733467102051,
+      "kl": 0.39208984375,
+      "learning_rate": 5.305936073059361e-07,
+      "loss": 0.0004,
+      "reward": 1.8125,
+      "reward_std": 0.18072159308940172,
+      "rewards/accuracy_reward": 0.8125,
+      "rewards/format_reward": 1.0,
+      "step": 1028
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 601.625,
+      "epoch": 1.4095890410958904,
+      "grad_norm": 1.265955924987793,
+      "kl": 0.40185546875,
+      "learning_rate": 5.301369863013698e-07,
+      "loss": 0.0004,
+      "reward": 1.5625,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 1029
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 407.65625,
+      "epoch": 1.410958904109589,
+      "grad_norm": 2.195356845855713,
+      "kl": 0.40673828125,
+      "learning_rate": 5.296803652968036e-07,
+      "loss": 0.0004,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 1030
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 576.25,
+      "epoch": 1.4123287671232876,
+      "grad_norm": 2.5354678630828857,
+      "kl": 0.4150390625,
+      "learning_rate": 5.292237442922374e-07,
+      "loss": 0.0004,
+      "reward": 1.7526041865348816,
+      "reward_std": 0.26751819998025894,
+      "rewards/accuracy_reward": 0.7526041865348816,
+      "rewards/format_reward": 1.0,
+      "step": 1031
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 409.5,
+      "epoch": 1.4136986301369863,
+      "grad_norm": 2.2394962310791016,
+      "kl": 0.4033203125,
+      "learning_rate": 5.287671232876712e-07,
+      "loss": 0.0004,
+      "reward": 1.55859375,
+      "reward_std": 0.24204615131020546,
+      "rewards/accuracy_reward": 0.55859375,
+      "rewards/format_reward": 1.0,
+      "step": 1032
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 388.4375,
+      "epoch": 1.415068493150685,
+      "grad_norm": 3.40983510017395,
+      "kl": 0.44873046875,
+      "learning_rate": 5.283105022831051e-07,
+      "loss": 0.0004,
+      "reward": 1.5208333730697632,
+      "reward_std": 0.1462521217763424,
+      "rewards/accuracy_reward": 0.5208333432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1033
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.75,
+      "epoch": 1.4164383561643836,
+      "grad_norm": 13.787611961364746,
+      "kl": 0.521484375,
+      "learning_rate": 5.278538812785388e-07,
+      "loss": 0.0005,
+      "reward": 1.7421875,
+      "reward_std": 0.3931891396641731,
+      "rewards/accuracy_reward": 0.7421875,
+      "rewards/format_reward": 1.0,
+      "step": 1034
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 517.46875,
+      "epoch": 1.4178082191780823,
+      "grad_norm": 2.8866333961486816,
+      "kl": 0.4375,
+      "learning_rate": 5.273972602739725e-07,
+      "loss": 0.0004,
+      "reward": 1.91796875,
+      "reward_std": 0.2655315436422825,
+      "rewards/accuracy_reward": 0.91796875,
+      "rewards/format_reward": 1.0,
+      "step": 1035
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 544.75,
+      "epoch": 1.4191780821917808,
+      "grad_norm": 9.114852905273438,
+      "kl": 0.38525390625,
+      "learning_rate": 5.269406392694064e-07,
+      "loss": 0.0004,
+      "reward": 1.28125,
+      "reward_std": 0.011572776362299919,
+      "rewards/accuracy_reward": 0.2812500596046448,
+      "rewards/format_reward": 1.0,
+      "step": 1036
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 422.875,
+      "epoch": 1.4205479452054794,
+      "grad_norm": 16.471826553344727,
+      "kl": 0.42333984375,
+      "learning_rate": 5.264840182648401e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 1037
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 615.90625,
+      "epoch": 1.4219178082191781,
+      "grad_norm": 3.917120933532715,
+      "kl": 0.365234375,
+      "learning_rate": 5.260273972602739e-07,
+      "loss": 0.0004,
+      "reward": 2.125,
+      "reward_std": 0.3387951999902725,
+      "rewards/accuracy_reward": 1.125,
+      "rewards/format_reward": 1.0,
+      "step": 1038
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 620.34375,
+      "epoch": 1.4232876712328766,
+      "grad_norm": 3.029859781265259,
+      "kl": 0.37646484375,
+      "learning_rate": 5.255707762557078e-07,
+      "loss": 0.0004,
+      "reward": 1.265625,
+      "reward_std": 0.24831003323197365,
+      "rewards/accuracy_reward": 0.296875,
+      "rewards/format_reward": 0.96875,
+      "step": 1039
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 625.53125,
+      "epoch": 1.4246575342465753,
+      "grad_norm": 2.636314630508423,
+      "kl": 0.38134765625,
+      "learning_rate": 5.251141552511415e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.1602174937725067,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 0.96875,
+      "step": 1040
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 673.90625,
+      "epoch": 1.426027397260274,
+      "grad_norm": 0.05222203955054283,
+      "kl": 0.39453125,
+      "learning_rate": 5.246575342465754e-07,
+      "loss": 0.0004,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 1041
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 622.21875,
+      "epoch": 1.4273972602739726,
+      "grad_norm": 1.8626619577407837,
+      "kl": 0.41064453125,
+      "learning_rate": 5.242009132420091e-07,
+      "loss": 0.0004,
+      "reward": 1.7109375,
+      "reward_std": 0.2533176839351654,
+      "rewards/accuracy_reward": 0.7109375,
+      "rewards/format_reward": 1.0,
+      "step": 1042
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 706.5625,
+      "epoch": 1.4287671232876713,
+      "grad_norm": 5.207149982452393,
+      "kl": 0.39599609375,
+      "learning_rate": 5.237442922374428e-07,
+      "loss": 0.0004,
+      "reward": 1.65625,
+      "reward_std": 0.10888781771063805,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 1043
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 514.1875,
+      "epoch": 1.43013698630137,
+      "grad_norm": 4.220983028411865,
+      "kl": 0.3994140625,
+      "learning_rate": 5.232876712328767e-07,
+      "loss": 0.0004,
+      "reward": 1.3125,
+      "reward_std": 0.1872510462999344,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 1044
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 517.03125,
+      "epoch": 1.4315068493150684,
+      "grad_norm": 0.013365297578275204,
+      "kl": 0.40283203125,
+      "learning_rate": 5.228310502283105e-07,
+      "loss": 0.0004,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 1045
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 597.3125,
+      "epoch": 1.4328767123287671,
+      "grad_norm": 5.708982467651367,
+      "kl": 0.4072265625,
+      "learning_rate": 5.223744292237443e-07,
+      "loss": 0.0004,
+      "reward": 1.171875,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.171875,
+      "rewards/format_reward": 1.0,
+      "step": 1046
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 608.4375,
+      "epoch": 1.4342465753424658,
+      "grad_norm": 0.010450388304889202,
+      "kl": 0.38671875,
+      "learning_rate": 5.219178082191781e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1047
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 623.375,
+      "epoch": 1.4356164383561643,
+      "grad_norm": 2.191620111465454,
+      "kl": 0.40576171875,
+      "learning_rate": 5.214611872146118e-07,
+      "loss": 0.0004,
+      "reward": 1.9453125,
+      "reward_std": 0.15467960387468338,
+      "rewards/accuracy_reward": 0.9453125,
+      "rewards/format_reward": 1.0,
+      "step": 1048
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 697.84375,
+      "epoch": 1.436986301369863,
+      "grad_norm": 2.188283681869507,
+      "kl": 0.3974609375,
+      "learning_rate": 5.210045662100457e-07,
+      "loss": 0.0004,
+      "reward": 2.078125,
+      "reward_std": 0.3654753863811493,
+      "rewards/accuracy_reward": 1.109375,
+      "rewards/format_reward": 0.96875,
+      "step": 1049
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 693.875,
+      "epoch": 1.4383561643835616,
+      "grad_norm": 2.1615686416625977,
+      "kl": 0.392578125,
+      "learning_rate": 5.205479452054794e-07,
+      "loss": 0.0004,
+      "reward": 1.9375,
+      "reward_std": 0.08625820092856884,
+      "rewards/accuracy_reward": 0.9375,
+      "rewards/format_reward": 1.0,
+      "step": 1050
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 594.4375,
+      "epoch": 1.4397260273972603,
+      "grad_norm": 5.170497894287109,
+      "kl": 0.40380859375,
+      "learning_rate": 5.200913242009131e-07,
+      "loss": 0.0004,
+      "reward": 1.578125,
+      "reward_std": 0.17358146235346794,
+      "rewards/accuracy_reward": 0.578125,
+      "rewards/format_reward": 1.0,
+      "step": 1051
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 596.59375,
+      "epoch": 1.441095890410959,
+      "grad_norm": 2.337460517883301,
+      "kl": 0.41259765625,
+      "learning_rate": 5.196347031963471e-07,
+      "loss": 0.0004,
+      "reward": 1.5078125,
+      "reward_std": 0.1922685094177723,
+      "rewards/accuracy_reward": 0.5078125,
+      "rewards/format_reward": 1.0,
+      "step": 1052
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 571.34375,
+      "epoch": 1.4424657534246577,
+      "grad_norm": 2.1252388954162598,
+      "kl": 0.48681640625,
+      "learning_rate": 5.191780821917808e-07,
+      "loss": 0.0005,
+      "reward": 1.84765625,
+      "reward_std": 0.20727823302149773,
+      "rewards/accuracy_reward": 0.84765625,
+      "rewards/format_reward": 1.0,
+      "step": 1053
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 585.90625,
+      "epoch": 1.4438356164383561,
+      "grad_norm": 3.508568525314331,
+      "kl": 0.40185546875,
+      "learning_rate": 5.187214611872146e-07,
+      "loss": 0.0004,
+      "reward": 1.9427083134651184,
+      "reward_std": 0.28385258466005325,
+      "rewards/accuracy_reward": 0.9427083134651184,
+      "rewards/format_reward": 1.0,
+      "step": 1054
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 559.3125,
+      "epoch": 1.4452054794520548,
+      "grad_norm": 0.9638428092002869,
+      "kl": 0.42529296875,
+      "learning_rate": 5.182648401826484e-07,
+      "loss": 0.0004,
+      "reward": 1.671875,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 1055
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 653.25,
+      "epoch": 1.4465753424657535,
+      "grad_norm": 1.4349052906036377,
+      "kl": 0.41015625,
+      "learning_rate": 5.178082191780821e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1056
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 605.5625,
+      "epoch": 1.447945205479452,
+      "grad_norm": 4.3888959884643555,
+      "kl": 0.37744140625,
+      "learning_rate": 5.17351598173516e-07,
+      "loss": 0.0004,
+      "reward": 1.7578125,
+      "reward_std": 0.34996267780661583,
+      "rewards/accuracy_reward": 0.7578125,
+      "rewards/format_reward": 1.0,
+      "step": 1057
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 437.34375,
+      "epoch": 1.4493150684931506,
+      "grad_norm": 6.0907979011535645,
+      "kl": 0.3837890625,
+      "learning_rate": 5.168949771689497e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.3061639815568924,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 1058
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 477.8125,
+      "epoch": 1.4506849315068493,
+      "grad_norm": 3.576211452484131,
+      "kl": 0.40771484375,
+      "learning_rate": 5.164383561643836e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.35400262102484703,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1059
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 695.625,
+      "epoch": 1.452054794520548,
+      "grad_norm": 1.1513115167617798,
+      "kl": 0.40771484375,
+      "learning_rate": 5.159817351598174e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 1060
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 659.34375,
+      "epoch": 1.4534246575342467,
+      "grad_norm": 1.39273202419281,
+      "kl": 0.40478515625,
+      "learning_rate": 5.155251141552511e-07,
+      "loss": 0.0004,
+      "reward": 1.5416666865348816,
+      "reward_std": 0.04875073581933975,
+      "rewards/accuracy_reward": 0.5416666865348816,
+      "rewards/format_reward": 1.0,
+      "step": 1061
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 460.53125,
+      "epoch": 1.4547945205479453,
+      "grad_norm": 3.6084847450256348,
+      "kl": 0.43994140625,
+      "learning_rate": 5.150684931506849e-07,
+      "loss": 0.0004,
+      "reward": 1.6796875,
+      "reward_std": 0.32507564686238766,
+      "rewards/accuracy_reward": 0.6796875,
+      "rewards/format_reward": 1.0,
+      "step": 1062
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 576.6875,
+      "epoch": 1.4561643835616438,
+      "grad_norm": 1.8823189735412598,
+      "kl": 0.41357421875,
+      "learning_rate": 5.146118721461187e-07,
+      "loss": 0.0004,
+      "reward": 1.6953125,
+      "reward_std": 0.051028965041041374,
+      "rewards/accuracy_reward": 0.6953125,
+      "rewards/format_reward": 1.0,
+      "step": 1063
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 405.3125,
+      "epoch": 1.4575342465753425,
+      "grad_norm": 2.6529791355133057,
+      "kl": 0.42626953125,
+      "learning_rate": 5.141552511415524e-07,
+      "loss": 0.0004,
+      "reward": 1.34375,
+      "reward_std": 0.3987956568598747,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 0.96875,
+      "step": 1064
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 590.3125,
+      "epoch": 1.4589041095890412,
+      "grad_norm": 1.0068092346191406,
+      "kl": 0.40087890625,
+      "learning_rate": 5.136986301369864e-07,
+      "loss": 0.0004,
+      "reward": 1.203125,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.203125,
+      "rewards/format_reward": 1.0,
+      "step": 1065
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 656.46875,
+      "epoch": 1.4602739726027396,
+      "grad_norm": 1.355575680732727,
+      "kl": 0.40234375,
+      "learning_rate": 5.132420091324201e-07,
+      "loss": 0.0004,
+      "reward": 1.3359375,
+      "reward_std": 0.11048543453216553,
+      "rewards/accuracy_reward": 0.3671875,
+      "rewards/format_reward": 0.96875,
+      "step": 1066
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 684.3125,
+      "epoch": 1.4616438356164383,
+      "grad_norm": 4.599119186401367,
+      "kl": 0.40087890625,
+      "learning_rate": 5.127853881278538e-07,
+      "loss": 0.0004,
+      "reward": 1.234375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 1067
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 395.1875,
+      "epoch": 1.463013698630137,
+      "grad_norm": 3.3546669483184814,
+      "kl": 0.431640625,
+      "learning_rate": 5.123287671232877e-07,
+      "loss": 0.0004,
+      "reward": 1.546875,
+      "reward_std": 0.2688095048069954,
+      "rewards/accuracy_reward": 0.546875,
+      "rewards/format_reward": 1.0,
+      "step": 1068
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 645.15625,
+      "epoch": 1.4643835616438357,
+      "grad_norm": 0.9693533778190613,
+      "kl": 0.37548828125,
+      "learning_rate": 5.118721461187214e-07,
+      "loss": 0.0004,
+      "reward": 1.703125,
+      "reward_std": 0.13258251547813416,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 0.96875,
+      "step": 1069
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 390.59375,
+      "epoch": 1.4657534246575343,
+      "grad_norm": 5.135848522186279,
+      "kl": 0.4501953125,
+      "learning_rate": 5.114155251141552e-07,
+      "loss": 0.0005,
+      "reward": 1.25,
+      "reward_std": 0.2587745785713196,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1070
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 645.34375,
+      "epoch": 1.467123287671233,
+      "grad_norm": 2.1717827320098877,
+      "kl": 0.39697265625,
+      "learning_rate": 5.10958904109589e-07,
+      "loss": 0.0004,
+      "reward": 1.7890625,
+      "reward_std": 0.14405347406864166,
+      "rewards/accuracy_reward": 0.7890625,
+      "rewards/format_reward": 1.0,
+      "step": 1071
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 473.3125,
+      "epoch": 1.4684931506849315,
+      "grad_norm": 0.013829568400979042,
+      "kl": 0.4306640625,
+      "learning_rate": 5.105022831050228e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1072
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 373.28125,
+      "epoch": 1.4698630136986301,
+      "grad_norm": 1.5656938552856445,
+      "kl": 0.41357421875,
+      "learning_rate": 5.100456621004567e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 1073
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 378.1875,
+      "epoch": 1.4712328767123288,
+      "grad_norm": 2.8259494304656982,
+      "kl": 0.46533203125,
+      "learning_rate": 5.095890410958904e-07,
+      "loss": 0.0005,
+      "reward": 1.3125,
+      "reward_std": 0.249358132481575,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 1074
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 456.03125,
+      "epoch": 1.4726027397260273,
+      "grad_norm": 0.013263041153550148,
+      "kl": 0.46826171875,
+      "learning_rate": 5.091324200913241e-07,
+      "loss": 0.0005,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1075
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 470.5,
+      "epoch": 1.473972602739726,
+      "grad_norm": 1.3220722675323486,
+      "kl": 0.52734375,
+      "learning_rate": 5.08675799086758e-07,
+      "loss": 0.0005,
+      "reward": 1.6830357313156128,
+      "reward_std": 0.05551180522888899,
+      "rewards/accuracy_reward": 0.6830357313156128,
+      "rewards/format_reward": 1.0,
+      "step": 1076
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 560.6875,
+      "epoch": 1.4753424657534246,
+      "grad_norm": 2.5499725341796875,
+      "kl": 0.43408203125,
+      "learning_rate": 5.082191780821917e-07,
+      "loss": 0.0004,
+      "reward": 1.856249988079071,
+      "reward_std": 0.20492872223258018,
+      "rewards/accuracy_reward": 0.856249988079071,
+      "rewards/format_reward": 1.0,
+      "step": 1077
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 523.125,
+      "epoch": 1.4767123287671233,
+      "grad_norm": 1.6360656023025513,
+      "kl": 0.435546875,
+      "learning_rate": 5.077625570776255e-07,
+      "loss": 0.0004,
+      "reward": 1.375,
+      "reward_std": 0.0657587293535471,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 1078
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 504.5,
+      "epoch": 1.478082191780822,
+      "grad_norm": 2.001924753189087,
+      "kl": 0.42333984375,
+      "learning_rate": 5.073059360730594e-07,
+      "loss": 0.0004,
+      "reward": 1.8828125,
+      "reward_std": 0.28407670371234417,
+      "rewards/accuracy_reward": 0.8828125,
+      "rewards/format_reward": 1.0,
+      "step": 1079
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 448.90625,
+      "epoch": 1.4794520547945205,
+      "grad_norm": 2.6030187606811523,
+      "kl": 0.4755859375,
+      "learning_rate": 5.068493150684931e-07,
+      "loss": 0.0005,
+      "reward": 1.546875,
+      "reward_std": 0.1446593925356865,
+      "rewards/accuracy_reward": 0.546875,
+      "rewards/format_reward": 1.0,
+      "step": 1080
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 453.46875,
+      "epoch": 1.4808219178082191,
+      "grad_norm": 2.260098457336426,
+      "kl": 0.42626953125,
+      "learning_rate": 5.06392694063927e-07,
+      "loss": 0.0004,
+      "reward": 2.140625,
+      "reward_std": 0.17358146235346794,
+      "rewards/accuracy_reward": 1.140625,
+      "rewards/format_reward": 1.0,
+      "step": 1081
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 565.25,
+      "epoch": 1.4821917808219178,
+      "grad_norm": 1.4388035535812378,
+      "kl": 0.57080078125,
+      "learning_rate": 5.059360730593607e-07,
+      "loss": 0.0006,
+      "reward": 1.22265625,
+      "reward_std": 0.03096972592175007,
+      "rewards/accuracy_reward": 0.22265625,
+      "rewards/format_reward": 1.0,
+      "step": 1082
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 568.78125,
+      "epoch": 1.4835616438356165,
+      "grad_norm": 2.0839176177978516,
+      "kl": 0.4443359375,
+      "learning_rate": 5.054794520547944e-07,
+      "loss": 0.0004,
+      "reward": 1.2421875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.2421875,
+      "rewards/format_reward": 1.0,
+      "step": 1083
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 557.1875,
+      "epoch": 1.484931506849315,
+      "grad_norm": 2.2786290645599365,
+      "kl": 0.39599609375,
+      "learning_rate": 5.050228310502283e-07,
+      "loss": 0.0004,
+      "reward": 1.828125,
+      "reward_std": 0.1983242630958557,
+      "rewards/accuracy_reward": 0.828125,
+      "rewards/format_reward": 1.0,
+      "step": 1084
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 559.0625,
+      "epoch": 1.4863013698630136,
+      "grad_norm": 2.083928346633911,
+      "kl": 0.412109375,
+      "learning_rate": 5.045662100456621e-07,
+      "loss": 0.0004,
+      "reward": 1.5572916269302368,
+      "reward_std": 0.18713700026273727,
+      "rewards/accuracy_reward": 0.5572916865348816,
+      "rewards/format_reward": 1.0,
+      "step": 1085
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 433.8125,
+      "epoch": 1.4876712328767123,
+      "grad_norm": 3.7755258083343506,
+      "kl": 0.45458984375,
+      "learning_rate": 5.041095890410959e-07,
+      "loss": 0.0005,
+      "reward": 1.515625,
+      "reward_std": 0.10685513913631439,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 1086
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 554.40625,
+      "epoch": 1.489041095890411,
+      "grad_norm": 2.3179757595062256,
+      "kl": 0.419921875,
+      "learning_rate": 5.036529680365297e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.1462521031498909,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1087
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 429.71875,
+      "epoch": 1.4904109589041097,
+      "grad_norm": 2.272690773010254,
+      "kl": 0.4716796875,
+      "learning_rate": 5.031963470319634e-07,
+      "loss": 0.0005,
+      "reward": 1.890625,
+      "reward_std": 0.1530819907784462,
+      "rewards/accuracy_reward": 0.890625,
+      "rewards/format_reward": 1.0,
+      "step": 1088
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 486.40625,
+      "epoch": 1.4917808219178081,
+      "grad_norm": 3.9286818504333496,
+      "kl": 0.43310546875,
+      "learning_rate": 5.027397260273973e-07,
+      "loss": 0.0004,
+      "reward": 1.8203125,
+      "reward_std": 0.3037749156355858,
+      "rewards/accuracy_reward": 0.8203125,
+      "rewards/format_reward": 1.0,
+      "step": 1089
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 554.40625,
+      "epoch": 1.4931506849315068,
+      "grad_norm": 3.6311943531036377,
+      "kl": 0.41162109375,
+      "learning_rate": 5.02283105022831e-07,
+      "loss": 0.0004,
+      "reward": 1.8359375,
+      "reward_std": 0.2321696523576975,
+      "rewards/accuracy_reward": 0.8359375,
+      "rewards/format_reward": 1.0,
+      "step": 1090
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 467.03125,
+      "epoch": 1.4945205479452055,
+      "grad_norm": 2.5877580642700195,
+      "kl": 0.43896484375,
+      "learning_rate": 5.018264840182647e-07,
+      "loss": 0.0004,
+      "reward": 1.71875,
+      "reward_std": 0.2164301462471485,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 1.0,
+      "step": 1091
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 569.15625,
+      "epoch": 1.4958904109589042,
+      "grad_norm": 1.0099761486053467,
+      "kl": 0.42724609375,
+      "learning_rate": 5.013698630136987e-07,
+      "loss": 0.0004,
+      "reward": 1.7421875,
+      "reward_std": 0.01446593925356865,
+      "rewards/accuracy_reward": 0.7421875,
+      "rewards/format_reward": 1.0,
+      "step": 1092
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 471.59375,
+      "epoch": 1.4972602739726026,
+      "grad_norm": 2.8389699459075928,
+      "kl": 0.4384765625,
+      "learning_rate": 5.009132420091324e-07,
+      "loss": 0.0004,
+      "reward": 1.8854166865348816,
+      "reward_std": 0.1962026134133339,
+      "rewards/accuracy_reward": 0.8854166567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1093
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 582.40625,
+      "epoch": 1.4986301369863013,
+      "grad_norm": 7.311434268951416,
+      "kl": 0.4140625,
+      "learning_rate": 5.004566210045662e-07,
+      "loss": 0.0004,
+      "reward": 1.78125,
+      "reward_std": 0.1293872967362404,
+      "rewards/accuracy_reward": 0.78125,
+      "rewards/format_reward": 1.0,
+      "step": 1094
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 481.65625,
+      "epoch": 1.5,
+      "grad_norm": 2.032144069671631,
+      "kl": 0.42138671875,
+      "learning_rate": 5e-07,
+      "loss": 0.0004,
+      "reward": 1.7760416269302368,
+      "reward_std": 0.19408093392848969,
+      "rewards/accuracy_reward": 0.7760416269302368,
+      "rewards/format_reward": 1.0,
+      "step": 1095
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 679.78125,
+      "epoch": 1.5013698630136987,
+      "grad_norm": 0.418630987405777,
+      "kl": 0.39306640625,
+      "learning_rate": 4.995433789954337e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.96875,
+      "step": 1096
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 668.125,
+      "epoch": 1.5027397260273974,
+      "grad_norm": 3.7906830310821533,
+      "kl": 0.400390625,
+      "learning_rate": 4.990867579908676e-07,
+      "loss": 0.0004,
+      "reward": 2.026041626930237,
+      "reward_std": 0.21575229242444038,
+      "rewards/accuracy_reward": 1.0572916567325592,
+      "rewards/format_reward": 0.96875,
+      "step": 1097
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 506.03125,
+      "epoch": 1.504109589041096,
+      "grad_norm": 1.159494161605835,
+      "kl": 0.408203125,
+      "learning_rate": 4.986301369863014e-07,
+      "loss": 0.0004,
+      "reward": 1.203125,
+      "reward_std": 0.05540032684803009,
+      "rewards/accuracy_reward": 0.203125,
+      "rewards/format_reward": 1.0,
+      "step": 1098
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 596.375,
+      "epoch": 1.5054794520547945,
+      "grad_norm": 0.9635453224182129,
+      "kl": 0.38916015625,
+      "learning_rate": 4.981735159817351e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.96875,
+      "step": 1099
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 658.40625,
+      "epoch": 1.5068493150684932,
+      "grad_norm": 1.4966192245483398,
+      "kl": 0.39892578125,
+      "learning_rate": 4.977168949771689e-07,
+      "loss": 0.0004,
+      "reward": 2.220833420753479,
+      "reward_std": 0.07357475813478231,
+      "rewards/accuracy_reward": 1.2208333611488342,
+      "rewards/format_reward": 1.0,
+      "step": 1100
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 563.0625,
+      "epoch": 1.5082191780821916,
+      "grad_norm": 1.5381388664245605,
+      "kl": 0.39404296875,
+      "learning_rate": 4.972602739726027e-07,
+      "loss": 0.0004,
+      "reward": 1.703125,
+      "reward_std": 0.0776018276810646,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 1.0,
+      "step": 1101
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 683.75,
+      "epoch": 1.5095890410958903,
+      "grad_norm": 1.9714819192886353,
+      "kl": 0.48876953125,
+      "learning_rate": 4.968036529680365e-07,
+      "loss": 0.0005,
+      "reward": 1.60546875,
+      "reward_std": 0.20222019031643867,
+      "rewards/accuracy_reward": 0.60546875,
+      "rewards/format_reward": 1.0,
+      "step": 1102
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 457.9375,
+      "epoch": 1.510958904109589,
+      "grad_norm": 0.9415334463119507,
+      "kl": 0.43359375,
+      "learning_rate": 4.963470319634703e-07,
+      "loss": 0.0004,
+      "reward": 1.6875,
+      "reward_std": 0.047245558351278305,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 1103
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 461.9375,
+      "epoch": 1.5123287671232877,
+      "grad_norm": 2.621055841445923,
+      "kl": 0.46728515625,
+      "learning_rate": 4.958904109589041e-07,
+      "loss": 0.0005,
+      "reward": 1.3854166567325592,
+      "reward_std": 0.2766118384897709,
+      "rewards/accuracy_reward": 0.3854166567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1104
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 475.65625,
+      "epoch": 1.5136986301369864,
+      "grad_norm": 0.012318870984017849,
+      "kl": 0.42236328125,
+      "learning_rate": 4.954337899543379e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1105
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 395.0625,
+      "epoch": 1.515068493150685,
+      "grad_norm": 2.9693081378936768,
+      "kl": 0.42138671875,
+      "learning_rate": 4.949771689497717e-07,
+      "loss": 0.0004,
+      "reward": 1.5546875,
+      "reward_std": 0.13782460056245327,
+      "rewards/accuracy_reward": 0.5546875,
+      "rewards/format_reward": 1.0,
+      "step": 1106
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 578.59375,
+      "epoch": 1.5164383561643837,
+      "grad_norm": 2.937879800796509,
+      "kl": 0.40966796875,
+      "learning_rate": 4.945205479452055e-07,
+      "loss": 0.0004,
+      "reward": 1.4453125,
+      "reward_std": 0.18542881309986115,
+      "rewards/accuracy_reward": 0.4453125,
+      "rewards/format_reward": 1.0,
+      "step": 1107
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 594.375,
+      "epoch": 1.5178082191780822,
+      "grad_norm": 1.5182214975357056,
+      "kl": 0.40625,
+      "learning_rate": 4.940639269406393e-07,
+      "loss": 0.0004,
+      "reward": 1.9562499523162842,
+      "reward_std": 0.2735244408249855,
+      "rewards/accuracy_reward": 0.9874999821186066,
+      "rewards/format_reward": 0.96875,
+      "step": 1108
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 376.90625,
+      "epoch": 1.5191780821917809,
+      "grad_norm": 1.6330169439315796,
+      "kl": 0.46923828125,
+      "learning_rate": 4.93607305936073e-07,
+      "loss": 0.0005,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 1109
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 493.40625,
+      "epoch": 1.5205479452054793,
+      "grad_norm": 2.205390214920044,
+      "kl": 0.40625,
+      "learning_rate": 4.931506849315068e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.11201112531125546,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1110
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 595.6875,
+      "epoch": 1.521917808219178,
+      "grad_norm": 2.025320053100586,
+      "kl": 0.52392578125,
+      "learning_rate": 4.926940639269407e-07,
+      "loss": 0.0005,
+      "reward": 1.8024553656578064,
+      "reward_std": 0.10385276935994625,
+      "rewards/accuracy_reward": 0.8024553656578064,
+      "rewards/format_reward": 1.0,
+      "step": 1111
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 585.8125,
+      "epoch": 1.5232876712328767,
+      "grad_norm": 2.602057933807373,
+      "kl": 0.40087890625,
+      "learning_rate": 4.922374429223744e-07,
+      "loss": 0.0004,
+      "reward": 1.4817708134651184,
+      "reward_std": 0.04138501361012459,
+      "rewards/accuracy_reward": 0.4817708283662796,
+      "rewards/format_reward": 1.0,
+      "step": 1112
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 708.90625,
+      "epoch": 1.5246575342465754,
+      "grad_norm": 1.9242427349090576,
+      "kl": 0.41064453125,
+      "learning_rate": 4.917808219178081e-07,
+      "loss": 0.0004,
+      "reward": 2.1640625,
+      "reward_std": 0.163336630910635,
+      "rewards/accuracy_reward": 1.1640625,
+      "rewards/format_reward": 1.0,
+      "step": 1113
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 418.0,
+      "epoch": 1.526027397260274,
+      "grad_norm": 2.0295932292938232,
+      "kl": 0.43115234375,
+      "learning_rate": 4.91324200913242e-07,
+      "loss": 0.0004,
+      "reward": 1.265625,
+      "reward_std": 0.10132708307355642,
+      "rewards/accuracy_reward": 0.2656249701976776,
+      "rewards/format_reward": 1.0,
+      "step": 1114
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 726.59375,
+      "epoch": 1.5273972602739727,
+      "grad_norm": 0.9855360984802246,
+      "kl": 0.3779296875,
+      "learning_rate": 4.908675799086758e-07,
+      "loss": 0.0004,
+      "reward": 1.234375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 1115
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 613.34375,
+      "epoch": 1.5287671232876714,
+      "grad_norm": 0.014190815389156342,
+      "kl": 0.3974609375,
+      "learning_rate": 4.904109589041096e-07,
+      "loss": 0.0004,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 1116
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 754.9375,
+      "epoch": 1.5301369863013699,
+      "grad_norm": 3.0324220657348633,
+      "kl": 0.3544921875,
+      "learning_rate": 4.899543378995434e-07,
+      "loss": 0.0004,
+      "reward": 1.78125,
+      "reward_std": 0.26516503654420376,
+      "rewards/accuracy_reward": 0.8125,
+      "rewards/format_reward": 0.96875,
+      "step": 1117
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 744.5625,
+      "epoch": 1.5315068493150685,
+      "grad_norm": 18.784997940063477,
+      "kl": 0.37353515625,
+      "learning_rate": 4.894977168949771e-07,
+      "loss": 0.0004,
+      "reward": 1.8671875,
+      "reward_std": 0.29189828783273697,
+      "rewards/accuracy_reward": 0.8984375,
+      "rewards/format_reward": 0.96875,
+      "step": 1118
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 588.84375,
+      "epoch": 1.532876712328767,
+      "grad_norm": 1.71076238155365,
+      "kl": 0.40234375,
+      "learning_rate": 4.89041095890411e-07,
+      "loss": 0.0004,
+      "reward": 1.6822916567325592,
+      "reward_std": 0.1304589156061411,
+      "rewards/accuracy_reward": 0.6822916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1119
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 479.96875,
+      "epoch": 1.5342465753424657,
+      "grad_norm": 3.9178566932678223,
+      "kl": 0.41845703125,
+      "learning_rate": 4.885844748858447e-07,
+      "loss": 0.0004,
+      "reward": 1.609375,
+      "reward_std": 0.29778173938393593,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 0.96875,
+      "step": 1120
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 648.0,
+      "epoch": 1.5356164383561643,
+      "grad_norm": 3.17132568359375,
+      "kl": 0.39208984375,
+      "learning_rate": 4.881278538812786e-07,
+      "loss": 0.0004,
+      "reward": 2.1328125,
+      "reward_std": 0.5132424086332321,
+      "rewards/accuracy_reward": 1.1640625,
+      "rewards/format_reward": 0.96875,
+      "step": 1121
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 628.09375,
+      "epoch": 1.536986301369863,
+      "grad_norm": 2.8841896057128906,
+      "kl": 0.396484375,
+      "learning_rate": 4.876712328767123e-07,
+      "loss": 0.0004,
+      "reward": 1.34375,
+      "reward_std": 0.31799860298633575,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 0.96875,
+      "step": 1122
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 716.6875,
+      "epoch": 1.5383561643835617,
+      "grad_norm": 1.9038556814193726,
+      "kl": 0.37890625,
+      "learning_rate": 4.872146118721461e-07,
+      "loss": 0.0004,
+      "reward": 1.5677083730697632,
+      "reward_std": 0.044194187968969345,
+      "rewards/accuracy_reward": 0.5677083134651184,
+      "rewards/format_reward": 1.0,
+      "step": 1123
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 607.8125,
+      "epoch": 1.5397260273972604,
+      "grad_norm": 2.418382167816162,
+      "kl": 0.40478515625,
+      "learning_rate": 4.867579908675799e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.1825428232550621,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1124
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 624.8125,
+      "epoch": 1.541095890410959,
+      "grad_norm": 2.2845261096954346,
+      "kl": 0.40869140625,
+      "learning_rate": 4.863013698630137e-07,
+      "loss": 0.0004,
+      "reward": 1.618402749300003,
+      "reward_std": 0.2863776348531246,
+      "rewards/accuracy_reward": 0.6496527940034866,
+      "rewards/format_reward": 0.96875,
+      "step": 1125
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 743.28125,
+      "epoch": 1.5424657534246575,
+      "grad_norm": 0.8315089344978333,
+      "kl": 0.376953125,
+      "learning_rate": 4.858447488584474e-07,
+      "loss": 0.0004,
+      "reward": 1.74609375,
+      "reward_std": 0.011048543266952038,
+      "rewards/accuracy_reward": 0.74609375,
+      "rewards/format_reward": 1.0,
+      "step": 1126
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 618.0625,
+      "epoch": 1.5438356164383562,
+      "grad_norm": 3.589264154434204,
+      "kl": 0.42529296875,
+      "learning_rate": 4.853881278538813e-07,
+      "loss": 0.0004,
+      "reward": 1.7578125,
+      "reward_std": 0.19488709792494774,
+      "rewards/accuracy_reward": 0.7578125,
+      "rewards/format_reward": 1.0,
+      "step": 1127
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 614.625,
+      "epoch": 1.5452054794520547,
+      "grad_norm": 1.5907975435256958,
+      "kl": 0.39111328125,
+      "learning_rate": 4.84931506849315e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 1128
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 510.78125,
+      "epoch": 1.5465753424657533,
+      "grad_norm": 4.994978427886963,
+      "kl": 0.42333984375,
+      "learning_rate": 4.844748858447489e-07,
+      "loss": 0.0004,
+      "reward": 1.0625,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/format_reward": 1.0,
+      "step": 1129
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 497.78125,
+      "epoch": 1.547945205479452,
+      "grad_norm": 3.366776704788208,
+      "kl": 0.404296875,
+      "learning_rate": 4.840182648401826e-07,
+      "loss": 0.0004,
+      "reward": 2.0,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1130
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 591.5625,
+      "epoch": 1.5493150684931507,
+      "grad_norm": 1.8269691467285156,
+      "kl": 0.40283203125,
+      "learning_rate": 4.835616438356164e-07,
+      "loss": 0.0004,
+      "reward": 1.55859375,
+      "reward_std": 0.12677605729550123,
+      "rewards/accuracy_reward": 0.55859375,
+      "rewards/format_reward": 1.0,
+      "step": 1131
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 609.34375,
+      "epoch": 1.5506849315068494,
+      "grad_norm": 21.691980361938477,
+      "kl": 0.4072265625,
+      "learning_rate": 4.831050228310502e-07,
+      "loss": 0.0004,
+      "reward": 1.515625,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 1132
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 488.15625,
+      "epoch": 1.552054794520548,
+      "grad_norm": 0.987642765045166,
+      "kl": 0.41748046875,
+      "learning_rate": 4.82648401826484e-07,
+      "loss": 0.0004,
+      "reward": 1.21875,
+      "reward_std": 0.033407654613256454,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 1133
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 591.375,
+      "epoch": 1.5534246575342465,
+      "grad_norm": 2.146747589111328,
+      "kl": 0.40869140625,
+      "learning_rate": 4.821917808219178e-07,
+      "loss": 0.0004,
+      "reward": 1.734375,
+      "reward_std": 0.18798284605145454,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 1134
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 593.71875,
+      "epoch": 1.5547945205479452,
+      "grad_norm": 2.7658278942108154,
+      "kl": 0.40771484375,
+      "learning_rate": 4.817351598173516e-07,
+      "loss": 0.0004,
+      "reward": 2.05078125,
+      "reward_std": 0.2639545798301697,
+      "rewards/accuracy_reward": 1.0507812201976776,
+      "rewards/format_reward": 1.0,
+      "step": 1135
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 666.625,
+      "epoch": 1.5561643835616439,
+      "grad_norm": 2.783714771270752,
+      "kl": 0.45654296875,
+      "learning_rate": 4.812785388127853e-07,
+      "loss": 0.0005,
+      "reward": 1.703125,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 1.0,
+      "step": 1136
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 589.125,
+      "epoch": 1.5575342465753423,
+      "grad_norm": 1.6050938367843628,
+      "kl": 0.423828125,
+      "learning_rate": 4.808219178082192e-07,
+      "loss": 0.0004,
+      "reward": 1.234375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 1137
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 693.78125,
+      "epoch": 1.558904109589041,
+      "grad_norm": 2.346237897872925,
+      "kl": 0.40478515625,
+      "learning_rate": 4.80365296803653e-07,
+      "loss": 0.0004,
+      "reward": 1.9615885019302368,
+      "reward_std": 0.08357859402894974,
+      "rewards/accuracy_reward": 0.961588516831398,
+      "rewards/format_reward": 1.0,
+      "step": 1138
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 666.65625,
+      "epoch": 1.5602739726027397,
+      "grad_norm": 1.9619910717010498,
+      "kl": 0.37646484375,
+      "learning_rate": 4.799086757990867e-07,
+      "loss": 0.0004,
+      "reward": 1.87109375,
+      "reward_std": 0.2707233875989914,
+      "rewards/accuracy_reward": 0.87109375,
+      "rewards/format_reward": 1.0,
+      "step": 1139
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 470.625,
+      "epoch": 1.5616438356164384,
+      "grad_norm": 0.973290741443634,
+      "kl": 0.44140625,
+      "learning_rate": 4.794520547945205e-07,
+      "loss": 0.0004,
+      "reward": 1.578125,
+      "reward_std": 0.014731419272720814,
+      "rewards/accuracy_reward": 0.578125,
+      "rewards/format_reward": 1.0,
+      "step": 1140
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 484.6875,
+      "epoch": 1.563013698630137,
+      "grad_norm": 2.4654948711395264,
+      "kl": 0.53173828125,
+      "learning_rate": 4.789954337899543e-07,
+      "loss": 0.0005,
+      "reward": 1.26171875,
+      "reward_std": 0.11163908988237381,
+      "rewards/accuracy_reward": 0.26171875,
+      "rewards/format_reward": 1.0,
+      "step": 1141
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 567.5625,
+      "epoch": 1.5643835616438357,
+      "grad_norm": 2.551671028137207,
+      "kl": 0.44091796875,
+      "learning_rate": 4.785388127853881e-07,
+      "loss": 0.0004,
+      "reward": 1.671875,
+      "reward_std": 0.2057085707783699,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 0.96875,
+      "step": 1142
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 231.3125,
+      "epoch": 1.5657534246575342,
+      "grad_norm": 2.1006903648376465,
+      "kl": 0.5888671875,
+      "learning_rate": 4.780821917808219e-07,
+      "loss": 0.0006,
+      "reward": 1.15625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.15625,
+      "rewards/format_reward": 1.0,
+      "step": 1143
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 660.5625,
+      "epoch": 1.5671232876712329,
+      "grad_norm": 0.02740260772407055,
+      "kl": 0.42138671875,
+      "learning_rate": 4.776255707762557e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1144
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 348.65625,
+      "epoch": 1.5684931506849316,
+      "grad_norm": 5.710862159729004,
+      "kl": 0.509765625,
+      "learning_rate": 4.771689497716894e-07,
+      "loss": 0.0005,
+      "reward": 1.94921875,
+      "reward_std": 0.3091614730656147,
+      "rewards/accuracy_reward": 0.94921875,
+      "rewards/format_reward": 1.0,
+      "step": 1145
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 736.875,
+      "epoch": 1.56986301369863,
+      "grad_norm": 1.3584046363830566,
+      "kl": 0.36279296875,
+      "learning_rate": 4.7671232876712324e-07,
+      "loss": 0.0004,
+      "reward": 2.4600694477558136,
+      "reward_std": 0.2214893326163292,
+      "rewards/accuracy_reward": 1.4913194477558136,
+      "rewards/format_reward": 0.96875,
+      "step": 1146
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 495.15625,
+      "epoch": 1.5712328767123287,
+      "grad_norm": 1.7111105918884277,
+      "kl": 0.4248046875,
+      "learning_rate": 4.762557077625571e-07,
+      "loss": 0.0004,
+      "reward": 1.765625,
+      "reward_std": 0.24831002950668335,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 1.0,
+      "step": 1147
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 588.1875,
+      "epoch": 1.5726027397260274,
+      "grad_norm": 2.6401004791259766,
+      "kl": 0.41064453125,
+      "learning_rate": 4.7579908675799086e-07,
+      "loss": 0.0004,
+      "reward": 1.484375,
+      "reward_std": 0.1804211586713791,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 1148
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 741.5,
+      "epoch": 1.573972602739726,
+      "grad_norm": 1.7018877267837524,
+      "kl": 0.3671875,
+      "learning_rate": 4.7534246575342465e-07,
+      "loss": 0.0004,
+      "reward": 1.9427083134651184,
+      "reward_std": 0.05839468166232109,
+      "rewards/accuracy_reward": 0.9427083134651184,
+      "rewards/format_reward": 1.0,
+      "step": 1149
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 469.21875,
+      "epoch": 1.5753424657534247,
+      "grad_norm": 1.7051218748092651,
+      "kl": 0.490234375,
+      "learning_rate": 4.748858447488584e-07,
+      "loss": 0.0005,
+      "reward": 1.34375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 1150
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 369.15625,
+      "epoch": 1.5767123287671234,
+      "grad_norm": 4.171659469604492,
+      "kl": 0.6005859375,
+      "learning_rate": 4.744292237442922e-07,
+      "loss": 0.0006,
+      "reward": 1.59375,
+      "reward_std": 0.3377464786171913,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 1151
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.375,
+      "epoch": 1.5780821917808219,
+      "grad_norm": 3.249023914337158,
+      "kl": 0.47802734375,
+      "learning_rate": 4.73972602739726e-07,
+      "loss": 0.0005,
+      "reward": 1.390625,
+      "reward_std": 0.2877064570784569,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 1.0,
+      "step": 1152
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 594.875,
+      "epoch": 1.5794520547945206,
+      "grad_norm": 2.098653793334961,
+      "kl": 0.43017578125,
+      "learning_rate": 4.735159817351598e-07,
+      "loss": 0.0004,
+      "reward": 1.5859375,
+      "reward_std": 0.22642775624990463,
+      "rewards/accuracy_reward": 0.5859375,
+      "rewards/format_reward": 1.0,
+      "step": 1153
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 493.90625,
+      "epoch": 1.580821917808219,
+      "grad_norm": 10.957507133483887,
+      "kl": 0.4208984375,
+      "learning_rate": 4.730593607305936e-07,
+      "loss": 0.0004,
+      "reward": 1.578125,
+      "reward_std": 0.05703043378889561,
+      "rewards/accuracy_reward": 0.578125,
+      "rewards/format_reward": 1.0,
+      "step": 1154
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 563.15625,
+      "epoch": 1.5821917808219177,
+      "grad_norm": 2.439707040786743,
+      "kl": 0.42529296875,
+      "learning_rate": 4.726027397260274e-07,
+      "loss": 0.0004,
+      "reward": 1.328125,
+      "reward_std": 0.2536758780479431,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 0.96875,
+      "step": 1155
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 491.25,
+      "epoch": 1.5835616438356164,
+      "grad_norm": 2.2392847537994385,
+      "kl": 0.447265625,
+      "learning_rate": 4.7214611872146116e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 0.96875,
+      "step": 1156
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.75,
+      "epoch": 1.584931506849315,
+      "grad_norm": 13.839086532592773,
+      "kl": 0.5,
+      "learning_rate": 4.71689497716895e-07,
+      "loss": 0.0005,
+      "reward": 1.5625,
+      "reward_std": 0.2925042062997818,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 1157
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.34375,
+      "epoch": 1.5863013698630137,
+      "grad_norm": 3.940971851348877,
+      "kl": 0.654296875,
+      "learning_rate": 4.7123287671232874e-07,
+      "loss": 0.0007,
+      "reward": 1.234375,
+      "reward_std": 0.3527624309062958,
+      "rewards/accuracy_reward": 0.265625,
+      "rewards/format_reward": 0.96875,
+      "step": 1158
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.4375,
+      "epoch": 1.5876712328767124,
+      "grad_norm": 2.9342215061187744,
+      "kl": 0.45751953125,
+      "learning_rate": 4.707762557077625e-07,
+      "loss": 0.0005,
+      "reward": 1.5,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1159
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 478.1875,
+      "epoch": 1.589041095890411,
+      "grad_norm": 3.3392765522003174,
+      "kl": 0.4423828125,
+      "learning_rate": 4.703196347031963e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1160
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 603.71875,
+      "epoch": 1.5904109589041096,
+      "grad_norm": 0.8220039010047913,
+      "kl": 0.40771484375,
+      "learning_rate": 4.6986301369863015e-07,
+      "loss": 0.0004,
+      "reward": 1.78125,
+      "reward_std": 0.1735912710428238,
+      "rewards/accuracy_reward": 0.78125,
+      "rewards/format_reward": 1.0,
+      "step": 1161
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 601.875,
+      "epoch": 1.5917808219178082,
+      "grad_norm": 3.5297791957855225,
+      "kl": 0.42431640625,
+      "learning_rate": 4.694063926940639e-07,
+      "loss": 0.0004,
+      "reward": 1.34375,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 0.96875,
+      "step": 1162
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 450.5625,
+      "epoch": 1.5931506849315067,
+      "grad_norm": 3.602903366088867,
+      "kl": 0.4453125,
+      "learning_rate": 4.689497716894977e-07,
+      "loss": 0.0004,
+      "reward": 1.6796875,
+      "reward_std": 0.13782460056245327,
+      "rewards/accuracy_reward": 0.6796875,
+      "rewards/format_reward": 1.0,
+      "step": 1163
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 462.96875,
+      "epoch": 1.5945205479452054,
+      "grad_norm": 2.8376576900482178,
+      "kl": 0.466796875,
+      "learning_rate": 4.684931506849315e-07,
+      "loss": 0.0005,
+      "reward": 1.3671875,
+      "reward_std": 0.1557277049869299,
+      "rewards/accuracy_reward": 0.3671875,
+      "rewards/format_reward": 1.0,
+      "step": 1164
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 364.15625,
+      "epoch": 1.595890410958904,
+      "grad_norm": 3.0268356800079346,
+      "kl": 0.453125,
+      "learning_rate": 4.680365296803653e-07,
+      "loss": 0.0005,
+      "reward": 1.4791666269302368,
+      "reward_std": 0.2723301202058792,
+      "rewards/accuracy_reward": 0.4791666865348816,
+      "rewards/format_reward": 1.0,
+      "step": 1165
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 458.1875,
+      "epoch": 1.5972602739726027,
+      "grad_norm": 7.985335826873779,
+      "kl": 0.48779296875,
+      "learning_rate": 4.6757990867579904e-07,
+      "loss": 0.0005,
+      "reward": 1.296875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.296875,
+      "rewards/format_reward": 1.0,
+      "step": 1166
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 590.75,
+      "epoch": 1.5986301369863014,
+      "grad_norm": 2.0023083686828613,
+      "kl": 0.43603515625,
+      "learning_rate": 4.671232876712329e-07,
+      "loss": 0.0004,
+      "reward": 1.5234375,
+      "reward_std": 0.20372038334608078,
+      "rewards/accuracy_reward": 0.5546875,
+      "rewards/format_reward": 0.96875,
+      "step": 1167
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 442.3125,
+      "epoch": 1.6,
+      "grad_norm": 7.920874118804932,
+      "kl": 0.4951171875,
+      "learning_rate": 4.6666666666666666e-07,
+      "loss": 0.0005,
+      "reward": 1.8359375,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.8359375,
+      "rewards/format_reward": 1.0,
+      "step": 1168
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 613.875,
+      "epoch": 1.6013698630136988,
+      "grad_norm": 2.9076130390167236,
+      "kl": 0.4111328125,
+      "learning_rate": 4.6621004566210045e-07,
+      "loss": 0.0004,
+      "reward": 1.58203125,
+      "reward_std": 0.1978519782423973,
+      "rewards/accuracy_reward": 0.58203125,
+      "rewards/format_reward": 1.0,
+      "step": 1169
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 736.0,
+      "epoch": 1.6027397260273972,
+      "grad_norm": 1.828349232673645,
+      "kl": 0.380859375,
+      "learning_rate": 4.657534246575342e-07,
+      "loss": 0.0004,
+      "reward": 1.7834821343421936,
+      "reward_std": 0.2019175197929144,
+      "rewards/accuracy_reward": 0.8147321939468384,
+      "rewards/format_reward": 0.96875,
+      "step": 1170
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.53125,
+      "epoch": 1.604109589041096,
+      "grad_norm": 0.013380615040659904,
+      "kl": 0.46630859375,
+      "learning_rate": 4.65296803652968e-07,
+      "loss": 0.0005,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1171
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 520.84375,
+      "epoch": 1.6054794520547944,
+      "grad_norm": 4.265753269195557,
+      "kl": 0.44482421875,
+      "learning_rate": 4.648401826484018e-07,
+      "loss": 0.0004,
+      "reward": 1.65625,
+      "reward_std": 0.3061639815568924,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 0.96875,
+      "step": 1172
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 575.875,
+      "epoch": 1.606849315068493,
+      "grad_norm": 2.3653616905212402,
+      "kl": 0.74853515625,
+      "learning_rate": 4.643835616438356e-07,
+      "loss": 0.0007,
+      "reward": 1.734375,
+      "reward_std": 0.16987488232553005,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 0.96875,
+      "step": 1173
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 604.46875,
+      "epoch": 1.6082191780821917,
+      "grad_norm": 0.015300598926842213,
+      "kl": 0.4140625,
+      "learning_rate": 4.639269406392694e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1174
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 468.625,
+      "epoch": 1.6095890410958904,
+      "grad_norm": 1.9034607410430908,
+      "kl": 0.45849609375,
+      "learning_rate": 4.634703196347032e-07,
+      "loss": 0.0005,
+      "reward": 1.5390625,
+      "reward_std": 0.14807433634996414,
+      "rewards/accuracy_reward": 0.5390625,
+      "rewards/format_reward": 1.0,
+      "step": 1175
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 603.40625,
+      "epoch": 1.610958904109589,
+      "grad_norm": 1.1361031532287598,
+      "kl": 0.43896484375,
+      "learning_rate": 4.6301369863013696e-07,
+      "loss": 0.0004,
+      "reward": 2.0546875,
+      "reward_std": 0.17802686989307404,
+      "rewards/accuracy_reward": 1.0546875,
+      "rewards/format_reward": 1.0,
+      "step": 1176
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 573.34375,
+      "epoch": 1.6123287671232878,
+      "grad_norm": 3.4141767024993896,
+      "kl": 0.43115234375,
+      "learning_rate": 4.625570776255708e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 1177
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 347.96875,
+      "epoch": 1.6136986301369864,
+      "grad_norm": 28.50503158569336,
+      "kl": 0.478515625,
+      "learning_rate": 4.6210045662100454e-07,
+      "loss": 0.0005,
+      "reward": 1.21875,
+      "reward_std": 0.24511480331420898,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 1178
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 447.46875,
+      "epoch": 1.615068493150685,
+      "grad_norm": 1.3464608192443848,
+      "kl": 0.4794921875,
+      "learning_rate": 4.616438356164383e-07,
+      "loss": 0.0005,
+      "reward": 2.171875,
+      "reward_std": 0.17982807382941246,
+      "rewards/accuracy_reward": 1.171875,
+      "rewards/format_reward": 1.0,
+      "step": 1179
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 467.21875,
+      "epoch": 1.6164383561643836,
+      "grad_norm": 1.168009877204895,
+      "kl": 0.4599609375,
+      "learning_rate": 4.611872146118721e-07,
+      "loss": 0.0005,
+      "reward": 1.484375,
+      "reward_std": 0.018466783687472343,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 1180
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 611.8125,
+      "epoch": 1.617808219178082,
+      "grad_norm": 10.515180587768555,
+      "kl": 0.4091796875,
+      "learning_rate": 4.6073059360730595e-07,
+      "loss": 0.0004,
+      "reward": 1.0625,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.09375,
+      "rewards/format_reward": 0.96875,
+      "step": 1181
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 447.4375,
+      "epoch": 1.6191780821917807,
+      "grad_norm": 4.410513877868652,
+      "kl": 0.5263671875,
+      "learning_rate": 4.602739726027397e-07,
+      "loss": 0.0005,
+      "reward": 1.8958333134651184,
+      "reward_std": 0.2644027303904295,
+      "rewards/accuracy_reward": 0.8958333134651184,
+      "rewards/format_reward": 1.0,
+      "step": 1182
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 582.0625,
+      "epoch": 1.6205479452054794,
+      "grad_norm": 1.3668686151504517,
+      "kl": 0.416015625,
+      "learning_rate": 4.5981735159817347e-07,
+      "loss": 0.0004,
+      "reward": 1.6796875,
+      "reward_std": 0.08891239576041698,
+      "rewards/accuracy_reward": 0.6796875,
+      "rewards/format_reward": 1.0,
+      "step": 1183
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 763.6875,
+      "epoch": 1.621917808219178,
+      "grad_norm": 2.005594253540039,
+      "kl": 0.3837890625,
+      "learning_rate": 4.593607305936073e-07,
+      "loss": 0.0004,
+      "reward": 2.0625,
+      "reward_std": 0.33957163617014885,
+      "rewards/accuracy_reward": 1.0625,
+      "rewards/format_reward": 1.0,
+      "step": 1184
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 473.59375,
+      "epoch": 1.6232876712328768,
+      "grad_norm": 0.01840568333864212,
+      "kl": 0.50146484375,
+      "learning_rate": 4.589041095890411e-07,
+      "loss": 0.0005,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1185
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 487.65625,
+      "epoch": 1.6246575342465754,
+      "grad_norm": 5.055087089538574,
+      "kl": 0.46826171875,
+      "learning_rate": 4.5844748858447483e-07,
+      "loss": 0.0005,
+      "reward": 1.359375,
+      "reward_std": 0.4757922813296318,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 0.9375,
+      "step": 1186
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 737.125,
+      "epoch": 1.6260273972602741,
+      "grad_norm": 2.2473278045654297,
+      "kl": 0.38427734375,
+      "learning_rate": 4.579908675799087e-07,
+      "loss": 0.0004,
+      "reward": 1.901562511920929,
+      "reward_std": 0.1588732898235321,
+      "rewards/accuracy_reward": 0.9015624523162842,
+      "rewards/format_reward": 1.0,
+      "step": 1187
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 719.875,
+      "epoch": 1.6273972602739726,
+      "grad_norm": 1.557411551475525,
+      "kl": 0.3828125,
+      "learning_rate": 4.5753424657534246e-07,
+      "loss": 0.0004,
+      "reward": 1.671875,
+      "reward_std": 0.19044627249240875,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 1188
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 492.8125,
+      "epoch": 1.6287671232876713,
+      "grad_norm": 2.1133060455322266,
+      "kl": 0.45947265625,
+      "learning_rate": 4.5707762557077625e-07,
+      "loss": 0.0005,
+      "reward": 1.8125,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.8125,
+      "rewards/format_reward": 1.0,
+      "step": 1189
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 483.875,
+      "epoch": 1.6301369863013697,
+      "grad_norm": 4.509153366088867,
+      "kl": 0.46533203125,
+      "learning_rate": 4.5662100456621e-07,
+      "loss": 0.0005,
+      "reward": 1.7916666269302368,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.7916666269302368,
+      "rewards/format_reward": 1.0,
+      "step": 1190
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 494.875,
+      "epoch": 1.6315068493150684,
+      "grad_norm": 1.6939021348953247,
+      "kl": 0.43408203125,
+      "learning_rate": 4.561643835616438e-07,
+      "loss": 0.0004,
+      "reward": 1.34375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 1191
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 464.09375,
+      "epoch": 1.632876712328767,
+      "grad_norm": 2.649588108062744,
+      "kl": 0.45849609375,
+      "learning_rate": 4.557077625570776e-07,
+      "loss": 0.0005,
+      "reward": 1.7473958134651184,
+      "reward_std": 0.21185224317014217,
+      "rewards/accuracy_reward": 0.7786458283662796,
+      "rewards/format_reward": 0.96875,
+      "step": 1192
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 719.59375,
+      "epoch": 1.6342465753424658,
+      "grad_norm": 4.338865756988525,
+      "kl": 0.36962890625,
+      "learning_rate": 4.552511415525114e-07,
+      "loss": 0.0004,
+      "reward": 1.9505208134651184,
+      "reward_std": 0.09924877062439919,
+      "rewards/accuracy_reward": 0.9505208283662796,
+      "rewards/format_reward": 1.0,
+      "step": 1193
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 218.03125,
+      "epoch": 1.6356164383561644,
+      "grad_norm": 2.9700894355773926,
+      "kl": 0.509765625,
+      "learning_rate": 4.547945205479452e-07,
+      "loss": 0.0005,
+      "reward": 1.15625,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.15625,
+      "rewards/format_reward": 1.0,
+      "step": 1194
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 475.84375,
+      "epoch": 1.6369863013698631,
+      "grad_norm": 2.1548500061035156,
+      "kl": 0.45751953125,
+      "learning_rate": 4.54337899543379e-07,
+      "loss": 0.0005,
+      "reward": 1.7421875,
+      "reward_std": 0.1557277049869299,
+      "rewards/accuracy_reward": 0.7421875,
+      "rewards/format_reward": 1.0,
+      "step": 1195
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 492.40625,
+      "epoch": 1.6383561643835618,
+      "grad_norm": 6.107863903045654,
+      "kl": 0.41259765625,
+      "learning_rate": 4.5388127853881276e-07,
+      "loss": 0.0004,
+      "reward": 1.865234375,
+      "reward_std": 0.2677887184545398,
+      "rewards/accuracy_reward": 0.865234375,
+      "rewards/format_reward": 1.0,
+      "step": 1196
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 504.125,
+      "epoch": 1.6397260273972603,
+      "grad_norm": 2.324580430984497,
+      "kl": 0.41455078125,
+      "learning_rate": 4.534246575342466e-07,
+      "loss": 0.0004,
+      "reward": 1.8020833134651184,
+      "reward_std": 0.1329318769276142,
+      "rewards/accuracy_reward": 0.8020833134651184,
+      "rewards/format_reward": 1.0,
+      "step": 1197
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 757.6875,
+      "epoch": 1.641095890410959,
+      "grad_norm": 1.6747392416000366,
+      "kl": 0.36279296875,
+      "learning_rate": 4.5296803652968034e-07,
+      "loss": 0.0004,
+      "reward": 1.79296875,
+      "reward_std": 0.03616484813392162,
+      "rewards/accuracy_reward": 0.79296875,
+      "rewards/format_reward": 1.0,
+      "step": 1198
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 618.59375,
+      "epoch": 1.6424657534246574,
+      "grad_norm": 0.8282431960105896,
+      "kl": 0.4248046875,
+      "learning_rate": 4.525114155251141e-07,
+      "loss": 0.0004,
+      "reward": 1.453125,
+      "reward_std": 0.13258251547813416,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 1199
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 602.3125,
+      "epoch": 1.643835616438356,
+      "grad_norm": 1.4005603790283203,
+      "kl": 0.40478515625,
+      "learning_rate": 4.520547945205479e-07,
+      "loss": 0.0004,
+      "reward": 1.4270833134651184,
+      "reward_std": 0.19606461934745312,
+      "rewards/accuracy_reward": 0.4583333134651184,
+      "rewards/format_reward": 0.96875,
+      "step": 1200
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 374.125,
+      "epoch": 1.6452054794520548,
+      "grad_norm": 9.613887786865234,
+      "kl": 0.478515625,
+      "learning_rate": 4.5159817351598175e-07,
+      "loss": 0.0005,
+      "reward": 1.375,
+      "reward_std": 0.3924051970243454,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 1201
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 743.3125,
+      "epoch": 1.6465753424657534,
+      "grad_norm": 8.004908561706543,
+      "kl": 0.3681640625,
+      "learning_rate": 4.511415525114155e-07,
+      "loss": 0.0004,
+      "reward": 1.859375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.859375,
+      "rewards/format_reward": 1.0,
+      "step": 1202
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 713.25,
+      "epoch": 1.6479452054794521,
+      "grad_norm": 0.8686883449554443,
+      "kl": 0.38330078125,
+      "learning_rate": 4.5068493150684927e-07,
+      "loss": 0.0004,
+      "reward": 1.8072916865348816,
+      "reward_std": 0.05866193026304245,
+      "rewards/accuracy_reward": 0.8072916865348816,
+      "rewards/format_reward": 1.0,
+      "step": 1203
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 598.21875,
+      "epoch": 1.6493150684931508,
+      "grad_norm": 0.877444326877594,
+      "kl": 0.43115234375,
+      "learning_rate": 4.502283105022831e-07,
+      "loss": 0.0004,
+      "reward": 1.9765625,
+      "reward_std": 0.03234682232141495,
+      "rewards/accuracy_reward": 0.9765625,
+      "rewards/format_reward": 1.0,
+      "step": 1204
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 455.03125,
+      "epoch": 1.6506849315068495,
+      "grad_norm": 3.6004409790039062,
+      "kl": 0.4541015625,
+      "learning_rate": 4.497716894977169e-07,
+      "loss": 0.0005,
+      "reward": 1.375,
+      "reward_std": 0.13363061845302582,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 1205
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 712.53125,
+      "epoch": 1.652054794520548,
+      "grad_norm": 1.8017584085464478,
+      "kl": 0.37353515625,
+      "learning_rate": 4.4931506849315063e-07,
+      "loss": 0.0004,
+      "reward": 1.7890625,
+      "reward_std": 0.11083481647074223,
+      "rewards/accuracy_reward": 0.7890625298023224,
+      "rewards/format_reward": 1.0,
+      "step": 1206
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 649.625,
+      "epoch": 1.6534246575342466,
+      "grad_norm": 2.1501574516296387,
+      "kl": 0.40380859375,
+      "learning_rate": 4.488584474885845e-07,
+      "loss": 0.0004,
+      "reward": 1.9296875,
+      "reward_std": 0.30983222275972366,
+      "rewards/accuracy_reward": 0.9609375,
+      "rewards/format_reward": 0.96875,
+      "step": 1207
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 594.15625,
+      "epoch": 1.654794520547945,
+      "grad_norm": 2.02291202545166,
+      "kl": 0.435546875,
+      "learning_rate": 4.4840182648401826e-07,
+      "loss": 0.0004,
+      "reward": 1.421875,
+      "reward_std": 0.1446593925356865,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 1208
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 500.59375,
+      "epoch": 1.6561643835616437,
+      "grad_norm": 2.8969409465789795,
+      "kl": 0.455078125,
+      "learning_rate": 4.4794520547945205e-07,
+      "loss": 0.0005,
+      "reward": 1.453125,
+      "reward_std": 0.30935921147465706,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 0.96875,
+      "step": 1209
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 386.4375,
+      "epoch": 1.6575342465753424,
+      "grad_norm": 3.143007755279541,
+      "kl": 0.4443359375,
+      "learning_rate": 4.474885844748858e-07,
+      "loss": 0.0004,
+      "reward": 1.3046875,
+      "reward_std": 0.19887377880513668,
+      "rewards/accuracy_reward": 0.3046875,
+      "rewards/format_reward": 1.0,
+      "step": 1210
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 615.6875,
+      "epoch": 1.658904109589041,
+      "grad_norm": 1.378190517425537,
+      "kl": 0.4052734375,
+      "learning_rate": 4.470319634703196e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1211
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 740.375,
+      "epoch": 1.6602739726027398,
+      "grad_norm": 1.9985102415084839,
+      "kl": 0.35400390625,
+      "learning_rate": 4.465753424657534e-07,
+      "loss": 0.0004,
+      "reward": 1.953125,
+      "reward_std": 0.09442678280174732,
+      "rewards/accuracy_reward": 0.953125,
+      "rewards/format_reward": 1.0,
+      "step": 1212
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 722.8125,
+      "epoch": 1.6616438356164385,
+      "grad_norm": 3.6872925758361816,
+      "kl": 0.3681640625,
+      "learning_rate": 4.461187214611872e-07,
+      "loss": 0.0004,
+      "reward": 2.12109375,
+      "reward_std": 0.05471184104681015,
+      "rewards/accuracy_reward": 1.12109375,
+      "rewards/format_reward": 1.0,
+      "step": 1213
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 689.34375,
+      "epoch": 1.6630136986301371,
+      "grad_norm": 1.7234901189804077,
+      "kl": 0.36962890625,
+      "learning_rate": 4.45662100456621e-07,
+      "loss": 0.0004,
+      "reward": 1.91796875,
+      "reward_std": 0.05524271633476019,
+      "rewards/accuracy_reward": 0.91796875,
+      "rewards/format_reward": 1.0,
+      "step": 1214
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 613.75,
+      "epoch": 1.6643835616438356,
+      "grad_norm": 1.148900032043457,
+      "kl": 0.41650390625,
+      "learning_rate": 4.4520547945205477e-07,
+      "loss": 0.0004,
+      "reward": 1.609375,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.609375,
+      "rewards/format_reward": 1.0,
+      "step": 1215
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 523.34375,
+      "epoch": 1.6657534246575343,
+      "grad_norm": 219.28353881835938,
+      "kl": 0.42431640625,
+      "learning_rate": 4.4474885844748856e-07,
+      "loss": 0.0004,
+      "reward": 1.59375,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 1216
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 527.5625,
+      "epoch": 1.6671232876712327,
+      "grad_norm": 1.1520259380340576,
+      "kl": 0.38671875,
+      "learning_rate": 4.442922374429224e-07,
+      "loss": 0.0004,
+      "reward": 1.2421875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.2421875,
+      "rewards/format_reward": 1.0,
+      "step": 1217
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 751.59375,
+      "epoch": 1.6684931506849314,
+      "grad_norm": 1.4896037578582764,
+      "kl": 0.376953125,
+      "learning_rate": 4.4383561643835613e-07,
+      "loss": 0.0004,
+      "reward": 1.9453125,
+      "reward_std": 0.12415501661598682,
+      "rewards/accuracy_reward": 0.9453125,
+      "rewards/format_reward": 1.0,
+      "step": 1218
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 607.1875,
+      "epoch": 1.66986301369863,
+      "grad_norm": 2.4655869007110596,
+      "kl": 0.38818359375,
+      "learning_rate": 4.433789954337899e-07,
+      "loss": 0.0004,
+      "reward": 2.015625,
+      "reward_std": 0.1583191677927971,
+      "rewards/accuracy_reward": 1.015625,
+      "rewards/format_reward": 1.0,
+      "step": 1219
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 495.9375,
+      "epoch": 1.6712328767123288,
+      "grad_norm": 2.2545292377471924,
+      "kl": 0.4091796875,
+      "learning_rate": 4.429223744292237e-07,
+      "loss": 0.0004,
+      "reward": 1.375,
+      "reward_std": 0.2619796171784401,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 0.9375,
+      "step": 1220
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 629.9375,
+      "epoch": 1.6726027397260275,
+      "grad_norm": 2.2067344188690186,
+      "kl": 0.40380859375,
+      "learning_rate": 4.4246575342465755e-07,
+      "loss": 0.0004,
+      "reward": 1.8515625,
+      "reward_std": 0.32727497071027756,
+      "rewards/accuracy_reward": 0.8828125,
+      "rewards/format_reward": 0.96875,
+      "step": 1221
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 595.375,
+      "epoch": 1.6739726027397261,
+      "grad_norm": 8.395395278930664,
+      "kl": 0.41357421875,
+      "learning_rate": 4.420091324200913e-07,
+      "loss": 0.0004,
+      "reward": 1.71875,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 1.0,
+      "step": 1222
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 602.40625,
+      "epoch": 1.6753424657534246,
+      "grad_norm": 1.601325273513794,
+      "kl": 0.39111328125,
+      "learning_rate": 4.4155251141552507e-07,
+      "loss": 0.0004,
+      "reward": 1.8802083730697632,
+      "reward_std": 0.19834128208458424,
+      "rewards/accuracy_reward": 0.9114583432674408,
+      "rewards/format_reward": 0.96875,
+      "step": 1223
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 506.3125,
+      "epoch": 1.6767123287671233,
+      "grad_norm": 3.069322109222412,
+      "kl": 0.43896484375,
+      "learning_rate": 4.410958904109589e-07,
+      "loss": 0.0004,
+      "reward": 1.390625,
+      "reward_std": 0.2509508430957794,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 0.96875,
+      "step": 1224
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 651.09375,
+      "epoch": 1.678082191780822,
+      "grad_norm": 1.1096585988998413,
+      "kl": 0.38037109375,
+      "learning_rate": 4.406392694063927e-07,
+      "loss": 0.0004,
+      "reward": 1.59375,
+      "reward_std": 0.4419417232275009,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 0.9375,
+      "step": 1225
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 697.0,
+      "epoch": 1.6794520547945204,
+      "grad_norm": 2.121812582015991,
+      "kl": 0.36572265625,
+      "learning_rate": 4.4018264840182643e-07,
+      "loss": 0.0004,
+      "reward": 1.7552083730697632,
+      "reward_std": 0.07147139869630337,
+      "rewards/accuracy_reward": 0.7552083134651184,
+      "rewards/format_reward": 1.0,
+      "step": 1226
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 735.46875,
+      "epoch": 1.680821917808219,
+      "grad_norm": 1.2463302612304688,
+      "kl": 0.369140625,
+      "learning_rate": 4.397260273972603e-07,
+      "loss": 0.0004,
+      "reward": 1.84375,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.84375,
+      "rewards/format_reward": 1.0,
+      "step": 1227
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 482.75,
+      "epoch": 1.6821917808219178,
+      "grad_norm": 4.722236633300781,
+      "kl": 1.00439453125,
+      "learning_rate": 4.3926940639269406e-07,
+      "loss": 0.001,
+      "reward": 1.828125,
+      "reward_std": 0.18860282935202122,
+      "rewards/accuracy_reward": 0.828125,
+      "rewards/format_reward": 1.0,
+      "step": 1228
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 495.6875,
+      "epoch": 1.6835616438356165,
+      "grad_norm": 1.4424647092819214,
+      "kl": 0.41357421875,
+      "learning_rate": 4.3881278538812785e-07,
+      "loss": 0.0004,
+      "reward": 1.51171875,
+      "reward_std": 0.08649267628788948,
+      "rewards/accuracy_reward": 0.51171875,
+      "rewards/format_reward": 1.0,
+      "step": 1229
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 517.8125,
+      "epoch": 1.6849315068493151,
+      "grad_norm": 4.091712474822998,
+      "kl": 0.44140625,
+      "learning_rate": 4.383561643835616e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.249358132481575,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 1230
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 386.125,
+      "epoch": 1.6863013698630138,
+      "grad_norm": 3.535362482070923,
+      "kl": 0.46142578125,
+      "learning_rate": 4.378995433789954e-07,
+      "loss": 0.0005,
+      "reward": 1.40625,
+      "reward_std": 0.3608423173427582,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 1231
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 480.0,
+      "epoch": 1.6876712328767123,
+      "grad_norm": 2.4835903644561768,
+      "kl": 0.46875,
+      "learning_rate": 4.374429223744292e-07,
+      "loss": 0.0005,
+      "reward": 1.671875,
+      "reward_std": 0.28619567304849625,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 0.96875,
+      "step": 1232
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 447.53125,
+      "epoch": 1.689041095890411,
+      "grad_norm": 3.04150390625,
+      "kl": 0.48193359375,
+      "learning_rate": 4.36986301369863e-07,
+      "loss": 0.0005,
+      "reward": 1.46875,
+      "reward_std": 0.19149437546730042,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.96875,
+      "step": 1233
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 617.6875,
+      "epoch": 1.6904109589041096,
+      "grad_norm": 2.8141794204711914,
+      "kl": 0.40673828125,
+      "learning_rate": 4.365296803652968e-07,
+      "loss": 0.0004,
+      "reward": 1.859375,
+      "reward_std": 0.3214360848069191,
+      "rewards/accuracy_reward": 0.921875,
+      "rewards/format_reward": 0.9375,
+      "step": 1234
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 558.5625,
+      "epoch": 1.691780821917808,
+      "grad_norm": 4.507569789886475,
+      "kl": 0.4462890625,
+      "learning_rate": 4.3607305936073057e-07,
+      "loss": 0.0004,
+      "reward": 1.7083333134651184,
+      "reward_std": 0.10767627321183681,
+      "rewards/accuracy_reward": 0.7083333283662796,
+      "rewards/format_reward": 1.0,
+      "step": 1235
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 693.84375,
+      "epoch": 1.6931506849315068,
+      "grad_norm": 0.9824478030204773,
+      "kl": 0.37158203125,
+      "learning_rate": 4.3561643835616436e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1236
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 448.65625,
+      "epoch": 1.6945205479452055,
+      "grad_norm": 2.6605637073516846,
+      "kl": 0.4296875,
+      "learning_rate": 4.351598173515982e-07,
+      "loss": 0.0004,
+      "reward": 2.0078125,
+      "reward_std": 0.2704071160405874,
+      "rewards/accuracy_reward": 1.0078125,
+      "rewards/format_reward": 1.0,
+      "step": 1237
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 407.28125,
+      "epoch": 1.6958904109589041,
+      "grad_norm": 3.536565065383911,
+      "kl": 0.44482421875,
+      "learning_rate": 4.3470319634703193e-07,
+      "loss": 0.0004,
+      "reward": 1.625,
+      "reward_std": 0.2925042062997818,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 0.96875,
+      "step": 1238
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 687.25,
+      "epoch": 1.6972602739726028,
+      "grad_norm": 1.9418286085128784,
+      "kl": 0.3896484375,
+      "learning_rate": 4.342465753424657e-07,
+      "loss": 0.0004,
+      "reward": 1.98046875,
+      "reward_std": 0.18110275268554688,
+      "rewards/accuracy_reward": 0.98046875,
+      "rewards/format_reward": 1.0,
+      "step": 1239
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 596.1875,
+      "epoch": 1.6986301369863015,
+      "grad_norm": 0.6931401491165161,
+      "kl": 0.37841796875,
+      "learning_rate": 4.337899543378995e-07,
+      "loss": 0.0004,
+      "reward": 1.1875,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 0.96875,
+      "step": 1240
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 485.25,
+      "epoch": 1.7,
+      "grad_norm": 1.3371342420578003,
+      "kl": 0.4326171875,
+      "learning_rate": 4.3333333333333335e-07,
+      "loss": 0.0004,
+      "reward": 1.03125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.03125,
+      "rewards/format_reward": 1.0,
+      "step": 1241
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 459.75,
+      "epoch": 1.7013698630136986,
+      "grad_norm": 2.4730303287506104,
+      "kl": 0.43310546875,
+      "learning_rate": 4.328767123287671e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1242
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 547.71875,
+      "epoch": 1.7027397260273973,
+      "grad_norm": 2.2322070598602295,
+      "kl": 0.42333984375,
+      "learning_rate": 4.3242009132420087e-07,
+      "loss": 0.0004,
+      "reward": 1.7421875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.7421875,
+      "rewards/format_reward": 1.0,
+      "step": 1243
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 663.96875,
+      "epoch": 1.7041095890410958,
+      "grad_norm": 2.0555946826934814,
+      "kl": 0.36962890625,
+      "learning_rate": 4.319634703196347e-07,
+      "loss": 0.0004,
+      "reward": 1.9453125,
+      "reward_std": 0.09021057933568954,
+      "rewards/accuracy_reward": 0.9453125,
+      "rewards/format_reward": 1.0,
+      "step": 1244
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 457.6875,
+      "epoch": 1.7054794520547945,
+      "grad_norm": 2.3826162815093994,
+      "kl": 0.43701171875,
+      "learning_rate": 4.315068493150685e-07,
+      "loss": 0.0004,
+      "reward": 1.296875,
+      "reward_std": 0.18478761613368988,
+      "rewards/accuracy_reward": 0.296875,
+      "rewards/format_reward": 1.0,
+      "step": 1245
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 576.6875,
+      "epoch": 1.7068493150684931,
+      "grad_norm": 4.813425064086914,
+      "kl": 0.40380859375,
+      "learning_rate": 4.3105022831050223e-07,
+      "loss": 0.0004,
+      "reward": 1.171875,
+      "reward_std": 0.309616357088089,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 0.9375,
+      "step": 1246
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 546.5,
+      "epoch": 1.7082191780821918,
+      "grad_norm": 2.2033772468566895,
+      "kl": 0.40576171875,
+      "learning_rate": 4.3059360730593607e-07,
+      "loss": 0.0004,
+      "reward": 1.5546875,
+      "reward_std": 0.13782460056245327,
+      "rewards/accuracy_reward": 0.5546875,
+      "rewards/format_reward": 1.0,
+      "step": 1247
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 533.125,
+      "epoch": 1.7095890410958905,
+      "grad_norm": 1.6312638521194458,
+      "kl": 0.40576171875,
+      "learning_rate": 4.3013698630136986e-07,
+      "loss": 0.0004,
+      "reward": 1.8958333134651184,
+      "reward_std": 0.09831234067678452,
+      "rewards/accuracy_reward": 0.8958333283662796,
+      "rewards/format_reward": 1.0,
+      "step": 1248
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 572.96875,
+      "epoch": 1.7109589041095892,
+      "grad_norm": 2.3956828117370605,
+      "kl": 0.39892578125,
+      "learning_rate": 4.2968036529680365e-07,
+      "loss": 0.0004,
+      "reward": 1.921875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.921875,
+      "rewards/format_reward": 1.0,
+      "step": 1249
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 652.03125,
+      "epoch": 1.7123287671232876,
+      "grad_norm": 2.415031671524048,
+      "kl": 0.3798828125,
+      "learning_rate": 4.292237442922374e-07,
+      "loss": 0.0004,
+      "reward": 1.9140625,
+      "reward_std": 0.17859892547130585,
+      "rewards/accuracy_reward": 0.9140625,
+      "rewards/format_reward": 1.0,
+      "step": 1250
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 467.53125,
+      "epoch": 1.7136986301369863,
+      "grad_norm": 1.346336007118225,
+      "kl": 0.42578125,
+      "learning_rate": 4.287671232876712e-07,
+      "loss": 0.0004,
+      "reward": 1.9583333134651184,
+      "reward_std": 0.10767627321183681,
+      "rewards/accuracy_reward": 0.9583333283662796,
+      "rewards/format_reward": 1.0,
+      "step": 1251
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 640.84375,
+      "epoch": 1.7150684931506848,
+      "grad_norm": 2.322165012359619,
+      "kl": 0.3955078125,
+      "learning_rate": 4.28310502283105e-07,
+      "loss": 0.0004,
+      "reward": 2.2838542461395264,
+      "reward_std": 0.2200529333204031,
+      "rewards/accuracy_reward": 1.3151041865348816,
+      "rewards/format_reward": 0.96875,
+      "step": 1252
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 540.25,
+      "epoch": 1.7164383561643834,
+      "grad_norm": 2.6157140731811523,
+      "kl": 0.43359375,
+      "learning_rate": 4.278538812785388e-07,
+      "loss": 0.0004,
+      "reward": 1.671875,
+      "reward_std": 0.3298586830496788,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 0.96875,
+      "step": 1253
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 397.28125,
+      "epoch": 1.7178082191780821,
+      "grad_norm": 3.0895931720733643,
+      "kl": 0.45166015625,
+      "learning_rate": 4.273972602739726e-07,
+      "loss": 0.0005,
+      "reward": 1.40625,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 1254
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 540.375,
+      "epoch": 1.7191780821917808,
+      "grad_norm": 2.1222827434539795,
+      "kl": 0.41357421875,
+      "learning_rate": 4.2694063926940637e-07,
+      "loss": 0.0004,
+      "reward": 1.71875,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.78125,
+      "rewards/format_reward": 0.9375,
+      "step": 1255
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 445.625,
+      "epoch": 1.7205479452054795,
+      "grad_norm": 1.0602033138275146,
+      "kl": 0.46826171875,
+      "learning_rate": 4.2648401826484016e-07,
+      "loss": 0.0005,
+      "reward": 1.453125,
+      "reward_std": 0.0646936446428299,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 1256
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 548.71875,
+      "epoch": 1.7219178082191782,
+      "grad_norm": 3.4535276889801025,
+      "kl": 0.4052734375,
+      "learning_rate": 4.26027397260274e-07,
+      "loss": 0.0004,
+      "reward": 1.3515625,
+      "reward_std": 0.04339781776070595,
+      "rewards/accuracy_reward": 0.3515625,
+      "rewards/format_reward": 1.0,
+      "step": 1257
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 665.25,
+      "epoch": 1.7232876712328768,
+      "grad_norm": 1.3591842651367188,
+      "kl": 0.37109375,
+      "learning_rate": 4.2557077625570773e-07,
+      "loss": 0.0004,
+      "reward": 1.859375,
+      "reward_std": 0.19044627249240875,
+      "rewards/accuracy_reward": 0.859375,
+      "rewards/format_reward": 1.0,
+      "step": 1258
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 536.875,
+      "epoch": 1.7246575342465753,
+      "grad_norm": 1.0328086614608765,
+      "kl": 0.4326171875,
+      "learning_rate": 4.251141552511415e-07,
+      "loss": 0.0004,
+      "reward": 1.453125,
+      "reward_std": 0.09300297498703003,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 1259
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 469.40625,
+      "epoch": 1.726027397260274,
+      "grad_norm": 2.43749737739563,
+      "kl": 0.44189453125,
+      "learning_rate": 4.246575342465753e-07,
+      "loss": 0.0004,
+      "reward": 1.90625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.90625,
+      "rewards/format_reward": 1.0,
+      "step": 1260
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 571.65625,
+      "epoch": 1.7273972602739724,
+      "grad_norm": 1.6555092334747314,
+      "kl": 0.4072265625,
+      "learning_rate": 4.2420091324200915e-07,
+      "loss": 0.0004,
+      "reward": 1.4609375,
+      "reward_std": 0.06806604377925396,
+      "rewards/accuracy_reward": 0.4609375,
+      "rewards/format_reward": 1.0,
+      "step": 1261
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 569.40625,
+      "epoch": 1.7287671232876711,
+      "grad_norm": 2.505823850631714,
+      "kl": 0.41357421875,
+      "learning_rate": 4.237442922374429e-07,
+      "loss": 0.0004,
+      "reward": 1.66015625,
+      "reward_std": 0.19926093518733978,
+      "rewards/accuracy_reward": 0.66015625,
+      "rewards/format_reward": 1.0,
+      "step": 1262
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 538.03125,
+      "epoch": 1.7301369863013698,
+      "grad_norm": 4.690535545349121,
+      "kl": 0.43017578125,
+      "learning_rate": 4.2328767123287667e-07,
+      "loss": 0.0004,
+      "reward": 1.99609375,
+      "reward_std": 0.2842874098569155,
+      "rewards/accuracy_reward": 0.99609375,
+      "rewards/format_reward": 1.0,
+      "step": 1263
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 521.375,
+      "epoch": 1.7315068493150685,
+      "grad_norm": 1.7584035396575928,
+      "kl": 0.3740234375,
+      "learning_rate": 4.228310502283105e-07,
+      "loss": 0.0004,
+      "reward": 1.4097222089767456,
+      "reward_std": 0.16497226059436798,
+      "rewards/accuracy_reward": 0.409722238779068,
+      "rewards/format_reward": 1.0,
+      "step": 1264
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 595.8125,
+      "epoch": 1.7328767123287672,
+      "grad_norm": 1.8024760484695435,
+      "kl": 0.376953125,
+      "learning_rate": 4.223744292237443e-07,
+      "loss": 0.0004,
+      "reward": 1.59375,
+      "reward_std": 0.03340764716267586,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 1265
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 472.8125,
+      "epoch": 1.7342465753424658,
+      "grad_norm": 2.769805908203125,
+      "kl": 0.4091796875,
+      "learning_rate": 4.2191780821917803e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 1266
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 553.25,
+      "epoch": 1.7356164383561645,
+      "grad_norm": 1.9142708778381348,
+      "kl": 0.37744140625,
+      "learning_rate": 4.2146118721461187e-07,
+      "loss": 0.0004,
+      "reward": 2.203125,
+      "reward_std": 0.1583191677927971,
+      "rewards/accuracy_reward": 1.203125,
+      "rewards/format_reward": 1.0,
+      "step": 1267
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 506.90625,
+      "epoch": 1.736986301369863,
+      "grad_norm": 10.659811973571777,
+      "kl": 0.42041015625,
+      "learning_rate": 4.2100456621004566e-07,
+      "loss": 0.0004,
+      "reward": 2.037500023841858,
+      "reward_std": 0.1502307988703251,
+      "rewards/accuracy_reward": 1.0999999791383743,
+      "rewards/format_reward": 0.9375,
+      "step": 1268
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 541.34375,
+      "epoch": 1.7383561643835617,
+      "grad_norm": 1.791703224182129,
+      "kl": 0.3955078125,
+      "learning_rate": 4.2054794520547945e-07,
+      "loss": 0.0004,
+      "reward": 1.34375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 1269
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 553.125,
+      "epoch": 1.7397260273972601,
+      "grad_norm": 7.277401447296143,
+      "kl": 0.4013671875,
+      "learning_rate": 4.200913242009132e-07,
+      "loss": 0.0004,
+      "reward": 1.90625,
+      "reward_std": 0.23370658792555332,
+      "rewards/accuracy_reward": 0.90625,
+      "rewards/format_reward": 1.0,
+      "step": 1270
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.34375,
+      "epoch": 1.7410958904109588,
+      "grad_norm": 2.201817750930786,
+      "kl": 0.5439453125,
+      "learning_rate": 4.19634703196347e-07,
+      "loss": 0.0005,
+      "reward": 1.34375,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 1271
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 537.875,
+      "epoch": 1.7424657534246575,
+      "grad_norm": 0.010903976857662201,
+      "kl": 0.40673828125,
+      "learning_rate": 4.191780821917808e-07,
+      "loss": 0.0004,
+      "reward": 1.375,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 1272
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 517.25,
+      "epoch": 1.7438356164383562,
+      "grad_norm": 3.142033100128174,
+      "kl": 0.421875,
+      "learning_rate": 4.187214611872146e-07,
+      "loss": 0.0004,
+      "reward": 1.375,
+      "reward_std": 0.17792748659849167,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 1273
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 615.6875,
+      "epoch": 1.7452054794520548,
+      "grad_norm": 1.790911078453064,
+      "kl": 0.4013671875,
+      "learning_rate": 4.182648401826484e-07,
+      "loss": 0.0004,
+      "reward": 1.9609375,
+      "reward_std": 0.0765409953892231,
+      "rewards/accuracy_reward": 0.9609375,
+      "rewards/format_reward": 1.0,
+      "step": 1274
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 627.28125,
+      "epoch": 1.7465753424657535,
+      "grad_norm": 2.2158114910125732,
+      "kl": 0.38623046875,
+      "learning_rate": 4.1780821917808217e-07,
+      "loss": 0.0004,
+      "reward": 1.665624976158142,
+      "reward_std": 0.25051814317703247,
+      "rewards/accuracy_reward": 0.6968750059604645,
+      "rewards/format_reward": 0.96875,
+      "step": 1275
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 462.03125,
+      "epoch": 1.7479452054794522,
+      "grad_norm": 4.707849979400635,
+      "kl": 0.4375,
+      "learning_rate": 4.1735159817351596e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 0.96875,
+      "step": 1276
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 439.0,
+      "epoch": 1.7493150684931507,
+      "grad_norm": 3.061438798904419,
+      "kl": 0.4208984375,
+      "learning_rate": 4.168949771689498e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.1462521031498909,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1277
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 441.5,
+      "epoch": 1.7506849315068493,
+      "grad_norm": 3.6628098487854004,
+      "kl": 0.419921875,
+      "learning_rate": 4.1643835616438353e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 0.96875,
+      "step": 1278
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 473.6875,
+      "epoch": 1.7520547945205478,
+      "grad_norm": 2.81628680229187,
+      "kl": 0.412109375,
+      "learning_rate": 4.159817351598173e-07,
+      "loss": 0.0004,
+      "reward": 1.3671875,
+      "reward_std": 0.16173411160707474,
+      "rewards/accuracy_reward": 0.3671875,
+      "rewards/format_reward": 1.0,
+      "step": 1279
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 480.15625,
+      "epoch": 1.7534246575342465,
+      "grad_norm": 2.28672456741333,
+      "kl": 0.4326171875,
+      "learning_rate": 4.155251141552511e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1280
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 452.8125,
+      "epoch": 1.7547945205479452,
+      "grad_norm": 2.4267892837524414,
+      "kl": 0.43359375,
+      "learning_rate": 4.1506849315068495e-07,
+      "loss": 0.0004,
+      "reward": 1.3359375,
+      "reward_std": 0.2216234877705574,
+      "rewards/accuracy_reward": 0.3671875,
+      "rewards/format_reward": 0.96875,
+      "step": 1281
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 446.21875,
+      "epoch": 1.7561643835616438,
+      "grad_norm": 4.188963890075684,
+      "kl": 0.4365234375,
+      "learning_rate": 4.146118721461187e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.2756393924355507,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 0.96875,
+      "step": 1282
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 519.65625,
+      "epoch": 1.7575342465753425,
+      "grad_norm": 4.240378379821777,
+      "kl": 0.4189453125,
+      "learning_rate": 4.1415525114155247e-07,
+      "loss": 0.0004,
+      "reward": 1.9375,
+      "reward_std": 0.2504894994199276,
+      "rewards/accuracy_reward": 0.9375,
+      "rewards/format_reward": 1.0,
+      "step": 1283
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.625,
+      "epoch": 1.7589041095890412,
+      "grad_norm": 2.9327142238616943,
+      "kl": 0.45263671875,
+      "learning_rate": 4.136986301369863e-07,
+      "loss": 0.0005,
+      "reward": 1.4375,
+      "reward_std": 0.3514062538743019,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 0.96875,
+      "step": 1284
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 414.625,
+      "epoch": 1.7602739726027399,
+      "grad_norm": 3.471181631088257,
+      "kl": 0.4716796875,
+      "learning_rate": 4.132420091324201e-07,
+      "loss": 0.0005,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 1285
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 525.53125,
+      "epoch": 1.7616438356164383,
+      "grad_norm": 1.4876896142959595,
+      "kl": 0.43408203125,
+      "learning_rate": 4.1278538812785383e-07,
+      "loss": 0.0004,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 1286
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 591.21875,
+      "epoch": 1.763013698630137,
+      "grad_norm": 1.708354115486145,
+      "kl": 0.4072265625,
+      "learning_rate": 4.1232876712328767e-07,
+      "loss": 0.0004,
+      "reward": 1.4921875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.4921875,
+      "rewards/format_reward": 1.0,
+      "step": 1287
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 474.65625,
+      "epoch": 1.7643835616438355,
+      "grad_norm": 2.2120180130004883,
+      "kl": 0.41845703125,
+      "learning_rate": 4.1187214611872146e-07,
+      "loss": 0.0004,
+      "reward": 1.78125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.78125,
+      "rewards/format_reward": 1.0,
+      "step": 1288
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 374.75,
+      "epoch": 1.7657534246575342,
+      "grad_norm": 3.117703914642334,
+      "kl": 0.50634765625,
+      "learning_rate": 4.1141552511415525e-07,
+      "loss": 0.0005,
+      "reward": 1.2916666567325592,
+      "reward_std": 0.2801028750836849,
+      "rewards/accuracy_reward": 0.3229166567325592,
+      "rewards/format_reward": 0.96875,
+      "step": 1289
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 608.21875,
+      "epoch": 1.7671232876712328,
+      "grad_norm": 3.0014660358428955,
+      "kl": 0.42333984375,
+      "learning_rate": 4.10958904109589e-07,
+      "loss": 0.0004,
+      "reward": 1.9895833730697632,
+      "reward_std": 0.1735912710428238,
+      "rewards/accuracy_reward": 0.9895833432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1290
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 516.0625,
+      "epoch": 1.7684931506849315,
+      "grad_norm": 1.5401123762130737,
+      "kl": 0.4150390625,
+      "learning_rate": 4.105022831050228e-07,
+      "loss": 0.0004,
+      "reward": 1.34375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 1291
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 471.1875,
+      "epoch": 1.7698630136986302,
+      "grad_norm": 9.821645736694336,
+      "kl": 0.44775390625,
+      "learning_rate": 4.100456621004566e-07,
+      "loss": 0.0004,
+      "reward": 1.4895833134651184,
+      "reward_std": 0.19606461934745312,
+      "rewards/accuracy_reward": 0.4895833134651184,
+      "rewards/format_reward": 1.0,
+      "step": 1292
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 475.125,
+      "epoch": 1.7712328767123289,
+      "grad_norm": 1.975611686706543,
+      "kl": 0.41845703125,
+      "learning_rate": 4.095890410958904e-07,
+      "loss": 0.0004,
+      "reward": 1.34375,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 1293
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 557.21875,
+      "epoch": 1.7726027397260276,
+      "grad_norm": 1.7068443298339844,
+      "kl": 0.41015625,
+      "learning_rate": 4.091324200913242e-07,
+      "loss": 0.0004,
+      "reward": 1.34375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 1294
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 609.03125,
+      "epoch": 1.773972602739726,
+      "grad_norm": 0.012845800258219242,
+      "kl": 0.37939453125,
+      "learning_rate": 4.0867579908675797e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1295
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 487.75,
+      "epoch": 1.7753424657534247,
+      "grad_norm": 2.5421457290649414,
+      "kl": 0.4306640625,
+      "learning_rate": 4.0821917808219176e-07,
+      "loss": 0.0004,
+      "reward": 1.3020833730697632,
+      "reward_std": 0.20665352046489716,
+      "rewards/accuracy_reward": 0.3333333432674408,
+      "rewards/format_reward": 0.96875,
+      "step": 1296
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 552.46875,
+      "epoch": 1.7767123287671232,
+      "grad_norm": 2.63369083404541,
+      "kl": 0.42138671875,
+      "learning_rate": 4.077625570776256e-07,
+      "loss": 0.0004,
+      "reward": 1.8984375,
+      "reward_std": 0.19568835757672787,
+      "rewards/accuracy_reward": 0.8984375,
+      "rewards/format_reward": 1.0,
+      "step": 1297
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 569.40625,
+      "epoch": 1.7780821917808218,
+      "grad_norm": 7.191369533538818,
+      "kl": 0.40673828125,
+      "learning_rate": 4.0730593607305933e-07,
+      "loss": 0.0004,
+      "reward": 1.65625,
+      "reward_std": 0.14189685601741076,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 1298
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 561.53125,
+      "epoch": 1.7794520547945205,
+      "grad_norm": 1.3529973030090332,
+      "kl": 0.41064453125,
+      "learning_rate": 4.068493150684931e-07,
+      "loss": 0.0004,
+      "reward": 1.2760416269302368,
+      "reward_std": 0.014731377363204956,
+      "rewards/accuracy_reward": 0.2760416567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1299
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 560.40625,
+      "epoch": 1.7808219178082192,
+      "grad_norm": 1.7969800233840942,
+      "kl": 0.40673828125,
+      "learning_rate": 4.063926940639269e-07,
+      "loss": 0.0004,
+      "reward": 1.625,
+      "reward_std": 0.16279494389891624,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 1300
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 584.21875,
+      "epoch": 1.7821917808219179,
+      "grad_norm": 2.630746364593506,
+      "kl": 0.40380859375,
+      "learning_rate": 4.0593607305936075e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.32666344940662384,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1301
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 438.46875,
+      "epoch": 1.7835616438356166,
+      "grad_norm": 2.569322347640991,
+      "kl": 0.4287109375,
+      "learning_rate": 4.054794520547945e-07,
+      "loss": 0.0004,
+      "reward": 1.6796875,
+      "reward_std": 0.2714552190154791,
+      "rewards/accuracy_reward": 0.6796875,
+      "rewards/format_reward": 1.0,
+      "step": 1302
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 577.0,
+      "epoch": 1.7849315068493152,
+      "grad_norm": 2.0553476810455322,
+      "kl": 0.39501953125,
+      "learning_rate": 4.0502283105022827e-07,
+      "loss": 0.0004,
+      "reward": 2.03125,
+      "reward_std": 0.3540026359260082,
+      "rewards/accuracy_reward": 1.0625,
+      "rewards/format_reward": 0.96875,
+      "step": 1303
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 585.75,
+      "epoch": 1.7863013698630137,
+      "grad_norm": 2.1808462142944336,
+      "kl": 0.4013671875,
+      "learning_rate": 4.045662100456621e-07,
+      "loss": 0.0004,
+      "reward": 1.3125,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 1304
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 661.40625,
+      "epoch": 1.7876712328767124,
+      "grad_norm": 2.2731401920318604,
+      "kl": 0.41162109375,
+      "learning_rate": 4.041095890410959e-07,
+      "loss": 0.0004,
+      "reward": 1.9973958730697632,
+      "reward_std": 0.12597234547138214,
+      "rewards/accuracy_reward": 0.9973958432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1305
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 544.78125,
+      "epoch": 1.7890410958904108,
+      "grad_norm": 2.3834168910980225,
+      "kl": 0.4384765625,
+      "learning_rate": 4.0365296803652963e-07,
+      "loss": 0.0004,
+      "reward": 1.2421875,
+      "reward_std": 0.1763812154531479,
+      "rewards/accuracy_reward": 0.2421875,
+      "rewards/format_reward": 1.0,
+      "step": 1306
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 568.5,
+      "epoch": 1.7904109589041095,
+      "grad_norm": 3.6569652557373047,
+      "kl": 0.4189453125,
+      "learning_rate": 4.0319634703196347e-07,
+      "loss": 0.0004,
+      "reward": 1.375,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 0.96875,
+      "step": 1307
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 483.65625,
+      "epoch": 1.7917808219178082,
+      "grad_norm": 3.518842935562134,
+      "kl": 0.41357421875,
+      "learning_rate": 4.0273972602739726e-07,
+      "loss": 0.0004,
+      "reward": 1.6484375,
+      "reward_std": 0.23648490384221077,
+      "rewards/accuracy_reward": 0.6484375,
+      "rewards/format_reward": 1.0,
+      "step": 1308
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 376.5625,
+      "epoch": 1.7931506849315069,
+      "grad_norm": 4.095313549041748,
+      "kl": 0.5263671875,
+      "learning_rate": 4.0228310502283105e-07,
+      "loss": 0.0005,
+      "reward": 1.6484375,
+      "reward_std": 0.22621294669806957,
+      "rewards/accuracy_reward": 0.6484375,
+      "rewards/format_reward": 1.0,
+      "step": 1309
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 646.34375,
+      "epoch": 1.7945205479452055,
+      "grad_norm": 1.090254545211792,
+      "kl": 0.4013671875,
+      "learning_rate": 4.018264840182648e-07,
+      "loss": 0.0004,
+      "reward": 1.9010416269302368,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.9010416269302368,
+      "rewards/format_reward": 1.0,
+      "step": 1310
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 552.90625,
+      "epoch": 1.7958904109589042,
+      "grad_norm": 1.850085973739624,
+      "kl": 0.416015625,
+      "learning_rate": 4.013698630136986e-07,
+      "loss": 0.0004,
+      "reward": 1.515625,
+      "reward_std": 0.1173202246427536,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 1311
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 449.9375,
+      "epoch": 1.7972602739726027,
+      "grad_norm": 2.4556493759155273,
+      "kl": 0.40966796875,
+      "learning_rate": 4.009132420091324e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.1462521031498909,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 0.96875,
+      "step": 1312
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 384.96875,
+      "epoch": 1.7986301369863014,
+      "grad_norm": 2.6199100017547607,
+      "kl": 0.45703125,
+      "learning_rate": 4.004566210045662e-07,
+      "loss": 0.0005,
+      "reward": 1.0625,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/format_reward": 1.0,
+      "step": 1313
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 464.0,
+      "epoch": 1.8,
+      "grad_norm": 4.096604347229004,
+      "kl": 0.4287109375,
+      "learning_rate": 4e-07,
+      "loss": 0.0004,
+      "reward": 1.5208333730697632,
+      "reward_std": 0.249358132481575,
+      "rewards/accuracy_reward": 0.5208333432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1314
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 550.3125,
+      "epoch": 1.8013698630136985,
+      "grad_norm": 5.588089942932129,
+      "kl": 0.41845703125,
+      "learning_rate": 3.9954337899543377e-07,
+      "loss": 0.0004,
+      "reward": 1.9765625,
+      "reward_std": 0.23201732337474823,
+      "rewards/accuracy_reward": 0.9765625,
+      "rewards/format_reward": 1.0,
+      "step": 1315
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 663.25,
+      "epoch": 1.8027397260273972,
+      "grad_norm": 0.016883816570043564,
+      "kl": 0.41357421875,
+      "learning_rate": 3.9908675799086756e-07,
+      "loss": 0.0004,
+      "reward": 1.875,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 1316
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 489.0,
+      "epoch": 1.8041095890410959,
+      "grad_norm": 1.3579514026641846,
+      "kl": 0.44482421875,
+      "learning_rate": 3.9863013698630134e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.96875,
+      "step": 1317
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 523.125,
+      "epoch": 1.8054794520547945,
+      "grad_norm": 2.022146463394165,
+      "kl": 0.43408203125,
+      "learning_rate": 3.9817351598173513e-07,
+      "loss": 0.0004,
+      "reward": 1.296875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.296875,
+      "rewards/format_reward": 1.0,
+      "step": 1318
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 571.3125,
+      "epoch": 1.8068493150684932,
+      "grad_norm": 2.2697088718414307,
+      "kl": 0.4384765625,
+      "learning_rate": 3.977168949771689e-07,
+      "loss": 0.0004,
+      "reward": 1.7109375,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.7109375,
+      "rewards/format_reward": 1.0,
+      "step": 1319
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 453.0625,
+      "epoch": 1.808219178082192,
+      "grad_norm": 2.7276113033294678,
+      "kl": 0.4423828125,
+      "learning_rate": 3.972602739726027e-07,
+      "loss": 0.0004,
+      "reward": 1.6822916567325592,
+      "reward_std": 0.232507036998868,
+      "rewards/accuracy_reward": 0.6822916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1320
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 490.875,
+      "epoch": 1.8095890410958904,
+      "grad_norm": 10.956971168518066,
+      "kl": 0.421875,
+      "learning_rate": 3.9680365296803655e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.2630179077386856,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 1321
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 462.53125,
+      "epoch": 1.810958904109589,
+      "grad_norm": 2.6955652236938477,
+      "kl": 0.43408203125,
+      "learning_rate": 3.963470319634703e-07,
+      "loss": 0.0004,
+      "reward": 1.6822916269302368,
+      "reward_std": 0.28930897638201714,
+      "rewards/accuracy_reward": 0.6822916269302368,
+      "rewards/format_reward": 1.0,
+      "step": 1322
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 356.0,
+      "epoch": 1.8123287671232877,
+      "grad_norm": 2.7634854316711426,
+      "kl": 0.48828125,
+      "learning_rate": 3.9589041095890407e-07,
+      "loss": 0.0005,
+      "reward": 1.65625,
+      "reward_std": 0.24511480331420898,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 1323
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 490.3125,
+      "epoch": 1.8136986301369862,
+      "grad_norm": 1.6832696199417114,
+      "kl": 0.4443359375,
+      "learning_rate": 3.954337899543379e-07,
+      "loss": 0.0004,
+      "reward": 1.890625,
+      "reward_std": 0.13045893330127,
+      "rewards/accuracy_reward": 0.8906250298023224,
+      "rewards/format_reward": 1.0,
+      "step": 1324
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 566.78125,
+      "epoch": 1.8150684931506849,
+      "grad_norm": 1.0670324563980103,
+      "kl": 0.42822265625,
+      "learning_rate": 3.949771689497717e-07,
+      "loss": 0.0004,
+      "reward": 1.4921875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.4921875,
+      "rewards/format_reward": 1.0,
+      "step": 1325
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 566.375,
+      "epoch": 1.8164383561643835,
+      "grad_norm": 2.246535539627075,
+      "kl": 0.4326171875,
+      "learning_rate": 3.9452054794520543e-07,
+      "loss": 0.0004,
+      "reward": 1.6458333730697632,
+      "reward_std": 0.19514605216681957,
+      "rewards/accuracy_reward": 0.6458333432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1326
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 658.0,
+      "epoch": 1.8178082191780822,
+      "grad_norm": 1.5284771919250488,
+      "kl": 0.37646484375,
+      "learning_rate": 3.940639269406392e-07,
+      "loss": 0.0004,
+      "reward": 2.072916626930237,
+      "reward_std": 0.13719714060425758,
+      "rewards/accuracy_reward": 1.0729166269302368,
+      "rewards/format_reward": 1.0,
+      "step": 1327
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 582.625,
+      "epoch": 1.819178082191781,
+      "grad_norm": 33.069068908691406,
+      "kl": 0.423828125,
+      "learning_rate": 3.9360730593607306e-07,
+      "loss": 0.0004,
+      "reward": 1.5859375,
+      "reward_std": 0.10285428538918495,
+      "rewards/accuracy_reward": 0.5859375,
+      "rewards/format_reward": 1.0,
+      "step": 1328
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 485.1875,
+      "epoch": 1.8205479452054796,
+      "grad_norm": 3.2060983180999756,
+      "kl": 0.42138671875,
+      "learning_rate": 3.9315068493150684e-07,
+      "loss": 0.0004,
+      "reward": 1.9140625,
+      "reward_std": 0.35667186602950096,
+      "rewards/accuracy_reward": 0.9140625298023224,
+      "rewards/format_reward": 1.0,
+      "step": 1329
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 707.03125,
+      "epoch": 1.821917808219178,
+      "grad_norm": 2.731792449951172,
+      "kl": 0.3876953125,
+      "learning_rate": 3.926940639269406e-07,
+      "loss": 0.0004,
+      "reward": 1.9296875,
+      "reward_std": 0.09704046696424484,
+      "rewards/accuracy_reward": 0.9296875,
+      "rewards/format_reward": 1.0,
+      "step": 1330
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 594.28125,
+      "epoch": 1.8232876712328767,
+      "grad_norm": 7.164435863494873,
+      "kl": 0.4306640625,
+      "learning_rate": 3.922374429223744e-07,
+      "loss": 0.0004,
+      "reward": 1.6979166269302368,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.6979166269302368,
+      "rewards/format_reward": 1.0,
+      "step": 1331
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 523.8125,
+      "epoch": 1.8246575342465754,
+      "grad_norm": 2.8625693321228027,
+      "kl": 1.1923828125,
+      "learning_rate": 3.917808219178082e-07,
+      "loss": 0.0012,
+      "reward": 1.796875,
+      "reward_std": 0.23144521936774254,
+      "rewards/accuracy_reward": 0.796875,
+      "rewards/format_reward": 1.0,
+      "step": 1332
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 705.875,
+      "epoch": 1.8260273972602739,
+      "grad_norm": 0.9578958749771118,
+      "kl": 0.39453125,
+      "learning_rate": 3.91324200913242e-07,
+      "loss": 0.0004,
+      "reward": 1.984375,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.984375,
+      "rewards/format_reward": 1.0,
+      "step": 1333
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 683.59375,
+      "epoch": 1.8273972602739725,
+      "grad_norm": 9.09338665008545,
+      "kl": 0.38623046875,
+      "learning_rate": 3.908675799086758e-07,
+      "loss": 0.0004,
+      "reward": 1.762499988079071,
+      "reward_std": 0.4475614484399557,
+      "rewards/accuracy_reward": 0.8250000029802322,
+      "rewards/format_reward": 0.9375,
+      "step": 1334
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 625.125,
+      "epoch": 1.8287671232876712,
+      "grad_norm": 2.92084002494812,
+      "kl": 0.43701171875,
+      "learning_rate": 3.9041095890410957e-07,
+      "loss": 0.0004,
+      "reward": 1.671875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 1335
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 774.75,
+      "epoch": 1.83013698630137,
+      "grad_norm": 0.9714678525924683,
+      "kl": 0.36669921875,
+      "learning_rate": 3.8995433789954336e-07,
+      "loss": 0.0004,
+      "reward": 1.6215277910232544,
+      "reward_std": 0.22951212525367737,
+      "rewards/accuracy_reward": 0.6840277910232544,
+      "rewards/format_reward": 0.9375,
+      "step": 1336
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 734.875,
+      "epoch": 1.8315068493150686,
+      "grad_norm": 1.950544834136963,
+      "kl": 0.365234375,
+      "learning_rate": 3.8949771689497714e-07,
+      "loss": 0.0004,
+      "reward": 1.9140625,
+      "reward_std": 0.0586601123213768,
+      "rewards/accuracy_reward": 0.9140625,
+      "rewards/format_reward": 1.0,
+      "step": 1337
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 559.625,
+      "epoch": 1.8328767123287673,
+      "grad_norm": 1.2696986198425293,
+      "kl": 0.41552734375,
+      "learning_rate": 3.8904109589041093e-07,
+      "loss": 0.0004,
+      "reward": 1.84375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 0.96875,
+      "step": 1338
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 607.9375,
+      "epoch": 1.8342465753424657,
+      "grad_norm": 0.9802991151809692,
+      "kl": 0.42822265625,
+      "learning_rate": 3.885844748858447e-07,
+      "loss": 0.0004,
+      "reward": 1.734375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 1339
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 420.0,
+      "epoch": 1.8356164383561644,
+      "grad_norm": 3.0885043144226074,
+      "kl": 0.47265625,
+      "learning_rate": 3.881278538812785e-07,
+      "loss": 0.0005,
+      "reward": 1.53125,
+      "reward_std": 0.2630179077386856,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1340
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 640.0,
+      "epoch": 1.8369863013698629,
+      "grad_norm": 1.7745717763900757,
+      "kl": 0.4228515625,
+      "learning_rate": 3.8767123287671235e-07,
+      "loss": 0.0004,
+      "reward": 1.5260416567325592,
+      "reward_std": 0.1031197477132082,
+      "rewards/accuracy_reward": 0.5260416567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1341
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 688.8125,
+      "epoch": 1.8383561643835615,
+      "grad_norm": 1.992781400680542,
+      "kl": 0.37060546875,
+      "learning_rate": 3.872146118721461e-07,
+      "loss": 0.0004,
+      "reward": 2.12109375,
+      "reward_std": 0.30355274956673384,
+      "rewards/accuracy_reward": 1.12109375,
+      "rewards/format_reward": 1.0,
+      "step": 1342
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 714.0625,
+      "epoch": 1.8397260273972602,
+      "grad_norm": 1.5984230041503906,
+      "kl": 0.408203125,
+      "learning_rate": 3.8675799086757987e-07,
+      "loss": 0.0004,
+      "reward": 2.4739583134651184,
+      "reward_std": 0.06348210014402866,
+      "rewards/accuracy_reward": 1.4739583283662796,
+      "rewards/format_reward": 1.0,
+      "step": 1343
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 540.03125,
+      "epoch": 1.841095890410959,
+      "grad_norm": 1.3037183284759521,
+      "kl": 0.4130859375,
+      "learning_rate": 3.863013698630137e-07,
+      "loss": 0.0004,
+      "reward": 1.5625,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 1344
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 643.15625,
+      "epoch": 1.8424657534246576,
+      "grad_norm": 2.004246950149536,
+      "kl": 0.38916015625,
+      "learning_rate": 3.858447488584475e-07,
+      "loss": 0.0004,
+      "reward": 1.9739583730697632,
+      "reward_std": 0.15365739166736603,
+      "rewards/accuracy_reward": 0.9739583432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1345
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 668.5625,
+      "epoch": 1.8438356164383563,
+      "grad_norm": 1.946022629737854,
+      "kl": 0.7138671875,
+      "learning_rate": 3.8538812785388123e-07,
+      "loss": 0.0007,
+      "reward": 1.8671875,
+      "reward_std": 0.1764004547148943,
+      "rewards/accuracy_reward": 0.8671875,
+      "rewards/format_reward": 1.0,
+      "step": 1346
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 563.46875,
+      "epoch": 1.845205479452055,
+      "grad_norm": 0.02207101136445999,
+      "kl": 0.447265625,
+      "learning_rate": 3.84931506849315e-07,
+      "loss": 0.0004,
+      "reward": 1.375,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 1347
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 732.5,
+      "epoch": 1.8465753424657534,
+      "grad_norm": 0.019742077216506004,
+      "kl": 0.39892578125,
+      "learning_rate": 3.8447488584474886e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1348
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 754.8125,
+      "epoch": 1.847945205479452,
+      "grad_norm": 0.8988412618637085,
+      "kl": 0.55810546875,
+      "learning_rate": 3.8401826484018264e-07,
+      "loss": 0.0006,
+      "reward": 1.7421875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.7421875,
+      "rewards/format_reward": 1.0,
+      "step": 1349
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 759.09375,
+      "epoch": 1.8493150684931505,
+      "grad_norm": 1.8476406335830688,
+      "kl": 0.36962890625,
+      "learning_rate": 3.835616438356164e-07,
+      "loss": 0.0004,
+      "reward": 2.0640625059604645,
+      "reward_std": 0.13572776410728693,
+      "rewards/accuracy_reward": 1.0640624910593033,
+      "rewards/format_reward": 1.0,
+      "step": 1350
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 553.03125,
+      "epoch": 1.8506849315068492,
+      "grad_norm": 2.2749574184417725,
+      "kl": 0.41943359375,
+      "learning_rate": 3.831050228310502e-07,
+      "loss": 0.0004,
+      "reward": 1.375,
+      "reward_std": 0.2314550280570984,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 1351
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 753.5,
+      "epoch": 1.8520547945205479,
+      "grad_norm": 1.0778717994689941,
+      "kl": 0.3681640625,
+      "learning_rate": 3.82648401826484e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 1352
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 570.59375,
+      "epoch": 1.8534246575342466,
+      "grad_norm": 4.1339192390441895,
+      "kl": 0.39404296875,
+      "learning_rate": 3.821917808219178e-07,
+      "loss": 0.0004,
+      "reward": 1.6458333730697632,
+      "reward_std": 0.3535533994436264,
+      "rewards/accuracy_reward": 0.6770833432674408,
+      "rewards/format_reward": 0.96875,
+      "step": 1353
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 708.34375,
+      "epoch": 1.8547945205479452,
+      "grad_norm": 1.2056562900543213,
+      "kl": 0.3828125,
+      "learning_rate": 3.817351598173516e-07,
+      "loss": 0.0004,
+      "reward": 1.9812500178813934,
+      "reward_std": 0.0258774571120739,
+      "rewards/accuracy_reward": 0.981249988079071,
+      "rewards/format_reward": 1.0,
+      "step": 1354
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 670.84375,
+      "epoch": 1.856164383561644,
+      "grad_norm": 1.6965365409851074,
+      "kl": 0.44970703125,
+      "learning_rate": 3.8127853881278537e-07,
+      "loss": 0.0004,
+      "reward": 1.4296875,
+      "reward_std": 0.13782460056245327,
+      "rewards/accuracy_reward": 0.4296875,
+      "rewards/format_reward": 1.0,
+      "step": 1355
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 593.65625,
+      "epoch": 1.8575342465753426,
+      "grad_norm": 2.8250954151153564,
+      "kl": 0.39013671875,
+      "learning_rate": 3.8082191780821916e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.32591186091303825,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 0.96875,
+      "step": 1356
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 545.15625,
+      "epoch": 1.858904109589041,
+      "grad_norm": 1.4295003414154053,
+      "kl": 0.4326171875,
+      "learning_rate": 3.8036529680365294e-07,
+      "loss": 0.0004,
+      "reward": 1.703125,
+      "reward_std": 0.11008995585143566,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 0.96875,
+      "step": 1357
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 667.5625,
+      "epoch": 1.8602739726027397,
+      "grad_norm": 1.55521559715271,
+      "kl": 0.373046875,
+      "learning_rate": 3.7990867579908673e-07,
+      "loss": 0.0004,
+      "reward": 1.3671875,
+      "reward_std": 0.1758887767791748,
+      "rewards/accuracy_reward": 0.3671875,
+      "rewards/format_reward": 1.0,
+      "step": 1358
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 755.0,
+      "epoch": 1.8616438356164382,
+      "grad_norm": 2.8006885051727295,
+      "kl": 0.3818359375,
+      "learning_rate": 3.794520547945205e-07,
+      "loss": 0.0004,
+      "reward": 1.921875,
+      "reward_std": 0.29921873193234205,
+      "rewards/accuracy_reward": 0.953125,
+      "rewards/format_reward": 0.96875,
+      "step": 1359
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 785.21875,
+      "epoch": 1.8630136986301369,
+      "grad_norm": 1.2598497867584229,
+      "kl": 0.3681640625,
+      "learning_rate": 3.789954337899543e-07,
+      "loss": 0.0004,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 1360
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 660.21875,
+      "epoch": 1.8643835616438356,
+      "grad_norm": 1.1657953262329102,
+      "kl": 0.421875,
+      "learning_rate": 3.7853881278538814e-07,
+      "loss": 0.0004,
+      "reward": 1.581250011920929,
+      "reward_std": 0.05303302966058254,
+      "rewards/accuracy_reward": 0.5812499225139618,
+      "rewards/format_reward": 1.0,
+      "step": 1361
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 685.28125,
+      "epoch": 1.8657534246575342,
+      "grad_norm": 1.6453932523727417,
+      "kl": 0.4052734375,
+      "learning_rate": 3.780821917808219e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 0.96875,
+      "step": 1362
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 743.9375,
+      "epoch": 1.867123287671233,
+      "grad_norm": 0.9338255524635315,
+      "kl": 0.3828125,
+      "learning_rate": 3.7762557077625567e-07,
+      "loss": 0.0004,
+      "reward": 1.21875,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 1363
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 750.40625,
+      "epoch": 1.8684931506849316,
+      "grad_norm": 1.2286465167999268,
+      "kl": 0.35498046875,
+      "learning_rate": 3.771689497716895e-07,
+      "loss": 0.0004,
+      "reward": 1.4739583432674408,
+      "reward_std": 0.0446804016828537,
+      "rewards/accuracy_reward": 0.4739583432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1364
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 536.40625,
+      "epoch": 1.8698630136986303,
+      "grad_norm": 2.54731822013855,
+      "kl": 0.4755859375,
+      "learning_rate": 3.767123287671233e-07,
+      "loss": 0.0005,
+      "reward": 1.484375,
+      "reward_std": 0.1530819907784462,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 1365
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 645.75,
+      "epoch": 1.8712328767123287,
+      "grad_norm": 1.7513319253921509,
+      "kl": 0.439453125,
+      "learning_rate": 3.7625570776255703e-07,
+      "loss": 0.0004,
+      "reward": 1.0,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.03125,
+      "rewards/format_reward": 0.96875,
+      "step": 1366
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 584.65625,
+      "epoch": 1.8726027397260274,
+      "grad_norm": 2.434053421020508,
+      "kl": 0.4208984375,
+      "learning_rate": 3.757990867579908e-07,
+      "loss": 0.0004,
+      "reward": 1.375,
+      "reward_std": 0.3335031494498253,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 0.96875,
+      "step": 1367
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 636.90625,
+      "epoch": 1.8739726027397259,
+      "grad_norm": 4.134721279144287,
+      "kl": 0.38623046875,
+      "learning_rate": 3.7534246575342466e-07,
+      "loss": 0.0004,
+      "reward": 1.2734375,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.2734375,
+      "rewards/format_reward": 1.0,
+      "step": 1368
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 626.625,
+      "epoch": 1.8753424657534246,
+      "grad_norm": 1.6229547262191772,
+      "kl": 0.39892578125,
+      "learning_rate": 3.7488584474885844e-07,
+      "loss": 0.0004,
+      "reward": 1.1875,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/format_reward": 1.0,
+      "step": 1369
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 434.0,
+      "epoch": 1.8767123287671232,
+      "grad_norm": 8.069443702697754,
+      "kl": 0.439453125,
+      "learning_rate": 3.744292237442922e-07,
+      "loss": 0.0004,
+      "reward": 1.484375,
+      "reward_std": 0.22097086533904076,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 1370
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 475.59375,
+      "epoch": 1.878082191780822,
+      "grad_norm": 1.9008253812789917,
+      "kl": 0.4453125,
+      "learning_rate": 3.73972602739726e-07,
+      "loss": 0.0004,
+      "reward": 1.875,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 1371
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 609.46875,
+      "epoch": 1.8794520547945206,
+      "grad_norm": 7.485525608062744,
+      "kl": 0.4140625,
+      "learning_rate": 3.735159817351598e-07,
+      "loss": 0.0004,
+      "reward": 1.828125,
+      "reward_std": 0.26621313393116,
+      "rewards/accuracy_reward": 0.828125,
+      "rewards/format_reward": 1.0,
+      "step": 1372
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 531.46875,
+      "epoch": 1.8808219178082193,
+      "grad_norm": 4.429251194000244,
+      "kl": 0.4541015625,
+      "learning_rate": 3.730593607305936e-07,
+      "loss": 0.0005,
+      "reward": 1.7890625,
+      "reward_std": 0.2409443659707904,
+      "rewards/accuracy_reward": 0.7890625298023224,
+      "rewards/format_reward": 1.0,
+      "step": 1373
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 555.90625,
+      "epoch": 1.882191780821918,
+      "grad_norm": 2.635195255279541,
+      "kl": 0.44873046875,
+      "learning_rate": 3.726027397260274e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.2314550280570984,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1374
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 599.15625,
+      "epoch": 1.8835616438356164,
+      "grad_norm": 6.548781871795654,
+      "kl": 0.37939453125,
+      "learning_rate": 3.7214611872146117e-07,
+      "loss": 0.0004,
+      "reward": 1.2421875,
+      "reward_std": 0.1557277049869299,
+      "rewards/accuracy_reward": 0.2734375,
+      "rewards/format_reward": 0.96875,
+      "step": 1375
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 473.71875,
+      "epoch": 1.884931506849315,
+      "grad_norm": 3.853523015975952,
+      "kl": 0.41845703125,
+      "learning_rate": 3.7168949771689495e-07,
+      "loss": 0.0004,
+      "reward": 1.6510416567325592,
+      "reward_std": 0.3524778801947832,
+      "rewards/accuracy_reward": 0.6822916567325592,
+      "rewards/format_reward": 0.96875,
+      "step": 1376
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 514.21875,
+      "epoch": 1.8863013698630136,
+      "grad_norm": 2.233471632003784,
+      "kl": 0.43701171875,
+      "learning_rate": 3.7123287671232874e-07,
+      "loss": 0.0004,
+      "reward": 1.421875,
+      "reward_std": 0.21618292480707169,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 1377
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 623.375,
+      "epoch": 1.8876712328767122,
+      "grad_norm": 2.056898355484009,
+      "kl": 0.388671875,
+      "learning_rate": 3.7077625570776253e-07,
+      "loss": 0.0004,
+      "reward": 1.8359375,
+      "reward_std": 0.09522313624620438,
+      "rewards/accuracy_reward": 0.8359375,
+      "rewards/format_reward": 1.0,
+      "step": 1378
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 604.125,
+      "epoch": 1.889041095890411,
+      "grad_norm": 2.5144689083099365,
+      "kl": 0.40380859375,
+      "learning_rate": 3.703196347031963e-07,
+      "loss": 0.0004,
+      "reward": 1.6875,
+      "reward_std": 0.19255621079355478,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 1379
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 478.4375,
+      "epoch": 1.8904109589041096,
+      "grad_norm": 2.054619312286377,
+      "kl": 0.4072265625,
+      "learning_rate": 3.698630136986301e-07,
+      "loss": 0.0004,
+      "reward": 1.584375023841858,
+      "reward_std": 0.2702798917889595,
+      "rewards/accuracy_reward": 0.5843750238418579,
+      "rewards/format_reward": 1.0,
+      "step": 1380
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 688.96875,
+      "epoch": 1.8917808219178083,
+      "grad_norm": 1.5227936506271362,
+      "kl": 0.3740234375,
+      "learning_rate": 3.6940639269406394e-07,
+      "loss": 0.0004,
+      "reward": 1.9453125,
+      "reward_std": 0.15467960201203823,
+      "rewards/accuracy_reward": 0.9453125,
+      "rewards/format_reward": 1.0,
+      "step": 1381
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 652.15625,
+      "epoch": 1.893150684931507,
+      "grad_norm": 4.705779552459717,
+      "kl": 0.4052734375,
+      "learning_rate": 3.689497716894977e-07,
+      "loss": 0.0004,
+      "reward": 1.703125,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 1.0,
+      "step": 1382
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 653.4375,
+      "epoch": 1.8945205479452056,
+      "grad_norm": 2.397111177444458,
+      "kl": 0.39599609375,
+      "learning_rate": 3.6849315068493147e-07,
+      "loss": 0.0004,
+      "reward": 1.9645833373069763,
+      "reward_std": 0.16174158081412315,
+      "rewards/accuracy_reward": 0.9645833522081375,
+      "rewards/format_reward": 1.0,
+      "step": 1383
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 567.59375,
+      "epoch": 1.895890410958904,
+      "grad_norm": 2.347048759460449,
+      "kl": 0.39453125,
+      "learning_rate": 3.680365296803653e-07,
+      "loss": 0.0004,
+      "reward": 1.03125,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/format_reward": 0.96875,
+      "step": 1384
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 636.4375,
+      "epoch": 1.8972602739726028,
+      "grad_norm": 3.3993146419525146,
+      "kl": 0.42724609375,
+      "learning_rate": 3.675799086757991e-07,
+      "loss": 0.0004,
+      "reward": 2.1614583134651184,
+      "reward_std": 0.17920961417257786,
+      "rewards/accuracy_reward": 1.1614583134651184,
+      "rewards/format_reward": 1.0,
+      "step": 1385
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 555.125,
+      "epoch": 1.8986301369863012,
+      "grad_norm": 1.4502238035202026,
+      "kl": 0.45166015625,
+      "learning_rate": 3.6712328767123283e-07,
+      "loss": 0.0005,
+      "reward": 1.4583333730697632,
+      "reward_std": 0.13363061845302582,
+      "rewards/accuracy_reward": 0.4583333432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1386
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 732.375,
+      "epoch": 1.9,
+      "grad_norm": 0.8837342858314514,
+      "kl": 0.37109375,
+      "learning_rate": 3.666666666666666e-07,
+      "loss": 0.0004,
+      "reward": 2.1015625,
+      "reward_std": 0.06629125773906708,
+      "rewards/accuracy_reward": 1.1015625,
+      "rewards/format_reward": 1.0,
+      "step": 1387
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 456.96875,
+      "epoch": 1.9013698630136986,
+      "grad_norm": 2.4638173580169678,
+      "kl": 0.4306640625,
+      "learning_rate": 3.6621004566210046e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.3061639815568924,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 1388
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 603.125,
+      "epoch": 1.9027397260273973,
+      "grad_norm": 2.0899627208709717,
+      "kl": 0.37890625,
+      "learning_rate": 3.6575342465753424e-07,
+      "loss": 0.0004,
+      "reward": 1.3984375,
+      "reward_std": 0.21858179941773415,
+      "rewards/accuracy_reward": 0.4296875,
+      "rewards/format_reward": 0.96875,
+      "step": 1389
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 571.28125,
+      "epoch": 1.904109589041096,
+      "grad_norm": 2.1213791370391846,
+      "kl": 0.3896484375,
+      "learning_rate": 3.65296803652968e-07,
+      "loss": 0.0004,
+      "reward": 1.36328125,
+      "reward_std": 0.1498040296137333,
+      "rewards/accuracy_reward": 0.36328125,
+      "rewards/format_reward": 1.0,
+      "step": 1390
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 441.34375,
+      "epoch": 1.9054794520547946,
+      "grad_norm": 2.6480133533477783,
+      "kl": 0.6806640625,
+      "learning_rate": 3.648401826484018e-07,
+      "loss": 0.0007,
+      "reward": 1.515625,
+      "reward_std": 0.24831003323197365,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 1391
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 633.4375,
+      "epoch": 1.9068493150684933,
+      "grad_norm": 2.2677855491638184,
+      "kl": 0.40625,
+      "learning_rate": 3.643835616438356e-07,
+      "loss": 0.0004,
+      "reward": 1.7890625,
+      "reward_std": 0.18201877176761627,
+      "rewards/accuracy_reward": 0.7890625,
+      "rewards/format_reward": 1.0,
+      "step": 1392
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 560.84375,
+      "epoch": 1.9082191780821918,
+      "grad_norm": 3.037370204925537,
+      "kl": 0.3916015625,
+      "learning_rate": 3.639269406392694e-07,
+      "loss": 0.0004,
+      "reward": 1.71875,
+      "reward_std": 0.24511480331420898,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 1.0,
+      "step": 1393
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 676.0,
+      "epoch": 1.9095890410958904,
+      "grad_norm": 0.9519621729850769,
+      "kl": 0.38623046875,
+      "learning_rate": 3.634703196347032e-07,
+      "loss": 0.0004,
+      "reward": 1.234375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 1394
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 656.0625,
+      "epoch": 1.910958904109589,
+      "grad_norm": 0.01667208969593048,
+      "kl": 0.39404296875,
+      "learning_rate": 3.6301369863013697e-07,
+      "loss": 0.0004,
+      "reward": 1.375,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 1395
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 654.03125,
+      "epoch": 1.9123287671232876,
+      "grad_norm": 1.8245092630386353,
+      "kl": 0.36474609375,
+      "learning_rate": 3.6255707762557075e-07,
+      "loss": 0.0004,
+      "reward": 1.96875,
+      "reward_std": 0.2651650384068489,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 0.96875,
+      "step": 1396
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 393.8125,
+      "epoch": 1.9136986301369863,
+      "grad_norm": 1.5383321046829224,
+      "kl": 0.40869140625,
+      "learning_rate": 3.6210045662100454e-07,
+      "loss": 0.0004,
+      "reward": 1.03125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.03125,
+      "rewards/format_reward": 1.0,
+      "step": 1397
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 564.09375,
+      "epoch": 1.915068493150685,
+      "grad_norm": 1.461592435836792,
+      "kl": 0.408203125,
+      "learning_rate": 3.6164383561643833e-07,
+      "loss": 0.0004,
+      "reward": 1.203125,
+      "reward_std": 0.1173202246427536,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 0.96875,
+      "step": 1398
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 433.84375,
+      "epoch": 1.9164383561643836,
+      "grad_norm": 4.61203670501709,
+      "kl": 0.4189453125,
+      "learning_rate": 3.611872146118721e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.4629100561141968,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1399
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 604.625,
+      "epoch": 1.9178082191780823,
+      "grad_norm": 1.640673279762268,
+      "kl": 0.38623046875,
+      "learning_rate": 3.607305936073059e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.2925042062997818,
+      "rewards/accuracy_reward": 0.78125,
+      "rewards/format_reward": 0.96875,
+      "step": 1400
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 547.5625,
+      "epoch": 1.919178082191781,
+      "grad_norm": 2.0510902404785156,
+      "kl": 0.39501953125,
+      "learning_rate": 3.6027397260273974e-07,
+      "loss": 0.0004,
+      "reward": 1.5078125,
+      "reward_std": 0.13410821184515953,
+      "rewards/accuracy_reward": 0.5078125,
+      "rewards/format_reward": 1.0,
+      "step": 1401
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 699.0,
+      "epoch": 1.9205479452054794,
+      "grad_norm": 1.5416675806045532,
+      "kl": 0.361328125,
+      "learning_rate": 3.598173515981735e-07,
+      "loss": 0.0004,
+      "reward": 1.796875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.796875,
+      "rewards/format_reward": 1.0,
+      "step": 1402
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 696.25,
+      "epoch": 1.9219178082191781,
+      "grad_norm": 2.692549705505371,
+      "kl": 0.365234375,
+      "learning_rate": 3.5936073059360726e-07,
+      "loss": 0.0004,
+      "reward": 1.7265625,
+      "reward_std": 0.3349137119948864,
+      "rewards/accuracy_reward": 0.7578125,
+      "rewards/format_reward": 0.96875,
+      "step": 1403
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 668.28125,
+      "epoch": 1.9232876712328766,
+      "grad_norm": 2.0048868656158447,
+      "kl": 0.42236328125,
+      "learning_rate": 3.589041095890411e-07,
+      "loss": 0.0004,
+      "reward": 1.8203125,
+      "reward_std": 0.19567854888737202,
+      "rewards/accuracy_reward": 0.8203125,
+      "rewards/format_reward": 1.0,
+      "step": 1404
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 803.625,
+      "epoch": 1.9246575342465753,
+      "grad_norm": 2.902437686920166,
+      "kl": 0.35693359375,
+      "learning_rate": 3.584474885844749e-07,
+      "loss": 0.0004,
+      "reward": 2.09765625,
+      "reward_std": 0.2541164979338646,
+      "rewards/accuracy_reward": 1.12890625,
+      "rewards/format_reward": 0.96875,
+      "step": 1405
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 474.4375,
+      "epoch": 1.926027397260274,
+      "grad_norm": 7.264739513397217,
+      "kl": 0.423828125,
+      "learning_rate": 3.5799086757990863e-07,
+      "loss": 0.0004,
+      "reward": 1.7734375,
+      "reward_std": 0.3598435651510954,
+      "rewards/accuracy_reward": 0.7734375,
+      "rewards/format_reward": 1.0,
+      "step": 1406
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 765.0,
+      "epoch": 1.9273972602739726,
+      "grad_norm": 0.010847114026546478,
+      "kl": 0.34619140625,
+      "learning_rate": 3.575342465753424e-07,
+      "loss": 0.0003,
+      "reward": 1.875,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 1407
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 588.09375,
+      "epoch": 1.9287671232876713,
+      "grad_norm": 1.5865646600723267,
+      "kl": 0.396484375,
+      "learning_rate": 3.5707762557077625e-07,
+      "loss": 0.0004,
+      "reward": 1.546875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.546875,
+      "rewards/format_reward": 1.0,
+      "step": 1408
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 567.90625,
+      "epoch": 1.93013698630137,
+      "grad_norm": 3.1455423831939697,
+      "kl": 0.419921875,
+      "learning_rate": 3.5662100456621004e-07,
+      "loss": 0.0004,
+      "reward": 1.484375,
+      "reward_std": 0.3668070249259472,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 0.96875,
+      "step": 1409
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 593.4375,
+      "epoch": 1.9315068493150684,
+      "grad_norm": 1.38059663772583,
+      "kl": 0.4033203125,
+      "learning_rate": 3.561643835616438e-07,
+      "loss": 0.0004,
+      "reward": 1.3125,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 1410
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 602.0625,
+      "epoch": 1.9328767123287671,
+      "grad_norm": 1.509990930557251,
+      "kl": 0.40234375,
+      "learning_rate": 3.557077625570776e-07,
+      "loss": 0.0004,
+      "reward": 1.8125,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.8125,
+      "rewards/format_reward": 1.0,
+      "step": 1411
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 654.1875,
+      "epoch": 1.9342465753424658,
+      "grad_norm": 1.6827130317687988,
+      "kl": 0.37939453125,
+      "learning_rate": 3.552511415525114e-07,
+      "loss": 0.0004,
+      "reward": 2.03125,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 1.03125,
+      "rewards/format_reward": 1.0,
+      "step": 1412
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 617.1875,
+      "epoch": 1.9356164383561643,
+      "grad_norm": 3.72878098487854,
+      "kl": 0.53369140625,
+      "learning_rate": 3.547945205479452e-07,
+      "loss": 0.0005,
+      "reward": 1.46875,
+      "reward_std": 0.4419417232275009,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.96875,
+      "step": 1413
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 806.25,
+      "epoch": 1.936986301369863,
+      "grad_norm": 1.0118378400802612,
+      "kl": 0.3720703125,
+      "learning_rate": 3.54337899543379e-07,
+      "loss": 0.0004,
+      "reward": 2.2265625,
+      "reward_std": 0.06629125773906708,
+      "rewards/accuracy_reward": 1.2265625,
+      "rewards/format_reward": 1.0,
+      "step": 1414
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 669.65625,
+      "epoch": 1.9383561643835616,
+      "grad_norm": 2.4014487266540527,
+      "kl": 0.36669921875,
+      "learning_rate": 3.5388127853881277e-07,
+      "loss": 0.0004,
+      "reward": 1.875,
+      "reward_std": 0.13363061845302582,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 1415
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 607.625,
+      "epoch": 1.9397260273972603,
+      "grad_norm": 0.9169493913650513,
+      "kl": 0.41552734375,
+      "learning_rate": 3.5342465753424655e-07,
+      "loss": 0.0004,
+      "reward": 1.21875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 0.96875,
+      "step": 1416
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 695.34375,
+      "epoch": 1.941095890410959,
+      "grad_norm": 2.1601145267486572,
+      "kl": 0.43603515625,
+      "learning_rate": 3.5296803652968034e-07,
+      "loss": 0.0004,
+      "reward": 1.8802083730697632,
+      "reward_std": 0.13935029320418835,
+      "rewards/accuracy_reward": 0.8802083432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1417
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 540.09375,
+      "epoch": 1.9424657534246577,
+      "grad_norm": 6.859719753265381,
+      "kl": 0.38330078125,
+      "learning_rate": 3.5251141552511413e-07,
+      "loss": 0.0004,
+      "reward": 1.5625,
+      "reward_std": 0.10413684509694576,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 1418
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 563.3125,
+      "epoch": 1.9438356164383561,
+      "grad_norm": 1.5678671598434448,
+      "kl": 0.4130859375,
+      "learning_rate": 3.520547945205479e-07,
+      "loss": 0.0004,
+      "reward": 1.6796875,
+      "reward_std": 0.1649293415248394,
+      "rewards/accuracy_reward": 0.7109375,
+      "rewards/format_reward": 0.96875,
+      "step": 1419
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 677.3125,
+      "epoch": 1.9452054794520548,
+      "grad_norm": 2.4918768405914307,
+      "kl": 0.36865234375,
+      "learning_rate": 3.515981735159817e-07,
+      "loss": 0.0004,
+      "reward": 1.6875,
+      "reward_std": 0.2619796171784401,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 1420
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 675.25,
+      "epoch": 1.9465753424657535,
+      "grad_norm": 2.004167318344116,
+      "kl": 0.37158203125,
+      "learning_rate": 3.5114155251141554e-07,
+      "loss": 0.0004,
+      "reward": 1.2421875,
+      "reward_std": 0.14809655770659447,
+      "rewards/accuracy_reward": 0.2734375,
+      "rewards/format_reward": 0.96875,
+      "step": 1421
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 692.40625,
+      "epoch": 1.947945205479452,
+      "grad_norm": 0.9283829927444458,
+      "kl": 0.3759765625,
+      "learning_rate": 3.506849315068493e-07,
+      "loss": 0.0004,
+      "reward": 1.609375,
+      "reward_std": 0.016703827306628227,
+      "rewards/accuracy_reward": 0.609375,
+      "rewards/format_reward": 1.0,
+      "step": 1422
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 782.03125,
+      "epoch": 1.9493150684931506,
+      "grad_norm": 3.2200348377227783,
+      "kl": 0.41064453125,
+      "learning_rate": 3.5022831050228306e-07,
+      "loss": 0.0004,
+      "reward": 1.5546875,
+      "reward_std": 0.04707824159413576,
+      "rewards/accuracy_reward": 0.5546875,
+      "rewards/format_reward": 1.0,
+      "step": 1423
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 504.78125,
+      "epoch": 1.9506849315068493,
+      "grad_norm": 2.1249427795410156,
+      "kl": 0.40234375,
+      "learning_rate": 3.497716894977169e-07,
+      "loss": 0.0004,
+      "reward": 1.359375,
+      "reward_std": 0.26196980848908424,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 1.0,
+      "step": 1424
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 701.1875,
+      "epoch": 1.952054794520548,
+      "grad_norm": 1.670340657234192,
+      "kl": 0.3828125,
+      "learning_rate": 3.493150684931507e-07,
+      "loss": 0.0004,
+      "reward": 1.734375,
+      "reward_std": 0.17782479152083397,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 0.96875,
+      "step": 1425
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 566.4375,
+      "epoch": 1.9534246575342467,
+      "grad_norm": 4.609010696411133,
+      "kl": 0.50390625,
+      "learning_rate": 3.488584474885844e-07,
+      "loss": 0.0005,
+      "reward": 1.5625,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 1426
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 589.875,
+      "epoch": 1.9547945205479453,
+      "grad_norm": 21.49681854248047,
+      "kl": 0.41162109375,
+      "learning_rate": 3.484018264840182e-07,
+      "loss": 0.0004,
+      "reward": 1.984375,
+      "reward_std": 0.39560042321681976,
+      "rewards/accuracy_reward": 0.984375,
+      "rewards/format_reward": 1.0,
+      "step": 1427
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 564.6875,
+      "epoch": 1.9561643835616438,
+      "grad_norm": 8.201920509338379,
+      "kl": 0.40576171875,
+      "learning_rate": 3.4794520547945205e-07,
+      "loss": 0.0004,
+      "reward": 1.5625,
+      "reward_std": 0.3104073107242584,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 0.96875,
+      "step": 1428
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 534.65625,
+      "epoch": 1.9575342465753425,
+      "grad_norm": 1.3601114749908447,
+      "kl": 0.41064453125,
+      "learning_rate": 3.4748858447488584e-07,
+      "loss": 0.0004,
+      "reward": 1.515625,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 1429
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 655.25,
+      "epoch": 1.958904109589041,
+      "grad_norm": 1.4611324071884155,
+      "kl": 0.396484375,
+      "learning_rate": 3.470319634703196e-07,
+      "loss": 0.0004,
+      "reward": 1.3125,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 1430
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 641.59375,
+      "epoch": 1.9602739726027396,
+      "grad_norm": 2.467665433883667,
+      "kl": 0.41259765625,
+      "learning_rate": 3.465753424657534e-07,
+      "loss": 0.0004,
+      "reward": 1.78125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.78125,
+      "rewards/format_reward": 1.0,
+      "step": 1431
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 657.21875,
+      "epoch": 1.9616438356164383,
+      "grad_norm": 0.012671198695898056,
+      "kl": 0.404296875,
+      "learning_rate": 3.461187214611872e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1432
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 742.03125,
+      "epoch": 1.963013698630137,
+      "grad_norm": 0.9267722964286804,
+      "kl": 0.3837890625,
+      "learning_rate": 3.45662100456621e-07,
+      "loss": 0.0004,
+      "reward": 1.796875,
+      "reward_std": 0.056508470326662064,
+      "rewards/accuracy_reward": 0.796875,
+      "rewards/format_reward": 1.0,
+      "step": 1433
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 550.59375,
+      "epoch": 1.9643835616438357,
+      "grad_norm": 2.77634596824646,
+      "kl": 0.40234375,
+      "learning_rate": 3.4520547945205483e-07,
+      "loss": 0.0004,
+      "reward": 1.3671875,
+      "reward_std": 0.23987272195518017,
+      "rewards/accuracy_reward": 0.3671875,
+      "rewards/format_reward": 1.0,
+      "step": 1434
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 398.59375,
+      "epoch": 1.9657534246575343,
+      "grad_norm": 2.6458261013031006,
+      "kl": 0.44775390625,
+      "learning_rate": 3.4474885844748856e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.2630179077386856,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1435
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 612.9375,
+      "epoch": 1.967123287671233,
+      "grad_norm": 2.0713164806365967,
+      "kl": 0.40234375,
+      "learning_rate": 3.4429223744292235e-07,
+      "loss": 0.0004,
+      "reward": 1.7135416567325592,
+      "reward_std": 0.344564625993371,
+      "rewards/accuracy_reward": 0.7135416567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1436
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 642.71875,
+      "epoch": 1.9684931506849315,
+      "grad_norm": 1.5353671312332153,
+      "kl": 0.3818359375,
+      "learning_rate": 3.4383561643835614e-07,
+      "loss": 0.0004,
+      "reward": 1.59375,
+      "reward_std": 0.1552036553621292,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 1437
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 588.0,
+      "epoch": 1.9698630136986301,
+      "grad_norm": 1.9020066261291504,
+      "kl": 0.396484375,
+      "learning_rate": 3.4337899543378993e-07,
+      "loss": 0.0004,
+      "reward": 1.7890625,
+      "reward_std": 0.14807433634996414,
+      "rewards/accuracy_reward": 0.7890625,
+      "rewards/format_reward": 1.0,
+      "step": 1438
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 624.5,
+      "epoch": 1.9712328767123286,
+      "grad_norm": 0.8434827327728271,
+      "kl": 0.404296875,
+      "learning_rate": 3.429223744292237e-07,
+      "loss": 0.0004,
+      "reward": 1.4921875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.4921875,
+      "rewards/format_reward": 1.0,
+      "step": 1439
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 428.0625,
+      "epoch": 1.9726027397260273,
+      "grad_norm": 2.1812744140625,
+      "kl": 0.49365234375,
+      "learning_rate": 3.424657534246575e-07,
+      "loss": 0.0005,
+      "reward": 1.21875,
+      "reward_std": 0.2630179077386856,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 1440
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 546.875,
+      "epoch": 1.973972602739726,
+      "grad_norm": 2.8797459602355957,
+      "kl": 0.4111328125,
+      "learning_rate": 3.4200913242009134e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.2587745785713196,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1441
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 399.5625,
+      "epoch": 1.9753424657534246,
+      "grad_norm": 2.814116954803467,
+      "kl": 0.4541015625,
+      "learning_rate": 3.415525114155251e-07,
+      "loss": 0.0005,
+      "reward": 1.8515625,
+      "reward_std": 0.32506583631038666,
+      "rewards/accuracy_reward": 0.8515625,
+      "rewards/format_reward": 1.0,
+      "step": 1442
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 622.75,
+      "epoch": 1.9767123287671233,
+      "grad_norm": 1.9780163764953613,
+      "kl": 0.39990234375,
+      "learning_rate": 3.4109589041095886e-07,
+      "loss": 0.0004,
+      "reward": 1.5859375,
+      "reward_std": 0.22642775624990463,
+      "rewards/accuracy_reward": 0.5859375,
+      "rewards/format_reward": 1.0,
+      "step": 1443
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 542.1875,
+      "epoch": 1.978082191780822,
+      "grad_norm": 5.372514724731445,
+      "kl": 0.40283203125,
+      "learning_rate": 3.406392694063927e-07,
+      "loss": 0.0004,
+      "reward": 1.5416666865348816,
+      "reward_std": 0.22340381518006325,
+      "rewards/accuracy_reward": 0.5416666865348816,
+      "rewards/format_reward": 1.0,
+      "step": 1444
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 537.0,
+      "epoch": 1.9794520547945207,
+      "grad_norm": 4.112650394439697,
+      "kl": 0.4228515625,
+      "learning_rate": 3.401826484018265e-07,
+      "loss": 0.0004,
+      "reward": 1.796875,
+      "reward_std": 0.2877064570784569,
+      "rewards/accuracy_reward": 0.796875,
+      "rewards/format_reward": 1.0,
+      "step": 1445
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 591.875,
+      "epoch": 1.9808219178082191,
+      "grad_norm": 2.67258882522583,
+      "kl": 0.3740234375,
+      "learning_rate": 3.397260273972602e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.28402097523212433,
+      "rewards/accuracy_reward": 0.78125,
+      "rewards/format_reward": 0.96875,
+      "step": 1446
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 628.5,
+      "epoch": 1.9821917808219178,
+      "grad_norm": 2.40521502494812,
+      "kl": 0.4189453125,
+      "learning_rate": 3.39269406392694e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.14913516864180565,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1447
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 652.0,
+      "epoch": 1.9835616438356163,
+      "grad_norm": 1.900014042854309,
+      "kl": 0.412109375,
+      "learning_rate": 3.3881278538812785e-07,
+      "loss": 0.0004,
+      "reward": 1.9078125357627869,
+      "reward_std": 0.16866645123809576,
+      "rewards/accuracy_reward": 0.9078125357627869,
+      "rewards/format_reward": 1.0,
+      "step": 1448
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 547.5,
+      "epoch": 1.984931506849315,
+      "grad_norm": 2.489541530609131,
+      "kl": 0.41455078125,
+      "learning_rate": 3.3835616438356164e-07,
+      "loss": 0.0004,
+      "reward": 1.21875,
+      "reward_std": 0.24511480331420898,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 1449
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 662.5,
+      "epoch": 1.9863013698630136,
+      "grad_norm": 2.187171697616577,
+      "kl": 0.392578125,
+      "learning_rate": 3.378995433789954e-07,
+      "loss": 0.0004,
+      "reward": 1.5625,
+      "reward_std": 0.22932525165379047,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 1450
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 711.15625,
+      "epoch": 1.9876712328767123,
+      "grad_norm": 1.2717783451080322,
+      "kl": 0.37890625,
+      "learning_rate": 3.374429223744292e-07,
+      "loss": 0.0004,
+      "reward": 1.984375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.984375,
+      "rewards/format_reward": 1.0,
+      "step": 1451
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 738.15625,
+      "epoch": 1.989041095890411,
+      "grad_norm": 1.091471552848816,
+      "kl": 0.37890625,
+      "learning_rate": 3.36986301369863e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.06681530922651291,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 1452
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 617.84375,
+      "epoch": 1.9904109589041097,
+      "grad_norm": 1.5348868370056152,
+      "kl": 0.3740234375,
+      "learning_rate": 3.365296803652968e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.96875,
+      "step": 1453
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 518.15625,
+      "epoch": 1.9917808219178084,
+      "grad_norm": 2.1458778381347656,
+      "kl": 0.40283203125,
+      "learning_rate": 3.3607305936073063e-07,
+      "loss": 0.0004,
+      "reward": 1.625,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 1454
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 724.0,
+      "epoch": 1.9931506849315068,
+      "grad_norm": 1.5490275621414185,
+      "kl": 0.373046875,
+      "learning_rate": 3.3561643835616436e-07,
+      "loss": 0.0004,
+      "reward": 1.984375,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.984375,
+      "rewards/format_reward": 1.0,
+      "step": 1455
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 516.5,
+      "epoch": 1.9945205479452055,
+      "grad_norm": 1.3605722188949585,
+      "kl": 0.53125,
+      "learning_rate": 3.3515981735159815e-07,
+      "loss": 0.0005,
+      "reward": 1.4375,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 1456
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 630.28125,
+      "epoch": 1.995890410958904,
+      "grad_norm": 2.1576828956604004,
+      "kl": 0.3779296875,
+      "learning_rate": 3.3470319634703194e-07,
+      "loss": 0.0004,
+      "reward": 1.7096354067325592,
+      "reward_std": 0.11416829098016024,
+      "rewards/accuracy_reward": 0.7096354067325592,
+      "rewards/format_reward": 1.0,
+      "step": 1457
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.125,
+      "epoch": 1.9972602739726026,
+      "grad_norm": 2.335642099380493,
+      "kl": 0.48486328125,
+      "learning_rate": 3.342465753424658e-07,
+      "loss": 0.0005,
+      "reward": 1.25,
+      "reward_std": 0.2314550280570984,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1458
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 631.0,
+      "epoch": 1.9986301369863013,
+      "grad_norm": 0.013783660717308521,
+      "kl": 0.4169921875,
+      "learning_rate": 3.337899543378995e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1459
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 520.0625,
+      "epoch": 2.0,
+      "grad_norm": 1.4496954679489136,
+      "kl": 0.40869140625,
+      "learning_rate": 3.333333333333333e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 1460
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 578.28125,
+      "epoch": 2.0013698630136987,
+      "grad_norm": 5.677497863769531,
+      "kl": 0.4013671875,
+      "learning_rate": 3.3287671232876714e-07,
+      "loss": 0.0004,
+      "reward": 1.6875,
+      "reward_std": 0.1872510462999344,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 1461
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 650.34375,
+      "epoch": 2.0027397260273974,
+      "grad_norm": 4.2131547927856445,
+      "kl": 0.376953125,
+      "learning_rate": 3.3242009132420093e-07,
+      "loss": 0.0004,
+      "reward": 1.703125,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 0.96875,
+      "step": 1462
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 545.8125,
+      "epoch": 2.004109589041096,
+      "grad_norm": 5.065921306610107,
+      "kl": 0.4150390625,
+      "learning_rate": 3.3196347031963466e-07,
+      "loss": 0.0004,
+      "reward": 1.7395833730697632,
+      "reward_std": 0.3061639815568924,
+      "rewards/accuracy_reward": 0.7708333432674408,
+      "rewards/format_reward": 0.96875,
+      "step": 1463
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 541.8125,
+      "epoch": 2.0054794520547947,
+      "grad_norm": 1.686894416809082,
+      "kl": 0.4443359375,
+      "learning_rate": 3.315068493150685e-07,
+      "loss": 0.0004,
+      "reward": 1.640625,
+      "reward_std": 0.17358146235346794,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 1464
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 419.8125,
+      "epoch": 2.006849315068493,
+      "grad_norm": 3.1126651763916016,
+      "kl": 0.47412109375,
+      "learning_rate": 3.310502283105023e-07,
+      "loss": 0.0005,
+      "reward": 1.59375,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 1465
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 427.84375,
+      "epoch": 2.0082191780821916,
+      "grad_norm": 1.6727089881896973,
+      "kl": 0.44287109375,
+      "learning_rate": 3.30593607305936e-07,
+      "loss": 0.0004,
+      "reward": 1.71875,
+      "reward_std": 0.30173346400260925,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 0.96875,
+      "step": 1466
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 618.75,
+      "epoch": 2.0095890410958903,
+      "grad_norm": 2.0780599117279053,
+      "kl": 2.7607421875,
+      "learning_rate": 3.301369863013698e-07,
+      "loss": 0.0028,
+      "reward": 1.7447916567325592,
+      "reward_std": 0.014731401577591896,
+      "rewards/accuracy_reward": 0.7447916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1467
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 708.5,
+      "epoch": 2.010958904109589,
+      "grad_norm": 2.6083319187164307,
+      "kl": 0.390625,
+      "learning_rate": 3.2968036529680365e-07,
+      "loss": 0.0004,
+      "reward": 1.8203125,
+      "reward_std": 0.0521576851606369,
+      "rewards/accuracy_reward": 0.8203125,
+      "rewards/format_reward": 1.0,
+      "step": 1468
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 610.0625,
+      "epoch": 2.0123287671232877,
+      "grad_norm": 2.0453643798828125,
+      "kl": 0.40869140625,
+      "learning_rate": 3.2922374429223744e-07,
+      "loss": 0.0004,
+      "reward": 1.9843749403953552,
+      "reward_std": 0.144187705591321,
+      "rewards/accuracy_reward": 0.9843749850988388,
+      "rewards/format_reward": 1.0,
+      "step": 1469
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 561.5625,
+      "epoch": 2.0136986301369864,
+      "grad_norm": 1.9520769119262695,
+      "kl": 0.6845703125,
+      "learning_rate": 3.287671232876712e-07,
+      "loss": 0.0007,
+      "reward": 2.171875,
+      "reward_std": 0.22097086161375046,
+      "rewards/accuracy_reward": 1.171875,
+      "rewards/format_reward": 1.0,
+      "step": 1470
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 660.5625,
+      "epoch": 2.015068493150685,
+      "grad_norm": 0.01228200551122427,
+      "kl": 0.39208984375,
+      "learning_rate": 3.28310502283105e-07,
+      "loss": 0.0004,
+      "reward": 2.125,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.125,
+      "rewards/format_reward": 1.0,
+      "step": 1471
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 711.0625,
+      "epoch": 2.0164383561643837,
+      "grad_norm": 0.012261162512004375,
+      "kl": 0.37744140625,
+      "learning_rate": 3.278538812785388e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1472
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 521.375,
+      "epoch": 2.0178082191780824,
+      "grad_norm": 2.157656669616699,
+      "kl": 0.5244140625,
+      "learning_rate": 3.273972602739726e-07,
+      "loss": 0.0005,
+      "reward": 1.8489583432674408,
+      "reward_std": 0.20728756487369537,
+      "rewards/accuracy_reward": 0.8489583432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1473
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 491.9375,
+      "epoch": 2.0191780821917806,
+      "grad_norm": 2.2959165573120117,
+      "kl": 0.46142578125,
+      "learning_rate": 3.2694063926940643e-07,
+      "loss": 0.0005,
+      "reward": 1.5625,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 1474
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 694.78125,
+      "epoch": 2.0205479452054793,
+      "grad_norm": 2.1486878395080566,
+      "kl": 0.3818359375,
+      "learning_rate": 3.2648401826484016e-07,
+      "loss": 0.0004,
+      "reward": 2.033854156732559,
+      "reward_std": 0.1444909144192934,
+      "rewards/accuracy_reward": 1.0338541567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1475
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 682.03125,
+      "epoch": 2.021917808219178,
+      "grad_norm": 1.3414474725723267,
+      "kl": 0.4013671875,
+      "learning_rate": 3.2602739726027395e-07,
+      "loss": 0.0004,
+      "reward": 1.4453125,
+      "reward_std": 0.0718943364918232,
+      "rewards/accuracy_reward": 0.4453125,
+      "rewards/format_reward": 1.0,
+      "step": 1476
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 572.90625,
+      "epoch": 2.0232876712328767,
+      "grad_norm": 1.6097642183303833,
+      "kl": 0.42724609375,
+      "learning_rate": 3.2557077625570774e-07,
+      "loss": 0.0004,
+      "reward": 1.6197916269302368,
+      "reward_std": 0.0776018276810646,
+      "rewards/accuracy_reward": 0.6197916269302368,
+      "rewards/format_reward": 1.0,
+      "step": 1477
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 488.71875,
+      "epoch": 2.0246575342465754,
+      "grad_norm": 4.176987171173096,
+      "kl": 0.46875,
+      "learning_rate": 3.251141552511416e-07,
+      "loss": 0.0005,
+      "reward": 1.6015625,
+      "reward_std": 0.28406689316034317,
+      "rewards/accuracy_reward": 0.6015625,
+      "rewards/format_reward": 1.0,
+      "step": 1478
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 495.40625,
+      "epoch": 2.026027397260274,
+      "grad_norm": 2.486865282058716,
+      "kl": 0.42724609375,
+      "learning_rate": 3.246575342465753e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.24511480331420898,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 1479
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 381.09375,
+      "epoch": 2.0273972602739727,
+      "grad_norm": 2.87184739112854,
+      "kl": 0.47412109375,
+      "learning_rate": 3.242009132420091e-07,
+      "loss": 0.0005,
+      "reward": 1.6770833134651184,
+      "reward_std": 0.2370635624974966,
+      "rewards/accuracy_reward": 0.6770833283662796,
+      "rewards/format_reward": 1.0,
+      "step": 1480
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 683.3125,
+      "epoch": 2.0287671232876714,
+      "grad_norm": 0.9249981641769409,
+      "kl": 0.39501953125,
+      "learning_rate": 3.2374429223744294e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 1481
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 680.46875,
+      "epoch": 2.03013698630137,
+      "grad_norm": 1.8497010469436646,
+      "kl": 0.4033203125,
+      "learning_rate": 3.2328767123287673e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.1462521031498909,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 1482
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 474.53125,
+      "epoch": 2.0315068493150683,
+      "grad_norm": 2.780653476715088,
+      "kl": 0.43505859375,
+      "learning_rate": 3.2283105022831046e-07,
+      "loss": 0.0004,
+      "reward": 1.90625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.90625,
+      "rewards/format_reward": 1.0,
+      "step": 1483
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 583.5,
+      "epoch": 2.032876712328767,
+      "grad_norm": 3.227606773376465,
+      "kl": 0.431640625,
+      "learning_rate": 3.223744292237443e-07,
+      "loss": 0.0004,
+      "reward": 1.953125,
+      "reward_std": 0.10995290242135525,
+      "rewards/accuracy_reward": 0.953125,
+      "rewards/format_reward": 1.0,
+      "step": 1484
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 591.71875,
+      "epoch": 2.0342465753424657,
+      "grad_norm": 2.084873914718628,
+      "kl": 0.48193359375,
+      "learning_rate": 3.219178082191781e-07,
+      "loss": 0.0005,
+      "reward": 1.671875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 1485
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 383.9375,
+      "epoch": 2.0356164383561643,
+      "grad_norm": 2.2872121334075928,
+      "kl": 0.4853515625,
+      "learning_rate": 3.214611872146119e-07,
+      "loss": 0.0005,
+      "reward": 1.34375,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 1486
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 553.40625,
+      "epoch": 2.036986301369863,
+      "grad_norm": 7.13308572769165,
+      "kl": 0.42138671875,
+      "learning_rate": 3.210045662100456e-07,
+      "loss": 0.0004,
+      "reward": 1.3671875,
+      "reward_std": 0.1557277049869299,
+      "rewards/accuracy_reward": 0.3671875,
+      "rewards/format_reward": 1.0,
+      "step": 1487
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 659.6875,
+      "epoch": 2.0383561643835617,
+      "grad_norm": 5.223037242889404,
+      "kl": 0.40576171875,
+      "learning_rate": 3.2054794520547945e-07,
+      "loss": 0.0004,
+      "reward": 1.98828125,
+      "reward_std": 0.16776975616812706,
+      "rewards/accuracy_reward": 0.98828125,
+      "rewards/format_reward": 1.0,
+      "step": 1488
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 664.28125,
+      "epoch": 2.0397260273972604,
+      "grad_norm": 0.014866583049297333,
+      "kl": 0.41064453125,
+      "learning_rate": 3.2009132420091324e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1489
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 477.6875,
+      "epoch": 2.041095890410959,
+      "grad_norm": 3.8804755210876465,
+      "kl": 0.4453125,
+      "learning_rate": 3.19634703196347e-07,
+      "loss": 0.0004,
+      "reward": 1.71875,
+      "reward_std": 0.2651650346815586,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 1.0,
+      "step": 1490
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 553.0,
+      "epoch": 2.0424657534246577,
+      "grad_norm": 0.02448265068233013,
+      "kl": 0.42333984375,
+      "learning_rate": 3.191780821917808e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1491
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 569.03125,
+      "epoch": 2.043835616438356,
+      "grad_norm": 1.5223517417907715,
+      "kl": 0.45703125,
+      "learning_rate": 3.187214611872146e-07,
+      "loss": 0.0005,
+      "reward": 1.890625,
+      "reward_std": 0.06348207220435143,
+      "rewards/accuracy_reward": 0.8906249701976776,
+      "rewards/format_reward": 1.0,
+      "step": 1492
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 574.09375,
+      "epoch": 2.0452054794520547,
+      "grad_norm": 1.9601982831954956,
+      "kl": 0.4130859375,
+      "learning_rate": 3.182648401826484e-07,
+      "loss": 0.0004,
+      "reward": 1.6328125,
+      "reward_std": 0.20251824520528316,
+      "rewards/accuracy_reward": 0.6328125,
+      "rewards/format_reward": 1.0,
+      "step": 1493
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 648.1875,
+      "epoch": 2.0465753424657533,
+      "grad_norm": 1.116492509841919,
+      "kl": 0.40478515625,
+      "learning_rate": 3.1780821917808223e-07,
+      "loss": 0.0004,
+      "reward": 1.8515625,
+      "reward_std": 0.06629125773906708,
+      "rewards/accuracy_reward": 0.8515625,
+      "rewards/format_reward": 1.0,
+      "step": 1494
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 448.71875,
+      "epoch": 2.047945205479452,
+      "grad_norm": 3.036740303039551,
+      "kl": 0.44482421875,
+      "learning_rate": 3.1735159817351596e-07,
+      "loss": 0.0004,
+      "reward": 1.356249988079071,
+      "reward_std": 0.23993577435612679,
+      "rewards/accuracy_reward": 0.35624998807907104,
+      "rewards/format_reward": 1.0,
+      "step": 1495
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 661.40625,
+      "epoch": 2.0493150684931507,
+      "grad_norm": 1.7742972373962402,
+      "kl": 0.40576171875,
+      "learning_rate": 3.1689497716894975e-07,
+      "loss": 0.0004,
+      "reward": 1.7254464328289032,
+      "reward_std": 0.0537392133846879,
+      "rewards/accuracy_reward": 0.7254464328289032,
+      "rewards/format_reward": 1.0,
+      "step": 1496
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 393.3125,
+      "epoch": 2.0506849315068494,
+      "grad_norm": 2.911444902420044,
+      "kl": 0.474609375,
+      "learning_rate": 3.1643835616438354e-07,
+      "loss": 0.0005,
+      "reward": 1.5989583730697632,
+      "reward_std": 0.2961660549044609,
+      "rewards/accuracy_reward": 0.5989583432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1497
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 594.5,
+      "epoch": 2.052054794520548,
+      "grad_norm": 1.3584108352661133,
+      "kl": 0.40576171875,
+      "learning_rate": 3.159817351598174e-07,
+      "loss": 0.0004,
+      "reward": 1.890625,
+      "reward_std": 0.12255740165710449,
+      "rewards/accuracy_reward": 0.890625,
+      "rewards/format_reward": 1.0,
+      "step": 1498
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 609.4375,
+      "epoch": 2.0534246575342467,
+      "grad_norm": 3.254453659057617,
+      "kl": 0.396484375,
+      "learning_rate": 3.155251141552511e-07,
+      "loss": 0.0004,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 1499
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 671.25,
+      "epoch": 2.0547945205479454,
+      "grad_norm": 1.450568675994873,
+      "kl": 0.40283203125,
+      "learning_rate": 3.150684931506849e-07,
+      "loss": 0.0004,
+      "reward": 2.1822916865348816,
+      "reward_std": 0.0634821280837059,
+      "rewards/accuracy_reward": 1.1822916865348816,
+      "rewards/format_reward": 1.0,
+      "step": 1500
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 381.5,
+      "epoch": 2.0561643835616437,
+      "grad_norm": 2.5537073612213135,
+      "kl": 0.5078125,
+      "learning_rate": 3.1461187214611874e-07,
+      "loss": 0.0005,
+      "reward": 1.4921875,
+      "reward_std": 0.25355211459100246,
+      "rewards/accuracy_reward": 0.4921875,
+      "rewards/format_reward": 1.0,
+      "step": 1501
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 388.8125,
+      "epoch": 2.0575342465753423,
+      "grad_norm": 3.4066343307495117,
+      "kl": 0.4677734375,
+      "learning_rate": 3.1415525114155253e-07,
+      "loss": 0.0005,
+      "reward": 1.625,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 1502
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 482.46875,
+      "epoch": 2.058904109589041,
+      "grad_norm": 3.449207305908203,
+      "kl": 0.49462890625,
+      "learning_rate": 3.1369863013698626e-07,
+      "loss": 0.0005,
+      "reward": 1.890625,
+      "reward_std": 0.17358146235346794,
+      "rewards/accuracy_reward": 0.890625,
+      "rewards/format_reward": 1.0,
+      "step": 1503
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 608.5625,
+      "epoch": 2.0602739726027397,
+      "grad_norm": 3.969247817993164,
+      "kl": 0.4267578125,
+      "learning_rate": 3.132420091324201e-07,
+      "loss": 0.0004,
+      "reward": 1.78125,
+      "reward_std": 0.1735912710428238,
+      "rewards/accuracy_reward": 0.78125,
+      "rewards/format_reward": 1.0,
+      "step": 1504
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 483.96875,
+      "epoch": 2.0616438356164384,
+      "grad_norm": 2.924847364425659,
+      "kl": 0.45556640625,
+      "learning_rate": 3.127853881278539e-07,
+      "loss": 0.0005,
+      "reward": 2.010416656732559,
+      "reward_std": 0.36508955247700214,
+      "rewards/accuracy_reward": 1.0104166567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1505
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 651.40625,
+      "epoch": 2.063013698630137,
+      "grad_norm": 1.4971529245376587,
+      "kl": 0.4521484375,
+      "learning_rate": 3.123287671232877e-07,
+      "loss": 0.0005,
+      "reward": 1.4375,
+      "reward_std": 0.10888781771063805,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 1506
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 499.46875,
+      "epoch": 2.0643835616438357,
+      "grad_norm": 2.624821901321411,
+      "kl": 0.43359375,
+      "learning_rate": 3.118721461187214e-07,
+      "loss": 0.0004,
+      "reward": 1.65625,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 1507
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 393.84375,
+      "epoch": 2.0657534246575344,
+      "grad_norm": 2.3462531566619873,
+      "kl": 0.5654296875,
+      "learning_rate": 3.1141552511415525e-07,
+      "loss": 0.0006,
+      "reward": 1.3046875,
+      "reward_std": 0.19124263152480125,
+      "rewards/accuracy_reward": 0.3046875,
+      "rewards/format_reward": 1.0,
+      "step": 1508
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 738.71875,
+      "epoch": 2.067123287671233,
+      "grad_norm": 1.2419618368148804,
+      "kl": 0.3984375,
+      "learning_rate": 3.1095890410958904e-07,
+      "loss": 0.0004,
+      "reward": 1.953125,
+      "reward_std": 0.0776018276810646,
+      "rewards/accuracy_reward": 0.953125,
+      "rewards/format_reward": 1.0,
+      "step": 1509
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 505.6875,
+      "epoch": 2.0684931506849313,
+      "grad_norm": 4.574531555175781,
+      "kl": 0.47509765625,
+      "learning_rate": 3.105022831050228e-07,
+      "loss": 0.0005,
+      "reward": 1.640625,
+      "reward_std": 0.24831003323197365,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 1510
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 727.75,
+      "epoch": 2.06986301369863,
+      "grad_norm": 4.491109371185303,
+      "kl": 0.3779296875,
+      "learning_rate": 3.100456621004566e-07,
+      "loss": 0.0004,
+      "reward": 2.1875,
+      "reward_std": 0.13098980858922005,
+      "rewards/accuracy_reward": 1.1875,
+      "rewards/format_reward": 1.0,
+      "step": 1511
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 604.75,
+      "epoch": 2.0712328767123287,
+      "grad_norm": 0.029050275683403015,
+      "kl": 0.474609375,
+      "learning_rate": 3.095890410958904e-07,
+      "loss": 0.0005,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1512
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 575.875,
+      "epoch": 2.0726027397260274,
+      "grad_norm": 3.063086748123169,
+      "kl": 0.43115234375,
+      "learning_rate": 3.091324200913242e-07,
+      "loss": 0.0004,
+      "reward": 1.625,
+      "reward_std": 0.13363061845302582,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 1513
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 488.53125,
+      "epoch": 2.073972602739726,
+      "grad_norm": 0.016817480325698853,
+      "kl": 0.4423828125,
+      "learning_rate": 3.0867579908675803e-07,
+      "loss": 0.0004,
+      "reward": 1.625,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 1514
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 514.75,
+      "epoch": 2.0753424657534247,
+      "grad_norm": 2.1390256881713867,
+      "kl": 0.44091796875,
+      "learning_rate": 3.0821917808219176e-07,
+      "loss": 0.0004,
+      "reward": 1.68359375,
+      "reward_std": 0.22882417868822813,
+      "rewards/accuracy_reward": 0.68359375,
+      "rewards/format_reward": 1.0,
+      "step": 1515
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 617.0625,
+      "epoch": 2.0767123287671234,
+      "grad_norm": 1.862608551979065,
+      "kl": 0.41650390625,
+      "learning_rate": 3.0776255707762555e-07,
+      "loss": 0.0004,
+      "reward": 1.84375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.84375,
+      "rewards/format_reward": 1.0,
+      "step": 1516
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 621.90625,
+      "epoch": 2.078082191780822,
+      "grad_norm": 1.7570053339004517,
+      "kl": 0.3935546875,
+      "learning_rate": 3.0730593607305934e-07,
+      "loss": 0.0004,
+      "reward": 2.0,
+      "reward_std": 0.1462521031498909,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1517
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 534.6875,
+      "epoch": 2.0794520547945208,
+      "grad_norm": 11.9425048828125,
+      "kl": 0.42724609375,
+      "learning_rate": 3.068493150684932e-07,
+      "loss": 0.0004,
+      "reward": 1.4166666567325592,
+      "reward_std": 0.24004740826785564,
+      "rewards/accuracy_reward": 0.4166666567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1518
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 489.125,
+      "epoch": 2.080821917808219,
+      "grad_norm": 3.937958240509033,
+      "kl": 0.44677734375,
+      "learning_rate": 3.063926940639269e-07,
+      "loss": 0.0004,
+      "reward": 1.5078125,
+      "reward_std": 0.23646268248558044,
+      "rewards/accuracy_reward": 0.5078125,
+      "rewards/format_reward": 1.0,
+      "step": 1519
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 637.8125,
+      "epoch": 2.0821917808219177,
+      "grad_norm": 1.2794209718704224,
+      "kl": 0.4248046875,
+      "learning_rate": 3.059360730593607e-07,
+      "loss": 0.0004,
+      "reward": 1.90625,
+      "reward_std": 0.22558549046516418,
+      "rewards/accuracy_reward": 0.90625,
+      "rewards/format_reward": 1.0,
+      "step": 1520
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 622.53125,
+      "epoch": 2.0835616438356164,
+      "grad_norm": 0.017380373552441597,
+      "kl": 0.44140625,
+      "learning_rate": 3.0547945205479454e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1521
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 522.40625,
+      "epoch": 2.084931506849315,
+      "grad_norm": 5.385389804840088,
+      "kl": 0.43408203125,
+      "learning_rate": 3.050228310502283e-07,
+      "loss": 0.0004,
+      "reward": 1.7109375,
+      "reward_std": 0.21858179941773415,
+      "rewards/accuracy_reward": 0.7109375,
+      "rewards/format_reward": 1.0,
+      "step": 1522
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 657.875,
+      "epoch": 2.0863013698630137,
+      "grad_norm": 4.049957275390625,
+      "kl": 0.39453125,
+      "learning_rate": 3.0456621004566206e-07,
+      "loss": 0.0004,
+      "reward": 1.4921875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.4921875,
+      "rewards/format_reward": 1.0,
+      "step": 1523
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 664.21875,
+      "epoch": 2.0876712328767124,
+      "grad_norm": 1.3139166831970215,
+      "kl": 0.39501953125,
+      "learning_rate": 3.041095890410959e-07,
+      "loss": 0.0004,
+      "reward": 1.65625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 1524
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 654.96875,
+      "epoch": 2.089041095890411,
+      "grad_norm": 2.1142537593841553,
+      "kl": 0.39111328125,
+      "learning_rate": 3.036529680365297e-07,
+      "loss": 0.0004,
+      "reward": 1.5182291269302368,
+      "reward_std": 0.17517909221351147,
+      "rewards/accuracy_reward": 0.5182291567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1525
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 643.3125,
+      "epoch": 2.0904109589041098,
+      "grad_norm": 11.435150146484375,
+      "kl": 0.50927734375,
+      "learning_rate": 3.031963470319635e-07,
+      "loss": 0.0005,
+      "reward": 1.8515625,
+      "reward_std": 0.30053453519940376,
+      "rewards/accuracy_reward": 0.8515625,
+      "rewards/format_reward": 1.0,
+      "step": 1526
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 530.8125,
+      "epoch": 2.091780821917808,
+      "grad_norm": 2.2762937545776367,
+      "kl": 0.4638671875,
+      "learning_rate": 3.027397260273972e-07,
+      "loss": 0.0005,
+      "reward": 1.4375,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 1527
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 637.4375,
+      "epoch": 2.0931506849315067,
+      "grad_norm": 2.562309503555298,
+      "kl": 0.43505859375,
+      "learning_rate": 3.0228310502283105e-07,
+      "loss": 0.0004,
+      "reward": 1.875,
+      "reward_std": 0.20699892565608025,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 1528
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 527.46875,
+      "epoch": 2.0945205479452054,
+      "grad_norm": 2.739534378051758,
+      "kl": 0.41943359375,
+      "learning_rate": 3.0182648401826484e-07,
+      "loss": 0.0004,
+      "reward": 1.7890625,
+      "reward_std": 0.4859975650906563,
+      "rewards/accuracy_reward": 0.8203125,
+      "rewards/format_reward": 0.96875,
+      "step": 1529
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 529.84375,
+      "epoch": 2.095890410958904,
+      "grad_norm": 3.073082208633423,
+      "kl": 0.453125,
+      "learning_rate": 3.013698630136986e-07,
+      "loss": 0.0005,
+      "reward": 2.109375,
+      "reward_std": 0.10311976540833712,
+      "rewards/accuracy_reward": 1.1093750298023224,
+      "rewards/format_reward": 1.0,
+      "step": 1530
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 797.9375,
+      "epoch": 2.0972602739726027,
+      "grad_norm": 1.009942889213562,
+      "kl": 0.38037109375,
+      "learning_rate": 3.009132420091324e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 0.96875,
+      "step": 1531
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 620.46875,
+      "epoch": 2.0986301369863014,
+      "grad_norm": 2.0894649028778076,
+      "kl": 0.43212890625,
+      "learning_rate": 3.004566210045662e-07,
+      "loss": 0.0004,
+      "reward": 1.484375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 1532
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 498.875,
+      "epoch": 2.1,
+      "grad_norm": 3.63087797164917,
+      "kl": 0.46044921875,
+      "learning_rate": 3e-07,
+      "loss": 0.0005,
+      "reward": 1.53125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1533
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 657.1875,
+      "epoch": 2.1013698630136988,
+      "grad_norm": 1.3832178115844727,
+      "kl": 0.388671875,
+      "learning_rate": 2.995433789954338e-07,
+      "loss": 0.0004,
+      "reward": 1.7265625,
+      "reward_std": 0.34633277356624603,
+      "rewards/accuracy_reward": 0.7578125,
+      "rewards/format_reward": 0.96875,
+      "step": 1534
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 521.0,
+      "epoch": 2.1027397260273974,
+      "grad_norm": 1.706771731376648,
+      "kl": 0.53759765625,
+      "learning_rate": 2.9908675799086756e-07,
+      "loss": 0.0005,
+      "reward": 1.8125,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.8125,
+      "rewards/format_reward": 1.0,
+      "step": 1535
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 639.96875,
+      "epoch": 2.1041095890410957,
+      "grad_norm": 1.487322449684143,
+      "kl": 0.43505859375,
+      "learning_rate": 2.9863013698630135e-07,
+      "loss": 0.0004,
+      "reward": 1.9765625,
+      "reward_std": 0.06629125960171223,
+      "rewards/accuracy_reward": 0.9765625,
+      "rewards/format_reward": 1.0,
+      "step": 1536
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 770.71875,
+      "epoch": 2.1054794520547944,
+      "grad_norm": 1.1834847927093506,
+      "kl": 0.365234375,
+      "learning_rate": 2.9817351598173514e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.27015936002135277,
+      "rewards/accuracy_reward": 0.78125,
+      "rewards/format_reward": 0.96875,
+      "step": 1537
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 652.03125,
+      "epoch": 2.106849315068493,
+      "grad_norm": 0.011460265144705772,
+      "kl": 0.41796875,
+      "learning_rate": 2.97716894977169e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1538
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 632.625,
+      "epoch": 2.1082191780821917,
+      "grad_norm": 1.6653966903686523,
+      "kl": 0.41845703125,
+      "learning_rate": 2.972602739726027e-07,
+      "loss": 0.0004,
+      "reward": 1.9583333134651184,
+      "reward_std": 0.10767627321183681,
+      "rewards/accuracy_reward": 0.9583333134651184,
+      "rewards/format_reward": 1.0,
+      "step": 1539
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 614.25,
+      "epoch": 2.1095890410958904,
+      "grad_norm": 0.032784342765808105,
+      "kl": 0.44140625,
+      "learning_rate": 2.968036529680365e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1540
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 631.25,
+      "epoch": 2.110958904109589,
+      "grad_norm": 3.6206257343292236,
+      "kl": 0.43701171875,
+      "learning_rate": 2.9634703196347034e-07,
+      "loss": 0.0004,
+      "reward": 1.4791666567325592,
+      "reward_std": 0.031497035175561905,
+      "rewards/accuracy_reward": 0.4791666567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1541
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 486.0625,
+      "epoch": 2.1123287671232878,
+      "grad_norm": 2.4913957118988037,
+      "kl": 0.46337890625,
+      "learning_rate": 2.958904109589041e-07,
+      "loss": 0.0005,
+      "reward": 1.796875,
+      "reward_std": 0.29355230554938316,
+      "rewards/accuracy_reward": 0.796875,
+      "rewards/format_reward": 1.0,
+      "step": 1542
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 604.15625,
+      "epoch": 2.1136986301369864,
+      "grad_norm": 1.1475838422775269,
+      "kl": 0.3984375,
+      "learning_rate": 2.9543378995433786e-07,
+      "loss": 0.0004,
+      "reward": 1.4921875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.4921875,
+      "rewards/format_reward": 1.0,
+      "step": 1543
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 577.875,
+      "epoch": 2.115068493150685,
+      "grad_norm": 1.9385443925857544,
+      "kl": 0.4287109375,
+      "learning_rate": 2.9497716894977165e-07,
+      "loss": 0.0004,
+      "reward": 2.1901041865348816,
+      "reward_std": 0.20538638532161713,
+      "rewards/accuracy_reward": 1.1901041865348816,
+      "rewards/format_reward": 1.0,
+      "step": 1544
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 599.90625,
+      "epoch": 2.1164383561643834,
+      "grad_norm": 1.8799855709075928,
+      "kl": 0.4248046875,
+      "learning_rate": 2.945205479452055e-07,
+      "loss": 0.0004,
+      "reward": 1.921875,
+      "reward_std": 0.1446593925356865,
+      "rewards/accuracy_reward": 0.921875,
+      "rewards/format_reward": 1.0,
+      "step": 1545
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 572.78125,
+      "epoch": 2.117808219178082,
+      "grad_norm": 4.231172561645508,
+      "kl": 0.43896484375,
+      "learning_rate": 2.940639269406393e-07,
+      "loss": 0.0004,
+      "reward": 1.9609375,
+      "reward_std": 0.18542882055044174,
+      "rewards/accuracy_reward": 0.9609375,
+      "rewards/format_reward": 1.0,
+      "step": 1546
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 716.28125,
+      "epoch": 2.1191780821917807,
+      "grad_norm": 0.8133113384246826,
+      "kl": 0.40185546875,
+      "learning_rate": 2.93607305936073e-07,
+      "loss": 0.0004,
+      "reward": 1.7421875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.7421875,
+      "rewards/format_reward": 1.0,
+      "step": 1547
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 493.125,
+      "epoch": 2.1205479452054794,
+      "grad_norm": 3.8480355739593506,
+      "kl": 0.4921875,
+      "learning_rate": 2.9315068493150685e-07,
+      "loss": 0.0005,
+      "reward": 1.40625,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 1548
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 680.09375,
+      "epoch": 2.121917808219178,
+      "grad_norm": 0.8940662145614624,
+      "kl": 0.39111328125,
+      "learning_rate": 2.9269406392694064e-07,
+      "loss": 0.0004,
+      "reward": 1.7421875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.7421875,
+      "rewards/format_reward": 1.0,
+      "step": 1549
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 508.1875,
+      "epoch": 2.1232876712328768,
+      "grad_norm": 1.8358736038208008,
+      "kl": 0.46484375,
+      "learning_rate": 2.922374429223744e-07,
+      "loss": 0.0005,
+      "reward": 1.5625,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 1550
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 602.46875,
+      "epoch": 2.1246575342465754,
+      "grad_norm": 1.3693443536758423,
+      "kl": 0.4287109375,
+      "learning_rate": 2.917808219178082e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.1735912710428238,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 0.9375,
+      "step": 1551
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 462.59375,
+      "epoch": 2.126027397260274,
+      "grad_norm": 2.34067440032959,
+      "kl": 0.4521484375,
+      "learning_rate": 2.91324200913242e-07,
+      "loss": 0.0005,
+      "reward": 1.15625,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.15625,
+      "rewards/format_reward": 1.0,
+      "step": 1552
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 591.65625,
+      "epoch": 2.127397260273973,
+      "grad_norm": 7.418936252593994,
+      "kl": 0.44140625,
+      "learning_rate": 2.908675799086758e-07,
+      "loss": 0.0004,
+      "reward": 1.8333333730697632,
+      "reward_std": 0.1462521217763424,
+      "rewards/accuracy_reward": 0.8333333432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1553
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 509.28125,
+      "epoch": 2.128767123287671,
+      "grad_norm": 2.0791356563568115,
+      "kl": 0.44970703125,
+      "learning_rate": 2.9041095890410957e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 0.96875,
+      "step": 1554
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 693.71875,
+      "epoch": 2.1301369863013697,
+      "grad_norm": 1.145914912223816,
+      "kl": 0.42431640625,
+      "learning_rate": 2.8995433789954336e-07,
+      "loss": 0.0004,
+      "reward": 1.734375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 1555
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 483.28125,
+      "epoch": 2.1315068493150684,
+      "grad_norm": 2.4146523475646973,
+      "kl": 0.44970703125,
+      "learning_rate": 2.8949771689497715e-07,
+      "loss": 0.0004,
+      "reward": 1.4401041865348816,
+      "reward_std": 0.24602987244725227,
+      "rewards/accuracy_reward": 0.4401041865348816,
+      "rewards/format_reward": 1.0,
+      "step": 1556
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 503.6875,
+      "epoch": 2.132876712328767,
+      "grad_norm": 4.220521926879883,
+      "kl": 0.46240234375,
+      "learning_rate": 2.8904109589041093e-07,
+      "loss": 0.0005,
+      "reward": 1.5437500476837158,
+      "reward_std": 0.1944543682038784,
+      "rewards/accuracy_reward": 0.5437500178813934,
+      "rewards/format_reward": 1.0,
+      "step": 1557
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 519.90625,
+      "epoch": 2.1342465753424658,
+      "grad_norm": 1.5400233268737793,
+      "kl": 0.54345703125,
+      "learning_rate": 2.885844748858448e-07,
+      "loss": 0.0005,
+      "reward": 1.375,
+      "reward_std": 0.13363061845302582,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 1558
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 503.3125,
+      "epoch": 2.1356164383561644,
+      "grad_norm": 2.695255994796753,
+      "kl": 0.423828125,
+      "learning_rate": 2.881278538812785e-07,
+      "loss": 0.0004,
+      "reward": 1.765625,
+      "reward_std": 0.12537149153649807,
+      "rewards/accuracy_reward": 0.7656250298023224,
+      "rewards/format_reward": 1.0,
+      "step": 1559
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 603.09375,
+      "epoch": 2.136986301369863,
+      "grad_norm": 1.3290696144104004,
+      "kl": 0.41162109375,
+      "learning_rate": 2.876712328767123e-07,
+      "loss": 0.0004,
+      "reward": 1.4453125,
+      "reward_std": 0.08679073117673397,
+      "rewards/accuracy_reward": 0.4453125,
+      "rewards/format_reward": 1.0,
+      "step": 1560
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 616.59375,
+      "epoch": 2.138356164383562,
+      "grad_norm": 1.766379714012146,
+      "kl": 0.73779296875,
+      "learning_rate": 2.8721461187214614e-07,
+      "loss": 0.0007,
+      "reward": 1.80859375,
+      "reward_std": 0.13265424501150846,
+      "rewards/accuracy_reward": 0.83984375,
+      "rewards/format_reward": 0.96875,
+      "step": 1561
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 668.21875,
+      "epoch": 2.1397260273972605,
+      "grad_norm": 0.7369258999824524,
+      "kl": 0.41357421875,
+      "learning_rate": 2.867579908675799e-07,
+      "loss": 0.0004,
+      "reward": 1.721875011920929,
+      "reward_std": 0.19246405363082886,
+      "rewards/accuracy_reward": 0.753125011920929,
+      "rewards/format_reward": 0.96875,
+      "step": 1562
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 623.96875,
+      "epoch": 2.1410958904109587,
+      "grad_norm": 3.4672739505767822,
+      "kl": 0.43310546875,
+      "learning_rate": 2.8630136986301366e-07,
+      "loss": 0.0004,
+      "reward": 1.3828125,
+      "reward_std": 0.15708745270967484,
+      "rewards/accuracy_reward": 0.3828125,
+      "rewards/format_reward": 1.0,
+      "step": 1563
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 612.0625,
+      "epoch": 2.1424657534246574,
+      "grad_norm": 1.475127100944519,
+      "kl": 0.41845703125,
+      "learning_rate": 2.8584474885844745e-07,
+      "loss": 0.0004,
+      "reward": 1.09375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.09375,
+      "rewards/format_reward": 1.0,
+      "step": 1564
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 636.5,
+      "epoch": 2.143835616438356,
+      "grad_norm": 1.933785319328308,
+      "kl": 0.408203125,
+      "learning_rate": 2.853881278538813e-07,
+      "loss": 0.0004,
+      "reward": 1.0625,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.0625,
+      "rewards/format_reward": 1.0,
+      "step": 1565
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 521.84375,
+      "epoch": 2.1452054794520548,
+      "grad_norm": 1.9912930727005005,
+      "kl": 0.56103515625,
+      "learning_rate": 2.849315068493151e-07,
+      "loss": 0.0006,
+      "reward": 1.5703125,
+      "reward_std": 0.14300698041915894,
+      "rewards/accuracy_reward": 0.5703125,
+      "rewards/format_reward": 1.0,
+      "step": 1566
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 530.0625,
+      "epoch": 2.1465753424657534,
+      "grad_norm": 2.7071900367736816,
+      "kl": 0.4443359375,
+      "learning_rate": 2.844748858447488e-07,
+      "loss": 0.0004,
+      "reward": 1.703125,
+      "reward_std": 0.1583191677927971,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 1.0,
+      "step": 1567
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 634.625,
+      "epoch": 2.147945205479452,
+      "grad_norm": 2.7595503330230713,
+      "kl": 0.40380859375,
+      "learning_rate": 2.8401826484018265e-07,
+      "loss": 0.0004,
+      "reward": 1.67578125,
+      "reward_std": 0.13190092518925667,
+      "rewards/accuracy_reward": 0.67578125,
+      "rewards/format_reward": 1.0,
+      "step": 1568
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 638.1875,
+      "epoch": 2.149315068493151,
+      "grad_norm": 1.6388453245162964,
+      "kl": 0.412109375,
+      "learning_rate": 2.8356164383561644e-07,
+      "loss": 0.0004,
+      "reward": 1.84375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.84375,
+      "rewards/format_reward": 1.0,
+      "step": 1569
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 657.5625,
+      "epoch": 2.1506849315068495,
+      "grad_norm": 2.1883044242858887,
+      "kl": 0.40234375,
+      "learning_rate": 2.831050228310502e-07,
+      "loss": 0.0004,
+      "reward": 1.453125,
+      "reward_std": 0.2204262539744377,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 1570
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 743.21875,
+      "epoch": 2.152054794520548,
+      "grad_norm": 2.2961175441741943,
+      "kl": 0.36181640625,
+      "learning_rate": 2.82648401826484e-07,
+      "loss": 0.0004,
+      "reward": 1.98046875,
+      "reward_std": 0.04534783028066158,
+      "rewards/accuracy_reward": 0.98046875,
+      "rewards/format_reward": 1.0,
+      "step": 1571
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 652.15625,
+      "epoch": 2.1534246575342464,
+      "grad_norm": 1.941348671913147,
+      "kl": 0.4443359375,
+      "learning_rate": 2.821917808219178e-07,
+      "loss": 0.0004,
+      "reward": 1.671875,
+      "reward_std": 0.19044627621769905,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 1572
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 617.75,
+      "epoch": 2.154794520547945,
+      "grad_norm": 2.4867169857025146,
+      "kl": 0.46337890625,
+      "learning_rate": 2.817351598173516e-07,
+      "loss": 0.0005,
+      "reward": 1.734375,
+      "reward_std": 0.2249111384153366,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 0.96875,
+      "step": 1573
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 530.96875,
+      "epoch": 2.1561643835616437,
+      "grad_norm": 5.128561496734619,
+      "kl": 0.43115234375,
+      "learning_rate": 2.8127853881278537e-07,
+      "loss": 0.0004,
+      "reward": 2.03125,
+      "reward_std": 0.24511480331420898,
+      "rewards/accuracy_reward": 1.03125,
+      "rewards/format_reward": 1.0,
+      "step": 1574
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 678.09375,
+      "epoch": 2.1575342465753424,
+      "grad_norm": 1.5683798789978027,
+      "kl": 0.42138671875,
+      "learning_rate": 2.8082191780821916e-07,
+      "loss": 0.0004,
+      "reward": 1.34375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 1575
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 760.375,
+      "epoch": 2.158904109589041,
+      "grad_norm": 2.405923843383789,
+      "kl": 0.51513671875,
+      "learning_rate": 2.8036529680365295e-07,
+      "loss": 0.0005,
+      "reward": 1.3359375,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.3671875,
+      "rewards/format_reward": 0.96875,
+      "step": 1576
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 528.09375,
+      "epoch": 2.16027397260274,
+      "grad_norm": 0.019185321405529976,
+      "kl": 0.4443359375,
+      "learning_rate": 2.7990867579908673e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1577
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 431.03125,
+      "epoch": 2.1616438356164385,
+      "grad_norm": 2.426178216934204,
+      "kl": 0.47021484375,
+      "learning_rate": 2.794520547945206e-07,
+      "loss": 0.0005,
+      "reward": 1.5625,
+      "reward_std": 0.27439429610967636,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 0.96875,
+      "step": 1578
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 662.25,
+      "epoch": 2.163013698630137,
+      "grad_norm": 0.012964731082320213,
+      "kl": 0.41259765625,
+      "learning_rate": 2.789954337899543e-07,
+      "loss": 0.0004,
+      "reward": 1.875,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 1579
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 795.375,
+      "epoch": 2.1643835616438354,
+      "grad_norm": 0.9530708193778992,
+      "kl": 0.6044921875,
+      "learning_rate": 2.785388127853881e-07,
+      "loss": 0.0006,
+      "reward": 2.075520873069763,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 1.0755208432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1580
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 516.875,
+      "epoch": 2.165753424657534,
+      "grad_norm": 1.7598451375961304,
+      "kl": 0.47265625,
+      "learning_rate": 2.7808219178082194e-07,
+      "loss": 0.0005,
+      "reward": 1.8875000476837158,
+      "reward_std": 0.1409600479528308,
+      "rewards/accuracy_reward": 0.8875000476837158,
+      "rewards/format_reward": 1.0,
+      "step": 1581
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 762.03125,
+      "epoch": 2.1671232876712327,
+      "grad_norm": 1.1747089624404907,
+      "kl": 0.376953125,
+      "learning_rate": 2.776255707762557e-07,
+      "loss": 0.0004,
+      "reward": 1.68359375,
+      "reward_std": 0.18782523553818464,
+      "rewards/accuracy_reward": 0.71484375,
+      "rewards/format_reward": 0.96875,
+      "step": 1582
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 546.0,
+      "epoch": 2.1684931506849314,
+      "grad_norm": 4.347926139831543,
+      "kl": 0.49169921875,
+      "learning_rate": 2.7716894977168946e-07,
+      "loss": 0.0005,
+      "reward": 1.8046875,
+      "reward_std": 0.23987272195518017,
+      "rewards/accuracy_reward": 0.8359375,
+      "rewards/format_reward": 0.96875,
+      "step": 1583
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 540.96875,
+      "epoch": 2.16986301369863,
+      "grad_norm": 3.92073917388916,
+      "kl": 0.42138671875,
+      "learning_rate": 2.7671232876712325e-07,
+      "loss": 0.0004,
+      "reward": 1.4973958432674408,
+      "reward_std": 0.23882071347907186,
+      "rewards/accuracy_reward": 0.4973958432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1584
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 541.3125,
+      "epoch": 2.171232876712329,
+      "grad_norm": 4.234155178070068,
+      "kl": 0.43798828125,
+      "learning_rate": 2.762557077625571e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.26726123690605164,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1585
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 412.71875,
+      "epoch": 2.1726027397260275,
+      "grad_norm": 3.250767946243286,
+      "kl": 0.4560546875,
+      "learning_rate": 2.7579908675799087e-07,
+      "loss": 0.0005,
+      "reward": 1.09375,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.09375,
+      "rewards/format_reward": 1.0,
+      "step": 1586
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 692.5,
+      "epoch": 2.173972602739726,
+      "grad_norm": 2.1756906509399414,
+      "kl": 0.3974609375,
+      "learning_rate": 2.753424657534246e-07,
+      "loss": 0.0004,
+      "reward": 1.296875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.296875,
+      "rewards/format_reward": 1.0,
+      "step": 1587
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 670.59375,
+      "epoch": 2.175342465753425,
+      "grad_norm": 1.3685060739517212,
+      "kl": 0.39501953125,
+      "learning_rate": 2.7488584474885845e-07,
+      "loss": 0.0004,
+      "reward": 1.703125,
+      "reward_std": 0.10995290242135525,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 0.96875,
+      "step": 1588
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 550.25,
+      "epoch": 2.176712328767123,
+      "grad_norm": 1.1336132287979126,
+      "kl": 0.58642578125,
+      "learning_rate": 2.7442922374429223e-07,
+      "loss": 0.0006,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 1589
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 527.78125,
+      "epoch": 2.1780821917808217,
+      "grad_norm": 9.850076675415039,
+      "kl": 0.93359375,
+      "learning_rate": 2.73972602739726e-07,
+      "loss": 0.0009,
+      "reward": 1.40625,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 0.96875,
+      "step": 1590
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 577.625,
+      "epoch": 2.1794520547945204,
+      "grad_norm": 0.022588571533560753,
+      "kl": 0.43603515625,
+      "learning_rate": 2.735159817351598e-07,
+      "loss": 0.0004,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1591
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 642.75,
+      "epoch": 2.180821917808219,
+      "grad_norm": 2.034691572189331,
+      "kl": 0.40185546875,
+      "learning_rate": 2.730593607305936e-07,
+      "loss": 0.0004,
+      "reward": 1.6875,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 0.96875,
+      "step": 1592
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 664.90625,
+      "epoch": 2.182191780821918,
+      "grad_norm": 1.7021266222000122,
+      "kl": 0.42138671875,
+      "learning_rate": 2.726027397260274e-07,
+      "loss": 0.0004,
+      "reward": 1.8359375,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.8359375,
+      "rewards/format_reward": 1.0,
+      "step": 1593
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 667.21875,
+      "epoch": 2.1835616438356165,
+      "grad_norm": 1.520945429801941,
+      "kl": 0.41943359375,
+      "learning_rate": 2.7214611872146117e-07,
+      "loss": 0.0004,
+      "reward": 1.6875,
+      "reward_std": 0.1462521031498909,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 1594
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 705.9375,
+      "epoch": 2.184931506849315,
+      "grad_norm": 1.871299386024475,
+      "kl": 0.40771484375,
+      "learning_rate": 2.7168949771689496e-07,
+      "loss": 0.0004,
+      "reward": 1.84765625,
+      "reward_std": 0.19306731596589088,
+      "rewards/accuracy_reward": 0.84765625,
+      "rewards/format_reward": 1.0,
+      "step": 1595
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 580.1875,
+      "epoch": 2.186301369863014,
+      "grad_norm": 1.3734947443008423,
+      "kl": 0.43359375,
+      "learning_rate": 2.7123287671232875e-07,
+      "loss": 0.0004,
+      "reward": 1.453125,
+      "reward_std": 0.2643740847706795,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 0.96875,
+      "step": 1596
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 425.84375,
+      "epoch": 2.1876712328767125,
+      "grad_norm": 2.712223529815674,
+      "kl": 0.46044921875,
+      "learning_rate": 2.7077625570776253e-07,
+      "loss": 0.0005,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 1597
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 649.96875,
+      "epoch": 2.1890410958904107,
+      "grad_norm": 2.101120948791504,
+      "kl": 0.42626953125,
+      "learning_rate": 2.703196347031964e-07,
+      "loss": 0.0004,
+      "reward": 1.76171875,
+      "reward_std": 0.1323847807943821,
+      "rewards/accuracy_reward": 0.76171875,
+      "rewards/format_reward": 1.0,
+      "step": 1598
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 679.71875,
+      "epoch": 2.1904109589041094,
+      "grad_norm": 0.7942163348197937,
+      "kl": 0.42822265625,
+      "learning_rate": 2.698630136986301e-07,
+      "loss": 0.0004,
+      "reward": 1.1875,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 0.96875,
+      "step": 1599
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 666.625,
+      "epoch": 2.191780821917808,
+      "grad_norm": 2.3369295597076416,
+      "kl": 0.4130859375,
+      "learning_rate": 2.694063926940639e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 0.96875,
+      "step": 1600
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 561.46875,
+      "epoch": 2.1931506849315068,
+      "grad_norm": 2.622614622116089,
+      "kl": 0.42431640625,
+      "learning_rate": 2.6894977168949774e-07,
+      "loss": 0.0004,
+      "reward": 1.625,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 1601
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 665.34375,
+      "epoch": 2.1945205479452055,
+      "grad_norm": 1.160881757736206,
+      "kl": 0.44775390625,
+      "learning_rate": 2.684931506849315e-07,
+      "loss": 0.0004,
+      "reward": 1.9127603769302368,
+      "reward_std": 0.011048543266952038,
+      "rewards/accuracy_reward": 0.9127603769302368,
+      "rewards/format_reward": 1.0,
+      "step": 1602
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 530.15625,
+      "epoch": 2.195890410958904,
+      "grad_norm": 1.1313719749450684,
+      "kl": 0.4306640625,
+      "learning_rate": 2.6803652968036526e-07,
+      "loss": 0.0004,
+      "reward": 1.5234375,
+      "reward_std": 0.05476716160774231,
+      "rewards/accuracy_reward": 0.5234375,
+      "rewards/format_reward": 1.0,
+      "step": 1603
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 610.6875,
+      "epoch": 2.197260273972603,
+      "grad_norm": 0.9924390316009521,
+      "kl": 0.45458984375,
+      "learning_rate": 2.6757990867579904e-07,
+      "loss": 0.0005,
+      "reward": 1.71875,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 1.0,
+      "step": 1604
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 745.5,
+      "epoch": 2.1986301369863015,
+      "grad_norm": 1.4071019887924194,
+      "kl": 0.392578125,
+      "learning_rate": 2.671232876712329e-07,
+      "loss": 0.0004,
+      "reward": 1.9609375,
+      "reward_std": 0.07996084354817867,
+      "rewards/accuracy_reward": 0.9609375,
+      "rewards/format_reward": 1.0,
+      "step": 1605
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 669.3125,
+      "epoch": 2.2,
+      "grad_norm": 0.010627041570842266,
+      "kl": 0.39404296875,
+      "learning_rate": 2.6666666666666667e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1606
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 491.71875,
+      "epoch": 2.2013698630136984,
+      "grad_norm": 0.010666927322745323,
+      "kl": 0.447265625,
+      "learning_rate": 2.662100456621004e-07,
+      "loss": 0.0004,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1607
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 551.4375,
+      "epoch": 2.202739726027397,
+      "grad_norm": 2.3804116249084473,
+      "kl": 0.423828125,
+      "learning_rate": 2.6575342465753425e-07,
+      "loss": 0.0004,
+      "reward": 1.5703125,
+      "reward_std": 0.2704071197658777,
+      "rewards/accuracy_reward": 0.5703125,
+      "rewards/format_reward": 1.0,
+      "step": 1608
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 675.71875,
+      "epoch": 2.2041095890410958,
+      "grad_norm": 0.9764576554298401,
+      "kl": 0.42333984375,
+      "learning_rate": 2.6529680365296803e-07,
+      "loss": 0.0004,
+      "reward": 1.453125,
+      "reward_std": 0.10953432321548462,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 0.96875,
+      "step": 1609
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 642.28125,
+      "epoch": 2.2054794520547945,
+      "grad_norm": 2.4345455169677734,
+      "kl": 0.4130859375,
+      "learning_rate": 2.648401826484018e-07,
+      "loss": 0.0004,
+      "reward": 1.7734375,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.7734375,
+      "rewards/format_reward": 1.0,
+      "step": 1610
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 572.0625,
+      "epoch": 2.206849315068493,
+      "grad_norm": 3.129133462905884,
+      "kl": 0.42919921875,
+      "learning_rate": 2.643835616438356e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 1611
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 651.9375,
+      "epoch": 2.208219178082192,
+      "grad_norm": 2.133375406265259,
+      "kl": 0.416015625,
+      "learning_rate": 2.639269406392694e-07,
+      "loss": 0.0004,
+      "reward": 1.4947916567325592,
+      "reward_std": 0.1915080938488245,
+      "rewards/accuracy_reward": 0.5260416567325592,
+      "rewards/format_reward": 0.96875,
+      "step": 1612
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 697.0,
+      "epoch": 2.2095890410958905,
+      "grad_norm": 1.0130031108856201,
+      "kl": 0.40087890625,
+      "learning_rate": 2.634703196347032e-07,
+      "loss": 0.0004,
+      "reward": 1.84375,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.84375,
+      "rewards/format_reward": 1.0,
+      "step": 1613
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 686.375,
+      "epoch": 2.210958904109589,
+      "grad_norm": 0.8147645592689514,
+      "kl": 0.3876953125,
+      "learning_rate": 2.6301369863013697e-07,
+      "loss": 0.0004,
+      "reward": 2.2395833134651184,
+      "reward_std": 0.016180073842406273,
+      "rewards/accuracy_reward": 1.2395833432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1614
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 537.0,
+      "epoch": 2.212328767123288,
+      "grad_norm": 1.4314677715301514,
+      "kl": 0.46875,
+      "learning_rate": 2.6255707762557076e-07,
+      "loss": 0.0005,
+      "reward": 1.53125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1615
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 667.15625,
+      "epoch": 2.213698630136986,
+      "grad_norm": 1.5283730030059814,
+      "kl": 0.427734375,
+      "learning_rate": 2.6210045662100455e-07,
+      "loss": 0.0004,
+      "reward": 1.8333333134651184,
+      "reward_std": 0.10767627321183681,
+      "rewards/accuracy_reward": 0.8333333283662796,
+      "rewards/format_reward": 1.0,
+      "step": 1616
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 808.0625,
+      "epoch": 2.2150684931506848,
+      "grad_norm": 1.2022126913070679,
+      "kl": 0.39404296875,
+      "learning_rate": 2.6164383561643833e-07,
+      "loss": 0.0004,
+      "reward": 1.9270833134651184,
+      "reward_std": 0.19001107849180698,
+      "rewards/accuracy_reward": 0.9583333134651184,
+      "rewards/format_reward": 0.96875,
+      "step": 1617
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 544.875,
+      "epoch": 2.2164383561643834,
+      "grad_norm": 4.506986618041992,
+      "kl": 0.43359375,
+      "learning_rate": 2.6118721461187217e-07,
+      "loss": 0.0004,
+      "reward": 1.65625,
+      "reward_std": 0.4218914955854416,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 1618
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 526.40625,
+      "epoch": 2.217808219178082,
+      "grad_norm": 3.4422881603240967,
+      "kl": 0.46923828125,
+      "learning_rate": 2.607305936073059e-07,
+      "loss": 0.0005,
+      "reward": 1.90625,
+      "reward_std": 0.18885356560349464,
+      "rewards/accuracy_reward": 0.90625,
+      "rewards/format_reward": 1.0,
+      "step": 1619
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 427.9375,
+      "epoch": 2.219178082191781,
+      "grad_norm": 2.9805707931518555,
+      "kl": 0.4775390625,
+      "learning_rate": 2.602739726027397e-07,
+      "loss": 0.0005,
+      "reward": 1.09375,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.09375,
+      "rewards/format_reward": 1.0,
+      "step": 1620
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 554.71875,
+      "epoch": 2.2205479452054795,
+      "grad_norm": 0.8007422685623169,
+      "kl": 0.44580078125,
+      "learning_rate": 2.5981735159817353e-07,
+      "loss": 0.0004,
+      "reward": 1.6875,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 0.96875,
+      "step": 1621
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 673.0,
+      "epoch": 2.221917808219178,
+      "grad_norm": 2.2898788452148438,
+      "kl": 0.4248046875,
+      "learning_rate": 2.593607305936073e-07,
+      "loss": 0.0004,
+      "reward": 2.046875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 1.046875,
+      "rewards/format_reward": 1.0,
+      "step": 1622
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 568.03125,
+      "epoch": 2.223287671232877,
+      "grad_norm": 16.472633361816406,
+      "kl": 0.4716796875,
+      "learning_rate": 2.5890410958904106e-07,
+      "loss": 0.0005,
+      "reward": 1.8406250476837158,
+      "reward_std": 0.2898627696558833,
+      "rewards/accuracy_reward": 0.8406250178813934,
+      "rewards/format_reward": 1.0,
+      "step": 1623
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 675.1875,
+      "epoch": 2.2246575342465755,
+      "grad_norm": 1.8692046403884888,
+      "kl": 0.41259765625,
+      "learning_rate": 2.5844748858447484e-07,
+      "loss": 0.0004,
+      "reward": 1.4765625,
+      "reward_std": 0.32485102862119675,
+      "rewards/accuracy_reward": 0.5078125,
+      "rewards/format_reward": 0.96875,
+      "step": 1624
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 682.0625,
+      "epoch": 2.2260273972602738,
+      "grad_norm": 1.2348743677139282,
+      "kl": 0.41943359375,
+      "learning_rate": 2.579908675799087e-07,
+      "loss": 0.0004,
+      "reward": 1.9447916746139526,
+      "reward_std": 0.03830163553357124,
+      "rewards/accuracy_reward": 0.9447916746139526,
+      "rewards/format_reward": 1.0,
+      "step": 1625
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 800.78125,
+      "epoch": 2.2273972602739724,
+      "grad_norm": 0.9047225117683411,
+      "kl": 0.40771484375,
+      "learning_rate": 2.5753424657534247e-07,
+      "loss": 0.0004,
+      "reward": 1.5520833730697632,
+      "reward_std": 0.0578637570142746,
+      "rewards/accuracy_reward": 0.5520833432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1626
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 547.625,
+      "epoch": 2.228767123287671,
+      "grad_norm": 3.3631553649902344,
+      "kl": 0.4482421875,
+      "learning_rate": 2.570776255707762e-07,
+      "loss": 0.0004,
+      "reward": 1.3671875,
+      "reward_std": 0.26852045208215714,
+      "rewards/accuracy_reward": 0.3671875,
+      "rewards/format_reward": 1.0,
+      "step": 1627
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 636.21875,
+      "epoch": 2.23013698630137,
+      "grad_norm": 1.2407810688018799,
+      "kl": 0.48876953125,
+      "learning_rate": 2.5662100456621005e-07,
+      "loss": 0.0005,
+      "reward": 2.234375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 1.234375,
+      "rewards/format_reward": 1.0,
+      "step": 1628
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 427.0625,
+      "epoch": 2.2315068493150685,
+      "grad_norm": 3.284550428390503,
+      "kl": 0.47216796875,
+      "learning_rate": 2.5616438356164383e-07,
+      "loss": 0.0005,
+      "reward": 1.46875,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 1629
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 446.78125,
+      "epoch": 2.232876712328767,
+      "grad_norm": 4.574865341186523,
+      "kl": 0.4423828125,
+      "learning_rate": 2.557077625570776e-07,
+      "loss": 0.0004,
+      "reward": 1.625,
+      "reward_std": 0.40089185535907745,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 1630
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 646.4375,
+      "epoch": 2.234246575342466,
+      "grad_norm": 1.6946072578430176,
+      "kl": 0.43701171875,
+      "learning_rate": 2.552511415525114e-07,
+      "loss": 0.0004,
+      "reward": 1.484375,
+      "reward_std": 0.1530819907784462,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 1631
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 804.25,
+      "epoch": 2.2356164383561645,
+      "grad_norm": 1.4300531148910522,
+      "kl": 0.38916015625,
+      "learning_rate": 2.547945205479452e-07,
+      "loss": 0.0004,
+      "reward": 1.796875,
+      "reward_std": 0.2057085707783699,
+      "rewards/accuracy_reward": 0.828125,
+      "rewards/format_reward": 0.96875,
+      "step": 1632
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 508.09375,
+      "epoch": 2.236986301369863,
+      "grad_norm": 1.2904940843582153,
+      "kl": 0.45068359375,
+      "learning_rate": 2.54337899543379e-07,
+      "loss": 0.0005,
+      "reward": 1.3645833730697632,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.3645833432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1633
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 661.53125,
+      "epoch": 2.2383561643835614,
+      "grad_norm": 2.082768678665161,
+      "kl": 0.404296875,
+      "learning_rate": 2.5388127853881277e-07,
+      "loss": 0.0004,
+      "reward": 1.4088541269302368,
+      "reward_std": 0.23987271077930927,
+      "rewards/accuracy_reward": 0.4401041567325592,
+      "rewards/format_reward": 0.96875,
+      "step": 1634
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 773.4375,
+      "epoch": 2.23972602739726,
+      "grad_norm": 0.011536537669599056,
+      "kl": 0.39990234375,
+      "learning_rate": 2.5342465753424656e-07,
+      "loss": 0.0004,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1635
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 651.09375,
+      "epoch": 2.241095890410959,
+      "grad_norm": 2.343966007232666,
+      "kl": 0.431640625,
+      "learning_rate": 2.5296803652968034e-07,
+      "loss": 0.0004,
+      "reward": 2.0390625,
+      "reward_std": 0.18201877176761627,
+      "rewards/accuracy_reward": 1.0390625,
+      "rewards/format_reward": 1.0,
+      "step": 1636
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 445.53125,
+      "epoch": 2.2424657534246575,
+      "grad_norm": 4.990170478820801,
+      "kl": 0.46923828125,
+      "learning_rate": 2.5251141552511413e-07,
+      "loss": 0.0005,
+      "reward": 1.375,
+      "reward_std": 0.3534095399081707,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 1637
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 654.25,
+      "epoch": 2.243835616438356,
+      "grad_norm": 1.735062837600708,
+      "kl": 0.43408203125,
+      "learning_rate": 2.5205479452054797e-07,
+      "loss": 0.0004,
+      "reward": 1.8984375,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.8984375,
+      "rewards/format_reward": 1.0,
+      "step": 1638
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 641.3125,
+      "epoch": 2.245205479452055,
+      "grad_norm": 3.0925650596618652,
+      "kl": 0.44482421875,
+      "learning_rate": 2.515981735159817e-07,
+      "loss": 0.0004,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 1639
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 514.3125,
+      "epoch": 2.2465753424657535,
+      "grad_norm": 2.615626335144043,
+      "kl": 0.62646484375,
+      "learning_rate": 2.511415525114155e-07,
+      "loss": 0.0006,
+      "reward": 1.9791666865348816,
+      "reward_std": 0.2946278527379036,
+      "rewards/accuracy_reward": 1.0104166567325592,
+      "rewards/format_reward": 0.96875,
+      "step": 1640
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 676.75,
+      "epoch": 2.247945205479452,
+      "grad_norm": 4.3349761962890625,
+      "kl": 0.4267578125,
+      "learning_rate": 2.5068493150684933e-07,
+      "loss": 0.0004,
+      "reward": 1.4348958134651184,
+      "reward_std": 0.2780051752924919,
+      "rewards/accuracy_reward": 0.4973958432674408,
+      "rewards/format_reward": 0.9375,
+      "step": 1641
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 648.21875,
+      "epoch": 2.249315068493151,
+      "grad_norm": 0.8618134260177612,
+      "kl": 0.42724609375,
+      "learning_rate": 2.502283105022831e-07,
+      "loss": 0.0004,
+      "reward": 1.6875,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 0.96875,
+      "step": 1642
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 743.1875,
+      "epoch": 2.250684931506849,
+      "grad_norm": 1.795738697052002,
+      "kl": 0.41162109375,
+      "learning_rate": 2.4977168949771686e-07,
+      "loss": 0.0004,
+      "reward": 2.1796875298023224,
+      "reward_std": 0.06576036661863327,
+      "rewards/accuracy_reward": 1.1796875,
+      "rewards/format_reward": 1.0,
+      "step": 1643
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 619.96875,
+      "epoch": 2.252054794520548,
+      "grad_norm": 0.9147750735282898,
+      "kl": 0.43359375,
+      "learning_rate": 2.493150684931507e-07,
+      "loss": 0.0004,
+      "reward": 1.234375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 1644
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.8125,
+      "epoch": 2.2534246575342465,
+      "grad_norm": 3.286574363708496,
+      "kl": 0.46826171875,
+      "learning_rate": 2.4885844748858443e-07,
+      "loss": 0.0005,
+      "reward": 1.375,
+      "reward_std": 0.3650856465101242,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 1645
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 645.46875,
+      "epoch": 2.254794520547945,
+      "grad_norm": 2.955514430999756,
+      "kl": 0.4375,
+      "learning_rate": 2.4840182648401827e-07,
+      "loss": 0.0004,
+      "reward": 2.03125,
+      "reward_std": 0.0776018276810646,
+      "rewards/accuracy_reward": 1.03125,
+      "rewards/format_reward": 1.0,
+      "step": 1646
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 638.28125,
+      "epoch": 2.256164383561644,
+      "grad_norm": 3.588315963745117,
+      "kl": 0.42431640625,
+      "learning_rate": 2.4794520547945206e-07,
+      "loss": 0.0004,
+      "reward": 1.796875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.796875,
+      "rewards/format_reward": 1.0,
+      "step": 1647
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 637.0625,
+      "epoch": 2.2575342465753425,
+      "grad_norm": 2.019918918609619,
+      "kl": 0.4443359375,
+      "learning_rate": 2.4748858447488585e-07,
+      "loss": 0.0004,
+      "reward": 2.2109375,
+      "reward_std": 0.10285428538918495,
+      "rewards/accuracy_reward": 1.2109375,
+      "rewards/format_reward": 1.0,
+      "step": 1648
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 605.28125,
+      "epoch": 2.258904109589041,
+      "grad_norm": 10.111894607543945,
+      "kl": 0.43310546875,
+      "learning_rate": 2.4703196347031963e-07,
+      "loss": 0.0004,
+      "reward": 2.125,
+      "reward_std": 0.2314550280570984,
+      "rewards/accuracy_reward": 1.125,
+      "rewards/format_reward": 1.0,
+      "step": 1649
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 509.125,
+      "epoch": 2.26027397260274,
+      "grad_norm": 3.329150676727295,
+      "kl": 0.4541015625,
+      "learning_rate": 2.465753424657534e-07,
+      "loss": 0.0005,
+      "reward": 1.359375,
+      "reward_std": 0.17782479152083397,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 1.0,
+      "step": 1650
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 650.1875,
+      "epoch": 2.2616438356164386,
+      "grad_norm": 1.8648985624313354,
+      "kl": 0.42431640625,
+      "learning_rate": 2.461187214611872e-07,
+      "loss": 0.0004,
+      "reward": 1.8567708134651184,
+      "reward_std": 0.38180760852992535,
+      "rewards/accuracy_reward": 0.9192708134651184,
+      "rewards/format_reward": 0.9375,
+      "step": 1651
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 661.8125,
+      "epoch": 2.263013698630137,
+      "grad_norm": 0.8465569019317627,
+      "kl": 0.43994140625,
+      "learning_rate": 2.45662100456621e-07,
+      "loss": 0.0004,
+      "reward": 1.7421875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.7421875,
+      "rewards/format_reward": 1.0,
+      "step": 1652
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 638.125,
+      "epoch": 2.2643835616438355,
+      "grad_norm": 2.059576988220215,
+      "kl": 0.4248046875,
+      "learning_rate": 2.452054794520548e-07,
+      "loss": 0.0004,
+      "reward": 1.546875,
+      "reward_std": 0.1446593925356865,
+      "rewards/accuracy_reward": 0.546875,
+      "rewards/format_reward": 1.0,
+      "step": 1653
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 538.3125,
+      "epoch": 2.265753424657534,
+      "grad_norm": 2.241060972213745,
+      "kl": 0.451171875,
+      "learning_rate": 2.4474885844748857e-07,
+      "loss": 0.0005,
+      "reward": 1.6041666865348816,
+      "reward_std": 0.28230586275458336,
+      "rewards/accuracy_reward": 0.6041666865348816,
+      "rewards/format_reward": 1.0,
+      "step": 1654
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 664.09375,
+      "epoch": 2.267123287671233,
+      "grad_norm": 1.258694052696228,
+      "kl": 0.41064453125,
+      "learning_rate": 2.4429223744292236e-07,
+      "loss": 0.0004,
+      "reward": 2.160937547683716,
+      "reward_std": 0.03977476246654987,
+      "rewards/accuracy_reward": 1.160937488079071,
+      "rewards/format_reward": 1.0,
+      "step": 1655
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 557.84375,
+      "epoch": 2.2684931506849315,
+      "grad_norm": 5.6562299728393555,
+      "kl": 0.439453125,
+      "learning_rate": 2.4383561643835614e-07,
+      "loss": 0.0004,
+      "reward": 1.640625,
+      "reward_std": 0.26621313765645027,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 1656
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 627.59375,
+      "epoch": 2.26986301369863,
+      "grad_norm": 0.010050654411315918,
+      "kl": 0.4111328125,
+      "learning_rate": 2.4337899543378993e-07,
+      "loss": 0.0004,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1657
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 525.03125,
+      "epoch": 2.271232876712329,
+      "grad_norm": 1.7834093570709229,
+      "kl": 0.42919921875,
+      "learning_rate": 2.429223744292237e-07,
+      "loss": 0.0004,
+      "reward": 1.923437476158142,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.9234375655651093,
+      "rewards/format_reward": 1.0,
+      "step": 1658
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 582.46875,
+      "epoch": 2.2726027397260276,
+      "grad_norm": 0.9666153192520142,
+      "kl": 0.45263671875,
+      "learning_rate": 2.424657534246575e-07,
+      "loss": 0.0005,
+      "reward": 1.9895833134651184,
+      "reward_std": 0.01928795501589775,
+      "rewards/accuracy_reward": 0.9895833134651184,
+      "rewards/format_reward": 1.0,
+      "step": 1659
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 493.0,
+      "epoch": 2.2739726027397262,
+      "grad_norm": 2.4102261066436768,
+      "kl": 0.45263671875,
+      "learning_rate": 2.420091324200913e-07,
+      "loss": 0.0005,
+      "reward": 1.8046875,
+      "reward_std": 0.1758887767791748,
+      "rewards/accuracy_reward": 0.8046875,
+      "rewards/format_reward": 1.0,
+      "step": 1660
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 572.15625,
+      "epoch": 2.2753424657534245,
+      "grad_norm": 2.9394419193267822,
+      "kl": 0.423828125,
+      "learning_rate": 2.415525114155251e-07,
+      "loss": 0.0004,
+      "reward": 1.7604166865348816,
+      "reward_std": 0.13501546904444695,
+      "rewards/accuracy_reward": 0.7604166865348816,
+      "rewards/format_reward": 1.0,
+      "step": 1661
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 523.5625,
+      "epoch": 2.276712328767123,
+      "grad_norm": 1.5836238861083984,
+      "kl": 0.71435546875,
+      "learning_rate": 2.410958904109589e-07,
+      "loss": 0.0007,
+      "reward": 1.03125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.03125,
+      "rewards/format_reward": 1.0,
+      "step": 1662
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 621.75,
+      "epoch": 2.278082191780822,
+      "grad_norm": 1.7346665859222412,
+      "kl": 0.4326171875,
+      "learning_rate": 2.4063926940639266e-07,
+      "loss": 0.0004,
+      "reward": 1.6875,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 0.96875,
+      "step": 1663
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 619.46875,
+      "epoch": 2.2794520547945205,
+      "grad_norm": 1.3319227695465088,
+      "kl": 0.416015625,
+      "learning_rate": 2.401826484018265e-07,
+      "loss": 0.0004,
+      "reward": 1.875,
+      "reward_std": 0.13363061845302582,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 1664
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 708.5625,
+      "epoch": 2.280821917808219,
+      "grad_norm": 0.1372307986021042,
+      "kl": 0.6337890625,
+      "learning_rate": 2.3972602739726023e-07,
+      "loss": 0.0006,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1665
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 500.9375,
+      "epoch": 2.282191780821918,
+      "grad_norm": 4.234309673309326,
+      "kl": 0.46240234375,
+      "learning_rate": 2.3926940639269407e-07,
+      "loss": 0.0005,
+      "reward": 1.53125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1666
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 407.9375,
+      "epoch": 2.2835616438356166,
+      "grad_norm": 6.339663028717041,
+      "kl": 0.46142578125,
+      "learning_rate": 2.3881278538812786e-07,
+      "loss": 0.0005,
+      "reward": 1.5625,
+      "reward_std": 0.249358132481575,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 1667
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 502.84375,
+      "epoch": 2.2849315068493152,
+      "grad_norm": 3.9863595962524414,
+      "kl": 0.47021484375,
+      "learning_rate": 2.3835616438356162e-07,
+      "loss": 0.0005,
+      "reward": 1.4921875,
+      "reward_std": 0.19887377880513668,
+      "rewards/accuracy_reward": 0.4921875,
+      "rewards/format_reward": 1.0,
+      "step": 1668
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 535.9375,
+      "epoch": 2.286301369863014,
+      "grad_norm": 1.3844397068023682,
+      "kl": 0.44189453125,
+      "learning_rate": 2.3789954337899543e-07,
+      "loss": 0.0004,
+      "reward": 1.03125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.03125,
+      "rewards/format_reward": 1.0,
+      "step": 1669
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 710.5625,
+      "epoch": 2.287671232876712,
+      "grad_norm": 0.9732621312141418,
+      "kl": 0.42626953125,
+      "learning_rate": 2.374429223744292e-07,
+      "loss": 0.0004,
+      "reward": 1.734375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 1670
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 505.59375,
+      "epoch": 2.289041095890411,
+      "grad_norm": 1.4135982990264893,
+      "kl": 0.455078125,
+      "learning_rate": 2.36986301369863e-07,
+      "loss": 0.0005,
+      "reward": 1.625,
+      "reward_std": 0.13363061845302582,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 1671
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 426.09375,
+      "epoch": 2.2904109589041095,
+      "grad_norm": 4.944645404815674,
+      "kl": 0.462890625,
+      "learning_rate": 2.365296803652968e-07,
+      "loss": 0.0005,
+      "reward": 1.5703125,
+      "reward_std": 0.4771321266889572,
+      "rewards/accuracy_reward": 0.5703125,
+      "rewards/format_reward": 1.0,
+      "step": 1672
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 495.625,
+      "epoch": 2.291780821917808,
+      "grad_norm": 1.9875884056091309,
+      "kl": 0.46484375,
+      "learning_rate": 2.3607305936073058e-07,
+      "loss": 0.0005,
+      "reward": 1.7291666567325592,
+      "reward_std": 0.05892557464540005,
+      "rewards/accuracy_reward": 0.7291666567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1673
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 518.78125,
+      "epoch": 2.293150684931507,
+      "grad_norm": 2.577669382095337,
+      "kl": 0.48193359375,
+      "learning_rate": 2.3561643835616437e-07,
+      "loss": 0.0005,
+      "reward": 1.5625,
+      "reward_std": 0.2587745785713196,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 1674
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 519.875,
+      "epoch": 2.2945205479452055,
+      "grad_norm": 2.3008384704589844,
+      "kl": 0.44482421875,
+      "learning_rate": 2.3515981735159816e-07,
+      "loss": 0.0004,
+      "reward": 1.453125,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 1675
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 689.5,
+      "epoch": 2.2958904109589042,
+      "grad_norm": 3.23929500579834,
+      "kl": 0.451171875,
+      "learning_rate": 2.3470319634703194e-07,
+      "loss": 0.0005,
+      "reward": 1.9375,
+      "reward_std": 0.1767766885459423,
+      "rewards/accuracy_reward": 0.9375,
+      "rewards/format_reward": 1.0,
+      "step": 1676
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 698.5,
+      "epoch": 2.297260273972603,
+      "grad_norm": 1.0103176832199097,
+      "kl": 0.40966796875,
+      "learning_rate": 2.3424657534246576e-07,
+      "loss": 0.0004,
+      "reward": 1.734375,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 1677
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 471.34375,
+      "epoch": 2.2986301369863016,
+      "grad_norm": 1.1156835556030273,
+      "kl": 0.46337890625,
+      "learning_rate": 2.3378995433789952e-07,
+      "loss": 0.0005,
+      "reward": 1.7421875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.7421875,
+      "rewards/format_reward": 1.0,
+      "step": 1678
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 687.9375,
+      "epoch": 2.3,
+      "grad_norm": 6.472524642944336,
+      "kl": 0.412109375,
+      "learning_rate": 2.3333333333333333e-07,
+      "loss": 0.0004,
+      "reward": 2.09375,
+      "reward_std": 0.06681530922651291,
+      "rewards/accuracy_reward": 1.09375,
+      "rewards/format_reward": 1.0,
+      "step": 1679
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 701.09375,
+      "epoch": 2.3013698630136985,
+      "grad_norm": 0.011184691451489925,
+      "kl": 0.39697265625,
+      "learning_rate": 2.328767123287671e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1680
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 520.0625,
+      "epoch": 2.302739726027397,
+      "grad_norm": 2.592190980911255,
+      "kl": 0.447265625,
+      "learning_rate": 2.324200913242009e-07,
+      "loss": 0.0004,
+      "reward": 1.6484375,
+      "reward_std": 0.19568835757672787,
+      "rewards/accuracy_reward": 0.6484375,
+      "rewards/format_reward": 1.0,
+      "step": 1681
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 713.84375,
+      "epoch": 2.304109589041096,
+      "grad_norm": 1.6159899234771729,
+      "kl": 0.39306640625,
+      "learning_rate": 2.319634703196347e-07,
+      "loss": 0.0004,
+      "reward": 2.143229156732559,
+      "reward_std": 0.21041975915431976,
+      "rewards/accuracy_reward": 1.1432291567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1682
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 599.5,
+      "epoch": 2.3054794520547945,
+      "grad_norm": 2.400277853012085,
+      "kl": 0.4560546875,
+      "learning_rate": 2.3150684931506848e-07,
+      "loss": 0.0005,
+      "reward": 1.8828125,
+      "reward_std": 0.1611283253878355,
+      "rewards/accuracy_reward": 0.8828125149011612,
+      "rewards/format_reward": 1.0,
+      "step": 1683
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 581.96875,
+      "epoch": 2.3068493150684932,
+      "grad_norm": 3.015183448791504,
+      "kl": 0.42724609375,
+      "learning_rate": 2.3105022831050227e-07,
+      "loss": 0.0004,
+      "reward": 1.4296875,
+      "reward_std": 0.13782460056245327,
+      "rewards/accuracy_reward": 0.4296875,
+      "rewards/format_reward": 1.0,
+      "step": 1684
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 493.1875,
+      "epoch": 2.308219178082192,
+      "grad_norm": 1.8614652156829834,
+      "kl": 0.51611328125,
+      "learning_rate": 2.3059360730593606e-07,
+      "loss": 0.0005,
+      "reward": 1.671875,
+      "reward_std": 0.1446593925356865,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 1685
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 493.1875,
+      "epoch": 2.3095890410958906,
+      "grad_norm": 2.610291004180908,
+      "kl": 0.44189453125,
+      "learning_rate": 2.3013698630136984e-07,
+      "loss": 0.0004,
+      "reward": 1.625,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 1686
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 691.5,
+      "epoch": 2.3109589041095893,
+      "grad_norm": 1.6105738878250122,
+      "kl": 0.46337890625,
+      "learning_rate": 2.2968036529680366e-07,
+      "loss": 0.0005,
+      "reward": 2.1015625,
+      "reward_std": 0.06629125960171223,
+      "rewards/accuracy_reward": 1.1015625,
+      "rewards/format_reward": 1.0,
+      "step": 1687
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 661.625,
+      "epoch": 2.3123287671232875,
+      "grad_norm": 1.1239279508590698,
+      "kl": 0.40771484375,
+      "learning_rate": 2.2922374429223742e-07,
+      "loss": 0.0004,
+      "reward": 1.4765625,
+      "reward_std": 0.03234682232141495,
+      "rewards/accuracy_reward": 0.4765625,
+      "rewards/format_reward": 1.0,
+      "step": 1688
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 479.65625,
+      "epoch": 2.313698630136986,
+      "grad_norm": 1.7685614824295044,
+      "kl": 0.46337890625,
+      "learning_rate": 2.2876712328767123e-07,
+      "loss": 0.0005,
+      "reward": 1.890625,
+      "reward_std": 0.17358146235346794,
+      "rewards/accuracy_reward": 0.890625,
+      "rewards/format_reward": 1.0,
+      "step": 1689
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 714.3125,
+      "epoch": 2.315068493150685,
+      "grad_norm": 0.014417420141398907,
+      "kl": 0.42724609375,
+      "learning_rate": 2.28310502283105e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1690
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 462.71875,
+      "epoch": 2.3164383561643835,
+      "grad_norm": 4.930258750915527,
+      "kl": 0.47705078125,
+      "learning_rate": 2.278538812785388e-07,
+      "loss": 0.0005,
+      "reward": 1.7578125,
+      "reward_std": 0.13488983362913132,
+      "rewards/accuracy_reward": 0.7578125,
+      "rewards/format_reward": 1.0,
+      "step": 1691
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 617.625,
+      "epoch": 2.317808219178082,
+      "grad_norm": 0.015057070180773735,
+      "kl": 0.43701171875,
+      "learning_rate": 2.273972602739726e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1692
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 592.375,
+      "epoch": 2.319178082191781,
+      "grad_norm": 0.011863677762448788,
+      "kl": 0.4033203125,
+      "learning_rate": 2.2694063926940638e-07,
+      "loss": 0.0004,
+      "reward": 1.875,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 1693
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 599.625,
+      "epoch": 2.3205479452054796,
+      "grad_norm": 9.944040298461914,
+      "kl": 0.4375,
+      "learning_rate": 2.2648401826484017e-07,
+      "loss": 0.0004,
+      "reward": 1.7421875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.7421875,
+      "rewards/format_reward": 1.0,
+      "step": 1694
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 536.03125,
+      "epoch": 2.3219178082191783,
+      "grad_norm": 2.4733667373657227,
+      "kl": 0.44873046875,
+      "learning_rate": 2.2602739726027396e-07,
+      "loss": 0.0004,
+      "reward": 1.796875,
+      "reward_std": 0.34717273339629173,
+      "rewards/accuracy_reward": 0.796875,
+      "rewards/format_reward": 1.0,
+      "step": 1695
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 626.84375,
+      "epoch": 2.323287671232877,
+      "grad_norm": 0.024826636537909508,
+      "kl": 0.43603515625,
+      "learning_rate": 2.2557077625570774e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1696
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 498.15625,
+      "epoch": 2.324657534246575,
+      "grad_norm": 2.1518919467926025,
+      "kl": 0.4296875,
+      "learning_rate": 2.2511415525114156e-07,
+      "loss": 0.0004,
+      "reward": 1.84375,
+      "reward_std": 0.22201896458864212,
+      "rewards/accuracy_reward": 0.84375,
+      "rewards/format_reward": 1.0,
+      "step": 1697
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 393.375,
+      "epoch": 2.326027397260274,
+      "grad_norm": 1.328129529953003,
+      "kl": 0.43212890625,
+      "learning_rate": 2.2465753424657532e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1698
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 503.4375,
+      "epoch": 2.3273972602739725,
+      "grad_norm": 2.9583795070648193,
+      "kl": 0.42578125,
+      "learning_rate": 2.2420091324200913e-07,
+      "loss": 0.0004,
+      "reward": 1.7265625,
+      "reward_std": 0.06629125773906708,
+      "rewards/accuracy_reward": 0.7265625,
+      "rewards/format_reward": 1.0,
+      "step": 1699
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 654.75,
+      "epoch": 2.328767123287671,
+      "grad_norm": 0.03351527452468872,
+      "kl": 0.42919921875,
+      "learning_rate": 2.237442922374429e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1700
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 626.34375,
+      "epoch": 2.33013698630137,
+      "grad_norm": 2.590440034866333,
+      "kl": 0.43896484375,
+      "learning_rate": 2.232876712328767e-07,
+      "loss": 0.0004,
+      "reward": 1.8111979365348816,
+      "reward_std": 0.045636214315891266,
+      "rewards/accuracy_reward": 0.8111979365348816,
+      "rewards/format_reward": 1.0,
+      "step": 1701
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 599.84375,
+      "epoch": 2.3315068493150686,
+      "grad_norm": 2.9123895168304443,
+      "kl": 0.4501953125,
+      "learning_rate": 2.228310502283105e-07,
+      "loss": 0.0004,
+      "reward": 2.078125,
+      "reward_std": 0.1173202246427536,
+      "rewards/accuracy_reward": 1.078125,
+      "rewards/format_reward": 1.0,
+      "step": 1702
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 733.53125,
+      "epoch": 2.3328767123287673,
+      "grad_norm": 1.3457146883010864,
+      "kl": 0.40283203125,
+      "learning_rate": 2.2237442922374428e-07,
+      "loss": 0.0004,
+      "reward": 2.2291666865348816,
+      "reward_std": 0.058925543911755085,
+      "rewards/accuracy_reward": 1.2291666567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1703
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 728.125,
+      "epoch": 2.334246575342466,
+      "grad_norm": 1.6166670322418213,
+      "kl": 0.41162109375,
+      "learning_rate": 2.2191780821917807e-07,
+      "loss": 0.0004,
+      "reward": 1.514062523841858,
+      "reward_std": 0.060913288965821266,
+      "rewards/accuracy_reward": 0.5140625238418579,
+      "rewards/format_reward": 1.0,
+      "step": 1704
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 703.40625,
+      "epoch": 2.3356164383561646,
+      "grad_norm": 1.2507858276367188,
+      "kl": 0.4013671875,
+      "learning_rate": 2.2146118721461185e-07,
+      "loss": 0.0004,
+      "reward": 1.453125,
+      "reward_std": 0.13258251547813416,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 1705
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 386.75,
+      "epoch": 2.336986301369863,
+      "grad_norm": 2.1028010845184326,
+      "kl": 0.51416015625,
+      "learning_rate": 2.2100456621004564e-07,
+      "loss": 0.0005,
+      "reward": 1.5859375,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.5859375,
+      "rewards/format_reward": 1.0,
+      "step": 1706
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 787.5,
+      "epoch": 2.3383561643835615,
+      "grad_norm": 1.057593584060669,
+      "kl": 0.44921875,
+      "learning_rate": 2.2054794520547946e-07,
+      "loss": 0.0004,
+      "reward": 1.40625,
+      "reward_std": 0.2651650384068489,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 0.9375,
+      "step": 1707
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 638.46875,
+      "epoch": 2.33972602739726,
+      "grad_norm": 0.8659687638282776,
+      "kl": 0.41455078125,
+      "learning_rate": 2.2009132420091322e-07,
+      "loss": 0.0004,
+      "reward": 1.484375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 1708
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 438.90625,
+      "epoch": 2.341095890410959,
+      "grad_norm": 9.916858673095703,
+      "kl": 0.55078125,
+      "learning_rate": 2.1963470319634703e-07,
+      "loss": 0.0006,
+      "reward": 1.828125,
+      "reward_std": 0.348775252699852,
+      "rewards/accuracy_reward": 0.828125,
+      "rewards/format_reward": 1.0,
+      "step": 1709
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 641.09375,
+      "epoch": 2.3424657534246576,
+      "grad_norm": 3.749361991882324,
+      "kl": 0.44384765625,
+      "learning_rate": 2.191780821917808e-07,
+      "loss": 0.0004,
+      "reward": 1.8515625,
+      "reward_std": 0.19992187805473804,
+      "rewards/accuracy_reward": 0.8515625,
+      "rewards/format_reward": 1.0,
+      "step": 1710
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 743.78125,
+      "epoch": 2.3438356164383563,
+      "grad_norm": 0.01229347288608551,
+      "kl": 0.392578125,
+      "learning_rate": 2.187214611872146e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1711
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 407.78125,
+      "epoch": 2.345205479452055,
+      "grad_norm": 1.4867902994155884,
+      "kl": 0.46044921875,
+      "learning_rate": 2.182648401826484e-07,
+      "loss": 0.0005,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 1712
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 552.9375,
+      "epoch": 2.3465753424657536,
+      "grad_norm": 3.182349443435669,
+      "kl": 0.43359375,
+      "learning_rate": 2.1780821917808218e-07,
+      "loss": 0.0004,
+      "reward": 1.6067708730697632,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.6067708432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1713
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 556.5625,
+      "epoch": 2.3479452054794523,
+      "grad_norm": 2.277287244796753,
+      "kl": 0.44677734375,
+      "learning_rate": 2.1735159817351597e-07,
+      "loss": 0.0004,
+      "reward": 1.5277777910232544,
+      "reward_std": 0.1834122035652399,
+      "rewards/accuracy_reward": 0.5277777910232544,
+      "rewards/format_reward": 1.0,
+      "step": 1714
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 630.8125,
+      "epoch": 2.3493150684931505,
+      "grad_norm": 1.855702519416809,
+      "kl": 0.41064453125,
+      "learning_rate": 2.1689497716894975e-07,
+      "loss": 0.0004,
+      "reward": 1.90625,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.90625,
+      "rewards/format_reward": 1.0,
+      "step": 1715
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 773.78125,
+      "epoch": 2.350684931506849,
+      "grad_norm": 0.9779567122459412,
+      "kl": 0.39794921875,
+      "learning_rate": 2.1643835616438354e-07,
+      "loss": 0.0004,
+      "reward": 1.71875,
+      "reward_std": 0.033407654613256454,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 1.0,
+      "step": 1716
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 779.46875,
+      "epoch": 2.352054794520548,
+      "grad_norm": 1.1999833583831787,
+      "kl": 0.392578125,
+      "learning_rate": 2.1598173515981736e-07,
+      "loss": 0.0004,
+      "reward": 1.984375,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.984375,
+      "rewards/format_reward": 1.0,
+      "step": 1717
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 516.3125,
+      "epoch": 2.3534246575342466,
+      "grad_norm": 0.011185778304934502,
+      "kl": 0.4267578125,
+      "learning_rate": 2.1552511415525112e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1718
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 610.4375,
+      "epoch": 2.3547945205479452,
+      "grad_norm": 2.8698530197143555,
+      "kl": 0.42626953125,
+      "learning_rate": 2.1506849315068493e-07,
+      "loss": 0.0004,
+      "reward": 2.0625,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 1.0625,
+      "rewards/format_reward": 1.0,
+      "step": 1719
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 540.78125,
+      "epoch": 2.356164383561644,
+      "grad_norm": 0.013433977961540222,
+      "kl": 0.4326171875,
+      "learning_rate": 2.146118721461187e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1720
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 671.4375,
+      "epoch": 2.3575342465753426,
+      "grad_norm": 4.19068717956543,
+      "kl": 0.4296875,
+      "learning_rate": 2.141552511415525e-07,
+      "loss": 0.0004,
+      "reward": 1.671875,
+      "reward_std": 0.13729207031428814,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 1721
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 777.375,
+      "epoch": 2.3589041095890413,
+      "grad_norm": 2.110203266143799,
+      "kl": 0.4052734375,
+      "learning_rate": 2.136986301369863e-07,
+      "loss": 0.0004,
+      "reward": 2.0963541865348816,
+      "reward_std": 0.09924879856407642,
+      "rewards/accuracy_reward": 1.0963541567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1722
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 695.9375,
+      "epoch": 2.36027397260274,
+      "grad_norm": 2.499537229537964,
+      "kl": 0.39990234375,
+      "learning_rate": 2.1324200913242008e-07,
+      "loss": 0.0004,
+      "reward": 1.71875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 1.0,
+      "step": 1723
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 677.4375,
+      "epoch": 2.361643835616438,
+      "grad_norm": 0.8653202652931213,
+      "kl": 0.4052734375,
+      "learning_rate": 2.1278538812785387e-07,
+      "loss": 0.0004,
+      "reward": 1.7708333730697632,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.8020833432674408,
+      "rewards/format_reward": 0.96875,
+      "step": 1724
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 693.5625,
+      "epoch": 2.363013698630137,
+      "grad_norm": 3.8777623176574707,
+      "kl": 0.45166015625,
+      "learning_rate": 2.1232876712328765e-07,
+      "loss": 0.0005,
+      "reward": 1.40625,
+      "reward_std": 0.4419417306780815,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 0.9375,
+      "step": 1725
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 568.25,
+      "epoch": 2.3643835616438356,
+      "grad_norm": 2.5270910263061523,
+      "kl": 0.45068359375,
+      "learning_rate": 2.1187214611872144e-07,
+      "loss": 0.0005,
+      "reward": 1.46875,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 1726
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 684.5,
+      "epoch": 2.3657534246575342,
+      "grad_norm": 1.7416011095046997,
+      "kl": 0.4091796875,
+      "learning_rate": 2.1141552511415526e-07,
+      "loss": 0.0004,
+      "reward": 1.6484375,
+      "reward_std": 0.15148437581956387,
+      "rewards/accuracy_reward": 0.6484375,
+      "rewards/format_reward": 1.0,
+      "step": 1727
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 546.40625,
+      "epoch": 2.367123287671233,
+      "grad_norm": 2.1706087589263916,
+      "kl": 0.4677734375,
+      "learning_rate": 2.1095890410958902e-07,
+      "loss": 0.0005,
+      "reward": 1.65625,
+      "reward_std": 0.2651650384068489,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 0.96875,
+      "step": 1728
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.46875,
+      "epoch": 2.3684931506849316,
+      "grad_norm": 1.4809720516204834,
+      "kl": 0.50634765625,
+      "learning_rate": 2.1050228310502283e-07,
+      "loss": 0.0005,
+      "reward": 1.34375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 1729
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 448.875,
+      "epoch": 2.3698630136986303,
+      "grad_norm": 1.574180245399475,
+      "kl": 0.44580078125,
+      "learning_rate": 2.100456621004566e-07,
+      "loss": 0.0004,
+      "reward": 1.59375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 1730
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 747.75,
+      "epoch": 2.3712328767123285,
+      "grad_norm": 1.3407500982284546,
+      "kl": 0.40869140625,
+      "learning_rate": 2.095890410958904e-07,
+      "loss": 0.0004,
+      "reward": 1.734375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 1731
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 440.25,
+      "epoch": 2.3726027397260276,
+      "grad_norm": 2.3002588748931885,
+      "kl": 0.4716796875,
+      "learning_rate": 2.091324200913242e-07,
+      "loss": 0.0005,
+      "reward": 1.9635416269302368,
+      "reward_std": 0.22568044997751713,
+      "rewards/accuracy_reward": 0.9635416567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1732
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 567.40625,
+      "epoch": 2.373972602739726,
+      "grad_norm": 3.8085672855377197,
+      "kl": 0.47314453125,
+      "learning_rate": 2.0867579908675798e-07,
+      "loss": 0.0005,
+      "reward": 1.5625,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 1733
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.75,
+      "epoch": 2.3753424657534246,
+      "grad_norm": 4.459737777709961,
+      "kl": 0.50634765625,
+      "learning_rate": 2.0821917808219177e-07,
+      "loss": 0.0005,
+      "reward": 1.1875,
+      "reward_std": 0.249358132481575,
+      "rewards/accuracy_reward": 0.1875,
+      "rewards/format_reward": 1.0,
+      "step": 1734
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 640.53125,
+      "epoch": 2.3767123287671232,
+      "grad_norm": 0.01177327148616314,
+      "kl": 0.421875,
+      "learning_rate": 2.0776255707762555e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1735
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 672.25,
+      "epoch": 2.378082191780822,
+      "grad_norm": 1.6972053050994873,
+      "kl": 0.416015625,
+      "learning_rate": 2.0730593607305934e-07,
+      "loss": 0.0004,
+      "reward": 1.7109375,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.7109375,
+      "rewards/format_reward": 1.0,
+      "step": 1736
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 449.625,
+      "epoch": 2.3794520547945206,
+      "grad_norm": 4.5160417556762695,
+      "kl": 0.4443359375,
+      "learning_rate": 2.0684931506849315e-07,
+      "loss": 0.0004,
+      "reward": 1.96875,
+      "reward_std": 0.3061639815568924,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 0.96875,
+      "step": 1737
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 647.53125,
+      "epoch": 2.3808219178082193,
+      "grad_norm": 3.452524185180664,
+      "kl": 0.4267578125,
+      "learning_rate": 2.0639269406392692e-07,
+      "loss": 0.0004,
+      "reward": 1.7864583730697632,
+      "reward_std": 0.13258253410458565,
+      "rewards/accuracy_reward": 0.7864583432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1738
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 646.5,
+      "epoch": 2.382191780821918,
+      "grad_norm": 1.4321078062057495,
+      "kl": 0.40576171875,
+      "learning_rate": 2.0593607305936073e-07,
+      "loss": 0.0004,
+      "reward": 1.739062488079071,
+      "reward_std": 0.030935918912291527,
+      "rewards/accuracy_reward": 0.739062488079071,
+      "rewards/format_reward": 1.0,
+      "step": 1739
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 665.03125,
+      "epoch": 2.383561643835616,
+      "grad_norm": 3.3979380130767822,
+      "kl": 0.419921875,
+      "learning_rate": 2.054794520547945e-07,
+      "loss": 0.0004,
+      "reward": 1.8984375,
+      "reward_std": 0.11048543266952038,
+      "rewards/accuracy_reward": 0.8984375,
+      "rewards/format_reward": 1.0,
+      "step": 1740
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.875,
+      "epoch": 2.384931506849315,
+      "grad_norm": 0.01345773320645094,
+      "kl": 0.447265625,
+      "learning_rate": 2.050228310502283e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1741
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 435.03125,
+      "epoch": 2.3863013698630136,
+      "grad_norm": 2.2129709720611572,
+      "kl": 0.4716796875,
+      "learning_rate": 2.045662100456621e-07,
+      "loss": 0.0005,
+      "reward": 1.65625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 1742
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 527.75,
+      "epoch": 2.3876712328767122,
+      "grad_norm": 2.38434100151062,
+      "kl": 0.45263671875,
+      "learning_rate": 2.0410958904109588e-07,
+      "loss": 0.0005,
+      "reward": 1.9270833134651184,
+      "reward_std": 0.1350154411047697,
+      "rewards/accuracy_reward": 0.9270833134651184,
+      "rewards/format_reward": 1.0,
+      "step": 1743
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 661.96875,
+      "epoch": 2.389041095890411,
+      "grad_norm": 1.3468263149261475,
+      "kl": 0.39501953125,
+      "learning_rate": 2.0365296803652967e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.06022650748491287,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1744
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 528.96875,
+      "epoch": 2.3904109589041096,
+      "grad_norm": 1.5943784713745117,
+      "kl": 0.42333984375,
+      "learning_rate": 2.0319634703196345e-07,
+      "loss": 0.0004,
+      "reward": 1.3125,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 1.0,
+      "step": 1745
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 540.8125,
+      "epoch": 2.3917808219178083,
+      "grad_norm": 2.2150042057037354,
+      "kl": 0.4375,
+      "learning_rate": 2.0273972602739724e-07,
+      "loss": 0.0004,
+      "reward": 1.453125,
+      "reward_std": 0.28930897638201714,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 1746
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 551.625,
+      "epoch": 2.393150684931507,
+      "grad_norm": 2.2374653816223145,
+      "kl": 0.4169921875,
+      "learning_rate": 2.0228310502283105e-07,
+      "loss": 0.0004,
+      "reward": 1.6875,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 1747
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 634.5625,
+      "epoch": 2.3945205479452056,
+      "grad_norm": 6.839147567749023,
+      "kl": 0.41064453125,
+      "learning_rate": 2.0182648401826482e-07,
+      "loss": 0.0004,
+      "reward": 1.8203125,
+      "reward_std": 0.15467960387468338,
+      "rewards/accuracy_reward": 0.8203125,
+      "rewards/format_reward": 1.0,
+      "step": 1748
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 558.8125,
+      "epoch": 2.395890410958904,
+      "grad_norm": 1.0668938159942627,
+      "kl": 0.4130859375,
+      "learning_rate": 2.0136986301369863e-07,
+      "loss": 0.0004,
+      "reward": 1.03125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.03125,
+      "rewards/format_reward": 1.0,
+      "step": 1749
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 526.78125,
+      "epoch": 2.3972602739726026,
+      "grad_norm": 2.2576634883880615,
+      "kl": 0.453125,
+      "learning_rate": 2.009132420091324e-07,
+      "loss": 0.0005,
+      "reward": 1.765625,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 1.0,
+      "step": 1750
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 448.28125,
+      "epoch": 2.3986301369863012,
+      "grad_norm": 1.9649614095687866,
+      "kl": 0.4501953125,
+      "learning_rate": 2.004566210045662e-07,
+      "loss": 0.0004,
+      "reward": 1.78125,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.78125,
+      "rewards/format_reward": 1.0,
+      "step": 1751
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 682.5625,
+      "epoch": 2.4,
+      "grad_norm": 2.0662784576416016,
+      "kl": 0.39501953125,
+      "learning_rate": 2e-07,
+      "loss": 0.0004,
+      "reward": 1.65625,
+      "reward_std": 0.2240222506225109,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 0.96875,
+      "step": 1752
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 761.25,
+      "epoch": 2.4013698630136986,
+      "grad_norm": 2.6573188304901123,
+      "kl": 0.37841796875,
+      "learning_rate": 1.9954337899543378e-07,
+      "loss": 0.0004,
+      "reward": 1.8255208134651184,
+      "reward_std": 0.05906267836689949,
+      "rewards/accuracy_reward": 0.8255207687616348,
+      "rewards/format_reward": 1.0,
+      "step": 1753
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 636.03125,
+      "epoch": 2.4027397260273973,
+      "grad_norm": 0.015329418703913689,
+      "kl": 0.4267578125,
+      "learning_rate": 1.9908675799086757e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1754
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 695.59375,
+      "epoch": 2.404109589041096,
+      "grad_norm": 2.676865577697754,
+      "kl": 0.40576171875,
+      "learning_rate": 1.9863013698630135e-07,
+      "loss": 0.0004,
+      "reward": 1.9583332538604736,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.9583332538604736,
+      "rewards/format_reward": 1.0,
+      "step": 1755
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 439.46875,
+      "epoch": 2.4054794520547946,
+      "grad_norm": 18.026885986328125,
+      "kl": 0.43017578125,
+      "learning_rate": 1.9817351598173514e-07,
+      "loss": 0.0004,
+      "reward": 2.1328125,
+      "reward_std": 0.2704071179032326,
+      "rewards/accuracy_reward": 1.1328125,
+      "rewards/format_reward": 1.0,
+      "step": 1756
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 661.65625,
+      "epoch": 2.4068493150684933,
+      "grad_norm": 11.778733253479004,
+      "kl": 0.40234375,
+      "learning_rate": 1.9771689497716895e-07,
+      "loss": 0.0004,
+      "reward": 1.6510416567325592,
+      "reward_std": 0.2493718508630991,
+      "rewards/accuracy_reward": 0.6822916567325592,
+      "rewards/format_reward": 0.96875,
+      "step": 1757
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 789.3125,
+      "epoch": 2.4082191780821915,
+      "grad_norm": 0.9306586980819702,
+      "kl": 0.5029296875,
+      "learning_rate": 1.9726027397260271e-07,
+      "loss": 0.0005,
+      "reward": 1.4947916865348816,
+      "reward_std": 0.009643949568271637,
+      "rewards/accuracy_reward": 0.4947916716337204,
+      "rewards/format_reward": 1.0,
+      "step": 1758
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 646.375,
+      "epoch": 2.4095890410958902,
+      "grad_norm": 3.610104560852051,
+      "kl": 0.384765625,
+      "learning_rate": 1.9680365296803653e-07,
+      "loss": 0.0004,
+      "reward": 1.6875,
+      "reward_std": 0.1462521031498909,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 1759
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 784.5625,
+      "epoch": 2.410958904109589,
+      "grad_norm": 0.011111236177384853,
+      "kl": 0.38330078125,
+      "learning_rate": 1.963470319634703e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1760
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 524.0,
+      "epoch": 2.4123287671232876,
+      "grad_norm": 5.047550678253174,
+      "kl": 0.439453125,
+      "learning_rate": 1.958904109589041e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 1761
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 628.25,
+      "epoch": 2.4136986301369863,
+      "grad_norm": 0.011284817941486835,
+      "kl": 0.4326171875,
+      "learning_rate": 1.954337899543379e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1762
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 632.78125,
+      "epoch": 2.415068493150685,
+      "grad_norm": 0.014482044614851475,
+      "kl": 0.4326171875,
+      "learning_rate": 1.9497716894977168e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1763
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 752.65625,
+      "epoch": 2.4164383561643836,
+      "grad_norm": 0.014792751520872116,
+      "kl": 0.4111328125,
+      "learning_rate": 1.9452054794520547e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1764
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 388.84375,
+      "epoch": 2.4178082191780823,
+      "grad_norm": 3.8776180744171143,
+      "kl": 0.4609375,
+      "learning_rate": 1.9406392694063925e-07,
+      "loss": 0.0005,
+      "reward": 1.4375,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 1765
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 572.03125,
+      "epoch": 2.419178082191781,
+      "grad_norm": 2.286025047302246,
+      "kl": 0.5654296875,
+      "learning_rate": 1.9360730593607304e-07,
+      "loss": 0.0006,
+      "reward": 1.8072916865348816,
+      "reward_std": 0.13045888487249613,
+      "rewards/accuracy_reward": 0.8072916269302368,
+      "rewards/format_reward": 1.0,
+      "step": 1766
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 650.34375,
+      "epoch": 2.4205479452054792,
+      "grad_norm": 0.013815724290907383,
+      "kl": 0.4169921875,
+      "learning_rate": 1.9315068493150685e-07,
+      "loss": 0.0004,
+      "reward": 2.083333373069763,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0833333432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1767
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 647.71875,
+      "epoch": 2.421917808219178,
+      "grad_norm": 2.937572717666626,
+      "kl": 0.40966796875,
+      "learning_rate": 1.9269406392694061e-07,
+      "loss": 0.0004,
+      "reward": 2.013020873069763,
+      "reward_std": 0.1922772154211998,
+      "rewards/accuracy_reward": 1.0442708432674408,
+      "rewards/format_reward": 0.96875,
+      "step": 1768
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 546.3125,
+      "epoch": 2.4232876712328766,
+      "grad_norm": 2.299823045730591,
+      "kl": 0.423828125,
+      "learning_rate": 1.9223744292237443e-07,
+      "loss": 0.0004,
+      "reward": 1.4609375,
+      "reward_std": 0.22621294669806957,
+      "rewards/accuracy_reward": 0.4609375,
+      "rewards/format_reward": 1.0,
+      "step": 1769
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 767.71875,
+      "epoch": 2.4246575342465753,
+      "grad_norm": 1.5032224655151367,
+      "kl": 0.4453125,
+      "learning_rate": 1.917808219178082e-07,
+      "loss": 0.0004,
+      "reward": 1.34375,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 0.96875,
+      "step": 1770
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 537.5625,
+      "epoch": 2.426027397260274,
+      "grad_norm": 2.258338689804077,
+      "kl": 0.427734375,
+      "learning_rate": 1.91324200913242e-07,
+      "loss": 0.0004,
+      "reward": 2.0234375,
+      "reward_std": 0.42010682821273804,
+      "rewards/accuracy_reward": 1.0546875,
+      "rewards/format_reward": 0.96875,
+      "step": 1771
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 530.03125,
+      "epoch": 2.4273972602739726,
+      "grad_norm": 2.291051149368286,
+      "kl": 0.45654296875,
+      "learning_rate": 1.908675799086758e-07,
+      "loss": 0.0005,
+      "reward": 1.59375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 1772
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 736.46875,
+      "epoch": 2.4287671232876713,
+      "grad_norm": 1.5850368738174438,
+      "kl": 0.40625,
+      "learning_rate": 1.9041095890410958e-07,
+      "loss": 0.0004,
+      "reward": 2.1015625,
+      "reward_std": 0.051028965041041374,
+      "rewards/accuracy_reward": 1.1015625,
+      "rewards/format_reward": 1.0,
+      "step": 1773
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 400.9375,
+      "epoch": 2.43013698630137,
+      "grad_norm": 1.7624574899673462,
+      "kl": 0.4521484375,
+      "learning_rate": 1.8995433789954336e-07,
+      "loss": 0.0005,
+      "reward": 1.6666666567325592,
+      "reward_std": 0.1472245566546917,
+      "rewards/accuracy_reward": 0.6666666567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1774
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 718.21875,
+      "epoch": 2.4315068493150687,
+      "grad_norm": 15.187267303466797,
+      "kl": 0.3994140625,
+      "learning_rate": 1.8949771689497715e-07,
+      "loss": 0.0004,
+      "reward": 1.8203125,
+      "reward_std": 0.12415501475334167,
+      "rewards/accuracy_reward": 0.8203125,
+      "rewards/format_reward": 1.0,
+      "step": 1775
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 648.03125,
+      "epoch": 2.432876712328767,
+      "grad_norm": 1.7570874691009521,
+      "kl": 0.39697265625,
+      "learning_rate": 1.8904109589041094e-07,
+      "loss": 0.0004,
+      "reward": 1.87109375,
+      "reward_std": 0.15814057737588882,
+      "rewards/accuracy_reward": 0.87109375,
+      "rewards/format_reward": 1.0,
+      "step": 1776
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 381.0,
+      "epoch": 2.4342465753424656,
+      "grad_norm": 3.229015588760376,
+      "kl": 0.45361328125,
+      "learning_rate": 1.8858447488584475e-07,
+      "loss": 0.0005,
+      "reward": 1.625,
+      "reward_std": 0.2314550280570984,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 1777
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 541.46875,
+      "epoch": 2.4356164383561643,
+      "grad_norm": 1.8693801164627075,
+      "kl": 0.48486328125,
+      "learning_rate": 1.8812785388127851e-07,
+      "loss": 0.0005,
+      "reward": 1.96875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.96875,
+      "rewards/format_reward": 1.0,
+      "step": 1778
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 766.125,
+      "epoch": 2.436986301369863,
+      "grad_norm": 1.9074249267578125,
+      "kl": 0.42041015625,
+      "learning_rate": 1.8767123287671233e-07,
+      "loss": 0.0004,
+      "reward": 2.0510417222976685,
+      "reward_std": 0.21917825285345316,
+      "rewards/accuracy_reward": 1.0822917222976685,
+      "rewards/format_reward": 0.96875,
+      "step": 1779
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 529.25,
+      "epoch": 2.4383561643835616,
+      "grad_norm": 1.9619604349136353,
+      "kl": 0.4375,
+      "learning_rate": 1.872146118721461e-07,
+      "loss": 0.0004,
+      "reward": 1.7890625,
+      "reward_std": 0.2615743316709995,
+      "rewards/accuracy_reward": 0.8203125,
+      "rewards/format_reward": 0.96875,
+      "step": 1780
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.375,
+      "epoch": 2.4397260273972603,
+      "grad_norm": 4.1623945236206055,
+      "kl": 0.52392578125,
+      "learning_rate": 1.867579908675799e-07,
+      "loss": 0.0005,
+      "reward": 1.46875,
+      "reward_std": 0.2630179077386856,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 1781
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 525.3125,
+      "epoch": 2.441095890410959,
+      "grad_norm": 1.8011760711669922,
+      "kl": 0.4345703125,
+      "learning_rate": 1.863013698630137e-07,
+      "loss": 0.0004,
+      "reward": 1.84375,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.84375,
+      "rewards/format_reward": 1.0,
+      "step": 1782
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 418.59375,
+      "epoch": 2.4424657534246577,
+      "grad_norm": 2.7090415954589844,
+      "kl": 0.49951171875,
+      "learning_rate": 1.8584474885844748e-07,
+      "loss": 0.0005,
+      "reward": 1.46875,
+      "reward_std": 0.3198433741927147,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 1783
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 532.09375,
+      "epoch": 2.4438356164383563,
+      "grad_norm": 1.623558521270752,
+      "kl": 0.45703125,
+      "learning_rate": 1.8538812785388126e-07,
+      "loss": 0.0005,
+      "reward": 1.53125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1784
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 600.84375,
+      "epoch": 2.4452054794520546,
+      "grad_norm": 1.0480831861495972,
+      "kl": 0.43505859375,
+      "learning_rate": 1.8493150684931505e-07,
+      "loss": 0.0004,
+      "reward": 1.4947916567325592,
+      "reward_std": 0.014731401577591896,
+      "rewards/accuracy_reward": 0.4947916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1785
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 522.1875,
+      "epoch": 2.4465753424657533,
+      "grad_norm": 0.8154250979423523,
+      "kl": 0.435546875,
+      "learning_rate": 1.8447488584474884e-07,
+      "loss": 0.0004,
+      "reward": 2.109375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 1.109375,
+      "rewards/format_reward": 1.0,
+      "step": 1786
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 714.78125,
+      "epoch": 2.447945205479452,
+      "grad_norm": 0.9283462762832642,
+      "kl": 0.4052734375,
+      "learning_rate": 1.8401826484018265e-07,
+      "loss": 0.0004,
+      "reward": 1.74609375,
+      "reward_std": 0.011048543266952038,
+      "rewards/accuracy_reward": 0.74609375,
+      "rewards/format_reward": 1.0,
+      "step": 1787
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 614.9375,
+      "epoch": 2.4493150684931506,
+      "grad_norm": 3.47172212600708,
+      "kl": 0.4482421875,
+      "learning_rate": 1.8356164383561641e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1788
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 514.1875,
+      "epoch": 2.4506849315068493,
+      "grad_norm": 5.5918073654174805,
+      "kl": 0.4375,
+      "learning_rate": 1.8310502283105023e-07,
+      "loss": 0.0004,
+      "reward": 1.65625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 1789
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 608.8125,
+      "epoch": 2.452054794520548,
+      "grad_norm": 2.302593231201172,
+      "kl": 0.435546875,
+      "learning_rate": 1.82648401826484e-07,
+      "loss": 0.0004,
+      "reward": 1.53125,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1790
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 611.59375,
+      "epoch": 2.4534246575342467,
+      "grad_norm": 0.016907289624214172,
+      "kl": 0.458984375,
+      "learning_rate": 1.821917808219178e-07,
+      "loss": 0.0005,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1791
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 521.0625,
+      "epoch": 2.4547945205479453,
+      "grad_norm": 1.9064016342163086,
+      "kl": 0.4541015625,
+      "learning_rate": 1.817351598173516e-07,
+      "loss": 0.0005,
+      "reward": 2.078125,
+      "reward_std": 0.1983242630958557,
+      "rewards/accuracy_reward": 1.078125,
+      "rewards/format_reward": 1.0,
+      "step": 1792
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 415.25,
+      "epoch": 2.456164383561644,
+      "grad_norm": 2.678353786468506,
+      "kl": 0.4931640625,
+      "learning_rate": 1.8127853881278538e-07,
+      "loss": 0.0005,
+      "reward": 1.375,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.375,
+      "rewards/format_reward": 1.0,
+      "step": 1793
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 630.71875,
+      "epoch": 2.4575342465753423,
+      "grad_norm": 3.9761133193969727,
+      "kl": 0.421875,
+      "learning_rate": 1.8082191780821916e-07,
+      "loss": 0.0004,
+      "reward": 1.46875,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 1794
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 591.84375,
+      "epoch": 2.458904109589041,
+      "grad_norm": 0.9502071142196655,
+      "kl": 0.4462890625,
+      "learning_rate": 1.8036529680365295e-07,
+      "loss": 0.0004,
+      "reward": 1.5546875,
+      "reward_std": 0.01446593925356865,
+      "rewards/accuracy_reward": 0.5546875,
+      "rewards/format_reward": 1.0,
+      "step": 1795
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 534.8125,
+      "epoch": 2.4602739726027396,
+      "grad_norm": 1.9530200958251953,
+      "kl": 0.4443359375,
+      "learning_rate": 1.7990867579908674e-07,
+      "loss": 0.0004,
+      "reward": 1.4375,
+      "reward_std": 0.1501902174204588,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 1796
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 713.46875,
+      "epoch": 2.4616438356164383,
+      "grad_norm": 1.0562297105789185,
+      "kl": 0.39697265625,
+      "learning_rate": 1.7945205479452055e-07,
+      "loss": 0.0004,
+      "reward": 1.8919271230697632,
+      "reward_std": 0.011048543266952038,
+      "rewards/accuracy_reward": 0.8919270932674408,
+      "rewards/format_reward": 1.0,
+      "step": 1797
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 386.96875,
+      "epoch": 2.463013698630137,
+      "grad_norm": 2.42509388923645,
+      "kl": 0.49365234375,
+      "learning_rate": 1.7899543378995431e-07,
+      "loss": 0.0005,
+      "reward": 1.625,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 1798
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 640.375,
+      "epoch": 2.4643835616438357,
+      "grad_norm": 2.7216432094573975,
+      "kl": 0.4208984375,
+      "learning_rate": 1.7853881278538813e-07,
+      "loss": 0.0004,
+      "reward": 1.90625,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.90625,
+      "rewards/format_reward": 1.0,
+      "step": 1799
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 510.1875,
+      "epoch": 2.4657534246575343,
+      "grad_norm": 1.1041353940963745,
+      "kl": 0.44091796875,
+      "learning_rate": 1.780821917808219e-07,
+      "loss": 0.0004,
+      "reward": 1.484375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 1800
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 432.4375,
+      "epoch": 2.467123287671233,
+      "grad_norm": 0.03972311317920685,
+      "kl": 0.4775390625,
+      "learning_rate": 1.776255707762557e-07,
+      "loss": 0.0005,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 1801
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 718.78125,
+      "epoch": 2.4684931506849317,
+      "grad_norm": 1.9601315259933472,
+      "kl": 0.42041015625,
+      "learning_rate": 1.771689497716895e-07,
+      "loss": 0.0004,
+      "reward": 2.1171875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 1.1171875,
+      "rewards/format_reward": 1.0,
+      "step": 1802
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 620.0,
+      "epoch": 2.46986301369863,
+      "grad_norm": 1.5302945375442505,
+      "kl": 0.45166015625,
+      "learning_rate": 1.7671232876712328e-07,
+      "loss": 0.0005,
+      "reward": 1.4765625,
+      "reward_std": 0.06629125960171223,
+      "rewards/accuracy_reward": 0.4765625,
+      "rewards/format_reward": 1.0,
+      "step": 1803
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 599.15625,
+      "epoch": 2.4712328767123286,
+      "grad_norm": 0.012821327894926071,
+      "kl": 0.43505859375,
+      "learning_rate": 1.7625570776255706e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1804
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 613.71875,
+      "epoch": 2.4726027397260273,
+      "grad_norm": 1.8718972206115723,
+      "kl": 0.4287109375,
+      "learning_rate": 1.7579908675799085e-07,
+      "loss": 0.0004,
+      "reward": 1.09375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.09375,
+      "rewards/format_reward": 1.0,
+      "step": 1805
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 756.5625,
+      "epoch": 2.473972602739726,
+      "grad_norm": 1.023593783378601,
+      "kl": 0.39892578125,
+      "learning_rate": 1.7534246575342464e-07,
+      "loss": 0.0004,
+      "reward": 2.1171875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 1.1171875,
+      "rewards/format_reward": 1.0,
+      "step": 1806
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 592.96875,
+      "epoch": 2.4753424657534246,
+      "grad_norm": 1.5183331966400146,
+      "kl": 1.42236328125,
+      "learning_rate": 1.7488584474885845e-07,
+      "loss": 0.0014,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1807
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 584.3125,
+      "epoch": 2.4767123287671233,
+      "grad_norm": 5.096823215484619,
+      "kl": 0.40966796875,
+      "learning_rate": 1.744292237442922e-07,
+      "loss": 0.0004,
+      "reward": 1.65625,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 1808
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 507.0625,
+      "epoch": 2.478082191780822,
+      "grad_norm": 4.39073371887207,
+      "kl": 0.5087890625,
+      "learning_rate": 1.7397260273972603e-07,
+      "loss": 0.0005,
+      "reward": 1.484375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 1809
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 629.875,
+      "epoch": 2.4794520547945207,
+      "grad_norm": 0.9874638915061951,
+      "kl": 0.42333984375,
+      "learning_rate": 1.735159817351598e-07,
+      "loss": 0.0004,
+      "reward": 1.49609375,
+      "reward_std": 0.011048543266952038,
+      "rewards/accuracy_reward": 0.49609375,
+      "rewards/format_reward": 1.0,
+      "step": 1810
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.1875,
+      "epoch": 2.4808219178082194,
+      "grad_norm": 4.526500225067139,
+      "kl": 0.6025390625,
+      "learning_rate": 1.730593607305936e-07,
+      "loss": 0.0006,
+      "reward": 1.59375,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 1811
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 503.40625,
+      "epoch": 2.4821917808219176,
+      "grad_norm": 0.8140820264816284,
+      "kl": 0.44482421875,
+      "learning_rate": 1.7260273972602742e-07,
+      "loss": 0.0004,
+      "reward": 1.984375,
+      "reward_std": 0.0289318785071373,
+      "rewards/accuracy_reward": 0.984375,
+      "rewards/format_reward": 1.0,
+      "step": 1812
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 712.15625,
+      "epoch": 2.4835616438356163,
+      "grad_norm": 0.019825929775834084,
+      "kl": 0.400390625,
+      "learning_rate": 1.7214611872146118e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1813
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 707.15625,
+      "epoch": 2.484931506849315,
+      "grad_norm": 0.015019472688436508,
+      "kl": 0.42041015625,
+      "learning_rate": 1.7168949771689496e-07,
+      "loss": 0.0004,
+      "reward": 1.5833333730697632,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5833333432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1814
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 611.875,
+      "epoch": 2.4863013698630136,
+      "grad_norm": 2.1414902210235596,
+      "kl": 0.443359375,
+      "learning_rate": 1.7123287671232875e-07,
+      "loss": 0.0004,
+      "reward": 2.140625,
+      "reward_std": 0.1583191677927971,
+      "rewards/accuracy_reward": 1.140625,
+      "rewards/format_reward": 1.0,
+      "step": 1815
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 707.59375,
+      "epoch": 2.4876712328767123,
+      "grad_norm": 0.9358913898468018,
+      "kl": 0.3974609375,
+      "learning_rate": 1.7077625570776254e-07,
+      "loss": 0.0004,
+      "reward": 1.7447916567325592,
+      "reward_std": 0.014731401577591896,
+      "rewards/accuracy_reward": 0.7447916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1816
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 597.1875,
+      "epoch": 2.489041095890411,
+      "grad_norm": 0.013829559087753296,
+      "kl": 0.44482421875,
+      "learning_rate": 1.7031963470319635e-07,
+      "loss": 0.0004,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1817
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 504.09375,
+      "epoch": 2.4904109589041097,
+      "grad_norm": 4.421374797821045,
+      "kl": 0.44580078125,
+      "learning_rate": 1.698630136986301e-07,
+      "loss": 0.0004,
+      "reward": 1.7421875,
+      "reward_std": 0.23987272195518017,
+      "rewards/accuracy_reward": 0.7421875,
+      "rewards/format_reward": 1.0,
+      "step": 1818
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 465.8125,
+      "epoch": 2.4917808219178084,
+      "grad_norm": 2.701549768447876,
+      "kl": 0.53369140625,
+      "learning_rate": 1.6940639269406393e-07,
+      "loss": 0.0005,
+      "reward": 1.8255208730697632,
+      "reward_std": 0.19887377880513668,
+      "rewards/accuracy_reward": 0.8255208432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1819
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 588.90625,
+      "epoch": 2.493150684931507,
+      "grad_norm": 1.3598692417144775,
+      "kl": 0.54541015625,
+      "learning_rate": 1.689497716894977e-07,
+      "loss": 0.0005,
+      "reward": 1.71875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 1.0,
+      "step": 1820
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 503.625,
+      "epoch": 2.4945205479452053,
+      "grad_norm": 3.0714876651763916,
+      "kl": 0.4580078125,
+      "learning_rate": 1.684931506849315e-07,
+      "loss": 0.0005,
+      "reward": 1.5859375,
+      "reward_std": 0.29773647896945477,
+      "rewards/accuracy_reward": 0.5859375,
+      "rewards/format_reward": 1.0,
+      "step": 1821
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 400.1875,
+      "epoch": 2.495890410958904,
+      "grad_norm": 9.251046180725098,
+      "kl": 0.46484375,
+      "learning_rate": 1.6803652968036531e-07,
+      "loss": 0.0005,
+      "reward": 1.546875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.546875,
+      "rewards/format_reward": 1.0,
+      "step": 1822
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 709.96875,
+      "epoch": 2.4972602739726026,
+      "grad_norm": 1.6262750625610352,
+      "kl": 0.41015625,
+      "learning_rate": 1.6757990867579908e-07,
+      "loss": 0.0004,
+      "reward": 2.000744044780731,
+      "reward_std": 0.0652390094473958,
+      "rewards/accuracy_reward": 1.0007440447807312,
+      "rewards/format_reward": 1.0,
+      "step": 1823
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 579.71875,
+      "epoch": 2.4986301369863013,
+      "grad_norm": 0.012250054627656937,
+      "kl": 0.43994140625,
+      "learning_rate": 1.671232876712329e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1824
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 461.1875,
+      "epoch": 2.5,
+      "grad_norm": 2.2716219425201416,
+      "kl": 0.48095703125,
+      "learning_rate": 1.6666666666666665e-07,
+      "loss": 0.0005,
+      "reward": 1.765625,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 1.0,
+      "step": 1825
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 585.625,
+      "epoch": 2.5013698630136987,
+      "grad_norm": 0.9625409841537476,
+      "kl": 0.45263671875,
+      "learning_rate": 1.6621004566210046e-07,
+      "loss": 0.0005,
+      "reward": 1.4947916567325592,
+      "reward_std": 0.014731401577591896,
+      "rewards/accuracy_reward": 0.4947916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1826
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 592.34375,
+      "epoch": 2.5027397260273974,
+      "grad_norm": 1.5089409351348877,
+      "kl": 0.46435546875,
+      "learning_rate": 1.6575342465753425e-07,
+      "loss": 0.0005,
+      "reward": 1.625,
+      "reward_std": 0.19727616012096405,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 1827
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.96875,
+      "epoch": 2.504109589041096,
+      "grad_norm": 1.3110523223876953,
+      "kl": 0.48828125,
+      "learning_rate": 1.65296803652968e-07,
+      "loss": 0.0005,
+      "reward": 1.4375,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 1828
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 732.78125,
+      "epoch": 2.5054794520547947,
+      "grad_norm": 1.3047925233840942,
+      "kl": 0.41455078125,
+      "learning_rate": 1.6484018264840183e-07,
+      "loss": 0.0004,
+      "reward": 2.053819477558136,
+      "reward_std": 0.004910481162369251,
+      "rewards/accuracy_reward": 1.0538194179534912,
+      "rewards/format_reward": 1.0,
+      "step": 1829
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 702.25,
+      "epoch": 2.506849315068493,
+      "grad_norm": 1.3534327745437622,
+      "kl": 0.43017578125,
+      "learning_rate": 1.643835616438356e-07,
+      "loss": 0.0004,
+      "reward": 1.96875,
+      "reward_std": 0.08838834427297115,
+      "rewards/accuracy_reward": 0.96875,
+      "rewards/format_reward": 1.0,
+      "step": 1830
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 490.625,
+      "epoch": 2.5082191780821916,
+      "grad_norm": 7.260403633117676,
+      "kl": 0.5107421875,
+      "learning_rate": 1.639269406392694e-07,
+      "loss": 0.0005,
+      "reward": 1.6875,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 1831
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 592.8125,
+      "epoch": 2.5095890410958903,
+      "grad_norm": 6.035711765289307,
+      "kl": 0.52392578125,
+      "learning_rate": 1.6347031963470321e-07,
+      "loss": 0.0005,
+      "reward": 2.078125,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 1.078125,
+      "rewards/format_reward": 1.0,
+      "step": 1832
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.34375,
+      "epoch": 2.510958904109589,
+      "grad_norm": 5.6545329093933105,
+      "kl": 0.5283203125,
+      "learning_rate": 1.6301369863013698e-07,
+      "loss": 0.0005,
+      "reward": 1.46875,
+      "reward_std": 0.24511480331420898,
+      "rewards/accuracy_reward": 0.46875,
+      "rewards/format_reward": 1.0,
+      "step": 1833
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 562.96875,
+      "epoch": 2.5123287671232877,
+      "grad_norm": 0.01666177436709404,
+      "kl": 0.45556640625,
+      "learning_rate": 1.625570776255708e-07,
+      "loss": 0.0005,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 1834
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 591.59375,
+      "epoch": 2.5136986301369864,
+      "grad_norm": 1.9220565557479858,
+      "kl": 0.4169921875,
+      "learning_rate": 1.6210045662100455e-07,
+      "loss": 0.0004,
+      "reward": 1.03125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.03125,
+      "rewards/format_reward": 1.0,
+      "step": 1835
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.65625,
+      "epoch": 2.515068493150685,
+      "grad_norm": 5.9780120849609375,
+      "kl": 0.595703125,
+      "learning_rate": 1.6164383561643836e-07,
+      "loss": 0.0006,
+      "reward": 1.65625,
+      "reward_std": 0.3608423173427582,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 1836
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 577.375,
+      "epoch": 2.5164383561643837,
+      "grad_norm": 1.0908452272415161,
+      "kl": 0.4716796875,
+      "learning_rate": 1.6118721461187215e-07,
+      "loss": 0.0005,
+      "reward": 1.734375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 1837
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 593.78125,
+      "epoch": 2.5178082191780824,
+      "grad_norm": 1.4167101383209229,
+      "kl": 0.4501953125,
+      "learning_rate": 1.6073059360730594e-07,
+      "loss": 0.0004,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 1838
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 682.8125,
+      "epoch": 2.5191780821917806,
+      "grad_norm": 3.3756706714630127,
+      "kl": 0.43310546875,
+      "learning_rate": 1.6027397260273973e-07,
+      "loss": 0.0004,
+      "reward": 2.020833373069763,
+      "reward_std": 0.10836022533476353,
+      "rewards/accuracy_reward": 1.0208333432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1839
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.6875,
+      "epoch": 2.5205479452054793,
+      "grad_norm": 3.1370277404785156,
+      "kl": 0.55126953125,
+      "learning_rate": 1.598173515981735e-07,
+      "loss": 0.0006,
+      "reward": 1.4036458432674408,
+      "reward_std": 0.25248048873618245,
+      "rewards/accuracy_reward": 0.4036458432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1840
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 477.75,
+      "epoch": 2.521917808219178,
+      "grad_norm": 2.06296443939209,
+      "kl": 0.4912109375,
+      "learning_rate": 1.593607305936073e-07,
+      "loss": 0.0005,
+      "reward": 1.21875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 0.96875,
+      "step": 1841
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 457.6875,
+      "epoch": 2.5232876712328767,
+      "grad_norm": 4.188381195068359,
+      "kl": 0.48828125,
+      "learning_rate": 1.5890410958904111e-07,
+      "loss": 0.0005,
+      "reward": 1.8638392686843872,
+      "reward_std": 0.2480499967932701,
+      "rewards/accuracy_reward": 0.8638392984867096,
+      "rewards/format_reward": 1.0,
+      "step": 1842
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 389.1875,
+      "epoch": 2.5246575342465754,
+      "grad_norm": 0.027832938358187675,
+      "kl": 0.5361328125,
+      "learning_rate": 1.5844748858447487e-07,
+      "loss": 0.0005,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 1843
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 377.4375,
+      "epoch": 2.526027397260274,
+      "grad_norm": 0.0704038143157959,
+      "kl": 0.59326171875,
+      "learning_rate": 1.579908675799087e-07,
+      "loss": 0.0006,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1844
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 577.40625,
+      "epoch": 2.5273972602739727,
+      "grad_norm": 1.9573439359664917,
+      "kl": 0.43115234375,
+      "learning_rate": 1.5753424657534245e-07,
+      "loss": 0.0004,
+      "reward": 1.65625,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 1845
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 589.90625,
+      "epoch": 2.5287671232876714,
+      "grad_norm": 2.9464783668518066,
+      "kl": 0.44580078125,
+      "learning_rate": 1.5707762557077626e-07,
+      "loss": 0.0004,
+      "reward": 1.640625,
+      "reward_std": 0.1173202246427536,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 1846
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 597.15625,
+      "epoch": 2.53013698630137,
+      "grad_norm": 0.013684084638953209,
+      "kl": 0.4619140625,
+      "learning_rate": 1.5662100456621005e-07,
+      "loss": 0.0005,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1847
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 582.4375,
+      "epoch": 2.5315068493150683,
+      "grad_norm": 2.3015666007995605,
+      "kl": 0.44580078125,
+      "learning_rate": 1.5616438356164384e-07,
+      "loss": 0.0004,
+      "reward": 1.953125,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.953125,
+      "rewards/format_reward": 1.0,
+      "step": 1848
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 669.875,
+      "epoch": 2.532876712328767,
+      "grad_norm": 1.849117398262024,
+      "kl": 0.43505859375,
+      "learning_rate": 1.5570776255707763e-07,
+      "loss": 0.0004,
+      "reward": 1.76953125,
+      "reward_std": 0.07606234215199947,
+      "rewards/accuracy_reward": 0.76953125,
+      "rewards/format_reward": 1.0,
+      "step": 1849
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 712.375,
+      "epoch": 2.5342465753424657,
+      "grad_norm": 6.685203552246094,
+      "kl": 0.44775390625,
+      "learning_rate": 1.552511415525114e-07,
+      "loss": 0.0004,
+      "reward": 2.045312464237213,
+      "reward_std": 0.1793727483600378,
+      "rewards/accuracy_reward": 1.045312523841858,
+      "rewards/format_reward": 1.0,
+      "step": 1850
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 417.3125,
+      "epoch": 2.5356164383561643,
+      "grad_norm": 9.952790260314941,
+      "kl": 0.5185546875,
+      "learning_rate": 1.547945205479452e-07,
+      "loss": 0.0005,
+      "reward": 1.828125,
+      "reward_std": 0.15680838376283646,
+      "rewards/accuracy_reward": 0.828125,
+      "rewards/format_reward": 1.0,
+      "step": 1851
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 724.65625,
+      "epoch": 2.536986301369863,
+      "grad_norm": 0.013162012211978436,
+      "kl": 0.4033203125,
+      "learning_rate": 1.5433789954337901e-07,
+      "loss": 0.0004,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1852
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 610.28125,
+      "epoch": 2.5383561643835617,
+      "grad_norm": 2.8636813163757324,
+      "kl": 0.44970703125,
+      "learning_rate": 1.5388127853881277e-07,
+      "loss": 0.0005,
+      "reward": 2.125,
+      "reward_std": 0.15075190644711256,
+      "rewards/accuracy_reward": 1.125,
+      "rewards/format_reward": 1.0,
+      "step": 1853
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 611.25,
+      "epoch": 2.5397260273972604,
+      "grad_norm": 2.5220446586608887,
+      "kl": 0.43896484375,
+      "learning_rate": 1.534246575342466e-07,
+      "loss": 0.0004,
+      "reward": 1.671875,
+      "reward_std": 0.2057085707783699,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 0.96875,
+      "step": 1854
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 479.8125,
+      "epoch": 2.541095890410959,
+      "grad_norm": 3.3266985416412354,
+      "kl": 0.5390625,
+      "learning_rate": 1.5296803652968035e-07,
+      "loss": 0.0005,
+      "reward": 1.703125,
+      "reward_std": 0.28930897638201714,
+      "rewards/accuracy_reward": 0.703125,
+      "rewards/format_reward": 1.0,
+      "step": 1855
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 421.78125,
+      "epoch": 2.5424657534246577,
+      "grad_norm": 2.0205581188201904,
+      "kl": 0.50732421875,
+      "learning_rate": 1.5251141552511416e-07,
+      "loss": 0.0005,
+      "reward": 1.5572916567325592,
+      "reward_std": 0.1304589156061411,
+      "rewards/accuracy_reward": 0.5572916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1856
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 585.1875,
+      "epoch": 2.543835616438356,
+      "grad_norm": 0.9342824220657349,
+      "kl": 0.45849609375,
+      "learning_rate": 1.5205479452054795e-07,
+      "loss": 0.0005,
+      "reward": 1.484375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 1857
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 576.84375,
+      "epoch": 2.5452054794520547,
+      "grad_norm": 2.175982713699341,
+      "kl": 0.46484375,
+      "learning_rate": 1.5159817351598174e-07,
+      "loss": 0.0005,
+      "reward": 1.4375,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 1858
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 735.15625,
+      "epoch": 2.5465753424657533,
+      "grad_norm": 0.010896558873355389,
+      "kl": 0.40771484375,
+      "learning_rate": 1.5114155251141552e-07,
+      "loss": 0.0004,
+      "reward": 2.083333373069763,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0833333432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1859
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 598.78125,
+      "epoch": 2.547945205479452,
+      "grad_norm": 0.833906888961792,
+      "kl": 0.57470703125,
+      "learning_rate": 1.506849315068493e-07,
+      "loss": 0.0006,
+      "reward": 1.5982142686843872,
+      "reward_std": 0.0190900731831789,
+      "rewards/accuracy_reward": 0.598214328289032,
+      "rewards/format_reward": 1.0,
+      "step": 1860
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 377.625,
+      "epoch": 2.5493150684931507,
+      "grad_norm": 3.9897994995117188,
+      "kl": 0.52734375,
+      "learning_rate": 1.502283105022831e-07,
+      "loss": 0.0005,
+      "reward": 1.65625,
+      "reward_std": 0.2041158601641655,
+      "rewards/accuracy_reward": 0.65625,
+      "rewards/format_reward": 1.0,
+      "step": 1861
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 491.59375,
+      "epoch": 2.5506849315068494,
+      "grad_norm": 5.466694355010986,
+      "kl": 0.45458984375,
+      "learning_rate": 1.497716894977169e-07,
+      "loss": 0.0005,
+      "reward": 1.5390625,
+      "reward_std": 0.24306795187294483,
+      "rewards/accuracy_reward": 0.5390625,
+      "rewards/format_reward": 1.0,
+      "step": 1862
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 578.3125,
+      "epoch": 2.552054794520548,
+      "grad_norm": 1.7200278043746948,
+      "kl": 0.4462890625,
+      "learning_rate": 1.4931506849315067e-07,
+      "loss": 0.0004,
+      "reward": 2.1015625,
+      "reward_std": 0.06629125960171223,
+      "rewards/accuracy_reward": 1.1015625,
+      "rewards/format_reward": 1.0,
+      "step": 1863
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 581.78125,
+      "epoch": 2.5534246575342463,
+      "grad_norm": 1.8215558528900146,
+      "kl": 0.44140625,
+      "learning_rate": 1.488584474885845e-07,
+      "loss": 0.0004,
+      "reward": 1.96484375,
+      "reward_std": 0.09943688940256834,
+      "rewards/accuracy_reward": 0.96484375,
+      "rewards/format_reward": 1.0,
+      "step": 1864
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 607.09375,
+      "epoch": 2.5547945205479454,
+      "grad_norm": 3.5763862133026123,
+      "kl": 0.53515625,
+      "learning_rate": 1.4840182648401825e-07,
+      "loss": 0.0005,
+      "reward": 1.96875,
+      "reward_std": 0.289318785071373,
+      "rewards/accuracy_reward": 0.96875,
+      "rewards/format_reward": 1.0,
+      "step": 1865
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 479.84375,
+      "epoch": 2.5561643835616437,
+      "grad_norm": 3.5475118160247803,
+      "kl": 0.466796875,
+      "learning_rate": 1.4794520547945206e-07,
+      "loss": 0.0005,
+      "reward": 1.7447916567325592,
+      "reward_std": 0.1915080938488245,
+      "rewards/accuracy_reward": 0.7447916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1866
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 585.3125,
+      "epoch": 2.5575342465753423,
+      "grad_norm": 0.01780768297612667,
+      "kl": 0.46484375,
+      "learning_rate": 1.4748858447488582e-07,
+      "loss": 0.0005,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1867
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 362.25,
+      "epoch": 2.558904109589041,
+      "grad_norm": 2.0428614616394043,
+      "kl": 0.537109375,
+      "learning_rate": 1.4703196347031964e-07,
+      "loss": 0.0005,
+      "reward": 1.25,
+      "reward_std": 0.1767766922712326,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1868
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 596.0625,
+      "epoch": 2.5602739726027397,
+      "grad_norm": 6.288616180419922,
+      "kl": 0.45263671875,
+      "learning_rate": 1.4657534246575342e-07,
+      "loss": 0.0005,
+      "reward": 1.27734375,
+      "reward_std": 0.09943688940256834,
+      "rewards/accuracy_reward": 0.27734375,
+      "rewards/format_reward": 1.0,
+      "step": 1869
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 483.40625,
+      "epoch": 2.5616438356164384,
+      "grad_norm": 2.494706392288208,
+      "kl": 0.46142578125,
+      "learning_rate": 1.461187214611872e-07,
+      "loss": 0.0005,
+      "reward": 1.693750023841858,
+      "reward_std": 0.15611343272030354,
+      "rewards/accuracy_reward": 0.6937500238418579,
+      "rewards/format_reward": 1.0,
+      "step": 1870
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 362.0625,
+      "epoch": 2.563013698630137,
+      "grad_norm": 3.9430582523345947,
+      "kl": 0.513671875,
+      "learning_rate": 1.45662100456621e-07,
+      "loss": 0.0005,
+      "reward": 1.5677083134651184,
+      "reward_std": 0.21375978272408247,
+      "rewards/accuracy_reward": 0.5677083134651184,
+      "rewards/format_reward": 1.0,
+      "step": 1871
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 592.8125,
+      "epoch": 2.5643835616438357,
+      "grad_norm": 4.103185653686523,
+      "kl": 0.42529296875,
+      "learning_rate": 1.4520547945205479e-07,
+      "loss": 0.0004,
+      "reward": 1.59375,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 1872
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 584.15625,
+      "epoch": 2.565753424657534,
+      "grad_norm": 0.8769128918647766,
+      "kl": 0.50830078125,
+      "learning_rate": 1.4474885844748857e-07,
+      "loss": 0.0005,
+      "reward": 1.837499976158142,
+      "reward_std": 0.01889822818338871,
+      "rewards/accuracy_reward": 0.8374999761581421,
+      "rewards/format_reward": 1.0,
+      "step": 1873
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.78125,
+      "epoch": 2.567123287671233,
+      "grad_norm": 4.576083660125732,
+      "kl": 0.5205078125,
+      "learning_rate": 1.442922374429224e-07,
+      "loss": 0.0005,
+      "reward": 1.453125,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.453125,
+      "rewards/format_reward": 1.0,
+      "step": 1874
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 571.65625,
+      "epoch": 2.5684931506849313,
+      "grad_norm": 2.0127077102661133,
+      "kl": 0.46435546875,
+      "learning_rate": 1.4383561643835615e-07,
+      "loss": 0.0005,
+      "reward": 1.9375,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.9375,
+      "rewards/format_reward": 1.0,
+      "step": 1875
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 583.46875,
+      "epoch": 2.56986301369863,
+      "grad_norm": 0.014270087704062462,
+      "kl": 0.46337890625,
+      "learning_rate": 1.4337899543378996e-07,
+      "loss": 0.0005,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1876
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 679.25,
+      "epoch": 2.5712328767123287,
+      "grad_norm": 0.04617256298661232,
+      "kl": 0.4775390625,
+      "learning_rate": 1.4292237442922372e-07,
+      "loss": 0.0005,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1877
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.625,
+      "epoch": 2.5726027397260274,
+      "grad_norm": 4.253347873687744,
+      "kl": 0.5908203125,
+      "learning_rate": 1.4246575342465754e-07,
+      "loss": 0.0006,
+      "reward": 1.28125,
+      "reward_std": 0.3061639815568924,
+      "rewards/accuracy_reward": 0.3125,
+      "rewards/format_reward": 0.96875,
+      "step": 1878
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 616.34375,
+      "epoch": 2.573972602739726,
+      "grad_norm": 2.7392868995666504,
+      "kl": 0.4111328125,
+      "learning_rate": 1.4200913242009132e-07,
+      "loss": 0.0004,
+      "reward": 2.0390625,
+      "reward_std": 0.17396648228168488,
+      "rewards/accuracy_reward": 1.0390625,
+      "rewards/format_reward": 1.0,
+      "step": 1879
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 714.78125,
+      "epoch": 2.5753424657534247,
+      "grad_norm": 0.015965202823281288,
+      "kl": 0.42529296875,
+      "learning_rate": 1.415525114155251e-07,
+      "loss": 0.0004,
+      "reward": 2.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.25,
+      "rewards/format_reward": 1.0,
+      "step": 1880
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 441.25,
+      "epoch": 2.5767123287671234,
+      "grad_norm": 1.3001987934112549,
+      "kl": 0.56201171875,
+      "learning_rate": 1.410958904109589e-07,
+      "loss": 0.0006,
+      "reward": 1.734375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 1881
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 481.75,
+      "epoch": 2.5780821917808217,
+      "grad_norm": 5.051120758056641,
+      "kl": 0.44970703125,
+      "learning_rate": 1.4063926940639269e-07,
+      "loss": 0.0004,
+      "reward": 1.5234375,
+      "reward_std": 0.21829968504607677,
+      "rewards/accuracy_reward": 0.5234375,
+      "rewards/format_reward": 1.0,
+      "step": 1882
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 617.625,
+      "epoch": 2.5794520547945208,
+      "grad_norm": 1.5158122777938843,
+      "kl": 0.43408203125,
+      "learning_rate": 1.4018264840182647e-07,
+      "loss": 0.0004,
+      "reward": 1.484375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.484375,
+      "rewards/format_reward": 1.0,
+      "step": 1883
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.4375,
+      "epoch": 2.580821917808219,
+      "grad_norm": 0.015694590285420418,
+      "kl": 0.51416015625,
+      "learning_rate": 1.397260273972603e-07,
+      "loss": 0.0005,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1884
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 608.34375,
+      "epoch": 2.5821917808219177,
+      "grad_norm": 1.8270230293273926,
+      "kl": 0.44580078125,
+      "learning_rate": 1.3926940639269405e-07,
+      "loss": 0.0004,
+      "reward": 1.640625,
+      "reward_std": 0.17358146235346794,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 1885
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 717.6875,
+      "epoch": 2.5835616438356164,
+      "grad_norm": 1.2641675472259521,
+      "kl": 0.42041015625,
+      "learning_rate": 1.3881278538812786e-07,
+      "loss": 0.0004,
+      "reward": 2.21875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 1.21875,
+      "rewards/format_reward": 1.0,
+      "step": 1886
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 484.96875,
+      "epoch": 2.584931506849315,
+      "grad_norm": 3.149761199951172,
+      "kl": 0.4814453125,
+      "learning_rate": 1.3835616438356162e-07,
+      "loss": 0.0005,
+      "reward": 1.28125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.28125,
+      "rewards/format_reward": 1.0,
+      "step": 1887
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 486.84375,
+      "epoch": 2.5863013698630137,
+      "grad_norm": 0.9660773277282715,
+      "kl": 0.5,
+      "learning_rate": 1.3789954337899544e-07,
+      "loss": 0.0005,
+      "reward": 1.234375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.234375,
+      "rewards/format_reward": 1.0,
+      "step": 1888
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 685.96875,
+      "epoch": 2.5876712328767124,
+      "grad_norm": 0.013375530950725079,
+      "kl": 0.4140625,
+      "learning_rate": 1.3744292237442922e-07,
+      "loss": 0.0004,
+      "reward": 1.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 1.0,
+      "step": 1889
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 462.8125,
+      "epoch": 2.589041095890411,
+      "grad_norm": 2.661720037460327,
+      "kl": 0.53515625,
+      "learning_rate": 1.36986301369863e-07,
+      "loss": 0.0005,
+      "reward": 1.21875,
+      "reward_std": 0.24511480331420898,
+      "rewards/accuracy_reward": 0.21875,
+      "rewards/format_reward": 1.0,
+      "step": 1890
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 613.28125,
+      "epoch": 2.5904109589041093,
+      "grad_norm": 1.0985729694366455,
+      "kl": 0.47412109375,
+      "learning_rate": 1.365296803652968e-07,
+      "loss": 0.0005,
+      "reward": 2.067708373069763,
+      "reward_std": 0.044194187968969345,
+      "rewards/accuracy_reward": 1.0677083432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1891
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 595.96875,
+      "epoch": 2.5917808219178085,
+      "grad_norm": 7.254380702972412,
+      "kl": 0.4580078125,
+      "learning_rate": 1.3607305936073059e-07,
+      "loss": 0.0005,
+      "reward": 2.239583373069763,
+      "reward_std": 0.14913516864180565,
+      "rewards/accuracy_reward": 1.2395833432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1892
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 469.03125,
+      "epoch": 2.5931506849315067,
+      "grad_norm": 7.630642414093018,
+      "kl": 0.52197265625,
+      "learning_rate": 1.3561643835616437e-07,
+      "loss": 0.0005,
+      "reward": 1.5625,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 1893
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 720.625,
+      "epoch": 2.5945205479452054,
+      "grad_norm": 2.732860803604126,
+      "kl": 0.4365234375,
+      "learning_rate": 1.351598173515982e-07,
+      "loss": 0.0004,
+      "reward": 1.7906250357627869,
+      "reward_std": 0.012938746251165867,
+      "rewards/accuracy_reward": 0.7906250357627869,
+      "rewards/format_reward": 1.0,
+      "step": 1894
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 566.0,
+      "epoch": 2.595890410958904,
+      "grad_norm": 1.1791141033172607,
+      "kl": 0.447265625,
+      "learning_rate": 1.3470319634703195e-07,
+      "loss": 0.0004,
+      "reward": 1.9947916567325592,
+      "reward_std": 0.014731401577591896,
+      "rewards/accuracy_reward": 0.9947916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1895
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 560.40625,
+      "epoch": 2.5972602739726027,
+      "grad_norm": 3.223524570465088,
+      "kl": 0.49365234375,
+      "learning_rate": 1.3424657534246576e-07,
+      "loss": 0.0005,
+      "reward": 1.6171875,
+      "reward_std": 0.1557277049869299,
+      "rewards/accuracy_reward": 0.6171875,
+      "rewards/format_reward": 1.0,
+      "step": 1896
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.53125,
+      "epoch": 2.5986301369863014,
+      "grad_norm": 0.04487916827201843,
+      "kl": 0.615234375,
+      "learning_rate": 1.3378995433789952e-07,
+      "loss": 0.0006,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1897
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 439.1875,
+      "epoch": 2.6,
+      "grad_norm": 0.02624012902379036,
+      "kl": 0.5029296875,
+      "learning_rate": 1.3333333333333334e-07,
+      "loss": 0.0005,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1898
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 605.53125,
+      "epoch": 2.6013698630136988,
+      "grad_norm": 0.0157871525734663,
+      "kl": 0.4541015625,
+      "learning_rate": 1.3287671232876712e-07,
+      "loss": 0.0005,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1899
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 583.53125,
+      "epoch": 2.602739726027397,
+      "grad_norm": 0.013623718172311783,
+      "kl": 0.42626953125,
+      "learning_rate": 1.324200913242009e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1900
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 721.6875,
+      "epoch": 2.604109589041096,
+      "grad_norm": 0.011808190494775772,
+      "kl": 0.41796875,
+      "learning_rate": 1.319634703196347e-07,
+      "loss": 0.0004,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1901
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 610.09375,
+      "epoch": 2.6054794520547944,
+      "grad_norm": 2.3075475692749023,
+      "kl": 0.4482421875,
+      "learning_rate": 1.3150684931506849e-07,
+      "loss": 0.0004,
+      "reward": 2.0993303656578064,
+      "reward_std": 0.16796573251485825,
+      "rewards/accuracy_reward": 1.0993303656578064,
+      "rewards/format_reward": 1.0,
+      "step": 1902
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 718.78125,
+      "epoch": 2.606849315068493,
+      "grad_norm": 1.013832688331604,
+      "kl": 0.42724609375,
+      "learning_rate": 1.3105022831050227e-07,
+      "loss": 0.0004,
+      "reward": 1.7421875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.7421875,
+      "rewards/format_reward": 1.0,
+      "step": 1903
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 614.8125,
+      "epoch": 2.6082191780821917,
+      "grad_norm": 1.9709546566009521,
+      "kl": 0.4560546875,
+      "learning_rate": 1.3059360730593609e-07,
+      "loss": 0.0005,
+      "reward": 1.59375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 1904
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 456.21875,
+      "epoch": 2.6095890410958904,
+      "grad_norm": 0.01537339761853218,
+      "kl": 0.47607421875,
+      "learning_rate": 1.3013698630136985e-07,
+      "loss": 0.0005,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1905
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 620.90625,
+      "epoch": 2.610958904109589,
+      "grad_norm": 0.9230520129203796,
+      "kl": 0.45068359375,
+      "learning_rate": 1.2968036529680366e-07,
+      "loss": 0.0005,
+      "reward": 2.078125,
+      "reward_std": 0.13258251547813416,
+      "rewards/accuracy_reward": 1.078125,
+      "rewards/format_reward": 1.0,
+      "step": 1906
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 739.40625,
+      "epoch": 2.6123287671232878,
+      "grad_norm": 1.2785931825637817,
+      "kl": 0.388671875,
+      "learning_rate": 1.2922374429223742e-07,
+      "loss": 0.0004,
+      "reward": 1.482812523841858,
+      "reward_std": 0.035035815089941025,
+      "rewards/accuracy_reward": 0.4828124940395355,
+      "rewards/format_reward": 1.0,
+      "step": 1907
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 706.4375,
+      "epoch": 2.6136986301369864,
+      "grad_norm": 1.4774940013885498,
+      "kl": 0.416015625,
+      "learning_rate": 1.2876712328767124e-07,
+      "loss": 0.0004,
+      "reward": 1.7890625,
+      "reward_std": 0.06629125960171223,
+      "rewards/accuracy_reward": 0.7890625,
+      "rewards/format_reward": 1.0,
+      "step": 1908
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 569.96875,
+      "epoch": 2.6150684931506847,
+      "grad_norm": 1.513951301574707,
+      "kl": 0.46875,
+      "learning_rate": 1.2831050228310502e-07,
+      "loss": 0.0005,
+      "reward": 1.72265625,
+      "reward_std": 0.02607884258031845,
+      "rewards/accuracy_reward": 0.72265625,
+      "rewards/format_reward": 1.0,
+      "step": 1909
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 592.625,
+      "epoch": 2.616438356164384,
+      "grad_norm": 0.08231215924024582,
+      "kl": 0.53466796875,
+      "learning_rate": 1.278538812785388e-07,
+      "loss": 0.0005,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1910
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 438.15625,
+      "epoch": 2.617808219178082,
+      "grad_norm": 3.5396158695220947,
+      "kl": 0.55712890625,
+      "learning_rate": 1.273972602739726e-07,
+      "loss": 0.0006,
+      "reward": 1.4375,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.4375,
+      "rewards/format_reward": 1.0,
+      "step": 1911
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 693.21875,
+      "epoch": 2.6191780821917807,
+      "grad_norm": 0.9799073338508606,
+      "kl": 0.43505859375,
+      "learning_rate": 1.2694063926940639e-07,
+      "loss": 0.0004,
+      "reward": 2.1510417461395264,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 1.1510416865348816,
+      "rewards/format_reward": 1.0,
+      "step": 1912
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.3125,
+      "epoch": 2.6205479452054794,
+      "grad_norm": 3.4260456562042236,
+      "kl": 0.54052734375,
+      "learning_rate": 1.2648401826484017e-07,
+      "loss": 0.0005,
+      "reward": 1.390625,
+      "reward_std": 0.1583191677927971,
+      "rewards/accuracy_reward": 0.390625,
+      "rewards/format_reward": 1.0,
+      "step": 1913
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 734.0625,
+      "epoch": 2.621917808219178,
+      "grad_norm": 2.109212636947632,
+      "kl": 0.43359375,
+      "learning_rate": 1.2602739726027399e-07,
+      "loss": 0.0004,
+      "reward": 1.734375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 1914
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 600.25,
+      "epoch": 2.6232876712328768,
+      "grad_norm": 2.4130992889404297,
+      "kl": 0.4443359375,
+      "learning_rate": 1.2557077625570775e-07,
+      "loss": 0.0004,
+      "reward": 1.71875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 1.0,
+      "step": 1915
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 595.8125,
+      "epoch": 2.6246575342465754,
+      "grad_norm": 0.013284082524478436,
+      "kl": 0.4892578125,
+      "learning_rate": 1.2511415525114156e-07,
+      "loss": 0.0005,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1916
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 573.46875,
+      "epoch": 2.626027397260274,
+      "grad_norm": 2.604541063308716,
+      "kl": 0.48486328125,
+      "learning_rate": 1.2465753424657535e-07,
+      "loss": 0.0005,
+      "reward": 1.6875,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 1917
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 455.6875,
+      "epoch": 2.6273972602739724,
+      "grad_norm": 2.7447710037231445,
+      "kl": 0.578125,
+      "learning_rate": 1.2420091324200914e-07,
+      "loss": 0.0006,
+      "reward": 1.421875,
+      "reward_std": 0.15992168709635735,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 1918
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.09375,
+      "epoch": 2.6287671232876715,
+      "grad_norm": 2.1487903594970703,
+      "kl": 0.55126953125,
+      "learning_rate": 1.2374429223744292e-07,
+      "loss": 0.0006,
+      "reward": 1.59375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 1.0,
+      "step": 1919
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.0625,
+      "epoch": 2.6301369863013697,
+      "grad_norm": 3.692871570587158,
+      "kl": 0.6923828125,
+      "learning_rate": 1.232876712328767e-07,
+      "loss": 0.0007,
+      "reward": 1.7760416567325592,
+      "reward_std": 0.1031197477132082,
+      "rewards/accuracy_reward": 0.7760416567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1920
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 617.71875,
+      "epoch": 2.6315068493150684,
+      "grad_norm": 0.016427405178546906,
+      "kl": 0.4560546875,
+      "learning_rate": 1.228310502283105e-07,
+      "loss": 0.0005,
+      "reward": 1.875,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 1921
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 729.46875,
+      "epoch": 2.632876712328767,
+      "grad_norm": 0.012659805826842785,
+      "kl": 0.4189453125,
+      "learning_rate": 1.2237442922374428e-07,
+      "loss": 0.0004,
+      "reward": 1.8125,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.8125,
+      "rewards/format_reward": 1.0,
+      "step": 1922
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 605.5625,
+      "epoch": 2.6342465753424658,
+      "grad_norm": 0.02905590832233429,
+      "kl": 0.53466796875,
+      "learning_rate": 1.2191780821917807e-07,
+      "loss": 0.0005,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 1923
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 689.25,
+      "epoch": 2.6356164383561644,
+      "grad_norm": 2.0189905166625977,
+      "kl": 0.427734375,
+      "learning_rate": 1.2146118721461186e-07,
+      "loss": 0.0004,
+      "reward": 1.7916666567325592,
+      "reward_std": 0.08119738660752773,
+      "rewards/accuracy_reward": 0.7916666567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1924
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.21875,
+      "epoch": 2.636986301369863,
+      "grad_norm": 4.194690704345703,
+      "kl": 0.6826171875,
+      "learning_rate": 1.2100456621004565e-07,
+      "loss": 0.0007,
+      "reward": 1.5625,
+      "reward_std": 0.249358132481575,
+      "rewards/accuracy_reward": 0.5625,
+      "rewards/format_reward": 1.0,
+      "step": 1925
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 606.84375,
+      "epoch": 2.638356164383562,
+      "grad_norm": 1.2967681884765625,
+      "kl": 0.42236328125,
+      "learning_rate": 1.2054794520547946e-07,
+      "loss": 0.0004,
+      "reward": 1.6953125,
+      "reward_std": 0.08679073117673397,
+      "rewards/accuracy_reward": 0.6953125,
+      "rewards/format_reward": 1.0,
+      "step": 1926
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 589.84375,
+      "epoch": 2.63972602739726,
+      "grad_norm": 3.400364875793457,
+      "kl": 0.46484375,
+      "learning_rate": 1.2009132420091325e-07,
+      "loss": 0.0005,
+      "reward": 2.0625,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 1.0625,
+      "rewards/format_reward": 1.0,
+      "step": 1927
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 463.25,
+      "epoch": 2.641095890410959,
+      "grad_norm": 1.7929593324661255,
+      "kl": 0.5361328125,
+      "learning_rate": 1.1963470319634704e-07,
+      "loss": 0.0005,
+      "reward": 2.09375,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 1.09375,
+      "rewards/format_reward": 1.0,
+      "step": 1928
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 707.03125,
+      "epoch": 2.6424657534246574,
+      "grad_norm": 2.0500845909118652,
+      "kl": 0.4150390625,
+      "learning_rate": 1.1917808219178081e-07,
+      "loss": 0.0004,
+      "reward": 1.98828125,
+      "reward_std": 0.09996093902736902,
+      "rewards/accuracy_reward": 0.98828125,
+      "rewards/format_reward": 1.0,
+      "step": 1929
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 463.1875,
+      "epoch": 2.643835616438356,
+      "grad_norm": 2.5931525230407715,
+      "kl": 0.5087890625,
+      "learning_rate": 1.187214611872146e-07,
+      "loss": 0.0005,
+      "reward": 1.9375,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.9375,
+      "rewards/format_reward": 1.0,
+      "step": 1930
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 429.59375,
+      "epoch": 2.6452054794520548,
+      "grad_norm": 2.4089698791503906,
+      "kl": 0.54443359375,
+      "learning_rate": 1.182648401826484e-07,
+      "loss": 0.0005,
+      "reward": 1.78125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.78125,
+      "rewards/format_reward": 1.0,
+      "step": 1931
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.875,
+      "epoch": 2.6465753424657534,
+      "grad_norm": 10.66240119934082,
+      "kl": 0.60107421875,
+      "learning_rate": 1.1780821917808218e-07,
+      "loss": 0.0006,
+      "reward": 1.71875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 1.0,
+      "step": 1932
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 596.90625,
+      "epoch": 2.647945205479452,
+      "grad_norm": 1.9442081451416016,
+      "kl": 0.4736328125,
+      "learning_rate": 1.1735159817351597e-07,
+      "loss": 0.0005,
+      "reward": 1.53125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1933
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 608.5625,
+      "epoch": 2.649315068493151,
+      "grad_norm": 0.017394782975316048,
+      "kl": 0.498046875,
+      "learning_rate": 1.1689497716894976e-07,
+      "loss": 0.0005,
+      "reward": 2.050000011920929,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.050000011920929,
+      "rewards/format_reward": 1.0,
+      "step": 1934
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 598.59375,
+      "epoch": 2.6506849315068495,
+      "grad_norm": 2.166017770767212,
+      "kl": 0.4775390625,
+      "learning_rate": 1.1643835616438355e-07,
+      "loss": 0.0005,
+      "reward": 1.40625,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 1.0,
+      "step": 1935
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 383.5,
+      "epoch": 2.6520547945205477,
+      "grad_norm": 2.386284589767456,
+      "kl": 0.4990234375,
+      "learning_rate": 1.1598173515981735e-07,
+      "loss": 0.0005,
+      "reward": 1.5625,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.59375,
+      "rewards/format_reward": 0.96875,
+      "step": 1936
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 748.15625,
+      "epoch": 2.653424657534247,
+      "grad_norm": 0.014168967492878437,
+      "kl": 0.4130859375,
+      "learning_rate": 1.1552511415525113e-07,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1937
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 746.71875,
+      "epoch": 2.654794520547945,
+      "grad_norm": 2.665678024291992,
+      "kl": 0.39306640625,
+      "learning_rate": 1.1506849315068492e-07,
+      "loss": 0.0004,
+      "reward": 2.2734375,
+      "reward_std": 0.19568835757672787,
+      "rewards/accuracy_reward": 1.2734375,
+      "rewards/format_reward": 1.0,
+      "step": 1938
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 713.34375,
+      "epoch": 2.6561643835616437,
+      "grad_norm": 1.1133548021316528,
+      "kl": 0.42822265625,
+      "learning_rate": 1.1461187214611871e-07,
+      "loss": 0.0004,
+      "reward": 2.34375,
+      "reward_std": 0.06681530922651291,
+      "rewards/accuracy_reward": 1.34375,
+      "rewards/format_reward": 1.0,
+      "step": 1939
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 448.84375,
+      "epoch": 2.6575342465753424,
+      "grad_norm": 3.5991928577423096,
+      "kl": 0.52294921875,
+      "learning_rate": 1.141552511415525e-07,
+      "loss": 0.0005,
+      "reward": 1.6796875,
+      "reward_std": 0.13782460056245327,
+      "rewards/accuracy_reward": 0.6796875,
+      "rewards/format_reward": 1.0,
+      "step": 1940
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 730.78125,
+      "epoch": 2.658904109589041,
+      "grad_norm": 0.012904795818030834,
+      "kl": 0.4091796875,
+      "learning_rate": 1.136986301369863e-07,
+      "loss": 0.0004,
+      "reward": 1.875,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 1941
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 590.5,
+      "epoch": 2.66027397260274,
+      "grad_norm": 2.7307403087615967,
+      "kl": 0.513671875,
+      "learning_rate": 1.1324200913242008e-07,
+      "loss": 0.0005,
+      "reward": 1.6875,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 1942
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 723.5,
+      "epoch": 2.6616438356164385,
+      "grad_norm": 0.9455803632736206,
+      "kl": 0.4296875,
+      "learning_rate": 1.1278538812785387e-07,
+      "loss": 0.0004,
+      "reward": 1.4921875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.4921875,
+      "rewards/format_reward": 1.0,
+      "step": 1943
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 630.625,
+      "epoch": 2.663013698630137,
+      "grad_norm": 0.8474169373512268,
+      "kl": 0.48486328125,
+      "learning_rate": 1.1232876712328766e-07,
+      "loss": 0.0005,
+      "reward": 1.4895833134651184,
+      "reward_std": 0.019287927076220512,
+      "rewards/accuracy_reward": 0.4895833283662796,
+      "rewards/format_reward": 1.0,
+      "step": 1944
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.09375,
+      "epoch": 2.6643835616438354,
+      "grad_norm": 16.568071365356445,
+      "kl": 0.5556640625,
+      "learning_rate": 1.1187214611872145e-07,
+      "loss": 0.0006,
+      "reward": 1.359375,
+      "reward_std": 0.3214360848069191,
+      "rewards/accuracy_reward": 0.359375,
+      "rewards/format_reward": 1.0,
+      "step": 1945
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 619.8125,
+      "epoch": 2.6657534246575345,
+      "grad_norm": 2.1676013469696045,
+      "kl": 0.46533203125,
+      "learning_rate": 1.1141552511415525e-07,
+      "loss": 0.0005,
+      "reward": 1.76171875,
+      "reward_std": 0.2593585727736354,
+      "rewards/accuracy_reward": 0.76171875,
+      "rewards/format_reward": 1.0,
+      "step": 1946
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 606.40625,
+      "epoch": 2.6671232876712327,
+      "grad_norm": 1.9929795265197754,
+      "kl": 0.49072265625,
+      "learning_rate": 1.1095890410958903e-07,
+      "loss": 0.0005,
+      "reward": 2.34375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 1.34375,
+      "rewards/format_reward": 1.0,
+      "step": 1947
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 619.375,
+      "epoch": 2.6684931506849314,
+      "grad_norm": 5.4415059089660645,
+      "kl": 0.43994140625,
+      "learning_rate": 1.1050228310502282e-07,
+      "loss": 0.0004,
+      "reward": 1.803125023841858,
+      "reward_std": 0.18957157619297504,
+      "rewards/accuracy_reward": 0.8031249940395355,
+      "rewards/format_reward": 1.0,
+      "step": 1948
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 606.96875,
+      "epoch": 2.66986301369863,
+      "grad_norm": 4.617761611938477,
+      "kl": 0.4755859375,
+      "learning_rate": 1.1004566210045661e-07,
+      "loss": 0.0005,
+      "reward": 1.8697916567325592,
+      "reward_std": 0.14411869086325169,
+      "rewards/accuracy_reward": 0.8697916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 1949
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 743.4375,
+      "epoch": 2.671232876712329,
+      "grad_norm": 3.637406587600708,
+      "kl": 0.41455078125,
+      "learning_rate": 1.095890410958904e-07,
+      "loss": 0.0004,
+      "reward": 2.18359375,
+      "reward_std": 0.011048543266952038,
+      "rewards/accuracy_reward": 1.18359375,
+      "rewards/format_reward": 1.0,
+      "step": 1950
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 600.375,
+      "epoch": 2.6726027397260275,
+      "grad_norm": 2.412261962890625,
+      "kl": 0.51416015625,
+      "learning_rate": 1.091324200913242e-07,
+      "loss": 0.0005,
+      "reward": 1.8828125,
+      "reward_std": 0.12073516845703125,
+      "rewards/accuracy_reward": 0.8828125,
+      "rewards/format_reward": 1.0,
+      "step": 1951
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 420.96875,
+      "epoch": 2.673972602739726,
+      "grad_norm": 4.665439605712891,
+      "kl": 0.57958984375,
+      "learning_rate": 1.0867579908675798e-07,
+      "loss": 0.0006,
+      "reward": 1.53125,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.53125,
+      "rewards/format_reward": 1.0,
+      "step": 1952
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 444.65625,
+      "epoch": 2.675342465753425,
+      "grad_norm": 3.313004732131958,
+      "kl": 0.56640625,
+      "learning_rate": 1.0821917808219177e-07,
+      "loss": 0.0006,
+      "reward": 1.640625,
+      "reward_std": 0.17358146235346794,
+      "rewards/accuracy_reward": 0.640625,
+      "rewards/format_reward": 1.0,
+      "step": 1953
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 615.5,
+      "epoch": 2.676712328767123,
+      "grad_norm": 2.786430835723877,
+      "kl": 0.48876953125,
+      "learning_rate": 1.0776255707762556e-07,
+      "loss": 0.0005,
+      "reward": 1.9921875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.9921875,
+      "rewards/format_reward": 1.0,
+      "step": 1954
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 485.90625,
+      "epoch": 2.678082191780822,
+      "grad_norm": 2.3406755924224854,
+      "kl": 0.4716796875,
+      "learning_rate": 1.0730593607305935e-07,
+      "loss": 0.0005,
+      "reward": 1.765625,
+      "reward_std": 0.13258251920342445,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/format_reward": 1.0,
+      "step": 1955
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 581.0625,
+      "epoch": 2.6794520547945204,
+      "grad_norm": 3.60078763961792,
+      "kl": 0.4716796875,
+      "learning_rate": 1.0684931506849315e-07,
+      "loss": 0.0005,
+      "reward": 1.21875,
+      "reward_std": 0.2651650384068489,
+      "rewards/accuracy_reward": 0.25,
+      "rewards/format_reward": 0.96875,
+      "step": 1956
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 745.28125,
+      "epoch": 2.680821917808219,
+      "grad_norm": 1.4542900323867798,
+      "kl": 0.40625,
+      "learning_rate": 1.0639269406392693e-07,
+      "loss": 0.0004,
+      "reward": 2.046875,
+      "reward_std": 0.18798284232616425,
+      "rewards/accuracy_reward": 1.046875,
+      "rewards/format_reward": 1.0,
+      "step": 1957
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 615.625,
+      "epoch": 2.682191780821918,
+      "grad_norm": 1.4186758995056152,
+      "kl": 0.43505859375,
+      "learning_rate": 1.0593607305936072e-07,
+      "loss": 0.0004,
+      "reward": 1.4765625,
+      "reward_std": 0.06629125960171223,
+      "rewards/accuracy_reward": 0.4765625,
+      "rewards/format_reward": 1.0,
+      "step": 1958
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 644.375,
+      "epoch": 2.6835616438356165,
+      "grad_norm": 2.3964550495147705,
+      "kl": 0.43212890625,
+      "learning_rate": 1.0547945205479451e-07,
+      "loss": 0.0004,
+      "reward": 2.05859375,
+      "reward_std": 0.12677605729550123,
+      "rewards/accuracy_reward": 1.05859375,
+      "rewards/format_reward": 1.0,
+      "step": 1959
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 445.15625,
+      "epoch": 2.684931506849315,
+      "grad_norm": 4.3035712242126465,
+      "kl": 0.56884765625,
+      "learning_rate": 1.050228310502283e-07,
+      "loss": 0.0006,
+      "reward": 2.09375,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 1.09375,
+      "rewards/format_reward": 1.0,
+      "step": 1960
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 613.46875,
+      "epoch": 2.686301369863014,
+      "grad_norm": 0.018484387546777725,
+      "kl": 0.44873046875,
+      "learning_rate": 1.045662100456621e-07,
+      "loss": 0.0004,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1961
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 474.125,
+      "epoch": 2.6876712328767125,
+      "grad_norm": 4.853532314300537,
+      "kl": 0.537109375,
+      "learning_rate": 1.0410958904109588e-07,
+      "loss": 0.0005,
+      "reward": 1.875,
+      "reward_std": 0.27670122776180506,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 1962
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 477.34375,
+      "epoch": 2.6890410958904107,
+      "grad_norm": 0.01449664682149887,
+      "kl": 0.49072265625,
+      "learning_rate": 1.0365296803652967e-07,
+      "loss": 0.0005,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1963
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 466.25,
+      "epoch": 2.69041095890411,
+      "grad_norm": 0.01442641019821167,
+      "kl": 0.4990234375,
+      "learning_rate": 1.0319634703196346e-07,
+      "loss": 0.0005,
+      "reward": 2.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.25,
+      "rewards/format_reward": 1.0,
+      "step": 1964
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 348.71875,
+      "epoch": 2.691780821917808,
+      "grad_norm": 37.51273727416992,
+      "kl": 0.5625,
+      "learning_rate": 1.0273972602739725e-07,
+      "loss": 0.0006,
+      "reward": 1.34375,
+      "reward_std": 0.1293872892856598,
+      "rewards/accuracy_reward": 0.34375,
+      "rewards/format_reward": 1.0,
+      "step": 1965
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.875,
+      "epoch": 2.6931506849315068,
+      "grad_norm": 25.64148712158203,
+      "kl": 0.57958984375,
+      "learning_rate": 1.0228310502283105e-07,
+      "loss": 0.0006,
+      "reward": 1.71875,
+      "reward_std": 0.0883883461356163,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 1.0,
+      "step": 1966
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 476.71875,
+      "epoch": 2.6945205479452055,
+      "grad_norm": 7.62077522277832,
+      "kl": 0.50537109375,
+      "learning_rate": 1.0182648401826483e-07,
+      "loss": 0.0005,
+      "reward": 1.671875,
+      "reward_std": 0.29355230554938316,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/format_reward": 1.0,
+      "step": 1967
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 496.78125,
+      "epoch": 2.695890410958904,
+      "grad_norm": 2.162358283996582,
+      "kl": 0.4931640625,
+      "learning_rate": 1.0136986301369862e-07,
+      "loss": 0.0005,
+      "reward": 1.5234375,
+      "reward_std": 0.10285428538918495,
+      "rewards/accuracy_reward": 0.5234375,
+      "rewards/format_reward": 1.0,
+      "step": 1968
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 606.71875,
+      "epoch": 2.697260273972603,
+      "grad_norm": 2.0680558681488037,
+      "kl": 0.44580078125,
+      "learning_rate": 1.0091324200913241e-07,
+      "loss": 0.0004,
+      "reward": 1.828125,
+      "reward_std": 0.11938933096826077,
+      "rewards/accuracy_reward": 0.828125,
+      "rewards/format_reward": 1.0,
+      "step": 1969
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 511.3125,
+      "epoch": 2.6986301369863015,
+      "grad_norm": 0.8881884217262268,
+      "kl": 0.4990234375,
+      "learning_rate": 1.004566210045662e-07,
+      "loss": 0.0005,
+      "reward": 1.828125,
+      "reward_std": 0.014731419272720814,
+      "rewards/accuracy_reward": 0.8281250298023224,
+      "rewards/format_reward": 1.0,
+      "step": 1970
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 756.875,
+      "epoch": 2.7,
+      "grad_norm": 0.0356244221329689,
+      "kl": 0.423828125,
+      "learning_rate": 1e-07,
+      "loss": 0.0004,
+      "reward": 1.875,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.875,
+      "rewards/format_reward": 1.0,
+      "step": 1971
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 630.65625,
+      "epoch": 2.7013698630136984,
+      "grad_norm": 3.1565725803375244,
+      "kl": 0.48046875,
+      "learning_rate": 9.954337899543378e-08,
+      "loss": 0.0005,
+      "reward": 1.58984375,
+      "reward_std": 0.14043583255261183,
+      "rewards/accuracy_reward": 0.58984375,
+      "rewards/format_reward": 1.0,
+      "step": 1972
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 492.875,
+      "epoch": 2.7027397260273975,
+      "grad_norm": 0.027120472863316536,
+      "kl": 0.52587890625,
+      "learning_rate": 9.908675799086757e-08,
+      "loss": 0.0005,
+      "reward": 2.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.25,
+      "rewards/format_reward": 1.0,
+      "step": 1973
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 627.59375,
+      "epoch": 2.7041095890410958,
+      "grad_norm": 0.7681030631065369,
+      "kl": 0.42333984375,
+      "learning_rate": 9.863013698630136e-08,
+      "loss": 0.0004,
+      "reward": 1.4921875,
+      "reward_std": 0.022097086533904076,
+      "rewards/accuracy_reward": 0.4921875,
+      "rewards/format_reward": 1.0,
+      "step": 1974
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 390.84375,
+      "epoch": 2.7054794520547945,
+      "grad_norm": 1.4871472120285034,
+      "kl": 0.525390625,
+      "learning_rate": 9.817351598173514e-08,
+      "loss": 0.0005,
+      "reward": 1.125,
+      "reward_std": 0.13363061845302582,
+      "rewards/accuracy_reward": 0.125,
+      "rewards/format_reward": 1.0,
+      "step": 1975
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 479.28125,
+      "epoch": 2.706849315068493,
+      "grad_norm": 3.077946662902832,
+      "kl": 0.466796875,
+      "learning_rate": 9.771689497716895e-08,
+      "loss": 0.0005,
+      "reward": 1.3772321343421936,
+      "reward_std": 0.13570073060691357,
+      "rewards/accuracy_reward": 0.377232164144516,
+      "rewards/format_reward": 1.0,
+      "step": 1976
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 748.1875,
+      "epoch": 2.708219178082192,
+      "grad_norm": 0.012424902059137821,
+      "kl": 0.4111328125,
+      "learning_rate": 9.726027397260273e-08,
+      "loss": 0.0004,
+      "reward": 2.175000011920929,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.175000011920929,
+      "rewards/format_reward": 1.0,
+      "step": 1977
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 756.71875,
+      "epoch": 2.7095890410958905,
+      "grad_norm": 0.012390066869556904,
+      "kl": 0.42041015625,
+      "learning_rate": 9.680365296803652e-08,
+      "loss": 0.0004,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1978
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.84375,
+      "epoch": 2.710958904109589,
+      "grad_norm": 3.49833607673645,
+      "kl": 0.55126953125,
+      "learning_rate": 9.634703196347031e-08,
+      "loss": 0.0006,
+      "reward": 1.71875,
+      "reward_std": 0.2630179077386856,
+      "rewards/accuracy_reward": 0.71875,
+      "rewards/format_reward": 1.0,
+      "step": 1979
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 517.75,
+      "epoch": 2.712328767123288,
+      "grad_norm": 5.010624885559082,
+      "kl": 0.5390625,
+      "learning_rate": 9.58904109589041e-08,
+      "loss": 0.0005,
+      "reward": 1.515625,
+      "reward_std": 0.1173202246427536,
+      "rewards/accuracy_reward": 0.515625,
+      "rewards/format_reward": 1.0,
+      "step": 1980
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 629.4375,
+      "epoch": 2.713698630136986,
+      "grad_norm": 2.502747058868408,
+      "kl": 0.453125,
+      "learning_rate": 9.54337899543379e-08,
+      "loss": 0.0005,
+      "reward": 2.223958373069763,
+      "reward_std": 0.17358147725462914,
+      "rewards/accuracy_reward": 1.2239583432674408,
+      "rewards/format_reward": 1.0,
+      "step": 1981
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 747.4375,
+      "epoch": 2.7150684931506848,
+      "grad_norm": 0.012110782787203789,
+      "kl": 0.4072265625,
+      "learning_rate": 9.497716894977168e-08,
+      "loss": 0.0004,
+      "reward": 1.625,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 1982
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 756.9375,
+      "epoch": 2.7164383561643834,
+      "grad_norm": 0.011830762960016727,
+      "kl": 0.4140625,
+      "learning_rate": 9.452054794520547e-08,
+      "loss": 0.0004,
+      "reward": 2.25,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.25,
+      "rewards/format_reward": 1.0,
+      "step": 1983
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 386.21875,
+      "epoch": 2.717808219178082,
+      "grad_norm": 7.8070244789123535,
+      "kl": 0.763671875,
+      "learning_rate": 9.406392694063926e-08,
+      "loss": 0.0008,
+      "reward": 1.6361607313156128,
+      "reward_std": 0.1860186392441392,
+      "rewards/accuracy_reward": 0.6361607015132904,
+      "rewards/format_reward": 1.0,
+      "step": 1984
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 760.4375,
+      "epoch": 2.719178082191781,
+      "grad_norm": 1.3885631561279297,
+      "kl": 0.40576171875,
+      "learning_rate": 9.360730593607304e-08,
+      "loss": 0.0004,
+      "reward": 2.01171875,
+      "reward_std": 0.13169018551707268,
+      "rewards/accuracy_reward": 1.04296875,
+      "rewards/format_reward": 0.96875,
+      "step": 1985
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.09375,
+      "epoch": 2.7205479452054795,
+      "grad_norm": 2.67253041267395,
+      "kl": 0.55517578125,
+      "learning_rate": 9.315068493150684e-08,
+      "loss": 0.0006,
+      "reward": 1.6875,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.6875,
+      "rewards/format_reward": 1.0,
+      "step": 1986
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 630.84375,
+      "epoch": 2.721917808219178,
+      "grad_norm": 0.011008580215275288,
+      "kl": 0.443359375,
+      "learning_rate": 9.269406392694063e-08,
+      "loss": 0.0004,
+      "reward": 1.75,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.75,
+      "rewards/format_reward": 1.0,
+      "step": 1987
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 595.875,
+      "epoch": 2.723287671232877,
+      "grad_norm": 2.4163787364959717,
+      "kl": 0.521484375,
+      "learning_rate": 9.223744292237442e-08,
+      "loss": 0.0005,
+      "reward": 1.8125,
+      "reward_std": 0.1157275140285492,
+      "rewards/accuracy_reward": 0.8125,
+      "rewards/format_reward": 1.0,
+      "step": 1988
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 747.59375,
+      "epoch": 2.7246575342465755,
+      "grad_norm": 0.9784301519393921,
+      "kl": 0.41162109375,
+      "learning_rate": 9.178082191780821e-08,
+      "loss": 0.0004,
+      "reward": 1.537500023841858,
+      "reward_std": 0.035355351865291595,
+      "rewards/accuracy_reward": 0.5375000238418579,
+      "rewards/format_reward": 1.0,
+      "step": 1989
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 498.40625,
+      "epoch": 2.7260273972602738,
+      "grad_norm": 2.205070972442627,
+      "kl": 0.48291015625,
+      "learning_rate": 9.1324200913242e-08,
+      "loss": 0.0005,
+      "reward": 1.7890625,
+      "reward_std": 0.1252168519422412,
+      "rewards/accuracy_reward": 0.7890625,
+      "rewards/format_reward": 1.0,
+      "step": 1990
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 453.03125,
+      "epoch": 2.7273972602739724,
+      "grad_norm": 0.9989210963249207,
+      "kl": 0.5478515625,
+      "learning_rate": 9.08675799086758e-08,
+      "loss": 0.0005,
+      "reward": 1.734375,
+      "reward_std": 0.04419417306780815,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/format_reward": 1.0,
+      "step": 1991
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 618.65625,
+      "epoch": 2.728767123287671,
+      "grad_norm": 3.2879040241241455,
+      "kl": 0.46435546875,
+      "learning_rate": 9.041095890410958e-08,
+      "loss": 0.0005,
+      "reward": 1.6015625,
+      "reward_std": 0.12309318175539374,
+      "rewards/accuracy_reward": 0.6015625,
+      "rewards/format_reward": 1.0,
+      "step": 1992
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 611.65625,
+      "epoch": 2.73013698630137,
+      "grad_norm": 0.014280966483056545,
+      "kl": 0.4677734375,
+      "learning_rate": 8.995433789954337e-08,
+      "loss": 0.0005,
+      "reward": 2.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 1.0,
+      "rewards/format_reward": 1.0,
+      "step": 1993
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 635.53125,
+      "epoch": 2.7315068493150685,
+      "grad_norm": 0.039996903389692307,
+      "kl": 0.478515625,
+      "learning_rate": 8.949771689497716e-08,
+      "loss": 0.0005,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.0,
+      "rewards/format_reward": 1.0,
+      "step": 1994
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 486.5625,
+      "epoch": 2.732876712328767,
+      "grad_norm": 3.7616233825683594,
+      "kl": 0.5341796875,
+      "learning_rate": 8.904109589041094e-08,
+      "loss": 0.0005,
+      "reward": 1.421875,
+      "reward_std": 0.26196980848908424,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 1.0,
+      "step": 1995
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 728.3125,
+      "epoch": 2.734246575342466,
+      "grad_norm": 1.3157697916030884,
+      "kl": 0.4169921875,
+      "learning_rate": 8.858447488584474e-08,
+      "loss": 0.0004,
+      "reward": 1.390625,
+      "reward_std": 0.23384949564933777,
+      "rewards/accuracy_reward": 0.421875,
+      "rewards/format_reward": 0.96875,
+      "step": 1996
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 777.40625,
+      "epoch": 2.7356164383561645,
+      "grad_norm": 0.822567343711853,
+      "kl": 0.40087890625,
+      "learning_rate": 8.812785388127853e-08,
+      "loss": 0.0004,
+      "reward": 2.328125,
+      "reward_std": 0.0867956355214119,
+      "rewards/accuracy_reward": 1.328125,
+      "rewards/format_reward": 1.0,
+      "step": 1997
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 615.1875,
+      "epoch": 2.736986301369863,
+      "grad_norm": 0.012059708125889301,
+      "kl": 0.46142578125,
+      "learning_rate": 8.767123287671232e-08,
+      "loss": 0.0005,
+      "reward": 1.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 0.5,
+      "rewards/format_reward": 1.0,
+      "step": 1998
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 481.78125,
+      "epoch": 2.7383561643835614,
+      "grad_norm": 13.566747665405273,
+      "kl": 0.51513671875,
+      "learning_rate": 8.72146118721461e-08,
+      "loss": 0.0005,
+      "reward": 1.375,
+      "reward_std": 0.2177756354212761,
+      "rewards/accuracy_reward": 0.40625,
+      "rewards/format_reward": 0.96875,
+      "step": 1999
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 475.71875,
+      "epoch": 2.73972602739726,
+      "grad_norm": 2.947053909301758,
+      "kl": 0.5380859375,
+      "learning_rate": 8.67579908675799e-08,
+      "loss": 0.0005,
+      "reward": 1.7447916567325592,
+      "reward_std": 0.14836202003061771,
+      "rewards/accuracy_reward": 0.7447916567325592,
+      "rewards/format_reward": 1.0,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 2190,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}