{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.704225352112676,
  "eval_steps": 20,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.07042253521126761,
      "grad_norm": 0.31416571140289307,
      "learning_rate": 9.77699530516432e-05,
      "loss": 0.448,
      "step": 20
    },
    {
      "epoch": 0.07042253521126761,
      "eval_valid_loss": 0.5274125933647156,
      "eval_valid_runtime": 0.7445,
      "eval_valid_samples_per_second": 25.521,
      "eval_valid_steps_per_second": 4.03,
      "step": 20
    },
    {
      "epoch": 0.07042253521126761,
      "eval_test_loss": 0.42723479866981506,
      "eval_test_runtime": 16.8015,
      "eval_test_samples_per_second": 26.843,
      "eval_test_steps_per_second": 3.393,
      "step": 20
    },
    {
      "epoch": 0.14084507042253522,
      "grad_norm": 0.3766593933105469,
      "learning_rate": 9.542253521126761e-05,
      "loss": 0.4043,
      "step": 40
    },
    {
      "epoch": 0.14084507042253522,
      "eval_valid_loss": 0.5155202746391296,
      "eval_valid_runtime": 0.7165,
      "eval_valid_samples_per_second": 26.518,
      "eval_valid_steps_per_second": 4.187,
      "step": 40
    },
    {
      "epoch": 0.14084507042253522,
      "eval_test_loss": 0.4091918468475342,
      "eval_test_runtime": 16.8263,
      "eval_test_samples_per_second": 26.803,
      "eval_test_steps_per_second": 3.388,
      "step": 40
    },
    {
      "epoch": 0.2112676056338028,
      "grad_norm": 0.3457407057285309,
      "learning_rate": 9.307511737089203e-05,
      "loss": 0.404,
      "step": 60
    },
    {
      "epoch": 0.2112676056338028,
      "eval_valid_loss": 0.5010272860527039,
      "eval_valid_runtime": 0.7193,
      "eval_valid_samples_per_second": 26.414,
      "eval_valid_steps_per_second": 4.171,
      "step": 60
    },
    {
      "epoch": 0.2112676056338028,
      "eval_test_loss": 0.39967381954193115,
      "eval_test_runtime": 16.8404,
      "eval_test_samples_per_second": 26.781,
      "eval_test_steps_per_second": 3.385,
      "step": 60
    },
    {
      "epoch": 0.28169014084507044,
      "grad_norm": 0.33844780921936035,
      "learning_rate": 9.072769953051644e-05,
      "loss": 0.3905,
      "step": 80
    },
    {
      "epoch": 0.28169014084507044,
      "eval_valid_loss": 0.4998387396335602,
      "eval_valid_runtime": 0.7175,
      "eval_valid_samples_per_second": 26.479,
      "eval_valid_steps_per_second": 4.181,
      "step": 80
    },
    {
      "epoch": 0.28169014084507044,
      "eval_test_loss": 0.3927554786205292,
      "eval_test_runtime": 16.8408,
      "eval_test_samples_per_second": 26.78,
      "eval_test_steps_per_second": 3.385,
      "step": 80
    },
    {
      "epoch": 0.352112676056338,
      "grad_norm": 0.29894593358039856,
      "learning_rate": 8.838028169014085e-05,
      "loss": 0.4079,
      "step": 100
    },
    {
      "epoch": 0.352112676056338,
      "eval_valid_loss": 0.4978034794330597,
      "eval_valid_runtime": 0.7182,
      "eval_valid_samples_per_second": 26.455,
      "eval_valid_steps_per_second": 4.177,
      "step": 100
    },
    {
      "epoch": 0.352112676056338,
      "eval_test_loss": 0.3876754641532898,
      "eval_test_runtime": 16.8615,
      "eval_test_samples_per_second": 26.747,
      "eval_test_steps_per_second": 3.38,
      "step": 100
    },
    {
      "epoch": 0.4225352112676056,
      "grad_norm": 0.3565836250782013,
      "learning_rate": 8.603286384976527e-05,
      "loss": 0.3738,
      "step": 120
    },
    {
      "epoch": 0.4225352112676056,
      "eval_valid_loss": 0.49142685532569885,
      "eval_valid_runtime": 0.7189,
      "eval_valid_samples_per_second": 26.43,
      "eval_valid_steps_per_second": 4.173,
      "step": 120
    },
    {
      "epoch": 0.4225352112676056,
      "eval_test_loss": 0.38244372606277466,
      "eval_test_runtime": 16.828,
      "eval_test_samples_per_second": 26.8,
      "eval_test_steps_per_second": 3.387,
      "step": 120
    },
    {
      "epoch": 0.49295774647887325,
      "grad_norm": 0.33459943532943726,
      "learning_rate": 8.368544600938968e-05,
      "loss": 0.3635,
      "step": 140
    },
    {
      "epoch": 0.49295774647887325,
      "eval_valid_loss": 0.4866355061531067,
      "eval_valid_runtime": 0.7164,
      "eval_valid_samples_per_second": 26.521,
      "eval_valid_steps_per_second": 4.188,
      "step": 140
    },
    {
      "epoch": 0.49295774647887325,
      "eval_test_loss": 0.38000014424324036,
      "eval_test_runtime": 16.8323,
      "eval_test_samples_per_second": 26.794,
      "eval_test_steps_per_second": 3.386,
      "step": 140
    },
    {
      "epoch": 0.5633802816901409,
      "grad_norm": 0.3027805685997009,
      "learning_rate": 8.133802816901409e-05,
      "loss": 0.3719,
      "step": 160
    },
    {
      "epoch": 0.5633802816901409,
      "eval_valid_loss": 0.48309779167175293,
      "eval_valid_runtime": 0.7177,
      "eval_valid_samples_per_second": 26.472,
      "eval_valid_steps_per_second": 4.18,
      "step": 160
    },
    {
      "epoch": 0.5633802816901409,
      "eval_test_loss": 0.3782743215560913,
      "eval_test_runtime": 16.8325,
      "eval_test_samples_per_second": 26.793,
      "eval_test_steps_per_second": 3.386,
      "step": 160
    },
    {
      "epoch": 0.6338028169014085,
      "grad_norm": 0.39031413197517395,
      "learning_rate": 7.89906103286385e-05,
      "loss": 0.3785,
      "step": 180
    },
    {
      "epoch": 0.6338028169014085,
      "eval_valid_loss": 0.4805913269519806,
      "eval_valid_runtime": 0.718,
      "eval_valid_samples_per_second": 26.461,
      "eval_valid_steps_per_second": 4.178,
      "step": 180
    },
    {
      "epoch": 0.6338028169014085,
      "eval_test_loss": 0.375211626291275,
      "eval_test_runtime": 16.8331,
      "eval_test_samples_per_second": 26.792,
      "eval_test_steps_per_second": 3.386,
      "step": 180
    },
    {
      "epoch": 0.704225352112676,
      "grad_norm": 0.3750382363796234,
      "learning_rate": 7.664319248826291e-05,
      "loss": 0.3607,
      "step": 200
    },
    {
      "epoch": 0.704225352112676,
      "eval_valid_loss": 0.478224515914917,
      "eval_valid_runtime": 0.7176,
      "eval_valid_samples_per_second": 26.477,
      "eval_valid_steps_per_second": 4.181,
      "step": 200
    },
    {
      "epoch": 0.704225352112676,
      "eval_test_loss": 0.3740982115268707,
      "eval_test_runtime": 16.8313,
      "eval_test_samples_per_second": 26.795,
      "eval_test_steps_per_second": 3.387,
      "step": 200
    }
  ],
  "logging_steps": 20,
  "max_steps": 852,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.64884088471552e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}