{
  "best_metric": 0.6521739130434783,
  "best_model_checkpoint": "swiftformer-xs-DMAE\\checkpoint-63",
  "epoch": 34.285714285714285,
  "eval_steps": 500,
  "global_step": 120,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.86,
      "eval_accuracy": 0.32608695652173914,
      "eval_loss": 1.386176347732544,
      "eval_runtime": 0.6912,
      "eval_samples_per_second": 66.555,
      "eval_steps_per_second": 4.341,
      "step": 3
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.4782608695652174,
      "eval_loss": 1.3856920003890991,
      "eval_runtime": 0.6031,
      "eval_samples_per_second": 76.266,
      "eval_steps_per_second": 4.974,
      "step": 7
    },
    {
      "epoch": 2.86,
      "learning_rate": 1.3983050847457627e-05,
      "loss": 1.3859,
      "step": 10
    },
    {
      "epoch": 2.86,
      "eval_accuracy": 0.5434782608695652,
      "eval_loss": 1.3849265575408936,
      "eval_runtime": 0.6417,
      "eval_samples_per_second": 71.69,
      "eval_steps_per_second": 4.675,
      "step": 10
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.383913516998291,
      "eval_runtime": 0.6412,
      "eval_samples_per_second": 71.74,
      "eval_steps_per_second": 4.679,
      "step": 14
    },
    {
      "epoch": 4.86,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.3834460973739624,
      "eval_runtime": 0.5931,
      "eval_samples_per_second": 77.552,
      "eval_steps_per_second": 5.058,
      "step": 17
    },
    {
      "epoch": 5.71,
      "learning_rate": 1.2711864406779661e-05,
      "loss": 1.3844,
      "step": 20
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.3825335502624512,
      "eval_runtime": 0.6087,
      "eval_samples_per_second": 75.569,
      "eval_steps_per_second": 4.928,
      "step": 21
    },
    {
      "epoch": 6.86,
      "eval_accuracy": 0.5869565217391305,
      "eval_loss": 1.3820101022720337,
      "eval_runtime": 0.6081,
      "eval_samples_per_second": 75.639,
      "eval_steps_per_second": 4.933,
      "step": 24
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.5869565217391305,
      "eval_loss": 1.3811701536178589,
      "eval_runtime": 0.6908,
      "eval_samples_per_second": 66.594,
      "eval_steps_per_second": 4.343,
      "step": 28
    },
    {
      "epoch": 8.57,
      "learning_rate": 1.1440677966101694e-05,
      "loss": 1.3831,
      "step": 30
    },
    {
      "epoch": 8.86,
      "eval_accuracy": 0.6304347826086957,
      "eval_loss": 1.3803642988204956,
      "eval_runtime": 0.6012,
      "eval_samples_per_second": 76.518,
      "eval_steps_per_second": 4.99,
      "step": 31
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.3793443441390991,
      "eval_runtime": 0.6652,
      "eval_samples_per_second": 69.156,
      "eval_steps_per_second": 4.51,
      "step": 35
    },
    {
      "epoch": 10.86,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.3787044286727905,
      "eval_runtime": 0.6567,
      "eval_samples_per_second": 70.052,
      "eval_steps_per_second": 4.569,
      "step": 38
    },
    {
      "epoch": 11.43,
      "learning_rate": 1.016949152542373e-05,
      "loss": 1.3815,
      "step": 40
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.377792477607727,
      "eval_runtime": 0.5967,
      "eval_samples_per_second": 77.096,
      "eval_steps_per_second": 5.028,
      "step": 42
    },
    {
      "epoch": 12.86,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.3767056465148926,
      "eval_runtime": 0.6238,
      "eval_samples_per_second": 73.738,
      "eval_steps_per_second": 4.809,
      "step": 45
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.375701904296875,
      "eval_runtime": 0.6527,
      "eval_samples_per_second": 70.481,
      "eval_steps_per_second": 4.597,
      "step": 49
    },
    {
      "epoch": 14.29,
      "learning_rate": 8.898305084745763e-06,
      "loss": 1.3794,
      "step": 50
    },
    {
      "epoch": 14.86,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.3748270273208618,
      "eval_runtime": 0.6441,
      "eval_samples_per_second": 71.412,
      "eval_steps_per_second": 4.657,
      "step": 52
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.6304347826086957,
      "eval_loss": 1.3738356828689575,
      "eval_runtime": 0.6412,
      "eval_samples_per_second": 71.742,
      "eval_steps_per_second": 4.679,
      "step": 56
    },
    {
      "epoch": 16.86,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.3729946613311768,
      "eval_runtime": 0.6357,
      "eval_samples_per_second": 72.367,
      "eval_steps_per_second": 4.72,
      "step": 59
    },
    {
      "epoch": 17.14,
      "learning_rate": 7.627118644067796e-06,
      "loss": 1.3766,
      "step": 60
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.6521739130434783,
      "eval_loss": 1.3718501329421997,
      "eval_runtime": 0.6097,
      "eval_samples_per_second": 75.453,
      "eval_steps_per_second": 4.921,
      "step": 63
    },
    {
      "epoch": 18.86,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.3708202838897705,
      "eval_runtime": 0.6567,
      "eval_samples_per_second": 70.052,
      "eval_steps_per_second": 4.569,
      "step": 66
    },
    {
      "epoch": 20.0,
      "learning_rate": 6.3559322033898304e-06,
      "loss": 1.3748,
      "step": 70
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.6304347826086957,
      "eval_loss": 1.369877815246582,
      "eval_runtime": 0.6577,
      "eval_samples_per_second": 69.945,
      "eval_steps_per_second": 4.562,
      "step": 70
    },
    {
      "epoch": 20.86,
      "eval_accuracy": 0.6304347826086957,
      "eval_loss": 1.3687235116958618,
      "eval_runtime": 0.6742,
      "eval_samples_per_second": 68.23,
      "eval_steps_per_second": 4.45,
      "step": 73
    },
    {
      "epoch": 22.0,
      "eval_accuracy": 0.5869565217391305,
      "eval_loss": 1.3677372932434082,
      "eval_runtime": 0.6257,
      "eval_samples_per_second": 73.523,
      "eval_steps_per_second": 4.795,
      "step": 77
    },
    {
      "epoch": 22.86,
      "learning_rate": 5.084745762711865e-06,
      "loss": 1.372,
      "step": 80
    },
    {
      "epoch": 22.86,
      "eval_accuracy": 0.6304347826086957,
      "eval_loss": 1.3664358854293823,
      "eval_runtime": 0.6397,
      "eval_samples_per_second": 71.912,
      "eval_steps_per_second": 4.69,
      "step": 80
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.5869565217391305,
      "eval_loss": 1.3654985427856445,
      "eval_runtime": 0.6582,
      "eval_samples_per_second": 69.892,
      "eval_steps_per_second": 4.558,
      "step": 84
    },
    {
      "epoch": 24.86,
      "eval_accuracy": 0.6304347826086957,
      "eval_loss": 1.364823579788208,
      "eval_runtime": 0.6532,
      "eval_samples_per_second": 70.424,
      "eval_steps_per_second": 4.593,
      "step": 87
    },
    {
      "epoch": 25.71,
      "learning_rate": 3.813559322033898e-06,
      "loss": 1.3693,
      "step": 90
    },
    {
      "epoch": 26.0,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.3639944791793823,
      "eval_runtime": 0.6257,
      "eval_samples_per_second": 73.522,
      "eval_steps_per_second": 4.795,
      "step": 91
    },
    {
      "epoch": 26.86,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.3637075424194336,
      "eval_runtime": 0.6681,
      "eval_samples_per_second": 68.847,
      "eval_steps_per_second": 4.49,
      "step": 94
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.6304347826086957,
      "eval_loss": 1.3627293109893799,
      "eval_runtime": 0.6542,
      "eval_samples_per_second": 70.316,
      "eval_steps_per_second": 4.586,
      "step": 98
    },
    {
      "epoch": 28.57,
      "learning_rate": 2.5423728813559323e-06,
      "loss": 1.3685,
      "step": 100
    },
    {
      "epoch": 28.86,
      "eval_accuracy": 0.5869565217391305,
      "eval_loss": 1.3624422550201416,
      "eval_runtime": 0.616,
      "eval_samples_per_second": 74.674,
      "eval_steps_per_second": 4.87,
      "step": 101
    },
    {
      "epoch": 30.0,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.362162709236145,
      "eval_runtime": 0.6333,
      "eval_samples_per_second": 72.635,
      "eval_steps_per_second": 4.737,
      "step": 105
    },
    {
      "epoch": 30.86,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.3610258102416992,
      "eval_runtime": 0.6252,
      "eval_samples_per_second": 73.574,
      "eval_steps_per_second": 4.798,
      "step": 108
    },
    {
      "epoch": 31.43,
      "learning_rate": 1.2711864406779662e-06,
      "loss": 1.3675,
      "step": 110
    },
    {
      "epoch": 32.0,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.3605388402938843,
      "eval_runtime": 0.6262,
      "eval_samples_per_second": 73.462,
      "eval_steps_per_second": 4.791,
      "step": 112
    },
    {
      "epoch": 32.86,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.3605269193649292,
      "eval_runtime": 0.6382,
      "eval_samples_per_second": 72.082,
      "eval_steps_per_second": 4.701,
      "step": 115
    },
    {
      "epoch": 34.0,
      "eval_accuracy": 0.5869565217391305,
      "eval_loss": 1.3611313104629517,
      "eval_runtime": 0.6139,
      "eval_samples_per_second": 74.93,
      "eval_steps_per_second": 4.887,
      "step": 119
    },
    {
      "epoch": 34.29,
      "learning_rate": 0.0,
      "loss": 1.3663,
      "step": 120
    },
    {
      "epoch": 34.29,
      "eval_accuracy": 0.6086956521739131,
      "eval_loss": 1.3607913255691528,
      "eval_runtime": 0.6386,
      "eval_samples_per_second": 72.027,
      "eval_steps_per_second": 4.697,
      "step": 120
    },
    {
      "epoch": 34.29,
      "step": 120,
      "total_flos": 2.0027429927092224e+16,
      "train_loss": 1.3757717927296957,
      "train_runtime": 134.1596,
      "train_samples_per_second": 63.506,
      "train_steps_per_second": 0.894
    }
  ],
  "logging_steps": 10,
  "max_steps": 120,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 40,
  "save_steps": 500,
  "total_flos": 2.0027429927092224e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}