End of training

Browse files

Files changed (8) hide show

README.md +22 -2
all_results.json +20 -20
eval_results.json +8 -8
generation_config.json +0 -1
predict_results.json +7 -7
runs/Mar27_17-47-30_abe32346ea06/events.out.tfevents.1711566880.abe32346ea06.4718.1 +3 -0
train_results.json +6 -6
trainer_state.json +118 -156

README.md CHANGED Viewed

@@ -1,11 +1,27 @@
 ---
 license: bsd-3-clause
 base_model: Salesforce/codet5p-220m
 tags:
 - generated_from_trainer
 model-index:
 - name: t5_codet5p_220m_tuned
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -13,7 +29,11 @@ should probably proofread and complete it, then remove this comment. -->
 # t5_codet5p_220m_tuned
-This model is a fine-tuned version of [Salesforce/codet5p-220m](https://huggingface.co/Salesforce/codet5p-220m) on an unknown dataset.
 ## Model description

 ---
+language:
+- en
 license: bsd-3-clause
 base_model: Salesforce/codet5p-220m
 tags:
 - generated_from_trainer
+datasets:
+- juraj-juraj/python-docstring-human-gpt-generated-mix
+metrics:
+- bleu
 model-index:
 - name: t5_codet5p_220m_tuned
+  results:
+  - task:
+      name: Translation
+      type: translation
+    dataset:
+      name: juraj-juraj/python-docstring-human-gpt-generated-mix
+      type: juraj-juraj/python-docstring-human-gpt-generated-mix
+    metrics:
+    - name: Bleu
+      type: bleu
+      value: 16.1093
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # t5_codet5p_220m_tuned
+This model is a fine-tuned version of [Salesforce/codet5p-220m](https://huggingface.co/Salesforce/codet5p-220m) on the juraj-juraj/python-docstring-human-gpt-generated-mix dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.9219
+- Bleu: 16.1093
+- Gen Len: 78.177
 ## Model description

all_results.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
-    "epoch": 2.0,
-    "eval_bleu": 19.7909,
-    "eval_gen_len": 54.518,
-    "eval_loss": 1.6466972827911377,
-    "eval_runtime": 437.9521,
-    "eval_samples": 1000,
-    "eval_samples_per_second": 2.283,
-    "eval_steps_per_second": 0.571,
-    "predict_bleu": 17.8409,
-    "predict_gen_len": 62.072,
-    "predict_loss": 1.6726146936416626,
-    "predict_runtime": 483.4666,
-    "predict_samples": 1000,
-    "predict_samples_per_second": 2.068,
-    "predict_steps_per_second": 0.517,
-    "train_loss": 1.6027834024951335,
-    "train_runtime": 7360.333,
-    "train_samples": 27895,
-    "train_samples_per_second": 7.58,
-    "train_steps_per_second": 2.527
 }

 {
+    "epoch": 4.0,
+    "eval_bleu": 16.1093,
+    "eval_gen_len": 78.177,
+    "eval_loss": 1.9219088554382324,
+    "eval_runtime": 2713.4764,
+    "eval_samples": 7000,
+    "eval_samples_per_second": 2.58,
+    "eval_steps_per_second": 0.43,
+    "predict_bleu": 15.6979,
+    "predict_gen_len": 76.0034,
+    "predict_loss": 1.9471611976623535,
+    "predict_runtime": 3162.5874,
+    "predict_samples": 7895,
+    "predict_samples_per_second": 2.496,
+    "predict_steps_per_second": 0.416,
+    "train_loss": 1.0640255470939504,
+    "train_runtime": 2426.9638,
+    "train_samples": 10000,
+    "train_samples_per_second": 16.481,
+    "train_steps_per_second": 5.495
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 2.0,
-    "eval_bleu": 19.7909,
-    "eval_gen_len": 54.518,
-    "eval_loss": 1.6466972827911377,
-    "eval_runtime": 437.9521,
-    "eval_samples": 1000,
-    "eval_samples_per_second": 2.283,
-    "eval_steps_per_second": 0.571
 }

 {
+    "epoch": 4.0,
+    "eval_bleu": 16.1093,
+    "eval_gen_len": 78.177,
+    "eval_loss": 1.9219088554382324,
+    "eval_runtime": 2713.4764,
+    "eval_samples": 7000,
+    "eval_samples_per_second": 2.58,
+    "eval_steps_per_second": 0.43
 }

generation_config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "_from_model_config": true,
   "bos_token_id": 1,
   "decoder_start_token_id": 0,
   "eos_token_id": 2,

 {
   "bos_token_id": 1,
   "decoder_start_token_id": 0,
   "eos_token_id": 2,

predict_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "predict_bleu": 17.8409,
-    "predict_gen_len": 62.072,
-    "predict_loss": 1.6726146936416626,
-    "predict_runtime": 483.4666,
-    "predict_samples": 1000,
-    "predict_samples_per_second": 2.068,
-    "predict_steps_per_second": 0.517
 }

 {
+    "predict_bleu": 15.6979,
+    "predict_gen_len": 76.0034,
+    "predict_loss": 1.9471611976623535,
+    "predict_runtime": 3162.5874,
+    "predict_samples": 7895,
+    "predict_samples_per_second": 2.496,
+    "predict_steps_per_second": 0.416
 }

runs/Mar27_17-47-30_abe32346ea06/events.out.tfevents.1711566880.abe32346ea06.4718.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed9a3ce996050fa0b7096ab5f66b99c0783b592f79398500f0a55e12417c1453
+size 458

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.0,
-    "train_loss": 1.6027834024951335,
-    "train_runtime": 7360.333,
-    "train_samples": 27895,
-    "train_samples_per_second": 7.58,
-    "train_steps_per_second": 2.527
 }

 {
+    "epoch": 4.0,
+    "train_loss": 1.0640255470939504,
+    "train_runtime": 2426.9638,
+    "train_samples": 10000,
+    "train_samples_per_second": 16.481,
+    "train_steps_per_second": 5.495
 }

trainer_state.json CHANGED Viewed

@@ -1,250 +1,212 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 18598,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.05,
-      "learning_rate": 9.731153887514787e-06,
-      "loss": 1.8656,
       "step": 500
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 9.462307775029573e-06,
-      "loss": 1.8079,
       "step": 1000
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 9.193461662544361e-06,
-      "loss": 1.7757,
       "step": 1500
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 8.924615550059147e-06,
-      "loss": 1.7549,
       "step": 2000
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 8.655769437573934e-06,
-      "loss": 1.7183,
       "step": 2500
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 8.38692332508872e-06,
-      "loss": 1.7325,
       "step": 3000
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 8.118077212603506e-06,
-      "loss": 1.7002,
       "step": 3500
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 7.849231100118292e-06,
-      "loss": 1.7217,
       "step": 4000
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 7.580384987633079e-06,
-      "loss": 1.7195,
       "step": 4500
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 7.311538875147866e-06,
-      "loss": 1.6911,
       "step": 5000
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 7.042692762662653e-06,
-      "loss": 1.6482,
       "step": 5500
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 6.773846650177439e-06,
-      "loss": 1.6911,
       "step": 6000
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 6.505000537692225e-06,
-      "loss": 1.6361,
       "step": 6500
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 6.236154425207011e-06,
-      "loss": 1.6181,
       "step": 7000
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 5.967308312721799e-06,
-      "loss": 1.6496,
       "step": 7500
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 5.6984622002365855e-06,
-      "loss": 1.6331,
       "step": 8000
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 5.429616087751372e-06,
-      "loss": 1.6057,
       "step": 8500
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 5.160769975266158e-06,
-      "loss": 1.6225,
       "step": 9000
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 4.891923862780945e-06,
-      "loss": 1.5955,
       "step": 9500
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 4.623077750295731e-06,
-      "loss": 1.528,
       "step": 10000
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 4.354231637810517e-06,
-      "loss": 1.5348,
       "step": 10500
     },
     {
-      "epoch": 1.18,
-      "learning_rate": 4.085385525325304e-06,
-      "loss": 1.5142,
       "step": 11000
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 3.816539412840091e-06,
-      "loss": 1.4924,
       "step": 11500
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 3.547693300354877e-06,
-      "loss": 1.5045,
       "step": 12000
     },
     {
-      "epoch": 1.34,
-      "learning_rate": 3.2788471878696636e-06,
-      "loss": 1.4959,
       "step": 12500
     },
     {
-      "epoch": 1.4,
-      "learning_rate": 3.01000107538445e-06,
-      "loss": 1.5248,
       "step": 13000
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 2.741154962899237e-06,
-      "loss": 1.4984,
-      "step": 13500
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 2.4723088504140235e-06,
-      "loss": 1.5079,
-      "step": 14000
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 2.2034627379288097e-06,
-      "loss": 1.5105,
-      "step": 14500
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 1.9346166254435964e-06,
-      "loss": 1.5058,
-      "step": 15000
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 1.6657705129583828e-06,
-      "loss": 1.4941,
-      "step": 15500
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 1.3969244004731695e-06,
-      "loss": 1.5275,
-      "step": 16000
-    },
-    {
-      "epoch": 1.77,
-      "learning_rate": 1.1280782879879559e-06,
-      "loss": 1.5091,
-      "step": 16500
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 8.592321755027423e-07,
-      "loss": 1.4995,
-      "step": 17000
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 5.903860630175289e-07,
-      "loss": 1.5139,
-      "step": 17500
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 3.215399505323153e-07,
-      "loss": 1.4951,
-      "step": 18000
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 5.2693838047101844e-08,
-      "loss": 1.478,
-      "step": 18500
-    },
-    {
-      "epoch": 2.0,
-      "step": 18598,
-      "total_flos": 2.094047285686272e+16,
-      "train_loss": 1.6027834024951335,
-      "train_runtime": 7360.333,
-      "train_samples_per_second": 7.58,
-      "train_steps_per_second": 2.527
     }
   ],
   "logging_steps": 500,
-  "max_steps": 18598,
-  "num_train_epochs": 2,
   "save_steps": 4000,
-  "total_flos": 2.094047285686272e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 500,
+  "global_step": 13336,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.15,
+      "grad_norm": 5.067293643951416,
+      "learning_rate": 9.625074985003e-06,
+      "loss": 1.3508,
       "step": 500
     },
     {
+      "epoch": 0.3,
+      "grad_norm": 6.026179313659668,
+      "learning_rate": 9.250149970005999e-06,
+      "loss": 1.3055,
       "step": 1000
     },
     {
+      "epoch": 0.45,
+      "grad_norm": 6.276480674743652,
+      "learning_rate": 8.875224955008999e-06,
+      "loss": 1.2235,
       "step": 1500
     },
     {
+      "epoch": 0.6,
+      "grad_norm": 5.172286510467529,
+      "learning_rate": 8.500299940011997e-06,
+      "loss": 1.2637,
       "step": 2000
     },
     {
+      "epoch": 0.75,
+      "grad_norm": 5.915102958679199,
+      "learning_rate": 8.125374925014997e-06,
+      "loss": 1.2232,
       "step": 2500
     },
     {
+      "epoch": 0.9,
+      "grad_norm": 5.094091415405273,
+      "learning_rate": 7.750449910017997e-06,
+      "loss": 1.1814,
       "step": 3000
     },
     {
+      "epoch": 1.05,
+      "grad_norm": 4.9657793045043945,
+      "learning_rate": 7.375524895020996e-06,
+      "loss": 1.1449,
       "step": 3500
     },
     {
+      "epoch": 1.2,
+      "grad_norm": 5.007996082305908,
+      "learning_rate": 7.000599880023996e-06,
+      "loss": 1.0923,
       "step": 4000
     },
     {
+      "epoch": 1.35,
+      "grad_norm": 5.494340896606445,
+      "learning_rate": 6.6256748650269955e-06,
+      "loss": 1.0908,
       "step": 4500
     },
     {
+      "epoch": 1.5,
+      "grad_norm": 4.9410271644592285,
+      "learning_rate": 6.250749850029995e-06,
+      "loss": 1.0804,
       "step": 5000
     },
     {
+      "epoch": 1.65,
+      "grad_norm": 5.13407564163208,
+      "learning_rate": 5.875824835032994e-06,
+      "loss": 1.0556,
       "step": 5500
     },
     {
+      "epoch": 1.8,
+      "grad_norm": 4.397137641906738,
+      "learning_rate": 5.500899820035993e-06,
+      "loss": 1.0886,
       "step": 6000
     },
     {
+      "epoch": 1.95,
+      "grad_norm": 5.924018383026123,
+      "learning_rate": 5.125974805038992e-06,
+      "loss": 1.0694,
       "step": 6500
     },
     {
+      "epoch": 2.1,
+      "grad_norm": 3.952533006668091,
+      "learning_rate": 4.751049790041992e-06,
+      "loss": 1.0158,
       "step": 7000
     },
     {
+      "epoch": 2.25,
+      "grad_norm": 6.275745868682861,
+      "learning_rate": 4.376124775044991e-06,
+      "loss": 1.0082,
       "step": 7500
     },
     {
+      "epoch": 2.4,
+      "grad_norm": 7.6413116455078125,
+      "learning_rate": 4.001199760047991e-06,
+      "loss": 0.9991,
       "step": 8000
     },
     {
+      "epoch": 2.55,
+      "grad_norm": 5.2266387939453125,
+      "learning_rate": 3.6262747450509898e-06,
+      "loss": 0.976,
       "step": 8500
     },
     {
+      "epoch": 2.7,
+      "grad_norm": 4.824028968811035,
+      "learning_rate": 3.2513497300539893e-06,
+      "loss": 0.9826,
       "step": 9000
     },
     {
+      "epoch": 2.85,
+      "grad_norm": 7.193837642669678,
+      "learning_rate": 2.876424715056989e-06,
+      "loss": 0.9731,
       "step": 9500
     },
     {
+      "epoch": 3.0,
+      "grad_norm": 6.571595191955566,
+      "learning_rate": 2.5014997000599884e-06,
+      "loss": 1.0054,
       "step": 10000
     },
     {
+      "epoch": 3.15,
+      "grad_norm": 4.61974573135376,
+      "learning_rate": 2.1265746850629876e-06,
+      "loss": 0.9583,
       "step": 10500
     },
     {
+      "epoch": 3.3,
+      "grad_norm": 5.337657451629639,
+      "learning_rate": 1.751649670065987e-06,
+      "loss": 0.9296,
       "step": 11000
     },
     {
+      "epoch": 3.45,
+      "grad_norm": 5.575818061828613,
+      "learning_rate": 1.3767246550689864e-06,
+      "loss": 0.9576,
       "step": 11500
     },
     {
+      "epoch": 3.6,
+      "grad_norm": 6.3436431884765625,
+      "learning_rate": 1.0017996400719856e-06,
+      "loss": 0.9241,
       "step": 12000
     },
     {
+      "epoch": 3.75,
+      "grad_norm": 3.276711940765381,
+      "learning_rate": 6.26874625074985e-07,
+      "loss": 0.9307,
       "step": 12500
     },
     {
+      "epoch": 3.9,
+      "grad_norm": 5.67604923248291,
+      "learning_rate": 2.519496100779844e-07,
+      "loss": 0.9255,
       "step": 13000
     },
     {
+      "epoch": 4.0,
+      "step": 13336,
+      "total_flos": 1.66894187000832e+16,
+      "train_loss": 1.0640255470939504,
+      "train_runtime": 2426.9638,
+      "train_samples_per_second": 16.481,
+      "train_steps_per_second": 5.495
     }
   ],
   "logging_steps": 500,
+  "max_steps": 13336,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 4000,
+  "total_flos": 1.66894187000832e+16,
+  "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null
 }