Upload 11 files

Browse files

Files changed (7) hide show

all_results.json +12 -12
eval_results.json +7 -7
model.safetensors +1 -1
tokenizer_config.json +0 -7
train_results.json +7 -7
trainer_state.json +72 -352
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.9015177065767285,
-    "eval_loss": 0.2585154175758362,
-    "eval_runtime": 1.5991,
     "eval_samples": 2965,
-    "eval_samples_per_second": 1854.212,
-    "eval_steps_per_second": 232.011,
-    "num_input_tokens_seen": 15175680,
-    "total_flos": 1952467720519680.0,
-    "train_loss": 0.1272777229185529,
-    "train_runtime": 445.3252,
     "train_samples": 11856,
-    "train_samples_per_second": 266.232,
-    "train_steps_per_second": 33.279
 }

 {
+    "epoch": 3.0,
+    "eval_accuracy": 0.92141652613828,
+    "eval_loss": 0.21923576295375824,
+    "eval_runtime": 1.7241,
     "eval_samples": 2965,
+    "eval_samples_per_second": 1719.735,
+    "eval_steps_per_second": 215.184,
+    "num_input_tokens_seen": 4552704,
+    "total_flos": 585740316155904.0,
+    "train_loss": 0.17994267544765705,
+    "train_runtime": 134.4715,
     "train_samples": 11856,
+    "train_samples_per_second": 264.502,
+    "train_steps_per_second": 33.063
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.9015177065767285,
-    "eval_loss": 0.2585154175758362,
-    "eval_runtime": 1.5991,
     "eval_samples": 2965,
-    "eval_samples_per_second": 1854.212,
-    "eval_steps_per_second": 232.011,
-    "num_input_tokens_seen": 15175680
 }

 {
+    "epoch": 3.0,
+    "eval_accuracy": 0.92141652613828,
+    "eval_loss": 0.21923576295375824,
+    "eval_runtime": 1.7241,
     "eval_samples": 2965,
+    "eval_samples_per_second": 1719.735,
+    "eval_steps_per_second": 215.184,
+    "num_input_tokens_seen": 4552704
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4058cab6a49e456434b0ed21f33d32bde158795e7e8c36347ffb94bd3c7c06dd
 size 470641664

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6255fcbeca3c18b03cc8d754bfb51fd5a1e00252a433f6637be8e3d7d8199b8
 size 470641664

tokenizer_config.json CHANGED Viewed

@@ -47,17 +47,10 @@
   "eos_token": "</s>",
   "extra_special_tokens": {},
   "mask_token": "<mask>",
-  "max_length": 512,
   "model_max_length": 512,
-  "pad_to_multiple_of": null,
   "pad_token": "<pad>",
-  "pad_token_type_id": 0,
-  "padding_side": "right",
   "sep_token": "</s>",
   "sp_model_kwargs": {},
-  "stride": 0,
   "tokenizer_class": "XLMRobertaTokenizer",
-  "truncation_side": "right",
-  "truncation_strategy": "longest_first",
   "unk_token": "<unk>"
 }

   "eos_token": "</s>",
   "extra_special_tokens": {},
   "mask_token": "<mask>",
   "model_max_length": 512,
   "pad_token": "<pad>",
   "sep_token": "</s>",
   "sp_model_kwargs": {},
   "tokenizer_class": "XLMRobertaTokenizer",
   "unk_token": "<unk>"
 }

train_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 10.0,
-    "num_input_tokens_seen": 15175680,
-    "total_flos": 1952467720519680.0,
-    "train_loss": 0.1272777229185529,
-    "train_runtime": 445.3252,
     "train_samples": 11856,
-    "train_samples_per_second": 266.232,
-    "train_steps_per_second": 33.279
 }

 {
+    "epoch": 3.0,
+    "num_input_tokens_seen": 4552704,
+    "total_flos": 585740316155904.0,
+    "train_loss": 0.17994267544765705,
+    "train_runtime": 134.4715,
     "train_samples": 11856,
+    "train_samples_per_second": 264.502,
+    "train_steps_per_second": 33.063
 }

trainer_state.json CHANGED Viewed

@@ -1,419 +1,139 @@
 {
-  "best_global_step": 1482,
-  "best_metric": 0.2585154175758362,
-  "best_model_checkpoint": "multilingual-e5-small-aligned-v2-pii-detector/checkpoint-1482",
-  "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 14820,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.33738191632928477,
-      "grad_norm": 2.627490997314453,
-      "learning_rate": 4.8316464237516873e-05,
-      "loss": 0.3028,
       "num_input_tokens_seen": 512000,
       "step": 500,
-      "train_runtime": 13.9553,
-      "train_tokens_per_second": 36688.687
     },
     {
       "epoch": 0.6747638326585695,
-      "grad_norm": 0.09764809906482697,
-      "learning_rate": 4.662955465587045e-05,
-      "loss": 0.238,
       "num_input_tokens_seen": 1024000,
       "step": 1000,
-      "train_runtime": 27.6858,
-      "train_tokens_per_second": 36986.469
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.9015177065767285,
-      "eval_loss": 0.2585154175758362,
-      "eval_runtime": 1.648,
-      "eval_samples_per_second": 1799.16,
-      "eval_steps_per_second": 225.122,
       "num_input_tokens_seen": 1517568,
       "step": 1482
     },
     {
       "epoch": 1.0121457489878543,
-      "grad_norm": 2.041290521621704,
-      "learning_rate": 4.494264507422402e-05,
-      "loss": 0.2022,
       "num_input_tokens_seen": 1536000,
       "step": 1500,
-      "train_runtime": 43.9883,
-      "train_tokens_per_second": 34918.384
     },
     {
       "epoch": 1.349527665317139,
-      "grad_norm": 0.10939698666334152,
-      "learning_rate": 4.32557354925776e-05,
-      "loss": 0.1781,
       "num_input_tokens_seen": 2048000,
       "step": 2000,
-      "train_runtime": 57.4658,
-      "train_tokens_per_second": 35638.593
     },
     {
       "epoch": 1.686909581646424,
-      "grad_norm": 5.614178657531738,
-      "learning_rate": 4.156882591093118e-05,
-      "loss": 0.1922,
       "num_input_tokens_seen": 2560000,
       "step": 2500,
-      "train_runtime": 71.0513,
-      "train_tokens_per_second": 36030.282
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9173693086003373,
-      "eval_loss": 0.3090151250362396,
-      "eval_runtime": 1.6796,
-      "eval_samples_per_second": 1765.251,
-      "eval_steps_per_second": 220.88,
       "num_input_tokens_seen": 3035136,
       "step": 2964
     },
     {
       "epoch": 2.0242914979757085,
-      "grad_norm": 0.06700567156076431,
-      "learning_rate": 3.9881916329284755e-05,
-      "loss": 0.1585,
       "num_input_tokens_seen": 3072000,
       "step": 3000,
-      "train_runtime": 87.6915,
-      "train_tokens_per_second": 35031.905
     },
     {
       "epoch": 2.361673414304993,
-      "grad_norm": 0.5916054844856262,
-      "learning_rate": 3.8195006747638326e-05,
-      "loss": 0.1549,
       "num_input_tokens_seen": 3584000,
       "step": 3500,
-      "train_runtime": 101.7739,
-      "train_tokens_per_second": 35215.309
     },
     {
       "epoch": 2.699055330634278,
-      "grad_norm": 0.6893392205238342,
-      "learning_rate": 3.6508097165991904e-05,
-      "loss": 0.1517,
       "num_input_tokens_seen": 4096000,
       "step": 4000,
-      "train_runtime": 116.1299,
-      "train_tokens_per_second": 35270.842
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9079258010118044,
-      "eval_loss": 0.28507259488105774,
-      "eval_runtime": 1.6356,
-      "eval_samples_per_second": 1812.841,
-      "eval_steps_per_second": 226.834,
       "num_input_tokens_seen": 4552704,
       "step": 4446
     },
     {
-      "epoch": 3.0364372469635628,
-      "grad_norm": 6.807932376861572,
-      "learning_rate": 3.482118758434548e-05,
-      "loss": 0.156,
-      "num_input_tokens_seen": 4608000,
-      "step": 4500,
-      "train_runtime": 133.056,
-      "train_tokens_per_second": 34632.022
-    },
-    {
-      "epoch": 3.3738191632928474,
-      "grad_norm": 52.58000946044922,
-      "learning_rate": 3.313427800269906e-05,
-      "loss": 0.1233,
-      "num_input_tokens_seen": 5120000,
-      "step": 5000,
-      "train_runtime": 147.2098,
-      "train_tokens_per_second": 34780.299
-    },
-    {
-      "epoch": 3.7112010796221324,
-      "grad_norm": 0.09153091162443161,
-      "learning_rate": 3.144736842105263e-05,
-      "loss": 0.1412,
-      "num_input_tokens_seen": 5632000,
-      "step": 5500,
-      "train_runtime": 161.9414,
-      "train_tokens_per_second": 34778.016
-    },
-    {
-      "epoch": 4.0,
-      "eval_accuracy": 0.9059021922428331,
-      "eval_loss": 0.31255096197128296,
-      "eval_runtime": 1.8022,
-      "eval_samples_per_second": 1645.244,
-      "eval_steps_per_second": 205.864,
-      "num_input_tokens_seen": 6070272,
-      "step": 5928
-    },
-    {
-      "epoch": 4.048582995951417,
-      "grad_norm": 0.014544670470058918,
-      "learning_rate": 2.9760458839406208e-05,
-      "loss": 0.1248,
-      "num_input_tokens_seen": 6144000,
-      "step": 6000,
-      "train_runtime": 179.8529,
-      "train_tokens_per_second": 34161.242
-    },
-    {
-      "epoch": 4.385964912280702,
-      "grad_norm": 0.022761313244700432,
-      "learning_rate": 2.8073549257759785e-05,
-      "loss": 0.0975,
-      "num_input_tokens_seen": 6656000,
-      "step": 6500,
-      "train_runtime": 194.2334,
-      "train_tokens_per_second": 34268.042
-    },
-    {
-      "epoch": 4.723346828609986,
-      "grad_norm": 0.27537310123443604,
-      "learning_rate": 2.6386639676113363e-05,
-      "loss": 0.1271,
-      "num_input_tokens_seen": 7168000,
-      "step": 7000,
-      "train_runtime": 207.8817,
-      "train_tokens_per_second": 34481.154
-    },
-    {
-      "epoch": 5.0,
-      "eval_accuracy": 0.9018549747048904,
-      "eval_loss": 0.34343627095222473,
-      "eval_runtime": 1.8728,
-      "eval_samples_per_second": 1583.159,
-      "eval_steps_per_second": 198.095,
-      "num_input_tokens_seen": 7587840,
-      "step": 7410
-    },
-    {
-      "epoch": 5.060728744939271,
-      "grad_norm": 0.3377642333507538,
-      "learning_rate": 2.4699730094466937e-05,
-      "loss": 0.1278,
-      "num_input_tokens_seen": 7680000,
-      "step": 7500,
-      "train_runtime": 224.822,
-      "train_tokens_per_second": 34160.358
-    },
-    {
-      "epoch": 5.398110661268556,
-      "grad_norm": 0.011958185583353043,
-      "learning_rate": 2.301282051282051e-05,
-      "loss": 0.0988,
-      "num_input_tokens_seen": 8192000,
-      "step": 8000,
-      "train_runtime": 238.5719,
-      "train_tokens_per_second": 34337.661
-    },
-    {
-      "epoch": 5.7354925775978405,
-      "grad_norm": 0.01739046536386013,
-      "learning_rate": 2.132591093117409e-05,
-      "loss": 0.1018,
-      "num_input_tokens_seen": 8704000,
-      "step": 8500,
-      "train_runtime": 253.495,
-      "train_tokens_per_second": 34335.983
-    },
-    {
-      "epoch": 6.0,
-      "eval_accuracy": 0.8930860033726813,
-      "eval_loss": 0.38996028900146484,
-      "eval_runtime": 1.6539,
-      "eval_samples_per_second": 1792.721,
-      "eval_steps_per_second": 224.317,
-      "num_input_tokens_seen": 9105408,
-      "step": 8892
-    },
-    {
-      "epoch": 6.0728744939271255,
-      "grad_norm": 0.3100438714027405,
-      "learning_rate": 1.9639001349527667e-05,
-      "loss": 0.1168,
-      "num_input_tokens_seen": 9216000,
-      "step": 9000,
-      "train_runtime": 271.7013,
-      "train_tokens_per_second": 33919.602
-    },
-    {
-      "epoch": 6.410256410256411,
-      "grad_norm": 0.43619751930236816,
-      "learning_rate": 1.7952091767881245e-05,
-      "loss": 0.0869,
-      "num_input_tokens_seen": 9728000,
-      "step": 9500,
-      "train_runtime": 285.8275,
-      "train_tokens_per_second": 34034.516
-    },
-    {
-      "epoch": 6.747638326585695,
-      "grad_norm": 0.006818657275289297,
-      "learning_rate": 1.626518218623482e-05,
-      "loss": 0.1037,
-      "num_input_tokens_seen": 10240000,
-      "step": 10000,
-      "train_runtime": 299.932,
-      "train_tokens_per_second": 34141.069
-    },
-    {
-      "epoch": 7.0,
-      "eval_accuracy": 0.8944350758853289,
-      "eval_loss": 0.39529648423194885,
-      "eval_runtime": 1.7201,
-      "eval_samples_per_second": 1723.784,
-      "eval_steps_per_second": 215.691,
-      "num_input_tokens_seen": 10622976,
-      "step": 10374
-    },
-    {
-      "epoch": 7.08502024291498,
-      "grad_norm": 0.07480119913816452,
-      "learning_rate": 1.4578272604588395e-05,
-      "loss": 0.1063,
-      "num_input_tokens_seen": 10752000,
-      "step": 10500,
-      "train_runtime": 316.9384,
-      "train_tokens_per_second": 33924.575
-    },
-    {
-      "epoch": 7.422402159244265,
-      "grad_norm": 0.008870264515280724,
-      "learning_rate": 1.289136302294197e-05,
-      "loss": 0.0908,
-      "num_input_tokens_seen": 11264000,
-      "step": 11000,
-      "train_runtime": 331.4588,
-      "train_tokens_per_second": 33983.108
-    },
-    {
-      "epoch": 7.759784075573549,
-      "grad_norm": 0.33139288425445557,
-      "learning_rate": 1.1204453441295547e-05,
-      "loss": 0.0902,
-      "num_input_tokens_seen": 11776000,
-      "step": 11500,
-      "train_runtime": 345.9573,
-      "train_tokens_per_second": 34038.879
-    },
-    {
-      "epoch": 8.0,
-      "eval_accuracy": 0.894097807757167,
-      "eval_loss": 0.5339534282684326,
-      "eval_runtime": 1.8369,
-      "eval_samples_per_second": 1614.124,
-      "eval_steps_per_second": 201.97,
-      "num_input_tokens_seen": 12140544,
-      "step": 11856
-    },
-    {
-      "epoch": 8.097165991902834,
-      "grad_norm": 1.103989839553833,
-      "learning_rate": 9.517543859649124e-06,
-      "loss": 0.0792,
-      "num_input_tokens_seen": 12288000,
-      "step": 12000,
-      "train_runtime": 363.0247,
-      "train_tokens_per_second": 33848.936
-    },
-    {
-      "epoch": 8.434547908232119,
-      "grad_norm": 0.19695305824279785,
-      "learning_rate": 7.830634278002699e-06,
-      "loss": 0.0771,
-      "num_input_tokens_seen": 12800000,
-      "step": 12500,
-      "train_runtime": 376.8777,
-      "train_tokens_per_second": 33963.276
-    },
-    {
-      "epoch": 8.771929824561404,
-      "grad_norm": 3.2966551780700684,
-      "learning_rate": 6.1437246963562756e-06,
-      "loss": 0.077,
-      "num_input_tokens_seen": 13312000,
-      "step": 13000,
-      "train_runtime": 390.4455,
-      "train_tokens_per_second": 34094.384
-    },
-    {
-      "epoch": 9.0,
-      "eval_accuracy": 0.8900505902192243,
-      "eval_loss": 0.6329491138458252,
-      "eval_runtime": 1.6301,
-      "eval_samples_per_second": 1818.909,
-      "eval_steps_per_second": 227.594,
-      "num_input_tokens_seen": 13658112,
-      "step": 13338
-    },
-    {
-      "epoch": 9.109311740890687,
-      "grad_norm": 2.050884485244751,
-      "learning_rate": 4.4568151147098515e-06,
-      "loss": 0.0783,
-      "num_input_tokens_seen": 13824000,
-      "step": 13500,
-      "train_runtime": 406.9294,
-      "train_tokens_per_second": 33971.492
-    },
-    {
-      "epoch": 9.446693657219972,
-      "grad_norm": 0.005987819749861956,
-      "learning_rate": 2.769905533063428e-06,
-      "loss": 0.0717,
-      "num_input_tokens_seen": 14336000,
-      "step": 14000,
-      "train_runtime": 420.4707,
-      "train_tokens_per_second": 34095.126
-    },
-    {
-      "epoch": 9.784075573549257,
-      "grad_norm": 0.0041707539930939674,
-      "learning_rate": 1.0829959514170041e-06,
-      "loss": 0.0685,
-      "num_input_tokens_seen": 14848000,
-      "step": 14500,
-      "train_runtime": 433.8559,
-      "train_tokens_per_second": 34223.346
-    },
-    {
-      "epoch": 10.0,
-      "eval_accuracy": 0.8920741989881956,
-      "eval_loss": 0.6290408968925476,
-      "eval_runtime": 1.6333,
-      "eval_samples_per_second": 1815.288,
-      "eval_steps_per_second": 227.141,
-      "num_input_tokens_seen": 15175680,
-      "step": 14820
-    },
-    {
-      "epoch": 10.0,
-      "num_input_tokens_seen": 15175680,
-      "step": 14820,
-      "total_flos": 1952467720519680.0,
-      "train_loss": 0.1272777229185529,
-      "train_runtime": 445.3252,
-      "train_samples_per_second": 266.232,
-      "train_steps_per_second": 33.279
     }
   ],
   "logging_steps": 500,
-  "max_steps": 14820,
-  "num_input_tokens_seen": 15175680,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -427,7 +147,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1952467720519680.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 2964,
+  "best_metric": 0.21923576295375824,
+  "best_model_checkpoint": "multilingual-e5-small-pii-detector/checkpoint-2964",
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 4446,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.33738191632928477,
+      "grad_norm": 5.012300491333008,
+      "learning_rate": 4.438821412505623e-05,
+      "loss": 0.3135,
       "num_input_tokens_seen": 512000,
       "step": 500,
+      "train_runtime": 14.3457,
+      "train_tokens_per_second": 35690.033
     },
     {
       "epoch": 0.6747638326585695,
+      "grad_norm": 0.07379312068223953,
+      "learning_rate": 3.876518218623482e-05,
+      "loss": 0.2333,
       "num_input_tokens_seen": 1024000,
       "step": 1000,
+      "train_runtime": 28.4978,
+      "train_tokens_per_second": 35932.607
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9038785834738617,
+      "eval_loss": 0.25766971707344055,
+      "eval_runtime": 1.7391,
+      "eval_samples_per_second": 1704.926,
+      "eval_steps_per_second": 213.331,
       "num_input_tokens_seen": 1517568,
       "step": 1482
     },
     {
       "epoch": 1.0121457489878543,
+      "grad_norm": 1.9765552282333374,
+      "learning_rate": 3.3142150247413403e-05,
+      "loss": 0.2038,
       "num_input_tokens_seen": 1536000,
       "step": 1500,
+      "train_runtime": 45.5628,
+      "train_tokens_per_second": 33711.681
     },
     {
       "epoch": 1.349527665317139,
+      "grad_norm": 0.05636508762836456,
+      "learning_rate": 2.7519118308591997e-05,
+      "loss": 0.1658,
       "num_input_tokens_seen": 2048000,
       "step": 2000,
+      "train_runtime": 59.6595,
+      "train_tokens_per_second": 34328.161
     },
     {
       "epoch": 1.686909581646424,
+      "grad_norm": 1.788957118988037,
+      "learning_rate": 2.1896086369770583e-05,
+      "loss": 0.1719,
       "num_input_tokens_seen": 2560000,
       "step": 2500,
+      "train_runtime": 73.8011,
+      "train_tokens_per_second": 34687.829
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.92141652613828,
+      "eval_loss": 0.21923576295375824,
+      "eval_runtime": 1.7041,
+      "eval_samples_per_second": 1739.889,
+      "eval_steps_per_second": 217.706,
       "num_input_tokens_seen": 3035136,
       "step": 2964
     },
     {
       "epoch": 2.0242914979757085,
+      "grad_norm": 0.0168524831533432,
+      "learning_rate": 1.627305443094917e-05,
+      "loss": 0.1458,
       "num_input_tokens_seen": 3072000,
       "step": 3000,
+      "train_runtime": 90.7129,
+      "train_tokens_per_second": 33865.09
     },
     {
       "epoch": 2.361673414304993,
+      "grad_norm": 0.3309631049633026,
+      "learning_rate": 1.0650022492127757e-05,
+      "loss": 0.1314,
       "num_input_tokens_seen": 3584000,
       "step": 3500,
+      "train_runtime": 104.7568,
+      "train_tokens_per_second": 34212.57
     },
     {
       "epoch": 2.699055330634278,
+      "grad_norm": 3.9781689643859863,
+      "learning_rate": 5.026990553306343e-06,
+      "loss": 0.1224,
       "num_input_tokens_seen": 4096000,
       "step": 4000,
+      "train_runtime": 118.8877,
+      "train_tokens_per_second": 34452.667
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9133220910623946,
+      "eval_loss": 0.27373236417770386,
+      "eval_runtime": 1.7591,
+      "eval_samples_per_second": 1685.527,
+      "eval_steps_per_second": 210.904,
       "num_input_tokens_seen": 4552704,
       "step": 4446
     },
     {
+      "epoch": 3.0,
+      "num_input_tokens_seen": 4552704,
+      "step": 4446,
+      "total_flos": 585740316155904.0,
+      "train_loss": 0.17994267544765705,
+      "train_runtime": 134.4715,
+      "train_samples_per_second": 264.502,
+      "train_steps_per_second": 33.063
     }
   ],
   "logging_steps": 500,
+  "max_steps": 4446,
+  "num_input_tokens_seen": 4552704,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 585740316155904.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32ce1e246e8da9cb1f7bf84495bb07f5e6a549f44f69a69266d1dec339ecb772
 size 5201

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9f947f8eec68e36ee3cd7c2830c856229639500785b9261f50ee9178a9ee2a3
 size 5201