{
  "best_metric": 0.78049123,
  "best_model_checkpoint": "/global/D1/homes/sushant/SoccerNetExperiments/Soccer-Video-ChatGPT/November_xvars/swift/output/qwen2-vl-7b-instruct/v7-20241118-100959/checkpoint-5800",
  "epoch": 5.0,
  "eval_steps": 100,
  "global_step": 7270,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "acc": 0.51318568,
      "epoch": 0.000687757909215956,
      "grad_norm": 0.8106947541236877,
      "learning_rate": 0.0,
      "loss": 2.20640945,
      "memory(GiB)": 68.96,
      "step": 1,
      "train_speed(iter/s)": 0.018567
    },
    {
      "acc": 0.522241,
      "epoch": 0.0034387895460797797,
      "grad_norm": 0.7490503191947937,
      "learning_rate": 2.7291774109314122e-05,
      "loss": 2.21162605,
      "memory(GiB)": 68.96,
      "step": 5,
      "train_speed(iter/s)": 0.040393
    },
    {
      "acc": 0.54119682,
      "epoch": 0.0068775790921595595,
      "grad_norm": 0.7276351451873779,
      "learning_rate": 3.904570144643008e-05,
      "loss": 2.13246613,
      "memory(GiB)": 73.29,
      "step": 10,
      "train_speed(iter/s)": 0.052109
    },
    {
      "acc": 0.5478312,
      "epoch": 0.01031636863823934,
      "grad_norm": 0.763149082660675,
      "learning_rate": 4.5921308174844174e-05,
      "loss": 2.00201836,
      "memory(GiB)": 73.29,
      "step": 15,
      "train_speed(iter/s)": 0.056038
    },
    {
      "acc": 0.56882777,
      "epoch": 0.013755158184319119,
      "grad_norm": 0.7898057103157043,
      "learning_rate": 5.0799628783546016e-05,
      "loss": 1.84855347,
      "memory(GiB)": 73.29,
      "step": 20,
      "train_speed(iter/s)": 0.058389
    },
    {
      "acc": 0.59600019,
      "epoch": 0.0171939477303989,
      "grad_norm": 0.9877901673316956,
      "learning_rate": 5.4583548218628245e-05,
      "loss": 1.73883362,
      "memory(GiB)": 73.29,
      "step": 25,
      "train_speed(iter/s)": 0.060811
    },
    {
      "acc": 0.60646133,
      "epoch": 0.02063273727647868,
      "grad_norm": 0.9179441332817078,
      "learning_rate": 5.7675235511960126e-05,
      "loss": 1.64034233,
      "memory(GiB)": 73.29,
      "step": 30,
      "train_speed(iter/s)": 0.06211
    },
    {
      "acc": 0.61271744,
      "epoch": 0.024071526822558458,
      "grad_norm": 0.9307955503463745,
      "learning_rate": 6.028921987267401e-05,
      "loss": 1.5906249,
      "memory(GiB)": 73.29,
      "step": 35,
      "train_speed(iter/s)": 0.06288
    },
    {
      "acc": 0.63797045,
      "epoch": 0.027510316368638238,
      "grad_norm": 1.0717326402664185,
      "learning_rate": 6.255355612066197e-05,
      "loss": 1.44913902,
      "memory(GiB)": 73.29,
      "step": 40,
      "train_speed(iter/s)": 0.064
    },
    {
      "acc": 0.64407902,
      "epoch": 0.030949105914718018,
      "grad_norm": 1.0732834339141846,
      "learning_rate": 6.455084224037423e-05,
      "loss": 1.44504213,
      "memory(GiB)": 73.29,
      "step": 45,
      "train_speed(iter/s)": 0.064348
    },
    {
      "acc": 0.64924326,
      "epoch": 0.0343878954607978,
      "grad_norm": 1.1162458658218384,
      "learning_rate": 6.633747555574418e-05,
      "loss": 1.36141453,
      "memory(GiB)": 73.29,
      "step": 50,
      "train_speed(iter/s)": 0.064587
    },
    {
      "acc": 0.6600091,
      "epoch": 0.03782668500687758,
      "grad_norm": 1.0633102655410767,
      "learning_rate": 6.795368198249832e-05,
      "loss": 1.3460659,
      "memory(GiB)": 73.29,
      "step": 55,
      "train_speed(iter/s)": 0.064754
    },
    {
      "acc": 0.65980716,
      "epoch": 0.04126547455295736,
      "grad_norm": 1.0164440870285034,
      "learning_rate": 6.942916284907606e-05,
      "loss": 1.33123722,
      "memory(GiB)": 73.29,
      "step": 60,
      "train_speed(iter/s)": 0.065266
    },
    {
      "acc": 0.68235178,
      "epoch": 0.04470426409903714,
      "grad_norm": 1.185117483139038,
      "learning_rate": 7.078647367172232e-05,
      "loss": 1.24153843,
      "memory(GiB)": 73.29,
      "step": 65,
      "train_speed(iter/s)": 0.065105
    },
    {
      "acc": 0.67718811,
      "epoch": 0.048143053645116916,
      "grad_norm": 1.1237530708312988,
      "learning_rate": 7.204314720978996e-05,
      "loss": 1.28077126,
      "memory(GiB)": 73.29,
      "step": 70,
      "train_speed(iter/s)": 0.065778
    },
    {
      "acc": 0.68681493,
      "epoch": 0.0515818431911967,
      "grad_norm": 1.2692396640777588,
      "learning_rate": 7.321308228415829e-05,
      "loss": 1.25220881,
      "memory(GiB)": 73.29,
      "step": 75,
      "train_speed(iter/s)": 0.066254
    },
    {
      "acc": 0.67568145,
      "epoch": 0.055020632737276476,
      "grad_norm": 1.118291974067688,
      "learning_rate": 7.43074834577779e-05,
      "loss": 1.2524622,
      "memory(GiB)": 73.29,
      "step": 80,
      "train_speed(iter/s)": 0.066119
    },
    {
      "acc": 0.67670813,
      "epoch": 0.05845942228335626,
      "grad_norm": 1.1989713907241821,
      "learning_rate": 7.533551533853211e-05,
      "loss": 1.24576015,
      "memory(GiB)": 73.29,
      "step": 85,
      "train_speed(iter/s)": 0.066293
    },
    {
      "acc": 0.69235625,
      "epoch": 0.061898211829436035,
      "grad_norm": 1.2158828973770142,
      "learning_rate": 7.630476957749017e-05,
      "loss": 1.20176125,
      "memory(GiB)": 73.29,
      "step": 90,
      "train_speed(iter/s)": 0.066483
    },
    {
      "acc": 0.68914762,
      "epoch": 0.06533700137551582,
      "grad_norm": 1.1737231016159058,
      "learning_rate": 7.722160543566566e-05,
      "loss": 1.21274147,
      "memory(GiB)": 73.29,
      "step": 95,
      "train_speed(iter/s)": 0.066668
    },
    {
      "acc": 0.69834042,
      "epoch": 0.0687757909215956,
      "grad_norm": 1.351590871810913,
      "learning_rate": 7.809140289286016e-05,
      "loss": 1.1592926,
      "memory(GiB)": 73.29,
      "step": 100,
      "train_speed(iter/s)": 0.067074
    },
    {
      "epoch": 0.0687757909215956,
      "eval_acc": 0.6962927970486346,
      "eval_loss": 1.1645218133926392,
      "eval_runtime": 1212.4549,
      "eval_samples_per_second": 3.533,
      "eval_steps_per_second": 0.064,
      "step": 100
    },
    {
      "acc": 0.68415451,
      "epoch": 0.07221458046767538,
      "grad_norm": 1.3831959962844849,
      "learning_rate": 7.891875393820406e-05,
      "loss": 1.2015852,
      "memory(GiB)": 73.29,
      "step": 105,
      "train_speed(iter/s)": 0.037875
    },
    {
      "acc": 0.68617525,
      "epoch": 0.07565337001375516,
      "grad_norm": 1.1734046936035156,
      "learning_rate": 7.970760931961428e-05,
      "loss": 1.20146303,
      "memory(GiB)": 67.64,
      "step": 110,
      "train_speed(iter/s)": 0.038604
    },
    {
      "acc": 0.71534705,
      "epoch": 0.07909215955983494,
      "grad_norm": 1.1629948616027832,
      "learning_rate": 8.046139264575035e-05,
      "loss": 1.0837039,
      "memory(GiB)": 67.64,
      "step": 115,
      "train_speed(iter/s)": 0.039388
    },
    {
      "acc": 0.69408731,
      "epoch": 0.08253094910591471,
      "grad_norm": 1.3171385526657104,
      "learning_rate": 8.118309018619202e-05,
      "loss": 1.18307505,
      "memory(GiB)": 67.64,
      "step": 120,
      "train_speed(iter/s)": 0.040077
    },
    {
      "acc": 0.70501647,
      "epoch": 0.0859697386519945,
      "grad_norm": 1.3044822216033936,
      "learning_rate": 8.187532232794237e-05,
      "loss": 1.13398886,
      "memory(GiB)": 67.64,
      "step": 125,
      "train_speed(iter/s)": 0.040793
    },
    {
      "acc": 0.70435572,
      "epoch": 0.08940852819807428,
      "grad_norm": 1.329248070716858,
      "learning_rate": 8.254040100883828e-05,
      "loss": 1.12086363,
      "memory(GiB)": 67.64,
      "step": 130,
      "train_speed(iter/s)": 0.041495
    },
    {
      "acc": 0.69323554,
      "epoch": 0.09284731774415406,
      "grad_norm": 1.2392340898513794,
      "learning_rate": 8.318037630590428e-05,
      "loss": 1.17682867,
      "memory(GiB)": 67.64,
      "step": 135,
      "train_speed(iter/s)": 0.042188
    },
    {
      "acc": 0.68262854,
      "epoch": 0.09628610729023383,
      "grad_norm": 1.50913667678833,
      "learning_rate": 8.379707454690589e-05,
      "loss": 1.20728226,
      "memory(GiB)": 67.64,
      "step": 140,
      "train_speed(iter/s)": 0.042814
    },
    {
      "acc": 0.71855187,
      "epoch": 0.09972489683631362,
      "grad_norm": 1.3727279901504517,
      "learning_rate": 8.439212973113382e-05,
      "loss": 1.06742191,
      "memory(GiB)": 67.64,
      "step": 145,
      "train_speed(iter/s)": 0.043424
    },
    {
      "acc": 0.70871205,
      "epoch": 0.1031636863823934,
      "grad_norm": 1.3805909156799316,
      "learning_rate": 8.496700962127424e-05,
      "loss": 1.11401825,
      "memory(GiB)": 67.64,
      "step": 150,
      "train_speed(iter/s)": 0.044042
    },
    {
      "acc": 0.73342023,
      "epoch": 0.10660247592847318,
      "grad_norm": 1.2183469533920288,
      "learning_rate": 8.552303755540939e-05,
      "loss": 1.00700331,
      "memory(GiB)": 67.64,
      "step": 155,
      "train_speed(iter/s)": 0.044601
    },
    {
      "acc": 0.70797634,
      "epoch": 0.11004126547455295,
      "grad_norm": 1.4554626941680908,
      "learning_rate": 8.606141079489386e-05,
      "loss": 1.09950924,
      "memory(GiB)": 67.64,
      "step": 160,
      "train_speed(iter/s)": 0.045018
    },
    {
      "acc": 0.69420943,
      "epoch": 0.11348005502063274,
      "grad_norm": 1.3245141506195068,
      "learning_rate": 8.658321604802837e-05,
      "loss": 1.15192003,
      "memory(GiB)": 67.64,
      "step": 165,
      "train_speed(iter/s)": 0.045554
    },
    {
      "acc": 0.7062036,
      "epoch": 0.11691884456671252,
      "grad_norm": 1.271952748298645,
      "learning_rate": 8.708944267564807e-05,
      "loss": 1.08263731,
      "memory(GiB)": 67.64,
      "step": 170,
      "train_speed(iter/s)": 0.045943
    },
    {
      "acc": 0.69984941,
      "epoch": 0.1203576341127923,
      "grad_norm": 1.4456363916397095,
      "learning_rate": 8.758099398198813e-05,
      "loss": 1.12532272,
      "memory(GiB)": 67.64,
      "step": 175,
      "train_speed(iter/s)": 0.046356
    },
    {
      "acc": 0.71651649,
      "epoch": 0.12379642365887207,
      "grad_norm": 1.44161057472229,
      "learning_rate": 8.805869691460613e-05,
      "loss": 1.07470217,
      "memory(GiB)": 67.64,
      "step": 180,
      "train_speed(iter/s)": 0.04681
    },
    {
      "acc": 0.71227612,
      "epoch": 0.12723521320495185,
      "grad_norm": 1.3441652059555054,
      "learning_rate": 8.852331043501091e-05,
      "loss": 1.09072762,
      "memory(GiB)": 67.64,
      "step": 185,
      "train_speed(iter/s)": 0.047226
    },
    {
      "acc": 0.72131248,
      "epoch": 0.13067400275103164,
      "grad_norm": 1.6152911186218262,
      "learning_rate": 8.897553277278162e-05,
      "loss": 1.05218563,
      "memory(GiB)": 67.64,
      "step": 190,
      "train_speed(iter/s)": 0.047678
    },
    {
      "acc": 0.71243434,
      "epoch": 0.13411279229711143,
      "grad_norm": 1.45099937915802,
      "learning_rate": 8.94160077372524e-05,
      "loss": 1.08823862,
      "memory(GiB)": 67.64,
      "step": 195,
      "train_speed(iter/s)": 0.048064
    },
    {
      "acc": 0.71744361,
      "epoch": 0.1375515818431912,
      "grad_norm": 1.4195399284362793,
      "learning_rate": 8.984533022997609e-05,
      "loss": 1.05846539,
      "memory(GiB)": 67.64,
      "step": 200,
      "train_speed(iter/s)": 0.048352
    },
    {
      "epoch": 0.1375515818431912,
      "eval_acc": 0.7119831736176722,
      "eval_loss": 1.0829237699508667,
      "eval_runtime": 1085.6657,
      "eval_samples_per_second": 3.945,
      "eval_steps_per_second": 0.071,
      "step": 200
    },
    {
      "acc": 0.69938354,
      "epoch": 0.14099037138927098,
      "grad_norm": 1.3801318407058716,
      "learning_rate": 9.026405107641496e-05,
      "loss": 1.1244791,
      "memory(GiB)": 67.64,
      "step": 205,
      "train_speed(iter/s)": 0.038724
    },
    {
      "acc": 0.70936947,
      "epoch": 0.14442916093535077,
      "grad_norm": 1.3959752321243286,
      "learning_rate": 9.067268127532e-05,
      "loss": 1.09259109,
      "memory(GiB)": 67.64,
      "step": 210,
      "train_speed(iter/s)": 0.039167
    },
    {
      "acc": 0.70823245,
      "epoch": 0.14786795048143053,
      "grad_norm": 1.4662190675735474,
      "learning_rate": 9.107169574803587e-05,
      "loss": 1.11423931,
      "memory(GiB)": 67.64,
      "step": 215,
      "train_speed(iter/s)": 0.039589
    },
    {
      "acc": 0.71795692,
      "epoch": 0.15130674002751032,
      "grad_norm": 1.2458115816116333,
      "learning_rate": 9.146153665673023e-05,
      "loss": 1.08119087,
      "memory(GiB)": 67.64,
      "step": 220,
      "train_speed(iter/s)": 0.040035
    },
    {
      "acc": 0.70050411,
      "epoch": 0.15474552957359008,
      "grad_norm": 1.3731013536453247,
      "learning_rate": 9.184261634968835e-05,
      "loss": 1.12374535,
      "memory(GiB)": 67.64,
      "step": 225,
      "train_speed(iter/s)": 0.040423
    },
    {
      "acc": 0.7144835,
      "epoch": 0.15818431911966988,
      "grad_norm": 1.4678212404251099,
      "learning_rate": 9.221531998286629e-05,
      "loss": 1.05655756,
      "memory(GiB)": 67.64,
      "step": 230,
      "train_speed(iter/s)": 0.04076
    },
    {
      "acc": 0.70189781,
      "epoch": 0.16162310866574967,
      "grad_norm": 1.3910584449768066,
      "learning_rate": 9.258000785948739e-05,
      "loss": 1.12144871,
      "memory(GiB)": 67.64,
      "step": 235,
      "train_speed(iter/s)": 0.04114
    },
    {
      "acc": 0.73604274,
      "epoch": 0.16506189821182943,
      "grad_norm": 1.3721731901168823,
      "learning_rate": 9.293701752330797e-05,
      "loss": 0.98678083,
      "memory(GiB)": 67.64,
      "step": 240,
      "train_speed(iter/s)": 0.041584
    },
    {
      "acc": 0.71869593,
      "epoch": 0.16850068775790922,
      "grad_norm": 1.6655057668685913,
      "learning_rate": 9.32866656360339e-05,
      "loss": 1.07134695,
      "memory(GiB)": 67.64,
      "step": 245,
      "train_speed(iter/s)": 0.042014
    },
    {
      "acc": 0.71307015,
      "epoch": 0.171939477303989,
      "grad_norm": 1.3052812814712524,
      "learning_rate": 9.36292496650583e-05,
      "loss": 1.06437588,
      "memory(GiB)": 67.64,
      "step": 250,
      "train_speed(iter/s)": 0.042373
    },
    {
      "acc": 0.71391711,
      "epoch": 0.17537826685006877,
      "grad_norm": 1.5577940940856934,
      "learning_rate": 9.396504940406217e-05,
      "loss": 1.07451763,
      "memory(GiB)": 67.64,
      "step": 255,
      "train_speed(iter/s)": 0.042705
    },
    {
      "acc": 0.73166742,
      "epoch": 0.17881705639614856,
      "grad_norm": 1.33721923828125,
      "learning_rate": 9.429432834595424e-05,
      "loss": 0.99717045,
      "memory(GiB)": 67.64,
      "step": 260,
      "train_speed(iter/s)": 0.043055
    },
    {
      "acc": 0.71127567,
      "epoch": 0.18225584594222832,
      "grad_norm": 1.549870252609253,
      "learning_rate": 9.461733492503013e-05,
      "loss": 1.10144587,
      "memory(GiB)": 67.64,
      "step": 265,
      "train_speed(iter/s)": 0.043386
    },
    {
      "acc": 0.72763004,
      "epoch": 0.1856946354883081,
      "grad_norm": 1.4047890901565552,
      "learning_rate": 9.493430364302024e-05,
      "loss": 1.01531572,
      "memory(GiB)": 67.64,
      "step": 270,
      "train_speed(iter/s)": 0.043699
    },
    {
      "acc": 0.72718954,
      "epoch": 0.1891334250343879,
      "grad_norm": 1.3470264673233032,
      "learning_rate": 9.524545609181246e-05,
      "loss": 1.01689529,
      "memory(GiB)": 67.64,
      "step": 275,
      "train_speed(iter/s)": 0.043985
    },
    {
      "acc": 0.72714009,
      "epoch": 0.19257221458046767,
      "grad_norm": 1.3996589183807373,
      "learning_rate": 9.555100188402185e-05,
      "loss": 1.01372051,
      "memory(GiB)": 67.64,
      "step": 280,
      "train_speed(iter/s)": 0.044244
    },
    {
      "acc": 0.71828256,
      "epoch": 0.19601100412654746,
      "grad_norm": 1.5369681119918823,
      "learning_rate": 9.585113950119573e-05,
      "loss": 1.06217566,
      "memory(GiB)": 67.64,
      "step": 285,
      "train_speed(iter/s)": 0.044532
    },
    {
      "acc": 0.72461739,
      "epoch": 0.19944979367262725,
      "grad_norm": 1.3398535251617432,
      "learning_rate": 9.614605706824978e-05,
      "loss": 1.03975096,
      "memory(GiB)": 67.64,
      "step": 290,
      "train_speed(iter/s)": 0.044835
    },
    {
      "acc": 0.71793423,
      "epoch": 0.202888583218707,
      "grad_norm": 1.4092602729797363,
      "learning_rate": 9.64359330617034e-05,
      "loss": 1.05028229,
      "memory(GiB)": 67.64,
      "step": 295,
      "train_speed(iter/s)": 0.045175
    },
    {
      "acc": 0.72302713,
      "epoch": 0.2063273727647868,
      "grad_norm": 1.2952080965042114,
      "learning_rate": 9.67209369583902e-05,
      "loss": 1.01765738,
      "memory(GiB)": 67.64,
      "step": 300,
      "train_speed(iter/s)": 0.045401
    },
    {
      "epoch": 0.2063273727647868,
      "eval_acc": 0.7200083232105098,
      "eval_loss": 1.0458483695983887,
      "eval_runtime": 1091.4981,
      "eval_samples_per_second": 3.924,
      "eval_steps_per_second": 0.071,
      "step": 300
    },
    {
      "acc": 0.709624,
      "epoch": 0.2097661623108666,
      "grad_norm": 1.5634573698043823,
      "learning_rate": 9.700122983054879e-05,
      "loss": 1.07294426,
      "memory(GiB)": 67.64,
      "step": 305,
      "train_speed(iter/s)": 0.039263
    },
    {
      "acc": 0.70980182,
      "epoch": 0.21320495185694635,
      "grad_norm": 1.372841477394104,
      "learning_rate": 9.727696489252533e-05,
      "loss": 1.10122662,
      "memory(GiB)": 67.64,
      "step": 310,
      "train_speed(iter/s)": 0.039598
    },
    {
      "acc": 0.73576632,
      "epoch": 0.21664374140302614,
      "grad_norm": 1.539969801902771,
      "learning_rate": 9.754828800373411e-05,
      "loss": 0.98867779,
      "memory(GiB)": 67.64,
      "step": 315,
      "train_speed(iter/s)": 0.039872
    },
    {
      "acc": 0.7245533,
      "epoch": 0.2200825309491059,
      "grad_norm": 1.2448300123214722,
      "learning_rate": 9.781533813200982e-05,
      "loss": 1.01700201,
      "memory(GiB)": 67.64,
      "step": 320,
      "train_speed(iter/s)": 0.040166
    },
    {
      "acc": 0.72238054,
      "epoch": 0.2235213204951857,
      "grad_norm": 1.2697371244430542,
      "learning_rate": 9.807824778103646e-05,
      "loss": 1.0503273,
      "memory(GiB)": 67.64,
      "step": 325,
      "train_speed(iter/s)": 0.040431
    },
    {
      "acc": 0.7078352,
      "epoch": 0.22696011004126548,
      "grad_norm": 1.3228161334991455,
      "learning_rate": 9.833714338514432e-05,
      "loss": 1.10422878,
      "memory(GiB)": 67.64,
      "step": 330,
      "train_speed(iter/s)": 0.040712
    },
    {
      "acc": 0.71083031,
      "epoch": 0.23039889958734525,
      "grad_norm": 1.2554104328155518,
      "learning_rate": 9.859214567441929e-05,
      "loss": 1.06728878,
      "memory(GiB)": 67.64,
      "step": 335,
      "train_speed(iter/s)": 0.040973
    },
    {
      "acc": 0.73246231,
      "epoch": 0.23383768913342504,
      "grad_norm": 1.601881742477417,
      "learning_rate": 9.884337001276401e-05,
      "loss": 0.99594593,
      "memory(GiB)": 67.64,
      "step": 340,
      "train_speed(iter/s)": 0.041255
    },
    {
      "acc": 0.72822175,
      "epoch": 0.23727647867950483,
      "grad_norm": 1.374062418937683,
      "learning_rate": 9.90909267112804e-05,
      "loss": 0.9949461,
      "memory(GiB)": 67.64,
      "step": 345,
      "train_speed(iter/s)": 0.041529
    },
    {
      "acc": 0.72813654,
      "epoch": 0.2407152682255846,
      "grad_norm": 1.4039307832717896,
      "learning_rate": 9.933492131910406e-05,
      "loss": 1.00009727,
      "memory(GiB)": 67.64,
      "step": 350,
      "train_speed(iter/s)": 0.041803
    },
    {
      "acc": 0.71051707,
      "epoch": 0.24415405777166438,
      "grad_norm": 1.4029077291488647,
      "learning_rate": 9.957545489361027e-05,
      "loss": 1.05340385,
      "memory(GiB)": 67.64,
      "step": 355,
      "train_speed(iter/s)": 0.042061
    },
    {
      "acc": 0.72410893,
      "epoch": 0.24759284731774414,
      "grad_norm": 1.379601001739502,
      "learning_rate": 9.981262425172208e-05,
      "loss": 1.03275814,
      "memory(GiB)": 67.64,
      "step": 360,
      "train_speed(iter/s)": 0.042262
    },
    {
      "acc": 0.72450876,
      "epoch": 0.25103163686382396,
      "grad_norm": 1.2809425592422485,
      "learning_rate": 9.999999482699181e-05,
      "loss": 1.02212152,
      "memory(GiB)": 67.64,
      "step": 365,
      "train_speed(iter/s)": 0.042465
    },
    {
      "acc": 0.72661881,
      "epoch": 0.2544704264099037,
      "grad_norm": 1.5250205993652344,
      "learning_rate": 9.999981377181717e-05,
      "loss": 1.03086433,
      "memory(GiB)": 67.64,
      "step": 370,
      "train_speed(iter/s)": 0.042736
    },
    {
      "acc": 0.72812705,
      "epoch": 0.2579092159559835,
      "grad_norm": 1.2832344770431519,
      "learning_rate": 9.999937406730297e-05,
      "loss": 1.00952168,
      "memory(GiB)": 67.64,
      "step": 375,
      "train_speed(iter/s)": 0.042979
    },
    {
      "acc": 0.69843874,
      "epoch": 0.2613480055020633,
      "grad_norm": 1.3689916133880615,
      "learning_rate": 9.999867571572407e-05,
      "loss": 1.1430685,
      "memory(GiB)": 67.64,
      "step": 380,
      "train_speed(iter/s)": 0.043186
    },
    {
      "acc": 0.71121368,
      "epoch": 0.26478679504814306,
      "grad_norm": 1.5115655660629272,
      "learning_rate": 9.999771872069336e-05,
      "loss": 1.06673965,
      "memory(GiB)": 67.64,
      "step": 385,
      "train_speed(iter/s)": 0.043399
    },
    {
      "acc": 0.71244879,
      "epoch": 0.26822558459422285,
      "grad_norm": 1.2644624710083008,
      "learning_rate": 9.999650308716193e-05,
      "loss": 1.0759717,
      "memory(GiB)": 67.64,
      "step": 390,
      "train_speed(iter/s)": 0.043596
    },
    {
      "acc": 0.71011033,
      "epoch": 0.2716643741403026,
      "grad_norm": 1.425584077835083,
      "learning_rate": 9.999502882141882e-05,
      "loss": 1.08612566,
      "memory(GiB)": 67.64,
      "step": 395,
      "train_speed(iter/s)": 0.043813
    },
    {
      "acc": 0.71973572,
      "epoch": 0.2751031636863824,
      "grad_norm": 1.281044840812683,
      "learning_rate": 9.999329593109124e-05,
      "loss": 1.04273968,
      "memory(GiB)": 67.64,
      "step": 400,
      "train_speed(iter/s)": 0.04406
    },
    {
      "epoch": 0.2751031636863824,
      "eval_acc": 0.723596301795114,
      "eval_loss": 1.0237661600112915,
      "eval_runtime": 1145.744,
      "eval_samples_per_second": 3.738,
      "eval_steps_per_second": 0.067,
      "step": 400
    },
    {
      "acc": 0.72366686,
      "epoch": 0.27854195323246217,
      "grad_norm": 1.4894949197769165,
      "learning_rate": 9.999130442514431e-05,
      "loss": 1.02950411,
      "memory(GiB)": 67.64,
      "step": 405,
      "train_speed(iter/s)": 0.03932
    },
    {
      "acc": 0.74041648,
      "epoch": 0.28198074277854196,
      "grad_norm": 1.2302844524383545,
      "learning_rate": 9.998905431388113e-05,
      "loss": 0.95937977,
      "memory(GiB)": 67.64,
      "step": 410,
      "train_speed(iter/s)": 0.039555
    },
    {
      "acc": 0.72292333,
      "epoch": 0.28541953232462175,
      "grad_norm": 1.1821825504302979,
      "learning_rate": 9.998654560894271e-05,
      "loss": 1.02365704,
      "memory(GiB)": 67.64,
      "step": 415,
      "train_speed(iter/s)": 0.039766
    },
    {
      "acc": 0.70973835,
      "epoch": 0.28885832187070154,
      "grad_norm": 1.2947014570236206,
      "learning_rate": 9.998377832330788e-05,
      "loss": 1.07417269,
      "memory(GiB)": 67.64,
      "step": 420,
      "train_speed(iter/s)": 0.039992
    },
    {
      "acc": 0.73527951,
      "epoch": 0.2922971114167813,
      "grad_norm": 1.2616949081420898,
      "learning_rate": 9.99807524712933e-05,
      "loss": 0.98149738,
      "memory(GiB)": 67.64,
      "step": 425,
      "train_speed(iter/s)": 0.040206
    },
    {
      "acc": 0.71251645,
      "epoch": 0.29573590096286106,
      "grad_norm": 1.2349984645843506,
      "learning_rate": 9.997746806855323e-05,
      "loss": 1.07718506,
      "memory(GiB)": 67.64,
      "step": 430,
      "train_speed(iter/s)": 0.040404
    },
    {
      "acc": 0.72872591,
      "epoch": 0.29917469050894085,
      "grad_norm": 1.128265619277954,
      "learning_rate": 9.997392513207963e-05,
      "loss": 1.00703831,
      "memory(GiB)": 67.64,
      "step": 435,
      "train_speed(iter/s)": 0.040581
    },
    {
      "acc": 0.72117209,
      "epoch": 0.30261348005502064,
      "grad_norm": 1.249985933303833,
      "learning_rate": 9.997012368020198e-05,
      "loss": 1.01667709,
      "memory(GiB)": 67.64,
      "step": 440,
      "train_speed(iter/s)": 0.040799
    },
    {
      "acc": 0.72518797,
      "epoch": 0.30605226960110044,
      "grad_norm": 1.3999882936477661,
      "learning_rate": 9.996606373258716e-05,
      "loss": 1.04834728,
      "memory(GiB)": 67.64,
      "step": 445,
      "train_speed(iter/s)": 0.041
    },
    {
      "acc": 0.72560539,
      "epoch": 0.30949105914718017,
      "grad_norm": 1.3446978330612183,
      "learning_rate": 9.99617453102394e-05,
      "loss": 1.01653395,
      "memory(GiB)": 67.64,
      "step": 450,
      "train_speed(iter/s)": 0.041207
    },
    {
      "acc": 0.72350621,
      "epoch": 0.31292984869325996,
      "grad_norm": 1.2894266843795776,
      "learning_rate": 9.99571684355002e-05,
      "loss": 0.99579372,
      "memory(GiB)": 67.64,
      "step": 455,
      "train_speed(iter/s)": 0.041368
    },
    {
      "acc": 0.70948811,
      "epoch": 0.31636863823933975,
      "grad_norm": 1.4214539527893066,
      "learning_rate": 9.995233313204806e-05,
      "loss": 1.09332161,
      "memory(GiB)": 67.64,
      "step": 460,
      "train_speed(iter/s)": 0.041539
    },
    {
      "acc": 0.74661293,
      "epoch": 0.31980742778541954,
      "grad_norm": 1.2697914838790894,
      "learning_rate": 9.994723942489859e-05,
      "loss": 0.93414135,
      "memory(GiB)": 67.64,
      "step": 465,
      "train_speed(iter/s)": 0.041724
    },
    {
      "acc": 0.72276139,
      "epoch": 0.32324621733149933,
      "grad_norm": 1.2612886428833008,
      "learning_rate": 9.99418873404042e-05,
      "loss": 1.04514399,
      "memory(GiB)": 67.64,
      "step": 470,
      "train_speed(iter/s)": 0.041901
    },
    {
      "acc": 0.72859631,
      "epoch": 0.32668500687757906,
      "grad_norm": 1.2637856006622314,
      "learning_rate": 9.993627690625399e-05,
      "loss": 0.99566994,
      "memory(GiB)": 67.64,
      "step": 475,
      "train_speed(iter/s)": 0.042059
    },
    {
      "acc": 0.72311392,
      "epoch": 0.33012379642365886,
      "grad_norm": 1.2103707790374756,
      "learning_rate": 9.993040815147369e-05,
      "loss": 1.02551346,
      "memory(GiB)": 67.64,
      "step": 480,
      "train_speed(iter/s)": 0.042237
    },
    {
      "acc": 0.7304266,
      "epoch": 0.33356258596973865,
      "grad_norm": 1.4478263854980469,
      "learning_rate": 9.992428110642546e-05,
      "loss": 1.00502892,
      "memory(GiB)": 67.64,
      "step": 485,
      "train_speed(iter/s)": 0.042429
    },
    {
      "acc": 0.72812204,
      "epoch": 0.33700137551581844,
      "grad_norm": 1.28928542137146,
      "learning_rate": 9.991789580280768e-05,
      "loss": 0.99270744,
      "memory(GiB)": 67.64,
      "step": 490,
      "train_speed(iter/s)": 0.042611
    },
    {
      "acc": 0.73110504,
      "epoch": 0.3404401650618982,
      "grad_norm": 1.277113914489746,
      "learning_rate": 9.991125227365489e-05,
      "loss": 0.9932848,
      "memory(GiB)": 67.71,
      "step": 495,
      "train_speed(iter/s)": 0.042803
    },
    {
      "acc": 0.73536983,
      "epoch": 0.343878954607978,
      "grad_norm": 1.4031190872192383,
      "learning_rate": 9.990435055333755e-05,
      "loss": 1.00407228,
      "memory(GiB)": 67.71,
      "step": 500,
      "train_speed(iter/s)": 0.042997
    },
    {
      "epoch": 0.343878954607978,
      "eval_acc": 0.7273923606424618,
      "eval_loss": 1.006140112876892,
      "eval_runtime": 1123.2925,
      "eval_samples_per_second": 3.813,
      "eval_steps_per_second": 0.069,
      "step": 500
    },
    {
      "acc": 0.7310411,
      "epoch": 0.34731774415405775,
      "grad_norm": 1.1264581680297852,
      "learning_rate": 9.989719067756184e-05,
      "loss": 0.97913218,
      "memory(GiB)": 67.71,
      "step": 505,
      "train_speed(iter/s)": 0.039389
    },
    {
      "acc": 0.72247181,
      "epoch": 0.35075653370013754,
      "grad_norm": 1.2322190999984741,
      "learning_rate": 9.988977268336956e-05,
      "loss": 1.04118223,
      "memory(GiB)": 67.71,
      "step": 510,
      "train_speed(iter/s)": 0.039571
    },
    {
      "acc": 0.7294539,
      "epoch": 0.35419532324621733,
      "grad_norm": 1.1988883018493652,
      "learning_rate": 9.988209660913789e-05,
      "loss": 0.96120787,
      "memory(GiB)": 67.71,
      "step": 515,
      "train_speed(iter/s)": 0.039729
    },
    {
      "acc": 0.72807951,
      "epoch": 0.3576341127922971,
      "grad_norm": 1.4514073133468628,
      "learning_rate": 9.987416249457917e-05,
      "loss": 1.00832357,
      "memory(GiB)": 67.71,
      "step": 520,
      "train_speed(iter/s)": 0.039869
    },
    {
      "acc": 0.72818184,
      "epoch": 0.3610729023383769,
      "grad_norm": 1.2781667709350586,
      "learning_rate": 9.986597038074072e-05,
      "loss": 1.00557394,
      "memory(GiB)": 67.71,
      "step": 525,
      "train_speed(iter/s)": 0.040019
    },
    {
      "acc": 0.7372427,
      "epoch": 0.36451169188445665,
      "grad_norm": 1.196447491645813,
      "learning_rate": 9.985752031000465e-05,
      "loss": 0.97588711,
      "memory(GiB)": 67.71,
      "step": 530,
      "train_speed(iter/s)": 0.040179
    },
    {
      "acc": 0.73485746,
      "epoch": 0.36795048143053644,
      "grad_norm": 1.2713799476623535,
      "learning_rate": 9.984881232608758e-05,
      "loss": 0.99121141,
      "memory(GiB)": 67.71,
      "step": 535,
      "train_speed(iter/s)": 0.040356
    },
    {
      "acc": 0.7316514,
      "epoch": 0.3713892709766162,
      "grad_norm": 1.388735055923462,
      "learning_rate": 9.983984647404047e-05,
      "loss": 0.97529774,
      "memory(GiB)": 67.71,
      "step": 540,
      "train_speed(iter/s)": 0.040533
    },
    {
      "acc": 0.73824301,
      "epoch": 0.374828060522696,
      "grad_norm": 1.263832926750183,
      "learning_rate": 9.983062280024837e-05,
      "loss": 0.95761375,
      "memory(GiB)": 67.71,
      "step": 545,
      "train_speed(iter/s)": 0.040707
    },
    {
      "acc": 0.72791233,
      "epoch": 0.3782668500687758,
      "grad_norm": 1.3154568672180176,
      "learning_rate": 9.982114135243019e-05,
      "loss": 1.00505419,
      "memory(GiB)": 67.71,
      "step": 550,
      "train_speed(iter/s)": 0.040862
    },
    {
      "acc": 0.73077579,
      "epoch": 0.3817056396148556,
      "grad_norm": 1.2996647357940674,
      "learning_rate": 9.981140217963838e-05,
      "loss": 0.98154631,
      "memory(GiB)": 67.71,
      "step": 555,
      "train_speed(iter/s)": 0.041008
    },
    {
      "acc": 0.7352643,
      "epoch": 0.38514442916093533,
      "grad_norm": 1.3090369701385498,
      "learning_rate": 9.980140533225882e-05,
      "loss": 0.9830574,
      "memory(GiB)": 67.71,
      "step": 560,
      "train_speed(iter/s)": 0.041146
    },
    {
      "acc": 0.7195425,
      "epoch": 0.3885832187070151,
      "grad_norm": 1.655612587928772,
      "learning_rate": 9.979115086201042e-05,
      "loss": 1.05448446,
      "memory(GiB)": 67.71,
      "step": 565,
      "train_speed(iter/s)": 0.041304
    },
    {
      "acc": 0.73759327,
      "epoch": 0.3920220082530949,
      "grad_norm": 1.183268427848816,
      "learning_rate": 9.978063882194492e-05,
      "loss": 0.96683788,
      "memory(GiB)": 67.71,
      "step": 570,
      "train_speed(iter/s)": 0.041468
    },
    {
      "acc": 0.73216171,
      "epoch": 0.3954607977991747,
      "grad_norm": 1.2590916156768799,
      "learning_rate": 9.976986926644662e-05,
      "loss": 0.97658138,
      "memory(GiB)": 67.71,
      "step": 575,
      "train_speed(iter/s)": 0.04163
    },
    {
      "acc": 0.72127271,
      "epoch": 0.3988995873452545,
      "grad_norm": 1.1548501253128052,
      "learning_rate": 9.975884225123204e-05,
      "loss": 1.00985394,
      "memory(GiB)": 67.71,
      "step": 580,
      "train_speed(iter/s)": 0.041797
    },
    {
      "acc": 0.74563594,
      "epoch": 0.4023383768913342,
      "grad_norm": 1.0580244064331055,
      "learning_rate": 9.974755783334972e-05,
      "loss": 0.94991455,
      "memory(GiB)": 67.71,
      "step": 585,
      "train_speed(iter/s)": 0.041937
    },
    {
      "acc": 0.72397938,
      "epoch": 0.405777166437414,
      "grad_norm": 1.2799969911575317,
      "learning_rate": 9.973601607117985e-05,
      "loss": 1.04541121,
      "memory(GiB)": 67.71,
      "step": 590,
      "train_speed(iter/s)": 0.042103
    },
    {
      "acc": 0.75536423,
      "epoch": 0.4092159559834938,
      "grad_norm": 1.2122467756271362,
      "learning_rate": 9.972421702443402e-05,
      "loss": 0.91661882,
      "memory(GiB)": 67.71,
      "step": 595,
      "train_speed(iter/s)": 0.042263
    },
    {
      "acc": 0.72923999,
      "epoch": 0.4126547455295736,
      "grad_norm": 1.3098151683807373,
      "learning_rate": 9.971216075415486e-05,
      "loss": 0.99268637,
      "memory(GiB)": 67.71,
      "step": 600,
      "train_speed(iter/s)": 0.042394
    },
    {
      "epoch": 0.4126547455295736,
      "eval_acc": 0.7299005713771539,
      "eval_loss": 0.9898082613945007,
      "eval_runtime": 1136.3836,
      "eval_samples_per_second": 3.769,
      "eval_steps_per_second": 0.068,
      "step": 600
    },
    {
      "acc": 0.73311081,
      "epoch": 0.4160935350756534,
      "grad_norm": 1.149190902709961,
      "learning_rate": 9.969984732271578e-05,
      "loss": 0.98028679,
      "memory(GiB)": 67.71,
      "step": 605,
      "train_speed(iter/s)": 0.039392
    },
    {
      "acc": 0.7316927,
      "epoch": 0.4195323246217332,
      "grad_norm": 1.3081296682357788,
      "learning_rate": 9.96872767938206e-05,
      "loss": 0.98179483,
      "memory(GiB)": 67.71,
      "step": 610,
      "train_speed(iter/s)": 0.039559
    },
    {
      "acc": 0.73893361,
      "epoch": 0.4229711141678129,
      "grad_norm": 1.1731023788452148,
      "learning_rate": 9.967444923250323e-05,
      "loss": 0.94215651,
      "memory(GiB)": 67.71,
      "step": 615,
      "train_speed(iter/s)": 0.039695
    },
    {
      "acc": 0.72336564,
      "epoch": 0.4264099037138927,
      "grad_norm": 1.2004274129867554,
      "learning_rate": 9.966136470512739e-05,
      "loss": 1.01167727,
      "memory(GiB)": 67.71,
      "step": 620,
      "train_speed(iter/s)": 0.03985
    },
    {
      "acc": 0.73260341,
      "epoch": 0.4298486932599725,
      "grad_norm": 1.1863032579421997,
      "learning_rate": 9.964802327938616e-05,
      "loss": 0.98780212,
      "memory(GiB)": 67.71,
      "step": 625,
      "train_speed(iter/s)": 0.039998
    },
    {
      "acc": 0.72430835,
      "epoch": 0.4332874828060523,
      "grad_norm": 1.2297348976135254,
      "learning_rate": 9.963442502430173e-05,
      "loss": 1.02258396,
      "memory(GiB)": 67.71,
      "step": 630,
      "train_speed(iter/s)": 0.0401
    },
    {
      "acc": 0.73400669,
      "epoch": 0.43672627235213207,
      "grad_norm": 1.1201564073562622,
      "learning_rate": 9.962057001022499e-05,
      "loss": 0.95277481,
      "memory(GiB)": 67.71,
      "step": 635,
      "train_speed(iter/s)": 0.040238
    },
    {
      "acc": 0.72435627,
      "epoch": 0.4401650618982118,
      "grad_norm": 1.2594115734100342,
      "learning_rate": 9.96064583088352e-05,
      "loss": 1.01793871,
      "memory(GiB)": 67.71,
      "step": 640,
      "train_speed(iter/s)": 0.040389
    },
    {
      "acc": 0.74932237,
      "epoch": 0.4436038514442916,
      "grad_norm": 1.0871134996414185,
      "learning_rate": 9.959208999313953e-05,
      "loss": 0.92056198,
      "memory(GiB)": 67.71,
      "step": 645,
      "train_speed(iter/s)": 0.040522
    },
    {
      "acc": 0.74172649,
      "epoch": 0.4470426409903714,
      "grad_norm": 1.0481441020965576,
      "learning_rate": 9.957746513747285e-05,
      "loss": 0.94307327,
      "memory(GiB)": 67.71,
      "step": 650,
      "train_speed(iter/s)": 0.040673
    },
    {
      "acc": 0.73418083,
      "epoch": 0.4504814305364512,
      "grad_norm": 1.2039026021957397,
      "learning_rate": 9.956258381749717e-05,
      "loss": 0.96942959,
      "memory(GiB)": 67.71,
      "step": 655,
      "train_speed(iter/s)": 0.04079
    },
    {
      "acc": 0.73663011,
      "epoch": 0.45392022008253097,
      "grad_norm": 1.2746825218200684,
      "learning_rate": 9.954744611020134e-05,
      "loss": 0.96783085,
      "memory(GiB)": 67.71,
      "step": 660,
      "train_speed(iter/s)": 0.040931
    },
    {
      "acc": 0.75085382,
      "epoch": 0.4573590096286107,
      "grad_norm": 1.1864688396453857,
      "learning_rate": 9.953205209390065e-05,
      "loss": 0.93258324,
      "memory(GiB)": 67.71,
      "step": 665,
      "train_speed(iter/s)": 0.041065
    },
    {
      "acc": 0.74181981,
      "epoch": 0.4607977991746905,
      "grad_norm": 1.2284380197525024,
      "learning_rate": 9.95164018482364e-05,
      "loss": 0.94610729,
      "memory(GiB)": 67.71,
      "step": 670,
      "train_speed(iter/s)": 0.041186
    },
    {
      "acc": 0.73316283,
      "epoch": 0.4642365887207703,
      "grad_norm": 1.0974282026290894,
      "learning_rate": 9.950049545417551e-05,
      "loss": 0.97180891,
      "memory(GiB)": 67.71,
      "step": 675,
      "train_speed(iter/s)": 0.041284
    },
    {
      "acc": 0.73497968,
      "epoch": 0.4676753782668501,
      "grad_norm": 1.1195545196533203,
      "learning_rate": 9.948433299401008e-05,
      "loss": 0.96802521,
      "memory(GiB)": 67.71,
      "step": 680,
      "train_speed(iter/s)": 0.041406
    },
    {
      "acc": 0.71404638,
      "epoch": 0.47111416781292986,
      "grad_norm": 1.2557018995285034,
      "learning_rate": 9.946791455135697e-05,
      "loss": 1.04876156,
      "memory(GiB)": 67.71,
      "step": 685,
      "train_speed(iter/s)": 0.041511
    },
    {
      "acc": 0.73286834,
      "epoch": 0.47455295735900965,
      "grad_norm": 1.2220708131790161,
      "learning_rate": 9.945124021115738e-05,
      "loss": 0.96964302,
      "memory(GiB)": 67.71,
      "step": 690,
      "train_speed(iter/s)": 0.041631
    },
    {
      "acc": 0.73684483,
      "epoch": 0.4779917469050894,
      "grad_norm": 1.2621607780456543,
      "learning_rate": 9.94343100596764e-05,
      "loss": 0.95697803,
      "memory(GiB)": 67.71,
      "step": 695,
      "train_speed(iter/s)": 0.041775
    },
    {
      "acc": 0.73987064,
      "epoch": 0.4814305364511692,
      "grad_norm": 1.1854294538497925,
      "learning_rate": 9.941712418450258e-05,
      "loss": 0.94488659,
      "memory(GiB)": 67.71,
      "step": 700,
      "train_speed(iter/s)": 0.041901
    },
    {
      "epoch": 0.4814305364511692,
      "eval_acc": 0.7335672830341476,
      "eval_loss": 0.9757564663887024,
      "eval_runtime": 1129.274,
      "eval_samples_per_second": 3.793,
      "eval_steps_per_second": 0.068,
      "step": 700
    },
    {
      "acc": 0.73576145,
      "epoch": 0.48486932599724897,
      "grad_norm": 1.1550548076629639,
      "learning_rate": 9.939968267454743e-05,
      "loss": 0.95160465,
      "memory(GiB)": 67.71,
      "step": 705,
      "train_speed(iter/s)": 0.03937
    },
    {
      "acc": 0.71119275,
      "epoch": 0.48830811554332876,
      "grad_norm": 1.2182416915893555,
      "learning_rate": 9.938198562004501e-05,
      "loss": 1.04482851,
      "memory(GiB)": 67.71,
      "step": 710,
      "train_speed(iter/s)": 0.039477
    },
    {
      "acc": 0.74570274,
      "epoch": 0.49174690508940855,
      "grad_norm": 1.1353340148925781,
      "learning_rate": 9.936403311255144e-05,
      "loss": 0.92555218,
      "memory(GiB)": 67.71,
      "step": 715,
      "train_speed(iter/s)": 0.039603
    },
    {
      "acc": 0.74782338,
      "epoch": 0.4951856946354883,
      "grad_norm": 1.2046043872833252,
      "learning_rate": 9.934582524494446e-05,
      "loss": 0.92999516,
      "memory(GiB)": 67.71,
      "step": 720,
      "train_speed(iter/s)": 0.039731
    },
    {
      "acc": 0.73299646,
      "epoch": 0.4986244841815681,
      "grad_norm": 1.102347731590271,
      "learning_rate": 9.932736211142291e-05,
      "loss": 0.97149315,
      "memory(GiB)": 67.71,
      "step": 725,
      "train_speed(iter/s)": 0.03984
    },
    {
      "acc": 0.72648382,
      "epoch": 0.5020632737276479,
      "grad_norm": 1.0632636547088623,
      "learning_rate": 9.930864380750617e-05,
      "loss": 1.01790123,
      "memory(GiB)": 67.71,
      "step": 730,
      "train_speed(iter/s)": 0.039945
    },
    {
      "acc": 0.71636868,
      "epoch": 0.5055020632737276,
      "grad_norm": 1.1830312013626099,
      "learning_rate": 9.928967043003391e-05,
      "loss": 1.01803741,
      "memory(GiB)": 67.71,
      "step": 735,
      "train_speed(iter/s)": 0.040055
    },
    {
      "acc": 0.73447638,
      "epoch": 0.5089408528198074,
      "grad_norm": 1.1544054746627808,
      "learning_rate": 9.92704420771653e-05,
      "loss": 0.97713757,
      "memory(GiB)": 67.71,
      "step": 740,
      "train_speed(iter/s)": 0.040173
    },
    {
      "acc": 0.73799992,
      "epoch": 0.5123796423658872,
      "grad_norm": 1.0744158029556274,
      "learning_rate": 9.925095884837867e-05,
      "loss": 0.95858746,
      "memory(GiB)": 67.71,
      "step": 745,
      "train_speed(iter/s)": 0.040296
    },
    {
      "acc": 0.74002094,
      "epoch": 0.515818431911967,
      "grad_norm": 1.086005687713623,
      "learning_rate": 9.923122084447098e-05,
      "loss": 0.95759525,
      "memory(GiB)": 67.71,
      "step": 750,
      "train_speed(iter/s)": 0.040432
    },
    {
      "acc": 0.73197713,
      "epoch": 0.5192572214580468,
      "grad_norm": 1.177945852279663,
      "learning_rate": 9.921122816755725e-05,
      "loss": 0.98773813,
      "memory(GiB)": 67.71,
      "step": 755,
      "train_speed(iter/s)": 0.040536
    },
    {
      "acc": 0.71955528,
      "epoch": 0.5226960110041265,
      "grad_norm": 1.1270967721939087,
      "learning_rate": 9.919098092107003e-05,
      "loss": 1.0065423,
      "memory(GiB)": 67.71,
      "step": 760,
      "train_speed(iter/s)": 0.040641
    },
    {
      "acc": 0.72435188,
      "epoch": 0.5261348005502063,
      "grad_norm": 1.1566613912582397,
      "learning_rate": 9.917047920975897e-05,
      "loss": 1.00753899,
      "memory(GiB)": 67.71,
      "step": 765,
      "train_speed(iter/s)": 0.040761
    },
    {
      "acc": 0.72682076,
      "epoch": 0.5295735900962861,
      "grad_norm": 1.0998412370681763,
      "learning_rate": 9.914972313969015e-05,
      "loss": 0.99639912,
      "memory(GiB)": 67.71,
      "step": 770,
      "train_speed(iter/s)": 0.040857
    },
    {
      "acc": 0.73786283,
      "epoch": 0.5330123796423659,
      "grad_norm": 1.0717042684555054,
      "learning_rate": 9.912871281824555e-05,
      "loss": 0.95036526,
      "memory(GiB)": 67.71,
      "step": 775,
      "train_speed(iter/s)": 0.040955
    },
    {
      "acc": 0.72474022,
      "epoch": 0.5364511691884457,
      "grad_norm": 1.1307621002197266,
      "learning_rate": 9.910744835412258e-05,
      "loss": 1.00282173,
      "memory(GiB)": 67.71,
      "step": 780,
      "train_speed(iter/s)": 0.041067
    },
    {
      "acc": 0.73896732,
      "epoch": 0.5398899587345255,
      "grad_norm": 1.0760217905044556,
      "learning_rate": 9.908592985733346e-05,
      "loss": 0.95014591,
      "memory(GiB)": 67.71,
      "step": 785,
      "train_speed(iter/s)": 0.041189
    },
    {
      "acc": 0.73375082,
      "epoch": 0.5433287482806052,
      "grad_norm": 1.1228985786437988,
      "learning_rate": 9.90641574392046e-05,
      "loss": 0.97449379,
      "memory(GiB)": 67.71,
      "step": 790,
      "train_speed(iter/s)": 0.041296
    },
    {
      "acc": 0.73906136,
      "epoch": 0.546767537826685,
      "grad_norm": 1.0855998992919922,
      "learning_rate": 9.904213121237616e-05,
      "loss": 0.9437438,
      "memory(GiB)": 67.71,
      "step": 795,
      "train_speed(iter/s)": 0.041409
    },
    {
      "acc": 0.7277792,
      "epoch": 0.5502063273727648,
      "grad_norm": 1.24734365940094,
      "learning_rate": 9.90198512908013e-05,
      "loss": 1.01125345,
      "memory(GiB)": 67.71,
      "step": 800,
      "train_speed(iter/s)": 0.041532
    },
    {
      "epoch": 0.5502063273727648,
      "eval_acc": 0.736024879650875,
      "eval_loss": 0.9637655019760132,
      "eval_runtime": 1126.4376,
      "eval_samples_per_second": 3.802,
      "eval_steps_per_second": 0.068,
      "step": 800
    },
    {
      "acc": 0.75724821,
      "epoch": 0.5536451169188445,
      "grad_norm": 1.1258316040039062,
      "learning_rate": 9.899731778974572e-05,
      "loss": 0.87265921,
      "memory(GiB)": 67.71,
      "step": 805,
      "train_speed(iter/s)": 0.039349
    },
    {
      "acc": 0.74204683,
      "epoch": 0.5570839064649243,
      "grad_norm": 0.9689936637878418,
      "learning_rate": 9.897453082578703e-05,
      "loss": 0.91779423,
      "memory(GiB)": 67.71,
      "step": 810,
      "train_speed(iter/s)": 0.039466
    },
    {
      "acc": 0.73968034,
      "epoch": 0.5605226960110041,
      "grad_norm": 1.1123220920562744,
      "learning_rate": 9.895149051681413e-05,
      "loss": 0.97357388,
      "memory(GiB)": 67.71,
      "step": 815,
      "train_speed(iter/s)": 0.039574
    },
    {
      "acc": 0.73935227,
      "epoch": 0.5639614855570839,
      "grad_norm": 1.0451692342758179,
      "learning_rate": 9.892819698202658e-05,
      "loss": 0.93994102,
      "memory(GiB)": 67.71,
      "step": 820,
      "train_speed(iter/s)": 0.039675
    },
    {
      "acc": 0.73578658,
      "epoch": 0.5674002751031637,
      "grad_norm": 1.0823888778686523,
      "learning_rate": 9.890465034193403e-05,
      "loss": 0.92713509,
      "memory(GiB)": 67.71,
      "step": 825,
      "train_speed(iter/s)": 0.039784
    },
    {
      "acc": 0.7370616,
      "epoch": 0.5708390646492435,
      "grad_norm": 1.1076163053512573,
      "learning_rate": 9.888085071835557e-05,
      "loss": 0.96277084,
      "memory(GiB)": 67.71,
      "step": 830,
      "train_speed(iter/s)": 0.03987
    },
    {
      "acc": 0.74359312,
      "epoch": 0.5742778541953233,
      "grad_norm": 0.9995237588882446,
      "learning_rate": 9.885679823441913e-05,
      "loss": 0.92473927,
      "memory(GiB)": 67.71,
      "step": 835,
      "train_speed(iter/s)": 0.039986
    },
    {
      "acc": 0.73567324,
      "epoch": 0.5777166437414031,
      "grad_norm": 1.1980810165405273,
      "learning_rate": 9.883249301456078e-05,
      "loss": 0.97589169,
      "memory(GiB)": 67.71,
      "step": 840,
      "train_speed(iter/s)": 0.040091
    },
    {
      "acc": 0.72378907,
      "epoch": 0.5811554332874828,
      "grad_norm": 1.059746503829956,
      "learning_rate": 9.880793518452414e-05,
      "loss": 1.01202221,
      "memory(GiB)": 67.71,
      "step": 845,
      "train_speed(iter/s)": 0.040196
    },
    {
      "acc": 0.72781639,
      "epoch": 0.5845942228335625,
      "grad_norm": 1.1578445434570312,
      "learning_rate": 9.878312487135973e-05,
      "loss": 0.98674173,
      "memory(GiB)": 67.71,
      "step": 850,
      "train_speed(iter/s)": 0.040293
    },
    {
      "acc": 0.7325696,
      "epoch": 0.5880330123796423,
      "grad_norm": 1.1622587442398071,
      "learning_rate": 9.87580622034243e-05,
      "loss": 0.96467819,
      "memory(GiB)": 67.71,
      "step": 855,
      "train_speed(iter/s)": 0.040397
    },
    {
      "acc": 0.74238405,
      "epoch": 0.5914718019257221,
      "grad_norm": 1.221163034439087,
      "learning_rate": 9.873274731038013e-05,
      "loss": 0.94902515,
      "memory(GiB)": 67.71,
      "step": 860,
      "train_speed(iter/s)": 0.040497
    },
    {
      "acc": 0.73676643,
      "epoch": 0.5949105914718019,
      "grad_norm": 1.0908128023147583,
      "learning_rate": 9.87071803231944e-05,
      "loss": 0.94923353,
      "memory(GiB)": 67.71,
      "step": 865,
      "train_speed(iter/s)": 0.040613
    },
    {
      "acc": 0.7285512,
      "epoch": 0.5983493810178817,
      "grad_norm": 0.9778567552566528,
      "learning_rate": 9.868136137413854e-05,
      "loss": 0.99065866,
      "memory(GiB)": 67.71,
      "step": 870,
      "train_speed(iter/s)": 0.040705
    },
    {
      "acc": 0.75390539,
      "epoch": 0.6017881705639615,
      "grad_norm": 1.1204711198806763,
      "learning_rate": 9.865529059678749e-05,
      "loss": 0.89114456,
      "memory(GiB)": 67.71,
      "step": 875,
      "train_speed(iter/s)": 0.040815
    },
    {
      "acc": 0.72871351,
      "epoch": 0.6052269601100413,
      "grad_norm": 1.1295973062515259,
      "learning_rate": 9.8628968126019e-05,
      "loss": 0.97484636,
      "memory(GiB)": 67.71,
      "step": 880,
      "train_speed(iter/s)": 0.04091
    },
    {
      "acc": 0.75279789,
      "epoch": 0.6086657496561211,
      "grad_norm": 1.276840090751648,
      "learning_rate": 9.8602394098013e-05,
      "loss": 0.9101244,
      "memory(GiB)": 67.71,
      "step": 885,
      "train_speed(iter/s)": 0.041017
    },
    {
      "acc": 0.72960396,
      "epoch": 0.6121045392022009,
      "grad_norm": 1.1485203504562378,
      "learning_rate": 9.857556865025087e-05,
      "loss": 0.9954258,
      "memory(GiB)": 67.71,
      "step": 890,
      "train_speed(iter/s)": 0.041116
    },
    {
      "acc": 0.73271265,
      "epoch": 0.6155433287482807,
      "grad_norm": 1.2299952507019043,
      "learning_rate": 9.854849192151468e-05,
      "loss": 0.97523527,
      "memory(GiB)": 67.71,
      "step": 895,
      "train_speed(iter/s)": 0.041212
    },
    {
      "acc": 0.72924538,
      "epoch": 0.6189821182943603,
      "grad_norm": 1.1494402885437012,
      "learning_rate": 9.852116405188648e-05,
      "loss": 0.98907299,
      "memory(GiB)": 67.71,
      "step": 900,
      "train_speed(iter/s)": 0.041323
    },
    {
      "epoch": 0.6189821182943603,
      "eval_acc": 0.7370371620101678,
      "eval_loss": 0.9578044414520264,
      "eval_runtime": 1104.9055,
      "eval_samples_per_second": 3.876,
      "eval_steps_per_second": 0.07,
      "step": 900
    },
    {
      "acc": 0.72602391,
      "epoch": 0.6224209078404401,
      "grad_norm": 1.0728832483291626,
      "learning_rate": 9.849358518274771e-05,
      "loss": 1.01037588,
      "memory(GiB)": 67.71,
      "step": 905,
      "train_speed(iter/s)": 0.039428
    },
    {
      "acc": 0.7520565,
      "epoch": 0.6258596973865199,
      "grad_norm": 1.0786807537078857,
      "learning_rate": 9.846575545677823e-05,
      "loss": 0.92040062,
      "memory(GiB)": 67.71,
      "step": 910,
      "train_speed(iter/s)": 0.039534
    },
    {
      "acc": 0.74691858,
      "epoch": 0.6292984869325997,
      "grad_norm": 1.0437581539154053,
      "learning_rate": 9.843767501795583e-05,
      "loss": 0.9074029,
      "memory(GiB)": 67.71,
      "step": 915,
      "train_speed(iter/s)": 0.039631
    },
    {
      "acc": 0.73221941,
      "epoch": 0.6327372764786795,
      "grad_norm": 1.1795591115951538,
      "learning_rate": 9.840934401155528e-05,
      "loss": 0.988484,
      "memory(GiB)": 67.71,
      "step": 920,
      "train_speed(iter/s)": 0.039722
    },
    {
      "acc": 0.72777405,
      "epoch": 0.6361760660247593,
      "grad_norm": 1.1894828081130981,
      "learning_rate": 9.838076258414776e-05,
      "loss": 1.01051292,
      "memory(GiB)": 67.71,
      "step": 925,
      "train_speed(iter/s)": 0.039818
    },
    {
      "acc": 0.75026011,
      "epoch": 0.6396148555708391,
      "grad_norm": 0.9834104180335999,
      "learning_rate": 9.835193088359988e-05,
      "loss": 0.90967407,
      "memory(GiB)": 67.71,
      "step": 930,
      "train_speed(iter/s)": 0.0399
    },
    {
      "acc": 0.74026661,
      "epoch": 0.6430536451169189,
      "grad_norm": 1.2417614459991455,
      "learning_rate": 9.832284905907318e-05,
      "loss": 0.92580471,
      "memory(GiB)": 67.71,
      "step": 935,
      "train_speed(iter/s)": 0.03999
    },
    {
      "acc": 0.73846035,
      "epoch": 0.6464924346629987,
      "grad_norm": 1.1710271835327148,
      "learning_rate": 9.829351726102313e-05,
      "loss": 0.95107613,
      "memory(GiB)": 67.71,
      "step": 940,
      "train_speed(iter/s)": 0.040081
    },
    {
      "acc": 0.7366385,
      "epoch": 0.6499312242090785,
      "grad_norm": 1.0618470907211304,
      "learning_rate": 9.826393564119847e-05,
      "loss": 0.94500179,
      "memory(GiB)": 67.71,
      "step": 945,
      "train_speed(iter/s)": 0.040159
    },
    {
      "acc": 0.74606085,
      "epoch": 0.6533700137551581,
      "grad_norm": 1.0151257514953613,
      "learning_rate": 9.823410435264042e-05,
      "loss": 0.90975704,
      "memory(GiB)": 67.71,
      "step": 950,
      "train_speed(iter/s)": 0.040245
    },
    {
      "acc": 0.73123455,
      "epoch": 0.6568088033012379,
      "grad_norm": 1.1929761171340942,
      "learning_rate": 9.820402354968183e-05,
      "loss": 0.95826616,
      "memory(GiB)": 67.71,
      "step": 955,
      "train_speed(iter/s)": 0.040333
    },
    {
      "acc": 0.73816185,
      "epoch": 0.6602475928473177,
      "grad_norm": 1.240237832069397,
      "learning_rate": 9.817369338794646e-05,
      "loss": 0.94996367,
      "memory(GiB)": 67.71,
      "step": 960,
      "train_speed(iter/s)": 0.040436
    },
    {
      "acc": 0.74816332,
      "epoch": 0.6636863823933975,
      "grad_norm": 0.9286736845970154,
      "learning_rate": 9.81431140243481e-05,
      "loss": 0.90342827,
      "memory(GiB)": 67.71,
      "step": 965,
      "train_speed(iter/s)": 0.040521
    },
    {
      "acc": 0.74362345,
      "epoch": 0.6671251719394773,
      "grad_norm": 1.1020361185073853,
      "learning_rate": 9.811228561708979e-05,
      "loss": 0.92705402,
      "memory(GiB)": 67.71,
      "step": 970,
      "train_speed(iter/s)": 0.040625
    },
    {
      "acc": 0.73400373,
      "epoch": 0.6705639614855571,
      "grad_norm": 1.0580672025680542,
      "learning_rate": 9.808120832566306e-05,
      "loss": 0.98702965,
      "memory(GiB)": 67.71,
      "step": 975,
      "train_speed(iter/s)": 0.040726
    },
    {
      "acc": 0.71981792,
      "epoch": 0.6740027510316369,
      "grad_norm": 1.054178237915039,
      "learning_rate": 9.804988231084695e-05,
      "loss": 1.02396307,
      "memory(GiB)": 67.71,
      "step": 980,
      "train_speed(iter/s)": 0.040822
    },
    {
      "acc": 0.7412406,
      "epoch": 0.6774415405777167,
      "grad_norm": 1.064276933670044,
      "learning_rate": 9.801830773470738e-05,
      "loss": 0.92902575,
      "memory(GiB)": 67.71,
      "step": 985,
      "train_speed(iter/s)": 0.040901
    },
    {
      "acc": 0.73765955,
      "epoch": 0.6808803301237965,
      "grad_norm": 1.02224862575531,
      "learning_rate": 9.798648476059612e-05,
      "loss": 0.96069899,
      "memory(GiB)": 67.71,
      "step": 990,
      "train_speed(iter/s)": 0.040989
    },
    {
      "acc": 0.72184877,
      "epoch": 0.6843191196698762,
      "grad_norm": 1.10880446434021,
      "learning_rate": 9.795441355315009e-05,
      "loss": 1.00857792,
      "memory(GiB)": 67.71,
      "step": 995,
      "train_speed(iter/s)": 0.041069
    },
    {
      "acc": 0.75687084,
      "epoch": 0.687757909215956,
      "grad_norm": 1.0748587846755981,
      "learning_rate": 9.792209427829044e-05,
      "loss": 0.89921093,
      "memory(GiB)": 67.71,
      "step": 1000,
      "train_speed(iter/s)": 0.041172
    },
    {
      "epoch": 0.687757909215956,
      "eval_acc": 0.739815314707338,
      "eval_loss": 0.9472519159317017,
      "eval_runtime": 1138.6289,
      "eval_samples_per_second": 3.762,
      "eval_steps_per_second": 0.068,
      "step": 1000
    },
    {
      "acc": 0.74216719,
      "epoch": 0.6911966987620357,
      "grad_norm": 0.9975650906562805,
      "learning_rate": 9.788952710322168e-05,
      "loss": 0.92038422,
      "memory(GiB)": 67.71,
      "step": 1005,
      "train_speed(iter/s)": 0.039418
    },
    {
      "acc": 0.73918667,
      "epoch": 0.6946354883081155,
      "grad_norm": 1.167277455329895,
      "learning_rate": 9.785671219643086e-05,
      "loss": 0.95244484,
      "memory(GiB)": 67.71,
      "step": 1010,
      "train_speed(iter/s)": 0.039509
    },
    {
      "acc": 0.74078741,
      "epoch": 0.6980742778541953,
      "grad_norm": 1.1248480081558228,
      "learning_rate": 9.782364972768667e-05,
      "loss": 0.95239239,
      "memory(GiB)": 67.71,
      "step": 1015,
      "train_speed(iter/s)": 0.039611
    },
    {
      "acc": 0.73078346,
      "epoch": 0.7015130674002751,
      "grad_norm": 1.1177655458450317,
      "learning_rate": 9.779033986803856e-05,
      "loss": 0.97850962,
      "memory(GiB)": 67.71,
      "step": 1020,
      "train_speed(iter/s)": 0.039689
    },
    {
      "acc": 0.72922001,
      "epoch": 0.7049518569463549,
      "grad_norm": 1.025723934173584,
      "learning_rate": 9.775678278981587e-05,
      "loss": 0.97461071,
      "memory(GiB)": 67.71,
      "step": 1025,
      "train_speed(iter/s)": 0.039762
    },
    {
      "acc": 0.74167843,
      "epoch": 0.7083906464924347,
      "grad_norm": 1.0677716732025146,
      "learning_rate": 9.772297866662694e-05,
      "loss": 0.93668747,
      "memory(GiB)": 67.71,
      "step": 1030,
      "train_speed(iter/s)": 0.039851
    },
    {
      "acc": 0.73580718,
      "epoch": 0.7118294360385145,
      "grad_norm": 1.071346402168274,
      "learning_rate": 9.768892767335818e-05,
      "loss": 0.94455872,
      "memory(GiB)": 67.71,
      "step": 1035,
      "train_speed(iter/s)": 0.03994
    },
    {
      "acc": 0.73037386,
      "epoch": 0.7152682255845942,
      "grad_norm": 1.1164538860321045,
      "learning_rate": 9.76546299861732e-05,
      "loss": 0.96749563,
      "memory(GiB)": 67.71,
      "step": 1040,
      "train_speed(iter/s)": 0.040026
    },
    {
      "acc": 0.73348866,
      "epoch": 0.718707015130674,
      "grad_norm": 1.016825556755066,
      "learning_rate": 9.76200857825119e-05,
      "loss": 0.97527409,
      "memory(GiB)": 67.71,
      "step": 1045,
      "train_speed(iter/s)": 0.040097
    },
    {
      "acc": 0.74810896,
      "epoch": 0.7221458046767538,
      "grad_norm": 1.0394419431686401,
      "learning_rate": 9.758529524108952e-05,
      "loss": 0.91727133,
      "memory(GiB)": 67.71,
      "step": 1050,
      "train_speed(iter/s)": 0.040188
    },
    {
      "acc": 0.7377789,
      "epoch": 0.7255845942228336,
      "grad_norm": 1.2021335363388062,
      "learning_rate": 9.755025854189574e-05,
      "loss": 0.96904411,
      "memory(GiB)": 67.71,
      "step": 1055,
      "train_speed(iter/s)": 0.040268
    },
    {
      "acc": 0.7272027,
      "epoch": 0.7290233837689133,
      "grad_norm": 1.012821912765503,
      "learning_rate": 9.751497586619374e-05,
      "loss": 0.9858429,
      "memory(GiB)": 67.71,
      "step": 1060,
      "train_speed(iter/s)": 0.040336
    },
    {
      "acc": 0.73458595,
      "epoch": 0.7324621733149931,
      "grad_norm": 1.1023552417755127,
      "learning_rate": 9.747944739651928e-05,
      "loss": 0.95475712,
      "memory(GiB)": 67.71,
      "step": 1065,
      "train_speed(iter/s)": 0.04042
    },
    {
      "acc": 0.74384351,
      "epoch": 0.7359009628610729,
      "grad_norm": 1.1670334339141846,
      "learning_rate": 9.744367331667972e-05,
      "loss": 0.90986481,
      "memory(GiB)": 67.71,
      "step": 1070,
      "train_speed(iter/s)": 0.040504
    },
    {
      "acc": 0.74164953,
      "epoch": 0.7393397524071527,
      "grad_norm": 1.1003512144088745,
      "learning_rate": 9.740765381175308e-05,
      "loss": 0.95252619,
      "memory(GiB)": 67.71,
      "step": 1075,
      "train_speed(iter/s)": 0.040585
    },
    {
      "acc": 0.72832394,
      "epoch": 0.7427785419532325,
      "grad_norm": 1.141493320465088,
      "learning_rate": 9.737138906808716e-05,
      "loss": 0.9896246,
      "memory(GiB)": 67.71,
      "step": 1080,
      "train_speed(iter/s)": 0.040669
    },
    {
      "acc": 0.75672712,
      "epoch": 0.7462173314993122,
      "grad_norm": 1.0548261404037476,
      "learning_rate": 9.733487927329842e-05,
      "loss": 0.89013748,
      "memory(GiB)": 67.71,
      "step": 1085,
      "train_speed(iter/s)": 0.040758
    },
    {
      "acc": 0.74028645,
      "epoch": 0.749656121045392,
      "grad_norm": 1.058765172958374,
      "learning_rate": 9.729812461627116e-05,
      "loss": 0.9446207,
      "memory(GiB)": 67.71,
      "step": 1090,
      "train_speed(iter/s)": 0.040824
    },
    {
      "acc": 0.74290891,
      "epoch": 0.7530949105914718,
      "grad_norm": 1.0750882625579834,
      "learning_rate": 9.726112528715645e-05,
      "loss": 0.93429804,
      "memory(GiB)": 67.71,
      "step": 1095,
      "train_speed(iter/s)": 0.040904
    },
    {
      "acc": 0.74171824,
      "epoch": 0.7565337001375516,
      "grad_norm": 1.1232870817184448,
      "learning_rate": 9.722388147737117e-05,
      "loss": 0.9356823,
      "memory(GiB)": 67.71,
      "step": 1100,
      "train_speed(iter/s)": 0.040982
    },
    {
      "epoch": 0.7565337001375516,
      "eval_acc": 0.7418005128897287,
      "eval_loss": 0.9385226964950562,
      "eval_runtime": 1120.0428,
      "eval_samples_per_second": 3.824,
      "eval_steps_per_second": 0.069,
      "step": 1100
    },
    {
      "acc": 0.73683257,
      "epoch": 0.7599724896836314,
      "grad_norm": 1.0508232116699219,
      "learning_rate": 9.718639337959709e-05,
      "loss": 0.95805416,
      "memory(GiB)": 67.71,
      "step": 1105,
      "train_speed(iter/s)": 0.03942
    },
    {
      "acc": 0.74061327,
      "epoch": 0.7634112792297112,
      "grad_norm": 1.0770542621612549,
      "learning_rate": 9.714866118777971e-05,
      "loss": 0.92782459,
      "memory(GiB)": 67.71,
      "step": 1110,
      "train_speed(iter/s)": 0.039509
    },
    {
      "acc": 0.72901726,
      "epoch": 0.7668500687757909,
      "grad_norm": 1.104008674621582,
      "learning_rate": 9.711068509712744e-05,
      "loss": 0.99297533,
      "memory(GiB)": 67.71,
      "step": 1115,
      "train_speed(iter/s)": 0.039593
    },
    {
      "acc": 0.73747034,
      "epoch": 0.7702888583218707,
      "grad_norm": 1.1213022470474243,
      "learning_rate": 9.707246530411045e-05,
      "loss": 0.96422043,
      "memory(GiB)": 67.71,
      "step": 1120,
      "train_speed(iter/s)": 0.039669
    },
    {
      "acc": 0.75132704,
      "epoch": 0.7737276478679505,
      "grad_norm": 0.9887475967407227,
      "learning_rate": 9.703400200645976e-05,
      "loss": 0.90485935,
      "memory(GiB)": 67.71,
      "step": 1125,
      "train_speed(iter/s)": 0.039747
    },
    {
      "acc": 0.74963489,
      "epoch": 0.7771664374140302,
      "grad_norm": 1.105952501296997,
      "learning_rate": 9.69952954031661e-05,
      "loss": 0.89224911,
      "memory(GiB)": 67.71,
      "step": 1130,
      "train_speed(iter/s)": 0.039821
    },
    {
      "acc": 0.73749495,
      "epoch": 0.78060522696011,
      "grad_norm": 1.140572428703308,
      "learning_rate": 9.695634569447904e-05,
      "loss": 0.9487175,
      "memory(GiB)": 67.71,
      "step": 1135,
      "train_speed(iter/s)": 0.039888
    },
    {
      "acc": 0.7312088,
      "epoch": 0.7840440165061898,
      "grad_norm": 1.1275548934936523,
      "learning_rate": 9.691715308190576e-05,
      "loss": 0.96534138,
      "memory(GiB)": 67.71,
      "step": 1140,
      "train_speed(iter/s)": 0.039959
    },
    {
      "acc": 0.73048372,
      "epoch": 0.7874828060522696,
      "grad_norm": 1.0315409898757935,
      "learning_rate": 9.68777177682102e-05,
      "loss": 0.97743053,
      "memory(GiB)": 67.71,
      "step": 1145,
      "train_speed(iter/s)": 0.040036
    },
    {
      "acc": 0.72779579,
      "epoch": 0.7909215955983494,
      "grad_norm": 0.9368631839752197,
      "learning_rate": 9.683803995741186e-05,
      "loss": 0.98139448,
      "memory(GiB)": 67.71,
      "step": 1150,
      "train_speed(iter/s)": 0.040117
    },
    {
      "acc": 0.74332333,
      "epoch": 0.7943603851444292,
      "grad_norm": 1.1103096008300781,
      "learning_rate": 9.679811985478483e-05,
      "loss": 0.9456337,
      "memory(GiB)": 67.71,
      "step": 1155,
      "train_speed(iter/s)": 0.040199
    },
    {
      "acc": 0.73605175,
      "epoch": 0.797799174690509,
      "grad_norm": 0.9985005259513855,
      "learning_rate": 9.675795766685669e-05,
      "loss": 0.94118538,
      "memory(GiB)": 67.71,
      "step": 1160,
      "train_speed(iter/s)": 0.040265
    },
    {
      "acc": 0.7368608,
      "epoch": 0.8012379642365888,
      "grad_norm": 1.086758017539978,
      "learning_rate": 9.671755360140746e-05,
      "loss": 0.94844141,
      "memory(GiB)": 67.71,
      "step": 1165,
      "train_speed(iter/s)": 0.040343
    },
    {
      "acc": 0.74641371,
      "epoch": 0.8046767537826685,
      "grad_norm": 0.9669944643974304,
      "learning_rate": 9.667690786746852e-05,
      "loss": 0.91691303,
      "memory(GiB)": 67.71,
      "step": 1170,
      "train_speed(iter/s)": 0.040416
    },
    {
      "acc": 0.74651995,
      "epoch": 0.8081155433287482,
      "grad_norm": 1.0597587823867798,
      "learning_rate": 9.663602067532151e-05,
      "loss": 0.91813259,
      "memory(GiB)": 67.71,
      "step": 1175,
      "train_speed(iter/s)": 0.040502
    },
    {
      "acc": 0.73420897,
      "epoch": 0.811554332874828,
      "grad_norm": 1.1257351636886597,
      "learning_rate": 9.659489223649731e-05,
      "loss": 0.97081699,
      "memory(GiB)": 67.71,
      "step": 1180,
      "train_speed(iter/s)": 0.040572
    },
    {
      "acc": 0.76278071,
      "epoch": 0.8149931224209078,
      "grad_norm": 1.0399693250656128,
      "learning_rate": 9.655352276377484e-05,
      "loss": 0.85249825,
      "memory(GiB)": 67.71,
      "step": 1185,
      "train_speed(iter/s)": 0.040662
    },
    {
      "acc": 0.74080434,
      "epoch": 0.8184319119669876,
      "grad_norm": 1.104978322982788,
      "learning_rate": 9.651191247118003e-05,
      "loss": 0.93528318,
      "memory(GiB)": 67.71,
      "step": 1190,
      "train_speed(iter/s)": 0.040735
    },
    {
      "acc": 0.7570159,
      "epoch": 0.8218707015130674,
      "grad_norm": 1.1633975505828857,
      "learning_rate": 9.647006157398471e-05,
      "loss": 0.8937582,
      "memory(GiB)": 67.71,
      "step": 1195,
      "train_speed(iter/s)": 0.040819
    },
    {
      "acc": 0.75301266,
      "epoch": 0.8253094910591472,
      "grad_norm": 1.0719282627105713,
      "learning_rate": 9.642797028870549e-05,
      "loss": 0.87665348,
      "memory(GiB)": 67.71,
      "step": 1200,
      "train_speed(iter/s)": 0.040893
    },
    {
      "epoch": 0.8253094910591472,
      "eval_acc": 0.7415305709272506,
      "eval_loss": 0.9332711100578308,
      "eval_runtime": 1102.5228,
      "eval_samples_per_second": 3.885,
      "eval_steps_per_second": 0.07,
      "step": 1200
    },
    {
      "acc": 0.73832102,
      "epoch": 0.828748280605227,
      "grad_norm": 1.1222566366195679,
      "learning_rate": 9.63856388331026e-05,
      "loss": 0.92794905,
      "memory(GiB)": 67.71,
      "step": 1205,
      "train_speed(iter/s)": 0.039487
    },
    {
      "acc": 0.74549799,
      "epoch": 0.8321870701513068,
      "grad_norm": 1.0469160079956055,
      "learning_rate": 9.634306742617881e-05,
      "loss": 0.91989012,
      "memory(GiB)": 67.71,
      "step": 1210,
      "train_speed(iter/s)": 0.039561
    },
    {
      "acc": 0.73400946,
      "epoch": 0.8356258596973866,
      "grad_norm": 1.1092973947525024,
      "learning_rate": 9.630025628817833e-05,
      "loss": 0.96797295,
      "memory(GiB)": 67.71,
      "step": 1215,
      "train_speed(iter/s)": 0.039633
    },
    {
      "acc": 0.74465179,
      "epoch": 0.8390646492434664,
      "grad_norm": 1.0476914644241333,
      "learning_rate": 9.625720564058553e-05,
      "loss": 0.9328536,
      "memory(GiB)": 67.71,
      "step": 1220,
      "train_speed(iter/s)": 0.039708
    },
    {
      "acc": 0.7472661,
      "epoch": 0.842503438789546,
      "grad_norm": 1.002954363822937,
      "learning_rate": 9.6213915706124e-05,
      "loss": 0.90329132,
      "memory(GiB)": 67.71,
      "step": 1225,
      "train_speed(iter/s)": 0.039779
    },
    {
      "acc": 0.73477154,
      "epoch": 0.8459422283356258,
      "grad_norm": 1.1124727725982666,
      "learning_rate": 9.617038670875518e-05,
      "loss": 0.97662973,
      "memory(GiB)": 67.71,
      "step": 1230,
      "train_speed(iter/s)": 0.039851
    },
    {
      "acc": 0.7584034,
      "epoch": 0.8493810178817056,
      "grad_norm": 0.9963657855987549,
      "learning_rate": 9.612661887367738e-05,
      "loss": 0.87994137,
      "memory(GiB)": 67.71,
      "step": 1235,
      "train_speed(iter/s)": 0.03993
    },
    {
      "acc": 0.74326572,
      "epoch": 0.8528198074277854,
      "grad_norm": 1.0891412496566772,
      "learning_rate": 9.608261242732453e-05,
      "loss": 0.92397137,
      "memory(GiB)": 67.71,
      "step": 1240,
      "train_speed(iter/s)": 0.039998
    },
    {
      "acc": 0.74097652,
      "epoch": 0.8562585969738652,
      "grad_norm": 0.9601296186447144,
      "learning_rate": 9.603836759736501e-05,
      "loss": 0.92762499,
      "memory(GiB)": 67.71,
      "step": 1245,
      "train_speed(iter/s)": 0.040067
    },
    {
      "acc": 0.74741158,
      "epoch": 0.859697386519945,
      "grad_norm": 1.0737489461898804,
      "learning_rate": 9.599388461270046e-05,
      "loss": 0.89353437,
      "memory(GiB)": 67.71,
      "step": 1250,
      "train_speed(iter/s)": 0.040137
    },
    {
      "acc": 0.7489872,
      "epoch": 0.8631361760660248,
      "grad_norm": 0.8971010446548462,
      "learning_rate": 9.594916370346464e-05,
      "loss": 0.9029624,
      "memory(GiB)": 67.71,
      "step": 1255,
      "train_speed(iter/s)": 0.040204
    },
    {
      "acc": 0.76023664,
      "epoch": 0.8665749656121046,
      "grad_norm": 1.1241250038146973,
      "learning_rate": 9.590420510102226e-05,
      "loss": 0.87794628,
      "memory(GiB)": 67.71,
      "step": 1260,
      "train_speed(iter/s)": 0.040279
    },
    {
      "acc": 0.73114996,
      "epoch": 0.8700137551581844,
      "grad_norm": 1.2173177003860474,
      "learning_rate": 9.585900903796766e-05,
      "loss": 0.97089109,
      "memory(GiB)": 67.71,
      "step": 1265,
      "train_speed(iter/s)": 0.040357
    },
    {
      "acc": 0.74563522,
      "epoch": 0.8734525447042641,
      "grad_norm": 1.1517419815063477,
      "learning_rate": 9.581357574812375e-05,
      "loss": 0.89781647,
      "memory(GiB)": 67.71,
      "step": 1270,
      "train_speed(iter/s)": 0.040428
    },
    {
      "acc": 0.77028093,
      "epoch": 0.8768913342503438,
      "grad_norm": 1.0377655029296875,
      "learning_rate": 9.576790546654071e-05,
      "loss": 0.85278912,
      "memory(GiB)": 67.71,
      "step": 1275,
      "train_speed(iter/s)": 0.040497
    },
    {
      "acc": 0.73771534,
      "epoch": 0.8803301237964236,
      "grad_norm": 1.3595341444015503,
      "learning_rate": 9.572199842949484e-05,
      "loss": 0.94212608,
      "memory(GiB)": 67.71,
      "step": 1280,
      "train_speed(iter/s)": 0.04057
    },
    {
      "acc": 0.73818164,
      "epoch": 0.8837689133425034,
      "grad_norm": 1.0683890581130981,
      "learning_rate": 9.567585487448723e-05,
      "loss": 0.94818478,
      "memory(GiB)": 67.71,
      "step": 1285,
      "train_speed(iter/s)": 0.040642
    },
    {
      "acc": 0.73784003,
      "epoch": 0.8872077028885832,
      "grad_norm": 1.0474903583526611,
      "learning_rate": 9.562947504024267e-05,
      "loss": 0.93362265,
      "memory(GiB)": 67.71,
      "step": 1290,
      "train_speed(iter/s)": 0.040707
    },
    {
      "acc": 0.73629189,
      "epoch": 0.890646492434663,
      "grad_norm": 0.9906838536262512,
      "learning_rate": 9.558285916670833e-05,
      "loss": 0.96513948,
      "memory(GiB)": 67.71,
      "step": 1295,
      "train_speed(iter/s)": 0.04077
    },
    {
      "acc": 0.74767346,
      "epoch": 0.8940852819807428,
      "grad_norm": 0.937610924243927,
      "learning_rate": 9.553600749505249e-05,
      "loss": 0.91039581,
      "memory(GiB)": 67.71,
      "step": 1300,
      "train_speed(iter/s)": 0.040841
    },
    {
      "epoch": 0.8940852819807428,
      "eval_acc": 0.7442806046699959,
      "eval_loss": 0.9251495003700256,
      "eval_runtime": 1163.3237,
      "eval_samples_per_second": 3.682,
      "eval_steps_per_second": 0.066,
      "step": 1300
    },
    {
      "acc": 0.75481806,
      "epoch": 0.8975240715268226,
      "grad_norm": 1.093235969543457,
      "learning_rate": 9.548892026766336e-05,
      "loss": 0.89359856,
      "memory(GiB)": 67.71,
      "step": 1305,
      "train_speed(iter/s)": 0.039469
    },
    {
      "acc": 0.7461483,
      "epoch": 0.9009628610729024,
      "grad_norm": 1.1600829362869263,
      "learning_rate": 9.544159772814784e-05,
      "loss": 0.92318993,
      "memory(GiB)": 67.71,
      "step": 1310,
      "train_speed(iter/s)": 0.039531
    },
    {
      "acc": 0.74466972,
      "epoch": 0.9044016506189821,
      "grad_norm": 1.0172392129898071,
      "learning_rate": 9.539404012133022e-05,
      "loss": 0.92656469,
      "memory(GiB)": 67.71,
      "step": 1315,
      "train_speed(iter/s)": 0.039601
    },
    {
      "acc": 0.74887996,
      "epoch": 0.9078404401650619,
      "grad_norm": 1.0804096460342407,
      "learning_rate": 9.534624769325086e-05,
      "loss": 0.9098074,
      "memory(GiB)": 67.71,
      "step": 1320,
      "train_speed(iter/s)": 0.039666
    },
    {
      "acc": 0.74121346,
      "epoch": 0.9112792297111417,
      "grad_norm": 0.9664003849029541,
      "learning_rate": 9.529822069116499e-05,
      "loss": 0.9316514,
      "memory(GiB)": 67.71,
      "step": 1325,
      "train_speed(iter/s)": 0.039723
    },
    {
      "acc": 0.75105286,
      "epoch": 0.9147180192572214,
      "grad_norm": 0.9869258999824524,
      "learning_rate": 9.524995936354147e-05,
      "loss": 0.88554888,
      "memory(GiB)": 67.71,
      "step": 1330,
      "train_speed(iter/s)": 0.039787
    },
    {
      "acc": 0.73669834,
      "epoch": 0.9181568088033012,
      "grad_norm": 1.0221189260482788,
      "learning_rate": 9.520146396006138e-05,
      "loss": 0.96149244,
      "memory(GiB)": 67.71,
      "step": 1335,
      "train_speed(iter/s)": 0.03984
    },
    {
      "acc": 0.73676386,
      "epoch": 0.921595598349381,
      "grad_norm": 1.1528207063674927,
      "learning_rate": 9.515273473161683e-05,
      "loss": 0.96016941,
      "memory(GiB)": 67.71,
      "step": 1340,
      "train_speed(iter/s)": 0.039908
    },
    {
      "acc": 0.74311166,
      "epoch": 0.9250343878954608,
      "grad_norm": 1.161664366722107,
      "learning_rate": 9.510377193030963e-05,
      "loss": 0.93340931,
      "memory(GiB)": 67.71,
      "step": 1345,
      "train_speed(iter/s)": 0.039969
    },
    {
      "acc": 0.7412838,
      "epoch": 0.9284731774415406,
      "grad_norm": 1.1524734497070312,
      "learning_rate": 9.505457580944998e-05,
      "loss": 0.94830551,
      "memory(GiB)": 67.71,
      "step": 1350,
      "train_speed(iter/s)": 0.040033
    },
    {
      "acc": 0.7353076,
      "epoch": 0.9319119669876204,
      "grad_norm": 0.991431474685669,
      "learning_rate": 9.500514662355515e-05,
      "loss": 0.94869709,
      "memory(GiB)": 67.71,
      "step": 1355,
      "train_speed(iter/s)": 0.040099
    },
    {
      "acc": 0.74592419,
      "epoch": 0.9353507565337001,
      "grad_norm": 0.9828781485557556,
      "learning_rate": 9.495548462834822e-05,
      "loss": 0.91297379,
      "memory(GiB)": 67.71,
      "step": 1360,
      "train_speed(iter/s)": 0.040166
    },
    {
      "acc": 0.72816801,
      "epoch": 0.9387895460797799,
      "grad_norm": 0.9917466640472412,
      "learning_rate": 9.490559008075665e-05,
      "loss": 0.97318478,
      "memory(GiB)": 67.71,
      "step": 1365,
      "train_speed(iter/s)": 0.040224
    },
    {
      "acc": 0.75423832,
      "epoch": 0.9422283356258597,
      "grad_norm": 1.021081566810608,
      "learning_rate": 9.485546323891107e-05,
      "loss": 0.88315115,
      "memory(GiB)": 67.71,
      "step": 1370,
      "train_speed(iter/s)": 0.040286
    },
    {
      "acc": 0.74885693,
      "epoch": 0.9456671251719395,
      "grad_norm": 1.1856554746627808,
      "learning_rate": 9.480510436214387e-05,
      "loss": 0.91739559,
      "memory(GiB)": 67.71,
      "step": 1375,
      "train_speed(iter/s)": 0.040345
    },
    {
      "acc": 0.7300355,
      "epoch": 0.9491059147180193,
      "grad_norm": 0.9983332753181458,
      "learning_rate": 9.475451371098787e-05,
      "loss": 0.96374044,
      "memory(GiB)": 67.71,
      "step": 1380,
      "train_speed(iter/s)": 0.040398
    },
    {
      "acc": 0.76302462,
      "epoch": 0.952544704264099,
      "grad_norm": 1.0011341571807861,
      "learning_rate": 9.470369154717498e-05,
      "loss": 0.86735439,
      "memory(GiB)": 67.71,
      "step": 1385,
      "train_speed(iter/s)": 0.040463
    },
    {
      "acc": 0.74582882,
      "epoch": 0.9559834938101788,
      "grad_norm": 1.051133394241333,
      "learning_rate": 9.465263813363488e-05,
      "loss": 0.90945959,
      "memory(GiB)": 67.71,
      "step": 1390,
      "train_speed(iter/s)": 0.040529
    },
    {
      "acc": 0.74545488,
      "epoch": 0.9594222833562586,
      "grad_norm": 1.0635967254638672,
      "learning_rate": 9.460135373449359e-05,
      "loss": 0.92096958,
      "memory(GiB)": 67.71,
      "step": 1395,
      "train_speed(iter/s)": 0.0406
    },
    {
      "acc": 0.7286293,
      "epoch": 0.9628610729023384,
      "grad_norm": 1.146252155303955,
      "learning_rate": 9.454983861507213e-05,
      "loss": 0.98950424,
      "memory(GiB)": 67.71,
      "step": 1400,
      "train_speed(iter/s)": 0.040657
    },
    {
      "epoch": 0.9628610729023384,
      "eval_acc": 0.7448486075493769,
      "eval_loss": 0.9200888872146606,
      "eval_runtime": 1140.3609,
      "eval_samples_per_second": 3.756,
      "eval_steps_per_second": 0.068,
      "step": 1400
    },
    {
      "acc": 0.73903141,
      "epoch": 0.9662998624484181,
      "grad_norm": 1.1544698476791382,
      "learning_rate": 9.44980930418852e-05,
      "loss": 0.94653835,
      "memory(GiB)": 67.71,
      "step": 1405,
      "train_speed(iter/s)": 0.039418
    },
    {
      "acc": 0.73803802,
      "epoch": 0.9697386519944979,
      "grad_norm": 1.1627522706985474,
      "learning_rate": 9.444611728263972e-05,
      "loss": 0.92657709,
      "memory(GiB)": 67.71,
      "step": 1410,
      "train_speed(iter/s)": 0.039486
    },
    {
      "acc": 0.74716005,
      "epoch": 0.9731774415405777,
      "grad_norm": 1.0238428115844727,
      "learning_rate": 9.439391160623352e-05,
      "loss": 0.91622248,
      "memory(GiB)": 67.71,
      "step": 1415,
      "train_speed(iter/s)": 0.039543
    },
    {
      "acc": 0.72584734,
      "epoch": 0.9766162310866575,
      "grad_norm": 1.0079649686813354,
      "learning_rate": 9.434147628275387e-05,
      "loss": 0.99349623,
      "memory(GiB)": 67.71,
      "step": 1420,
      "train_speed(iter/s)": 0.039598
    },
    {
      "acc": 0.74595861,
      "epoch": 0.9800550206327373,
      "grad_norm": 0.93181973695755,
      "learning_rate": 9.428881158347614e-05,
      "loss": 0.90428505,
      "memory(GiB)": 67.71,
      "step": 1425,
      "train_speed(iter/s)": 0.039658
    },
    {
      "acc": 0.74024305,
      "epoch": 0.9834938101788171,
      "grad_norm": 1.0997734069824219,
      "learning_rate": 9.42359177808624e-05,
      "loss": 0.92796974,
      "memory(GiB)": 67.71,
      "step": 1430,
      "train_speed(iter/s)": 0.039723
    },
    {
      "acc": 0.75488276,
      "epoch": 0.9869325997248969,
      "grad_norm": 1.075714111328125,
      "learning_rate": 9.418279514855995e-05,
      "loss": 0.88083801,
      "memory(GiB)": 67.71,
      "step": 1435,
      "train_speed(iter/s)": 0.039792
    },
    {
      "acc": 0.75168705,
      "epoch": 0.9903713892709766,
      "grad_norm": 1.039860486984253,
      "learning_rate": 9.412944396139998e-05,
      "loss": 0.89997187,
      "memory(GiB)": 67.71,
      "step": 1440,
      "train_speed(iter/s)": 0.039851
    },
    {
      "acc": 0.74686685,
      "epoch": 0.9938101788170564,
      "grad_norm": 0.9597694277763367,
      "learning_rate": 9.407586449539616e-05,
      "loss": 0.90008278,
      "memory(GiB)": 67.71,
      "step": 1445,
      "train_speed(iter/s)": 0.039911
    },
    {
      "acc": 0.74714336,
      "epoch": 0.9972489683631361,
      "grad_norm": 1.0538160800933838,
      "learning_rate": 9.402205702774304e-05,
      "loss": 0.89391537,
      "memory(GiB)": 67.71,
      "step": 1450,
      "train_speed(iter/s)": 0.039977
    },
    {
      "acc": 0.74310694,
      "epoch": 1.000687757909216,
      "grad_norm": 1.170095443725586,
      "learning_rate": 9.396802183681483e-05,
      "loss": 0.9227499,
      "memory(GiB)": 67.71,
      "step": 1455,
      "train_speed(iter/s)": 0.039992
    },
    {
      "acc": 0.75078964,
      "epoch": 1.0041265474552958,
      "grad_norm": 0.9855571985244751,
      "learning_rate": 9.391375920216388e-05,
      "loss": 0.86350327,
      "memory(GiB)": 67.71,
      "step": 1460,
      "train_speed(iter/s)": 0.040045
    },
    {
      "acc": 0.76349792,
      "epoch": 1.0075653370013755,
      "grad_norm": 1.0560338497161865,
      "learning_rate": 9.38592694045192e-05,
      "loss": 0.8352499,
      "memory(GiB)": 67.71,
      "step": 1465,
      "train_speed(iter/s)": 0.040102
    },
    {
      "acc": 0.75685053,
      "epoch": 1.0110041265474552,
      "grad_norm": 1.2401360273361206,
      "learning_rate": 9.380455272578501e-05,
      "loss": 0.86346865,
      "memory(GiB)": 67.71,
      "step": 1470,
      "train_speed(iter/s)": 0.040151
    },
    {
      "acc": 0.74811668,
      "epoch": 1.014442916093535,
      "grad_norm": 1.0885376930236816,
      "learning_rate": 9.374960944903933e-05,
      "loss": 0.90040436,
      "memory(GiB)": 67.71,
      "step": 1475,
      "train_speed(iter/s)": 0.04021
    },
    {
      "acc": 0.76131544,
      "epoch": 1.0178817056396148,
      "grad_norm": 1.10344660282135,
      "learning_rate": 9.36944398585325e-05,
      "loss": 0.84312658,
      "memory(GiB)": 67.71,
      "step": 1480,
      "train_speed(iter/s)": 0.040266
    },
    {
      "acc": 0.76296844,
      "epoch": 1.0213204951856947,
      "grad_norm": 0.9839646816253662,
      "learning_rate": 9.36390442396857e-05,
      "loss": 0.83021584,
      "memory(GiB)": 67.71,
      "step": 1485,
      "train_speed(iter/s)": 0.040327
    },
    {
      "acc": 0.75224285,
      "epoch": 1.0247592847317744,
      "grad_norm": 1.2059285640716553,
      "learning_rate": 9.358342287908944e-05,
      "loss": 0.90571365,
      "memory(GiB)": 67.71,
      "step": 1490,
      "train_speed(iter/s)": 0.040386
    },
    {
      "acc": 0.75849729,
      "epoch": 1.0281980742778543,
      "grad_norm": 1.134822130203247,
      "learning_rate": 9.352757606450213e-05,
      "loss": 0.86388903,
      "memory(GiB)": 67.71,
      "step": 1495,
      "train_speed(iter/s)": 0.040446
    },
    {
      "acc": 0.757271,
      "epoch": 1.031636863823934,
      "grad_norm": 1.153064489364624,
      "learning_rate": 9.34715040848486e-05,
      "loss": 0.86167965,
      "memory(GiB)": 67.71,
      "step": 1500,
      "train_speed(iter/s)": 0.040505
    },
    {
      "epoch": 1.031636863823934,
      "eval_acc": 0.7464288927880506,
      "eval_loss": 0.9147906303405762,
      "eval_runtime": 1155.4137,
      "eval_samples_per_second": 3.707,
      "eval_steps_per_second": 0.067,
      "step": 1500
    },
    {
      "acc": 0.74669247,
      "epoch": 1.0350756533700138,
      "grad_norm": 1.0673768520355225,
      "learning_rate": 9.341520723021853e-05,
      "loss": 0.8943819,
      "memory(GiB)": 67.71,
      "step": 1505,
      "train_speed(iter/s)": 0.03933
    },
    {
      "acc": 0.76012006,
      "epoch": 1.0385144429160935,
      "grad_norm": 1.1268237829208374,
      "learning_rate": 9.3358685791865e-05,
      "loss": 0.82661228,
      "memory(GiB)": 67.71,
      "step": 1510,
      "train_speed(iter/s)": 0.039388
    },
    {
      "acc": 0.75681725,
      "epoch": 1.0419532324621734,
      "grad_norm": 0.9775263667106628,
      "learning_rate": 9.330194006220301e-05,
      "loss": 0.85321465,
      "memory(GiB)": 67.71,
      "step": 1515,
      "train_speed(iter/s)": 0.039438
    },
    {
      "acc": 0.75653033,
      "epoch": 1.045392022008253,
      "grad_norm": 1.0308629274368286,
      "learning_rate": 9.324497033480792e-05,
      "loss": 0.85134258,
      "memory(GiB)": 67.71,
      "step": 1520,
      "train_speed(iter/s)": 0.039499
    },
    {
      "acc": 0.75386848,
      "epoch": 1.0488308115543328,
      "grad_norm": 1.1134449243545532,
      "learning_rate": 9.318777690441397e-05,
      "loss": 0.87145538,
      "memory(GiB)": 67.71,
      "step": 1525,
      "train_speed(iter/s)": 0.039557
    },
    {
      "acc": 0.75666504,
      "epoch": 1.0522696011004127,
      "grad_norm": 1.0742757320404053,
      "learning_rate": 9.31303600669127e-05,
      "loss": 0.86683607,
      "memory(GiB)": 67.71,
      "step": 1530,
      "train_speed(iter/s)": 0.03961
    },
    {
      "acc": 0.75246024,
      "epoch": 1.0557083906464924,
      "grad_norm": 1.33464515209198,
      "learning_rate": 9.30727201193514e-05,
      "loss": 0.85711727,
      "memory(GiB)": 67.71,
      "step": 1535,
      "train_speed(iter/s)": 0.039666
    },
    {
      "acc": 0.7529563,
      "epoch": 1.0591471801925723,
      "grad_norm": 1.165124535560608,
      "learning_rate": 9.301485735993179e-05,
      "loss": 0.86484051,
      "memory(GiB)": 67.71,
      "step": 1540,
      "train_speed(iter/s)": 0.039727
    },
    {
      "acc": 0.76439376,
      "epoch": 1.062585969738652,
      "grad_norm": 0.9591624736785889,
      "learning_rate": 9.295677208800816e-05,
      "loss": 0.82861805,
      "memory(GiB)": 67.71,
      "step": 1545,
      "train_speed(iter/s)": 0.039774
    },
    {
      "acc": 0.75873203,
      "epoch": 1.0660247592847318,
      "grad_norm": 1.1774530410766602,
      "learning_rate": 9.289846460408602e-05,
      "loss": 0.85537472,
      "memory(GiB)": 67.71,
      "step": 1550,
      "train_speed(iter/s)": 0.039836
    },
    {
      "acc": 0.75072222,
      "epoch": 1.0694635488308115,
      "grad_norm": 1.0823148488998413,
      "learning_rate": 9.283993520982051e-05,
      "loss": 0.87792244,
      "memory(GiB)": 67.71,
      "step": 1555,
      "train_speed(iter/s)": 0.039888
    },
    {
      "acc": 0.755092,
      "epoch": 1.0729023383768914,
      "grad_norm": 1.084096908569336,
      "learning_rate": 9.278118420801481e-05,
      "loss": 0.8602149,
      "memory(GiB)": 67.71,
      "step": 1560,
      "train_speed(iter/s)": 0.03995
    },
    {
      "acc": 0.76771908,
      "epoch": 1.076341127922971,
      "grad_norm": 1.157706379890442,
      "learning_rate": 9.272221190261863e-05,
      "loss": 0.83946896,
      "memory(GiB)": 67.71,
      "step": 1565,
      "train_speed(iter/s)": 0.040014
    },
    {
      "acc": 0.75533552,
      "epoch": 1.0797799174690508,
      "grad_norm": 1.1175612211227417,
      "learning_rate": 9.266301859872657e-05,
      "loss": 0.86314983,
      "memory(GiB)": 67.71,
      "step": 1570,
      "train_speed(iter/s)": 0.040069
    },
    {
      "acc": 0.74409065,
      "epoch": 1.0832187070151307,
      "grad_norm": 1.0851186513900757,
      "learning_rate": 9.260360460257653e-05,
      "loss": 0.91000662,
      "memory(GiB)": 67.71,
      "step": 1575,
      "train_speed(iter/s)": 0.040117
    },
    {
      "acc": 0.76165962,
      "epoch": 1.0866574965612104,
      "grad_norm": 1.208783507347107,
      "learning_rate": 9.254397022154828e-05,
      "loss": 0.86310711,
      "memory(GiB)": 67.71,
      "step": 1580,
      "train_speed(iter/s)": 0.040175
    },
    {
      "acc": 0.75226078,
      "epoch": 1.0900962861072903,
      "grad_norm": 1.2301445007324219,
      "learning_rate": 9.248411576416162e-05,
      "loss": 0.87202549,
      "memory(GiB)": 67.71,
      "step": 1585,
      "train_speed(iter/s)": 0.04023
    },
    {
      "acc": 0.74834862,
      "epoch": 1.09353507565337,
      "grad_norm": 1.0916322469711304,
      "learning_rate": 9.242404154007502e-05,
      "loss": 0.89558239,
      "memory(GiB)": 67.71,
      "step": 1590,
      "train_speed(iter/s)": 0.040284
    },
    {
      "acc": 0.75830355,
      "epoch": 1.0969738651994498,
      "grad_norm": 1.077378749847412,
      "learning_rate": 9.236374786008389e-05,
      "loss": 0.85708294,
      "memory(GiB)": 67.71,
      "step": 1595,
      "train_speed(iter/s)": 0.04034
    },
    {
      "acc": 0.76014338,
      "epoch": 1.1004126547455295,
      "grad_norm": 1.2474371194839478,
      "learning_rate": 9.230323503611897e-05,
      "loss": 0.85164671,
      "memory(GiB)": 67.71,
      "step": 1600,
      "train_speed(iter/s)": 0.040404
    },
    {
      "epoch": 1.1004126547455295,
      "eval_acc": 0.7467494488684933,
      "eval_loss": 0.9101867079734802,
      "eval_runtime": 1124.3275,
      "eval_samples_per_second": 3.809,
      "eval_steps_per_second": 0.068,
      "step": 1600
    },
    {
      "acc": 0.75647812,
      "epoch": 1.1038514442916094,
      "grad_norm": 1.179998517036438,
      "learning_rate": 9.224250338124481e-05,
      "loss": 0.86214447,
      "memory(GiB)": 67.71,
      "step": 1605,
      "train_speed(iter/s)": 0.039344
    },
    {
      "acc": 0.76110773,
      "epoch": 1.107290233837689,
      "grad_norm": 1.1358368396759033,
      "learning_rate": 9.2181553209658e-05,
      "loss": 0.82860346,
      "memory(GiB)": 67.71,
      "step": 1610,
      "train_speed(iter/s)": 0.039399
    },
    {
      "acc": 0.7529737,
      "epoch": 1.110729023383769,
      "grad_norm": 1.1643849611282349,
      "learning_rate": 9.212038483668572e-05,
      "loss": 0.88976746,
      "memory(GiB)": 67.71,
      "step": 1615,
      "train_speed(iter/s)": 0.039457
    },
    {
      "acc": 0.75971909,
      "epoch": 1.1141678129298487,
      "grad_norm": 1.1216496229171753,
      "learning_rate": 9.205899857878396e-05,
      "loss": 0.85760059,
      "memory(GiB)": 67.71,
      "step": 1620,
      "train_speed(iter/s)": 0.039517
    },
    {
      "acc": 0.76570654,
      "epoch": 1.1176066024759286,
      "grad_norm": 1.2371224164962769,
      "learning_rate": 9.199739475353596e-05,
      "loss": 0.82434063,
      "memory(GiB)": 67.71,
      "step": 1625,
      "train_speed(iter/s)": 0.039574
    },
    {
      "acc": 0.75779676,
      "epoch": 1.1210453920220083,
      "grad_norm": 1.1810933351516724,
      "learning_rate": 9.193557367965056e-05,
      "loss": 0.85758648,
      "memory(GiB)": 67.71,
      "step": 1630,
      "train_speed(iter/s)": 0.03963
    },
    {
      "acc": 0.76221857,
      "epoch": 1.124484181568088,
      "grad_norm": 1.1857250928878784,
      "learning_rate": 9.187353567696055e-05,
      "loss": 0.84511681,
      "memory(GiB)": 67.71,
      "step": 1635,
      "train_speed(iter/s)": 0.039679
    },
    {
      "acc": 0.74748664,
      "epoch": 1.1279229711141678,
      "grad_norm": 1.026563286781311,
      "learning_rate": 9.181128106642096e-05,
      "loss": 0.9065136,
      "memory(GiB)": 67.71,
      "step": 1640,
      "train_speed(iter/s)": 0.039732
    },
    {
      "acc": 0.75156937,
      "epoch": 1.1313617606602475,
      "grad_norm": 1.0305781364440918,
      "learning_rate": 9.174881017010746e-05,
      "loss": 0.86748962,
      "memory(GiB)": 67.71,
      "step": 1645,
      "train_speed(iter/s)": 0.039783
    },
    {
      "acc": 0.75970831,
      "epoch": 1.1348005502063274,
      "grad_norm": 1.2061082124710083,
      "learning_rate": 9.168612331121477e-05,
      "loss": 0.84413948,
      "memory(GiB)": 67.71,
      "step": 1650,
      "train_speed(iter/s)": 0.039833
    },
    {
      "acc": 0.75250425,
      "epoch": 1.138239339752407,
      "grad_norm": 1.2730051279067993,
      "learning_rate": 9.162322081405473e-05,
      "loss": 0.86202583,
      "memory(GiB)": 67.71,
      "step": 1655,
      "train_speed(iter/s)": 0.039887
    },
    {
      "acc": 0.7535017,
      "epoch": 1.141678129298487,
      "grad_norm": 1.0208563804626465,
      "learning_rate": 9.156010300405495e-05,
      "loss": 0.86017208,
      "memory(GiB)": 67.71,
      "step": 1660,
      "train_speed(iter/s)": 0.03994
    },
    {
      "acc": 0.7593123,
      "epoch": 1.1451169188445667,
      "grad_norm": 1.2210179567337036,
      "learning_rate": 9.149677020775686e-05,
      "loss": 0.8386488,
      "memory(GiB)": 67.71,
      "step": 1665,
      "train_speed(iter/s)": 0.039998
    },
    {
      "acc": 0.76598496,
      "epoch": 1.1485557083906466,
      "grad_norm": 1.1266486644744873,
      "learning_rate": 9.143322275281419e-05,
      "loss": 0.84045124,
      "memory(GiB)": 67.71,
      "step": 1670,
      "train_speed(iter/s)": 0.040053
    },
    {
      "acc": 0.7449192,
      "epoch": 1.1519944979367263,
      "grad_norm": 1.2747905254364014,
      "learning_rate": 9.136946096799117e-05,
      "loss": 0.89558125,
      "memory(GiB)": 67.71,
      "step": 1675,
      "train_speed(iter/s)": 0.040103
    },
    {
      "acc": 0.77260947,
      "epoch": 1.155433287482806,
      "grad_norm": 1.1446512937545776,
      "learning_rate": 9.13054851831609e-05,
      "loss": 0.79779301,
      "memory(GiB)": 67.71,
      "step": 1680,
      "train_speed(iter/s)": 0.040158
    },
    {
      "acc": 0.73968267,
      "epoch": 1.1588720770288858,
      "grad_norm": 1.0520663261413574,
      "learning_rate": 9.124129572930356e-05,
      "loss": 0.91217728,
      "memory(GiB)": 67.71,
      "step": 1685,
      "train_speed(iter/s)": 0.040209
    },
    {
      "acc": 0.76177702,
      "epoch": 1.1623108665749655,
      "grad_norm": 1.0818169116973877,
      "learning_rate": 9.117689293850484e-05,
      "loss": 0.84482117,
      "memory(GiB)": 67.71,
      "step": 1690,
      "train_speed(iter/s)": 0.040254
    },
    {
      "acc": 0.75831223,
      "epoch": 1.1657496561210454,
      "grad_norm": 1.1914788484573364,
      "learning_rate": 9.111227714395406e-05,
      "loss": 0.85761623,
      "memory(GiB)": 67.71,
      "step": 1695,
      "train_speed(iter/s)": 0.040302
    },
    {
      "acc": 0.75756545,
      "epoch": 1.169188445667125,
      "grad_norm": 1.1335783004760742,
      "learning_rate": 9.104744867994258e-05,
      "loss": 0.85422668,
      "memory(GiB)": 67.71,
      "step": 1700,
      "train_speed(iter/s)": 0.040347
    },
    {
      "epoch": 1.169188445667125,
      "eval_acc": 0.7492295406487605,
      "eval_loss": 0.9045791625976562,
      "eval_runtime": 1125.5138,
      "eval_samples_per_second": 3.805,
      "eval_steps_per_second": 0.068,
      "step": 1700
    },
    {
      "acc": 0.75732212,
      "epoch": 1.172627235213205,
      "grad_norm": 0.9720064997673035,
      "learning_rate": 9.098240788186192e-05,
      "loss": 0.85368481,
      "memory(GiB)": 67.71,
      "step": 1705,
      "train_speed(iter/s)": 0.03935
    },
    {
      "acc": 0.76147232,
      "epoch": 1.1760660247592847,
      "grad_norm": 1.2705514430999756,
      "learning_rate": 9.091715508620222e-05,
      "loss": 0.85527439,
      "memory(GiB)": 67.71,
      "step": 1710,
      "train_speed(iter/s)": 0.039404
    },
    {
      "acc": 0.74866266,
      "epoch": 1.1795048143053646,
      "grad_norm": 1.1010618209838867,
      "learning_rate": 9.085169063055032e-05,
      "loss": 0.8962719,
      "memory(GiB)": 67.71,
      "step": 1715,
      "train_speed(iter/s)": 0.039457
    },
    {
      "acc": 0.76777854,
      "epoch": 1.1829436038514443,
      "grad_norm": 1.0222831964492798,
      "learning_rate": 9.078601485358813e-05,
      "loss": 0.81568956,
      "memory(GiB)": 67.71,
      "step": 1720,
      "train_speed(iter/s)": 0.03951
    },
    {
      "acc": 0.74900856,
      "epoch": 1.1863823933975242,
      "grad_norm": 1.1607588529586792,
      "learning_rate": 9.072012809509081e-05,
      "loss": 0.88696823,
      "memory(GiB)": 67.71,
      "step": 1725,
      "train_speed(iter/s)": 0.039555
    },
    {
      "acc": 0.75043535,
      "epoch": 1.1898211829436038,
      "grad_norm": 1.1782574653625488,
      "learning_rate": 9.065403069592505e-05,
      "loss": 0.86962795,
      "memory(GiB)": 67.71,
      "step": 1730,
      "train_speed(iter/s)": 0.039599
    },
    {
      "acc": 0.74629622,
      "epoch": 1.1932599724896837,
      "grad_norm": 1.1644479036331177,
      "learning_rate": 9.058772299804731e-05,
      "loss": 0.88353643,
      "memory(GiB)": 67.71,
      "step": 1735,
      "train_speed(iter/s)": 0.039653
    },
    {
      "acc": 0.76667023,
      "epoch": 1.1966987620357634,
      "grad_norm": 1.176121711730957,
      "learning_rate": 9.052120534450196e-05,
      "loss": 0.82560787,
      "memory(GiB)": 67.71,
      "step": 1740,
      "train_speed(iter/s)": 0.039705
    },
    {
      "acc": 0.7706706,
      "epoch": 1.200137551581843,
      "grad_norm": 1.2071737051010132,
      "learning_rate": 9.045447807941972e-05,
      "loss": 0.82129135,
      "memory(GiB)": 67.71,
      "step": 1745,
      "train_speed(iter/s)": 0.039758
    },
    {
      "acc": 0.76220055,
      "epoch": 1.203576341127923,
      "grad_norm": 1.161576509475708,
      "learning_rate": 9.038754154801559e-05,
      "loss": 0.84442816,
      "memory(GiB)": 67.71,
      "step": 1750,
      "train_speed(iter/s)": 0.039809
    },
    {
      "acc": 0.76516528,
      "epoch": 1.2070151306740027,
      "grad_norm": 1.0194506645202637,
      "learning_rate": 9.032039609658732e-05,
      "loss": 0.82462807,
      "memory(GiB)": 67.71,
      "step": 1755,
      "train_speed(iter/s)": 0.03985
    },
    {
      "acc": 0.76512585,
      "epoch": 1.2104539202200826,
      "grad_norm": 1.123105764389038,
      "learning_rate": 9.025304207251346e-05,
      "loss": 0.84622154,
      "memory(GiB)": 67.71,
      "step": 1760,
      "train_speed(iter/s)": 0.039905
    },
    {
      "acc": 0.75925913,
      "epoch": 1.2138927097661623,
      "grad_norm": 1.0418940782546997,
      "learning_rate": 9.018547982425164e-05,
      "loss": 0.84370403,
      "memory(GiB)": 67.71,
      "step": 1765,
      "train_speed(iter/s)": 0.03995
    },
    {
      "acc": 0.76256437,
      "epoch": 1.2173314993122422,
      "grad_norm": 1.133818507194519,
      "learning_rate": 9.011770970133671e-05,
      "loss": 0.84478779,
      "memory(GiB)": 67.71,
      "step": 1770,
      "train_speed(iter/s)": 0.040002
    },
    {
      "acc": 0.75265675,
      "epoch": 1.2207702888583218,
      "grad_norm": 1.3675616979599,
      "learning_rate": 9.0049732054379e-05,
      "loss": 0.86621552,
      "memory(GiB)": 67.71,
      "step": 1775,
      "train_speed(iter/s)": 0.040062
    },
    {
      "acc": 0.75733051,
      "epoch": 1.2242090784044017,
      "grad_norm": 1.2875425815582275,
      "learning_rate": 8.998154723506249e-05,
      "loss": 0.88228512,
      "memory(GiB)": 67.71,
      "step": 1780,
      "train_speed(iter/s)": 0.040108
    },
    {
      "acc": 0.74635658,
      "epoch": 1.2276478679504814,
      "grad_norm": 1.2586891651153564,
      "learning_rate": 8.991315559614288e-05,
      "loss": 0.90037432,
      "memory(GiB)": 67.71,
      "step": 1785,
      "train_speed(iter/s)": 0.040152
    },
    {
      "acc": 0.7586679,
      "epoch": 1.231086657496561,
      "grad_norm": 1.1891663074493408,
      "learning_rate": 8.984455749144597e-05,
      "loss": 0.84769564,
      "memory(GiB)": 67.71,
      "step": 1790,
      "train_speed(iter/s)": 0.0402
    },
    {
      "acc": 0.74606829,
      "epoch": 1.234525447042641,
      "grad_norm": 1.154038667678833,
      "learning_rate": 8.977575327586563e-05,
      "loss": 0.88660145,
      "memory(GiB)": 67.71,
      "step": 1795,
      "train_speed(iter/s)": 0.040243
    },
    {
      "acc": 0.77012577,
      "epoch": 1.2379642365887207,
      "grad_norm": 1.2006701231002808,
      "learning_rate": 8.97067433053621e-05,
      "loss": 0.8128231,
      "memory(GiB)": 67.71,
      "step": 1800,
      "train_speed(iter/s)": 0.040293
    },
    {
      "epoch": 1.2379642365887207,
      "eval_acc": 0.7502980609169029,
      "eval_loss": 0.9007091522216797,
      "eval_runtime": 1174.5762,
      "eval_samples_per_second": 3.646,
      "eval_steps_per_second": 0.066,
      "step": 1800
    },
    {
      "acc": 0.74588566,
      "epoch": 1.2414030261348006,
      "grad_norm": 1.2025572061538696,
      "learning_rate": 8.963752793696004e-05,
      "loss": 0.89730377,
      "memory(GiB)": 67.71,
      "step": 1805,
      "train_speed(iter/s)": 0.039311
    },
    {
      "acc": 0.76906261,
      "epoch": 1.2448418156808803,
      "grad_norm": 1.0686986446380615,
      "learning_rate": 8.956810752874682e-05,
      "loss": 0.81423302,
      "memory(GiB)": 67.71,
      "step": 1810,
      "train_speed(iter/s)": 0.039359
    },
    {
      "acc": 0.77615113,
      "epoch": 1.2482806052269602,
      "grad_norm": 1.2386928796768188,
      "learning_rate": 8.949848243987054e-05,
      "loss": 0.79887466,
      "memory(GiB)": 67.71,
      "step": 1815,
      "train_speed(iter/s)": 0.039407
    },
    {
      "acc": 0.75191274,
      "epoch": 1.2517193947730398,
      "grad_norm": 1.180568814277649,
      "learning_rate": 8.94286530305382e-05,
      "loss": 0.85600204,
      "memory(GiB)": 67.71,
      "step": 1820,
      "train_speed(iter/s)": 0.039452
    },
    {
      "acc": 0.76613312,
      "epoch": 1.2551581843191197,
      "grad_norm": 1.1538622379302979,
      "learning_rate": 8.935861966201393e-05,
      "loss": 0.82688131,
      "memory(GiB)": 67.71,
      "step": 1825,
      "train_speed(iter/s)": 0.039499
    },
    {
      "acc": 0.77081518,
      "epoch": 1.2585969738651994,
      "grad_norm": 1.0973575115203857,
      "learning_rate": 8.928838269661694e-05,
      "loss": 0.80709963,
      "memory(GiB)": 67.71,
      "step": 1830,
      "train_speed(iter/s)": 0.039543
    },
    {
      "acc": 0.74893703,
      "epoch": 1.262035763411279,
      "grad_norm": 1.1516822576522827,
      "learning_rate": 8.921794249771987e-05,
      "loss": 0.87887421,
      "memory(GiB)": 67.71,
      "step": 1835,
      "train_speed(iter/s)": 0.039584
    },
    {
      "acc": 0.74806905,
      "epoch": 1.265474552957359,
      "grad_norm": 1.1790939569473267,
      "learning_rate": 8.914729942974674e-05,
      "loss": 0.88099899,
      "memory(GiB)": 67.71,
      "step": 1840,
      "train_speed(iter/s)": 0.03963
    },
    {
      "acc": 0.77447009,
      "epoch": 1.268913342503439,
      "grad_norm": 1.009238600730896,
      "learning_rate": 8.907645385817104e-05,
      "loss": 0.7905911,
      "memory(GiB)": 67.71,
      "step": 1845,
      "train_speed(iter/s)": 0.039686
    },
    {
      "acc": 0.75110741,
      "epoch": 1.2723521320495186,
      "grad_norm": 1.2757585048675537,
      "learning_rate": 8.900540614951409e-05,
      "loss": 0.87034512,
      "memory(GiB)": 67.71,
      "step": 1850,
      "train_speed(iter/s)": 0.03973
    },
    {
      "acc": 0.74727058,
      "epoch": 1.2757909215955983,
      "grad_norm": 1.0743454694747925,
      "learning_rate": 8.893415667134281e-05,
      "loss": 0.88521938,
      "memory(GiB)": 67.71,
      "step": 1855,
      "train_speed(iter/s)": 0.039772
    },
    {
      "acc": 0.76257467,
      "epoch": 1.2792297111416782,
      "grad_norm": 1.0623903274536133,
      "learning_rate": 8.886270579226807e-05,
      "loss": 0.84139423,
      "memory(GiB)": 67.71,
      "step": 1860,
      "train_speed(iter/s)": 0.03982
    },
    {
      "acc": 0.76310492,
      "epoch": 1.2826685006877578,
      "grad_norm": 1.0730196237564087,
      "learning_rate": 8.879105388194267e-05,
      "loss": 0.84801579,
      "memory(GiB)": 67.71,
      "step": 1865,
      "train_speed(iter/s)": 0.039868
    },
    {
      "acc": 0.76296768,
      "epoch": 1.2861072902338377,
      "grad_norm": 1.0681921243667603,
      "learning_rate": 8.871920131105943e-05,
      "loss": 0.82966671,
      "memory(GiB)": 67.71,
      "step": 1870,
      "train_speed(iter/s)": 0.039919
    },
    {
      "acc": 0.7662539,
      "epoch": 1.2895460797799174,
      "grad_norm": 1.1676512956619263,
      "learning_rate": 8.864714845134931e-05,
      "loss": 0.82158031,
      "memory(GiB)": 67.71,
      "step": 1875,
      "train_speed(iter/s)": 0.039968
    },
    {
      "acc": 0.76386523,
      "epoch": 1.2929848693259973,
      "grad_norm": 1.2241677045822144,
      "learning_rate": 8.857489567557949e-05,
      "loss": 0.8327158,
      "memory(GiB)": 67.71,
      "step": 1880,
      "train_speed(iter/s)": 0.040021
    },
    {
      "acc": 0.77355728,
      "epoch": 1.296423658872077,
      "grad_norm": 1.0751720666885376,
      "learning_rate": 8.850244335755136e-05,
      "loss": 0.803335,
      "memory(GiB)": 67.71,
      "step": 1885,
      "train_speed(iter/s)": 0.040073
    },
    {
      "acc": 0.76320724,
      "epoch": 1.299862448418157,
      "grad_norm": 1.292360544204712,
      "learning_rate": 8.84297918720987e-05,
      "loss": 0.85545721,
      "memory(GiB)": 67.71,
      "step": 1890,
      "train_speed(iter/s)": 0.040122
    },
    {
      "acc": 0.76533775,
      "epoch": 1.3033012379642366,
      "grad_norm": 1.27505624294281,
      "learning_rate": 8.835694159508568e-05,
      "loss": 0.83456764,
      "memory(GiB)": 67.71,
      "step": 1895,
      "train_speed(iter/s)": 0.040172
    },
    {
      "acc": 0.77199011,
      "epoch": 1.3067400275103163,
      "grad_norm": 1.0612465143203735,
      "learning_rate": 8.82838929034049e-05,
      "loss": 0.81219292,
      "memory(GiB)": 67.71,
      "step": 1900,
      "train_speed(iter/s)": 0.040222
    },
    {
      "epoch": 1.3067400275103163,
      "eval_acc": 0.7521145453727449,
      "eval_loss": 0.8923233151435852,
      "eval_runtime": 1131.335,
      "eval_samples_per_second": 3.786,
      "eval_steps_per_second": 0.068,
      "step": 1900
    },
    {
      "acc": 0.75053563,
      "epoch": 1.3101788170563962,
      "grad_norm": 1.2158348560333252,
      "learning_rate": 8.821064617497549e-05,
      "loss": 0.87764034,
      "memory(GiB)": 67.71,
      "step": 1905,
      "train_speed(iter/s)": 0.039328
    },
    {
      "acc": 0.76767535,
      "epoch": 1.313617606602476,
      "grad_norm": 1.0964173078536987,
      "learning_rate": 8.81372017887411e-05,
      "loss": 0.83279819,
      "memory(GiB)": 67.71,
      "step": 1910,
      "train_speed(iter/s)": 0.039378
    },
    {
      "acc": 0.75541239,
      "epoch": 1.3170563961485557,
      "grad_norm": 1.2945960760116577,
      "learning_rate": 8.806356012466799e-05,
      "loss": 0.8567975,
      "memory(GiB)": 67.71,
      "step": 1915,
      "train_speed(iter/s)": 0.03942
    },
    {
      "acc": 0.75376849,
      "epoch": 1.3204951856946354,
      "grad_norm": 1.2059944868087769,
      "learning_rate": 8.798972156374303e-05,
      "loss": 0.86053438,
      "memory(GiB)": 67.71,
      "step": 1920,
      "train_speed(iter/s)": 0.039461
    },
    {
      "acc": 0.75244598,
      "epoch": 1.3239339752407153,
      "grad_norm": 1.2470142841339111,
      "learning_rate": 8.791568648797175e-05,
      "loss": 0.84860821,
      "memory(GiB)": 67.71,
      "step": 1925,
      "train_speed(iter/s)": 0.039509
    },
    {
      "acc": 0.76857953,
      "epoch": 1.327372764786795,
      "grad_norm": 1.074821949005127,
      "learning_rate": 8.784145528037633e-05,
      "loss": 0.81543255,
      "memory(GiB)": 67.71,
      "step": 1930,
      "train_speed(iter/s)": 0.039548
    },
    {
      "acc": 0.75690975,
      "epoch": 1.330811554332875,
      "grad_norm": 1.2594019174575806,
      "learning_rate": 8.776702832499369e-05,
      "loss": 0.85649605,
      "memory(GiB)": 67.71,
      "step": 1935,
      "train_speed(iter/s)": 0.039588
    },
    {
      "acc": 0.75640688,
      "epoch": 1.3342503438789546,
      "grad_norm": 1.2854877710342407,
      "learning_rate": 8.769240600687341e-05,
      "loss": 0.85886908,
      "memory(GiB)": 67.71,
      "step": 1940,
      "train_speed(iter/s)": 0.03963
    },
    {
      "acc": 0.76101456,
      "epoch": 1.3376891334250343,
      "grad_norm": 1.2323275804519653,
      "learning_rate": 8.761758871207578e-05,
      "loss": 0.85549269,
      "memory(GiB)": 67.71,
      "step": 1945,
      "train_speed(iter/s)": 0.039677
    },
    {
      "acc": 0.75675645,
      "epoch": 1.3411279229711142,
      "grad_norm": 1.3912837505340576,
      "learning_rate": 8.754257682766987e-05,
      "loss": 0.86173325,
      "memory(GiB)": 67.71,
      "step": 1950,
      "train_speed(iter/s)": 0.039723
    },
    {
      "acc": 0.75836124,
      "epoch": 1.344566712517194,
      "grad_norm": 1.325785517692566,
      "learning_rate": 8.746737074173139e-05,
      "loss": 0.85381556,
      "memory(GiB)": 67.71,
      "step": 1955,
      "train_speed(iter/s)": 0.039767
    },
    {
      "acc": 0.75378246,
      "epoch": 1.3480055020632737,
      "grad_norm": 1.3383103609085083,
      "learning_rate": 8.739197084334078e-05,
      "loss": 0.85643635,
      "memory(GiB)": 67.71,
      "step": 1960,
      "train_speed(iter/s)": 0.039815
    },
    {
      "acc": 0.74990363,
      "epoch": 1.3514442916093534,
      "grad_norm": 1.0907026529312134,
      "learning_rate": 8.731637752258122e-05,
      "loss": 0.8558506,
      "memory(GiB)": 67.71,
      "step": 1965,
      "train_speed(iter/s)": 0.039861
    },
    {
      "acc": 0.75551319,
      "epoch": 1.3548830811554333,
      "grad_norm": 1.1416265964508057,
      "learning_rate": 8.724059117053647e-05,
      "loss": 0.86469622,
      "memory(GiB)": 67.71,
      "step": 1970,
      "train_speed(iter/s)": 0.039902
    },
    {
      "acc": 0.7511488,
      "epoch": 1.358321870701513,
      "grad_norm": 1.1393564939498901,
      "learning_rate": 8.716461217928903e-05,
      "loss": 0.85416451,
      "memory(GiB)": 67.71,
      "step": 1975,
      "train_speed(iter/s)": 0.039948
    },
    {
      "acc": 0.76492167,
      "epoch": 1.361760660247593,
      "grad_norm": 1.0601388216018677,
      "learning_rate": 8.708844094191798e-05,
      "loss": 0.82022047,
      "memory(GiB)": 67.71,
      "step": 1980,
      "train_speed(iter/s)": 0.039988
    },
    {
      "acc": 0.75548849,
      "epoch": 1.3651994497936726,
      "grad_norm": 1.1647326946258545,
      "learning_rate": 8.701207785249703e-05,
      "loss": 0.8785594,
      "memory(GiB)": 67.71,
      "step": 1985,
      "train_speed(iter/s)": 0.040031
    },
    {
      "acc": 0.76257005,
      "epoch": 1.3686382393397525,
      "grad_norm": 1.208771824836731,
      "learning_rate": 8.693552330609235e-05,
      "loss": 0.82169209,
      "memory(GiB)": 67.71,
      "step": 1990,
      "train_speed(iter/s)": 0.040075
    },
    {
      "acc": 0.7662899,
      "epoch": 1.3720770288858322,
      "grad_norm": 1.0375357866287231,
      "learning_rate": 8.685877769876074e-05,
      "loss": 0.82175579,
      "memory(GiB)": 67.71,
      "step": 1995,
      "train_speed(iter/s)": 0.040117
    },
    {
      "acc": 0.75507236,
      "epoch": 1.375515818431912,
      "grad_norm": 1.070656180381775,
      "learning_rate": 8.678184142754736e-05,
      "loss": 0.84867239,
      "memory(GiB)": 67.71,
      "step": 2000,
      "train_speed(iter/s)": 0.040168
    },
    {
      "epoch": 1.375515818431912,
      "eval_acc": 0.7514059477212399,
      "eval_loss": 0.890434980392456,
      "eval_runtime": 1140.0174,
      "eval_samples_per_second": 3.757,
      "eval_steps_per_second": 0.068,
      "step": 2000
    },
    {
      "acc": 0.75042534,
      "epoch": 1.3789546079779917,
      "grad_norm": 1.181110143661499,
      "learning_rate": 8.670471489048382e-05,
      "loss": 0.90365086,
      "memory(GiB)": 67.71,
      "step": 2005,
      "train_speed(iter/s)": 0.039309
    },
    {
      "acc": 0.75193415,
      "epoch": 1.3823933975240714,
      "grad_norm": 1.0542738437652588,
      "learning_rate": 8.662739848658605e-05,
      "loss": 0.86276369,
      "memory(GiB)": 67.71,
      "step": 2010,
      "train_speed(iter/s)": 0.039351
    },
    {
      "acc": 0.76266041,
      "epoch": 1.3858321870701513,
      "grad_norm": 1.1464662551879883,
      "learning_rate": 8.654989261585231e-05,
      "loss": 0.83303232,
      "memory(GiB)": 67.71,
      "step": 2015,
      "train_speed(iter/s)": 0.039396
    },
    {
      "acc": 0.7555974,
      "epoch": 1.3892709766162312,
      "grad_norm": 1.137511134147644,
      "learning_rate": 8.6472197679261e-05,
      "loss": 0.87258329,
      "memory(GiB)": 67.71,
      "step": 2020,
      "train_speed(iter/s)": 0.039441
    },
    {
      "acc": 0.75746002,
      "epoch": 1.392709766162311,
      "grad_norm": 1.1067372560501099,
      "learning_rate": 8.639431407876873e-05,
      "loss": 0.8575942,
      "memory(GiB)": 67.71,
      "step": 2025,
      "train_speed(iter/s)": 0.039486
    },
    {
      "acc": 0.74920359,
      "epoch": 1.3961485557083906,
      "grad_norm": 1.1339222192764282,
      "learning_rate": 8.631624221730809e-05,
      "loss": 0.89333057,
      "memory(GiB)": 67.71,
      "step": 2030,
      "train_speed(iter/s)": 0.039533
    },
    {
      "acc": 0.75785513,
      "epoch": 1.3995873452544705,
      "grad_norm": 1.193408489227295,
      "learning_rate": 8.623798249878573e-05,
      "loss": 0.85004654,
      "memory(GiB)": 67.71,
      "step": 2035,
      "train_speed(iter/s)": 0.039579
    },
    {
      "acc": 0.76322355,
      "epoch": 1.4030261348005502,
      "grad_norm": 1.4497336149215698,
      "learning_rate": 8.615953532808008e-05,
      "loss": 0.85098343,
      "memory(GiB)": 67.71,
      "step": 2040,
      "train_speed(iter/s)": 0.039624
    },
    {
      "acc": 0.75989523,
      "epoch": 1.40646492434663,
      "grad_norm": 1.424786925315857,
      "learning_rate": 8.608090111103948e-05,
      "loss": 0.86450672,
      "memory(GiB)": 67.71,
      "step": 2045,
      "train_speed(iter/s)": 0.039665
    },
    {
      "acc": 0.75607204,
      "epoch": 1.4099037138927097,
      "grad_norm": 1.1818575859069824,
      "learning_rate": 8.600208025447983e-05,
      "loss": 0.859338,
      "memory(GiB)": 67.71,
      "step": 2050,
      "train_speed(iter/s)": 0.039707
    },
    {
      "acc": 0.74912252,
      "epoch": 1.4133425034387894,
      "grad_norm": 1.0915964841842651,
      "learning_rate": 8.592307316618272e-05,
      "loss": 0.88583393,
      "memory(GiB)": 67.71,
      "step": 2055,
      "train_speed(iter/s)": 0.039753
    },
    {
      "acc": 0.7610446,
      "epoch": 1.4167812929848693,
      "grad_norm": 1.3371332883834839,
      "learning_rate": 8.584388025489314e-05,
      "loss": 0.83794365,
      "memory(GiB)": 67.71,
      "step": 2060,
      "train_speed(iter/s)": 0.0398
    },
    {
      "acc": 0.76503677,
      "epoch": 1.4202200825309492,
      "grad_norm": 1.0140537023544312,
      "learning_rate": 8.57645019303175e-05,
      "loss": 0.81193466,
      "memory(GiB)": 67.71,
      "step": 2065,
      "train_speed(iter/s)": 0.039843
    },
    {
      "acc": 0.75801926,
      "epoch": 1.423658872077029,
      "grad_norm": 1.2762821912765503,
      "learning_rate": 8.568493860312142e-05,
      "loss": 0.85571671,
      "memory(GiB)": 67.71,
      "step": 2070,
      "train_speed(iter/s)": 0.039884
    },
    {
      "acc": 0.75672455,
      "epoch": 1.4270976616231086,
      "grad_norm": 1.1539915800094604,
      "learning_rate": 8.56051906849276e-05,
      "loss": 0.86462698,
      "memory(GiB)": 67.71,
      "step": 2075,
      "train_speed(iter/s)": 0.039921
    },
    {
      "acc": 0.75165954,
      "epoch": 1.4305364511691885,
      "grad_norm": 1.306449055671692,
      "learning_rate": 8.55252585883138e-05,
      "loss": 0.88216114,
      "memory(GiB)": 67.71,
      "step": 2080,
      "train_speed(iter/s)": 0.039965
    },
    {
      "acc": 0.76647811,
      "epoch": 1.4339752407152682,
      "grad_norm": 1.1315670013427734,
      "learning_rate": 8.544514272681056e-05,
      "loss": 0.83219862,
      "memory(GiB)": 67.71,
      "step": 2085,
      "train_speed(iter/s)": 0.040006
    },
    {
      "acc": 0.75151563,
      "epoch": 1.437414030261348,
      "grad_norm": 1.2553141117095947,
      "learning_rate": 8.536484351489918e-05,
      "loss": 0.88327541,
      "memory(GiB)": 67.71,
      "step": 2090,
      "train_speed(iter/s)": 0.040054
    },
    {
      "acc": 0.75124393,
      "epoch": 1.4408528198074277,
      "grad_norm": 1.0970312356948853,
      "learning_rate": 8.528436136800955e-05,
      "loss": 0.86639719,
      "memory(GiB)": 67.71,
      "step": 2095,
      "train_speed(iter/s)": 0.040094
    },
    {
      "acc": 0.75917168,
      "epoch": 1.4442916093535076,
      "grad_norm": 1.1937634944915771,
      "learning_rate": 8.520369670251787e-05,
      "loss": 0.85560112,
      "memory(GiB)": 67.71,
      "step": 2100,
      "train_speed(iter/s)": 0.040143
    },
    {
      "epoch": 1.4442916093535076,
      "eval_acc": 0.7529749853781437,
      "eval_loss": 0.8845105767250061,
      "eval_runtime": 1065.8538,
      "eval_samples_per_second": 4.018,
      "eval_steps_per_second": 0.072,
      "step": 2100
    },
    {
      "acc": 0.75502768,
      "epoch": 1.4477303988995873,
      "grad_norm": 1.2217875719070435,
      "learning_rate": 8.512284993574473e-05,
      "loss": 0.86460505,
      "memory(GiB)": 67.71,
      "step": 2105,
      "train_speed(iter/s)": 0.039384
    },
    {
      "acc": 0.7641192,
      "epoch": 1.4511691884456672,
      "grad_norm": 1.1658051013946533,
      "learning_rate": 8.504182148595275e-05,
      "loss": 0.82581739,
      "memory(GiB)": 67.71,
      "step": 2110,
      "train_speed(iter/s)": 0.039424
    },
    {
      "acc": 0.75860772,
      "epoch": 1.454607977991747,
      "grad_norm": 1.4592278003692627,
      "learning_rate": 8.496061177234452e-05,
      "loss": 0.84182692,
      "memory(GiB)": 67.71,
      "step": 2115,
      "train_speed(iter/s)": 0.039466
    },
    {
      "acc": 0.76232295,
      "epoch": 1.4580467675378266,
      "grad_norm": 1.2424806356430054,
      "learning_rate": 8.487922121506039e-05,
      "loss": 0.84641819,
      "memory(GiB)": 67.71,
      "step": 2120,
      "train_speed(iter/s)": 0.039509
    },
    {
      "acc": 0.75302744,
      "epoch": 1.4614855570839065,
      "grad_norm": 1.1985810995101929,
      "learning_rate": 8.479765023517631e-05,
      "loss": 0.87050896,
      "memory(GiB)": 67.71,
      "step": 2125,
      "train_speed(iter/s)": 0.039552
    },
    {
      "acc": 0.76178207,
      "epoch": 1.4649243466299862,
      "grad_norm": 1.108946442604065,
      "learning_rate": 8.471589925470166e-05,
      "loss": 0.82996387,
      "memory(GiB)": 67.71,
      "step": 2130,
      "train_speed(iter/s)": 0.039594
    },
    {
      "acc": 0.75262017,
      "epoch": 1.468363136176066,
      "grad_norm": 1.266554832458496,
      "learning_rate": 8.463396869657704e-05,
      "loss": 0.85832672,
      "memory(GiB)": 67.71,
      "step": 2135,
      "train_speed(iter/s)": 0.039634
    },
    {
      "acc": 0.76968784,
      "epoch": 1.4718019257221457,
      "grad_norm": 1.2651324272155762,
      "learning_rate": 8.455185898467213e-05,
      "loss": 0.80993366,
      "memory(GiB)": 67.71,
      "step": 2140,
      "train_speed(iter/s)": 0.039677
    },
    {
      "acc": 0.76287999,
      "epoch": 1.4752407152682256,
      "grad_norm": 1.4108299016952515,
      "learning_rate": 8.446957054378344e-05,
      "loss": 0.82752171,
      "memory(GiB)": 67.71,
      "step": 2145,
      "train_speed(iter/s)": 0.039717
    },
    {
      "acc": 0.77508984,
      "epoch": 1.4786795048143053,
      "grad_norm": 1.1667840480804443,
      "learning_rate": 8.438710379963214e-05,
      "loss": 0.78502192,
      "memory(GiB)": 67.71,
      "step": 2150,
      "train_speed(iter/s)": 0.039761
    },
    {
      "acc": 0.74883337,
      "epoch": 1.4821182943603852,
      "grad_norm": 1.1578980684280396,
      "learning_rate": 8.430445917886186e-05,
      "loss": 0.88730097,
      "memory(GiB)": 67.71,
      "step": 2155,
      "train_speed(iter/s)": 0.039804
    },
    {
      "acc": 0.77094564,
      "epoch": 1.485557083906465,
      "grad_norm": 1.039753794670105,
      "learning_rate": 8.422163710903649e-05,
      "loss": 0.80611877,
      "memory(GiB)": 67.71,
      "step": 2160,
      "train_speed(iter/s)": 0.039843
    },
    {
      "acc": 0.76888881,
      "epoch": 1.4889958734525446,
      "grad_norm": 1.5004595518112183,
      "learning_rate": 8.413863801863794e-05,
      "loss": 0.80163708,
      "memory(GiB)": 67.71,
      "step": 2165,
      "train_speed(iter/s)": 0.039887
    },
    {
      "acc": 0.76752806,
      "epoch": 1.4924346629986245,
      "grad_norm": 1.2288601398468018,
      "learning_rate": 8.405546233706395e-05,
      "loss": 0.82048512,
      "memory(GiB)": 67.71,
      "step": 2170,
      "train_speed(iter/s)": 0.039936
    },
    {
      "acc": 0.76018772,
      "epoch": 1.4958734525447044,
      "grad_norm": 1.1614660024642944,
      "learning_rate": 8.397211049462586e-05,
      "loss": 0.84854307,
      "memory(GiB)": 67.71,
      "step": 2175,
      "train_speed(iter/s)": 0.039975
    },
    {
      "acc": 0.77043438,
      "epoch": 1.499312242090784,
      "grad_norm": 1.3372976779937744,
      "learning_rate": 8.388858292254637e-05,
      "loss": 0.79604712,
      "memory(GiB)": 67.71,
      "step": 2180,
      "train_speed(iter/s)": 0.040022
    },
    {
      "acc": 0.76631165,
      "epoch": 1.5027510316368637,
      "grad_norm": 1.1987308263778687,
      "learning_rate": 8.380488005295732e-05,
      "loss": 0.83228321,
      "memory(GiB)": 67.71,
      "step": 2185,
      "train_speed(iter/s)": 0.040065
    },
    {
      "acc": 0.75986252,
      "epoch": 1.5061898211829436,
      "grad_norm": 1.0442498922348022,
      "learning_rate": 8.37210023188975e-05,
      "loss": 0.84417458,
      "memory(GiB)": 67.71,
      "step": 2190,
      "train_speed(iter/s)": 0.040102
    },
    {
      "acc": 0.75435362,
      "epoch": 1.5096286107290235,
      "grad_norm": 1.0899875164031982,
      "learning_rate": 8.363695015431028e-05,
      "loss": 0.8657095,
      "memory(GiB)": 67.71,
      "step": 2195,
      "train_speed(iter/s)": 0.04015
    },
    {
      "acc": 0.76132326,
      "epoch": 1.5130674002751032,
      "grad_norm": 1.076157569885254,
      "learning_rate": 8.355272399404156e-05,
      "loss": 0.83814745,
      "memory(GiB)": 67.71,
      "step": 2200,
      "train_speed(iter/s)": 0.040192
    },
    {
      "epoch": 1.5130674002751032,
      "eval_acc": 0.7542065955819499,
      "eval_loss": 0.877788245677948,
      "eval_runtime": 1157.3904,
      "eval_samples_per_second": 3.701,
      "eval_steps_per_second": 0.067,
      "step": 2200
    },
    {
      "acc": 0.75972261,
      "epoch": 1.516506189821183,
      "grad_norm": 1.387868046760559,
      "learning_rate": 8.346832427383732e-05,
      "loss": 0.84049091,
      "memory(GiB)": 67.71,
      "step": 2205,
      "train_speed(iter/s)": 0.039401
    },
    {
      "acc": 0.74931083,
      "epoch": 1.5199449793672626,
      "grad_norm": 1.2687524557113647,
      "learning_rate": 8.338375143034148e-05,
      "loss": 0.87477436,
      "memory(GiB)": 67.71,
      "step": 2210,
      "train_speed(iter/s)": 0.039447
    },
    {
      "acc": 0.76771116,
      "epoch": 1.5233837689133425,
      "grad_norm": 1.1818050146102905,
      "learning_rate": 8.329900590109365e-05,
      "loss": 0.81554508,
      "memory(GiB)": 67.71,
      "step": 2215,
      "train_speed(iter/s)": 0.039489
    },
    {
      "acc": 0.76883683,
      "epoch": 1.5268225584594224,
      "grad_norm": 1.1263651847839355,
      "learning_rate": 8.321408812452678e-05,
      "loss": 0.82251701,
      "memory(GiB)": 67.71,
      "step": 2220,
      "train_speed(iter/s)": 0.03953
    },
    {
      "acc": 0.76298013,
      "epoch": 1.530261348005502,
      "grad_norm": 1.1538478136062622,
      "learning_rate": 8.312899853996501e-05,
      "loss": 0.81565828,
      "memory(GiB)": 67.71,
      "step": 2225,
      "train_speed(iter/s)": 0.039564
    },
    {
      "acc": 0.75918069,
      "epoch": 1.5337001375515817,
      "grad_norm": 1.2974464893341064,
      "learning_rate": 8.304373758762128e-05,
      "loss": 0.8574604,
      "memory(GiB)": 67.71,
      "step": 2230,
      "train_speed(iter/s)": 0.039603
    },
    {
      "acc": 0.76306868,
      "epoch": 1.5371389270976616,
      "grad_norm": 1.2755868434906006,
      "learning_rate": 8.295830570859512e-05,
      "loss": 0.83660641,
      "memory(GiB)": 67.71,
      "step": 2235,
      "train_speed(iter/s)": 0.039636
    },
    {
      "acc": 0.75555844,
      "epoch": 1.5405777166437415,
      "grad_norm": 1.196268081665039,
      "learning_rate": 8.287270334487034e-05,
      "loss": 0.84184723,
      "memory(GiB)": 67.71,
      "step": 2240,
      "train_speed(iter/s)": 0.039674
    },
    {
      "acc": 0.77357531,
      "epoch": 1.5440165061898212,
      "grad_norm": 1.2208247184753418,
      "learning_rate": 8.278693093931282e-05,
      "loss": 0.79285612,
      "memory(GiB)": 67.71,
      "step": 2245,
      "train_speed(iter/s)": 0.039716
    },
    {
      "acc": 0.75058088,
      "epoch": 1.547455295735901,
      "grad_norm": 1.1691052913665771,
      "learning_rate": 8.270098893566807e-05,
      "loss": 0.864328,
      "memory(GiB)": 67.73,
      "step": 2250,
      "train_speed(iter/s)": 0.03975
    },
    {
      "acc": 0.74813089,
      "epoch": 1.5508940852819806,
      "grad_norm": 1.300010323524475,
      "learning_rate": 8.261487777855909e-05,
      "loss": 0.89021215,
      "memory(GiB)": 67.73,
      "step": 2255,
      "train_speed(iter/s)": 0.039788
    },
    {
      "acc": 0.75823145,
      "epoch": 1.5543328748280605,
      "grad_norm": 1.080557107925415,
      "learning_rate": 8.252859791348392e-05,
      "loss": 0.86599722,
      "memory(GiB)": 67.73,
      "step": 2260,
      "train_speed(iter/s)": 0.039824
    },
    {
      "acc": 0.75691137,
      "epoch": 1.5577716643741404,
      "grad_norm": 1.098506212234497,
      "learning_rate": 8.244214978681348e-05,
      "loss": 0.87960701,
      "memory(GiB)": 67.73,
      "step": 2265,
      "train_speed(iter/s)": 0.039862
    },
    {
      "acc": 0.76327119,
      "epoch": 1.56121045392022,
      "grad_norm": 1.3256527185440063,
      "learning_rate": 8.23555338457892e-05,
      "loss": 0.8320919,
      "memory(GiB)": 67.73,
      "step": 2270,
      "train_speed(iter/s)": 0.039901
    },
    {
      "acc": 0.75916958,
      "epoch": 1.5646492434662997,
      "grad_norm": 1.2192107439041138,
      "learning_rate": 8.226875053852066e-05,
      "loss": 0.84912138,
      "memory(GiB)": 67.73,
      "step": 2275,
      "train_speed(iter/s)": 0.039941
    },
    {
      "acc": 0.75922327,
      "epoch": 1.5680880330123796,
      "grad_norm": 1.3527653217315674,
      "learning_rate": 8.218180031398334e-05,
      "loss": 0.84136915,
      "memory(GiB)": 67.73,
      "step": 2280,
      "train_speed(iter/s)": 0.039986
    },
    {
      "acc": 0.76518865,
      "epoch": 1.5715268225584595,
      "grad_norm": 1.1937755346298218,
      "learning_rate": 8.209468362201627e-05,
      "loss": 0.82890606,
      "memory(GiB)": 67.73,
      "step": 2285,
      "train_speed(iter/s)": 0.040027
    },
    {
      "acc": 0.76164193,
      "epoch": 1.5749656121045392,
      "grad_norm": 1.1419281959533691,
      "learning_rate": 8.200740091331969e-05,
      "loss": 0.8369875,
      "memory(GiB)": 67.73,
      "step": 2290,
      "train_speed(iter/s)": 0.040071
    },
    {
      "acc": 0.7657156,
      "epoch": 1.578404401650619,
      "grad_norm": 1.2638212442398071,
      "learning_rate": 8.19199526394527e-05,
      "loss": 0.82229643,
      "memory(GiB)": 67.73,
      "step": 2295,
      "train_speed(iter/s)": 0.040112
    },
    {
      "acc": 0.76849699,
      "epoch": 1.5818431911966988,
      "grad_norm": 1.1830896139144897,
      "learning_rate": 8.183233925283104e-05,
      "loss": 0.79942322,
      "memory(GiB)": 67.73,
      "step": 2300,
      "train_speed(iter/s)": 0.040155
    },
    {
      "epoch": 1.5818431911966988,
      "eval_acc": 0.7557418904935439,
      "eval_loss": 0.8737921714782715,
      "eval_runtime": 1090.3389,
      "eval_samples_per_second": 3.928,
      "eval_steps_per_second": 0.071,
      "step": 2300
    },
    {
      "acc": 0.76840105,
      "epoch": 1.5852819807427787,
      "grad_norm": 1.1682363748550415,
      "learning_rate": 8.17445612067246e-05,
      "loss": 0.82419491,
      "memory(GiB)": 67.73,
      "step": 2305,
      "train_speed(iter/s)": 0.039444
    },
    {
      "acc": 0.76440401,
      "epoch": 1.5887207702888584,
      "grad_norm": 1.2088557481765747,
      "learning_rate": 8.165661895525515e-05,
      "loss": 0.8236021,
      "memory(GiB)": 67.73,
      "step": 2310,
      "train_speed(iter/s)": 0.039487
    },
    {
      "acc": 0.76112623,
      "epoch": 1.592159559834938,
      "grad_norm": 1.2835819721221924,
      "learning_rate": 8.156851295339401e-05,
      "loss": 0.84509296,
      "memory(GiB)": 67.73,
      "step": 2315,
      "train_speed(iter/s)": 0.039527
    },
    {
      "acc": 0.75933437,
      "epoch": 1.5955983493810177,
      "grad_norm": 1.1950072050094604,
      "learning_rate": 8.148024365695961e-05,
      "loss": 0.83572178,
      "memory(GiB)": 67.73,
      "step": 2320,
      "train_speed(iter/s)": 0.039562
    },
    {
      "acc": 0.74721594,
      "epoch": 1.5990371389270976,
      "grad_norm": 1.1385269165039062,
      "learning_rate": 8.139181152261524e-05,
      "loss": 0.87340145,
      "memory(GiB)": 67.73,
      "step": 2325,
      "train_speed(iter/s)": 0.039597
    },
    {
      "acc": 0.76489792,
      "epoch": 1.6024759284731775,
      "grad_norm": 1.3601405620574951,
      "learning_rate": 8.130321700786662e-05,
      "loss": 0.81867256,
      "memory(GiB)": 67.73,
      "step": 2330,
      "train_speed(iter/s)": 0.039642
    },
    {
      "acc": 0.7683671,
      "epoch": 1.6059147180192572,
      "grad_norm": 1.2533677816390991,
      "learning_rate": 8.121446057105955e-05,
      "loss": 0.81394958,
      "memory(GiB)": 67.73,
      "step": 2335,
      "train_speed(iter/s)": 0.039682
    },
    {
      "acc": 0.75637655,
      "epoch": 1.609353507565337,
      "grad_norm": 1.196452260017395,
      "learning_rate": 8.112554267137753e-05,
      "loss": 0.84699097,
      "memory(GiB)": 67.73,
      "step": 2340,
      "train_speed(iter/s)": 0.03972
    },
    {
      "acc": 0.77178955,
      "epoch": 1.6127922971114168,
      "grad_norm": 1.0918421745300293,
      "learning_rate": 8.103646376883937e-05,
      "loss": 0.79872456,
      "memory(GiB)": 67.73,
      "step": 2345,
      "train_speed(iter/s)": 0.039764
    },
    {
      "acc": 0.75204129,
      "epoch": 1.6162310866574967,
      "grad_norm": 1.2889692783355713,
      "learning_rate": 8.094722432429691e-05,
      "loss": 0.88343906,
      "memory(GiB)": 67.73,
      "step": 2350,
      "train_speed(iter/s)": 0.039803
    },
    {
      "acc": 0.75908298,
      "epoch": 1.6196698762035764,
      "grad_norm": 1.1028622388839722,
      "learning_rate": 8.085782479943245e-05,
      "loss": 0.8362504,
      "memory(GiB)": 67.73,
      "step": 2355,
      "train_speed(iter/s)": 0.039844
    },
    {
      "acc": 0.76125684,
      "epoch": 1.623108665749656,
      "grad_norm": 1.3756259679794312,
      "learning_rate": 8.076826565675657e-05,
      "loss": 0.8257452,
      "memory(GiB)": 67.73,
      "step": 2360,
      "train_speed(iter/s)": 0.039885
    },
    {
      "acc": 0.76714849,
      "epoch": 1.6265474552957357,
      "grad_norm": 1.5173252820968628,
      "learning_rate": 8.067854735960555e-05,
      "loss": 0.81308384,
      "memory(GiB)": 67.73,
      "step": 2365,
      "train_speed(iter/s)": 0.039928
    },
    {
      "acc": 0.7745882,
      "epoch": 1.6299862448418156,
      "grad_norm": 1.2738362550735474,
      "learning_rate": 8.058867037213916e-05,
      "loss": 0.79546738,
      "memory(GiB)": 67.73,
      "step": 2370,
      "train_speed(iter/s)": 0.039964
    },
    {
      "acc": 0.77209988,
      "epoch": 1.6334250343878955,
      "grad_norm": 1.1855344772338867,
      "learning_rate": 8.049863515933802e-05,
      "loss": 0.79778285,
      "memory(GiB)": 67.73,
      "step": 2375,
      "train_speed(iter/s)": 0.039997
    },
    {
      "acc": 0.76279697,
      "epoch": 1.6368638239339752,
      "grad_norm": 1.1562272310256958,
      "learning_rate": 8.040844218700147e-05,
      "loss": 0.82462883,
      "memory(GiB)": 67.73,
      "step": 2380,
      "train_speed(iter/s)": 0.040033
    },
    {
      "acc": 0.76684308,
      "epoch": 1.640302613480055,
      "grad_norm": 1.3373991250991821,
      "learning_rate": 8.031809192174495e-05,
      "loss": 0.81806488,
      "memory(GiB)": 67.73,
      "step": 2385,
      "train_speed(iter/s)": 0.040073
    },
    {
      "acc": 0.75144334,
      "epoch": 1.6437414030261348,
      "grad_norm": 1.3013478517532349,
      "learning_rate": 8.022758483099767e-05,
      "loss": 0.86880703,
      "memory(GiB)": 67.73,
      "step": 2390,
      "train_speed(iter/s)": 0.040113
    },
    {
      "acc": 0.7674602,
      "epoch": 1.6471801925722147,
      "grad_norm": 1.2739620208740234,
      "learning_rate": 8.013692138300018e-05,
      "loss": 0.82607212,
      "memory(GiB)": 67.73,
      "step": 2395,
      "train_speed(iter/s)": 0.040148
    },
    {
      "acc": 0.75973258,
      "epoch": 1.6506189821182944,
      "grad_norm": 1.313481330871582,
      "learning_rate": 8.004610204680196e-05,
      "loss": 0.83364353,
      "memory(GiB)": 67.73,
      "step": 2400,
      "train_speed(iter/s)": 0.040184
    },
    {
      "epoch": 1.6506189821182944,
      "eval_acc": 0.7556687812120394,
      "eval_loss": 0.8708279728889465,
      "eval_runtime": 1138.5113,
      "eval_samples_per_second": 3.762,
      "eval_steps_per_second": 0.068,
      "step": 2400
    },
    {
      "acc": 0.76298213,
      "epoch": 1.654057771664374,
      "grad_norm": 1.3461359739303589,
      "learning_rate": 7.995512729225894e-05,
      "loss": 0.82495756,
      "memory(GiB)": 67.73,
      "step": 2405,
      "train_speed(iter/s)": 0.03947
    },
    {
      "acc": 0.76738596,
      "epoch": 1.657496561210454,
      "grad_norm": 1.272608757019043,
      "learning_rate": 7.986399759003119e-05,
      "loss": 0.82517872,
      "memory(GiB)": 67.73,
      "step": 2410,
      "train_speed(iter/s)": 0.039512
    },
    {
      "acc": 0.75537925,
      "epoch": 1.6609353507565336,
      "grad_norm": 1.2757365703582764,
      "learning_rate": 7.977271341158035e-05,
      "loss": 0.8790472,
      "memory(GiB)": 67.73,
      "step": 2415,
      "train_speed(iter/s)": 0.039549
    },
    {
      "acc": 0.75297923,
      "epoch": 1.6643741403026135,
      "grad_norm": 1.1887763738632202,
      "learning_rate": 7.968127522916723e-05,
      "loss": 0.8699337,
      "memory(GiB)": 67.73,
      "step": 2420,
      "train_speed(iter/s)": 0.039586
    },
    {
      "acc": 0.76874723,
      "epoch": 1.6678129298486932,
      "grad_norm": 1.0565059185028076,
      "learning_rate": 7.95896835158494e-05,
      "loss": 0.81132565,
      "memory(GiB)": 67.73,
      "step": 2425,
      "train_speed(iter/s)": 0.03962
    },
    {
      "acc": 0.75187912,
      "epoch": 1.671251719394773,
      "grad_norm": 1.1199684143066406,
      "learning_rate": 7.949793874547877e-05,
      "loss": 0.89120388,
      "memory(GiB)": 67.73,
      "step": 2430,
      "train_speed(iter/s)": 0.039655
    },
    {
      "acc": 0.7603467,
      "epoch": 1.6746905089408528,
      "grad_norm": 1.225197196006775,
      "learning_rate": 7.940604139269903e-05,
      "loss": 0.83448153,
      "memory(GiB)": 67.73,
      "step": 2435,
      "train_speed(iter/s)": 0.039691
    },
    {
      "acc": 0.76669693,
      "epoch": 1.6781292984869327,
      "grad_norm": 1.2933470010757446,
      "learning_rate": 7.931399193294331e-05,
      "loss": 0.81721525,
      "memory(GiB)": 67.73,
      "step": 2440,
      "train_speed(iter/s)": 0.039727
    },
    {
      "acc": 0.76869669,
      "epoch": 1.6815680880330124,
      "grad_norm": 1.311872124671936,
      "learning_rate": 7.922179084243161e-05,
      "loss": 0.82446499,
      "memory(GiB)": 67.73,
      "step": 2445,
      "train_speed(iter/s)": 0.039768
    },
    {
      "acc": 0.74998088,
      "epoch": 1.685006877579092,
      "grad_norm": 1.109681248664856,
      "learning_rate": 7.912943859816847e-05,
      "loss": 0.88515491,
      "memory(GiB)": 67.73,
      "step": 2450,
      "train_speed(iter/s)": 0.039804
    },
    {
      "acc": 0.76143503,
      "epoch": 1.688445667125172,
      "grad_norm": 1.2891324758529663,
      "learning_rate": 7.903693567794035e-05,
      "loss": 0.84492321,
      "memory(GiB)": 67.73,
      "step": 2455,
      "train_speed(iter/s)": 0.039838
    },
    {
      "acc": 0.77193007,
      "epoch": 1.6918844566712519,
      "grad_norm": 1.0803942680358887,
      "learning_rate": 7.894428256031332e-05,
      "loss": 0.78853378,
      "memory(GiB)": 67.73,
      "step": 2460,
      "train_speed(iter/s)": 0.039872
    },
    {
      "acc": 0.78182478,
      "epoch": 1.6953232462173315,
      "grad_norm": 1.1716827154159546,
      "learning_rate": 7.88514797246304e-05,
      "loss": 0.76458054,
      "memory(GiB)": 67.73,
      "step": 2465,
      "train_speed(iter/s)": 0.039909
    },
    {
      "acc": 0.76684537,
      "epoch": 1.6987620357634112,
      "grad_norm": 1.2370884418487549,
      "learning_rate": 7.875852765100926e-05,
      "loss": 0.83122387,
      "memory(GiB)": 67.73,
      "step": 2470,
      "train_speed(iter/s)": 0.03994
    },
    {
      "acc": 0.7637423,
      "epoch": 1.702200825309491,
      "grad_norm": 1.4126001596450806,
      "learning_rate": 7.866542682033964e-05,
      "loss": 0.83239994,
      "memory(GiB)": 67.73,
      "step": 2475,
      "train_speed(iter/s)": 0.03998
    },
    {
      "acc": 0.7585422,
      "epoch": 1.7056396148555708,
      "grad_norm": 1.277557373046875,
      "learning_rate": 7.857217771428085e-05,
      "loss": 0.84281693,
      "memory(GiB)": 67.73,
      "step": 2480,
      "train_speed(iter/s)": 0.040019
    },
    {
      "acc": 0.76609259,
      "epoch": 1.7090784044016507,
      "grad_norm": 1.2501623630523682,
      "learning_rate": 7.847878081525932e-05,
      "loss": 0.8170804,
      "memory(GiB)": 67.73,
      "step": 2485,
      "train_speed(iter/s)": 0.040056
    },
    {
      "acc": 0.75793953,
      "epoch": 1.7125171939477304,
      "grad_norm": 1.5299009084701538,
      "learning_rate": 7.838523660646611e-05,
      "loss": 0.86527452,
      "memory(GiB)": 67.73,
      "step": 2490,
      "train_speed(iter/s)": 0.040087
    },
    {
      "acc": 0.75957718,
      "epoch": 1.71595598349381,
      "grad_norm": 1.2600144147872925,
      "learning_rate": 7.829154557185438e-05,
      "loss": 0.84371586,
      "memory(GiB)": 67.73,
      "step": 2495,
      "train_speed(iter/s)": 0.040119
    },
    {
      "acc": 0.77097268,
      "epoch": 1.71939477303989,
      "grad_norm": 1.2481366395950317,
      "learning_rate": 7.819770819613685e-05,
      "loss": 0.79474764,
      "memory(GiB)": 67.73,
      "step": 2500,
      "train_speed(iter/s)": 0.040159
    },
    {
      "epoch": 1.71939477303989,
      "eval_acc": 0.755859990102128,
      "eval_loss": 0.8665845990180969,
      "eval_runtime": 1172.0149,
      "eval_samples_per_second": 3.654,
      "eval_steps_per_second": 0.066,
      "step": 2500
    },
    {
      "acc": 0.76427364,
      "epoch": 1.7228335625859699,
      "grad_norm": 1.3622970581054688,
      "learning_rate": 7.810372496478342e-05,
      "loss": 0.83532944,
      "memory(GiB)": 67.73,
      "step": 2505,
      "train_speed(iter/s)": 0.039453
    },
    {
      "acc": 0.75734344,
      "epoch": 1.7262723521320495,
      "grad_norm": 1.2002394199371338,
      "learning_rate": 7.800959636401853e-05,
      "loss": 0.85398045,
      "memory(GiB)": 67.73,
      "step": 2510,
      "train_speed(iter/s)": 0.039487
    },
    {
      "acc": 0.76924725,
      "epoch": 1.7297111416781292,
      "grad_norm": 1.1298774480819702,
      "learning_rate": 7.791532288081868e-05,
      "loss": 0.81432209,
      "memory(GiB)": 67.73,
      "step": 2515,
      "train_speed(iter/s)": 0.03953
    },
    {
      "acc": 0.76489067,
      "epoch": 1.7331499312242091,
      "grad_norm": 1.3914809226989746,
      "learning_rate": 7.782090500290998e-05,
      "loss": 0.83234596,
      "memory(GiB)": 67.73,
      "step": 2520,
      "train_speed(iter/s)": 0.039566
    },
    {
      "acc": 0.75667624,
      "epoch": 1.7365887207702888,
      "grad_norm": 1.2779312133789062,
      "learning_rate": 7.77263432187655e-05,
      "loss": 0.84862852,
      "memory(GiB)": 67.73,
      "step": 2525,
      "train_speed(iter/s)": 0.039602
    },
    {
      "acc": 0.76841941,
      "epoch": 1.7400275103163687,
      "grad_norm": 1.1182903051376343,
      "learning_rate": 7.763163801760286e-05,
      "loss": 0.80550995,
      "memory(GiB)": 67.73,
      "step": 2530,
      "train_speed(iter/s)": 0.039639
    },
    {
      "acc": 0.75564499,
      "epoch": 1.7434662998624484,
      "grad_norm": 1.325380802154541,
      "learning_rate": 7.753678988938162e-05,
      "loss": 0.85131378,
      "memory(GiB)": 67.73,
      "step": 2535,
      "train_speed(iter/s)": 0.039668
    },
    {
      "acc": 0.77792916,
      "epoch": 1.746905089408528,
      "grad_norm": 1.2355977296829224,
      "learning_rate": 7.74417993248008e-05,
      "loss": 0.76762047,
      "memory(GiB)": 67.73,
      "step": 2540,
      "train_speed(iter/s)": 0.039703
    },
    {
      "acc": 0.7703722,
      "epoch": 1.750343878954608,
      "grad_norm": 1.1645699739456177,
      "learning_rate": 7.734666681529633e-05,
      "loss": 0.80783539,
      "memory(GiB)": 67.73,
      "step": 2545,
      "train_speed(iter/s)": 0.039737
    },
    {
      "acc": 0.76581202,
      "epoch": 1.7537826685006879,
      "grad_norm": 1.2667499780654907,
      "learning_rate": 7.725139285303843e-05,
      "loss": 0.81426716,
      "memory(GiB)": 67.73,
      "step": 2550,
      "train_speed(iter/s)": 0.039769
    },
    {
      "acc": 0.75635591,
      "epoch": 1.7572214580467675,
      "grad_norm": 1.325819492340088,
      "learning_rate": 7.71559779309292e-05,
      "loss": 0.85436335,
      "memory(GiB)": 67.73,
      "step": 2555,
      "train_speed(iter/s)": 0.039804
    },
    {
      "acc": 0.76963515,
      "epoch": 1.7606602475928472,
      "grad_norm": 1.1206269264221191,
      "learning_rate": 7.70604225426e-05,
      "loss": 0.79051266,
      "memory(GiB)": 67.73,
      "step": 2560,
      "train_speed(iter/s)": 0.039844
    },
    {
      "acc": 0.77096367,
      "epoch": 1.7640990371389271,
      "grad_norm": 1.2406977415084839,
      "learning_rate": 7.696472718240883e-05,
      "loss": 0.8147171,
      "memory(GiB)": 67.73,
      "step": 2565,
      "train_speed(iter/s)": 0.039879
    },
    {
      "acc": 0.76435289,
      "epoch": 1.767537826685007,
      "grad_norm": 1.2148582935333252,
      "learning_rate": 7.686889234543788e-05,
      "loss": 0.82190208,
      "memory(GiB)": 67.73,
      "step": 2570,
      "train_speed(iter/s)": 0.039906
    },
    {
      "acc": 0.76752815,
      "epoch": 1.7709766162310867,
      "grad_norm": 1.0485085248947144,
      "learning_rate": 7.677291852749093e-05,
      "loss": 0.81348267,
      "memory(GiB)": 67.73,
      "step": 2575,
      "train_speed(iter/s)": 0.039941
    },
    {
      "acc": 0.75209255,
      "epoch": 1.7744154057771664,
      "grad_norm": 1.2998508214950562,
      "learning_rate": 7.667680622509081e-05,
      "loss": 0.85738831,
      "memory(GiB)": 67.73,
      "step": 2580,
      "train_speed(iter/s)": 0.039973
    },
    {
      "acc": 0.77212009,
      "epoch": 1.777854195323246,
      "grad_norm": 1.1790145635604858,
      "learning_rate": 7.65805559354767e-05,
      "loss": 0.81079607,
      "memory(GiB)": 67.73,
      "step": 2585,
      "train_speed(iter/s)": 0.040007
    },
    {
      "acc": 0.76209583,
      "epoch": 1.781292984869326,
      "grad_norm": 1.147714614868164,
      "learning_rate": 7.648416815660177e-05,
      "loss": 0.82997284,
      "memory(GiB)": 67.73,
      "step": 2590,
      "train_speed(iter/s)": 0.040039
    },
    {
      "acc": 0.76417446,
      "epoch": 1.7847317744154059,
      "grad_norm": 1.3315579891204834,
      "learning_rate": 7.638764338713044e-05,
      "loss": 0.81722393,
      "memory(GiB)": 67.73,
      "step": 2595,
      "train_speed(iter/s)": 0.040074
    },
    {
      "acc": 0.76321087,
      "epoch": 1.7881705639614855,
      "grad_norm": 1.282499074935913,
      "learning_rate": 7.629098212643586e-05,
      "loss": 0.82541628,
      "memory(GiB)": 67.73,
      "step": 2600,
      "train_speed(iter/s)": 0.040108
    },
    {
      "epoch": 1.7881705639614855,
      "eval_acc": 0.7575696225311558,
      "eval_loss": 0.8597843050956726,
      "eval_runtime": 1165.0354,
      "eval_samples_per_second": 3.676,
      "eval_steps_per_second": 0.066,
      "step": 2600
    },
    {
      "acc": 0.76687446,
      "epoch": 1.7916093535075652,
      "grad_norm": 1.1122969388961792,
      "learning_rate": 7.619418487459733e-05,
      "loss": 0.80312977,
      "memory(GiB)": 67.73,
      "step": 2605,
      "train_speed(iter/s)": 0.039432
    },
    {
      "acc": 0.76852121,
      "epoch": 1.7950481430536451,
      "grad_norm": 1.3779712915420532,
      "learning_rate": 7.609725213239771e-05,
      "loss": 0.79960012,
      "memory(GiB)": 67.73,
      "step": 2610,
      "train_speed(iter/s)": 0.039468
    },
    {
      "acc": 0.76329231,
      "epoch": 1.798486932599725,
      "grad_norm": 1.4102786779403687,
      "learning_rate": 7.60001844013208e-05,
      "loss": 0.83775997,
      "memory(GiB)": 67.73,
      "step": 2615,
      "train_speed(iter/s)": 0.039502
    },
    {
      "acc": 0.76466594,
      "epoch": 1.8019257221458047,
      "grad_norm": 1.2906368970870972,
      "learning_rate": 7.590298218354877e-05,
      "loss": 0.82873688,
      "memory(GiB)": 67.73,
      "step": 2620,
      "train_speed(iter/s)": 0.039534
    },
    {
      "acc": 0.76969028,
      "epoch": 1.8053645116918844,
      "grad_norm": 1.2397427558898926,
      "learning_rate": 7.580564598195957e-05,
      "loss": 0.81822834,
      "memory(GiB)": 67.73,
      "step": 2625,
      "train_speed(iter/s)": 0.03957
    },
    {
      "acc": 0.7630662,
      "epoch": 1.8088033012379643,
      "grad_norm": 1.3433514833450317,
      "learning_rate": 7.570817630012435e-05,
      "loss": 0.82502728,
      "memory(GiB)": 67.73,
      "step": 2630,
      "train_speed(iter/s)": 0.039606
    },
    {
      "acc": 0.76269207,
      "epoch": 1.812242090784044,
      "grad_norm": 1.0851596593856812,
      "learning_rate": 7.561057364230475e-05,
      "loss": 0.81567841,
      "memory(GiB)": 67.73,
      "step": 2635,
      "train_speed(iter/s)": 0.03964
    },
    {
      "acc": 0.75853286,
      "epoch": 1.8156808803301239,
      "grad_norm": 1.2418478727340698,
      "learning_rate": 7.551283851345042e-05,
      "loss": 0.84409733,
      "memory(GiB)": 67.73,
      "step": 2640,
      "train_speed(iter/s)": 0.039671
    },
    {
      "acc": 0.76311216,
      "epoch": 1.8191196698762035,
      "grad_norm": 1.1131020784378052,
      "learning_rate": 7.541497141919636e-05,
      "loss": 0.82704649,
      "memory(GiB)": 67.73,
      "step": 2645,
      "train_speed(iter/s)": 0.039706
    },
    {
      "acc": 0.76137314,
      "epoch": 1.8225584594222832,
      "grad_norm": 1.378839373588562,
      "learning_rate": 7.531697286586024e-05,
      "loss": 0.833605,
      "memory(GiB)": 67.73,
      "step": 2650,
      "train_speed(iter/s)": 0.039741
    },
    {
      "acc": 0.76775074,
      "epoch": 1.8259972489683631,
      "grad_norm": 1.269956350326538,
      "learning_rate": 7.521884336043988e-05,
      "loss": 0.82008057,
      "memory(GiB)": 67.73,
      "step": 2655,
      "train_speed(iter/s)": 0.039776
    },
    {
      "acc": 0.77038703,
      "epoch": 1.829436038514443,
      "grad_norm": 1.1615530252456665,
      "learning_rate": 7.51205834106106e-05,
      "loss": 0.79894481,
      "memory(GiB)": 67.73,
      "step": 2660,
      "train_speed(iter/s)": 0.039811
    },
    {
      "acc": 0.76342058,
      "epoch": 1.8328748280605227,
      "grad_norm": 1.482840895652771,
      "learning_rate": 7.502219352472252e-05,
      "loss": 0.85134239,
      "memory(GiB)": 67.73,
      "step": 2665,
      "train_speed(iter/s)": 0.039842
    },
    {
      "acc": 0.77493591,
      "epoch": 1.8363136176066024,
      "grad_norm": 1.321035385131836,
      "learning_rate": 7.492367421179802e-05,
      "loss": 0.77966547,
      "memory(GiB)": 67.73,
      "step": 2670,
      "train_speed(iter/s)": 0.039874
    },
    {
      "acc": 0.7690084,
      "epoch": 1.8397524071526823,
      "grad_norm": 1.1279528141021729,
      "learning_rate": 7.482502598152908e-05,
      "loss": 0.80104809,
      "memory(GiB)": 67.73,
      "step": 2675,
      "train_speed(iter/s)": 0.039909
    },
    {
      "acc": 0.75845652,
      "epoch": 1.8431911966987622,
      "grad_norm": 1.340296983718872,
      "learning_rate": 7.472624934427461e-05,
      "loss": 0.8414402,
      "memory(GiB)": 67.73,
      "step": 2680,
      "train_speed(iter/s)": 0.039938
    },
    {
      "acc": 0.77168741,
      "epoch": 1.8466299862448419,
      "grad_norm": 1.1220262050628662,
      "learning_rate": 7.462734481105788e-05,
      "loss": 0.80376453,
      "memory(GiB)": 67.73,
      "step": 2685,
      "train_speed(iter/s)": 0.03997
    },
    {
      "acc": 0.77061701,
      "epoch": 1.8500687757909215,
      "grad_norm": 1.15684974193573,
      "learning_rate": 7.452831289356382e-05,
      "loss": 0.80241566,
      "memory(GiB)": 67.73,
      "step": 2690,
      "train_speed(iter/s)": 0.040001
    },
    {
      "acc": 0.77713642,
      "epoch": 1.8535075653370012,
      "grad_norm": 1.0986595153808594,
      "learning_rate": 7.442915410413635e-05,
      "loss": 0.76731901,
      "memory(GiB)": 67.73,
      "step": 2695,
      "train_speed(iter/s)": 0.040033
    },
    {
      "acc": 0.77222977,
      "epoch": 1.8569463548830811,
      "grad_norm": 1.258157730102539,
      "learning_rate": 7.43298689557758e-05,
      "loss": 0.78445282,
      "memory(GiB)": 67.73,
      "step": 2700,
      "train_speed(iter/s)": 0.040066
    },
    {
      "epoch": 1.8569463548830811,
      "eval_acc": 0.7587618661987673,
      "eval_loss": 0.8582912087440491,
      "eval_runtime": 1138.3587,
      "eval_samples_per_second": 3.762,
      "eval_steps_per_second": 0.068,
      "step": 2700
    },
    {
      "acc": 0.76180067,
      "epoch": 1.860385144429161,
      "grad_norm": 1.2461254596710205,
      "learning_rate": 7.423045796213618e-05,
      "loss": 0.84116306,
      "memory(GiB)": 67.73,
      "step": 2705,
      "train_speed(iter/s)": 0.039433
    },
    {
      "acc": 0.76939058,
      "epoch": 1.8638239339752407,
      "grad_norm": 1.1999588012695312,
      "learning_rate": 7.413092163752263e-05,
      "loss": 0.79865079,
      "memory(GiB)": 67.73,
      "step": 2710,
      "train_speed(iter/s)": 0.039464
    },
    {
      "acc": 0.76056762,
      "epoch": 1.8672627235213204,
      "grad_norm": 1.1177629232406616,
      "learning_rate": 7.403126049688864e-05,
      "loss": 0.83327274,
      "memory(GiB)": 67.73,
      "step": 2715,
      "train_speed(iter/s)": 0.0395
    },
    {
      "acc": 0.76080637,
      "epoch": 1.8707015130674003,
      "grad_norm": 1.1269170045852661,
      "learning_rate": 7.393147505583345e-05,
      "loss": 0.84126358,
      "memory(GiB)": 67.73,
      "step": 2720,
      "train_speed(iter/s)": 0.039532
    },
    {
      "acc": 0.76141424,
      "epoch": 1.8741403026134802,
      "grad_norm": 1.4532649517059326,
      "learning_rate": 7.383156583059941e-05,
      "loss": 0.83713207,
      "memory(GiB)": 67.73,
      "step": 2725,
      "train_speed(iter/s)": 0.039565
    },
    {
      "acc": 0.76509705,
      "epoch": 1.8775790921595599,
      "grad_norm": 1.7495522499084473,
      "learning_rate": 7.373153333806917e-05,
      "loss": 0.82034264,
      "memory(GiB)": 67.73,
      "step": 2730,
      "train_speed(iter/s)": 0.039601
    },
    {
      "acc": 0.7695118,
      "epoch": 1.8810178817056395,
      "grad_norm": 1.3915905952453613,
      "learning_rate": 7.363137809576322e-05,
      "loss": 0.81267509,
      "memory(GiB)": 67.73,
      "step": 2735,
      "train_speed(iter/s)": 0.039634
    },
    {
      "acc": 0.76744928,
      "epoch": 1.8844566712517192,
      "grad_norm": 1.1005185842514038,
      "learning_rate": 7.353110062183706e-05,
      "loss": 0.82437191,
      "memory(GiB)": 67.73,
      "step": 2740,
      "train_speed(iter/s)": 0.039664
    },
    {
      "acc": 0.75223131,
      "epoch": 1.8878954607977991,
      "grad_norm": 1.4645339250564575,
      "learning_rate": 7.343070143507853e-05,
      "loss": 0.84084778,
      "memory(GiB)": 67.73,
      "step": 2745,
      "train_speed(iter/s)": 0.039692
    },
    {
      "acc": 0.76176004,
      "epoch": 1.891334250343879,
      "grad_norm": 1.2676668167114258,
      "learning_rate": 7.333018105490515e-05,
      "loss": 0.83568439,
      "memory(GiB)": 67.73,
      "step": 2750,
      "train_speed(iter/s)": 0.039723
    },
    {
      "acc": 0.75615792,
      "epoch": 1.8947730398899587,
      "grad_norm": 1.2724095582962036,
      "learning_rate": 7.322954000136148e-05,
      "loss": 0.8729351,
      "memory(GiB)": 67.73,
      "step": 2755,
      "train_speed(iter/s)": 0.03975
    },
    {
      "acc": 0.78407092,
      "epoch": 1.8982118294360384,
      "grad_norm": 1.0895689725875854,
      "learning_rate": 7.312877879511639e-05,
      "loss": 0.76207438,
      "memory(GiB)": 67.73,
      "step": 2760,
      "train_speed(iter/s)": 0.039781
    },
    {
      "acc": 0.76615877,
      "epoch": 1.9016506189821183,
      "grad_norm": 1.2832506895065308,
      "learning_rate": 7.30278979574603e-05,
      "loss": 0.82421865,
      "memory(GiB)": 67.73,
      "step": 2765,
      "train_speed(iter/s)": 0.039817
    },
    {
      "acc": 0.75757556,
      "epoch": 1.9050894085281982,
      "grad_norm": 1.069419503211975,
      "learning_rate": 7.292689801030262e-05,
      "loss": 0.84605732,
      "memory(GiB)": 67.73,
      "step": 2770,
      "train_speed(iter/s)": 0.039848
    },
    {
      "acc": 0.7682868,
      "epoch": 1.9085281980742779,
      "grad_norm": 1.2053790092468262,
      "learning_rate": 7.282577947616894e-05,
      "loss": 0.81153774,
      "memory(GiB)": 67.73,
      "step": 2775,
      "train_speed(iter/s)": 0.039879
    },
    {
      "acc": 0.76934462,
      "epoch": 1.9119669876203575,
      "grad_norm": 1.1767531633377075,
      "learning_rate": 7.272454287819833e-05,
      "loss": 0.80814152,
      "memory(GiB)": 67.73,
      "step": 2780,
      "train_speed(iter/s)": 0.039913
    },
    {
      "acc": 0.7687346,
      "epoch": 1.9154057771664375,
      "grad_norm": 1.2420388460159302,
      "learning_rate": 7.262318874014073e-05,
      "loss": 0.79890871,
      "memory(GiB)": 67.73,
      "step": 2785,
      "train_speed(iter/s)": 0.039945
    },
    {
      "acc": 0.76412306,
      "epoch": 1.9188445667125174,
      "grad_norm": 1.1197503805160522,
      "learning_rate": 7.252171758635413e-05,
      "loss": 0.8147377,
      "memory(GiB)": 67.73,
      "step": 2790,
      "train_speed(iter/s)": 0.039979
    },
    {
      "acc": 0.76467457,
      "epoch": 1.922283356258597,
      "grad_norm": 1.3166663646697998,
      "learning_rate": 7.242012994180194e-05,
      "loss": 0.80287476,
      "memory(GiB)": 67.73,
      "step": 2795,
      "train_speed(iter/s)": 0.040006
    },
    {
      "acc": 0.75744901,
      "epoch": 1.9257221458046767,
      "grad_norm": 1.226488709449768,
      "learning_rate": 7.231842633205018e-05,
      "loss": 0.84611988,
      "memory(GiB)": 67.73,
      "step": 2800,
      "train_speed(iter/s)": 0.040037
    },
    {
      "epoch": 1.9257221458046767,
      "eval_acc": 0.7585087956089441,
      "eval_loss": 0.8532779812812805,
      "eval_runtime": 1120.0858,
      "eval_samples_per_second": 3.824,
      "eval_steps_per_second": 0.069,
      "step": 2800
    },
    {
      "acc": 0.75332041,
      "epoch": 1.9291609353507564,
      "grad_norm": 1.3092836141586304,
      "learning_rate": 7.221660728326488e-05,
      "loss": 0.86540194,
      "memory(GiB)": 67.73,
      "step": 2805,
      "train_speed(iter/s)": 0.039438
    },
    {
      "acc": 0.75658636,
      "epoch": 1.9325997248968363,
      "grad_norm": 1.507814645767212,
      "learning_rate": 7.211467332220929e-05,
      "loss": 0.84582443,
      "memory(GiB)": 67.73,
      "step": 2810,
      "train_speed(iter/s)": 0.039471
    },
    {
      "acc": 0.77044678,
      "epoch": 1.9360385144429162,
      "grad_norm": 1.1073263883590698,
      "learning_rate": 7.201262497624113e-05,
      "loss": 0.80068121,
      "memory(GiB)": 67.73,
      "step": 2815,
      "train_speed(iter/s)": 0.0395
    },
    {
      "acc": 0.76184196,
      "epoch": 1.9394773039889959,
      "grad_norm": 1.2935534715652466,
      "learning_rate": 7.191046277330989e-05,
      "loss": 0.80897961,
      "memory(GiB)": 67.73,
      "step": 2820,
      "train_speed(iter/s)": 0.039535
    },
    {
      "acc": 0.77721043,
      "epoch": 1.9429160935350756,
      "grad_norm": 1.291559100151062,
      "learning_rate": 7.180818724195413e-05,
      "loss": 0.78424644,
      "memory(GiB)": 67.73,
      "step": 2825,
      "train_speed(iter/s)": 0.039567
    },
    {
      "acc": 0.76044025,
      "epoch": 1.9463548830811555,
      "grad_norm": 1.3120973110198975,
      "learning_rate": 7.170579891129872e-05,
      "loss": 0.83824387,
      "memory(GiB)": 67.73,
      "step": 2830,
      "train_speed(iter/s)": 0.039597
    },
    {
      "acc": 0.768398,
      "epoch": 1.9497936726272354,
      "grad_norm": 1.4003841876983643,
      "learning_rate": 7.160329831105207e-05,
      "loss": 0.81456871,
      "memory(GiB)": 67.73,
      "step": 2835,
      "train_speed(iter/s)": 0.039628
    },
    {
      "acc": 0.76318188,
      "epoch": 1.953232462173315,
      "grad_norm": 1.2559746503829956,
      "learning_rate": 7.150068597150343e-05,
      "loss": 0.81296453,
      "memory(GiB)": 67.73,
      "step": 2840,
      "train_speed(iter/s)": 0.039657
    },
    {
      "acc": 0.76650887,
      "epoch": 1.9566712517193947,
      "grad_norm": 1.4540189504623413,
      "learning_rate": 7.139796242352016e-05,
      "loss": 0.80663786,
      "memory(GiB)": 67.73,
      "step": 2845,
      "train_speed(iter/s)": 0.039685
    },
    {
      "acc": 0.75642557,
      "epoch": 1.9601100412654744,
      "grad_norm": 1.2288488149642944,
      "learning_rate": 7.129512819854492e-05,
      "loss": 0.85932999,
      "memory(GiB)": 67.73,
      "step": 2850,
      "train_speed(iter/s)": 0.039713
    },
    {
      "acc": 0.76574574,
      "epoch": 1.9635488308115543,
      "grad_norm": 1.0715101957321167,
      "learning_rate": 7.1192183828593e-05,
      "loss": 0.81189203,
      "memory(GiB)": 67.73,
      "step": 2855,
      "train_speed(iter/s)": 0.039744
    },
    {
      "acc": 0.76550779,
      "epoch": 1.9669876203576342,
      "grad_norm": 1.1467492580413818,
      "learning_rate": 7.108912984624951e-05,
      "loss": 0.816045,
      "memory(GiB)": 67.73,
      "step": 2860,
      "train_speed(iter/s)": 0.039771
    },
    {
      "acc": 0.77190948,
      "epoch": 1.9704264099037139,
      "grad_norm": 1.3903864622116089,
      "learning_rate": 7.098596678466663e-05,
      "loss": 0.79169202,
      "memory(GiB)": 67.73,
      "step": 2865,
      "train_speed(iter/s)": 0.039802
    },
    {
      "acc": 0.77034965,
      "epoch": 1.9738651994497936,
      "grad_norm": 1.4153941869735718,
      "learning_rate": 7.088269517756085e-05,
      "loss": 0.8023941,
      "memory(GiB)": 67.73,
      "step": 2870,
      "train_speed(iter/s)": 0.039833
    },
    {
      "acc": 0.7611412,
      "epoch": 1.9773039889958735,
      "grad_norm": 1.420799732208252,
      "learning_rate": 7.07793155592103e-05,
      "loss": 0.82977829,
      "memory(GiB)": 67.73,
      "step": 2875,
      "train_speed(iter/s)": 0.039863
    },
    {
      "acc": 0.7672267,
      "epoch": 1.9807427785419534,
      "grad_norm": 1.3404732942581177,
      "learning_rate": 7.06758284644518e-05,
      "loss": 0.82698822,
      "memory(GiB)": 67.73,
      "step": 2880,
      "train_speed(iter/s)": 0.039895
    },
    {
      "acc": 0.7625721,
      "epoch": 1.984181568088033,
      "grad_norm": 1.215389370918274,
      "learning_rate": 7.057223442867828e-05,
      "loss": 0.81949692,
      "memory(GiB)": 67.73,
      "step": 2885,
      "train_speed(iter/s)": 0.039923
    },
    {
      "acc": 0.76380196,
      "epoch": 1.9876203576341127,
      "grad_norm": 1.1068233251571655,
      "learning_rate": 7.046853398783595e-05,
      "loss": 0.82260599,
      "memory(GiB)": 67.73,
      "step": 2890,
      "train_speed(iter/s)": 0.039951
    },
    {
      "acc": 0.77088547,
      "epoch": 1.9910591471801926,
      "grad_norm": 1.2111361026763916,
      "learning_rate": 7.03647276784214e-05,
      "loss": 0.79111667,
      "memory(GiB)": 67.73,
      "step": 2895,
      "train_speed(iter/s)": 0.039979
    },
    {
      "acc": 0.77545271,
      "epoch": 1.9944979367262725,
      "grad_norm": 1.5610926151275635,
      "learning_rate": 7.026081603747905e-05,
      "loss": 0.78897448,
      "memory(GiB)": 67.73,
      "step": 2900,
      "train_speed(iter/s)": 0.040011
    },
    {
      "epoch": 1.9944979367262725,
      "eval_acc": 0.7610057587618662,
      "eval_loss": 0.8448835015296936,
      "eval_runtime": 1173.7451,
      "eval_samples_per_second": 3.649,
      "eval_steps_per_second": 0.066,
      "step": 2900
    },
    {
      "acc": 0.76741076,
      "epoch": 1.9979367262723522,
      "grad_norm": 1.279598593711853,
      "learning_rate": 7.01567996025982e-05,
      "loss": 0.81564512,
      "memory(GiB)": 67.73,
      "step": 2905,
      "train_speed(iter/s)": 0.039405
    },
    {
      "acc": 0.76975098,
      "epoch": 2.001375515818432,
      "grad_norm": 1.2036709785461426,
      "learning_rate": 7.00526789119103e-05,
      "loss": 0.80328093,
      "memory(GiB)": 67.73,
      "step": 2910,
      "train_speed(iter/s)": 0.039417
    },
    {
      "acc": 0.77956657,
      "epoch": 2.0048143053645116,
      "grad_norm": 1.2451400756835938,
      "learning_rate": 6.994845450408618e-05,
      "loss": 0.77778225,
      "memory(GiB)": 67.73,
      "step": 2915,
      "train_speed(iter/s)": 0.039446
    },
    {
      "acc": 0.77100277,
      "epoch": 2.0082530949105917,
      "grad_norm": 1.501703143119812,
      "learning_rate": 6.984412691833326e-05,
      "loss": 0.78023448,
      "memory(GiB)": 67.73,
      "step": 2920,
      "train_speed(iter/s)": 0.039476
    },
    {
      "acc": 0.78834424,
      "epoch": 2.0116918844566714,
      "grad_norm": 1.3272697925567627,
      "learning_rate": 6.973969669439275e-05,
      "loss": 0.72417383,
      "memory(GiB)": 67.73,
      "step": 2925,
      "train_speed(iter/s)": 0.039503
    },
    {
      "acc": 0.78664284,
      "epoch": 2.015130674002751,
      "grad_norm": 1.2188291549682617,
      "learning_rate": 6.963516437253684e-05,
      "loss": 0.72837029,
      "memory(GiB)": 67.73,
      "step": 2930,
      "train_speed(iter/s)": 0.039531
    },
    {
      "acc": 0.78195653,
      "epoch": 2.0185694635488307,
      "grad_norm": 1.386407494544983,
      "learning_rate": 6.953053049356597e-05,
      "loss": 0.74600391,
      "memory(GiB)": 67.73,
      "step": 2935,
      "train_speed(iter/s)": 0.039557
    },
    {
      "acc": 0.77869625,
      "epoch": 2.0220082530949104,
      "grad_norm": 1.3403911590576172,
      "learning_rate": 6.942579559880596e-05,
      "loss": 0.75640421,
      "memory(GiB)": 67.73,
      "step": 2940,
      "train_speed(iter/s)": 0.039588
    },
    {
      "acc": 0.78800364,
      "epoch": 2.0254470426409905,
      "grad_norm": 1.2047083377838135,
      "learning_rate": 6.932096023010522e-05,
      "loss": 0.73669438,
      "memory(GiB)": 67.73,
      "step": 2945,
      "train_speed(iter/s)": 0.039621
    },
    {
      "acc": 0.79104028,
      "epoch": 2.02888583218707,
      "grad_norm": 1.208552360534668,
      "learning_rate": 6.921602492983198e-05,
      "loss": 0.71291051,
      "memory(GiB)": 67.73,
      "step": 2950,
      "train_speed(iter/s)": 0.039651
    },
    {
      "acc": 0.77535133,
      "epoch": 2.03232462173315,
      "grad_norm": 1.5250719785690308,
      "learning_rate": 6.911099024087153e-05,
      "loss": 0.76551533,
      "memory(GiB)": 67.73,
      "step": 2955,
      "train_speed(iter/s)": 0.039681
    },
    {
      "acc": 0.76844397,
      "epoch": 2.0357634112792296,
      "grad_norm": 1.2615329027175903,
      "learning_rate": 6.900585670662321e-05,
      "loss": 0.79221487,
      "memory(GiB)": 67.73,
      "step": 2960,
      "train_speed(iter/s)": 0.039706
    },
    {
      "acc": 0.7686276,
      "epoch": 2.0392022008253097,
      "grad_norm": 1.3869153261184692,
      "learning_rate": 6.890062487099788e-05,
      "loss": 0.79985504,
      "memory(GiB)": 67.73,
      "step": 2965,
      "train_speed(iter/s)": 0.039733
    },
    {
      "acc": 0.79315829,
      "epoch": 2.0426409903713894,
      "grad_norm": 1.3412541151046753,
      "learning_rate": 6.87952952784149e-05,
      "loss": 0.70044346,
      "memory(GiB)": 67.73,
      "step": 2970,
      "train_speed(iter/s)": 0.039764
    },
    {
      "acc": 0.76822557,
      "epoch": 2.046079779917469,
      "grad_norm": 1.4066526889801025,
      "learning_rate": 6.868986847379934e-05,
      "loss": 0.79726977,
      "memory(GiB)": 67.73,
      "step": 2975,
      "train_speed(iter/s)": 0.03979
    },
    {
      "acc": 0.77974381,
      "epoch": 2.0495185694635487,
      "grad_norm": 1.2747722864151,
      "learning_rate": 6.858434500257929e-05,
      "loss": 0.75174856,
      "memory(GiB)": 67.73,
      "step": 2980,
      "train_speed(iter/s)": 0.039819
    },
    {
      "acc": 0.7757237,
      "epoch": 2.0529573590096284,
      "grad_norm": 1.3321025371551514,
      "learning_rate": 6.847872541068289e-05,
      "loss": 0.76223741,
      "memory(GiB)": 67.73,
      "step": 2985,
      "train_speed(iter/s)": 0.039845
    },
    {
      "acc": 0.78108168,
      "epoch": 2.0563961485557085,
      "grad_norm": 1.3092007637023926,
      "learning_rate": 6.837301024453556e-05,
      "loss": 0.75712924,
      "memory(GiB)": 67.73,
      "step": 2990,
      "train_speed(iter/s)": 0.03987
    },
    {
      "acc": 0.78598289,
      "epoch": 2.059834938101788,
      "grad_norm": 1.305657982826233,
      "learning_rate": 6.826720005105718e-05,
      "loss": 0.73581972,
      "memory(GiB)": 67.73,
      "step": 2995,
      "train_speed(iter/s)": 0.039898
    },
    {
      "acc": 0.78907838,
      "epoch": 2.063273727647868,
      "grad_norm": 1.4367668628692627,
      "learning_rate": 6.816129537765928e-05,
      "loss": 0.72936554,
      "memory(GiB)": 67.73,
      "step": 3000,
      "train_speed(iter/s)": 0.039927
    },
    {
      "epoch": 2.063273727647868,
      "eval_acc": 0.7620799028208936,
      "eval_loss": 0.8483734726905823,
      "eval_runtime": 1164.2299,
      "eval_samples_per_second": 3.679,
      "eval_steps_per_second": 0.066,
      "step": 3000
    },
    {
      "acc": 0.78301954,
      "epoch": 2.0667125171939476,
      "grad_norm": 1.5559133291244507,
      "learning_rate": 6.805529677224216e-05,
      "loss": 0.7379096,
      "memory(GiB)": 67.73,
      "step": 3005,
      "train_speed(iter/s)": 0.039348
    },
    {
      "acc": 0.77635798,
      "epoch": 2.0701513067400277,
      "grad_norm": 1.266300916671753,
      "learning_rate": 6.79492047831921e-05,
      "loss": 0.74843826,
      "memory(GiB)": 67.73,
      "step": 3010,
      "train_speed(iter/s)": 0.039374
    },
    {
      "acc": 0.78403974,
      "epoch": 2.0735900962861074,
      "grad_norm": 1.3442883491516113,
      "learning_rate": 6.784301995937846e-05,
      "loss": 0.73924718,
      "memory(GiB)": 67.73,
      "step": 3015,
      "train_speed(iter/s)": 0.039405
    },
    {
      "acc": 0.7821476,
      "epoch": 2.077028885832187,
      "grad_norm": 1.3284059762954712,
      "learning_rate": 6.773674285015092e-05,
      "loss": 0.731111,
      "memory(GiB)": 67.73,
      "step": 3020,
      "train_speed(iter/s)": 0.039435
    },
    {
      "acc": 0.78100576,
      "epoch": 2.0804676753782667,
      "grad_norm": 1.2452079057693481,
      "learning_rate": 6.76303740053366e-05,
      "loss": 0.75636292,
      "memory(GiB)": 67.73,
      "step": 3025,
      "train_speed(iter/s)": 0.039465
    },
    {
      "acc": 0.77952466,
      "epoch": 2.083906464924347,
      "grad_norm": 1.5737926959991455,
      "learning_rate": 6.752391397523725e-05,
      "loss": 0.75301075,
      "memory(GiB)": 67.73,
      "step": 3030,
      "train_speed(iter/s)": 0.039494
    },
    {
      "acc": 0.78698683,
      "epoch": 2.0873452544704265,
      "grad_norm": 1.337703824043274,
      "learning_rate": 6.741736331062626e-05,
      "loss": 0.73099127,
      "memory(GiB)": 67.73,
      "step": 3035,
      "train_speed(iter/s)": 0.039519
    },
    {
      "acc": 0.79346113,
      "epoch": 2.090784044016506,
      "grad_norm": 1.203200340270996,
      "learning_rate": 6.731072256274604e-05,
      "loss": 0.70464416,
      "memory(GiB)": 67.73,
      "step": 3040,
      "train_speed(iter/s)": 0.039547
    },
    {
      "acc": 0.78062749,
      "epoch": 2.094222833562586,
      "grad_norm": 1.5236440896987915,
      "learning_rate": 6.720399228330494e-05,
      "loss": 0.75513244,
      "memory(GiB)": 67.73,
      "step": 3045,
      "train_speed(iter/s)": 0.039576
    },
    {
      "acc": 0.78337817,
      "epoch": 2.0976616231086656,
      "grad_norm": 1.533868670463562,
      "learning_rate": 6.709717302447462e-05,
      "loss": 0.73356051,
      "memory(GiB)": 67.73,
      "step": 3050,
      "train_speed(iter/s)": 0.039604
    },
    {
      "acc": 0.7775434,
      "epoch": 2.1011004126547457,
      "grad_norm": 1.5052993297576904,
      "learning_rate": 6.699026533888696e-05,
      "loss": 0.75711803,
      "memory(GiB)": 67.73,
      "step": 3055,
      "train_speed(iter/s)": 0.039632
    },
    {
      "acc": 0.76806664,
      "epoch": 2.1045392022008254,
      "grad_norm": 1.5001362562179565,
      "learning_rate": 6.688326977963142e-05,
      "loss": 0.78131714,
      "memory(GiB)": 67.73,
      "step": 3060,
      "train_speed(iter/s)": 0.039658
    },
    {
      "acc": 0.76824741,
      "epoch": 2.107977991746905,
      "grad_norm": 1.422959327697754,
      "learning_rate": 6.677618690025201e-05,
      "loss": 0.79324121,
      "memory(GiB)": 67.73,
      "step": 3065,
      "train_speed(iter/s)": 0.039682
    },
    {
      "acc": 0.79779997,
      "epoch": 2.1114167812929847,
      "grad_norm": 1.4451581239700317,
      "learning_rate": 6.666901725474453e-05,
      "loss": 0.69419732,
      "memory(GiB)": 67.73,
      "step": 3070,
      "train_speed(iter/s)": 0.039716
    },
    {
      "acc": 0.77174778,
      "epoch": 2.114855570839065,
      "grad_norm": 1.47465980052948,
      "learning_rate": 6.656176139755361e-05,
      "loss": 0.79069195,
      "memory(GiB)": 67.73,
      "step": 3075,
      "train_speed(iter/s)": 0.039741
    },
    {
      "acc": 0.77605443,
      "epoch": 2.1182943603851445,
      "grad_norm": 1.3267581462860107,
      "learning_rate": 6.645441988356998e-05,
      "loss": 0.74461274,
      "memory(GiB)": 67.73,
      "step": 3080,
      "train_speed(iter/s)": 0.03977
    },
    {
      "acc": 0.77349963,
      "epoch": 2.121733149931224,
      "grad_norm": 1.391455054283142,
      "learning_rate": 6.634699326812746e-05,
      "loss": 0.77960453,
      "memory(GiB)": 67.73,
      "step": 3085,
      "train_speed(iter/s)": 0.039803
    },
    {
      "acc": 0.79598751,
      "epoch": 2.125171939477304,
      "grad_norm": 1.2205495834350586,
      "learning_rate": 6.623948210700017e-05,
      "loss": 0.70987749,
      "memory(GiB)": 67.73,
      "step": 3090,
      "train_speed(iter/s)": 0.039834
    },
    {
      "acc": 0.77750764,
      "epoch": 2.128610729023384,
      "grad_norm": 1.4609593152999878,
      "learning_rate": 6.613188695639961e-05,
      "loss": 0.75586929,
      "memory(GiB)": 67.73,
      "step": 3095,
      "train_speed(iter/s)": 0.039862
    },
    {
      "acc": 0.78546953,
      "epoch": 2.1320495185694637,
      "grad_norm": 1.264543890953064,
      "learning_rate": 6.602420837297181e-05,
      "loss": 0.71513643,
      "memory(GiB)": 67.73,
      "step": 3100,
      "train_speed(iter/s)": 0.039888
    },
    {
      "epoch": 2.1320495185694637,
      "eval_acc": 0.7627378863544338,
      "eval_loss": 0.8477216958999634,
      "eval_runtime": 1140.3429,
      "eval_samples_per_second": 3.756,
      "eval_steps_per_second": 0.068,
      "step": 3100
    },
    {
      "acc": 0.79360695,
      "epoch": 2.1354883081155434,
      "grad_norm": 1.446578025817871,
      "learning_rate": 6.591644691379445e-05,
      "loss": 0.69685826,
      "memory(GiB)": 67.73,
      "step": 3105,
      "train_speed(iter/s)": 0.039338
    },
    {
      "acc": 0.78709059,
      "epoch": 2.138927097661623,
      "grad_norm": 1.3313159942626953,
      "learning_rate": 6.580860313637395e-05,
      "loss": 0.71339779,
      "memory(GiB)": 67.73,
      "step": 3110,
      "train_speed(iter/s)": 0.039367
    },
    {
      "acc": 0.77740135,
      "epoch": 2.1423658872077027,
      "grad_norm": 1.2659940719604492,
      "learning_rate": 6.57006775986426e-05,
      "loss": 0.77046852,
      "memory(GiB)": 67.73,
      "step": 3115,
      "train_speed(iter/s)": 0.039389
    },
    {
      "acc": 0.77650619,
      "epoch": 2.145804676753783,
      "grad_norm": 1.4188055992126465,
      "learning_rate": 6.559267085895575e-05,
      "loss": 0.77363644,
      "memory(GiB)": 67.73,
      "step": 3120,
      "train_speed(iter/s)": 0.039413
    },
    {
      "acc": 0.7744916,
      "epoch": 2.1492434662998625,
      "grad_norm": 1.5709620714187622,
      "learning_rate": 6.548458347608877e-05,
      "loss": 0.78516483,
      "memory(GiB)": 67.73,
      "step": 3125,
      "train_speed(iter/s)": 0.039441
    },
    {
      "acc": 0.79064846,
      "epoch": 2.152682255845942,
      "grad_norm": 1.4528831243515015,
      "learning_rate": 6.537641600923424e-05,
      "loss": 0.72166934,
      "memory(GiB)": 67.73,
      "step": 3130,
      "train_speed(iter/s)": 0.039473
    },
    {
      "acc": 0.78410482,
      "epoch": 2.156121045392022,
      "grad_norm": 1.2021089792251587,
      "learning_rate": 6.52681690179991e-05,
      "loss": 0.72740555,
      "memory(GiB)": 67.73,
      "step": 3135,
      "train_speed(iter/s)": 0.039502
    },
    {
      "acc": 0.78779097,
      "epoch": 2.1595598349381016,
      "grad_norm": 1.3785122632980347,
      "learning_rate": 6.515984306240171e-05,
      "loss": 0.7183506,
      "memory(GiB)": 67.73,
      "step": 3140,
      "train_speed(iter/s)": 0.039532
    },
    {
      "acc": 0.78875618,
      "epoch": 2.1629986244841817,
      "grad_norm": 1.4517391920089722,
      "learning_rate": 6.505143870286892e-05,
      "loss": 0.72756548,
      "memory(GiB)": 67.73,
      "step": 3145,
      "train_speed(iter/s)": 0.039559
    },
    {
      "acc": 0.77699008,
      "epoch": 2.1664374140302614,
      "grad_norm": 1.3971807956695557,
      "learning_rate": 6.494295650023326e-05,
      "loss": 0.76216259,
      "memory(GiB)": 67.73,
      "step": 3150,
      "train_speed(iter/s)": 0.039584
    },
    {
      "acc": 0.78072176,
      "epoch": 2.169876203576341,
      "grad_norm": 1.3789912462234497,
      "learning_rate": 6.483439701572987e-05,
      "loss": 0.74354634,
      "memory(GiB)": 67.73,
      "step": 3155,
      "train_speed(iter/s)": 0.039607
    },
    {
      "acc": 0.78208303,
      "epoch": 2.1733149931224207,
      "grad_norm": 1.4556952714920044,
      "learning_rate": 6.472576081099384e-05,
      "loss": 0.74753394,
      "memory(GiB)": 67.73,
      "step": 3160,
      "train_speed(iter/s)": 0.03963
    },
    {
      "acc": 0.77552352,
      "epoch": 2.176753782668501,
      "grad_norm": 1.3656238317489624,
      "learning_rate": 6.461704844805711e-05,
      "loss": 0.76849761,
      "memory(GiB)": 67.73,
      "step": 3165,
      "train_speed(iter/s)": 0.039651
    },
    {
      "acc": 0.79463406,
      "epoch": 2.1801925722145805,
      "grad_norm": 1.6309324502944946,
      "learning_rate": 6.450826048934564e-05,
      "loss": 0.71653328,
      "memory(GiB)": 67.73,
      "step": 3170,
      "train_speed(iter/s)": 0.03968
    },
    {
      "acc": 0.78766985,
      "epoch": 2.18363136176066,
      "grad_norm": 1.5563981533050537,
      "learning_rate": 6.439939749767646e-05,
      "loss": 0.72953587,
      "memory(GiB)": 67.73,
      "step": 3175,
      "train_speed(iter/s)": 0.039706
    },
    {
      "acc": 0.78887863,
      "epoch": 2.18707015130674,
      "grad_norm": 1.4095101356506348,
      "learning_rate": 6.429046003625481e-05,
      "loss": 0.71779909,
      "memory(GiB)": 67.73,
      "step": 3180,
      "train_speed(iter/s)": 0.039734
    },
    {
      "acc": 0.78688583,
      "epoch": 2.19050894085282,
      "grad_norm": 1.3465501070022583,
      "learning_rate": 6.418144866867121e-05,
      "loss": 0.73801022,
      "memory(GiB)": 67.73,
      "step": 3185,
      "train_speed(iter/s)": 0.03976
    },
    {
      "acc": 0.78006182,
      "epoch": 2.1939477303988997,
      "grad_norm": 1.4523009061813354,
      "learning_rate": 6.407236395889853e-05,
      "loss": 0.75504117,
      "memory(GiB)": 67.73,
      "step": 3190,
      "train_speed(iter/s)": 0.039787
    },
    {
      "acc": 0.77997456,
      "epoch": 2.1973865199449794,
      "grad_norm": 1.4462857246398926,
      "learning_rate": 6.396320647128904e-05,
      "loss": 0.7402379,
      "memory(GiB)": 67.73,
      "step": 3195,
      "train_speed(iter/s)": 0.039814
    },
    {
      "acc": 0.78546247,
      "epoch": 2.200825309491059,
      "grad_norm": 1.3453855514526367,
      "learning_rate": 6.385397677057158e-05,
      "loss": 0.74274435,
      "memory(GiB)": 67.73,
      "step": 3200,
      "train_speed(iter/s)": 0.039843
    },
    {
      "epoch": 2.200825309491059,
      "eval_acc": 0.7633396319791245,
      "eval_loss": 0.8417202234268188,
      "eval_runtime": 1162.9585,
      "eval_samples_per_second": 3.683,
      "eval_steps_per_second": 0.066,
      "step": 3200
    },
    {
      "acc": 0.7864996,
      "epoch": 2.2042640990371387,
      "grad_norm": 1.5509644746780396,
      "learning_rate": 6.374467542184858e-05,
      "loss": 0.7381216,
      "memory(GiB)": 67.73,
      "step": 3205,
      "train_speed(iter/s)": 0.0393
    },
    {
      "acc": 0.7754878,
      "epoch": 2.207702888583219,
      "grad_norm": 1.4426201581954956,
      "learning_rate": 6.363530299059309e-05,
      "loss": 0.76541862,
      "memory(GiB)": 67.73,
      "step": 3210,
      "train_speed(iter/s)": 0.039326
    },
    {
      "acc": 0.78851786,
      "epoch": 2.2111416781292985,
      "grad_norm": 1.4319977760314941,
      "learning_rate": 6.352586004264595e-05,
      "loss": 0.71185198,
      "memory(GiB)": 67.73,
      "step": 3215,
      "train_speed(iter/s)": 0.039353
    },
    {
      "acc": 0.78093901,
      "epoch": 2.214580467675378,
      "grad_norm": 1.4418880939483643,
      "learning_rate": 6.341634714421283e-05,
      "loss": 0.73851643,
      "memory(GiB)": 67.73,
      "step": 3220,
      "train_speed(iter/s)": 0.039379
    },
    {
      "acc": 0.78669729,
      "epoch": 2.218019257221458,
      "grad_norm": 1.270719289779663,
      "learning_rate": 6.330676486186129e-05,
      "loss": 0.71485491,
      "memory(GiB)": 67.73,
      "step": 3225,
      "train_speed(iter/s)": 0.039408
    },
    {
      "acc": 0.79144497,
      "epoch": 2.221458046767538,
      "grad_norm": 1.4314090013504028,
      "learning_rate": 6.31971137625178e-05,
      "loss": 0.7153636,
      "memory(GiB)": 67.73,
      "step": 3230,
      "train_speed(iter/s)": 0.039435
    },
    {
      "acc": 0.77727938,
      "epoch": 2.2248968363136177,
      "grad_norm": 1.4725736379623413,
      "learning_rate": 6.308739441346485e-05,
      "loss": 0.76273413,
      "memory(GiB)": 67.73,
      "step": 3235,
      "train_speed(iter/s)": 0.039462
    },
    {
      "acc": 0.78571582,
      "epoch": 2.2283356258596974,
      "grad_norm": 1.512195348739624,
      "learning_rate": 6.297760738233815e-05,
      "loss": 0.72405062,
      "memory(GiB)": 67.73,
      "step": 3240,
      "train_speed(iter/s)": 0.039488
    },
    {
      "acc": 0.79117641,
      "epoch": 2.231774415405777,
      "grad_norm": 1.3315008878707886,
      "learning_rate": 6.286775323712345e-05,
      "loss": 0.69954386,
      "memory(GiB)": 67.73,
      "step": 3245,
      "train_speed(iter/s)": 0.039513
    },
    {
      "acc": 0.7794364,
      "epoch": 2.235213204951857,
      "grad_norm": 1.3924676179885864,
      "learning_rate": 6.275783254615373e-05,
      "loss": 0.73521681,
      "memory(GiB)": 67.73,
      "step": 3250,
      "train_speed(iter/s)": 0.039537
    },
    {
      "acc": 0.77737999,
      "epoch": 2.238651994497937,
      "grad_norm": 1.2619364261627197,
      "learning_rate": 6.264784587810623e-05,
      "loss": 0.74972701,
      "memory(GiB)": 67.73,
      "step": 3255,
      "train_speed(iter/s)": 0.039565
    },
    {
      "acc": 0.7738802,
      "epoch": 2.2420907840440165,
      "grad_norm": 1.5401955842971802,
      "learning_rate": 6.25377938019996e-05,
      "loss": 0.79901037,
      "memory(GiB)": 67.73,
      "step": 3260,
      "train_speed(iter/s)": 0.039591
    },
    {
      "acc": 0.78558297,
      "epoch": 2.245529573590096,
      "grad_norm": 1.2368144989013672,
      "learning_rate": 6.24276768871908e-05,
      "loss": 0.72351027,
      "memory(GiB)": 67.73,
      "step": 3265,
      "train_speed(iter/s)": 0.039617
    },
    {
      "acc": 0.78128538,
      "epoch": 2.248968363136176,
      "grad_norm": 1.4421414136886597,
      "learning_rate": 6.23174957033723e-05,
      "loss": 0.72427325,
      "memory(GiB)": 67.73,
      "step": 3270,
      "train_speed(iter/s)": 0.039638
    },
    {
      "acc": 0.79050694,
      "epoch": 2.252407152682256,
      "grad_norm": 1.473962426185608,
      "learning_rate": 6.220725082056901e-05,
      "loss": 0.70825963,
      "memory(GiB)": 67.73,
      "step": 3275,
      "train_speed(iter/s)": 0.039665
    },
    {
      "acc": 0.78690662,
      "epoch": 2.2558459422283357,
      "grad_norm": 1.4135388135910034,
      "learning_rate": 6.209694280913539e-05,
      "loss": 0.71959724,
      "memory(GiB)": 67.73,
      "step": 3280,
      "train_speed(iter/s)": 0.039691
    },
    {
      "acc": 0.78945398,
      "epoch": 2.2592847317744154,
      "grad_norm": 1.604658842086792,
      "learning_rate": 6.198657223975257e-05,
      "loss": 0.71993084,
      "memory(GiB)": 67.73,
      "step": 3285,
      "train_speed(iter/s)": 0.039719
    },
    {
      "acc": 0.78186049,
      "epoch": 2.262723521320495,
      "grad_norm": 1.5232980251312256,
      "learning_rate": 6.187613968342524e-05,
      "loss": 0.75053821,
      "memory(GiB)": 67.73,
      "step": 3290,
      "train_speed(iter/s)": 0.039741
    },
    {
      "acc": 0.78012853,
      "epoch": 2.266162310866575,
      "grad_norm": 1.2351890802383423,
      "learning_rate": 6.176564571147882e-05,
      "loss": 0.76610746,
      "memory(GiB)": 67.73,
      "step": 3295,
      "train_speed(iter/s)": 0.039772
    },
    {
      "acc": 0.79100294,
      "epoch": 2.269601100412655,
      "grad_norm": 1.2078155279159546,
      "learning_rate": 6.165509089555647e-05,
      "loss": 0.69998646,
      "memory(GiB)": 67.73,
      "step": 3300,
      "train_speed(iter/s)": 0.039798
    },
    {
      "epoch": 2.269601100412655,
      "eval_acc": 0.7635139694965583,
      "eval_loss": 0.8397796750068665,
      "eval_runtime": 1111.351,
      "eval_samples_per_second": 3.854,
      "eval_steps_per_second": 0.069,
      "step": 3300
    },
    {
      "acc": 0.78393035,
      "epoch": 2.2730398899587345,
      "grad_norm": 1.453913688659668,
      "learning_rate": 6.154447580761612e-05,
      "loss": 0.72859416,
      "memory(GiB)": 67.73,
      "step": 3305,
      "train_speed(iter/s)": 0.039299
    },
    {
      "acc": 0.78495998,
      "epoch": 2.276478679504814,
      "grad_norm": 1.4776540994644165,
      "learning_rate": 6.143380101992752e-05,
      "loss": 0.7363111,
      "memory(GiB)": 67.73,
      "step": 3310,
      "train_speed(iter/s)": 0.039328
    },
    {
      "acc": 0.78339643,
      "epoch": 2.2799174690508943,
      "grad_norm": 1.5362030267715454,
      "learning_rate": 6.132306710506926e-05,
      "loss": 0.7379076,
      "memory(GiB)": 67.73,
      "step": 3315,
      "train_speed(iter/s)": 0.039357
    },
    {
      "acc": 0.7797461,
      "epoch": 2.283356258596974,
      "grad_norm": 1.5111163854599,
      "learning_rate": 6.121227463592585e-05,
      "loss": 0.76058264,
      "memory(GiB)": 67.73,
      "step": 3320,
      "train_speed(iter/s)": 0.039381
    },
    {
      "acc": 0.77675905,
      "epoch": 2.2867950481430537,
      "grad_norm": 1.4410961866378784,
      "learning_rate": 6.11014241856847e-05,
      "loss": 0.7604672,
      "memory(GiB)": 67.73,
      "step": 3325,
      "train_speed(iter/s)": 0.039401
    },
    {
      "acc": 0.78640685,
      "epoch": 2.2902338376891334,
      "grad_norm": 1.7038127183914185,
      "learning_rate": 6.099051632783327e-05,
      "loss": 0.72746906,
      "memory(GiB)": 67.73,
      "step": 3330,
      "train_speed(iter/s)": 0.039426
    },
    {
      "acc": 0.78558645,
      "epoch": 2.293672627235213,
      "grad_norm": 1.2854883670806885,
      "learning_rate": 6.0879551636155894e-05,
      "loss": 0.74064126,
      "memory(GiB)": 67.73,
      "step": 3335,
      "train_speed(iter/s)": 0.039449
    },
    {
      "acc": 0.781954,
      "epoch": 2.297111416781293,
      "grad_norm": 1.7075494527816772,
      "learning_rate": 6.076853068473104e-05,
      "loss": 0.73064299,
      "memory(GiB)": 67.73,
      "step": 3340,
      "train_speed(iter/s)": 0.039476
    },
    {
      "acc": 0.7864274,
      "epoch": 2.300550206327373,
      "grad_norm": 1.3785117864608765,
      "learning_rate": 6.065745404792816e-05,
      "loss": 0.72167091,
      "memory(GiB)": 67.73,
      "step": 3345,
      "train_speed(iter/s)": 0.039497
    },
    {
      "acc": 0.77905812,
      "epoch": 2.3039889958734525,
      "grad_norm": 1.2673250436782837,
      "learning_rate": 6.054632230040489e-05,
      "loss": 0.75723281,
      "memory(GiB)": 67.73,
      "step": 3350,
      "train_speed(iter/s)": 0.039522
    },
    {
      "acc": 0.78323727,
      "epoch": 2.307427785419532,
      "grad_norm": 1.5396391153335571,
      "learning_rate": 6.043513601710391e-05,
      "loss": 0.75284595,
      "memory(GiB)": 67.73,
      "step": 3355,
      "train_speed(iter/s)": 0.039546
    },
    {
      "acc": 0.77735343,
      "epoch": 2.310866574965612,
      "grad_norm": 1.4035242795944214,
      "learning_rate": 6.032389577325004e-05,
      "loss": 0.76564093,
      "memory(GiB)": 67.73,
      "step": 3360,
      "train_speed(iter/s)": 0.039572
    },
    {
      "acc": 0.78433137,
      "epoch": 2.314305364511692,
      "grad_norm": 1.3705512285232544,
      "learning_rate": 6.0212602144347295e-05,
      "loss": 0.74389467,
      "memory(GiB)": 67.73,
      "step": 3365,
      "train_speed(iter/s)": 0.039597
    },
    {
      "acc": 0.7952363,
      "epoch": 2.3177441540577717,
      "grad_norm": 1.601040005683899,
      "learning_rate": 6.010125570617587e-05,
      "loss": 0.69709463,
      "memory(GiB)": 67.73,
      "step": 3370,
      "train_speed(iter/s)": 0.039624
    },
    {
      "acc": 0.78479719,
      "epoch": 2.3211829436038514,
      "grad_norm": 1.6512783765792847,
      "learning_rate": 5.998985703478916e-05,
      "loss": 0.7351841,
      "memory(GiB)": 67.73,
      "step": 3375,
      "train_speed(iter/s)": 0.039648
    },
    {
      "acc": 0.7886528,
      "epoch": 2.324621733149931,
      "grad_norm": 1.4211089611053467,
      "learning_rate": 5.9878406706510834e-05,
      "loss": 0.72703929,
      "memory(GiB)": 67.73,
      "step": 3380,
      "train_speed(iter/s)": 0.039672
    },
    {
      "acc": 0.79997978,
      "epoch": 2.328060522696011,
      "grad_norm": 1.5382604598999023,
      "learning_rate": 5.976690529793175e-05,
      "loss": 0.68571553,
      "memory(GiB)": 67.73,
      "step": 3385,
      "train_speed(iter/s)": 0.039698
    },
    {
      "acc": 0.78704443,
      "epoch": 2.331499312242091,
      "grad_norm": 1.4559470415115356,
      "learning_rate": 5.9655353385907055e-05,
      "loss": 0.7418499,
      "memory(GiB)": 67.73,
      "step": 3390,
      "train_speed(iter/s)": 0.039721
    },
    {
      "acc": 0.77985802,
      "epoch": 2.3349381017881705,
      "grad_norm": 1.4432960748672485,
      "learning_rate": 5.954375154755316e-05,
      "loss": 0.75312023,
      "memory(GiB)": 67.73,
      "step": 3395,
      "train_speed(iter/s)": 0.039747
    },
    {
      "acc": 0.79101877,
      "epoch": 2.33837689133425,
      "grad_norm": 1.3332661390304565,
      "learning_rate": 5.9432100360244816e-05,
      "loss": 0.71166148,
      "memory(GiB)": 67.73,
      "step": 3400,
      "train_speed(iter/s)": 0.039772
    },
    {
      "epoch": 2.33837689133425,
      "eval_acc": 0.7662640032393035,
      "eval_loss": 0.8363276124000549,
      "eval_runtime": 1137.5857,
      "eval_samples_per_second": 3.765,
      "eval_steps_per_second": 0.068,
      "step": 3400
    },
    {
      "acc": 0.77607446,
      "epoch": 2.3418156808803303,
      "grad_norm": 1.4800801277160645,
      "learning_rate": 5.9320400401612055e-05,
      "loss": 0.75290956,
      "memory(GiB)": 67.73,
      "step": 3405,
      "train_speed(iter/s)": 0.039276
    },
    {
      "acc": 0.79126697,
      "epoch": 2.34525447042641,
      "grad_norm": 1.4802907705307007,
      "learning_rate": 5.9208652249537224e-05,
      "loss": 0.71252222,
      "memory(GiB)": 67.73,
      "step": 3410,
      "train_speed(iter/s)": 0.039305
    },
    {
      "acc": 0.79908376,
      "epoch": 2.3486932599724897,
      "grad_norm": 1.5732394456863403,
      "learning_rate": 5.909685648215198e-05,
      "loss": 0.68212581,
      "memory(GiB)": 67.73,
      "step": 3415,
      "train_speed(iter/s)": 0.039334
    },
    {
      "acc": 0.79249792,
      "epoch": 2.3521320495185694,
      "grad_norm": 1.5170937776565552,
      "learning_rate": 5.8985013677834376e-05,
      "loss": 0.69914331,
      "memory(GiB)": 67.73,
      "step": 3420,
      "train_speed(iter/s)": 0.039361
    },
    {
      "acc": 0.76918459,
      "epoch": 2.355570839064649,
      "grad_norm": 1.4346693754196167,
      "learning_rate": 5.887312441520577e-05,
      "loss": 0.7888124,
      "memory(GiB)": 67.73,
      "step": 3425,
      "train_speed(iter/s)": 0.039379
    },
    {
      "acc": 0.77460504,
      "epoch": 2.359009628610729,
      "grad_norm": 1.5379953384399414,
      "learning_rate": 5.876118927312788e-05,
      "loss": 0.77686357,
      "memory(GiB)": 67.73,
      "step": 3430,
      "train_speed(iter/s)": 0.039402
    },
    {
      "acc": 0.78930125,
      "epoch": 2.362448418156809,
      "grad_norm": 1.5620882511138916,
      "learning_rate": 5.8649208830699776e-05,
      "loss": 0.72846537,
      "memory(GiB)": 67.73,
      "step": 3435,
      "train_speed(iter/s)": 0.039427
    },
    {
      "acc": 0.7783771,
      "epoch": 2.3658872077028885,
      "grad_norm": 1.3905718326568604,
      "learning_rate": 5.85371836672549e-05,
      "loss": 0.74923038,
      "memory(GiB)": 67.73,
      "step": 3440,
      "train_speed(iter/s)": 0.039449
    },
    {
      "acc": 0.77820864,
      "epoch": 2.369325997248968,
      "grad_norm": 1.2664304971694946,
      "learning_rate": 5.842511436235807e-05,
      "loss": 0.77669792,
      "memory(GiB)": 67.73,
      "step": 3445,
      "train_speed(iter/s)": 0.039476
    },
    {
      "acc": 0.78637152,
      "epoch": 2.3727647867950483,
      "grad_norm": 1.3347089290618896,
      "learning_rate": 5.831300149580245e-05,
      "loss": 0.72091188,
      "memory(GiB)": 67.73,
      "step": 3450,
      "train_speed(iter/s)": 0.039501
    },
    {
      "acc": 0.77844844,
      "epoch": 2.376203576341128,
      "grad_norm": 1.4759833812713623,
      "learning_rate": 5.820084564760657e-05,
      "loss": 0.76853113,
      "memory(GiB)": 67.73,
      "step": 3455,
      "train_speed(iter/s)": 0.039528
    },
    {
      "acc": 0.7886765,
      "epoch": 2.3796423658872077,
      "grad_norm": 1.7147775888442993,
      "learning_rate": 5.808864739801136e-05,
      "loss": 0.73901868,
      "memory(GiB)": 67.73,
      "step": 3460,
      "train_speed(iter/s)": 0.039549
    },
    {
      "acc": 0.78849745,
      "epoch": 2.3830811554332874,
      "grad_norm": 1.4572715759277344,
      "learning_rate": 5.797640732747707e-05,
      "loss": 0.71194096,
      "memory(GiB)": 67.73,
      "step": 3465,
      "train_speed(iter/s)": 0.039573
    },
    {
      "acc": 0.79340534,
      "epoch": 2.3865199449793675,
      "grad_norm": 1.8968569040298462,
      "learning_rate": 5.7864126016680354e-05,
      "loss": 0.69921117,
      "memory(GiB)": 67.73,
      "step": 3470,
      "train_speed(iter/s)": 0.039599
    },
    {
      "acc": 0.7905076,
      "epoch": 2.389958734525447,
      "grad_norm": 1.6759856939315796,
      "learning_rate": 5.7751804046511185e-05,
      "loss": 0.71475925,
      "memory(GiB)": 67.73,
      "step": 3475,
      "train_speed(iter/s)": 0.039625
    },
    {
      "acc": 0.78112564,
      "epoch": 2.393397524071527,
      "grad_norm": 1.301619052886963,
      "learning_rate": 5.763944199806991e-05,
      "loss": 0.74565101,
      "memory(GiB)": 67.73,
      "step": 3480,
      "train_speed(iter/s)": 0.039651
    },
    {
      "acc": 0.77826796,
      "epoch": 2.3968363136176065,
      "grad_norm": 1.726420283317566,
      "learning_rate": 5.7527040452664215e-05,
      "loss": 0.76559715,
      "memory(GiB)": 67.73,
      "step": 3485,
      "train_speed(iter/s)": 0.039679
    },
    {
      "acc": 0.78291936,
      "epoch": 2.400275103163686,
      "grad_norm": 1.7139410972595215,
      "learning_rate": 5.741459999180612e-05,
      "loss": 0.74492068,
      "memory(GiB)": 67.73,
      "step": 3490,
      "train_speed(iter/s)": 0.039704
    },
    {
      "acc": 0.7825911,
      "epoch": 2.4037138927097663,
      "grad_norm": 1.6379047632217407,
      "learning_rate": 5.7302121197209e-05,
      "loss": 0.7245317,
      "memory(GiB)": 67.73,
      "step": 3495,
      "train_speed(iter/s)": 0.039726
    },
    {
      "acc": 0.78516874,
      "epoch": 2.407152682255846,
      "grad_norm": 1.6368329524993896,
      "learning_rate": 5.7189604650784524e-05,
      "loss": 0.71679149,
      "memory(GiB)": 67.73,
      "step": 3500,
      "train_speed(iter/s)": 0.039751
    },
    {
      "epoch": 2.407152682255846,
      "eval_acc": 0.7661683987942592,
      "eval_loss": 0.8319239020347595,
      "eval_runtime": 1159.9932,
      "eval_samples_per_second": 3.692,
      "eval_steps_per_second": 0.066,
      "step": 3500
    },
    {
      "acc": 0.77984338,
      "epoch": 2.4105914718019257,
      "grad_norm": 1.3497166633605957,
      "learning_rate": 5.707705093463969e-05,
      "loss": 0.76508818,
      "memory(GiB)": 67.73,
      "step": 3505,
      "train_speed(iter/s)": 0.039259
    },
    {
      "acc": 0.77530251,
      "epoch": 2.4140302613480054,
      "grad_norm": 1.4699667692184448,
      "learning_rate": 5.6964460631073736e-05,
      "loss": 0.7737175,
      "memory(GiB)": 67.73,
      "step": 3510,
      "train_speed(iter/s)": 0.039282
    },
    {
      "acc": 0.77435117,
      "epoch": 2.417469050894085,
      "grad_norm": 1.3567484617233276,
      "learning_rate": 5.685183432257529e-05,
      "loss": 0.76602321,
      "memory(GiB)": 67.73,
      "step": 3515,
      "train_speed(iter/s)": 0.039309
    },
    {
      "acc": 0.77687979,
      "epoch": 2.420907840440165,
      "grad_norm": 1.6473392248153687,
      "learning_rate": 5.6739172591819187e-05,
      "loss": 0.76530232,
      "memory(GiB)": 67.73,
      "step": 3520,
      "train_speed(iter/s)": 0.039334
    },
    {
      "acc": 0.78237972,
      "epoch": 2.424346629986245,
      "grad_norm": 1.5507371425628662,
      "learning_rate": 5.662647602166351e-05,
      "loss": 0.75080051,
      "memory(GiB)": 67.73,
      "step": 3525,
      "train_speed(iter/s)": 0.039356
    },
    {
      "acc": 0.78154564,
      "epoch": 2.4277854195323245,
      "grad_norm": 1.4991931915283203,
      "learning_rate": 5.65137451951466e-05,
      "loss": 0.75352793,
      "memory(GiB)": 67.73,
      "step": 3530,
      "train_speed(iter/s)": 0.039378
    },
    {
      "acc": 0.77997007,
      "epoch": 2.4312242090784046,
      "grad_norm": 1.6739842891693115,
      "learning_rate": 5.640098069548404e-05,
      "loss": 0.76081572,
      "memory(GiB)": 67.73,
      "step": 3535,
      "train_speed(iter/s)": 0.039401
    },
    {
      "acc": 0.78768792,
      "epoch": 2.4346629986244843,
      "grad_norm": 1.7248750925064087,
      "learning_rate": 5.628818310606561e-05,
      "loss": 0.7255187,
      "memory(GiB)": 67.73,
      "step": 3540,
      "train_speed(iter/s)": 0.039426
    },
    {
      "acc": 0.79025412,
      "epoch": 2.438101788170564,
      "grad_norm": 1.62557053565979,
      "learning_rate": 5.617535301045228e-05,
      "loss": 0.70803857,
      "memory(GiB)": 67.73,
      "step": 3545,
      "train_speed(iter/s)": 0.039454
    },
    {
      "acc": 0.78769302,
      "epoch": 2.4415405777166437,
      "grad_norm": 1.4635558128356934,
      "learning_rate": 5.606249099237318e-05,
      "loss": 0.73414497,
      "memory(GiB)": 67.73,
      "step": 3550,
      "train_speed(iter/s)": 0.039479
    },
    {
      "acc": 0.79148045,
      "epoch": 2.4449793672627234,
      "grad_norm": 1.3263139724731445,
      "learning_rate": 5.594959763572263e-05,
      "loss": 0.71763167,
      "memory(GiB)": 67.73,
      "step": 3555,
      "train_speed(iter/s)": 0.039504
    },
    {
      "acc": 0.79330978,
      "epoch": 2.4484181568088035,
      "grad_norm": 1.5712461471557617,
      "learning_rate": 5.5836673524557e-05,
      "loss": 0.71670427,
      "memory(GiB)": 67.73,
      "step": 3560,
      "train_speed(iter/s)": 0.039529
    },
    {
      "acc": 0.78728065,
      "epoch": 2.451856946354883,
      "grad_norm": 1.610227108001709,
      "learning_rate": 5.572371924309188e-05,
      "loss": 0.71835189,
      "memory(GiB)": 67.73,
      "step": 3565,
      "train_speed(iter/s)": 0.039555
    },
    {
      "acc": 0.7980279,
      "epoch": 2.455295735900963,
      "grad_norm": 1.3638176918029785,
      "learning_rate": 5.5610735375698863e-05,
      "loss": 0.68947468,
      "memory(GiB)": 67.73,
      "step": 3570,
      "train_speed(iter/s)": 0.039583
    },
    {
      "acc": 0.79382896,
      "epoch": 2.4587345254470425,
      "grad_norm": 1.671080470085144,
      "learning_rate": 5.549772250690264e-05,
      "loss": 0.6997715,
      "memory(GiB)": 67.73,
      "step": 3575,
      "train_speed(iter/s)": 0.039609
    },
    {
      "acc": 0.78277836,
      "epoch": 2.462173314993122,
      "grad_norm": 1.5335805416107178,
      "learning_rate": 5.538468122137791e-05,
      "loss": 0.75039816,
      "memory(GiB)": 67.73,
      "step": 3580,
      "train_speed(iter/s)": 0.039637
    },
    {
      "acc": 0.78852177,
      "epoch": 2.4656121045392023,
      "grad_norm": 1.5238432884216309,
      "learning_rate": 5.527161210394645e-05,
      "loss": 0.72055502,
      "memory(GiB)": 67.73,
      "step": 3585,
      "train_speed(iter/s)": 0.039663
    },
    {
      "acc": 0.77950158,
      "epoch": 2.469050894085282,
      "grad_norm": 1.3826063871383667,
      "learning_rate": 5.515851573957397e-05,
      "loss": 0.74620533,
      "memory(GiB)": 67.73,
      "step": 3590,
      "train_speed(iter/s)": 0.039684
    },
    {
      "acc": 0.78283319,
      "epoch": 2.4724896836313617,
      "grad_norm": 1.637787938117981,
      "learning_rate": 5.504539271336714e-05,
      "loss": 0.75348463,
      "memory(GiB)": 67.73,
      "step": 3595,
      "train_speed(iter/s)": 0.039709
    },
    {
      "acc": 0.79472337,
      "epoch": 2.4759284731774414,
      "grad_norm": 1.4630149602890015,
      "learning_rate": 5.493224361057062e-05,
      "loss": 0.70524812,
      "memory(GiB)": 67.73,
      "step": 3600,
      "train_speed(iter/s)": 0.039738
    },
    {
      "epoch": 2.4759284731774414,
      "eval_acc": 0.7665226976200117,
      "eval_loss": 0.8275927901268005,
      "eval_runtime": 1123.227,
      "eval_samples_per_second": 3.813,
      "eval_steps_per_second": 0.069,
      "step": 3600
    },
    {
      "acc": 0.79677072,
      "epoch": 2.4793672627235215,
      "grad_norm": 1.354331374168396,
      "learning_rate": 5.481906901656389e-05,
      "loss": 0.70224314,
      "memory(GiB)": 67.73,
      "step": 3605,
      "train_speed(iter/s)": 0.039277
    },
    {
      "acc": 0.78522711,
      "epoch": 2.482806052269601,
      "grad_norm": 1.4437576532363892,
      "learning_rate": 5.470586951685842e-05,
      "loss": 0.74459286,
      "memory(GiB)": 67.73,
      "step": 3610,
      "train_speed(iter/s)": 0.039302
    },
    {
      "acc": 0.79154515,
      "epoch": 2.486244841815681,
      "grad_norm": 1.358216643333435,
      "learning_rate": 5.4592645697094434e-05,
      "loss": 0.70617638,
      "memory(GiB)": 67.73,
      "step": 3615,
      "train_speed(iter/s)": 0.039323
    },
    {
      "acc": 0.78887815,
      "epoch": 2.4896836313617605,
      "grad_norm": 1.6288851499557495,
      "learning_rate": 5.447939814303803e-05,
      "loss": 0.72137556,
      "memory(GiB)": 67.73,
      "step": 3620,
      "train_speed(iter/s)": 0.039345
    },
    {
      "acc": 0.7799171,
      "epoch": 2.4931224209078406,
      "grad_norm": 1.4252561330795288,
      "learning_rate": 5.4366127440578063e-05,
      "loss": 0.75225086,
      "memory(GiB)": 67.73,
      "step": 3625,
      "train_speed(iter/s)": 0.039369
    },
    {
      "acc": 0.78901777,
      "epoch": 2.4965612104539203,
      "grad_norm": 1.3052763938903809,
      "learning_rate": 5.42528341757232e-05,
      "loss": 0.73022747,
      "memory(GiB)": 67.73,
      "step": 3630,
      "train_speed(iter/s)": 0.039392
    },
    {
      "acc": 0.77776222,
      "epoch": 2.5,
      "grad_norm": 1.3259241580963135,
      "learning_rate": 5.413951893459877e-05,
      "loss": 0.74716744,
      "memory(GiB)": 67.73,
      "step": 3635,
      "train_speed(iter/s)": 0.039413
    },
    {
      "acc": 0.79203482,
      "epoch": 2.5034387895460797,
      "grad_norm": 1.491448998451233,
      "learning_rate": 5.4026182303443826e-05,
      "loss": 0.71442933,
      "memory(GiB)": 67.73,
      "step": 3640,
      "train_speed(iter/s)": 0.039433
    },
    {
      "acc": 0.78454857,
      "epoch": 2.5068775790921594,
      "grad_norm": 1.6916753053665161,
      "learning_rate": 5.391282486860809e-05,
      "loss": 0.74134259,
      "memory(GiB)": 67.73,
      "step": 3645,
      "train_speed(iter/s)": 0.039458
    },
    {
      "acc": 0.78789535,
      "epoch": 2.5103163686382395,
      "grad_norm": 1.5004796981811523,
      "learning_rate": 5.3799447216548907e-05,
      "loss": 0.7244381,
      "memory(GiB)": 67.73,
      "step": 3650,
      "train_speed(iter/s)": 0.039483
    },
    {
      "acc": 0.80307121,
      "epoch": 2.513755158184319,
      "grad_norm": 1.3776211738586426,
      "learning_rate": 5.368604993382822e-05,
      "loss": 0.67283263,
      "memory(GiB)": 67.73,
      "step": 3655,
      "train_speed(iter/s)": 0.039509
    },
    {
      "acc": 0.78840837,
      "epoch": 2.517193947730399,
      "grad_norm": 1.489513635635376,
      "learning_rate": 5.357263360710951e-05,
      "loss": 0.73468142,
      "memory(GiB)": 67.73,
      "step": 3660,
      "train_speed(iter/s)": 0.039533
    },
    {
      "acc": 0.78454609,
      "epoch": 2.5206327372764785,
      "grad_norm": 1.5130376815795898,
      "learning_rate": 5.345919882315481e-05,
      "loss": 0.74815798,
      "memory(GiB)": 67.73,
      "step": 3665,
      "train_speed(iter/s)": 0.039558
    },
    {
      "acc": 0.77992659,
      "epoch": 2.524071526822558,
      "grad_norm": 1.5401512384414673,
      "learning_rate": 5.3345746168821634e-05,
      "loss": 0.74576526,
      "memory(GiB)": 67.73,
      "step": 3670,
      "train_speed(iter/s)": 0.039581
    },
    {
      "acc": 0.78538713,
      "epoch": 2.5275103163686383,
      "grad_norm": 1.6626590490341187,
      "learning_rate": 5.3232276231059905e-05,
      "loss": 0.72729344,
      "memory(GiB)": 67.73,
      "step": 3675,
      "train_speed(iter/s)": 0.039608
    },
    {
      "acc": 0.77599993,
      "epoch": 2.530949105914718,
      "grad_norm": 1.4081122875213623,
      "learning_rate": 5.311878959690906e-05,
      "loss": 0.76209216,
      "memory(GiB)": 67.73,
      "step": 3680,
      "train_speed(iter/s)": 0.039628
    },
    {
      "acc": 0.78826327,
      "epoch": 2.5343878954607977,
      "grad_norm": 1.474022626876831,
      "learning_rate": 5.3005286853494854e-05,
      "loss": 0.71333871,
      "memory(GiB)": 67.73,
      "step": 3685,
      "train_speed(iter/s)": 0.039652
    },
    {
      "acc": 0.78787079,
      "epoch": 2.537826685006878,
      "grad_norm": 1.648646354675293,
      "learning_rate": 5.289176858802634e-05,
      "loss": 0.72448759,
      "memory(GiB)": 67.73,
      "step": 3690,
      "train_speed(iter/s)": 0.039677
    },
    {
      "acc": 0.78479404,
      "epoch": 2.5412654745529575,
      "grad_norm": 1.4439847469329834,
      "learning_rate": 5.277823538779295e-05,
      "loss": 0.72407675,
      "memory(GiB)": 67.73,
      "step": 3695,
      "train_speed(iter/s)": 0.039702
    },
    {
      "acc": 0.77956858,
      "epoch": 2.544704264099037,
      "grad_norm": 1.2535481452941895,
      "learning_rate": 5.2664687840161364e-05,
      "loss": 0.74480648,
      "memory(GiB)": 67.73,
      "step": 3700,
      "train_speed(iter/s)": 0.039725
    },
    {
      "epoch": 2.544704264099037,
      "eval_acc": 0.7681029828586854,
      "eval_loss": 0.8239570260047913,
      "eval_runtime": 1156.7503,
      "eval_samples_per_second": 3.703,
      "eval_steps_per_second": 0.067,
      "step": 3700
    },
    {
      "acc": 0.78182096,
      "epoch": 2.548143053645117,
      "grad_norm": 1.328555703163147,
      "learning_rate": 5.255112653257247e-05,
      "loss": 0.75617981,
      "memory(GiB)": 67.73,
      "step": 3705,
      "train_speed(iter/s)": 0.039261
    },
    {
      "acc": 0.78516607,
      "epoch": 2.5515818431911965,
      "grad_norm": 1.5017790794372559,
      "learning_rate": 5.243755205253834e-05,
      "loss": 0.73223658,
      "memory(GiB)": 67.73,
      "step": 3710,
      "train_speed(iter/s)": 0.039286
    },
    {
      "acc": 0.78861194,
      "epoch": 2.5550206327372766,
      "grad_norm": 1.309441089630127,
      "learning_rate": 5.232396498763923e-05,
      "loss": 0.7213201,
      "memory(GiB)": 67.73,
      "step": 3715,
      "train_speed(iter/s)": 0.039308
    },
    {
      "acc": 0.78652673,
      "epoch": 2.5584594222833563,
      "grad_norm": 2.0742311477661133,
      "learning_rate": 5.2210365925520445e-05,
      "loss": 0.73911443,
      "memory(GiB)": 67.73,
      "step": 3720,
      "train_speed(iter/s)": 0.039335
    },
    {
      "acc": 0.78357706,
      "epoch": 2.561898211829436,
      "grad_norm": 1.4650071859359741,
      "learning_rate": 5.2096755453889404e-05,
      "loss": 0.74594064,
      "memory(GiB)": 67.73,
      "step": 3725,
      "train_speed(iter/s)": 0.039357
    },
    {
      "acc": 0.78125381,
      "epoch": 2.5653370013755157,
      "grad_norm": 1.7474429607391357,
      "learning_rate": 5.198313416051257e-05,
      "loss": 0.75290685,
      "memory(GiB)": 67.73,
      "step": 3730,
      "train_speed(iter/s)": 0.039381
    },
    {
      "acc": 0.77420011,
      "epoch": 2.5687757909215954,
      "grad_norm": 1.6091666221618652,
      "learning_rate": 5.186950263321233e-05,
      "loss": 0.79236693,
      "memory(GiB)": 67.73,
      "step": 3735,
      "train_speed(iter/s)": 0.039403
    },
    {
      "acc": 0.77931113,
      "epoch": 2.5722145804676755,
      "grad_norm": 1.9077335596084595,
      "learning_rate": 5.1755861459864064e-05,
      "loss": 0.74636703,
      "memory(GiB)": 67.73,
      "step": 3740,
      "train_speed(iter/s)": 0.039425
    },
    {
      "acc": 0.7796699,
      "epoch": 2.575653370013755,
      "grad_norm": 1.6318970918655396,
      "learning_rate": 5.164221122839306e-05,
      "loss": 0.76515536,
      "memory(GiB)": 67.73,
      "step": 3745,
      "train_speed(iter/s)": 0.039444
    },
    {
      "acc": 0.77925997,
      "epoch": 2.579092159559835,
      "grad_norm": 1.563817024230957,
      "learning_rate": 5.1528552526771425e-05,
      "loss": 0.74128981,
      "memory(GiB)": 67.73,
      "step": 3750,
      "train_speed(iter/s)": 0.039469
    },
    {
      "acc": 0.78557882,
      "epoch": 2.582530949105915,
      "grad_norm": 1.3365668058395386,
      "learning_rate": 5.141488594301512e-05,
      "loss": 0.72270107,
      "memory(GiB)": 67.73,
      "step": 3755,
      "train_speed(iter/s)": 0.039493
    },
    {
      "acc": 0.78748364,
      "epoch": 2.5859697386519946,
      "grad_norm": 1.33451247215271,
      "learning_rate": 5.1301212065180895e-05,
      "loss": 0.74060202,
      "memory(GiB)": 67.73,
      "step": 3760,
      "train_speed(iter/s)": 0.039516
    },
    {
      "acc": 0.79184856,
      "epoch": 2.5894085281980743,
      "grad_norm": 1.4293380975723267,
      "learning_rate": 5.118753148136318e-05,
      "loss": 0.7231204,
      "memory(GiB)": 67.73,
      "step": 3765,
      "train_speed(iter/s)": 0.039538
    },
    {
      "acc": 0.7917345,
      "epoch": 2.592847317744154,
      "grad_norm": 1.4640839099884033,
      "learning_rate": 5.107384477969117e-05,
      "loss": 0.72228947,
      "memory(GiB)": 67.73,
      "step": 3770,
      "train_speed(iter/s)": 0.039558
    },
    {
      "acc": 0.78101654,
      "epoch": 2.5962861072902337,
      "grad_norm": 1.5235430002212524,
      "learning_rate": 5.0960152548325676e-05,
      "loss": 0.75548983,
      "memory(GiB)": 67.73,
      "step": 3775,
      "train_speed(iter/s)": 0.039578
    },
    {
      "acc": 0.79459238,
      "epoch": 2.599724896836314,
      "grad_norm": 1.3068392276763916,
      "learning_rate": 5.08464553754561e-05,
      "loss": 0.70593162,
      "memory(GiB)": 67.73,
      "step": 3780,
      "train_speed(iter/s)": 0.039602
    },
    {
      "acc": 0.79126248,
      "epoch": 2.6031636863823935,
      "grad_norm": 1.3516395092010498,
      "learning_rate": 5.0732753849297434e-05,
      "loss": 0.72088032,
      "memory(GiB)": 67.73,
      "step": 3785,
      "train_speed(iter/s)": 0.039626
    },
    {
      "acc": 0.79167919,
      "epoch": 2.606602475928473,
      "grad_norm": 1.7003644704818726,
      "learning_rate": 5.06190485580872e-05,
      "loss": 0.68689594,
      "memory(GiB)": 67.73,
      "step": 3790,
      "train_speed(iter/s)": 0.039647
    },
    {
      "acc": 0.78057427,
      "epoch": 2.610041265474553,
      "grad_norm": 1.7799345254898071,
      "learning_rate": 5.0505340090082376e-05,
      "loss": 0.75313406,
      "memory(GiB)": 67.73,
      "step": 3795,
      "train_speed(iter/s)": 0.03967
    },
    {
      "acc": 0.78115511,
      "epoch": 2.6134800550206325,
      "grad_norm": 1.3012539148330688,
      "learning_rate": 5.039162903355639e-05,
      "loss": 0.75619287,
      "memory(GiB)": 67.73,
      "step": 3800,
      "train_speed(iter/s)": 0.039687
    },
    {
      "epoch": 2.6134800550206325,
      "eval_acc": 0.7681029828586854,
      "eval_loss": 0.8214000463485718,
      "eval_runtime": 1118.8883,
      "eval_samples_per_second": 3.828,
      "eval_steps_per_second": 0.069,
      "step": 3800
    },
    {
      "acc": 0.78926849,
      "epoch": 2.6169188445667126,
      "grad_norm": 1.3302139043807983,
      "learning_rate": 5.027791597679603e-05,
      "loss": 0.72202902,
      "memory(GiB)": 67.73,
      "step": 3805,
      "train_speed(iter/s)": 0.039252
    },
    {
      "acc": 0.788554,
      "epoch": 2.6203576341127923,
      "grad_norm": 1.3796292543411255,
      "learning_rate": 5.0164201508098486e-05,
      "loss": 0.73341327,
      "memory(GiB)": 67.73,
      "step": 3810,
      "train_speed(iter/s)": 0.039275
    },
    {
      "acc": 0.78986712,
      "epoch": 2.623796423658872,
      "grad_norm": 1.5008918046951294,
      "learning_rate": 5.00504862157682e-05,
      "loss": 0.70993729,
      "memory(GiB)": 67.73,
      "step": 3815,
      "train_speed(iter/s)": 0.0393
    },
    {
      "acc": 0.79516368,
      "epoch": 2.627235213204952,
      "grad_norm": 1.3220473527908325,
      "learning_rate": 4.9936770688113924e-05,
      "loss": 0.70671806,
      "memory(GiB)": 67.73,
      "step": 3820,
      "train_speed(iter/s)": 0.039326
    },
    {
      "acc": 0.77930651,
      "epoch": 2.6306740027510314,
      "grad_norm": 1.3324934244155884,
      "learning_rate": 4.982305551344558e-05,
      "loss": 0.76113019,
      "memory(GiB)": 67.73,
      "step": 3825,
      "train_speed(iter/s)": 0.039345
    },
    {
      "acc": 0.78931274,
      "epoch": 2.6341127922971115,
      "grad_norm": 1.561617374420166,
      "learning_rate": 4.970934128007131e-05,
      "loss": 0.73203354,
      "memory(GiB)": 67.73,
      "step": 3830,
      "train_speed(iter/s)": 0.039369
    },
    {
      "acc": 0.78196325,
      "epoch": 2.637551581843191,
      "grad_norm": 1.5396491289138794,
      "learning_rate": 4.959562857629432e-05,
      "loss": 0.74629278,
      "memory(GiB)": 67.73,
      "step": 3835,
      "train_speed(iter/s)": 0.039389
    },
    {
      "acc": 0.79152188,
      "epoch": 2.640990371389271,
      "grad_norm": 1.5757373571395874,
      "learning_rate": 4.948191799041e-05,
      "loss": 0.71405354,
      "memory(GiB)": 67.73,
      "step": 3840,
      "train_speed(iter/s)": 0.039408
    },
    {
      "acc": 0.78608985,
      "epoch": 2.644429160935351,
      "grad_norm": 1.47767174243927,
      "learning_rate": 4.936821011070271e-05,
      "loss": 0.72424574,
      "memory(GiB)": 67.73,
      "step": 3845,
      "train_speed(iter/s)": 0.039432
    },
    {
      "acc": 0.78729639,
      "epoch": 2.6478679504814306,
      "grad_norm": 1.2262262105941772,
      "learning_rate": 4.925450552544281e-05,
      "loss": 0.72731237,
      "memory(GiB)": 67.73,
      "step": 3850,
      "train_speed(iter/s)": 0.039453
    },
    {
      "acc": 0.78679304,
      "epoch": 2.6513067400275103,
      "grad_norm": 1.4017452001571655,
      "learning_rate": 4.914080482288365e-05,
      "loss": 0.71175966,
      "memory(GiB)": 67.73,
      "step": 3855,
      "train_speed(iter/s)": 0.039476
    },
    {
      "acc": 0.79027119,
      "epoch": 2.65474552957359,
      "grad_norm": 1.5579813718795776,
      "learning_rate": 4.902710859125846e-05,
      "loss": 0.71102552,
      "memory(GiB)": 67.98,
      "step": 3860,
      "train_speed(iter/s)": 0.039498
    },
    {
      "acc": 0.79366422,
      "epoch": 2.6581843191196697,
      "grad_norm": 1.3325603008270264,
      "learning_rate": 4.8913417418777377e-05,
      "loss": 0.69916854,
      "memory(GiB)": 67.98,
      "step": 3865,
      "train_speed(iter/s)": 0.039517
    },
    {
      "acc": 0.78973618,
      "epoch": 2.66162310866575,
      "grad_norm": 1.4464627504348755,
      "learning_rate": 4.879973189362433e-05,
      "loss": 0.72573528,
      "memory(GiB)": 67.98,
      "step": 3870,
      "train_speed(iter/s)": 0.039542
    },
    {
      "acc": 0.78937593,
      "epoch": 2.6650618982118295,
      "grad_norm": 1.4809215068817139,
      "learning_rate": 4.8686052603954065e-05,
      "loss": 0.72520885,
      "memory(GiB)": 67.98,
      "step": 3875,
      "train_speed(iter/s)": 0.039562
    },
    {
      "acc": 0.7916564,
      "epoch": 2.668500687757909,
      "grad_norm": 1.4060372114181519,
      "learning_rate": 4.857238013788902e-05,
      "loss": 0.71384468,
      "memory(GiB)": 67.98,
      "step": 3880,
      "train_speed(iter/s)": 0.039586
    },
    {
      "acc": 0.78981237,
      "epoch": 2.671939477303989,
      "grad_norm": 1.481585144996643,
      "learning_rate": 4.845871508351637e-05,
      "loss": 0.72426672,
      "memory(GiB)": 67.98,
      "step": 3885,
      "train_speed(iter/s)": 0.039608
    },
    {
      "acc": 0.79329553,
      "epoch": 2.6753782668500685,
      "grad_norm": 1.6132746934890747,
      "learning_rate": 4.834505802888493e-05,
      "loss": 0.70904198,
      "memory(GiB)": 67.98,
      "step": 3890,
      "train_speed(iter/s)": 0.039631
    },
    {
      "acc": 0.78727617,
      "epoch": 2.6788170563961486,
      "grad_norm": 1.845495343208313,
      "learning_rate": 4.8231409562002164e-05,
      "loss": 0.72750425,
      "memory(GiB)": 67.98,
      "step": 3895,
      "train_speed(iter/s)": 0.039654
    },
    {
      "acc": 0.78334684,
      "epoch": 2.6822558459422283,
      "grad_norm": 1.6697547435760498,
      "learning_rate": 4.811777027083104e-05,
      "loss": 0.74594717,
      "memory(GiB)": 67.98,
      "step": 3900,
      "train_speed(iter/s)": 0.039676
    },
    {
      "epoch": 2.6822558459422283,
      "eval_acc": 0.7695764160705448,
      "eval_loss": 0.8164530396461487,
      "eval_runtime": 1094.9986,
      "eval_samples_per_second": 3.911,
      "eval_steps_per_second": 0.07,
      "step": 3900
    },
    {
      "acc": 0.78133011,
      "epoch": 2.685694635488308,
      "grad_norm": 1.5049043893814087,
      "learning_rate": 4.80041407432871e-05,
      "loss": 0.74013877,
      "memory(GiB)": 67.98,
      "step": 3905,
      "train_speed(iter/s)": 0.039262
    },
    {
      "acc": 0.78779163,
      "epoch": 2.689133425034388,
      "grad_norm": 1.292845606803894,
      "learning_rate": 4.7890521567235375e-05,
      "loss": 0.73777471,
      "memory(GiB)": 67.98,
      "step": 3910,
      "train_speed(iter/s)": 0.039285
    },
    {
      "acc": 0.78793478,
      "epoch": 2.692572214580468,
      "grad_norm": 1.6969997882843018,
      "learning_rate": 4.7776913330487335e-05,
      "loss": 0.72460685,
      "memory(GiB)": 67.98,
      "step": 3915,
      "train_speed(iter/s)": 0.039309
    },
    {
      "acc": 0.78481874,
      "epoch": 2.6960110041265475,
      "grad_norm": 1.6642791032791138,
      "learning_rate": 4.766331662079784e-05,
      "loss": 0.73782244,
      "memory(GiB)": 67.98,
      "step": 3920,
      "train_speed(iter/s)": 0.039331
    },
    {
      "acc": 0.77672281,
      "epoch": 2.699449793672627,
      "grad_norm": 1.464065670967102,
      "learning_rate": 4.754973202586213e-05,
      "loss": 0.77285328,
      "memory(GiB)": 67.98,
      "step": 3925,
      "train_speed(iter/s)": 0.039351
    },
    {
      "acc": 0.78013086,
      "epoch": 2.702888583218707,
      "grad_norm": 1.6267447471618652,
      "learning_rate": 4.7436160133312756e-05,
      "loss": 0.77444224,
      "memory(GiB)": 67.98,
      "step": 3930,
      "train_speed(iter/s)": 0.039372
    },
    {
      "acc": 0.79396415,
      "epoch": 2.706327372764787,
      "grad_norm": 1.377986192703247,
      "learning_rate": 4.7322601530716593e-05,
      "loss": 0.69987969,
      "memory(GiB)": 67.98,
      "step": 3935,
      "train_speed(iter/s)": 0.039392
    },
    {
      "acc": 0.78015747,
      "epoch": 2.7097661623108666,
      "grad_norm": 1.5132167339324951,
      "learning_rate": 4.72090568055717e-05,
      "loss": 0.73972359,
      "memory(GiB)": 67.98,
      "step": 3940,
      "train_speed(iter/s)": 0.039413
    },
    {
      "acc": 0.78305364,
      "epoch": 2.7132049518569463,
      "grad_norm": 1.3939101696014404,
      "learning_rate": 4.709552654530438e-05,
      "loss": 0.74475136,
      "memory(GiB)": 67.98,
      "step": 3945,
      "train_speed(iter/s)": 0.039437
    },
    {
      "acc": 0.79228973,
      "epoch": 2.716643741403026,
      "grad_norm": 1.5657391548156738,
      "learning_rate": 4.69820113372661e-05,
      "loss": 0.70100541,
      "memory(GiB)": 67.98,
      "step": 3950,
      "train_speed(iter/s)": 0.039459
    },
    {
      "acc": 0.79344339,
      "epoch": 2.7200825309491057,
      "grad_norm": 1.480087399482727,
      "learning_rate": 4.686851176873045e-05,
      "loss": 0.70072994,
      "memory(GiB)": 67.98,
      "step": 3955,
      "train_speed(iter/s)": 0.039483
    },
    {
      "acc": 0.79308243,
      "epoch": 2.723521320495186,
      "grad_norm": 1.5921666622161865,
      "learning_rate": 4.6755028426890096e-05,
      "loss": 0.70272703,
      "memory(GiB)": 67.98,
      "step": 3960,
      "train_speed(iter/s)": 0.039506
    },
    {
      "acc": 0.79001474,
      "epoch": 2.7269601100412655,
      "grad_norm": 1.3979772329330444,
      "learning_rate": 4.664156189885376e-05,
      "loss": 0.69688091,
      "memory(GiB)": 67.98,
      "step": 3965,
      "train_speed(iter/s)": 0.039529
    },
    {
      "acc": 0.77611008,
      "epoch": 2.730398899587345,
      "grad_norm": 1.5082849264144897,
      "learning_rate": 4.65281127716432e-05,
      "loss": 0.774436,
      "memory(GiB)": 67.98,
      "step": 3970,
      "train_speed(iter/s)": 0.039554
    },
    {
      "acc": 0.78162088,
      "epoch": 2.7338376891334253,
      "grad_norm": 1.5324316024780273,
      "learning_rate": 4.64146816321901e-05,
      "loss": 0.73829603,
      "memory(GiB)": 67.98,
      "step": 3975,
      "train_speed(iter/s)": 0.039575
    },
    {
      "acc": 0.78739605,
      "epoch": 2.737276478679505,
      "grad_norm": 1.5039098262786865,
      "learning_rate": 4.630126906733315e-05,
      "loss": 0.73118725,
      "memory(GiB)": 67.98,
      "step": 3980,
      "train_speed(iter/s)": 0.039598
    },
    {
      "acc": 0.7873105,
      "epoch": 2.7407152682255846,
      "grad_norm": 1.6895498037338257,
      "learning_rate": 4.6187875663814886e-05,
      "loss": 0.72477093,
      "memory(GiB)": 67.98,
      "step": 3985,
      "train_speed(iter/s)": 0.039618
    },
    {
      "acc": 0.78072052,
      "epoch": 2.7441540577716643,
      "grad_norm": 1.350480318069458,
      "learning_rate": 4.607450200827874e-05,
      "loss": 0.73954563,
      "memory(GiB)": 67.98,
      "step": 3990,
      "train_speed(iter/s)": 0.039639
    },
    {
      "acc": 0.78461032,
      "epoch": 2.747592847317744,
      "grad_norm": 1.5248438119888306,
      "learning_rate": 4.596114868726598e-05,
      "loss": 0.7439085,
      "memory(GiB)": 67.98,
      "step": 3995,
      "train_speed(iter/s)": 0.039656
    },
    {
      "acc": 0.7952045,
      "epoch": 2.751031636863824,
      "grad_norm": 1.2919889688491821,
      "learning_rate": 4.5847816287212645e-05,
      "loss": 0.70409346,
      "memory(GiB)": 67.98,
      "step": 4000,
      "train_speed(iter/s)": 0.03968
    },
    {
      "epoch": 2.751031636863824,
      "eval_acc": 0.7708024024834661,
      "eval_loss": 0.8120156526565552,
      "eval_runtime": 1144.2771,
      "eval_samples_per_second": 3.743,
      "eval_steps_per_second": 0.067,
      "step": 4000
    },
    {
      "acc": 0.78138909,
      "epoch": 2.754470426409904,
      "grad_norm": 1.685054063796997,
      "learning_rate": 4.57345053944466e-05,
      "loss": 0.76331453,
      "memory(GiB)": 67.98,
      "step": 4005,
      "train_speed(iter/s)": 0.039257
    },
    {
      "acc": 0.79411173,
      "epoch": 2.7579092159559835,
      "grad_norm": 2.0349268913269043,
      "learning_rate": 4.562121659518438e-05,
      "loss": 0.71027813,
      "memory(GiB)": 67.98,
      "step": 4010,
      "train_speed(iter/s)": 0.039282
    },
    {
      "acc": 0.78988757,
      "epoch": 2.761348005502063,
      "grad_norm": 1.3015258312225342,
      "learning_rate": 4.5507950475528236e-05,
      "loss": 0.71334782,
      "memory(GiB)": 67.98,
      "step": 4015,
      "train_speed(iter/s)": 0.039304
    },
    {
      "acc": 0.79387317,
      "epoch": 2.764786795048143,
      "grad_norm": 1.4291696548461914,
      "learning_rate": 4.539470762146308e-05,
      "loss": 0.70652847,
      "memory(GiB)": 67.98,
      "step": 4020,
      "train_speed(iter/s)": 0.03932
    },
    {
      "acc": 0.78285937,
      "epoch": 2.768225584594223,
      "grad_norm": 1.477131962776184,
      "learning_rate": 4.5281488618853503e-05,
      "loss": 0.75896859,
      "memory(GiB)": 67.98,
      "step": 4025,
      "train_speed(iter/s)": 0.039342
    },
    {
      "acc": 0.78991375,
      "epoch": 2.7716643741403026,
      "grad_norm": 1.352389931678772,
      "learning_rate": 4.516829405344063e-05,
      "loss": 0.71030273,
      "memory(GiB)": 67.98,
      "step": 4030,
      "train_speed(iter/s)": 0.039364
    },
    {
      "acc": 0.79130993,
      "epoch": 2.7751031636863823,
      "grad_norm": 1.5674926042556763,
      "learning_rate": 4.505512451083922e-05,
      "loss": 0.71874084,
      "memory(GiB)": 67.98,
      "step": 4035,
      "train_speed(iter/s)": 0.039386
    },
    {
      "acc": 0.79276628,
      "epoch": 2.7785419532324624,
      "grad_norm": 1.943419098854065,
      "learning_rate": 4.494198057653455e-05,
      "loss": 0.71133614,
      "memory(GiB)": 67.98,
      "step": 4040,
      "train_speed(iter/s)": 0.039408
    },
    {
      "acc": 0.80222769,
      "epoch": 2.7819807427785417,
      "grad_norm": 1.6925394535064697,
      "learning_rate": 4.482886283587938e-05,
      "loss": 0.67353868,
      "memory(GiB)": 67.98,
      "step": 4045,
      "train_speed(iter/s)": 0.039433
    },
    {
      "acc": 0.80383835,
      "epoch": 2.785419532324622,
      "grad_norm": 1.4405827522277832,
      "learning_rate": 4.471577187409103e-05,
      "loss": 0.66345797,
      "memory(GiB)": 67.98,
      "step": 4050,
      "train_speed(iter/s)": 0.039457
    },
    {
      "acc": 0.80842638,
      "epoch": 2.7888583218707015,
      "grad_norm": 1.674682378768921,
      "learning_rate": 4.460270827624821e-05,
      "loss": 0.66658139,
      "memory(GiB)": 67.98,
      "step": 4055,
      "train_speed(iter/s)": 0.039479
    },
    {
      "acc": 0.79156666,
      "epoch": 2.792297111416781,
      "grad_norm": 1.3792381286621094,
      "learning_rate": 4.4489672627288124e-05,
      "loss": 0.73030577,
      "memory(GiB)": 67.98,
      "step": 4060,
      "train_speed(iter/s)": 0.039504
    },
    {
      "acc": 0.79346962,
      "epoch": 2.7957359009628613,
      "grad_norm": 1.404285192489624,
      "learning_rate": 4.4376665512003304e-05,
      "loss": 0.70117588,
      "memory(GiB)": 67.98,
      "step": 4065,
      "train_speed(iter/s)": 0.039526
    },
    {
      "acc": 0.790658,
      "epoch": 2.799174690508941,
      "grad_norm": 1.417019248008728,
      "learning_rate": 4.4263687515038755e-05,
      "loss": 0.70299535,
      "memory(GiB)": 67.98,
      "step": 4070,
      "train_speed(iter/s)": 0.039548
    },
    {
      "acc": 0.78736067,
      "epoch": 2.8026134800550206,
      "grad_norm": 1.5088238716125488,
      "learning_rate": 4.415073922088876e-05,
      "loss": 0.73802028,
      "memory(GiB)": 67.98,
      "step": 4075,
      "train_speed(iter/s)": 0.039565
    },
    {
      "acc": 0.79492655,
      "epoch": 2.8060522696011003,
      "grad_norm": 1.443625569343567,
      "learning_rate": 4.4037821213893964e-05,
      "loss": 0.71042171,
      "memory(GiB)": 67.98,
      "step": 4080,
      "train_speed(iter/s)": 0.039586
    },
    {
      "acc": 0.79075756,
      "epoch": 2.80949105914718,
      "grad_norm": 1.464545726776123,
      "learning_rate": 4.392493407823832e-05,
      "loss": 0.70024977,
      "memory(GiB)": 67.98,
      "step": 4085,
      "train_speed(iter/s)": 0.039605
    },
    {
      "acc": 0.79780464,
      "epoch": 2.81292984869326,
      "grad_norm": 1.6561044454574585,
      "learning_rate": 4.3812078397946074e-05,
      "loss": 0.69342613,
      "memory(GiB)": 67.98,
      "step": 4090,
      "train_speed(iter/s)": 0.039624
    },
    {
      "acc": 0.78435755,
      "epoch": 2.81636863823934,
      "grad_norm": 1.3976974487304688,
      "learning_rate": 4.369925475687873e-05,
      "loss": 0.71552553,
      "memory(GiB)": 67.98,
      "step": 4095,
      "train_speed(iter/s)": 0.039648
    },
    {
      "acc": 0.7799448,
      "epoch": 2.8198074277854195,
      "grad_norm": 1.3698362112045288,
      "learning_rate": 4.358646373873203e-05,
      "loss": 0.75982933,
      "memory(GiB)": 67.98,
      "step": 4100,
      "train_speed(iter/s)": 0.039669
    },
    {
      "epoch": 2.8198074277854195,
      "eval_acc": 0.7719721509875377,
      "eval_loss": 0.8082969784736633,
      "eval_runtime": 1151.3186,
      "eval_samples_per_second": 3.72,
      "eval_steps_per_second": 0.067,
      "step": 4100
    },
    {
      "acc": 0.78468771,
      "epoch": 2.823246217331499,
      "grad_norm": 1.7453495264053345,
      "learning_rate": 4.3473705927032957e-05,
      "loss": 0.73120604,
      "memory(GiB)": 67.98,
      "step": 4105,
      "train_speed(iter/s)": 0.039254
    },
    {
      "acc": 0.77324467,
      "epoch": 2.826685006877579,
      "grad_norm": 1.309380292892456,
      "learning_rate": 4.336098190513667e-05,
      "loss": 0.7686954,
      "memory(GiB)": 67.98,
      "step": 4110,
      "train_speed(iter/s)": 0.039274
    },
    {
      "acc": 0.78504181,
      "epoch": 2.830123796423659,
      "grad_norm": 1.3735424280166626,
      "learning_rate": 4.324829225622355e-05,
      "loss": 0.72278986,
      "memory(GiB)": 67.98,
      "step": 4115,
      "train_speed(iter/s)": 0.039295
    },
    {
      "acc": 0.78531666,
      "epoch": 2.8335625859697386,
      "grad_norm": 1.3972020149230957,
      "learning_rate": 4.3135637563296157e-05,
      "loss": 0.74182968,
      "memory(GiB)": 67.98,
      "step": 4120,
      "train_speed(iter/s)": 0.039316
    },
    {
      "acc": 0.78637772,
      "epoch": 2.8370013755158183,
      "grad_norm": 1.5424326658248901,
      "learning_rate": 4.3023018409176145e-05,
      "loss": 0.74376593,
      "memory(GiB)": 67.98,
      "step": 4125,
      "train_speed(iter/s)": 0.039338
    },
    {
      "acc": 0.79664993,
      "epoch": 2.8404401650618984,
      "grad_norm": 1.3284099102020264,
      "learning_rate": 4.2910435376501365e-05,
      "loss": 0.67242994,
      "memory(GiB)": 67.98,
      "step": 4130,
      "train_speed(iter/s)": 0.039363
    },
    {
      "acc": 0.78375196,
      "epoch": 2.843878954607978,
      "grad_norm": 1.4063657522201538,
      "learning_rate": 4.279788904772275e-05,
      "loss": 0.73797774,
      "memory(GiB)": 67.98,
      "step": 4135,
      "train_speed(iter/s)": 0.039386
    },
    {
      "acc": 0.80310926,
      "epoch": 2.847317744154058,
      "grad_norm": 1.6251460313796997,
      "learning_rate": 4.268538000510139e-05,
      "loss": 0.67094946,
      "memory(GiB)": 67.98,
      "step": 4140,
      "train_speed(iter/s)": 0.039411
    },
    {
      "acc": 0.78242793,
      "epoch": 2.8507565337001375,
      "grad_norm": 1.4719781875610352,
      "learning_rate": 4.257290883070545e-05,
      "loss": 0.7414422,
      "memory(GiB)": 67.98,
      "step": 4145,
      "train_speed(iter/s)": 0.039435
    },
    {
      "acc": 0.79309282,
      "epoch": 2.854195323246217,
      "grad_norm": 1.491889238357544,
      "learning_rate": 4.246047610640717e-05,
      "loss": 0.69513445,
      "memory(GiB)": 67.98,
      "step": 4150,
      "train_speed(iter/s)": 0.039458
    },
    {
      "acc": 0.79532785,
      "epoch": 2.8576341127922973,
      "grad_norm": 1.4044826030731201,
      "learning_rate": 4.2348082413879894e-05,
      "loss": 0.69395657,
      "memory(GiB)": 67.98,
      "step": 4155,
      "train_speed(iter/s)": 0.039483
    },
    {
      "acc": 0.79063025,
      "epoch": 2.861072902338377,
      "grad_norm": 1.4058098793029785,
      "learning_rate": 4.223572833459501e-05,
      "loss": 0.71690941,
      "memory(GiB)": 67.98,
      "step": 4160,
      "train_speed(iter/s)": 0.039508
    },
    {
      "acc": 0.79869499,
      "epoch": 2.8645116918844566,
      "grad_norm": 1.6210905313491821,
      "learning_rate": 4.212341444981898e-05,
      "loss": 0.6896822,
      "memory(GiB)": 67.98,
      "step": 4165,
      "train_speed(iter/s)": 0.039532
    },
    {
      "acc": 0.79149799,
      "epoch": 2.8679504814305363,
      "grad_norm": 1.3731998205184937,
      "learning_rate": 4.2011141340610326e-05,
      "loss": 0.7168128,
      "memory(GiB)": 67.98,
      "step": 4170,
      "train_speed(iter/s)": 0.039554
    },
    {
      "acc": 0.78879414,
      "epoch": 2.871389270976616,
      "grad_norm": 1.632126808166504,
      "learning_rate": 4.189890958781662e-05,
      "loss": 0.72364569,
      "memory(GiB)": 67.98,
      "step": 4175,
      "train_speed(iter/s)": 0.039576
    },
    {
      "acc": 0.78361959,
      "epoch": 2.874828060522696,
      "grad_norm": 1.4791241884231567,
      "learning_rate": 4.178671977207143e-05,
      "loss": 0.73310771,
      "memory(GiB)": 67.98,
      "step": 4180,
      "train_speed(iter/s)": 0.039599
    },
    {
      "acc": 0.79908352,
      "epoch": 2.878266850068776,
      "grad_norm": 1.7965590953826904,
      "learning_rate": 4.1674572473791395e-05,
      "loss": 0.69370174,
      "memory(GiB)": 67.98,
      "step": 4185,
      "train_speed(iter/s)": 0.039621
    },
    {
      "acc": 0.78735409,
      "epoch": 2.8817056396148555,
      "grad_norm": 1.6834094524383545,
      "learning_rate": 4.156246827317322e-05,
      "loss": 0.72156515,
      "memory(GiB)": 67.98,
      "step": 4190,
      "train_speed(iter/s)": 0.039644
    },
    {
      "acc": 0.78155212,
      "epoch": 2.8851444291609356,
      "grad_norm": 1.872073769569397,
      "learning_rate": 4.14504077501906e-05,
      "loss": 0.74036779,
      "memory(GiB)": 67.98,
      "step": 4195,
      "train_speed(iter/s)": 0.039667
    },
    {
      "acc": 0.79145999,
      "epoch": 2.8885832187070153,
      "grad_norm": 1.3122477531433105,
      "learning_rate": 4.133839148459126e-05,
      "loss": 0.71245356,
      "memory(GiB)": 67.98,
      "step": 4200,
      "train_speed(iter/s)": 0.039688
    },
    {
      "epoch": 2.8885832187070153,
      "eval_acc": 0.7714435146443515,
      "eval_loss": 0.805468738079071,
      "eval_runtime": 1087.9192,
      "eval_samples_per_second": 3.937,
      "eval_steps_per_second": 0.071,
      "step": 4200
    },
    {
      "acc": 0.79164152,
      "epoch": 2.892022008253095,
      "grad_norm": 1.5151678323745728,
      "learning_rate": 4.122642005589398e-05,
      "loss": 0.71430082,
      "memory(GiB)": 67.98,
      "step": 4205,
      "train_speed(iter/s)": 0.039306
    },
    {
      "acc": 0.79683599,
      "epoch": 2.8954607977991746,
      "grad_norm": 1.5568134784698486,
      "learning_rate": 4.111449404338556e-05,
      "loss": 0.69535141,
      "memory(GiB)": 67.98,
      "step": 4210,
      "train_speed(iter/s)": 0.039331
    },
    {
      "acc": 0.78143187,
      "epoch": 2.8988995873452543,
      "grad_norm": 1.6322216987609863,
      "learning_rate": 4.100261402611785e-05,
      "loss": 0.74795027,
      "memory(GiB)": 67.98,
      "step": 4215,
      "train_speed(iter/s)": 0.039355
    },
    {
      "acc": 0.779213,
      "epoch": 2.9023383768913344,
      "grad_norm": 1.479254126548767,
      "learning_rate": 4.089078058290476e-05,
      "loss": 0.76658916,
      "memory(GiB)": 67.98,
      "step": 4220,
      "train_speed(iter/s)": 0.039376
    },
    {
      "acc": 0.7864768,
      "epoch": 2.905777166437414,
      "grad_norm": 1.4543869495391846,
      "learning_rate": 4.077899429231921e-05,
      "loss": 0.71652775,
      "memory(GiB)": 67.98,
      "step": 4225,
      "train_speed(iter/s)": 0.039397
    },
    {
      "acc": 0.78852596,
      "epoch": 2.909215955983494,
      "grad_norm": 1.5353100299835205,
      "learning_rate": 4.066725573269019e-05,
      "loss": 0.7080534,
      "memory(GiB)": 67.98,
      "step": 4230,
      "train_speed(iter/s)": 0.039421
    },
    {
      "acc": 0.78499179,
      "epoch": 2.9126547455295735,
      "grad_norm": 1.7298237085342407,
      "learning_rate": 4.055556548209975e-05,
      "loss": 0.73987002,
      "memory(GiB)": 67.98,
      "step": 4235,
      "train_speed(iter/s)": 0.039446
    },
    {
      "acc": 0.79733381,
      "epoch": 2.916093535075653,
      "grad_norm": 1.3336453437805176,
      "learning_rate": 4.044392411838003e-05,
      "loss": 0.6844718,
      "memory(GiB)": 67.98,
      "step": 4240,
      "train_speed(iter/s)": 0.039468
    },
    {
      "acc": 0.78939738,
      "epoch": 2.9195323246217333,
      "grad_norm": 1.5154653787612915,
      "learning_rate": 4.033233221911023e-05,
      "loss": 0.72056727,
      "memory(GiB)": 67.98,
      "step": 4245,
      "train_speed(iter/s)": 0.039491
    },
    {
      "acc": 0.78145633,
      "epoch": 2.922971114167813,
      "grad_norm": 1.6946913003921509,
      "learning_rate": 4.022079036161366e-05,
      "loss": 0.74741826,
      "memory(GiB)": 67.98,
      "step": 4250,
      "train_speed(iter/s)": 0.039515
    },
    {
      "acc": 0.78894501,
      "epoch": 2.9264099037138926,
      "grad_norm": 1.7859429121017456,
      "learning_rate": 4.0109299122954716e-05,
      "loss": 0.71477051,
      "memory(GiB)": 67.98,
      "step": 4255,
      "train_speed(iter/s)": 0.039538
    },
    {
      "acc": 0.80096769,
      "epoch": 2.9298486932599723,
      "grad_norm": 1.550113558769226,
      "learning_rate": 3.999785907993594e-05,
      "loss": 0.66986256,
      "memory(GiB)": 67.98,
      "step": 4260,
      "train_speed(iter/s)": 0.039561
    },
    {
      "acc": 0.79326687,
      "epoch": 2.933287482806052,
      "grad_norm": 1.3913989067077637,
      "learning_rate": 3.9886470809095015e-05,
      "loss": 0.70431404,
      "memory(GiB)": 67.98,
      "step": 4265,
      "train_speed(iter/s)": 0.039585
    },
    {
      "acc": 0.78397541,
      "epoch": 2.936726272352132,
      "grad_norm": 1.7210358381271362,
      "learning_rate": 3.9775134886701754e-05,
      "loss": 0.74710093,
      "memory(GiB)": 67.98,
      "step": 4270,
      "train_speed(iter/s)": 0.039608
    },
    {
      "acc": 0.79305878,
      "epoch": 2.940165061898212,
      "grad_norm": 1.7996710538864136,
      "learning_rate": 3.966385188875515e-05,
      "loss": 0.70518632,
      "memory(GiB)": 67.98,
      "step": 4275,
      "train_speed(iter/s)": 0.039629
    },
    {
      "acc": 0.79449868,
      "epoch": 2.9436038514442915,
      "grad_norm": 1.8419127464294434,
      "learning_rate": 3.9552622390980425e-05,
      "loss": 0.69353704,
      "memory(GiB)": 67.98,
      "step": 4280,
      "train_speed(iter/s)": 0.039653
    },
    {
      "acc": 0.79312563,
      "epoch": 2.9470426409903716,
      "grad_norm": 1.6806973218917847,
      "learning_rate": 3.944144696882598e-05,
      "loss": 0.70997305,
      "memory(GiB)": 67.98,
      "step": 4285,
      "train_speed(iter/s)": 0.039675
    },
    {
      "acc": 0.77975159,
      "epoch": 2.9504814305364513,
      "grad_norm": 1.5093615055084229,
      "learning_rate": 3.9330326197460466e-05,
      "loss": 0.7535347,
      "memory(GiB)": 67.98,
      "step": 4290,
      "train_speed(iter/s)": 0.039698
    },
    {
      "acc": 0.77885957,
      "epoch": 2.953920220082531,
      "grad_norm": 1.7408277988433838,
      "learning_rate": 3.921926065176977e-05,
      "loss": 0.75995541,
      "memory(GiB)": 67.98,
      "step": 4295,
      "train_speed(iter/s)": 0.03972
    },
    {
      "acc": 0.78874741,
      "epoch": 2.9573590096286106,
      "grad_norm": 1.6146240234375,
      "learning_rate": 3.9108250906354117e-05,
      "loss": 0.71309519,
      "memory(GiB)": 67.98,
      "step": 4300,
      "train_speed(iter/s)": 0.039742
    },
    {
      "epoch": 2.9573590096286106,
      "eval_acc": 0.7727257389661223,
      "eval_loss": 0.8019844889640808,
      "eval_runtime": 1140.1199,
      "eval_samples_per_second": 3.757,
      "eval_steps_per_second": 0.068,
      "step": 4300
    },
    {
      "acc": 0.78785725,
      "epoch": 2.9607977991746903,
      "grad_norm": 1.555442452430725,
      "learning_rate": 3.8997297535525026e-05,
      "loss": 0.72890291,
      "memory(GiB)": 67.98,
      "step": 4305,
      "train_speed(iter/s)": 0.039349
    },
    {
      "acc": 0.78933182,
      "epoch": 2.9642365887207704,
      "grad_norm": 1.710303783416748,
      "learning_rate": 3.888640111330235e-05,
      "loss": 0.73036714,
      "memory(GiB)": 67.98,
      "step": 4310,
      "train_speed(iter/s)": 0.039373
    },
    {
      "acc": 0.79446011,
      "epoch": 2.96767537826685,
      "grad_norm": 1.7401241064071655,
      "learning_rate": 3.877556221341133e-05,
      "loss": 0.70017486,
      "memory(GiB)": 67.98,
      "step": 4315,
      "train_speed(iter/s)": 0.039398
    },
    {
      "acc": 0.78983717,
      "epoch": 2.97111416781293,
      "grad_norm": 1.5789563655853271,
      "learning_rate": 3.866478140927961e-05,
      "loss": 0.70362015,
      "memory(GiB)": 67.98,
      "step": 4320,
      "train_speed(iter/s)": 0.039419
    },
    {
      "acc": 0.79765377,
      "epoch": 2.9745529573590095,
      "grad_norm": 2.0560176372528076,
      "learning_rate": 3.8554059274034246e-05,
      "loss": 0.68930745,
      "memory(GiB)": 67.98,
      "step": 4325,
      "train_speed(iter/s)": 0.039442
    },
    {
      "acc": 0.79753799,
      "epoch": 2.977991746905089,
      "grad_norm": 1.5742462873458862,
      "learning_rate": 3.844339638049885e-05,
      "loss": 0.68201818,
      "memory(GiB)": 67.98,
      "step": 4330,
      "train_speed(iter/s)": 0.039466
    },
    {
      "acc": 0.7916151,
      "epoch": 2.9814305364511693,
      "grad_norm": 1.7083474397659302,
      "learning_rate": 3.8332793301190456e-05,
      "loss": 0.6970108,
      "memory(GiB)": 67.98,
      "step": 4335,
      "train_speed(iter/s)": 0.03949
    },
    {
      "acc": 0.7908206,
      "epoch": 2.984869325997249,
      "grad_norm": 1.6145273447036743,
      "learning_rate": 3.822225060831669e-05,
      "loss": 0.72308092,
      "memory(GiB)": 67.98,
      "step": 4340,
      "train_speed(iter/s)": 0.039512
    },
    {
      "acc": 0.79732313,
      "epoch": 2.9883081155433286,
      "grad_norm": 1.3791991472244263,
      "learning_rate": 3.8111768873772757e-05,
      "loss": 0.68552351,
      "memory(GiB)": 67.98,
      "step": 4345,
      "train_speed(iter/s)": 0.039537
    },
    {
      "acc": 0.78215866,
      "epoch": 2.9917469050894088,
      "grad_norm": 1.587035059928894,
      "learning_rate": 3.800134866913852e-05,
      "loss": 0.74166784,
      "memory(GiB)": 67.98,
      "step": 4350,
      "train_speed(iter/s)": 0.03956
    },
    {
      "acc": 0.7990098,
      "epoch": 2.9951856946354884,
      "grad_norm": 1.8290317058563232,
      "learning_rate": 3.7890990565675476e-05,
      "loss": 0.68875532,
      "memory(GiB)": 67.98,
      "step": 4355,
      "train_speed(iter/s)": 0.039584
    },
    {
      "acc": 0.78591781,
      "epoch": 2.998624484181568,
      "grad_norm": 1.8819842338562012,
      "learning_rate": 3.778069513432386e-05,
      "loss": 0.72816386,
      "memory(GiB)": 67.98,
      "step": 4360,
      "train_speed(iter/s)": 0.039604
    },
    {
      "acc": 0.80687866,
      "epoch": 3.002063273727648,
      "grad_norm": 1.3995342254638672,
      "learning_rate": 3.767046294569967e-05,
      "loss": 0.64414482,
      "memory(GiB)": 67.98,
      "step": 4365,
      "train_speed(iter/s)": 0.039611
    },
    {
      "acc": 0.80390854,
      "epoch": 3.0055020632737275,
      "grad_norm": 1.5679051876068115,
      "learning_rate": 3.75602945700917e-05,
      "loss": 0.66774035,
      "memory(GiB)": 67.98,
      "step": 4370,
      "train_speed(iter/s)": 0.039629
    },
    {
      "acc": 0.79944701,
      "epoch": 3.0089408528198076,
      "grad_norm": 1.531205177307129,
      "learning_rate": 3.7450190577458635e-05,
      "loss": 0.67704058,
      "memory(GiB)": 67.98,
      "step": 4375,
      "train_speed(iter/s)": 0.039649
    },
    {
      "acc": 0.80703545,
      "epoch": 3.0123796423658873,
      "grad_norm": 6.210807800292969,
      "learning_rate": 3.734015153742605e-05,
      "loss": 0.64957862,
      "memory(GiB)": 67.98,
      "step": 4380,
      "train_speed(iter/s)": 0.039672
    },
    {
      "acc": 0.80491982,
      "epoch": 3.015818431911967,
      "grad_norm": 1.6315518617630005,
      "learning_rate": 3.7230178019283506e-05,
      "loss": 0.65046768,
      "memory(GiB)": 67.98,
      "step": 4385,
      "train_speed(iter/s)": 0.039693
    },
    {
      "acc": 0.8061985,
      "epoch": 3.0192572214580466,
      "grad_norm": 1.478652000427246,
      "learning_rate": 3.712027059198157e-05,
      "loss": 0.64048343,
      "memory(GiB)": 67.98,
      "step": 4390,
      "train_speed(iter/s)": 0.039708
    },
    {
      "acc": 0.81162281,
      "epoch": 3.0226960110041263,
      "grad_norm": 1.623420238494873,
      "learning_rate": 3.701042982412889e-05,
      "loss": 0.62963314,
      "memory(GiB)": 67.98,
      "step": 4395,
      "train_speed(iter/s)": 0.03973
    },
    {
      "acc": 0.80488195,
      "epoch": 3.0261348005502064,
      "grad_norm": 1.6778922080993652,
      "learning_rate": 3.690065628398926e-05,
      "loss": 0.65336089,
      "memory(GiB)": 67.98,
      "step": 4400,
      "train_speed(iter/s)": 0.039751
    },
    {
      "epoch": 3.0261348005502064,
      "eval_acc": 0.7711454537274486,
      "eval_loss": 0.8140049576759338,
      "eval_runtime": 1141.0798,
      "eval_samples_per_second": 3.753,
      "eval_steps_per_second": 0.067,
      "step": 4400
    },
    {
      "acc": 0.80764694,
      "epoch": 3.029573590096286,
      "grad_norm": 1.6117892265319824,
      "learning_rate": 3.679095053947864e-05,
      "loss": 0.6384645,
      "memory(GiB)": 67.98,
      "step": 4405,
      "train_speed(iter/s)": 0.039366
    },
    {
      "acc": 0.80960245,
      "epoch": 3.033012379642366,
      "grad_norm": 1.5972310304641724,
      "learning_rate": 3.668131315816228e-05,
      "loss": 0.63809519,
      "memory(GiB)": 67.98,
      "step": 4410,
      "train_speed(iter/s)": 0.039387
    },
    {
      "acc": 0.80579681,
      "epoch": 3.0364511691884455,
      "grad_norm": 1.6774109601974487,
      "learning_rate": 3.657174470725173e-05,
      "loss": 0.64105072,
      "memory(GiB)": 67.98,
      "step": 4415,
      "train_speed(iter/s)": 0.039406
    },
    {
      "acc": 0.81135626,
      "epoch": 3.0398899587345256,
      "grad_norm": 1.710260033607483,
      "learning_rate": 3.646224575360194e-05,
      "loss": 0.6407239,
      "memory(GiB)": 67.98,
      "step": 4420,
      "train_speed(iter/s)": 0.039428
    },
    {
      "acc": 0.81669779,
      "epoch": 3.0433287482806053,
      "grad_norm": 1.5772171020507812,
      "learning_rate": 3.635281686370832e-05,
      "loss": 0.61197987,
      "memory(GiB)": 67.98,
      "step": 4425,
      "train_speed(iter/s)": 0.039449
    },
    {
      "acc": 0.81082649,
      "epoch": 3.046767537826685,
      "grad_norm": 2.1017799377441406,
      "learning_rate": 3.624345860370379e-05,
      "loss": 0.63282819,
      "memory(GiB)": 67.98,
      "step": 4430,
      "train_speed(iter/s)": 0.039468
    },
    {
      "acc": 0.80507336,
      "epoch": 3.0502063273727646,
      "grad_norm": 1.904692530632019,
      "learning_rate": 3.613417153935585e-05,
      "loss": 0.63742828,
      "memory(GiB)": 67.98,
      "step": 4435,
      "train_speed(iter/s)": 0.039486
    },
    {
      "acc": 0.79859557,
      "epoch": 3.0536451169188448,
      "grad_norm": 1.673336148262024,
      "learning_rate": 3.60249562360637e-05,
      "loss": 0.67739854,
      "memory(GiB)": 67.98,
      "step": 4440,
      "train_speed(iter/s)": 0.039507
    },
    {
      "acc": 0.8053956,
      "epoch": 3.0570839064649244,
      "grad_norm": 1.6409105062484741,
      "learning_rate": 3.591581325885528e-05,
      "loss": 0.64070592,
      "memory(GiB)": 67.98,
      "step": 4445,
      "train_speed(iter/s)": 0.039524
    },
    {
      "acc": 0.81321754,
      "epoch": 3.060522696011004,
      "grad_norm": 1.599678874015808,
      "learning_rate": 3.5806743172384325e-05,
      "loss": 0.62494526,
      "memory(GiB)": 67.98,
      "step": 4450,
      "train_speed(iter/s)": 0.039544
    },
    {
      "acc": 0.81660137,
      "epoch": 3.063961485557084,
      "grad_norm": 1.527250051498413,
      "learning_rate": 3.569774654092749e-05,
      "loss": 0.61917772,
      "memory(GiB)": 67.98,
      "step": 4455,
      "train_speed(iter/s)": 0.039565
    },
    {
      "acc": 0.80815334,
      "epoch": 3.0674002751031635,
      "grad_norm": 1.9215754270553589,
      "learning_rate": 3.5588823928381385e-05,
      "loss": 0.64416943,
      "memory(GiB)": 67.98,
      "step": 4460,
      "train_speed(iter/s)": 0.039584
    },
    {
      "acc": 0.81522007,
      "epoch": 3.0708390646492436,
      "grad_norm": 1.771016240119934,
      "learning_rate": 3.54799758982597e-05,
      "loss": 0.62254939,
      "memory(GiB)": 67.98,
      "step": 4465,
      "train_speed(iter/s)": 0.039604
    },
    {
      "acc": 0.81300201,
      "epoch": 3.0742778541953233,
      "grad_norm": 1.5185010433197021,
      "learning_rate": 3.537120301369029e-05,
      "loss": 0.63570495,
      "memory(GiB)": 67.98,
      "step": 4470,
      "train_speed(iter/s)": 0.039623
    },
    {
      "acc": 0.79795976,
      "epoch": 3.077716643741403,
      "grad_norm": 1.7474913597106934,
      "learning_rate": 3.526250583741219e-05,
      "loss": 0.67301879,
      "memory(GiB)": 67.98,
      "step": 4475,
      "train_speed(iter/s)": 0.039644
    },
    {
      "acc": 0.80364552,
      "epoch": 3.0811554332874826,
      "grad_norm": 1.611039638519287,
      "learning_rate": 3.51538849317728e-05,
      "loss": 0.6553544,
      "memory(GiB)": 67.98,
      "step": 4480,
      "train_speed(iter/s)": 0.039664
    },
    {
      "acc": 0.80711832,
      "epoch": 3.0845942228335628,
      "grad_norm": 1.956214189529419,
      "learning_rate": 3.504534085872491e-05,
      "loss": 0.65441723,
      "memory(GiB)": 67.98,
      "step": 4485,
      "train_speed(iter/s)": 0.039686
    },
    {
      "acc": 0.80393448,
      "epoch": 3.0880330123796425,
      "grad_norm": 1.7758394479751587,
      "learning_rate": 3.493687417982382e-05,
      "loss": 0.63968649,
      "memory(GiB)": 67.98,
      "step": 4490,
      "train_speed(iter/s)": 0.039704
    },
    {
      "acc": 0.80570278,
      "epoch": 3.091471801925722,
      "grad_norm": 1.878055453300476,
      "learning_rate": 3.4828485456224454e-05,
      "loss": 0.64807596,
      "memory(GiB)": 67.98,
      "step": 4495,
      "train_speed(iter/s)": 0.039724
    },
    {
      "acc": 0.80985212,
      "epoch": 3.094910591471802,
      "grad_norm": 1.647511601448059,
      "learning_rate": 3.47201752486784e-05,
      "loss": 0.63398943,
      "memory(GiB)": 67.98,
      "step": 4500,
      "train_speed(iter/s)": 0.039743
    },
    {
      "epoch": 3.094910591471802,
      "eval_acc": 0.7721239933414316,
      "eval_loss": 0.81331866979599,
      "eval_runtime": 1133.398,
      "eval_samples_per_second": 3.779,
      "eval_steps_per_second": 0.068,
      "step": 4500
    },
    {
      "acc": 0.80513477,
      "epoch": 3.098349381017882,
      "grad_norm": 1.8428512811660767,
      "learning_rate": 3.461194411753105e-05,
      "loss": 0.64937515,
      "memory(GiB)": 67.98,
      "step": 4505,
      "train_speed(iter/s)": 0.03937
    },
    {
      "acc": 0.81019039,
      "epoch": 3.1017881705639616,
      "grad_norm": 1.6519265174865723,
      "learning_rate": 3.450379262271869e-05,
      "loss": 0.63972459,
      "memory(GiB)": 67.98,
      "step": 4510,
      "train_speed(iter/s)": 0.039392
    },
    {
      "acc": 0.8086174,
      "epoch": 3.1052269601100413,
      "grad_norm": 1.7133119106292725,
      "learning_rate": 3.439572132376563e-05,
      "loss": 0.64712973,
      "memory(GiB)": 67.98,
      "step": 4515,
      "train_speed(iter/s)": 0.039407
    },
    {
      "acc": 0.79508266,
      "epoch": 3.108665749656121,
      "grad_norm": 1.6571804285049438,
      "learning_rate": 3.428773077978125e-05,
      "loss": 0.68026247,
      "memory(GiB)": 67.98,
      "step": 4520,
      "train_speed(iter/s)": 0.039425
    },
    {
      "acc": 0.8028862,
      "epoch": 3.1121045392022006,
      "grad_norm": 2.0089550018310547,
      "learning_rate": 3.4179821549457166e-05,
      "loss": 0.66466484,
      "memory(GiB)": 67.98,
      "step": 4525,
      "train_speed(iter/s)": 0.039441
    },
    {
      "acc": 0.7982996,
      "epoch": 3.1155433287482808,
      "grad_norm": 1.620611548423767,
      "learning_rate": 3.407199419106429e-05,
      "loss": 0.67201767,
      "memory(GiB)": 67.98,
      "step": 4530,
      "train_speed(iter/s)": 0.03946
    },
    {
      "acc": 0.81185446,
      "epoch": 3.1189821182943605,
      "grad_norm": 1.5307915210723877,
      "learning_rate": 3.396424926244999e-05,
      "loss": 0.62855453,
      "memory(GiB)": 67.98,
      "step": 4535,
      "train_speed(iter/s)": 0.039478
    },
    {
      "acc": 0.80879059,
      "epoch": 3.12242090784044,
      "grad_norm": 1.9358049631118774,
      "learning_rate": 3.3856587321035206e-05,
      "loss": 0.63443809,
      "memory(GiB)": 67.98,
      "step": 4540,
      "train_speed(iter/s)": 0.0395
    },
    {
      "acc": 0.81181793,
      "epoch": 3.12585969738652,
      "grad_norm": 1.9281483888626099,
      "learning_rate": 3.374900892381146e-05,
      "loss": 0.62519212,
      "memory(GiB)": 67.98,
      "step": 4545,
      "train_speed(iter/s)": 0.039518
    },
    {
      "acc": 0.79986091,
      "epoch": 3.1292984869326,
      "grad_norm": 1.8126670122146606,
      "learning_rate": 3.3641514627338166e-05,
      "loss": 0.67471228,
      "memory(GiB)": 67.98,
      "step": 4550,
      "train_speed(iter/s)": 0.039538
    },
    {
      "acc": 0.81441412,
      "epoch": 3.1327372764786796,
      "grad_norm": 1.9482190608978271,
      "learning_rate": 3.353410498773954e-05,
      "loss": 0.62350183,
      "memory(GiB)": 67.98,
      "step": 4555,
      "train_speed(iter/s)": 0.039558
    },
    {
      "acc": 0.80743856,
      "epoch": 3.1361760660247593,
      "grad_norm": 1.8278954029083252,
      "learning_rate": 3.342678056070189e-05,
      "loss": 0.65586147,
      "memory(GiB)": 67.98,
      "step": 4560,
      "train_speed(iter/s)": 0.03958
    },
    {
      "acc": 0.80009956,
      "epoch": 3.139614855570839,
      "grad_norm": 1.9203051328659058,
      "learning_rate": 3.331954190147065e-05,
      "loss": 0.67459331,
      "memory(GiB)": 67.98,
      "step": 4565,
      "train_speed(iter/s)": 0.039599
    },
    {
      "acc": 0.79797955,
      "epoch": 3.1430536451169186,
      "grad_norm": 1.78507399559021,
      "learning_rate": 3.321238956484752e-05,
      "loss": 0.68094501,
      "memory(GiB)": 67.98,
      "step": 4570,
      "train_speed(iter/s)": 0.039619
    },
    {
      "acc": 0.80958462,
      "epoch": 3.1464924346629988,
      "grad_norm": 1.8514398336410522,
      "learning_rate": 3.310532410518765e-05,
      "loss": 0.63833261,
      "memory(GiB)": 67.98,
      "step": 4575,
      "train_speed(iter/s)": 0.039639
    },
    {
      "acc": 0.8103529,
      "epoch": 3.1499312242090785,
      "grad_norm": 2.1083662509918213,
      "learning_rate": 3.2998346076396664e-05,
      "loss": 0.63392391,
      "memory(GiB)": 67.98,
      "step": 4580,
      "train_speed(iter/s)": 0.039659
    },
    {
      "acc": 0.80684109,
      "epoch": 3.153370013755158,
      "grad_norm": 2.081134080886841,
      "learning_rate": 3.289145603192793e-05,
      "loss": 0.65391574,
      "memory(GiB)": 67.98,
      "step": 4585,
      "train_speed(iter/s)": 0.03968
    },
    {
      "acc": 0.80696983,
      "epoch": 3.156808803301238,
      "grad_norm": 1.7588388919830322,
      "learning_rate": 3.2784654524779587e-05,
      "loss": 0.65089002,
      "memory(GiB)": 67.98,
      "step": 4590,
      "train_speed(iter/s)": 0.039697
    },
    {
      "acc": 0.80319796,
      "epoch": 3.160247592847318,
      "grad_norm": 1.8731495141983032,
      "learning_rate": 3.267794210749173e-05,
      "loss": 0.66944408,
      "memory(GiB)": 67.98,
      "step": 4595,
      "train_speed(iter/s)": 0.039715
    },
    {
      "acc": 0.80229826,
      "epoch": 3.1636863823933976,
      "grad_norm": 1.863386869430542,
      "learning_rate": 3.2571319332143516e-05,
      "loss": 0.67615876,
      "memory(GiB)": 67.98,
      "step": 4600,
      "train_speed(iter/s)": 0.039734
    },
    {
      "epoch": 3.1636863823933976,
      "eval_acc": 0.7733612273361228,
      "eval_loss": 0.8061870336532593,
      "eval_runtime": 1127.8615,
      "eval_samples_per_second": 3.797,
      "eval_steps_per_second": 0.068,
      "step": 4600
    },
    {
      "acc": 0.81224995,
      "epoch": 3.1671251719394773,
      "grad_norm": 1.7116352319717407,
      "learning_rate": 3.2464786750350434e-05,
      "loss": 0.62269239,
      "memory(GiB)": 67.98,
      "step": 4605,
      "train_speed(iter/s)": 0.03937
    },
    {
      "acc": 0.80045443,
      "epoch": 3.170563961485557,
      "grad_norm": 1.838098406791687,
      "learning_rate": 3.235834491326126e-05,
      "loss": 0.65012379,
      "memory(GiB)": 67.98,
      "step": 4610,
      "train_speed(iter/s)": 0.039391
    },
    {
      "acc": 0.80470877,
      "epoch": 3.1740027510316366,
      "grad_norm": 1.8031960725784302,
      "learning_rate": 3.225199437155532e-05,
      "loss": 0.65979033,
      "memory(GiB)": 67.98,
      "step": 4615,
      "train_speed(iter/s)": 0.039409
    },
    {
      "acc": 0.80560265,
      "epoch": 3.1774415405777168,
      "grad_norm": 1.7068849802017212,
      "learning_rate": 3.214573567543964e-05,
      "loss": 0.63796139,
      "memory(GiB)": 67.98,
      "step": 4620,
      "train_speed(iter/s)": 0.039427
    },
    {
      "acc": 0.79233809,
      "epoch": 3.1808803301237965,
      "grad_norm": 1.7398771047592163,
      "learning_rate": 3.203956937464607e-05,
      "loss": 0.67283368,
      "memory(GiB)": 67.98,
      "step": 4625,
      "train_speed(iter/s)": 0.039446
    },
    {
      "acc": 0.81366425,
      "epoch": 3.184319119669876,
      "grad_norm": 1.7081953287124634,
      "learning_rate": 3.1933496018428446e-05,
      "loss": 0.62146492,
      "memory(GiB)": 67.98,
      "step": 4630,
      "train_speed(iter/s)": 0.039466
    },
    {
      "acc": 0.80281668,
      "epoch": 3.187757909215956,
      "grad_norm": 1.6009129285812378,
      "learning_rate": 3.1827516155559786e-05,
      "loss": 0.66720371,
      "memory(GiB)": 67.98,
      "step": 4635,
      "train_speed(iter/s)": 0.039486
    },
    {
      "acc": 0.80487442,
      "epoch": 3.191196698762036,
      "grad_norm": 1.8239426612854004,
      "learning_rate": 3.1721630334329366e-05,
      "loss": 0.64386883,
      "memory(GiB)": 67.98,
      "step": 4640,
      "train_speed(iter/s)": 0.039505
    },
    {
      "acc": 0.80696297,
      "epoch": 3.1946354883081156,
      "grad_norm": 1.906916856765747,
      "learning_rate": 3.161583910253998e-05,
      "loss": 0.64987645,
      "memory(GiB)": 67.98,
      "step": 4645,
      "train_speed(iter/s)": 0.039524
    },
    {
      "acc": 0.80997219,
      "epoch": 3.1980742778541953,
      "grad_norm": 2.060511350631714,
      "learning_rate": 3.1510143007505016e-05,
      "loss": 0.63655567,
      "memory(GiB)": 67.98,
      "step": 4650,
      "train_speed(iter/s)": 0.039543
    },
    {
      "acc": 0.79812059,
      "epoch": 3.201513067400275,
      "grad_norm": 1.793277382850647,
      "learning_rate": 3.14045425960457e-05,
      "loss": 0.68602118,
      "memory(GiB)": 67.98,
      "step": 4655,
      "train_speed(iter/s)": 0.039564
    },
    {
      "acc": 0.79850287,
      "epoch": 3.204951856946355,
      "grad_norm": 1.6924282312393188,
      "learning_rate": 3.129903841448827e-05,
      "loss": 0.67275462,
      "memory(GiB)": 67.98,
      "step": 4660,
      "train_speed(iter/s)": 0.039583
    },
    {
      "acc": 0.80627632,
      "epoch": 3.2083906464924348,
      "grad_norm": 1.678781509399414,
      "learning_rate": 3.119363100866106e-05,
      "loss": 0.65286617,
      "memory(GiB)": 67.98,
      "step": 4665,
      "train_speed(iter/s)": 0.039602
    },
    {
      "acc": 0.81515961,
      "epoch": 3.2118294360385145,
      "grad_norm": 1.9915016889572144,
      "learning_rate": 3.108832092389172e-05,
      "loss": 0.59764929,
      "memory(GiB)": 67.98,
      "step": 4670,
      "train_speed(iter/s)": 0.039621
    },
    {
      "acc": 0.80686855,
      "epoch": 3.215268225584594,
      "grad_norm": 1.8249253034591675,
      "learning_rate": 3.098310870500448e-05,
      "loss": 0.64462824,
      "memory(GiB)": 67.98,
      "step": 4675,
      "train_speed(iter/s)": 0.03964
    },
    {
      "acc": 0.80929985,
      "epoch": 3.218707015130674,
      "grad_norm": 1.7660592794418335,
      "learning_rate": 3.087799489631721e-05,
      "loss": 0.6324172,
      "memory(GiB)": 67.98,
      "step": 4680,
      "train_speed(iter/s)": 0.039659
    },
    {
      "acc": 0.80256157,
      "epoch": 3.222145804676754,
      "grad_norm": 1.9033777713775635,
      "learning_rate": 3.077298004163865e-05,
      "loss": 0.67533493,
      "memory(GiB)": 67.98,
      "step": 4685,
      "train_speed(iter/s)": 0.039677
    },
    {
      "acc": 0.80715237,
      "epoch": 3.2255845942228336,
      "grad_norm": 1.6797436475753784,
      "learning_rate": 3.066806468426561e-05,
      "loss": 0.64756646,
      "memory(GiB)": 67.98,
      "step": 4690,
      "train_speed(iter/s)": 0.039699
    },
    {
      "acc": 0.79631739,
      "epoch": 3.2290233837689133,
      "grad_norm": 1.6722263097763062,
      "learning_rate": 3.056324936698014e-05,
      "loss": 0.68136206,
      "memory(GiB)": 67.98,
      "step": 4695,
      "train_speed(iter/s)": 0.03972
    },
    {
      "acc": 0.81018467,
      "epoch": 3.232462173314993,
      "grad_norm": 1.9351452589035034,
      "learning_rate": 3.0458534632046766e-05,
      "loss": 0.63391657,
      "memory(GiB)": 67.98,
      "step": 4700,
      "train_speed(iter/s)": 0.039741
    },
    {
      "epoch": 3.232462173314993,
      "eval_acc": 0.7737605164889548,
      "eval_loss": 0.806867241859436,
      "eval_runtime": 1123.2355,
      "eval_samples_per_second": 3.813,
      "eval_steps_per_second": 0.069,
      "step": 4700
    },
    {
      "acc": 0.81098757,
      "epoch": 3.235900962861073,
      "grad_norm": 1.8516818284988403,
      "learning_rate": 3.0353921021209598e-05,
      "loss": 0.63078384,
      "memory(GiB)": 67.98,
      "step": 4705,
      "train_speed(iter/s)": 0.039386
    },
    {
      "acc": 0.80097027,
      "epoch": 3.2393397524071528,
      "grad_norm": 1.9018975496292114,
      "learning_rate": 3.02494090756896e-05,
      "loss": 0.67307758,
      "memory(GiB)": 67.98,
      "step": 4710,
      "train_speed(iter/s)": 0.039403
    },
    {
      "acc": 0.78721581,
      "epoch": 3.2427785419532325,
      "grad_norm": 1.8945331573486328,
      "learning_rate": 3.014499933618176e-05,
      "loss": 0.71489978,
      "memory(GiB)": 67.98,
      "step": 4715,
      "train_speed(iter/s)": 0.039419
    },
    {
      "acc": 0.81447954,
      "epoch": 3.246217331499312,
      "grad_norm": 1.873476505279541,
      "learning_rate": 3.004069234285235e-05,
      "loss": 0.62558355,
      "memory(GiB)": 67.98,
      "step": 4720,
      "train_speed(iter/s)": 0.039438
    },
    {
      "acc": 0.80101833,
      "epoch": 3.2496561210453923,
      "grad_norm": 1.9191193580627441,
      "learning_rate": 2.993648863533602e-05,
      "loss": 0.65777245,
      "memory(GiB)": 67.98,
      "step": 4725,
      "train_speed(iter/s)": 0.039458
    },
    {
      "acc": 0.81086941,
      "epoch": 3.253094910591472,
      "grad_norm": 1.973708987236023,
      "learning_rate": 2.983238875273308e-05,
      "loss": 0.63210435,
      "memory(GiB)": 67.98,
      "step": 4730,
      "train_speed(iter/s)": 0.039477
    },
    {
      "acc": 0.80301018,
      "epoch": 3.2565337001375516,
      "grad_norm": 1.7471644878387451,
      "learning_rate": 2.9728393233606715e-05,
      "loss": 0.66623907,
      "memory(GiB)": 67.98,
      "step": 4735,
      "train_speed(iter/s)": 0.039495
    },
    {
      "acc": 0.80888157,
      "epoch": 3.2599724896836313,
      "grad_norm": 1.7000857591629028,
      "learning_rate": 2.9624502615980177e-05,
      "loss": 0.64117575,
      "memory(GiB)": 67.98,
      "step": 4740,
      "train_speed(iter/s)": 0.039513
    },
    {
      "acc": 0.81031885,
      "epoch": 3.263411279229711,
      "grad_norm": 1.760911226272583,
      "learning_rate": 2.9520717437334024e-05,
      "loss": 0.65109177,
      "memory(GiB)": 67.98,
      "step": 4745,
      "train_speed(iter/s)": 0.039529
    },
    {
      "acc": 0.81288662,
      "epoch": 3.266850068775791,
      "grad_norm": 1.7138432264328003,
      "learning_rate": 2.941703823460329e-05,
      "loss": 0.62872763,
      "memory(GiB)": 67.98,
      "step": 4750,
      "train_speed(iter/s)": 0.039549
    },
    {
      "acc": 0.80744476,
      "epoch": 3.2702888583218708,
      "grad_norm": 1.9831231832504272,
      "learning_rate": 2.9313465544174756e-05,
      "loss": 0.63904066,
      "memory(GiB)": 67.98,
      "step": 4755,
      "train_speed(iter/s)": 0.039566
    },
    {
      "acc": 0.80821819,
      "epoch": 3.2737276478679505,
      "grad_norm": 1.79635488986969,
      "learning_rate": 2.9209999901884165e-05,
      "loss": 0.64807615,
      "memory(GiB)": 67.98,
      "step": 4760,
      "train_speed(iter/s)": 0.039585
    },
    {
      "acc": 0.81542759,
      "epoch": 3.27716643741403,
      "grad_norm": 1.7462048530578613,
      "learning_rate": 2.910664184301346e-05,
      "loss": 0.61296053,
      "memory(GiB)": 67.98,
      "step": 4765,
      "train_speed(iter/s)": 0.039602
    },
    {
      "acc": 0.81904421,
      "epoch": 3.28060522696011,
      "grad_norm": 1.6204197406768799,
      "learning_rate": 2.900339190228796e-05,
      "loss": 0.60652199,
      "memory(GiB)": 67.98,
      "step": 4770,
      "train_speed(iter/s)": 0.039622
    },
    {
      "acc": 0.8142024,
      "epoch": 3.28404401650619,
      "grad_norm": 2.0843801498413086,
      "learning_rate": 2.890025061387362e-05,
      "loss": 0.61951303,
      "memory(GiB)": 67.98,
      "step": 4775,
      "train_speed(iter/s)": 0.039638
    },
    {
      "acc": 0.80437889,
      "epoch": 3.2874828060522696,
      "grad_norm": 1.9848445653915405,
      "learning_rate": 2.879721851137438e-05,
      "loss": 0.65048337,
      "memory(GiB)": 67.98,
      "step": 4780,
      "train_speed(iter/s)": 0.039655
    },
    {
      "acc": 0.8088932,
      "epoch": 3.2909215955983493,
      "grad_norm": 1.7368524074554443,
      "learning_rate": 2.8694296127829177e-05,
      "loss": 0.64408207,
      "memory(GiB)": 67.98,
      "step": 4785,
      "train_speed(iter/s)": 0.039674
    },
    {
      "acc": 0.79394779,
      "epoch": 3.294360385144429,
      "grad_norm": 1.72417414188385,
      "learning_rate": 2.8591483995709407e-05,
      "loss": 0.68265638,
      "memory(GiB)": 67.98,
      "step": 4790,
      "train_speed(iter/s)": 0.039689
    },
    {
      "acc": 0.81347179,
      "epoch": 3.297799174690509,
      "grad_norm": 1.7844178676605225,
      "learning_rate": 2.8488782646916024e-05,
      "loss": 0.61397967,
      "memory(GiB)": 67.98,
      "step": 4795,
      "train_speed(iter/s)": 0.039709
    },
    {
      "acc": 0.80788279,
      "epoch": 3.3012379642365888,
      "grad_norm": 1.7968957424163818,
      "learning_rate": 2.838619261277686e-05,
      "loss": 0.64608054,
      "memory(GiB)": 67.98,
      "step": 4800,
      "train_speed(iter/s)": 0.039729
    },
    {
      "epoch": 3.3012379642365888,
      "eval_acc": 0.7751046025104602,
      "eval_loss": 0.804237425327301,
      "eval_runtime": 1089.1926,
      "eval_samples_per_second": 3.932,
      "eval_steps_per_second": 0.071,
      "step": 4800
    },
    {
      "acc": 0.81613159,
      "epoch": 3.3046767537826685,
      "grad_norm": 1.6313848495483398,
      "learning_rate": 2.828371442404386e-05,
      "loss": 0.62472601,
      "memory(GiB)": 67.98,
      "step": 4805,
      "train_speed(iter/s)": 0.039393
    },
    {
      "acc": 0.81500292,
      "epoch": 3.308115543328748,
      "grad_norm": 1.8520140647888184,
      "learning_rate": 2.8181348610890345e-05,
      "loss": 0.62366076,
      "memory(GiB)": 67.98,
      "step": 4810,
      "train_speed(iter/s)": 0.039414
    },
    {
      "acc": 0.79354863,
      "epoch": 3.3115543328748283,
      "grad_norm": 1.8981624841690063,
      "learning_rate": 2.8079095702908214e-05,
      "loss": 0.69254041,
      "memory(GiB)": 67.98,
      "step": 4815,
      "train_speed(iter/s)": 0.03943
    },
    {
      "acc": 0.8094223,
      "epoch": 3.314993122420908,
      "grad_norm": 1.9359115362167358,
      "learning_rate": 2.7976956229105322e-05,
      "loss": 0.64053526,
      "memory(GiB)": 67.98,
      "step": 4820,
      "train_speed(iter/s)": 0.039449
    },
    {
      "acc": 0.79914575,
      "epoch": 3.3184319119669876,
      "grad_norm": 1.8818870782852173,
      "learning_rate": 2.7874930717902603e-05,
      "loss": 0.68240814,
      "memory(GiB)": 67.98,
      "step": 4825,
      "train_speed(iter/s)": 0.039467
    },
    {
      "acc": 0.80387897,
      "epoch": 3.3218707015130673,
      "grad_norm": 1.9390044212341309,
      "learning_rate": 2.7773019697131435e-05,
      "loss": 0.65107994,
      "memory(GiB)": 67.98,
      "step": 4830,
      "train_speed(iter/s)": 0.039486
    },
    {
      "acc": 0.81106586,
      "epoch": 3.325309491059147,
      "grad_norm": 1.6695841550827026,
      "learning_rate": 2.767122369403088e-05,
      "loss": 0.63033338,
      "memory(GiB)": 67.98,
      "step": 4835,
      "train_speed(iter/s)": 0.039505
    },
    {
      "acc": 0.82067537,
      "epoch": 3.328748280605227,
      "grad_norm": 1.7732053995132446,
      "learning_rate": 2.756954323524491e-05,
      "loss": 0.61327543,
      "memory(GiB)": 67.98,
      "step": 4840,
      "train_speed(iter/s)": 0.039521
    },
    {
      "acc": 0.80741024,
      "epoch": 3.3321870701513068,
      "grad_norm": 1.7796927690505981,
      "learning_rate": 2.7467978846819775e-05,
      "loss": 0.63265486,
      "memory(GiB)": 67.98,
      "step": 4845,
      "train_speed(iter/s)": 0.039541
    },
    {
      "acc": 0.80555611,
      "epoch": 3.3356258596973865,
      "grad_norm": 1.739590048789978,
      "learning_rate": 2.7366531054201243e-05,
      "loss": 0.64431,
      "memory(GiB)": 67.98,
      "step": 4850,
      "train_speed(iter/s)": 0.03956
    },
    {
      "acc": 0.79774094,
      "epoch": 3.339064649243466,
      "grad_norm": 1.9023163318634033,
      "learning_rate": 2.726520038223182e-05,
      "loss": 0.68374538,
      "memory(GiB)": 67.98,
      "step": 4855,
      "train_speed(iter/s)": 0.03958
    },
    {
      "acc": 0.81651649,
      "epoch": 3.3425034387895463,
      "grad_norm": 1.862848162651062,
      "learning_rate": 2.716398735514812e-05,
      "loss": 0.62106805,
      "memory(GiB)": 67.98,
      "step": 4860,
      "train_speed(iter/s)": 0.039595
    },
    {
      "acc": 0.8125948,
      "epoch": 3.345942228335626,
      "grad_norm": 1.7548292875289917,
      "learning_rate": 2.7062892496578096e-05,
      "loss": 0.62365727,
      "memory(GiB)": 67.98,
      "step": 4865,
      "train_speed(iter/s)": 0.039615
    },
    {
      "acc": 0.81203623,
      "epoch": 3.3493810178817056,
      "grad_norm": 1.8868883848190308,
      "learning_rate": 2.696191632953835e-05,
      "loss": 0.63214188,
      "memory(GiB)": 67.98,
      "step": 4870,
      "train_speed(iter/s)": 0.039636
    },
    {
      "acc": 0.7978539,
      "epoch": 3.3528198074277853,
      "grad_norm": 1.854641318321228,
      "learning_rate": 2.6861059376431485e-05,
      "loss": 0.66800289,
      "memory(GiB)": 67.98,
      "step": 4875,
      "train_speed(iter/s)": 0.039653
    },
    {
      "acc": 0.80050983,
      "epoch": 3.3562585969738654,
      "grad_norm": 2.1327366828918457,
      "learning_rate": 2.6760322159043293e-05,
      "loss": 0.68278418,
      "memory(GiB)": 67.98,
      "step": 4880,
      "train_speed(iter/s)": 0.039669
    },
    {
      "acc": 0.80420437,
      "epoch": 3.359697386519945,
      "grad_norm": 1.9406790733337402,
      "learning_rate": 2.6659705198540137e-05,
      "loss": 0.65569339,
      "memory(GiB)": 67.98,
      "step": 4885,
      "train_speed(iter/s)": 0.039687
    },
    {
      "acc": 0.81132812,
      "epoch": 3.3631361760660248,
      "grad_norm": 2.0002591609954834,
      "learning_rate": 2.6559209015466198e-05,
      "loss": 0.64171629,
      "memory(GiB)": 67.98,
      "step": 4890,
      "train_speed(iter/s)": 0.039704
    },
    {
      "acc": 0.80664577,
      "epoch": 3.3665749656121045,
      "grad_norm": 1.8464481830596924,
      "learning_rate": 2.6458834129740834e-05,
      "loss": 0.63870592,
      "memory(GiB)": 67.98,
      "step": 4895,
      "train_speed(iter/s)": 0.039724
    },
    {
      "acc": 0.80081406,
      "epoch": 3.370013755158184,
      "grad_norm": 1.992497444152832,
      "learning_rate": 2.635858106065588e-05,
      "loss": 0.67669377,
      "memory(GiB)": 67.98,
      "step": 4900,
      "train_speed(iter/s)": 0.039739
    },
    {
      "epoch": 3.370013755158184,
      "eval_acc": 0.775284563818779,
      "eval_loss": 0.8015691637992859,
      "eval_runtime": 1150.5731,
      "eval_samples_per_second": 3.722,
      "eval_steps_per_second": 0.067,
      "step": 4900
    },
    {
      "acc": 0.80654058,
      "epoch": 3.3734525447042643,
      "grad_norm": 1.6790952682495117,
      "learning_rate": 2.625845032687293e-05,
      "loss": 0.66655011,
      "memory(GiB)": 67.98,
      "step": 4905,
      "train_speed(iter/s)": 0.03939
    },
    {
      "acc": 0.81852398,
      "epoch": 3.376891334250344,
      "grad_norm": 1.7393443584442139,
      "learning_rate": 2.6158442446420673e-05,
      "loss": 0.61265764,
      "memory(GiB)": 67.98,
      "step": 4910,
      "train_speed(iter/s)": 0.039408
    },
    {
      "acc": 0.80897388,
      "epoch": 3.3803301237964236,
      "grad_norm": 1.757190465927124,
      "learning_rate": 2.605855793669223e-05,
      "loss": 0.63301859,
      "memory(GiB)": 67.98,
      "step": 4915,
      "train_speed(iter/s)": 0.039424
    },
    {
      "acc": 0.81477318,
      "epoch": 3.3837689133425033,
      "grad_norm": 1.7762666940689087,
      "learning_rate": 2.595879731444242e-05,
      "loss": 0.63501825,
      "memory(GiB)": 67.98,
      "step": 4920,
      "train_speed(iter/s)": 0.039441
    },
    {
      "acc": 0.80826883,
      "epoch": 3.387207702888583,
      "grad_norm": 1.8915072679519653,
      "learning_rate": 2.5859161095785204e-05,
      "loss": 0.64570541,
      "memory(GiB)": 67.98,
      "step": 4925,
      "train_speed(iter/s)": 0.039458
    },
    {
      "acc": 0.80283833,
      "epoch": 3.390646492434663,
      "grad_norm": 1.8202823400497437,
      "learning_rate": 2.5759649796190873e-05,
      "loss": 0.65588207,
      "memory(GiB)": 67.98,
      "step": 4930,
      "train_speed(iter/s)": 0.039476
    },
    {
      "acc": 0.80436974,
      "epoch": 3.3940852819807428,
      "grad_norm": 1.8674787282943726,
      "learning_rate": 2.5660263930483468e-05,
      "loss": 0.63378534,
      "memory(GiB)": 67.98,
      "step": 4935,
      "train_speed(iter/s)": 0.039489
    },
    {
      "acc": 0.80554743,
      "epoch": 3.3975240715268225,
      "grad_norm": 1.7539056539535522,
      "learning_rate": 2.5561004012838067e-05,
      "loss": 0.65574193,
      "memory(GiB)": 67.98,
      "step": 4940,
      "train_speed(iter/s)": 0.039506
    },
    {
      "acc": 0.81471024,
      "epoch": 3.4009628610729026,
      "grad_norm": 1.9018100500106812,
      "learning_rate": 2.5461870556778218e-05,
      "loss": 0.61126738,
      "memory(GiB)": 67.98,
      "step": 4945,
      "train_speed(iter/s)": 0.039526
    },
    {
      "acc": 0.80630493,
      "epoch": 3.4044016506189823,
      "grad_norm": 1.7900938987731934,
      "learning_rate": 2.5362864075173153e-05,
      "loss": 0.63573794,
      "memory(GiB)": 67.98,
      "step": 4950,
      "train_speed(iter/s)": 0.039543
    },
    {
      "acc": 0.80556068,
      "epoch": 3.407840440165062,
      "grad_norm": 2.0504183769226074,
      "learning_rate": 2.526398508023523e-05,
      "loss": 0.6546957,
      "memory(GiB)": 67.98,
      "step": 4955,
      "train_speed(iter/s)": 0.039561
    },
    {
      "acc": 0.80205326,
      "epoch": 3.4112792297111416,
      "grad_norm": 1.9150274991989136,
      "learning_rate": 2.5165234083517246e-05,
      "loss": 0.64255061,
      "memory(GiB)": 67.98,
      "step": 4960,
      "train_speed(iter/s)": 0.039575
    },
    {
      "acc": 0.80601921,
      "epoch": 3.4147180192572213,
      "grad_norm": 1.8331859111785889,
      "learning_rate": 2.5066611595909784e-05,
      "loss": 0.64326835,
      "memory(GiB)": 67.98,
      "step": 4965,
      "train_speed(iter/s)": 0.039591
    },
    {
      "acc": 0.80851765,
      "epoch": 3.4181568088033014,
      "grad_norm": 1.8799371719360352,
      "learning_rate": 2.49681181276386e-05,
      "loss": 0.63813715,
      "memory(GiB)": 67.98,
      "step": 4970,
      "train_speed(iter/s)": 0.039605
    },
    {
      "acc": 0.80517483,
      "epoch": 3.421595598349381,
      "grad_norm": 1.8553872108459473,
      "learning_rate": 2.486975418826196e-05,
      "loss": 0.66684914,
      "memory(GiB)": 67.98,
      "step": 4975,
      "train_speed(iter/s)": 0.039623
    },
    {
      "acc": 0.82046995,
      "epoch": 3.4250343878954608,
      "grad_norm": 1.695779800415039,
      "learning_rate": 2.477152028666798e-05,
      "loss": 0.60830936,
      "memory(GiB)": 67.98,
      "step": 4980,
      "train_speed(iter/s)": 0.039643
    },
    {
      "acc": 0.7990911,
      "epoch": 3.4284731774415405,
      "grad_norm": 1.7533307075500488,
      "learning_rate": 2.4673416931072094e-05,
      "loss": 0.67933016,
      "memory(GiB)": 67.98,
      "step": 4985,
      "train_speed(iter/s)": 0.039658
    },
    {
      "acc": 0.80797586,
      "epoch": 3.43191196698762,
      "grad_norm": 2.2120864391326904,
      "learning_rate": 2.4575444629014292e-05,
      "loss": 0.65290236,
      "memory(GiB)": 67.98,
      "step": 4990,
      "train_speed(iter/s)": 0.039679
    },
    {
      "acc": 0.80715389,
      "epoch": 3.4353507565337003,
      "grad_norm": 1.7007701396942139,
      "learning_rate": 2.447760388735657e-05,
      "loss": 0.64799299,
      "memory(GiB)": 67.98,
      "step": 4995,
      "train_speed(iter/s)": 0.039694
    },
    {
      "acc": 0.80209885,
      "epoch": 3.43878954607978,
      "grad_norm": 2.1484506130218506,
      "learning_rate": 2.4379895212280297e-05,
      "loss": 0.6714016,
      "memory(GiB)": 67.98,
      "step": 5000,
      "train_speed(iter/s)": 0.039712
    },
    {
      "epoch": 3.43878954607978,
      "eval_acc": 0.7760493993791335,
      "eval_loss": 0.7988596558570862,
      "eval_runtime": 1141.4518,
      "eval_samples_per_second": 3.752,
      "eval_steps_per_second": 0.067,
      "step": 5000
    },
    {
      "acc": 0.80421772,
      "epoch": 3.4422283356258596,
      "grad_norm": 1.683592438697815,
      "learning_rate": 2.428231910928358e-05,
      "loss": 0.65520515,
      "memory(GiB)": 67.98,
      "step": 5005,
      "train_speed(iter/s)": 0.039374
    },
    {
      "acc": 0.80245571,
      "epoch": 3.4456671251719393,
      "grad_norm": 1.8841793537139893,
      "learning_rate": 2.418487608317867e-05,
      "loss": 0.67175484,
      "memory(GiB)": 67.98,
      "step": 5010,
      "train_speed(iter/s)": 0.039392
    },
    {
      "acc": 0.8125226,
      "epoch": 3.4491059147180194,
      "grad_norm": 1.949098825454712,
      "learning_rate": 2.408756663808937e-05,
      "loss": 0.61799521,
      "memory(GiB)": 67.98,
      "step": 5015,
      "train_speed(iter/s)": 0.039412
    },
    {
      "acc": 0.81072598,
      "epoch": 3.452544704264099,
      "grad_norm": 1.7873549461364746,
      "learning_rate": 2.399039127744836e-05,
      "loss": 0.64322014,
      "memory(GiB)": 67.98,
      "step": 5020,
      "train_speed(iter/s)": 0.039425
    },
    {
      "acc": 0.80515785,
      "epoch": 3.4559834938101788,
      "grad_norm": 2.0002734661102295,
      "learning_rate": 2.389335050399464e-05,
      "loss": 0.6395524,
      "memory(GiB)": 67.98,
      "step": 5025,
      "train_speed(iter/s)": 0.039445
    },
    {
      "acc": 0.80893536,
      "epoch": 3.4594222833562585,
      "grad_norm": 1.9517066478729248,
      "learning_rate": 2.3796444819770926e-05,
      "loss": 0.63445306,
      "memory(GiB)": 67.98,
      "step": 5030,
      "train_speed(iter/s)": 0.03946
    },
    {
      "acc": 0.79918771,
      "epoch": 3.4628610729023386,
      "grad_norm": 1.7724376916885376,
      "learning_rate": 2.3699674726121022e-05,
      "loss": 0.68629122,
      "memory(GiB)": 67.98,
      "step": 5035,
      "train_speed(iter/s)": 0.039476
    },
    {
      "acc": 0.80571623,
      "epoch": 3.4662998624484183,
      "grad_norm": 1.769455075263977,
      "learning_rate": 2.3603040723687315e-05,
      "loss": 0.65023713,
      "memory(GiB)": 67.98,
      "step": 5040,
      "train_speed(iter/s)": 0.039495
    },
    {
      "acc": 0.81652203,
      "epoch": 3.469738651994498,
      "grad_norm": 2.4029428958892822,
      "learning_rate": 2.3506543312408055e-05,
      "loss": 0.62751317,
      "memory(GiB)": 67.98,
      "step": 5045,
      "train_speed(iter/s)": 0.039514
    },
    {
      "acc": 0.8143034,
      "epoch": 3.4731774415405776,
      "grad_norm": 1.7803950309753418,
      "learning_rate": 2.3410182991514863e-05,
      "loss": 0.62447834,
      "memory(GiB)": 67.98,
      "step": 5050,
      "train_speed(iter/s)": 0.039532
    },
    {
      "acc": 0.81082478,
      "epoch": 3.4766162310866573,
      "grad_norm": 1.8696342706680298,
      "learning_rate": 2.3313960259530114e-05,
      "loss": 0.63704772,
      "memory(GiB)": 67.98,
      "step": 5055,
      "train_speed(iter/s)": 0.039552
    },
    {
      "acc": 0.81630154,
      "epoch": 3.4800550206327374,
      "grad_norm": 1.9919400215148926,
      "learning_rate": 2.321787561426436e-05,
      "loss": 0.61488199,
      "memory(GiB)": 67.98,
      "step": 5060,
      "train_speed(iter/s)": 0.039568
    },
    {
      "acc": 0.81280794,
      "epoch": 3.483493810178817,
      "grad_norm": 1.9915574789047241,
      "learning_rate": 2.3121929552813775e-05,
      "loss": 0.62114315,
      "memory(GiB)": 67.98,
      "step": 5065,
      "train_speed(iter/s)": 0.039585
    },
    {
      "acc": 0.80458755,
      "epoch": 3.4869325997248968,
      "grad_norm": 1.9132686853408813,
      "learning_rate": 2.302612257155754e-05,
      "loss": 0.63852549,
      "memory(GiB)": 67.98,
      "step": 5070,
      "train_speed(iter/s)": 0.039601
    },
    {
      "acc": 0.80228262,
      "epoch": 3.4903713892709765,
      "grad_norm": 1.638962745666504,
      "learning_rate": 2.2930455166155325e-05,
      "loss": 0.65759382,
      "memory(GiB)": 67.98,
      "step": 5075,
      "train_speed(iter/s)": 0.039619
    },
    {
      "acc": 0.81052542,
      "epoch": 3.4938101788170566,
      "grad_norm": 2.4375152587890625,
      "learning_rate": 2.2834927831544663e-05,
      "loss": 0.62842712,
      "memory(GiB)": 67.98,
      "step": 5080,
      "train_speed(iter/s)": 0.039637
    },
    {
      "acc": 0.81806412,
      "epoch": 3.4972489683631363,
      "grad_norm": 1.8711788654327393,
      "learning_rate": 2.273954106193851e-05,
      "loss": 0.59915447,
      "memory(GiB)": 67.98,
      "step": 5085,
      "train_speed(iter/s)": 0.039654
    },
    {
      "acc": 0.80885086,
      "epoch": 3.500687757909216,
      "grad_norm": 1.7943886518478394,
      "learning_rate": 2.2644295350822523e-05,
      "loss": 0.64677639,
      "memory(GiB)": 67.98,
      "step": 5090,
      "train_speed(iter/s)": 0.03967
    },
    {
      "acc": 0.80517883,
      "epoch": 3.5041265474552956,
      "grad_norm": 1.9428882598876953,
      "learning_rate": 2.2549191190952614e-05,
      "loss": 0.64541783,
      "memory(GiB)": 67.98,
      "step": 5095,
      "train_speed(iter/s)": 0.039687
    },
    {
      "acc": 0.82121677,
      "epoch": 3.5075653370013757,
      "grad_norm": 2.129689931869507,
      "learning_rate": 2.245422907435237e-05,
      "loss": 0.59930925,
      "memory(GiB)": 67.98,
      "step": 5100,
      "train_speed(iter/s)": 0.039705
    },
    {
      "epoch": 3.5075653370013757,
      "eval_acc": 0.7766230260493994,
      "eval_loss": 0.7989464998245239,
      "eval_runtime": 1103.0791,
      "eval_samples_per_second": 3.883,
      "eval_steps_per_second": 0.07,
      "step": 5100
    },
    {
      "acc": 0.80364723,
      "epoch": 3.5110041265474554,
      "grad_norm": 1.949704885482788,
      "learning_rate": 2.2359409492310554e-05,
      "loss": 0.65982656,
      "memory(GiB)": 72.17,
      "step": 5105,
      "train_speed(iter/s)": 45.411016
    },
    {
      "acc": 0.81052856,
      "epoch": 3.514442916093535,
      "grad_norm": 1.766641616821289,
      "learning_rate": 2.2264732935378485e-05,
      "loss": 0.62573719,
      "memory(GiB)": 72.17,
      "step": 5110,
      "train_speed(iter/s)": 26.201936
    },
    {
      "acc": 0.81840916,
      "epoch": 3.5178817056396148,
      "grad_norm": 2.0052237510681152,
      "learning_rate": 2.217019989336754e-05,
      "loss": 0.60661297,
      "memory(GiB)": 72.17,
      "step": 5115,
      "train_speed(iter/s)": 19.601314
    },
    {
      "acc": 0.81169033,
      "epoch": 3.5213204951856945,
      "grad_norm": 1.8747566938400269,
      "learning_rate": 2.2075810855346627e-05,
      "loss": 0.6164432,
      "memory(GiB)": 72.17,
      "step": 5120,
      "train_speed(iter/s)": 15.593037
    },
    {
      "acc": 0.81197557,
      "epoch": 3.5247592847317746,
      "grad_norm": 1.8955270051956177,
      "learning_rate": 2.1981566309639646e-05,
      "loss": 0.63830528,
      "memory(GiB)": 72.17,
      "step": 5125,
      "train_speed(iter/s)": 13.017298
    },
    {
      "acc": 0.80265837,
      "epoch": 3.5281980742778543,
      "grad_norm": 1.9690247774124146,
      "learning_rate": 2.1887466743822955e-05,
      "loss": 0.66069555,
      "memory(GiB)": 72.17,
      "step": 5130,
      "train_speed(iter/s)": 10.901481
    },
    {
      "acc": 0.80450611,
      "epoch": 3.531636863823934,
      "grad_norm": 1.9993948936462402,
      "learning_rate": 2.1793512644722865e-05,
      "loss": 0.66204972,
      "memory(GiB)": 72.23,
      "step": 5135,
      "train_speed(iter/s)": 9.338386
    },
    {
      "acc": 0.80088081,
      "epoch": 3.5350756533700136,
      "grad_norm": 2.0130441188812256,
      "learning_rate": 2.1699704498413108e-05,
      "loss": 0.67445641,
      "memory(GiB)": 72.23,
      "step": 5140,
      "train_speed(iter/s)": 8.21847
    },
    {
      "acc": 0.80354471,
      "epoch": 3.5385144429160933,
      "grad_norm": 1.8594011068344116,
      "learning_rate": 2.1606042790212308e-05,
      "loss": 0.6569746,
      "memory(GiB)": 72.28,
      "step": 5145,
      "train_speed(iter/s)": 7.396472
    },
    {
      "acc": 0.817062,
      "epoch": 3.5419532324621734,
      "grad_norm": 1.8149155378341675,
      "learning_rate": 2.1512528004681535e-05,
      "loss": 0.63296041,
      "memory(GiB)": 72.7,
      "step": 5150,
      "train_speed(iter/s)": 6.704915
    },
    {
      "acc": 0.81256504,
      "epoch": 3.545392022008253,
      "grad_norm": 1.9153436422348022,
      "learning_rate": 2.1419160625621713e-05,
      "loss": 0.6270606,
      "memory(GiB)": 72.7,
      "step": 5155,
      "train_speed(iter/s)": 6.15874
    },
    {
      "acc": 0.80941086,
      "epoch": 3.5488308115543328,
      "grad_norm": 1.6500003337860107,
      "learning_rate": 2.1325941136071155e-05,
      "loss": 0.63835382,
      "memory(GiB)": 72.7,
      "step": 5160,
      "train_speed(iter/s)": 5.671284
    },
    {
      "acc": 0.81136417,
      "epoch": 3.552269601100413,
      "grad_norm": 1.8858124017715454,
      "learning_rate": 2.1232870018303073e-05,
      "loss": 0.63752775,
      "memory(GiB)": 72.7,
      "step": 5165,
      "train_speed(iter/s)": 5.219987
    },
    {
      "acc": 0.80491219,
      "epoch": 3.5557083906464926,
      "grad_norm": 1.6921783685684204,
      "learning_rate": 2.1139947753823062e-05,
      "loss": 0.64572196,
      "memory(GiB)": 72.7,
      "step": 5170,
      "train_speed(iter/s)": 4.872821
    },
    {
      "acc": 0.81005411,
      "epoch": 3.5591471801925723,
      "grad_norm": 2.046410322189331,
      "learning_rate": 2.104717482336666e-05,
      "loss": 0.63220901,
      "memory(GiB)": 72.7,
      "step": 5175,
      "train_speed(iter/s)": 4.560666
    },
    {
      "acc": 0.81424847,
      "epoch": 3.562585969738652,
      "grad_norm": 1.6710875034332275,
      "learning_rate": 2.095455170689679e-05,
      "loss": 0.61837616,
      "memory(GiB)": 72.7,
      "step": 5180,
      "train_speed(iter/s)": 4.309485
    },
    {
      "acc": 0.80108767,
      "epoch": 3.5660247592847316,
      "grad_norm": 1.8342450857162476,
      "learning_rate": 2.0862078883601306e-05,
      "loss": 0.65744696,
      "memory(GiB)": 72.7,
      "step": 5185,
      "train_speed(iter/s)": 4.065786
    },
    {
      "acc": 0.81536474,
      "epoch": 3.5694635488308117,
      "grad_norm": 1.8400901556015015,
      "learning_rate": 2.0769756831890517e-05,
      "loss": 0.60680361,
      "memory(GiB)": 72.7,
      "step": 5190,
      "train_speed(iter/s)": 3.855262
    },
    {
      "acc": 0.80920811,
      "epoch": 3.5729023383768914,
      "grad_norm": 2.1009435653686523,
      "learning_rate": 2.067758602939473e-05,
      "loss": 0.617168,
      "memory(GiB)": 72.7,
      "step": 5195,
      "train_speed(iter/s)": 3.680601
    },
    {
      "acc": 0.81185656,
      "epoch": 3.576341127922971,
      "grad_norm": 1.8651849031448364,
      "learning_rate": 2.058556695296173e-05,
      "loss": 0.62884312,
      "memory(GiB)": 72.7,
      "step": 5200,
      "train_speed(iter/s)": 3.496681
    },
    {
      "epoch": 3.576341127922971,
      "eval_acc": 0.7778602600440905,
      "eval_loss": 0.7939268350601196,
      "eval_runtime": 1134.0299,
      "eval_samples_per_second": 3.777,
      "eval_steps_per_second": 0.068,
      "step": 5200
    },
    {
      "acc": 0.80170975,
      "epoch": 3.5797799174690508,
      "grad_norm": 1.989461064338684,
      "learning_rate": 2.0493700078654395e-05,
      "loss": 0.65876365,
      "memory(GiB)": 72.7,
      "step": 5205,
      "train_speed(iter/s)": 1.934041
    },
    {
      "acc": 0.81692247,
      "epoch": 3.5832187070151305,
      "grad_norm": 1.9536714553833008,
      "learning_rate": 2.040198588174813e-05,
      "loss": 0.60520372,
      "memory(GiB)": 67.62,
      "step": 5210,
      "train_speed(iter/s)": 1.887787
    },
    {
      "acc": 0.81152821,
      "epoch": 3.5866574965612106,
      "grad_norm": 1.9955531358718872,
      "learning_rate": 2.0310424836728494e-05,
      "loss": 0.64239225,
      "memory(GiB)": 67.62,
      "step": 5215,
      "train_speed(iter/s)": 1.844883
    },
    {
      "acc": 0.81309061,
      "epoch": 3.5900962861072903,
      "grad_norm": 1.7581534385681152,
      "learning_rate": 2.0219017417288675e-05,
      "loss": 0.62655144,
      "memory(GiB)": 67.62,
      "step": 5220,
      "train_speed(iter/s)": 1.804023
    },
    {
      "acc": 0.79863563,
      "epoch": 3.59353507565337,
      "grad_norm": 2.349116086959839,
      "learning_rate": 2.0127764096327113e-05,
      "loss": 0.6843668,
      "memory(GiB)": 67.62,
      "step": 5225,
      "train_speed(iter/s)": 1.756569
    },
    {
      "acc": 0.82426891,
      "epoch": 3.59697386519945,
      "grad_norm": 1.8200994729995728,
      "learning_rate": 2.0036665345945005e-05,
      "loss": 0.57460217,
      "memory(GiB)": 67.62,
      "step": 5230,
      "train_speed(iter/s)": 1.719852
    },
    {
      "acc": 0.81199923,
      "epoch": 3.6004126547455297,
      "grad_norm": 1.760864019393921,
      "learning_rate": 1.9945721637443855e-05,
      "loss": 0.63763566,
      "memory(GiB)": 67.62,
      "step": 5235,
      "train_speed(iter/s)": 1.68241
    },
    {
      "acc": 0.81704388,
      "epoch": 3.6038514442916094,
      "grad_norm": 1.843873143196106,
      "learning_rate": 1.9854933441323074e-05,
      "loss": 0.61490622,
      "memory(GiB)": 67.62,
      "step": 5240,
      "train_speed(iter/s)": 1.645642
    },
    {
      "acc": 0.80201912,
      "epoch": 3.607290233837689,
      "grad_norm": 1.963784098625183,
      "learning_rate": 1.9764301227277503e-05,
      "loss": 0.64649305,
      "memory(GiB)": 67.62,
      "step": 5245,
      "train_speed(iter/s)": 1.609859
    },
    {
      "acc": 0.79966879,
      "epoch": 3.6107290233837688,
      "grad_norm": 2.0832812786102295,
      "learning_rate": 1.9673825464195065e-05,
      "loss": 0.68630571,
      "memory(GiB)": 67.62,
      "step": 5250,
      "train_speed(iter/s)": 1.577467
    },
    {
      "acc": 0.80603333,
      "epoch": 3.614167812929849,
      "grad_norm": 2.1369543075561523,
      "learning_rate": 1.9583506620154203e-05,
      "loss": 0.65753994,
      "memory(GiB)": 67.62,
      "step": 5255,
      "train_speed(iter/s)": 1.547258
    },
    {
      "acc": 0.80580025,
      "epoch": 3.6176066024759286,
      "grad_norm": 1.853987455368042,
      "learning_rate": 1.9493345162421595e-05,
      "loss": 0.65103807,
      "memory(GiB)": 67.62,
      "step": 5260,
      "train_speed(iter/s)": 1.514916
    },
    {
      "acc": 0.81311512,
      "epoch": 3.6210453920220083,
      "grad_norm": 2.1064698696136475,
      "learning_rate": 1.9403341557449614e-05,
      "loss": 0.61463804,
      "memory(GiB)": 67.62,
      "step": 5265,
      "train_speed(iter/s)": 1.48572
    },
    {
      "acc": 0.79921217,
      "epoch": 3.624484181568088,
      "grad_norm": 1.9443074464797974,
      "learning_rate": 1.9313496270874065e-05,
      "loss": 0.67477508,
      "memory(GiB)": 67.62,
      "step": 5270,
      "train_speed(iter/s)": 1.458339
    },
    {
      "acc": 0.81266232,
      "epoch": 3.6279229711141676,
      "grad_norm": 1.8594951629638672,
      "learning_rate": 1.9223809767511622e-05,
      "loss": 0.62132969,
      "memory(GiB)": 67.62,
      "step": 5275,
      "train_speed(iter/s)": 1.430819
    },
    {
      "acc": 0.81770267,
      "epoch": 3.6313617606602477,
      "grad_norm": 1.726508617401123,
      "learning_rate": 1.913428251135751e-05,
      "loss": 0.59776912,
      "memory(GiB)": 67.62,
      "step": 5280,
      "train_speed(iter/s)": 1.404985
    },
    {
      "acc": 0.81523685,
      "epoch": 3.6348005502063274,
      "grad_norm": 1.8356785774230957,
      "learning_rate": 1.904491496558308e-05,
      "loss": 0.62854185,
      "memory(GiB)": 67.62,
      "step": 5285,
      "train_speed(iter/s)": 1.381204
    },
    {
      "acc": 0.81304836,
      "epoch": 3.638239339752407,
      "grad_norm": 2.129279136657715,
      "learning_rate": 1.8955707592533422e-05,
      "loss": 0.62155433,
      "memory(GiB)": 67.62,
      "step": 5290,
      "train_speed(iter/s)": 1.359057
    },
    {
      "acc": 0.80884018,
      "epoch": 3.6416781292984868,
      "grad_norm": 1.8221231698989868,
      "learning_rate": 1.8866660853724986e-05,
      "loss": 0.63217707,
      "memory(GiB)": 67.62,
      "step": 5295,
      "train_speed(iter/s)": 1.33386
    },
    {
      "acc": 0.81211977,
      "epoch": 3.6451169188445665,
      "grad_norm": 1.8867233991622925,
      "learning_rate": 1.8777775209843136e-05,
      "loss": 0.62917542,
      "memory(GiB)": 67.62,
      "step": 5300,
      "train_speed(iter/s)": 1.313671
    },
    {
      "epoch": 3.6451169188445665,
      "eval_acc": 0.7788275520763036,
      "eval_loss": 0.791822075843811,
      "eval_runtime": 1053.4964,
      "eval_samples_per_second": 4.066,
      "eval_steps_per_second": 0.073,
      "step": 5300
    },
    {
      "acc": 0.81195221,
      "epoch": 3.6485557083906466,
      "grad_norm": 1.8668956756591797,
      "learning_rate": 1.868905112073983e-05,
      "loss": 0.63313217,
      "memory(GiB)": 67.62,
      "step": 5305,
      "train_speed(iter/s)": 1.028242
    },
    {
      "acc": 0.80295448,
      "epoch": 3.6519944979367263,
      "grad_norm": 1.8957765102386475,
      "learning_rate": 1.8600489045431255e-05,
      "loss": 0.6641448,
      "memory(GiB)": 67.62,
      "step": 5310,
      "train_speed(iter/s)": 1.011268
    },
    {
      "acc": 0.81735973,
      "epoch": 3.655433287482806,
      "grad_norm": 1.843002438545227,
      "learning_rate": 1.851208944209535e-05,
      "loss": 0.60693998,
      "memory(GiB)": 67.62,
      "step": 5315,
      "train_speed(iter/s)": 0.999134
    },
    {
      "acc": 0.80702572,
      "epoch": 3.658872077028886,
      "grad_norm": 1.8155903816223145,
      "learning_rate": 1.8423852768069548e-05,
      "loss": 0.65699286,
      "memory(GiB)": 67.62,
      "step": 5320,
      "train_speed(iter/s)": 0.984903
    },
    {
      "acc": 0.80685482,
      "epoch": 3.6623108665749657,
      "grad_norm": 2.5197625160217285,
      "learning_rate": 1.8335779479848343e-05,
      "loss": 0.64485803,
      "memory(GiB)": 67.62,
      "step": 5325,
      "train_speed(iter/s)": 0.97156
    },
    {
      "acc": 0.80205936,
      "epoch": 3.6657496561210454,
      "grad_norm": 2.0389351844787598,
      "learning_rate": 1.8247870033080946e-05,
      "loss": 0.66550064,
      "memory(GiB)": 67.62,
      "step": 5330,
      "train_speed(iter/s)": 0.958682
    },
    {
      "acc": 0.79223623,
      "epoch": 3.669188445667125,
      "grad_norm": 1.8488144874572754,
      "learning_rate": 1.8160124882568932e-05,
      "loss": 0.69218178,
      "memory(GiB)": 67.62,
      "step": 5335,
      "train_speed(iter/s)": 0.946767
    },
    {
      "acc": 0.80992165,
      "epoch": 3.6726272352132048,
      "grad_norm": 1.701180338859558,
      "learning_rate": 1.8072544482263918e-05,
      "loss": 0.63368897,
      "memory(GiB)": 67.62,
      "step": 5340,
      "train_speed(iter/s)": 0.934657
    },
    {
      "acc": 0.81273346,
      "epoch": 3.676066024759285,
      "grad_norm": 1.870936632156372,
      "learning_rate": 1.798512928526514e-05,
      "loss": 0.62342134,
      "memory(GiB)": 67.62,
      "step": 5345,
      "train_speed(iter/s)": 0.922237
    },
    {
      "acc": 0.81911898,
      "epoch": 3.6795048143053646,
      "grad_norm": 2.1875438690185547,
      "learning_rate": 1.789787974381717e-05,
      "loss": 0.60667896,
      "memory(GiB)": 67.62,
      "step": 5350,
      "train_speed(iter/s)": 0.910869
    },
    {
      "acc": 0.81839104,
      "epoch": 3.6829436038514443,
      "grad_norm": 1.9975168704986572,
      "learning_rate": 1.7810796309307553e-05,
      "loss": 0.61631479,
      "memory(GiB)": 67.62,
      "step": 5355,
      "train_speed(iter/s)": 0.898788
    },
    {
      "acc": 0.79996266,
      "epoch": 3.686382393397524,
      "grad_norm": 2.1356396675109863,
      "learning_rate": 1.7723879432264454e-05,
      "loss": 0.65718513,
      "memory(GiB)": 67.62,
      "step": 5360,
      "train_speed(iter/s)": 0.888306
    },
    {
      "acc": 0.81604223,
      "epoch": 3.6898211829436036,
      "grad_norm": 1.8731410503387451,
      "learning_rate": 1.763712956235441e-05,
      "loss": 0.62172794,
      "memory(GiB)": 67.62,
      "step": 5365,
      "train_speed(iter/s)": 0.877305
    },
    {
      "acc": 0.80391541,
      "epoch": 3.6932599724896837,
      "grad_norm": 2.0950632095336914,
      "learning_rate": 1.7550547148379887e-05,
      "loss": 0.66051216,
      "memory(GiB)": 67.62,
      "step": 5370,
      "train_speed(iter/s)": 0.867559
    },
    {
      "acc": 0.81647606,
      "epoch": 3.6966987620357634,
      "grad_norm": 1.7469427585601807,
      "learning_rate": 1.7464132638277024e-05,
      "loss": 0.61341143,
      "memory(GiB)": 67.62,
      "step": 5375,
      "train_speed(iter/s)": 0.85733
    },
    {
      "acc": 0.81001339,
      "epoch": 3.700137551581843,
      "grad_norm": 1.9832128286361694,
      "learning_rate": 1.737788647911332e-05,
      "loss": 0.63573427,
      "memory(GiB)": 67.62,
      "step": 5380,
      "train_speed(iter/s)": 0.846179
    },
    {
      "acc": 0.81297035,
      "epoch": 3.703576341127923,
      "grad_norm": 1.993898868560791,
      "learning_rate": 1.72918091170853e-05,
      "loss": 0.64141645,
      "memory(GiB)": 67.62,
      "step": 5385,
      "train_speed(iter/s)": 0.837314
    },
    {
      "acc": 0.81126728,
      "epoch": 3.707015130674003,
      "grad_norm": 1.8106107711791992,
      "learning_rate": 1.72059009975162e-05,
      "loss": 0.63114452,
      "memory(GiB)": 67.62,
      "step": 5390,
      "train_speed(iter/s)": 0.827419
    },
    {
      "acc": 0.80908537,
      "epoch": 3.7104539202200826,
      "grad_norm": 2.117880344390869,
      "learning_rate": 1.71201625648537e-05,
      "loss": 0.64524364,
      "memory(GiB)": 67.62,
      "step": 5395,
      "train_speed(iter/s)": 0.818052
    },
    {
      "acc": 0.80611687,
      "epoch": 3.7138927097661623,
      "grad_norm": 1.86283278465271,
      "learning_rate": 1.7034594262667588e-05,
      "loss": 0.65121384,
      "memory(GiB)": 67.62,
      "step": 5400,
      "train_speed(iter/s)": 0.809997
    },
    {
      "epoch": 3.7138927097661623,
      "eval_acc": 0.7794068025374544,
      "eval_loss": 0.7907042503356934,
      "eval_runtime": 1176.8109,
      "eval_samples_per_second": 3.639,
      "eval_steps_per_second": 0.065,
      "step": 5400
    },
    {
      "acc": 0.80929089,
      "epoch": 3.717331499312242,
      "grad_norm": 2.175724983215332,
      "learning_rate": 1.6949196533647456e-05,
      "loss": 0.63896065,
      "memory(GiB)": 67.62,
      "step": 5405,
      "train_speed(iter/s)": 0.682919
    },
    {
      "acc": 0.80504618,
      "epoch": 3.720770288858322,
      "grad_norm": 1.7912895679473877,
      "learning_rate": 1.6863969819600486e-05,
      "loss": 0.6515821,
      "memory(GiB)": 67.62,
      "step": 5410,
      "train_speed(iter/s)": 0.677418
    },
    {
      "acc": 0.82038784,
      "epoch": 3.7242090784044017,
      "grad_norm": 1.9168109893798828,
      "learning_rate": 1.6778914561449068e-05,
      "loss": 0.60445056,
      "memory(GiB)": 67.62,
      "step": 5415,
      "train_speed(iter/s)": 0.672424
    },
    {
      "acc": 0.80365715,
      "epoch": 3.7276478679504814,
      "grad_norm": 2.0032663345336914,
      "learning_rate": 1.669403119922857e-05,
      "loss": 0.65206861,
      "memory(GiB)": 67.62,
      "step": 5420,
      "train_speed(iter/s)": 0.666879
    },
    {
      "acc": 0.81271191,
      "epoch": 3.731086657496561,
      "grad_norm": 1.7971467971801758,
      "learning_rate": 1.660932017208504e-05,
      "loss": 0.63001757,
      "memory(GiB)": 67.62,
      "step": 5425,
      "train_speed(iter/s)": 0.661349
    },
    {
      "acc": 0.80627918,
      "epoch": 3.7345254470426408,
      "grad_norm": 2.1404869556427,
      "learning_rate": 1.6524781918272988e-05,
      "loss": 0.65701981,
      "memory(GiB)": 67.62,
      "step": 5430,
      "train_speed(iter/s)": 0.656674
    },
    {
      "acc": 0.81756916,
      "epoch": 3.737964236588721,
      "grad_norm": 1.9488438367843628,
      "learning_rate": 1.6440416875153035e-05,
      "loss": 0.62909493,
      "memory(GiB)": 67.62,
      "step": 5435,
      "train_speed(iter/s)": 0.651758
    },
    {
      "acc": 0.81080599,
      "epoch": 3.7414030261348006,
      "grad_norm": 1.9031460285186768,
      "learning_rate": 1.6356225479189706e-05,
      "loss": 0.64159656,
      "memory(GiB)": 67.62,
      "step": 5440,
      "train_speed(iter/s)": 0.647121
    },
    {
      "acc": 0.80497589,
      "epoch": 3.7448418156808803,
      "grad_norm": 1.9063955545425415,
      "learning_rate": 1.6272208165949165e-05,
      "loss": 0.66333132,
      "memory(GiB)": 67.62,
      "step": 5445,
      "train_speed(iter/s)": 0.641945
    },
    {
      "acc": 0.81537628,
      "epoch": 3.7482806052269604,
      "grad_norm": 1.9544923305511475,
      "learning_rate": 1.6188365370096938e-05,
      "loss": 0.60649881,
      "memory(GiB)": 67.62,
      "step": 5450,
      "train_speed(iter/s)": 0.637092
    },
    {
      "acc": 0.81485357,
      "epoch": 3.7517193947730396,
      "grad_norm": 1.7963929176330566,
      "learning_rate": 1.61046975253957e-05,
      "loss": 0.62127781,
      "memory(GiB)": 67.62,
      "step": 5455,
      "train_speed(iter/s)": 0.632455
    },
    {
      "acc": 0.80606298,
      "epoch": 3.7551581843191197,
      "grad_norm": 1.91194748878479,
      "learning_rate": 1.6021205064703e-05,
      "loss": 0.6456295,
      "memory(GiB)": 67.62,
      "step": 5460,
      "train_speed(iter/s)": 0.627638
    },
    {
      "acc": 0.80508499,
      "epoch": 3.7585969738651994,
      "grad_norm": 1.6945174932479858,
      "learning_rate": 1.593788841996904e-05,
      "loss": 0.64310069,
      "memory(GiB)": 67.62,
      "step": 5465,
      "train_speed(iter/s)": 0.622963
    },
    {
      "acc": 0.82610073,
      "epoch": 3.762035763411279,
      "grad_norm": 1.6806504726409912,
      "learning_rate": 1.5854748022234422e-05,
      "loss": 0.57846365,
      "memory(GiB)": 67.62,
      "step": 5470,
      "train_speed(iter/s)": 0.619076
    },
    {
      "acc": 0.80571289,
      "epoch": 3.7654745529573592,
      "grad_norm": 1.9896758794784546,
      "learning_rate": 1.5771784301627968e-05,
      "loss": 0.64995089,
      "memory(GiB)": 67.62,
      "step": 5475,
      "train_speed(iter/s)": 0.614402
    },
    {
      "acc": 0.81692181,
      "epoch": 3.768913342503439,
      "grad_norm": 1.7746247053146362,
      "learning_rate": 1.5688997687364408e-05,
      "loss": 0.61731248,
      "memory(GiB)": 67.62,
      "step": 5480,
      "train_speed(iter/s)": 0.610536
    },
    {
      "acc": 0.79758596,
      "epoch": 3.7723521320495186,
      "grad_norm": 1.9613304138183594,
      "learning_rate": 1.560638860774223e-05,
      "loss": 0.66896119,
      "memory(GiB)": 67.62,
      "step": 5485,
      "train_speed(iter/s)": 0.605861
    },
    {
      "acc": 0.80816298,
      "epoch": 3.7757909215955983,
      "grad_norm": 1.7979682683944702,
      "learning_rate": 1.552395749014145e-05,
      "loss": 0.64903908,
      "memory(GiB)": 67.62,
      "step": 5490,
      "train_speed(iter/s)": 0.601267
    },
    {
      "acc": 0.81845226,
      "epoch": 3.779229711141678,
      "grad_norm": 1.610510230064392,
      "learning_rate": 1.5441704761021365e-05,
      "loss": 0.61122522,
      "memory(GiB)": 67.62,
      "step": 5495,
      "train_speed(iter/s)": 0.59685
    },
    {
      "acc": 0.80607834,
      "epoch": 3.782668500687758,
      "grad_norm": 1.8088189363479614,
      "learning_rate": 1.535963084591842e-05,
      "loss": 0.6456028,
      "memory(GiB)": 67.62,
      "step": 5500,
      "train_speed(iter/s)": 0.59234
    },
    {
      "epoch": 3.782668500687758,
      "eval_acc": 0.7795867638457732,
      "eval_loss": 0.7851858735084534,
      "eval_runtime": 1107.2216,
      "eval_samples_per_second": 3.868,
      "eval_steps_per_second": 0.07,
      "step": 5500
    },
    {
      "acc": 0.80722027,
      "epoch": 3.7861072902338377,
      "grad_norm": 1.7930651903152466,
      "learning_rate": 1.527773616944393e-05,
      "loss": 0.65197091,
      "memory(GiB)": 67.62,
      "step": 5505,
      "train_speed(iter/s)": 0.525895
    },
    {
      "acc": 0.80907288,
      "epoch": 3.7895460797799174,
      "grad_norm": 1.873205542564392,
      "learning_rate": 1.519602115528191e-05,
      "loss": 0.63936815,
      "memory(GiB)": 67.62,
      "step": 5510,
      "train_speed(iter/s)": 0.522195
    },
    {
      "acc": 0.81462736,
      "epoch": 3.792984869325997,
      "grad_norm": 2.1219732761383057,
      "learning_rate": 1.5114486226186914e-05,
      "loss": 0.63517313,
      "memory(GiB)": 67.62,
      "step": 5515,
      "train_speed(iter/s)": 0.518863
    },
    {
      "acc": 0.81379719,
      "epoch": 3.796423658872077,
      "grad_norm": 1.8798179626464844,
      "learning_rate": 1.5033131803981795e-05,
      "loss": 0.6165091,
      "memory(GiB)": 67.62,
      "step": 5520,
      "train_speed(iter/s)": 0.516156
    },
    {
      "acc": 0.80504332,
      "epoch": 3.799862448418157,
      "grad_norm": 2.1897356510162354,
      "learning_rate": 1.495195830955555e-05,
      "loss": 0.65493903,
      "memory(GiB)": 67.62,
      "step": 5525,
      "train_speed(iter/s)": 0.512721
    },
    {
      "acc": 0.79971151,
      "epoch": 3.8033012379642366,
      "grad_norm": 2.3374557495117188,
      "learning_rate": 1.4870966162861185e-05,
      "loss": 0.66825953,
      "memory(GiB)": 67.62,
      "step": 5530,
      "train_speed(iter/s)": 0.509778
    },
    {
      "acc": 0.81023417,
      "epoch": 3.8067400275103163,
      "grad_norm": 2.0296730995178223,
      "learning_rate": 1.4790155782913446e-05,
      "loss": 0.6293088,
      "memory(GiB)": 67.62,
      "step": 5535,
      "train_speed(iter/s)": 0.506899
    },
    {
      "acc": 0.81744757,
      "epoch": 3.8101788170563964,
      "grad_norm": 2.1950666904449463,
      "learning_rate": 1.4709527587786729e-05,
      "loss": 0.60644913,
      "memory(GiB)": 67.62,
      "step": 5540,
      "train_speed(iter/s)": 0.504436
    },
    {
      "acc": 0.80740032,
      "epoch": 3.813617606602476,
      "grad_norm": 1.870073676109314,
      "learning_rate": 1.4629081994612883e-05,
      "loss": 0.65674248,
      "memory(GiB)": 67.62,
      "step": 5545,
      "train_speed(iter/s)": 0.501407
    },
    {
      "acc": 0.82541618,
      "epoch": 3.8170563961485557,
      "grad_norm": 1.814864993095398,
      "learning_rate": 1.4548819419579082e-05,
      "loss": 0.59056787,
      "memory(GiB)": 67.62,
      "step": 5550,
      "train_speed(iter/s)": 0.49869
    },
    {
      "acc": 0.79932752,
      "epoch": 3.8204951856946354,
      "grad_norm": 2.118622303009033,
      "learning_rate": 1.4468740277925627e-05,
      "loss": 0.67586517,
      "memory(GiB)": 67.62,
      "step": 5555,
      "train_speed(iter/s)": 0.496257
    },
    {
      "acc": 0.80807095,
      "epoch": 3.823933975240715,
      "grad_norm": 2.1060431003570557,
      "learning_rate": 1.4388844983943837e-05,
      "loss": 0.64639549,
      "memory(GiB)": 67.62,
      "step": 5560,
      "train_speed(iter/s)": 0.493446
    },
    {
      "acc": 0.80921745,
      "epoch": 3.8273727647867952,
      "grad_norm": 1.9443578720092773,
      "learning_rate": 1.430913395097388e-05,
      "loss": 0.63667898,
      "memory(GiB)": 67.62,
      "step": 5565,
      "train_speed(iter/s)": 0.490752
    },
    {
      "acc": 0.82145481,
      "epoch": 3.830811554332875,
      "grad_norm": 2.1125001907348633,
      "learning_rate": 1.4229607591402635e-05,
      "loss": 0.58884673,
      "memory(GiB)": 67.62,
      "step": 5570,
      "train_speed(iter/s)": 0.487797
    },
    {
      "acc": 0.82449379,
      "epoch": 3.8342503438789546,
      "grad_norm": 1.7490825653076172,
      "learning_rate": 1.4150266316661623e-05,
      "loss": 0.60519004,
      "memory(GiB)": 67.62,
      "step": 5575,
      "train_speed(iter/s)": 0.485346
    },
    {
      "acc": 0.81672592,
      "epoch": 3.8376891334250343,
      "grad_norm": 1.6957894563674927,
      "learning_rate": 1.407111053722477e-05,
      "loss": 0.61075163,
      "memory(GiB)": 67.62,
      "step": 5580,
      "train_speed(iter/s)": 0.482577
    },
    {
      "acc": 0.79658046,
      "epoch": 3.841127922971114,
      "grad_norm": 2.5719101428985596,
      "learning_rate": 1.3992140662606357e-05,
      "loss": 0.67197566,
      "memory(GiB)": 67.62,
      "step": 5585,
      "train_speed(iter/s)": 0.480134
    },
    {
      "acc": 0.82320576,
      "epoch": 3.844566712517194,
      "grad_norm": 2.0491995811462402,
      "learning_rate": 1.3913357101358865e-05,
      "loss": 0.59475327,
      "memory(GiB)": 67.62,
      "step": 5590,
      "train_speed(iter/s)": 0.477933
    },
    {
      "acc": 0.81174135,
      "epoch": 3.8480055020632737,
      "grad_norm": 1.8027801513671875,
      "learning_rate": 1.3834760261070908e-05,
      "loss": 0.63737803,
      "memory(GiB)": 67.62,
      "step": 5595,
      "train_speed(iter/s)": 0.475151
    },
    {
      "acc": 0.81277132,
      "epoch": 3.8514442916093534,
      "grad_norm": 2.0076797008514404,
      "learning_rate": 1.3756350548365069e-05,
      "loss": 0.64119816,
      "memory(GiB)": 67.62,
      "step": 5600,
      "train_speed(iter/s)": 0.472763
    },
    {
      "epoch": 3.8514442916093534,
      "eval_acc": 0.7802222522157736,
      "eval_loss": 0.7851279377937317,
      "eval_runtime": 1153.3756,
      "eval_samples_per_second": 3.713,
      "eval_steps_per_second": 0.067,
      "step": 5600
    },
    {
      "acc": 0.79907894,
      "epoch": 3.8548830811554335,
      "grad_norm": 2.066263437271118,
      "learning_rate": 1.3678128368895824e-05,
      "loss": 0.66954241,
      "memory(GiB)": 67.62,
      "step": 5605,
      "train_speed(iter/s)": 0.428917
    },
    {
      "acc": 0.81123543,
      "epoch": 3.8583218707015132,
      "grad_norm": 1.8212432861328125,
      "learning_rate": 1.3600094127347462e-05,
      "loss": 0.64494739,
      "memory(GiB)": 67.62,
      "step": 5610,
      "train_speed(iter/s)": 0.427046
    },
    {
      "acc": 0.8146841,
      "epoch": 3.861760660247593,
      "grad_norm": 1.99728524684906,
      "learning_rate": 1.3522248227431972e-05,
      "loss": 0.61559277,
      "memory(GiB)": 67.62,
      "step": 5615,
      "train_speed(iter/s)": 0.42489
    },
    {
      "acc": 0.8208971,
      "epoch": 3.8651994497936726,
      "grad_norm": 2.206382989883423,
      "learning_rate": 1.3444591071886931e-05,
      "loss": 0.61427069,
      "memory(GiB)": 67.62,
      "step": 5620,
      "train_speed(iter/s)": 0.423148
    },
    {
      "acc": 0.81454735,
      "epoch": 3.8686382393397523,
      "grad_norm": 1.812099575996399,
      "learning_rate": 1.3367123062473446e-05,
      "loss": 0.62899446,
      "memory(GiB)": 67.62,
      "step": 5625,
      "train_speed(iter/s)": 0.421338
    },
    {
      "acc": 0.81133175,
      "epoch": 3.8720770288858324,
      "grad_norm": 1.8373388051986694,
      "learning_rate": 1.328984459997408e-05,
      "loss": 0.63102517,
      "memory(GiB)": 67.62,
      "step": 5630,
      "train_speed(iter/s)": 0.419334
    },
    {
      "acc": 0.80838804,
      "epoch": 3.875515818431912,
      "grad_norm": 1.7026041746139526,
      "learning_rate": 1.3212756084190767e-05,
      "loss": 0.63373623,
      "memory(GiB)": 67.62,
      "step": 5635,
      "train_speed(iter/s)": 0.417529
    },
    {
      "acc": 0.81233072,
      "epoch": 3.8789546079779917,
      "grad_norm": 1.80439293384552,
      "learning_rate": 1.313585791394274e-05,
      "loss": 0.63350501,
      "memory(GiB)": 67.62,
      "step": 5640,
      "train_speed(iter/s)": 0.415882
    },
    {
      "acc": 0.80420494,
      "epoch": 3.8823933975240714,
      "grad_norm": 1.835792064666748,
      "learning_rate": 1.3059150487064497e-05,
      "loss": 0.64182324,
      "memory(GiB)": 67.62,
      "step": 5645,
      "train_speed(iter/s)": 0.413931
    },
    {
      "acc": 0.82478485,
      "epoch": 3.885832187070151,
      "grad_norm": 2.1019296646118164,
      "learning_rate": 1.2982634200403704e-05,
      "loss": 0.57977004,
      "memory(GiB)": 67.62,
      "step": 5650,
      "train_speed(iter/s)": 0.41225
    },
    {
      "acc": 0.82099762,
      "epoch": 3.8892709766162312,
      "grad_norm": 1.7367315292358398,
      "learning_rate": 1.2906309449819154e-05,
      "loss": 0.60107656,
      "memory(GiB)": 67.62,
      "step": 5655,
      "train_speed(iter/s)": 0.410363
    },
    {
      "acc": 0.81159325,
      "epoch": 3.892709766162311,
      "grad_norm": 2.0694830417633057,
      "learning_rate": 1.2830176630178729e-05,
      "loss": 0.61608582,
      "memory(GiB)": 67.62,
      "step": 5660,
      "train_speed(iter/s)": 0.408617
    },
    {
      "acc": 0.81860466,
      "epoch": 3.8961485557083906,
      "grad_norm": 1.9818027019500732,
      "learning_rate": 1.2754236135357367e-05,
      "loss": 0.60277052,
      "memory(GiB)": 67.62,
      "step": 5665,
      "train_speed(iter/s)": 0.40679
    },
    {
      "acc": 0.8118084,
      "epoch": 3.8995873452544703,
      "grad_norm": 1.893306016921997,
      "learning_rate": 1.2678488358234992e-05,
      "loss": 0.64575768,
      "memory(GiB)": 67.62,
      "step": 5670,
      "train_speed(iter/s)": 0.405098
    },
    {
      "acc": 0.80856295,
      "epoch": 3.90302613480055,
      "grad_norm": 1.9855684041976929,
      "learning_rate": 1.2602933690694502e-05,
      "loss": 0.65475564,
      "memory(GiB)": 67.62,
      "step": 5675,
      "train_speed(iter/s)": 0.403391
    },
    {
      "acc": 0.82089319,
      "epoch": 3.90646492434663,
      "grad_norm": 1.8527436256408691,
      "learning_rate": 1.2527572523619729e-05,
      "loss": 0.59858413,
      "memory(GiB)": 67.62,
      "step": 5680,
      "train_speed(iter/s)": 0.401656
    },
    {
      "acc": 0.81135502,
      "epoch": 3.9099037138927097,
      "grad_norm": 1.8112705945968628,
      "learning_rate": 1.245240524689345e-05,
      "loss": 0.640869,
      "memory(GiB)": 67.62,
      "step": 5685,
      "train_speed(iter/s)": 0.399915
    },
    {
      "acc": 0.81638031,
      "epoch": 3.9133425034387894,
      "grad_norm": 1.88164222240448,
      "learning_rate": 1.2377432249395323e-05,
      "loss": 0.62925024,
      "memory(GiB)": 67.62,
      "step": 5690,
      "train_speed(iter/s)": 0.398338
    },
    {
      "acc": 0.81665897,
      "epoch": 3.9167812929848695,
      "grad_norm": 2.2220370769500732,
      "learning_rate": 1.2302653918999902e-05,
      "loss": 0.61042566,
      "memory(GiB)": 67.62,
      "step": 5695,
      "train_speed(iter/s)": 0.396628
    },
    {
      "acc": 0.81146564,
      "epoch": 3.9202200825309492,
      "grad_norm": 2.2208054065704346,
      "learning_rate": 1.2228070642574637e-05,
      "loss": 0.62549958,
      "memory(GiB)": 67.62,
      "step": 5700,
      "train_speed(iter/s)": 0.394844
    },
    {
      "epoch": 3.9202200825309492,
      "eval_acc": 0.7811276825482522,
      "eval_loss": 0.783173680305481,
      "eval_runtime": 1145.264,
      "eval_samples_per_second": 3.74,
      "eval_steps_per_second": 0.067,
      "step": 5700
    },
    {
      "acc": 0.82111177,
      "epoch": 3.923658872077029,
      "grad_norm": 2.1147096157073975,
      "learning_rate": 1.2153682805977849e-05,
      "loss": 0.61029615,
      "memory(GiB)": 67.62,
      "step": 5705,
      "train_speed(iter/s)": 0.364527
    },
    {
      "acc": 0.81873646,
      "epoch": 3.9270976616231086,
      "grad_norm": 1.870378851890564,
      "learning_rate": 1.2079490794056745e-05,
      "loss": 0.60247025,
      "memory(GiB)": 67.62,
      "step": 5710,
      "train_speed(iter/s)": 0.363318
    },
    {
      "acc": 0.8050211,
      "epoch": 3.9305364511691883,
      "grad_norm": 2.061549663543701,
      "learning_rate": 1.2005494990645446e-05,
      "loss": 0.64639635,
      "memory(GiB)": 67.62,
      "step": 5715,
      "train_speed(iter/s)": 0.361877
    },
    {
      "acc": 0.80292168,
      "epoch": 3.9339752407152684,
      "grad_norm": 2.088428020477295,
      "learning_rate": 1.1931695778562984e-05,
      "loss": 0.66072493,
      "memory(GiB)": 67.62,
      "step": 5720,
      "train_speed(iter/s)": 0.360551
    },
    {
      "acc": 0.81333771,
      "epoch": 3.937414030261348,
      "grad_norm": 2.195223093032837,
      "learning_rate": 1.1858093539611302e-05,
      "loss": 0.62468419,
      "memory(GiB)": 67.62,
      "step": 5725,
      "train_speed(iter/s)": 0.359367
    },
    {
      "acc": 0.80784473,
      "epoch": 3.9408528198074277,
      "grad_norm": 2.1771881580352783,
      "learning_rate": 1.1784688654573306e-05,
      "loss": 0.6561008,
      "memory(GiB)": 67.62,
      "step": 5730,
      "train_speed(iter/s)": 0.35807
    },
    {
      "acc": 0.81136761,
      "epoch": 3.9442916093535074,
      "grad_norm": 1.9094853401184082,
      "learning_rate": 1.1711481503210884e-05,
      "loss": 0.63656788,
      "memory(GiB)": 67.62,
      "step": 5735,
      "train_speed(iter/s)": 0.356785
    },
    {
      "acc": 0.81901407,
      "epoch": 3.947730398899587,
      "grad_norm": 1.9423341751098633,
      "learning_rate": 1.1638472464262948e-05,
      "loss": 0.61632404,
      "memory(GiB)": 67.62,
      "step": 5740,
      "train_speed(iter/s)": 0.355531
    },
    {
      "acc": 0.81649647,
      "epoch": 3.9511691884456672,
      "grad_norm": 1.8900690078735352,
      "learning_rate": 1.1565661915443475e-05,
      "loss": 0.61735368,
      "memory(GiB)": 67.62,
      "step": 5745,
      "train_speed(iter/s)": 0.354181
    },
    {
      "acc": 0.80203295,
      "epoch": 3.954607977991747,
      "grad_norm": 1.9980183839797974,
      "learning_rate": 1.1493050233439526e-05,
      "loss": 0.66276655,
      "memory(GiB)": 67.62,
      "step": 5750,
      "train_speed(iter/s)": 0.352959
    },
    {
      "acc": 0.81161861,
      "epoch": 3.9580467675378266,
      "grad_norm": 1.8814200162887573,
      "learning_rate": 1.1420637793909362e-05,
      "loss": 0.64876308,
      "memory(GiB)": 67.62,
      "step": 5755,
      "train_speed(iter/s)": 0.351641
    },
    {
      "acc": 0.80822277,
      "epoch": 3.9614855570839067,
      "grad_norm": 2.157858371734619,
      "learning_rate": 1.1348424971480429e-05,
      "loss": 0.64273562,
      "memory(GiB)": 67.62,
      "step": 5760,
      "train_speed(iter/s)": 0.350261
    },
    {
      "acc": 0.81014862,
      "epoch": 3.9649243466299864,
      "grad_norm": 1.8866498470306396,
      "learning_rate": 1.1276412139747452e-05,
      "loss": 0.63060379,
      "memory(GiB)": 67.62,
      "step": 5765,
      "train_speed(iter/s)": 0.34897
    },
    {
      "acc": 0.80797882,
      "epoch": 3.968363136176066,
      "grad_norm": 2.011620283126831,
      "learning_rate": 1.1204599671270494e-05,
      "loss": 0.64154892,
      "memory(GiB)": 67.62,
      "step": 5770,
      "train_speed(iter/s)": 0.347683
    },
    {
      "acc": 0.81029825,
      "epoch": 3.9718019257221457,
      "grad_norm": 2.1030616760253906,
      "learning_rate": 1.1132987937573052e-05,
      "loss": 0.62338347,
      "memory(GiB)": 67.62,
      "step": 5775,
      "train_speed(iter/s)": 0.346438
    },
    {
      "acc": 0.7949429,
      "epoch": 3.9752407152682254,
      "grad_norm": 2.054006338119507,
      "learning_rate": 1.1061577309140098e-05,
      "loss": 0.70458865,
      "memory(GiB)": 67.62,
      "step": 5780,
      "train_speed(iter/s)": 0.345233
    },
    {
      "acc": 0.8113884,
      "epoch": 3.9786795048143055,
      "grad_norm": 2.072899103164673,
      "learning_rate": 1.0990368155416202e-05,
      "loss": 0.63724394,
      "memory(GiB)": 67.62,
      "step": 5785,
      "train_speed(iter/s)": 0.344106
    },
    {
      "acc": 0.81157551,
      "epoch": 3.9821182943603852,
      "grad_norm": 1.9557698965072632,
      "learning_rate": 1.091936084480358e-05,
      "loss": 0.62347059,
      "memory(GiB)": 67.62,
      "step": 5790,
      "train_speed(iter/s)": 0.342935
    },
    {
      "acc": 0.81167564,
      "epoch": 3.985557083906465,
      "grad_norm": 1.9136029481887817,
      "learning_rate": 1.0848555744660215e-05,
      "loss": 0.61960039,
      "memory(GiB)": 67.62,
      "step": 5795,
      "train_speed(iter/s)": 0.341839
    },
    {
      "acc": 0.83220634,
      "epoch": 3.9889958734525446,
      "grad_norm": 1.9021817445755005,
      "learning_rate": 1.0777953221297932e-05,
      "loss": 0.56068201,
      "memory(GiB)": 67.62,
      "step": 5800,
      "train_speed(iter/s)": 0.340892
    },
    {
      "epoch": 3.9889958734525446,
      "eval_acc": 0.7817744185000225,
      "eval_loss": 0.7804912328720093,
      "eval_runtime": 1111.4903,
      "eval_samples_per_second": 3.853,
      "eval_steps_per_second": 0.069,
      "step": 5800
    },
    {
      "acc": 0.80734158,
      "epoch": 3.9924346629986243,
      "grad_norm": 2.02614688873291,
      "learning_rate": 1.0707553639980585e-05,
      "loss": 0.64991465,
      "memory(GiB)": 67.62,
      "step": 5805,
      "train_speed(iter/s)": 0.319008
    },
    {
      "acc": 0.82151909,
      "epoch": 3.9958734525447044,
      "grad_norm": 2.07773494720459,
      "learning_rate": 1.0637357364922026e-05,
      "loss": 0.58141608,
      "memory(GiB)": 67.62,
      "step": 5810,
      "train_speed(iter/s)": 0.318131
    },
    {
      "acc": 0.81823015,
      "epoch": 3.999312242090784,
      "grad_norm": 1.7081282138824463,
      "learning_rate": 1.0567364759284327e-05,
      "loss": 0.61670866,
      "memory(GiB)": 67.62,
      "step": 5815,
      "train_speed(iter/s)": 0.317189
    },
    {
      "acc": 0.82516012,
      "epoch": 4.002751031636864,
      "grad_norm": 1.9197478294372559,
      "learning_rate": 1.0497576185175877e-05,
      "loss": 0.57296357,
      "memory(GiB)": 67.62,
      "step": 5820,
      "train_speed(iter/s)": 0.315614
    },
    {
      "acc": 0.82848129,
      "epoch": 4.006189821182944,
      "grad_norm": 1.7602168321609497,
      "learning_rate": 1.042799200364949e-05,
      "loss": 0.57674851,
      "memory(GiB)": 67.62,
      "step": 5825,
      "train_speed(iter/s)": 0.314514
    },
    {
      "acc": 0.8312006,
      "epoch": 4.009628610729023,
      "grad_norm": 1.904069423675537,
      "learning_rate": 1.0358612574700576e-05,
      "loss": 0.58140912,
      "memory(GiB)": 67.62,
      "step": 5830,
      "train_speed(iter/s)": 0.313493
    },
    {
      "acc": 0.83973274,
      "epoch": 4.013067400275103,
      "grad_norm": 1.8969364166259766,
      "learning_rate": 1.0289438257265218e-05,
      "loss": 0.5239769,
      "memory(GiB)": 67.62,
      "step": 5835,
      "train_speed(iter/s)": 0.3126
    },
    {
      "acc": 0.82053461,
      "epoch": 4.016506189821183,
      "grad_norm": 2.004246950149536,
      "learning_rate": 1.0220469409218385e-05,
      "loss": 0.58951969,
      "memory(GiB)": 67.62,
      "step": 5840,
      "train_speed(iter/s)": 0.311738
    },
    {
      "acc": 0.82730808,
      "epoch": 4.019944979367263,
      "grad_norm": 2.120168685913086,
      "learning_rate": 1.0151706387371993e-05,
      "loss": 0.57174788,
      "memory(GiB)": 67.62,
      "step": 5845,
      "train_speed(iter/s)": 0.310754
    },
    {
      "acc": 0.81913013,
      "epoch": 4.023383768913343,
      "grad_norm": 2.083112955093384,
      "learning_rate": 1.008314954747319e-05,
      "loss": 0.60139389,
      "memory(GiB)": 67.62,
      "step": 5850,
      "train_speed(iter/s)": 0.309795
    },
    {
      "acc": 0.82976856,
      "epoch": 4.026822558459422,
      "grad_norm": 1.9144500494003296,
      "learning_rate": 1.0014799244202362e-05,
      "loss": 0.56441569,
      "memory(GiB)": 67.62,
      "step": 5855,
      "train_speed(iter/s)": 0.308991
    },
    {
      "acc": 0.82570667,
      "epoch": 4.030261348005502,
      "grad_norm": 1.9201669692993164,
      "learning_rate": 9.94665583117142e-06,
      "loss": 0.58550615,
      "memory(GiB)": 67.62,
      "step": 5860,
      "train_speed(iter/s)": 0.308024
    },
    {
      "acc": 0.82395906,
      "epoch": 4.033700137551582,
      "grad_norm": 2.058741807937622,
      "learning_rate": 9.878719660921893e-06,
      "loss": 0.59208636,
      "memory(GiB)": 67.62,
      "step": 5865,
      "train_speed(iter/s)": 0.30702
    },
    {
      "acc": 0.82681818,
      "epoch": 4.037138927097661,
      "grad_norm": 2.0860073566436768,
      "learning_rate": 9.810991084923154e-06,
      "loss": 0.57163272,
      "memory(GiB)": 67.62,
      "step": 5870,
      "train_speed(iter/s)": 0.306194
    },
    {
      "acc": 0.81524105,
      "epoch": 4.0405777166437415,
      "grad_norm": 1.9567036628723145,
      "learning_rate": 9.743470453570575e-06,
      "loss": 0.62305789,
      "memory(GiB)": 67.62,
      "step": 5875,
      "train_speed(iter/s)": 0.305279
    },
    {
      "acc": 0.81588497,
      "epoch": 4.044016506189821,
      "grad_norm": 2.048231601715088,
      "learning_rate": 9.676158116183729e-06,
      "loss": 0.60361052,
      "memory(GiB)": 67.62,
      "step": 5880,
      "train_speed(iter/s)": 0.304326
    },
    {
      "acc": 0.82715149,
      "epoch": 4.047455295735901,
      "grad_norm": 1.918243408203125,
      "learning_rate": 9.609054421004562e-06,
      "loss": 0.56623569,
      "memory(GiB)": 67.62,
      "step": 5885,
      "train_speed(iter/s)": 0.303437
    },
    {
      "acc": 0.82016706,
      "epoch": 4.050894085281981,
      "grad_norm": 2.212838888168335,
      "learning_rate": 9.542159715195614e-06,
      "loss": 0.60472922,
      "memory(GiB)": 67.62,
      "step": 5890,
      "train_speed(iter/s)": 0.302387
    },
    {
      "acc": 0.82020359,
      "epoch": 4.05433287482806,
      "grad_norm": 2.029686450958252,
      "learning_rate": 9.475474344838204e-06,
      "loss": 0.59589596,
      "memory(GiB)": 67.62,
      "step": 5895,
      "train_speed(iter/s)": 0.301428
    },
    {
      "acc": 0.82250319,
      "epoch": 4.05777166437414,
      "grad_norm": 2.0857136249542236,
      "learning_rate": 9.408998654930675e-06,
      "loss": 0.59207001,
      "memory(GiB)": 67.62,
      "step": 5900,
      "train_speed(iter/s)": 0.300628
    },
    {
      "epoch": 4.05777166437414,
      "eval_acc": 0.7809758401943582,
      "eval_loss": 0.7950036525726318,
      "eval_runtime": 1140.5258,
      "eval_samples_per_second": 3.755,
      "eval_steps_per_second": 0.068,
      "step": 5900
    },
    {
      "acc": 0.83261538,
      "epoch": 4.0612104539202205,
      "grad_norm": 2.129284143447876,
      "learning_rate": 9.342732989386557e-06,
      "loss": 0.54631634,
      "memory(GiB)": 67.62,
      "step": 5905,
      "train_speed(iter/s)": 0.283416
    },
    {
      "acc": 0.82259159,
      "epoch": 4.0646492434663,
      "grad_norm": 2.0771372318267822,
      "learning_rate": 9.27667769103282e-06,
      "loss": 0.59988642,
      "memory(GiB)": 67.62,
      "step": 5910,
      "train_speed(iter/s)": 0.282658
    },
    {
      "acc": 0.82938833,
      "epoch": 4.06808803301238,
      "grad_norm": 2.0288455486297607,
      "learning_rate": 9.210833101608094e-06,
      "loss": 0.56707897,
      "memory(GiB)": 67.62,
      "step": 5915,
      "train_speed(iter/s)": 0.281964
    },
    {
      "acc": 0.81752338,
      "epoch": 4.071526822558459,
      "grad_norm": 2.1337034702301025,
      "learning_rate": 9.145199561760913e-06,
      "loss": 0.58798003,
      "memory(GiB)": 67.62,
      "step": 5920,
      "train_speed(iter/s)": 0.281194
    },
    {
      "acc": 0.83025227,
      "epoch": 4.074965612104539,
      "grad_norm": 1.9078054428100586,
      "learning_rate": 9.079777411047923e-06,
      "loss": 0.55221009,
      "memory(GiB)": 67.62,
      "step": 5925,
      "train_speed(iter/s)": 0.280374
    },
    {
      "acc": 0.82038937,
      "epoch": 4.078404401650619,
      "grad_norm": 2.1154861450195312,
      "learning_rate": 9.014566987932155e-06,
      "loss": 0.58884945,
      "memory(GiB)": 67.62,
      "step": 5930,
      "train_speed(iter/s)": 0.279665
    },
    {
      "acc": 0.83256464,
      "epoch": 4.081843191196699,
      "grad_norm": 2.46669602394104,
      "learning_rate": 8.949568629781233e-06,
      "loss": 0.55993681,
      "memory(GiB)": 67.62,
      "step": 5935,
      "train_speed(iter/s)": 0.279022
    },
    {
      "acc": 0.82162399,
      "epoch": 4.085281980742779,
      "grad_norm": 2.2108795642852783,
      "learning_rate": 8.884782672865745e-06,
      "loss": 0.58439035,
      "memory(GiB)": 67.62,
      "step": 5940,
      "train_speed(iter/s)": 0.278353
    },
    {
      "acc": 0.81261024,
      "epoch": 4.088720770288858,
      "grad_norm": 2.3239004611968994,
      "learning_rate": 8.820209452357312e-06,
      "loss": 0.62102919,
      "memory(GiB)": 67.62,
      "step": 5945,
      "train_speed(iter/s)": 0.277507
    },
    {
      "acc": 0.82187653,
      "epoch": 4.092159559834938,
      "grad_norm": 2.306704521179199,
      "learning_rate": 8.755849302327025e-06,
      "loss": 0.58051348,
      "memory(GiB)": 67.62,
      "step": 5950,
      "train_speed(iter/s)": 0.276835
    },
    {
      "acc": 0.83303099,
      "epoch": 4.095598349381018,
      "grad_norm": 2.3323071002960205,
      "learning_rate": 8.691702555743604e-06,
      "loss": 0.54123106,
      "memory(GiB)": 67.62,
      "step": 5955,
      "train_speed(iter/s)": 0.27621
    },
    {
      "acc": 0.82155704,
      "epoch": 4.099037138927097,
      "grad_norm": 2.2443792819976807,
      "learning_rate": 8.627769544471766e-06,
      "loss": 0.57790089,
      "memory(GiB)": 67.62,
      "step": 5960,
      "train_speed(iter/s)": 0.275577
    },
    {
      "acc": 0.81777382,
      "epoch": 4.1024759284731775,
      "grad_norm": 2.0098752975463867,
      "learning_rate": 8.564050599270423e-06,
      "loss": 0.60635762,
      "memory(GiB)": 67.62,
      "step": 5965,
      "train_speed(iter/s)": 0.27489
    },
    {
      "acc": 0.82945662,
      "epoch": 4.105914718019257,
      "grad_norm": 2.6297407150268555,
      "learning_rate": 8.50054604979104e-06,
      "loss": 0.55736432,
      "memory(GiB)": 67.62,
      "step": 5970,
      "train_speed(iter/s)": 0.274231
    },
    {
      "acc": 0.83819923,
      "epoch": 4.109353507565337,
      "grad_norm": 2.027495861053467,
      "learning_rate": 8.43725622457589e-06,
      "loss": 0.53537874,
      "memory(GiB)": 67.62,
      "step": 5975,
      "train_speed(iter/s)": 0.273579
    },
    {
      "acc": 0.83728676,
      "epoch": 4.112792297111417,
      "grad_norm": 1.9991952180862427,
      "learning_rate": 8.37418145105636e-06,
      "loss": 0.52903852,
      "memory(GiB)": 67.62,
      "step": 5980,
      "train_speed(iter/s)": 0.272886
    },
    {
      "acc": 0.83919382,
      "epoch": 4.116231086657496,
      "grad_norm": 1.941271424293518,
      "learning_rate": 8.311322055551258e-06,
      "loss": 0.54152002,
      "memory(GiB)": 67.62,
      "step": 5985,
      "train_speed(iter/s)": 0.272292
    },
    {
      "acc": 0.82639074,
      "epoch": 4.119669876203576,
      "grad_norm": 2.0080490112304688,
      "learning_rate": 8.248678363265168e-06,
      "loss": 0.58616934,
      "memory(GiB)": 67.62,
      "step": 5990,
      "train_speed(iter/s)": 0.271655
    },
    {
      "acc": 0.82685022,
      "epoch": 4.1231086657496565,
      "grad_norm": 2.1029014587402344,
      "learning_rate": 8.186250698286685e-06,
      "loss": 0.57365303,
      "memory(GiB)": 67.62,
      "step": 5995,
      "train_speed(iter/s)": 0.271018
    },
    {
      "acc": 0.83401289,
      "epoch": 4.126547455295736,
      "grad_norm": 2.381568431854248,
      "learning_rate": 8.124039383586785e-06,
      "loss": 0.54990234,
      "memory(GiB)": 67.62,
      "step": 6000,
      "train_speed(iter/s)": 0.27041
    },
    {
      "epoch": 4.126547455295736,
      "eval_acc": 0.7808971071219688,
      "eval_loss": 0.7977337837219238,
      "eval_runtime": 1150.4843,
      "eval_samples_per_second": 3.723,
      "eval_steps_per_second": 0.067,
      "step": 6000
    },
    {
      "acc": 0.82955971,
      "epoch": 4.129986244841816,
      "grad_norm": 2.2076478004455566,
      "learning_rate": 8.062044741017174e-06,
      "loss": 0.56549349,
      "memory(GiB)": 67.62,
      "step": 6005,
      "train_speed(iter/s)": 0.256539
    },
    {
      "acc": 0.82928619,
      "epoch": 4.133425034387895,
      "grad_norm": 2.240816116333008,
      "learning_rate": 8.00026709130858e-06,
      "loss": 0.56595135,
      "memory(GiB)": 67.62,
      "step": 6010,
      "train_speed(iter/s)": 0.256006
    },
    {
      "acc": 0.81660957,
      "epoch": 4.136863823933975,
      "grad_norm": 2.1177453994750977,
      "learning_rate": 7.938706754069125e-06,
      "loss": 0.60902424,
      "memory(GiB)": 67.62,
      "step": 6015,
      "train_speed(iter/s)": 0.255365
    },
    {
      "acc": 0.81723537,
      "epoch": 4.140302613480055,
      "grad_norm": 2.291558265686035,
      "learning_rate": 7.877364047782646e-06,
      "loss": 0.59432869,
      "memory(GiB)": 67.62,
      "step": 6020,
      "train_speed(iter/s)": 0.254797
    },
    {
      "acc": 0.83183041,
      "epoch": 4.143741403026135,
      "grad_norm": 2.1598074436187744,
      "learning_rate": 7.816239289807078e-06,
      "loss": 0.56827602,
      "memory(GiB)": 67.62,
      "step": 6025,
      "train_speed(iter/s)": 0.254252
    },
    {
      "acc": 0.82450991,
      "epoch": 4.147180192572215,
      "grad_norm": 2.316070556640625,
      "learning_rate": 7.755332796372783e-06,
      "loss": 0.5860589,
      "memory(GiB)": 67.62,
      "step": 6030,
      "train_speed(iter/s)": 0.253753
    },
    {
      "acc": 0.83219881,
      "epoch": 4.150618982118294,
      "grad_norm": 2.0400826930999756,
      "learning_rate": 7.694644882580929e-06,
      "loss": 0.56074944,
      "memory(GiB)": 67.62,
      "step": 6035,
      "train_speed(iter/s)": 0.253206
    },
    {
      "acc": 0.82405052,
      "epoch": 4.154057771664374,
      "grad_norm": 2.167229652404785,
      "learning_rate": 7.634175862401859e-06,
      "loss": 0.5924716,
      "memory(GiB)": 67.62,
      "step": 6040,
      "train_speed(iter/s)": 0.252704
    },
    {
      "acc": 0.83036137,
      "epoch": 4.157496561210454,
      "grad_norm": 2.0544652938842773,
      "learning_rate": 7.5739260486734785e-06,
      "loss": 0.56387725,
      "memory(GiB)": 67.62,
      "step": 6045,
      "train_speed(iter/s)": 0.252135
    },
    {
      "acc": 0.82638521,
      "epoch": 4.160935350756533,
      "grad_norm": 2.0944511890411377,
      "learning_rate": 7.5138957530996e-06,
      "loss": 0.58068042,
      "memory(GiB)": 67.62,
      "step": 6050,
      "train_speed(iter/s)": 0.251533
    },
    {
      "acc": 0.82557564,
      "epoch": 4.1643741403026135,
      "grad_norm": 2.206922769546509,
      "learning_rate": 7.454085286248365e-06,
      "loss": 0.57935457,
      "memory(GiB)": 67.62,
      "step": 6055,
      "train_speed(iter/s)": 0.250929
    },
    {
      "acc": 0.82684364,
      "epoch": 4.167812929848694,
      "grad_norm": 2.0836057662963867,
      "learning_rate": 7.394494957550617e-06,
      "loss": 0.57276134,
      "memory(GiB)": 67.62,
      "step": 6060,
      "train_speed(iter/s)": 0.250399
    },
    {
      "acc": 0.82708397,
      "epoch": 4.171251719394773,
      "grad_norm": 2.394265651702881,
      "learning_rate": 7.335125075298327e-06,
      "loss": 0.56799402,
      "memory(GiB)": 67.62,
      "step": 6065,
      "train_speed(iter/s)": 0.249822
    },
    {
      "acc": 0.82027712,
      "epoch": 4.174690508940853,
      "grad_norm": 2.20003080368042,
      "learning_rate": 7.2759759466429625e-06,
      "loss": 0.59135399,
      "memory(GiB)": 67.62,
      "step": 6070,
      "train_speed(iter/s)": 0.249261
    },
    {
      "acc": 0.83627338,
      "epoch": 4.178129298486932,
      "grad_norm": 2.0617763996124268,
      "learning_rate": 7.217047877593917e-06,
      "loss": 0.542978,
      "memory(GiB)": 67.62,
      "step": 6075,
      "train_speed(iter/s)": 0.248741
    },
    {
      "acc": 0.83200588,
      "epoch": 4.181568088033012,
      "grad_norm": 2.2494707107543945,
      "learning_rate": 7.158341173016954e-06,
      "loss": 0.54484763,
      "memory(GiB)": 67.62,
      "step": 6080,
      "train_speed(iter/s)": 0.248292
    },
    {
      "acc": 0.83537827,
      "epoch": 4.1850068775790925,
      "grad_norm": 2.177746295928955,
      "learning_rate": 7.099856136632578e-06,
      "loss": 0.54962234,
      "memory(GiB)": 67.62,
      "step": 6085,
      "train_speed(iter/s)": 0.247751
    },
    {
      "acc": 0.83314114,
      "epoch": 4.188445667125172,
      "grad_norm": 1.8806217908859253,
      "learning_rate": 7.041593071014495e-06,
      "loss": 0.55333209,
      "memory(GiB)": 67.62,
      "step": 6090,
      "train_speed(iter/s)": 0.247191
    },
    {
      "acc": 0.83060188,
      "epoch": 4.191884456671252,
      "grad_norm": 2.284046173095703,
      "learning_rate": 6.983552277588039e-06,
      "loss": 0.55391922,
      "memory(GiB)": 67.62,
      "step": 6095,
      "train_speed(iter/s)": 0.246671
    },
    {
      "acc": 0.82202473,
      "epoch": 4.195323246217331,
      "grad_norm": 2.113684892654419,
      "learning_rate": 6.925734056628606e-06,
      "loss": 0.59055824,
      "memory(GiB)": 67.62,
      "step": 6100,
      "train_speed(iter/s)": 0.246148
    },
    {
      "epoch": 4.195323246217331,
      "eval_acc": 0.7810377018940927,
      "eval_loss": 0.7978992462158203,
      "eval_runtime": 1151.0505,
      "eval_samples_per_second": 3.721,
      "eval_steps_per_second": 0.067,
      "step": 6100
    },
    {
      "acc": 0.82853069,
      "epoch": 4.198762035763411,
      "grad_norm": 1.9292495250701904,
      "learning_rate": 6.8681387072601215e-06,
      "loss": 0.56650033,
      "memory(GiB)": 67.62,
      "step": 6105,
      "train_speed(iter/s)": 0.234762
    },
    {
      "acc": 0.83146677,
      "epoch": 4.202200825309491,
      "grad_norm": 2.457911729812622,
      "learning_rate": 6.8107665274534755e-06,
      "loss": 0.56592517,
      "memory(GiB)": 67.62,
      "step": 6110,
      "train_speed(iter/s)": 0.234306
    },
    {
      "acc": 0.81799488,
      "epoch": 4.205639614855571,
      "grad_norm": 2.1064655780792236,
      "learning_rate": 6.753617814024982e-06,
      "loss": 0.59414425,
      "memory(GiB)": 67.62,
      "step": 6115,
      "train_speed(iter/s)": 0.233775
    },
    {
      "acc": 0.83699923,
      "epoch": 4.209078404401651,
      "grad_norm": 2.15045166015625,
      "learning_rate": 6.696692862634848e-06,
      "loss": 0.53455338,
      "memory(GiB)": 67.62,
      "step": 6120,
      "train_speed(iter/s)": 0.233246
    },
    {
      "acc": 0.82855034,
      "epoch": 4.212517193947731,
      "grad_norm": 1.9256818294525146,
      "learning_rate": 6.639991967785629e-06,
      "loss": 0.57589531,
      "memory(GiB)": 67.62,
      "step": 6125,
      "train_speed(iter/s)": 0.232841
    },
    {
      "acc": 0.82569561,
      "epoch": 4.21595598349381,
      "grad_norm": 2.2568438053131104,
      "learning_rate": 6.583515422820755e-06,
      "loss": 0.59608107,
      "memory(GiB)": 67.62,
      "step": 6130,
      "train_speed(iter/s)": 0.232428
    },
    {
      "acc": 0.83448133,
      "epoch": 4.21939477303989,
      "grad_norm": 2.2241194248199463,
      "learning_rate": 6.527263519922942e-06,
      "loss": 0.53996773,
      "memory(GiB)": 67.62,
      "step": 6135,
      "train_speed(iter/s)": 0.232016
    },
    {
      "acc": 0.82402668,
      "epoch": 4.222833562585969,
      "grad_norm": 2.152508020401001,
      "learning_rate": 6.471236550112733e-06,
      "loss": 0.5897275,
      "memory(GiB)": 67.62,
      "step": 6140,
      "train_speed(iter/s)": 0.231577
    },
    {
      "acc": 0.82092781,
      "epoch": 4.2262723521320495,
      "grad_norm": 2.7539846897125244,
      "learning_rate": 6.415434803246959e-06,
      "loss": 0.60109167,
      "memory(GiB)": 67.62,
      "step": 6145,
      "train_speed(iter/s)": 0.231131
    },
    {
      "acc": 0.82336702,
      "epoch": 4.22971114167813,
      "grad_norm": 2.2428319454193115,
      "learning_rate": 6.359858568017257e-06,
      "loss": 0.5810329,
      "memory(GiB)": 67.62,
      "step": 6150,
      "train_speed(iter/s)": 0.230762
    },
    {
      "acc": 0.8375886,
      "epoch": 4.233149931224209,
      "grad_norm": 2.108989715576172,
      "learning_rate": 6.304508131948601e-06,
      "loss": 0.54037862,
      "memory(GiB)": 67.62,
      "step": 6155,
      "train_speed(iter/s)": 0.230346
    },
    {
      "acc": 0.82534332,
      "epoch": 4.236588720770289,
      "grad_norm": 2.159034252166748,
      "learning_rate": 6.249383781397765e-06,
      "loss": 0.58905783,
      "memory(GiB)": 67.62,
      "step": 6160,
      "train_speed(iter/s)": 0.229862
    },
    {
      "acc": 0.82394867,
      "epoch": 4.240027510316368,
      "grad_norm": 2.191835880279541,
      "learning_rate": 6.194485801551856e-06,
      "loss": 0.57035618,
      "memory(GiB)": 67.62,
      "step": 6165,
      "train_speed(iter/s)": 0.229394
    },
    {
      "acc": 0.83958015,
      "epoch": 4.243466299862448,
      "grad_norm": 1.9931029081344604,
      "learning_rate": 6.139814476426854e-06,
      "loss": 0.53320942,
      "memory(GiB)": 67.62,
      "step": 6170,
      "train_speed(iter/s)": 0.22895
    },
    {
      "acc": 0.81791973,
      "epoch": 4.2469050894085285,
      "grad_norm": 2.611358404159546,
      "learning_rate": 6.085370088866157e-06,
      "loss": 0.61060858,
      "memory(GiB)": 67.62,
      "step": 6175,
      "train_speed(iter/s)": 0.22846
    },
    {
      "acc": 0.81913891,
      "epoch": 4.250343878954608,
      "grad_norm": 2.0629124641418457,
      "learning_rate": 6.031152920539071e-06,
      "loss": 0.59518094,
      "memory(GiB)": 67.62,
      "step": 6180,
      "train_speed(iter/s)": 0.228031
    },
    {
      "acc": 0.83380852,
      "epoch": 4.253782668500688,
      "grad_norm": 2.2911267280578613,
      "learning_rate": 5.977163251939388e-06,
      "loss": 0.55708628,
      "memory(GiB)": 67.62,
      "step": 6185,
      "train_speed(iter/s)": 0.227608
    },
    {
      "acc": 0.83007746,
      "epoch": 4.257221458046768,
      "grad_norm": 2.3003599643707275,
      "learning_rate": 5.9234013623839155e-06,
      "loss": 0.56224914,
      "memory(GiB)": 67.62,
      "step": 6190,
      "train_speed(iter/s)": 0.227229
    },
    {
      "acc": 0.82731237,
      "epoch": 4.260660247592847,
      "grad_norm": 2.23395037651062,
      "learning_rate": 5.869867530011054e-06,
      "loss": 0.57990241,
      "memory(GiB)": 67.62,
      "step": 6195,
      "train_speed(iter/s)": 0.226782
    },
    {
      "acc": 0.82513866,
      "epoch": 4.264099037138927,
      "grad_norm": 1.8877415657043457,
      "learning_rate": 5.816562031779334e-06,
      "loss": 0.58530903,
      "memory(GiB)": 67.62,
      "step": 6200,
      "train_speed(iter/s)": 0.226378
    },
    {
      "epoch": 4.264099037138927,
      "eval_acc": 0.7814088720925001,
      "eval_loss": 0.796574592590332,
      "eval_runtime": 1138.6928,
      "eval_samples_per_second": 3.761,
      "eval_steps_per_second": 0.068,
      "step": 6200
    },
    {
      "acc": 0.83331938,
      "epoch": 4.267537826685007,
      "grad_norm": 2.007477283477783,
      "learning_rate": 5.7634851434660045e-06,
      "loss": 0.55948911,
      "memory(GiB)": 67.62,
      "step": 6205,
      "train_speed(iter/s)": 0.21694
    },
    {
      "acc": 0.83156748,
      "epoch": 4.270976616231087,
      "grad_norm": 2.2435107231140137,
      "learning_rate": 5.7106371396655885e-06,
      "loss": 0.55306296,
      "memory(GiB)": 67.62,
      "step": 6210,
      "train_speed(iter/s)": 0.21658
    },
    {
      "acc": 0.82246685,
      "epoch": 4.274415405777167,
      "grad_norm": 2.471839427947998,
      "learning_rate": 5.658018293788461e-06,
      "loss": 0.58456354,
      "memory(GiB)": 67.62,
      "step": 6215,
      "train_speed(iter/s)": 0.216188
    },
    {
      "acc": 0.8260498,
      "epoch": 4.277854195323246,
      "grad_norm": 2.342773675918579,
      "learning_rate": 5.6056288780594584e-06,
      "loss": 0.58758726,
      "memory(GiB)": 67.62,
      "step": 6220,
      "train_speed(iter/s)": 0.215836
    },
    {
      "acc": 0.83068848,
      "epoch": 4.281292984869326,
      "grad_norm": 2.36448073387146,
      "learning_rate": 5.553469163516459e-06,
      "loss": 0.55812101,
      "memory(GiB)": 67.62,
      "step": 6225,
      "train_speed(iter/s)": 0.21546
    },
    {
      "acc": 0.8118145,
      "epoch": 4.284731774415405,
      "grad_norm": 2.0966968536376953,
      "learning_rate": 5.501539420008957e-06,
      "loss": 0.62151508,
      "memory(GiB)": 67.62,
      "step": 6230,
      "train_speed(iter/s)": 0.215114
    },
    {
      "acc": 0.82315483,
      "epoch": 4.2881705639614855,
      "grad_norm": 2.090514898300171,
      "learning_rate": 5.449839916196701e-06,
      "loss": 0.59569468,
      "memory(GiB)": 67.62,
      "step": 6235,
      "train_speed(iter/s)": 0.214737
    },
    {
      "acc": 0.82968979,
      "epoch": 4.291609353507566,
      "grad_norm": 2.4561944007873535,
      "learning_rate": 5.398370919548289e-06,
      "loss": 0.56410408,
      "memory(GiB)": 67.62,
      "step": 6240,
      "train_speed(iter/s)": 0.214364
    },
    {
      "acc": 0.82265596,
      "epoch": 4.295048143053645,
      "grad_norm": 2.0787575244903564,
      "learning_rate": 5.3471326963397644e-06,
      "loss": 0.59666047,
      "memory(GiB)": 67.62,
      "step": 6245,
      "train_speed(iter/s)": 0.213976
    },
    {
      "acc": 0.83164139,
      "epoch": 4.298486932599725,
      "grad_norm": 1.96835458278656,
      "learning_rate": 5.296125511653292e-06,
      "loss": 0.56099758,
      "memory(GiB)": 67.62,
      "step": 6250,
      "train_speed(iter/s)": 0.213621
    },
    {
      "acc": 0.82760611,
      "epoch": 4.301925722145804,
      "grad_norm": 2.032607078552246,
      "learning_rate": 5.245349629375726e-06,
      "loss": 0.56520452,
      "memory(GiB)": 67.62,
      "step": 6255,
      "train_speed(iter/s)": 0.213246
    },
    {
      "acc": 0.81889114,
      "epoch": 4.305364511691884,
      "grad_norm": 2.076733112335205,
      "learning_rate": 5.194805312197261e-06,
      "loss": 0.60234947,
      "memory(GiB)": 67.62,
      "step": 6260,
      "train_speed(iter/s)": 0.212879
    },
    {
      "acc": 0.83639603,
      "epoch": 4.3088033012379645,
      "grad_norm": 2.0413177013397217,
      "learning_rate": 5.144492821610151e-06,
      "loss": 0.53537364,
      "memory(GiB)": 67.62,
      "step": 6265,
      "train_speed(iter/s)": 0.212585
    },
    {
      "acc": 0.84348145,
      "epoch": 4.312242090784044,
      "grad_norm": 2.1440134048461914,
      "learning_rate": 5.094412417907226e-06,
      "loss": 0.52636375,
      "memory(GiB)": 67.62,
      "step": 6270,
      "train_speed(iter/s)": 0.21228
    },
    {
      "acc": 0.81755209,
      "epoch": 4.315680880330124,
      "grad_norm": 2.337132692337036,
      "learning_rate": 5.0445643601806165e-06,
      "loss": 0.60215778,
      "memory(GiB)": 67.62,
      "step": 6275,
      "train_speed(iter/s)": 0.211939
    },
    {
      "acc": 0.81957273,
      "epoch": 4.319119669876203,
      "grad_norm": 2.3544983863830566,
      "learning_rate": 4.994948906320421e-06,
      "loss": 0.62419033,
      "memory(GiB)": 67.62,
      "step": 6280,
      "train_speed(iter/s)": 0.211611
    },
    {
      "acc": 0.83044434,
      "epoch": 4.322558459422283,
      "grad_norm": 2.0763583183288574,
      "learning_rate": 4.945566313013359e-06,
      "loss": 0.56670027,
      "memory(GiB)": 67.62,
      "step": 6285,
      "train_speed(iter/s)": 0.211304
    },
    {
      "acc": 0.83016624,
      "epoch": 4.325997248968363,
      "grad_norm": 2.207101583480835,
      "learning_rate": 4.896416835741426e-06,
      "loss": 0.57944641,
      "memory(GiB)": 67.62,
      "step": 6290,
      "train_speed(iter/s)": 0.210967
    },
    {
      "acc": 0.82729073,
      "epoch": 4.329436038514443,
      "grad_norm": 2.1743686199188232,
      "learning_rate": 4.847500728780591e-06,
      "loss": 0.57582512,
      "memory(GiB)": 67.62,
      "step": 6295,
      "train_speed(iter/s)": 0.210593
    },
    {
      "acc": 0.83406305,
      "epoch": 4.332874828060523,
      "grad_norm": 2.1914258003234863,
      "learning_rate": 4.798818245199488e-06,
      "loss": 0.56798325,
      "memory(GiB)": 67.62,
      "step": 6300,
      "train_speed(iter/s)": 0.210291
    },
    {
      "epoch": 4.332874828060523,
      "eval_acc": 0.7814426148378099,
      "eval_loss": 0.7952266335487366,
      "eval_runtime": 1113.0563,
      "eval_samples_per_second": 3.848,
      "eval_steps_per_second": 0.069,
      "step": 6300
    },
    {
      "acc": 0.81289082,
      "epoch": 4.336313617606603,
      "grad_norm": 1.9904134273529053,
      "learning_rate": 4.7503696368580756e-06,
      "loss": 0.62703791,
      "memory(GiB)": 67.62,
      "step": 6305,
      "train_speed(iter/s)": 0.202425
    },
    {
      "acc": 0.82088013,
      "epoch": 4.339752407152682,
      "grad_norm": 2.3138110637664795,
      "learning_rate": 4.702155154406356e-06,
      "loss": 0.59575286,
      "memory(GiB)": 67.62,
      "step": 6310,
      "train_speed(iter/s)": 0.202102
    },
    {
      "acc": 0.82686548,
      "epoch": 4.343191196698762,
      "grad_norm": 2.3361921310424805,
      "learning_rate": 4.654175047283105e-06,
      "loss": 0.58184552,
      "memory(GiB)": 67.62,
      "step": 6315,
      "train_speed(iter/s)": 0.201819
    },
    {
      "acc": 0.81809053,
      "epoch": 4.346629986244841,
      "grad_norm": 2.237659215927124,
      "learning_rate": 4.606429563714522e-06,
      "loss": 0.61091933,
      "memory(GiB)": 67.62,
      "step": 6320,
      "train_speed(iter/s)": 0.201524
    },
    {
      "acc": 0.83638992,
      "epoch": 4.3500687757909215,
      "grad_norm": 2.163444995880127,
      "learning_rate": 4.558918950712983e-06,
      "loss": 0.53875408,
      "memory(GiB)": 67.62,
      "step": 6325,
      "train_speed(iter/s)": 0.201286
    },
    {
      "acc": 0.83066168,
      "epoch": 4.353507565337002,
      "grad_norm": 2.1895644664764404,
      "learning_rate": 4.511643454075753e-06,
      "loss": 0.54859762,
      "memory(GiB)": 67.62,
      "step": 6330,
      "train_speed(iter/s)": 0.201
    },
    {
      "acc": 0.82753067,
      "epoch": 4.356946354883081,
      "grad_norm": 2.3949623107910156,
      "learning_rate": 4.464603318383724e-06,
      "loss": 0.57942715,
      "memory(GiB)": 67.62,
      "step": 6335,
      "train_speed(iter/s)": 0.20074
    },
    {
      "acc": 0.8256155,
      "epoch": 4.360385144429161,
      "grad_norm": 2.2843456268310547,
      "learning_rate": 4.417798787000139e-06,
      "loss": 0.5838841,
      "memory(GiB)": 67.62,
      "step": 6340,
      "train_speed(iter/s)": 0.200436
    },
    {
      "acc": 0.82477741,
      "epoch": 4.36382393397524,
      "grad_norm": 2.1748905181884766,
      "learning_rate": 4.371230102069333e-06,
      "loss": 0.57569537,
      "memory(GiB)": 67.62,
      "step": 6345,
      "train_speed(iter/s)": 0.200165
    },
    {
      "acc": 0.82552452,
      "epoch": 4.36726272352132,
      "grad_norm": 2.2806589603424072,
      "learning_rate": 4.324897504515494e-06,
      "loss": 0.5679925,
      "memory(GiB)": 67.62,
      "step": 6350,
      "train_speed(iter/s)": 0.199857
    },
    {
      "acc": 0.82228546,
      "epoch": 4.3707015130674005,
      "grad_norm": 2.5865187644958496,
      "learning_rate": 4.278801234041395e-06,
      "loss": 0.60699501,
      "memory(GiB)": 67.62,
      "step": 6355,
      "train_speed(iter/s)": 0.199561
    },
    {
      "acc": 0.83120518,
      "epoch": 4.37414030261348,
      "grad_norm": 2.1603238582611084,
      "learning_rate": 4.2329415291271675e-06,
      "loss": 0.56461072,
      "memory(GiB)": 67.62,
      "step": 6360,
      "train_speed(iter/s)": 0.199251
    },
    {
      "acc": 0.82535934,
      "epoch": 4.37757909215956,
      "grad_norm": 2.120961904525757,
      "learning_rate": 4.18731862702908e-06,
      "loss": 0.57014971,
      "memory(GiB)": 67.62,
      "step": 6365,
      "train_speed(iter/s)": 0.199009
    },
    {
      "acc": 0.82253723,
      "epoch": 4.38101788170564,
      "grad_norm": 2.091716766357422,
      "learning_rate": 4.141932763778269e-06,
      "loss": 0.58944392,
      "memory(GiB)": 67.62,
      "step": 6370,
      "train_speed(iter/s)": 0.198744
    },
    {
      "acc": 0.82127199,
      "epoch": 4.384456671251719,
      "grad_norm": 2.529238700866699,
      "learning_rate": 4.09678417417958e-06,
      "loss": 0.60495977,
      "memory(GiB)": 67.62,
      "step": 6375,
      "train_speed(iter/s)": 0.19843
    },
    {
      "acc": 0.82691174,
      "epoch": 4.387895460797799,
      "grad_norm": 2.0297234058380127,
      "learning_rate": 4.051873091810289e-06,
      "loss": 0.57716408,
      "memory(GiB)": 67.62,
      "step": 6380,
      "train_speed(iter/s)": 0.198164
    },
    {
      "acc": 0.82726593,
      "epoch": 4.391334250343879,
      "grad_norm": 2.1247737407684326,
      "learning_rate": 4.007199749018933e-06,
      "loss": 0.56230278,
      "memory(GiB)": 67.62,
      "step": 6385,
      "train_speed(iter/s)": 0.197892
    },
    {
      "acc": 0.83000584,
      "epoch": 4.394773039889959,
      "grad_norm": 2.1872763633728027,
      "learning_rate": 3.962764376924093e-06,
      "loss": 0.57364516,
      "memory(GiB)": 67.62,
      "step": 6390,
      "train_speed(iter/s)": 0.197621
    },
    {
      "acc": 0.80675488,
      "epoch": 4.398211829436039,
      "grad_norm": 2.4632184505462646,
      "learning_rate": 3.918567205413209e-06,
      "loss": 0.63493814,
      "memory(GiB)": 67.62,
      "step": 6395,
      "train_speed(iter/s)": 0.197376
    },
    {
      "acc": 0.83054581,
      "epoch": 4.401650618982118,
      "grad_norm": 2.1453042030334473,
      "learning_rate": 3.8746084631413774e-06,
      "loss": 0.55714712,
      "memory(GiB)": 67.62,
      "step": 6400,
      "train_speed(iter/s)": 0.197063
    },
    {
      "epoch": 4.401650618982118,
      "eval_acc": 0.7813807531380753,
      "eval_loss": 0.7940236926078796,
      "eval_runtime": 1132.2427,
      "eval_samples_per_second": 3.783,
      "eval_steps_per_second": 0.068,
      "step": 6400
    },
    {
      "acc": 0.82402639,
      "epoch": 4.405089408528198,
      "grad_norm": 2.5457465648651123,
      "learning_rate": 3.830888377530191e-06,
      "loss": 0.58401513,
      "memory(GiB)": 67.62,
      "step": 6405,
      "train_speed(iter/s)": 0.190185
    },
    {
      "acc": 0.8252965,
      "epoch": 4.408528198074277,
      "grad_norm": 2.4412484169006348,
      "learning_rate": 3.787407174766534e-06,
      "loss": 0.57594061,
      "memory(GiB)": 67.62,
      "step": 6410,
      "train_speed(iter/s)": 0.189944
    },
    {
      "acc": 0.82564621,
      "epoch": 4.4119669876203575,
      "grad_norm": 2.4891350269317627,
      "learning_rate": 3.7441650798014204e-06,
      "loss": 0.58461208,
      "memory(GiB)": 67.62,
      "step": 6415,
      "train_speed(iter/s)": 0.189741
    },
    {
      "acc": 0.82523041,
      "epoch": 4.415405777166438,
      "grad_norm": 2.297450065612793,
      "learning_rate": 3.7011623163488466e-06,
      "loss": 0.56609049,
      "memory(GiB)": 67.62,
      "step": 6420,
      "train_speed(iter/s)": 0.18951
    },
    {
      "acc": 0.82219734,
      "epoch": 4.418844566712517,
      "grad_norm": 2.200800657272339,
      "learning_rate": 3.6583991068846157e-06,
      "loss": 0.59716201,
      "memory(GiB)": 67.62,
      "step": 6425,
      "train_speed(iter/s)": 0.189276
    },
    {
      "acc": 0.83268661,
      "epoch": 4.422283356258597,
      "grad_norm": 2.185145378112793,
      "learning_rate": 3.61587567264519e-06,
      "loss": 0.56204829,
      "memory(GiB)": 67.62,
      "step": 6430,
      "train_speed(iter/s)": 0.188997
    },
    {
      "acc": 0.82503653,
      "epoch": 4.425722145804677,
      "grad_norm": 2.043168067932129,
      "learning_rate": 3.5735922336265567e-06,
      "loss": 0.5881556,
      "memory(GiB)": 67.62,
      "step": 6435,
      "train_speed(iter/s)": 0.188753
    },
    {
      "acc": 0.81975737,
      "epoch": 4.429160935350756,
      "grad_norm": 2.160871982574463,
      "learning_rate": 3.5315490085830724e-06,
      "loss": 0.6149045,
      "memory(GiB)": 67.62,
      "step": 6440,
      "train_speed(iter/s)": 0.188516
    },
    {
      "acc": 0.82297249,
      "epoch": 4.4325997248968365,
      "grad_norm": 2.2979509830474854,
      "learning_rate": 3.489746215026349e-06,
      "loss": 0.58171053,
      "memory(GiB)": 67.62,
      "step": 6445,
      "train_speed(iter/s)": 0.188237
    },
    {
      "acc": 0.81737309,
      "epoch": 4.436038514442916,
      "grad_norm": 2.3226141929626465,
      "learning_rate": 3.4481840692241092e-06,
      "loss": 0.61316481,
      "memory(GiB)": 67.62,
      "step": 6450,
      "train_speed(iter/s)": 0.18799
    },
    {
      "acc": 0.82329559,
      "epoch": 4.439477303988996,
      "grad_norm": 2.2420105934143066,
      "learning_rate": 3.4068627861991034e-06,
      "loss": 0.60935397,
      "memory(GiB)": 67.62,
      "step": 6455,
      "train_speed(iter/s)": 0.187782
    },
    {
      "acc": 0.82957897,
      "epoch": 4.442916093535076,
      "grad_norm": 2.281442403793335,
      "learning_rate": 3.365782579727948e-06,
      "loss": 0.58194571,
      "memory(GiB)": 67.62,
      "step": 6460,
      "train_speed(iter/s)": 0.187574
    },
    {
      "acc": 0.82551146,
      "epoch": 4.446354883081155,
      "grad_norm": 2.1205482482910156,
      "learning_rate": 3.3249436623400493e-06,
      "loss": 0.57835684,
      "memory(GiB)": 67.62,
      "step": 6465,
      "train_speed(iter/s)": 0.187326
    },
    {
      "acc": 0.82712269,
      "epoch": 4.449793672627235,
      "grad_norm": 2.2721188068389893,
      "learning_rate": 3.284346245316513e-06,
      "loss": 0.57927489,
      "memory(GiB)": 67.62,
      "step": 6470,
      "train_speed(iter/s)": 0.187079
    },
    {
      "acc": 0.82159977,
      "epoch": 4.453232462173315,
      "grad_norm": 2.2417726516723633,
      "learning_rate": 3.24399053868902e-06,
      "loss": 0.57816648,
      "memory(GiB)": 67.62,
      "step": 6475,
      "train_speed(iter/s)": 0.186865
    },
    {
      "acc": 0.83896151,
      "epoch": 4.456671251719395,
      "grad_norm": 2.33647084236145,
      "learning_rate": 3.203876751238749e-06,
      "loss": 0.53038335,
      "memory(GiB)": 67.62,
      "step": 6480,
      "train_speed(iter/s)": 0.186653
    },
    {
      "acc": 0.83427839,
      "epoch": 4.460110041265475,
      "grad_norm": 2.063394069671631,
      "learning_rate": 3.1640050904953505e-06,
      "loss": 0.56539698,
      "memory(GiB)": 67.62,
      "step": 6485,
      "train_speed(iter/s)": 0.186435
    },
    {
      "acc": 0.82990141,
      "epoch": 4.463548830811554,
      "grad_norm": 2.2717719078063965,
      "learning_rate": 3.1243757627357668e-06,
      "loss": 0.55906305,
      "memory(GiB)": 67.62,
      "step": 6490,
      "train_speed(iter/s)": 0.186164
    },
    {
      "acc": 0.82575073,
      "epoch": 4.466987620357634,
      "grad_norm": 2.5037717819213867,
      "learning_rate": 3.0849889729832654e-06,
      "loss": 0.57216806,
      "memory(GiB)": 67.62,
      "step": 6495,
      "train_speed(iter/s)": 0.185961
    },
    {
      "acc": 0.82585573,
      "epoch": 4.470426409903714,
      "grad_norm": 2.19950795173645,
      "learning_rate": 3.045844925006326e-06,
      "loss": 0.57823243,
      "memory(GiB)": 67.62,
      "step": 6500,
      "train_speed(iter/s)": 0.185733
    },
    {
      "epoch": 4.470426409903714,
      "eval_acc": 0.7815775858190489,
      "eval_loss": 0.7929303646087646,
      "eval_runtime": 1155.4394,
      "eval_samples_per_second": 3.707,
      "eval_steps_per_second": 0.067,
      "step": 6500
    },
    {
      "acc": 0.81569099,
      "epoch": 4.4738651994497936,
      "grad_norm": 2.3302502632141113,
      "learning_rate": 3.0069438213175954e-06,
      "loss": 0.61277876,
      "memory(GiB)": 67.62,
      "step": 6505,
      "train_speed(iter/s)": 0.179594
    },
    {
      "acc": 0.82125263,
      "epoch": 4.477303988995874,
      "grad_norm": 2.0833966732025146,
      "learning_rate": 2.968285863172848e-06,
      "loss": 0.59841776,
      "memory(GiB)": 67.62,
      "step": 6510,
      "train_speed(iter/s)": 0.179377
    },
    {
      "acc": 0.81880264,
      "epoch": 4.480742778541953,
      "grad_norm": 2.5484683513641357,
      "learning_rate": 2.929871250569924e-06,
      "loss": 0.59419332,
      "memory(GiB)": 67.62,
      "step": 6515,
      "train_speed(iter/s)": 0.179133
    },
    {
      "acc": 0.82751369,
      "epoch": 4.484181568088033,
      "grad_norm": 2.393644332885742,
      "learning_rate": 2.891700182247734e-06,
      "loss": 0.57184334,
      "memory(GiB)": 67.62,
      "step": 6520,
      "train_speed(iter/s)": 0.17891
    },
    {
      "acc": 0.81892633,
      "epoch": 4.487620357634113,
      "grad_norm": 2.44018292427063,
      "learning_rate": 2.8537728556851844e-06,
      "loss": 0.61149454,
      "memory(GiB)": 67.62,
      "step": 6525,
      "train_speed(iter/s)": 0.178678
    },
    {
      "acc": 0.82124205,
      "epoch": 4.491059147180192,
      "grad_norm": 2.0875890254974365,
      "learning_rate": 2.8160894671001892e-06,
      "loss": 0.5891263,
      "memory(GiB)": 67.62,
      "step": 6530,
      "train_speed(iter/s)": 0.178449
    },
    {
      "acc": 0.82609577,
      "epoch": 4.4944979367262725,
      "grad_norm": 2.057404041290283,
      "learning_rate": 2.778650211448648e-06,
      "loss": 0.56262321,
      "memory(GiB)": 67.62,
      "step": 6535,
      "train_speed(iter/s)": 0.178257
    },
    {
      "acc": 0.83202305,
      "epoch": 4.497936726272352,
      "grad_norm": 2.3149304389953613,
      "learning_rate": 2.741455282423418e-06,
      "loss": 0.55560713,
      "memory(GiB)": 67.62,
      "step": 6540,
      "train_speed(iter/s)": 0.178079
    },
    {
      "acc": 0.83527908,
      "epoch": 4.501375515818432,
      "grad_norm": 2.2315163612365723,
      "learning_rate": 2.7045048724533295e-06,
      "loss": 0.54867306,
      "memory(GiB)": 67.62,
      "step": 6545,
      "train_speed(iter/s)": 0.177882
    },
    {
      "acc": 0.82490063,
      "epoch": 4.504814305364512,
      "grad_norm": 2.0971333980560303,
      "learning_rate": 2.667799172702211e-06,
      "loss": 0.58073626,
      "memory(GiB)": 67.62,
      "step": 6550,
      "train_speed(iter/s)": 0.177654
    },
    {
      "acc": 0.82666264,
      "epoch": 4.508253094910591,
      "grad_norm": 2.328887701034546,
      "learning_rate": 2.6313383730678536e-06,
      "loss": 0.58351974,
      "memory(GiB)": 67.62,
      "step": 6555,
      "train_speed(iter/s)": 0.177423
    },
    {
      "acc": 0.81643009,
      "epoch": 4.511691884456671,
      "grad_norm": 2.3826959133148193,
      "learning_rate": 2.5951226621810548e-06,
      "loss": 0.60832229,
      "memory(GiB)": 67.62,
      "step": 6560,
      "train_speed(iter/s)": 0.17721
    },
    {
      "acc": 0.83378086,
      "epoch": 4.5151306740027515,
      "grad_norm": 2.135087490081787,
      "learning_rate": 2.5591522274046416e-06,
      "loss": 0.56533546,
      "memory(GiB)": 67.62,
      "step": 6565,
      "train_speed(iter/s)": 0.177032
    },
    {
      "acc": 0.83013229,
      "epoch": 4.518569463548831,
      "grad_norm": 2.335890054702759,
      "learning_rate": 2.523427254832501e-06,
      "loss": 0.55983028,
      "memory(GiB)": 67.62,
      "step": 6570,
      "train_speed(iter/s)": 0.176797
    },
    {
      "acc": 0.82724657,
      "epoch": 4.522008253094911,
      "grad_norm": 2.3773765563964844,
      "learning_rate": 2.487947929288618e-06,
      "loss": 0.57505946,
      "memory(GiB)": 67.62,
      "step": 6575,
      "train_speed(iter/s)": 0.176609
    },
    {
      "acc": 0.82321806,
      "epoch": 4.52544704264099,
      "grad_norm": 2.1447110176086426,
      "learning_rate": 2.4527144343261097e-06,
      "loss": 0.58117051,
      "memory(GiB)": 67.62,
      "step": 6580,
      "train_speed(iter/s)": 0.176429
    },
    {
      "acc": 0.81534252,
      "epoch": 4.52888583218707,
      "grad_norm": 2.3002796173095703,
      "learning_rate": 2.417726952226283e-06,
      "loss": 0.59847307,
      "memory(GiB)": 67.62,
      "step": 6585,
      "train_speed(iter/s)": 0.176205
    },
    {
      "acc": 0.83123646,
      "epoch": 4.53232462173315,
      "grad_norm": 2.134842872619629,
      "learning_rate": 2.382985663997712e-06,
      "loss": 0.56259084,
      "memory(GiB)": 67.62,
      "step": 6590,
      "train_speed(iter/s)": 0.175983
    },
    {
      "acc": 0.82430344,
      "epoch": 4.5357634112792296,
      "grad_norm": 2.316795825958252,
      "learning_rate": 2.348490749375251e-06,
      "loss": 0.57970629,
      "memory(GiB)": 67.62,
      "step": 6595,
      "train_speed(iter/s)": 0.1758
    },
    {
      "acc": 0.83597136,
      "epoch": 4.53920220082531,
      "grad_norm": 2.263073444366455,
      "learning_rate": 2.3142423868191563e-06,
      "loss": 0.54895492,
      "memory(GiB)": 67.62,
      "step": 6600,
      "train_speed(iter/s)": 0.175618
    },
    {
      "epoch": 4.53920220082531,
      "eval_acc": 0.7819375084356863,
      "eval_loss": 0.7933745980262756,
      "eval_runtime": 1098.756,
      "eval_samples_per_second": 3.898,
      "eval_steps_per_second": 0.07,
      "step": 6600
    },
    {
      "acc": 0.832055,
      "epoch": 4.542640990371389,
      "grad_norm": 2.175189971923828,
      "learning_rate": 2.2802407535141275e-06,
      "loss": 0.56409612,
      "memory(GiB)": 67.62,
      "step": 6605,
      "train_speed(iter/s)": 0.170456
    },
    {
      "acc": 0.82646189,
      "epoch": 4.546079779917469,
      "grad_norm": 2.112194776535034,
      "learning_rate": 2.246486025368418e-06,
      "loss": 0.56891632,
      "memory(GiB)": 67.62,
      "step": 6610,
      "train_speed(iter/s)": 0.170302
    },
    {
      "acc": 0.82066345,
      "epoch": 4.549518569463549,
      "grad_norm": 2.304631233215332,
      "learning_rate": 2.212978377012892e-06,
      "loss": 0.60033989,
      "memory(GiB)": 67.62,
      "step": 6615,
      "train_speed(iter/s)": 0.170106
    },
    {
      "acc": 0.83084068,
      "epoch": 4.552957359009628,
      "grad_norm": 2.2651240825653076,
      "learning_rate": 2.179717981800164e-06,
      "loss": 0.55889602,
      "memory(GiB)": 67.62,
      "step": 6620,
      "train_speed(iter/s)": 0.169961
    },
    {
      "acc": 0.82767801,
      "epoch": 4.5563961485557085,
      "grad_norm": 2.218092918395996,
      "learning_rate": 2.1467050118036613e-06,
      "loss": 0.58023634,
      "memory(GiB)": 67.62,
      "step": 6625,
      "train_speed(iter/s)": 0.1698
    },
    {
      "acc": 0.82311954,
      "epoch": 4.559834938101789,
      "grad_norm": 2.081865072250366,
      "learning_rate": 2.1139396378167637e-06,
      "loss": 0.58637218,
      "memory(GiB)": 67.62,
      "step": 6630,
      "train_speed(iter/s)": 0.169621
    },
    {
      "acc": 0.82979736,
      "epoch": 4.563273727647868,
      "grad_norm": 2.2547144889831543,
      "learning_rate": 2.08142202935188e-06,
      "loss": 0.55914106,
      "memory(GiB)": 67.62,
      "step": 6635,
      "train_speed(iter/s)": 0.169453
    },
    {
      "acc": 0.82038078,
      "epoch": 4.566712517193948,
      "grad_norm": 2.181720495223999,
      "learning_rate": 2.0491523546396466e-06,
      "loss": 0.59662962,
      "memory(GiB)": 67.62,
      "step": 6640,
      "train_speed(iter/s)": 0.169266
    },
    {
      "acc": 0.8245801,
      "epoch": 4.570151306740027,
      "grad_norm": 2.330573558807373,
      "learning_rate": 2.01713078062797e-06,
      "loss": 0.58751688,
      "memory(GiB)": 67.62,
      "step": 6645,
      "train_speed(iter/s)": 0.169123
    },
    {
      "acc": 0.83173065,
      "epoch": 4.573590096286107,
      "grad_norm": 2.1227643489837646,
      "learning_rate": 1.9853574729812123e-06,
      "loss": 0.54269109,
      "memory(GiB)": 67.62,
      "step": 6650,
      "train_speed(iter/s)": 0.168939
    },
    {
      "acc": 0.83502407,
      "epoch": 4.577028885832187,
      "grad_norm": 2.232192277908325,
      "learning_rate": 1.953832596079319e-06,
      "loss": 0.5437376,
      "memory(GiB)": 67.62,
      "step": 6655,
      "train_speed(iter/s)": 0.168764
    },
    {
      "acc": 0.83107376,
      "epoch": 4.580467675378267,
      "grad_norm": 2.2640929222106934,
      "learning_rate": 1.9225563130169875e-06,
      "loss": 0.54885445,
      "memory(GiB)": 67.62,
      "step": 6660,
      "train_speed(iter/s)": 0.168622
    },
    {
      "acc": 0.83116302,
      "epoch": 4.583906464924347,
      "grad_norm": 2.4255106449127197,
      "learning_rate": 1.8915287856027996e-06,
      "loss": 0.57933769,
      "memory(GiB)": 67.62,
      "step": 6665,
      "train_speed(iter/s)": 0.168435
    },
    {
      "acc": 0.83079157,
      "epoch": 4.587345254470426,
      "grad_norm": 2.252610445022583,
      "learning_rate": 1.8607501743583902e-06,
      "loss": 0.57562494,
      "memory(GiB)": 67.62,
      "step": 6670,
      "train_speed(iter/s)": 0.168263
    },
    {
      "acc": 0.82178955,
      "epoch": 4.590784044016506,
      "grad_norm": 2.378258466720581,
      "learning_rate": 1.8302206385176258e-06,
      "loss": 0.59762077,
      "memory(GiB)": 67.62,
      "step": 6675,
      "train_speed(iter/s)": 0.168089
    },
    {
      "acc": 0.83059864,
      "epoch": 4.594222833562586,
      "grad_norm": 2.4089572429656982,
      "learning_rate": 1.7999403360257766e-06,
      "loss": 0.57908206,
      "memory(GiB)": 67.62,
      "step": 6680,
      "train_speed(iter/s)": 0.167941
    },
    {
      "acc": 0.82545843,
      "epoch": 4.5976616231086656,
      "grad_norm": 2.556912660598755,
      "learning_rate": 1.7699094235386956e-06,
      "loss": 0.5731123,
      "memory(GiB)": 67.62,
      "step": 6685,
      "train_speed(iter/s)": 0.167785
    },
    {
      "acc": 0.83477535,
      "epoch": 4.601100412654746,
      "grad_norm": 2.144914150238037,
      "learning_rate": 1.7401280564220138e-06,
      "loss": 0.54660711,
      "memory(GiB)": 67.62,
      "step": 6690,
      "train_speed(iter/s)": 0.167611
    },
    {
      "acc": 0.82835121,
      "epoch": 4.604539202200826,
      "grad_norm": 2.0818796157836914,
      "learning_rate": 1.7105963887503236e-06,
      "loss": 0.57266307,
      "memory(GiB)": 67.62,
      "step": 6695,
      "train_speed(iter/s)": 0.167452
    },
    {
      "acc": 0.82310772,
      "epoch": 4.607977991746905,
      "grad_norm": 2.37752366065979,
      "learning_rate": 1.6813145733064094e-06,
      "loss": 0.5846642,
      "memory(GiB)": 67.62,
      "step": 6700,
      "train_speed(iter/s)": 0.167295
    },
    {
      "epoch": 4.607977991746905,
      "eval_acc": 0.7817238043820579,
      "eval_loss": 0.7931625843048096,
      "eval_runtime": 1146.6195,
      "eval_samples_per_second": 3.735,
      "eval_steps_per_second": 0.067,
      "step": 6700
    },
    {
      "acc": 0.82920761,
      "epoch": 4.611416781292985,
      "grad_norm": 2.6180896759033203,
      "learning_rate": 1.6522827615804277e-06,
      "loss": 0.55708656,
      "memory(GiB)": 67.62,
      "step": 6705,
      "train_speed(iter/s)": 0.162482
    },
    {
      "acc": 0.82743568,
      "epoch": 4.614855570839064,
      "grad_norm": 2.1857407093048096,
      "learning_rate": 1.6235011037691344e-06,
      "loss": 0.58240447,
      "memory(GiB)": 67.62,
      "step": 6710,
      "train_speed(iter/s)": 0.16232
    },
    {
      "acc": 0.81718578,
      "epoch": 4.6182943603851445,
      "grad_norm": 2.2875170707702637,
      "learning_rate": 1.5949697487751052e-06,
      "loss": 0.61164322,
      "memory(GiB)": 67.62,
      "step": 6715,
      "train_speed(iter/s)": 0.162187
    },
    {
      "acc": 0.82232466,
      "epoch": 4.621733149931224,
      "grad_norm": 2.1736197471618652,
      "learning_rate": 1.5666888442059804e-06,
      "loss": 0.58460808,
      "memory(GiB)": 67.62,
      "step": 6720,
      "train_speed(iter/s)": 0.162055
    },
    {
      "acc": 0.82449484,
      "epoch": 4.625171939477304,
      "grad_norm": 2.126422643661499,
      "learning_rate": 1.538658536373673e-06,
      "loss": 0.57822762,
      "memory(GiB)": 67.62,
      "step": 6725,
      "train_speed(iter/s)": 0.161946
    },
    {
      "acc": 0.82507849,
      "epoch": 4.628610729023384,
      "grad_norm": 2.2693231105804443,
      "learning_rate": 1.5108789702936455e-06,
      "loss": 0.57952757,
      "memory(GiB)": 67.62,
      "step": 6730,
      "train_speed(iter/s)": 0.161804
    },
    {
      "acc": 0.8332633,
      "epoch": 4.632049518569463,
      "grad_norm": 2.1562063694000244,
      "learning_rate": 1.4833502896841289e-06,
      "loss": 0.55239053,
      "memory(GiB)": 67.62,
      "step": 6735,
      "train_speed(iter/s)": 0.161675
    },
    {
      "acc": 0.82784958,
      "epoch": 4.635488308115543,
      "grad_norm": 2.1214349269866943,
      "learning_rate": 1.456072636965399e-06,
      "loss": 0.5708005,
      "memory(GiB)": 67.62,
      "step": 6740,
      "train_speed(iter/s)": 0.161537
    },
    {
      "acc": 0.8265028,
      "epoch": 4.6389270976616235,
      "grad_norm": 2.2998435497283936,
      "learning_rate": 1.4290461532590343e-06,
      "loss": 0.58597693,
      "memory(GiB)": 67.62,
      "step": 6745,
      "train_speed(iter/s)": 0.161423
    },
    {
      "acc": 0.82159843,
      "epoch": 4.642365887207703,
      "grad_norm": 2.096148729324341,
      "learning_rate": 1.4022709783871718e-06,
      "loss": 0.60574317,
      "memory(GiB)": 67.62,
      "step": 6750,
      "train_speed(iter/s)": 0.161279
    },
    {
      "acc": 0.82948322,
      "epoch": 4.645804676753783,
      "grad_norm": 1.9622774124145508,
      "learning_rate": 1.375747250871807e-06,
      "loss": 0.57297769,
      "memory(GiB)": 67.62,
      "step": 6755,
      "train_speed(iter/s)": 0.161116
    },
    {
      "acc": 0.82648077,
      "epoch": 4.649243466299862,
      "grad_norm": 2.2610554695129395,
      "learning_rate": 1.3494751079340738e-06,
      "loss": 0.56792774,
      "memory(GiB)": 67.62,
      "step": 6760,
      "train_speed(iter/s)": 0.16096
    },
    {
      "acc": 0.82656231,
      "epoch": 4.652682255845942,
      "grad_norm": 2.134491205215454,
      "learning_rate": 1.3234546854935154e-06,
      "loss": 0.56553001,
      "memory(GiB)": 67.62,
      "step": 6765,
      "train_speed(iter/s)": 0.160816
    },
    {
      "acc": 0.83355551,
      "epoch": 4.656121045392022,
      "grad_norm": 2.2637131214141846,
      "learning_rate": 1.2976861181673923e-06,
      "loss": 0.55729747,
      "memory(GiB)": 67.62,
      "step": 6770,
      "train_speed(iter/s)": 0.160707
    },
    {
      "acc": 0.83004456,
      "epoch": 4.6595598349381016,
      "grad_norm": 2.241671323776245,
      "learning_rate": 1.2721695392699869e-06,
      "loss": 0.55024014,
      "memory(GiB)": 67.62,
      "step": 6775,
      "train_speed(iter/s)": 0.16056
    },
    {
      "acc": 0.82354479,
      "epoch": 4.662998624484182,
      "grad_norm": 2.196913480758667,
      "learning_rate": 1.2469050808119282e-06,
      "loss": 0.57635975,
      "memory(GiB)": 67.62,
      "step": 6780,
      "train_speed(iter/s)": 0.160424
    },
    {
      "acc": 0.814569,
      "epoch": 4.666437414030261,
      "grad_norm": 2.4140119552612305,
      "learning_rate": 1.221892873499479e-06,
      "loss": 0.61613665,
      "memory(GiB)": 67.62,
      "step": 6785,
      "train_speed(iter/s)": 0.160253
    },
    {
      "acc": 0.83262882,
      "epoch": 4.669876203576341,
      "grad_norm": 2.239264726638794,
      "learning_rate": 1.1971330467338833e-06,
      "loss": 0.55864224,
      "memory(GiB)": 67.62,
      "step": 6790,
      "train_speed(iter/s)": 0.1601
    },
    {
      "acc": 0.82022276,
      "epoch": 4.673314993122421,
      "grad_norm": 2.135786771774292,
      "learning_rate": 1.172625728610676e-06,
      "loss": 0.58857613,
      "memory(GiB)": 67.62,
      "step": 6795,
      "train_speed(iter/s)": 0.15997
    },
    {
      "acc": 0.83236532,
      "epoch": 4.6767537826685,
      "grad_norm": 1.979997992515564,
      "learning_rate": 1.1483710459190515e-06,
      "loss": 0.56562681,
      "memory(GiB)": 67.62,
      "step": 6800,
      "train_speed(iter/s)": 0.159825
    },
    {
      "epoch": 4.6767537826685,
      "eval_acc": 0.7819093894812615,
      "eval_loss": 0.7931298613548279,
      "eval_runtime": 1157.2244,
      "eval_samples_per_second": 3.701,
      "eval_steps_per_second": 0.067,
      "step": 6800
    },
    {
      "acc": 0.8271327,
      "epoch": 4.6801925722145805,
      "grad_norm": 2.349480152130127,
      "learning_rate": 1.1243691241411644e-06,
      "loss": 0.58665218,
      "memory(GiB)": 67.62,
      "step": 6805,
      "train_speed(iter/s)": 0.155462
    },
    {
      "acc": 0.83063755,
      "epoch": 4.683631361760661,
      "grad_norm": 2.1535379886627197,
      "learning_rate": 1.1006200874515338e-06,
      "loss": 0.55733638,
      "memory(GiB)": 67.62,
      "step": 6810,
      "train_speed(iter/s)": 0.155314
    },
    {
      "acc": 0.81677713,
      "epoch": 4.68707015130674,
      "grad_norm": 2.1077511310577393,
      "learning_rate": 1.0771240587163464e-06,
      "loss": 0.60006194,
      "memory(GiB)": 67.62,
      "step": 6815,
      "train_speed(iter/s)": 0.155164
    },
    {
      "acc": 0.83417349,
      "epoch": 4.69050894085282,
      "grad_norm": 2.45220685005188,
      "learning_rate": 1.0538811594928607e-06,
      "loss": 0.53521776,
      "memory(GiB)": 67.62,
      "step": 6820,
      "train_speed(iter/s)": 0.155057
    },
    {
      "acc": 0.82799282,
      "epoch": 4.693947730398899,
      "grad_norm": 2.1742374897003174,
      "learning_rate": 1.0308915100287642e-06,
      "loss": 0.56440144,
      "memory(GiB)": 67.62,
      "step": 6825,
      "train_speed(iter/s)": 0.154917
    },
    {
      "acc": 0.83087101,
      "epoch": 4.697386519944979,
      "grad_norm": 2.1993463039398193,
      "learning_rate": 1.0081552292615454e-06,
      "loss": 0.5529726,
      "memory(GiB)": 67.62,
      "step": 6830,
      "train_speed(iter/s)": 0.154819
    },
    {
      "acc": 0.83782015,
      "epoch": 4.7008253094910595,
      "grad_norm": 2.260230541229248,
      "learning_rate": 9.856724348178841e-07,
      "loss": 0.53974109,
      "memory(GiB)": 67.62,
      "step": 6835,
      "train_speed(iter/s)": 0.154699
    },
    {
      "acc": 0.83221836,
      "epoch": 4.704264099037139,
      "grad_norm": 2.035860061645508,
      "learning_rate": 9.634432430130399e-07,
      "loss": 0.54515915,
      "memory(GiB)": 67.62,
      "step": 6840,
      "train_speed(iter/s)": 0.154586
    },
    {
      "acc": 0.82770882,
      "epoch": 4.707702888583219,
      "grad_norm": 2.026685953140259,
      "learning_rate": 9.414677688502594e-07,
      "loss": 0.5836278,
      "memory(GiB)": 67.62,
      "step": 6845,
      "train_speed(iter/s)": 0.154451
    },
    {
      "acc": 0.82769499,
      "epoch": 4.711141678129298,
      "grad_norm": 2.1812551021575928,
      "learning_rate": 9.1974612602017e-07,
      "loss": 0.57010379,
      "memory(GiB)": 67.62,
      "step": 6850,
      "train_speed(iter/s)": 0.154322
    },
    {
      "acc": 0.81980133,
      "epoch": 4.714580467675378,
      "grad_norm": 2.3447399139404297,
      "learning_rate": 8.982784269002089e-07,
      "loss": 0.59749265,
      "memory(GiB)": 67.62,
      "step": 6855,
      "train_speed(iter/s)": 0.154209
    },
    {
      "acc": 0.83671551,
      "epoch": 4.718019257221458,
      "grad_norm": 2.019040107727051,
      "learning_rate": 8.770647825540072e-07,
      "loss": 0.5339366,
      "memory(GiB)": 67.62,
      "step": 6860,
      "train_speed(iter/s)": 0.154098
    },
    {
      "acc": 0.83358383,
      "epoch": 4.7214580467675376,
      "grad_norm": 2.4504003524780273,
      "learning_rate": 8.561053027308616e-07,
      "loss": 0.54877663,
      "memory(GiB)": 67.62,
      "step": 6865,
      "train_speed(iter/s)": 0.153941
    },
    {
      "acc": 0.82203579,
      "epoch": 4.724896836313618,
      "grad_norm": 2.2956948280334473,
      "learning_rate": 8.354000958651198e-07,
      "loss": 0.58671484,
      "memory(GiB)": 67.62,
      "step": 6870,
      "train_speed(iter/s)": 0.153816
    },
    {
      "acc": 0.82069569,
      "epoch": 4.728335625859698,
      "grad_norm": 2.3851406574249268,
      "learning_rate": 8.149492690756679e-07,
      "loss": 0.58018303,
      "memory(GiB)": 67.62,
      "step": 6875,
      "train_speed(iter/s)": 0.153716
    },
    {
      "acc": 0.82189007,
      "epoch": 4.731774415405777,
      "grad_norm": 2.3761680126190186,
      "learning_rate": 7.947529281653329e-07,
      "loss": 0.5802557,
      "memory(GiB)": 67.62,
      "step": 6880,
      "train_speed(iter/s)": 0.153572
    },
    {
      "acc": 0.8201951,
      "epoch": 4.735213204951857,
      "grad_norm": 2.3680715560913086,
      "learning_rate": 7.748111776203488e-07,
      "loss": 0.5941371,
      "memory(GiB)": 67.62,
      "step": 6885,
      "train_speed(iter/s)": 0.153396
    },
    {
      "acc": 0.83601265,
      "epoch": 4.738651994497936,
      "grad_norm": 2.2949132919311523,
      "learning_rate": 7.551241206098402e-07,
      "loss": 0.54753556,
      "memory(GiB)": 67.62,
      "step": 6890,
      "train_speed(iter/s)": 0.153255
    },
    {
      "acc": 0.82891521,
      "epoch": 4.7420907840440165,
      "grad_norm": 2.6076362133026123,
      "learning_rate": 7.356918589852512e-07,
      "loss": 0.56754522,
      "memory(GiB)": 67.62,
      "step": 6895,
      "train_speed(iter/s)": 0.153143
    },
    {
      "acc": 0.82609663,
      "epoch": 4.745529573590097,
      "grad_norm": 2.297222852706909,
      "learning_rate": 7.165144932798456e-07,
      "loss": 0.56647487,
      "memory(GiB)": 67.62,
      "step": 6900,
      "train_speed(iter/s)": 0.153005
    },
    {
      "epoch": 4.745529573590097,
      "eval_acc": 0.7816394475187834,
      "eval_loss": 0.7943344116210938,
      "eval_runtime": 1104.7871,
      "eval_samples_per_second": 3.877,
      "eval_steps_per_second": 0.07,
      "step": 6900
    },
    {
      "acc": 0.83013258,
      "epoch": 4.748968363136176,
      "grad_norm": 2.427417755126953,
      "learning_rate": 6.975921227081685e-07,
      "loss": 0.55977812,
      "memory(GiB)": 67.62,
      "step": 6905,
      "train_speed(iter/s)": 0.149232
    },
    {
      "acc": 0.8199255,
      "epoch": 4.752407152682256,
      "grad_norm": 2.2759101390838623,
      "learning_rate": 6.789248451655523e-07,
      "loss": 0.58387136,
      "memory(GiB)": 67.62,
      "step": 6910,
      "train_speed(iter/s)": 0.149131
    },
    {
      "acc": 0.82206144,
      "epoch": 4.755845942228335,
      "grad_norm": 2.231541395187378,
      "learning_rate": 6.605127572275894e-07,
      "loss": 0.59709778,
      "memory(GiB)": 67.62,
      "step": 6915,
      "train_speed(iter/s)": 0.149024
    },
    {
      "acc": 0.8175106,
      "epoch": 4.759284731774415,
      "grad_norm": 2.4362175464630127,
      "learning_rate": 6.423559541496492e-07,
      "loss": 0.6127625,
      "memory(GiB)": 67.62,
      "step": 6920,
      "train_speed(iter/s)": 0.148912
    },
    {
      "acc": 0.83411427,
      "epoch": 4.7627235213204955,
      "grad_norm": 2.0732574462890625,
      "learning_rate": 6.244545298663843e-07,
      "loss": 0.54563398,
      "memory(GiB)": 67.62,
      "step": 6925,
      "train_speed(iter/s)": 0.148809
    },
    {
      "acc": 0.8238575,
      "epoch": 4.766162310866575,
      "grad_norm": 2.174506187438965,
      "learning_rate": 6.068085769912308e-07,
      "loss": 0.58828888,
      "memory(GiB)": 67.62,
      "step": 6930,
      "train_speed(iter/s)": 0.148728
    },
    {
      "acc": 0.82762337,
      "epoch": 4.769601100412655,
      "grad_norm": 2.551449775695801,
      "learning_rate": 5.894181868159313e-07,
      "loss": 0.57614126,
      "memory(GiB)": 67.62,
      "step": 6935,
      "train_speed(iter/s)": 0.148607
    },
    {
      "acc": 0.82847862,
      "epoch": 4.773039889958735,
      "grad_norm": 2.242396354675293,
      "learning_rate": 5.722834493100845e-07,
      "loss": 0.58625593,
      "memory(GiB)": 67.62,
      "step": 6940,
      "train_speed(iter/s)": 0.148523
    },
    {
      "acc": 0.83427067,
      "epoch": 4.776478679504814,
      "grad_norm": 2.2920279502868652,
      "learning_rate": 5.554044531206463e-07,
      "loss": 0.55577106,
      "memory(GiB)": 67.62,
      "step": 6945,
      "train_speed(iter/s)": 0.148434
    },
    {
      "acc": 0.82505064,
      "epoch": 4.779917469050894,
      "grad_norm": 2.4490933418273926,
      "learning_rate": 5.387812855715081e-07,
      "loss": 0.57476597,
      "memory(GiB)": 67.62,
      "step": 6950,
      "train_speed(iter/s)": 0.148301
    },
    {
      "acc": 0.82180548,
      "epoch": 4.7833562585969736,
      "grad_norm": 2.4874212741851807,
      "learning_rate": 5.224140326630133e-07,
      "loss": 0.59430389,
      "memory(GiB)": 67.62,
      "step": 6955,
      "train_speed(iter/s)": 0.148156
    },
    {
      "acc": 0.81490593,
      "epoch": 4.786795048143054,
      "grad_norm": 2.1581063270568848,
      "learning_rate": 5.063027790715248e-07,
      "loss": 0.60423484,
      "memory(GiB)": 67.62,
      "step": 6960,
      "train_speed(iter/s)": 0.148057
    },
    {
      "acc": 0.82663193,
      "epoch": 4.790233837689134,
      "grad_norm": 2.1210756301879883,
      "learning_rate": 4.904476081489975e-07,
      "loss": 0.56228495,
      "memory(GiB)": 67.62,
      "step": 6965,
      "train_speed(iter/s)": 0.147956
    },
    {
      "acc": 0.83753424,
      "epoch": 4.793672627235213,
      "grad_norm": 2.065978527069092,
      "learning_rate": 4.7484860192252317e-07,
      "loss": 0.53960943,
      "memory(GiB)": 67.62,
      "step": 6970,
      "train_speed(iter/s)": 0.147817
    },
    {
      "acc": 0.83375235,
      "epoch": 4.797111416781293,
      "grad_norm": 2.488433837890625,
      "learning_rate": 4.595058410939305e-07,
      "loss": 0.55561361,
      "memory(GiB)": 67.62,
      "step": 6975,
      "train_speed(iter/s)": 0.147709
    },
    {
      "acc": 0.82256441,
      "epoch": 4.800550206327372,
      "grad_norm": 2.134580135345459,
      "learning_rate": 4.4441940503934173e-07,
      "loss": 0.59003773,
      "memory(GiB)": 67.62,
      "step": 6980,
      "train_speed(iter/s)": 0.147603
    },
    {
      "acc": 0.82549543,
      "epoch": 4.8039889958734525,
      "grad_norm": 2.2374000549316406,
      "learning_rate": 4.295893718088e-07,
      "loss": 0.57104192,
      "memory(GiB)": 67.62,
      "step": 6985,
      "train_speed(iter/s)": 0.147515
    },
    {
      "acc": 0.83225937,
      "epoch": 4.807427785419533,
      "grad_norm": 1.948536992073059,
      "learning_rate": 4.150158181258259e-07,
      "loss": 0.55912457,
      "memory(GiB)": 67.62,
      "step": 6990,
      "train_speed(iter/s)": 0.147431
    },
    {
      "acc": 0.81516037,
      "epoch": 4.810866574965612,
      "grad_norm": 2.495556354522705,
      "learning_rate": 4.0069881938703406e-07,
      "loss": 0.59933119,
      "memory(GiB)": 67.62,
      "step": 6995,
      "train_speed(iter/s)": 0.147319
    },
    {
      "acc": 0.82695866,
      "epoch": 4.814305364511692,
      "grad_norm": 2.299910545349121,
      "learning_rate": 3.866384496617616e-07,
      "loss": 0.58013859,
      "memory(GiB)": 67.62,
      "step": 7000,
      "train_speed(iter/s)": 0.147213
    },
    {
      "epoch": 4.814305364511692,
      "eval_acc": 0.7819543798083413,
      "eval_loss": 0.793637216091156,
      "eval_runtime": 1150.3821,
      "eval_samples_per_second": 3.723,
      "eval_steps_per_second": 0.067,
      "step": 7000
    },
    {
      "acc": 0.82657938,
      "epoch": 4.817744154057772,
      "grad_norm": 2.2365365028381348,
      "learning_rate": 3.7283478169165165e-07,
      "loss": 0.59894753,
      "memory(GiB)": 67.62,
      "step": 7005,
      "train_speed(iter/s)": 0.143635
    },
    {
      "acc": 0.82827587,
      "epoch": 4.821182943603851,
      "grad_norm": 2.287341833114624,
      "learning_rate": 3.592878868903036e-07,
      "loss": 0.56538892,
      "memory(GiB)": 67.62,
      "step": 7010,
      "train_speed(iter/s)": 0.143557
    },
    {
      "acc": 0.82892952,
      "epoch": 4.8246217331499315,
      "grad_norm": 2.37528920173645,
      "learning_rate": 3.459978353429071e-07,
      "loss": 0.56618586,
      "memory(GiB)": 67.62,
      "step": 7015,
      "train_speed(iter/s)": 0.143484
    },
    {
      "acc": 0.82298727,
      "epoch": 4.828060522696011,
      "grad_norm": 2.1354215145111084,
      "learning_rate": 3.3296469580584186e-07,
      "loss": 0.58705649,
      "memory(GiB)": 67.62,
      "step": 7020,
      "train_speed(iter/s)": 0.143374
    },
    {
      "acc": 0.81914625,
      "epoch": 4.831499312242091,
      "grad_norm": 2.2157156467437744,
      "learning_rate": 3.201885357063674e-07,
      "loss": 0.60606232,
      "memory(GiB)": 67.62,
      "step": 7025,
      "train_speed(iter/s)": 0.143299
    },
    {
      "acc": 0.82481365,
      "epoch": 4.83493810178817,
      "grad_norm": 2.350295066833496,
      "learning_rate": 3.076694211422452e-07,
      "loss": 0.59341784,
      "memory(GiB)": 67.62,
      "step": 7030,
      "train_speed(iter/s)": 0.14321
    },
    {
      "acc": 0.8327177,
      "epoch": 4.83837689133425,
      "grad_norm": 2.483370304107666,
      "learning_rate": 2.954074168814115e-07,
      "loss": 0.57141585,
      "memory(GiB)": 67.62,
      "step": 7035,
      "train_speed(iter/s)": 0.1431
    },
    {
      "acc": 0.82273092,
      "epoch": 4.84181568088033,
      "grad_norm": 2.237597942352295,
      "learning_rate": 2.8340258636162734e-07,
      "loss": 0.59980655,
      "memory(GiB)": 67.62,
      "step": 7040,
      "train_speed(iter/s)": 0.142991
    },
    {
      "acc": 0.81792231,
      "epoch": 4.8452544704264096,
      "grad_norm": 2.165174961090088,
      "learning_rate": 2.716549916901624e-07,
      "loss": 0.59414587,
      "memory(GiB)": 67.62,
      "step": 7045,
      "train_speed(iter/s)": 0.142869
    },
    {
      "acc": 0.83234692,
      "epoch": 4.84869325997249,
      "grad_norm": 2.2582786083221436,
      "learning_rate": 2.601646936434731e-07,
      "loss": 0.56242762,
      "memory(GiB)": 67.62,
      "step": 7050,
      "train_speed(iter/s)": 0.142752
    },
    {
      "acc": 0.82207642,
      "epoch": 4.85213204951857,
      "grad_norm": 2.386744737625122,
      "learning_rate": 2.4893175166689693e-07,
      "loss": 0.5899931,
      "memory(GiB)": 67.62,
      "step": 7055,
      "train_speed(iter/s)": 0.142651
    },
    {
      "acc": 0.83866978,
      "epoch": 4.855570839064649,
      "grad_norm": 2.4052698612213135,
      "learning_rate": 2.3795622387430887e-07,
      "loss": 0.52610168,
      "memory(GiB)": 67.62,
      "step": 7060,
      "train_speed(iter/s)": 0.14255
    },
    {
      "acc": 0.81752338,
      "epoch": 4.859009628610729,
      "grad_norm": 2.0953776836395264,
      "learning_rate": 2.272381670478657e-07,
      "loss": 0.60933762,
      "memory(GiB)": 67.62,
      "step": 7065,
      "train_speed(iter/s)": 0.142448
    },
    {
      "acc": 0.82258358,
      "epoch": 4.862448418156809,
      "grad_norm": 2.4188003540039062,
      "learning_rate": 2.1677763663768406e-07,
      "loss": 0.58760223,
      "memory(GiB)": 67.62,
      "step": 7070,
      "train_speed(iter/s)": 0.142309
    },
    {
      "acc": 0.82635889,
      "epoch": 4.8658872077028885,
      "grad_norm": 2.2215888500213623,
      "learning_rate": 2.0657468676155762e-07,
      "loss": 0.58528147,
      "memory(GiB)": 67.62,
      "step": 7075,
      "train_speed(iter/s)": 0.142201
    },
    {
      "acc": 0.84418049,
      "epoch": 4.869325997248969,
      "grad_norm": 2.0003366470336914,
      "learning_rate": 1.9662937020469589e-07,
      "loss": 0.51888628,
      "memory(GiB)": 67.62,
      "step": 7080,
      "train_speed(iter/s)": 0.142127
    },
    {
      "acc": 0.83303547,
      "epoch": 4.872764786795048,
      "grad_norm": 2.1851377487182617,
      "learning_rate": 1.8694173841941928e-07,
      "loss": 0.55756779,
      "memory(GiB)": 67.62,
      "step": 7085,
      "train_speed(iter/s)": 0.142023
    },
    {
      "acc": 0.82351046,
      "epoch": 4.876203576341128,
      "grad_norm": 2.3260505199432373,
      "learning_rate": 1.775118415249201e-07,
      "loss": 0.58764186,
      "memory(GiB)": 67.62,
      "step": 7090,
      "train_speed(iter/s)": 0.141935
    },
    {
      "acc": 0.82887058,
      "epoch": 4.879642365887207,
      "grad_norm": 2.2045719623565674,
      "learning_rate": 1.6833972830699635e-07,
      "loss": 0.56427956,
      "memory(GiB)": 67.62,
      "step": 7095,
      "train_speed(iter/s)": 0.141825
    },
    {
      "acc": 0.81958294,
      "epoch": 4.883081155433287,
      "grad_norm": 2.245159149169922,
      "learning_rate": 1.5942544621777965e-07,
      "loss": 0.60630999,
      "memory(GiB)": 67.62,
      "step": 7100,
      "train_speed(iter/s)": 0.141715
    },
    {
      "epoch": 4.883081155433287,
      "eval_acc": 0.7818137850362172,
      "eval_loss": 0.7931898832321167,
      "eval_runtime": 1152.8663,
      "eval_samples_per_second": 3.715,
      "eval_steps_per_second": 0.067,
      "step": 7100
    },
    {
      "acc": 0.83190765,
      "epoch": 4.8865199449793675,
      "grad_norm": 2.2760040760040283,
      "learning_rate": 1.507690413755244e-07,
      "loss": 0.56932721,
      "memory(GiB)": 67.62,
      "step": 7105,
      "train_speed(iter/s)": 0.138438
    },
    {
      "acc": 0.82073574,
      "epoch": 4.889958734525447,
      "grad_norm": 2.2572543621063232,
      "learning_rate": 1.423705585643412e-07,
      "loss": 0.59770269,
      "memory(GiB)": 67.62,
      "step": 7110,
      "train_speed(iter/s)": 0.138349
    },
    {
      "acc": 0.82008648,
      "epoch": 4.893397524071527,
      "grad_norm": 2.431645631790161,
      "learning_rate": 1.342300412339805e-07,
      "loss": 0.60884895,
      "memory(GiB)": 67.62,
      "step": 7115,
      "train_speed(iter/s)": 0.138261
    },
    {
      "acc": 0.83563404,
      "epoch": 4.896836313617607,
      "grad_norm": 2.210167646408081,
      "learning_rate": 1.2634753149959394e-07,
      "loss": 0.55552473,
      "memory(GiB)": 67.62,
      "step": 7120,
      "train_speed(iter/s)": 0.138175
    },
    {
      "acc": 0.83866234,
      "epoch": 4.900275103163686,
      "grad_norm": 2.1584184169769287,
      "learning_rate": 1.1872307014153448e-07,
      "loss": 0.5373682,
      "memory(GiB)": 67.62,
      "step": 7125,
      "train_speed(iter/s)": 0.138058
    },
    {
      "acc": 0.83324118,
      "epoch": 4.903713892709766,
      "grad_norm": 2.51465106010437,
      "learning_rate": 1.1135669660512879e-07,
      "loss": 0.54701567,
      "memory(GiB)": 67.62,
      "step": 7130,
      "train_speed(iter/s)": 0.137984
    },
    {
      "acc": 0.84189644,
      "epoch": 4.9071526822558456,
      "grad_norm": 2.2430858612060547,
      "learning_rate": 1.0424844900048863e-07,
      "loss": 0.52747626,
      "memory(GiB)": 67.62,
      "step": 7135,
      "train_speed(iter/s)": 0.137875
    },
    {
      "acc": 0.82826939,
      "epoch": 4.910591471801926,
      "grad_norm": 2.468977451324463,
      "learning_rate": 9.739836410229431e-08,
      "loss": 0.56382651,
      "memory(GiB)": 67.62,
      "step": 7140,
      "train_speed(iter/s)": 0.137804
    },
    {
      "acc": 0.82850714,
      "epoch": 4.914030261348006,
      "grad_norm": 2.1959378719329834,
      "learning_rate": 9.080647734961705e-08,
      "loss": 0.5642982,
      "memory(GiB)": 67.62,
      "step": 7145,
      "train_speed(iter/s)": 0.137706
    },
    {
      "acc": 0.80990505,
      "epoch": 4.917469050894085,
      "grad_norm": 2.1937224864959717,
      "learning_rate": 8.447282284574144e-08,
      "loss": 0.64270401,
      "memory(GiB)": 67.62,
      "step": 7150,
      "train_speed(iter/s)": 0.137623
    },
    {
      "acc": 0.83124857,
      "epoch": 4.920907840440165,
      "grad_norm": 2.274343967437744,
      "learning_rate": 7.839743335798222e-08,
      "loss": 0.58021183,
      "memory(GiB)": 67.62,
      "step": 7155,
      "train_speed(iter/s)": 0.137544
    },
    {
      "acc": 0.83879738,
      "epoch": 4.924346629986244,
      "grad_norm": 2.0642943382263184,
      "learning_rate": 7.258034031750108e-08,
      "loss": 0.55038834,
      "memory(GiB)": 67.62,
      "step": 7160,
      "train_speed(iter/s)": 0.137462
    },
    {
      "acc": 0.82772274,
      "epoch": 4.9277854195323245,
      "grad_norm": 2.236903429031372,
      "learning_rate": 6.702157381916804e-08,
      "loss": 0.57812862,
      "memory(GiB)": 67.62,
      "step": 7165,
      "train_speed(iter/s)": 0.137368
    },
    {
      "acc": 0.81524467,
      "epoch": 4.931224209078405,
      "grad_norm": 2.3664135932922363,
      "learning_rate": 6.172116262139473e-08,
      "loss": 0.59173594,
      "memory(GiB)": 67.62,
      "step": 7170,
      "train_speed(iter/s)": 0.137273
    },
    {
      "acc": 0.84409065,
      "epoch": 4.934662998624484,
      "grad_norm": 1.8912343978881836,
      "learning_rate": 5.66791341459791e-08,
      "loss": 0.51706591,
      "memory(GiB)": 67.62,
      "step": 7175,
      "train_speed(iter/s)": 0.13718
    },
    {
      "acc": 0.82883434,
      "epoch": 4.938101788170564,
      "grad_norm": 2.3647637367248535,
      "learning_rate": 5.189551447797223e-08,
      "loss": 0.57346845,
      "memory(GiB)": 67.62,
      "step": 7180,
      "train_speed(iter/s)": 0.137112
    },
    {
      "acc": 0.82722406,
      "epoch": 4.941540577716644,
      "grad_norm": 2.390969753265381,
      "learning_rate": 4.7370328365550553e-08,
      "loss": 0.58734665,
      "memory(GiB)": 67.62,
      "step": 7185,
      "train_speed(iter/s)": 0.137029
    },
    {
      "acc": 0.83363981,
      "epoch": 4.944979367262723,
      "grad_norm": 2.3286654949188232,
      "learning_rate": 4.3103599219855e-08,
      "loss": 0.55134306,
      "memory(GiB)": 67.62,
      "step": 7190,
      "train_speed(iter/s)": 0.13694
    },
    {
      "acc": 0.8398654,
      "epoch": 4.9484181568088035,
      "grad_norm": 1.95890474319458,
      "learning_rate": 3.909534911492433e-08,
      "loss": 0.52122355,
      "memory(GiB)": 67.62,
      "step": 7195,
      "train_speed(iter/s)": 0.136882
    },
    {
      "acc": 0.82601204,
      "epoch": 4.951856946354883,
      "grad_norm": 2.7101948261260986,
      "learning_rate": 3.534559878752308e-08,
      "loss": 0.58264699,
      "memory(GiB)": 67.62,
      "step": 7200,
      "train_speed(iter/s)": 0.13679
    },
    {
      "epoch": 4.951856946354883,
      "eval_acc": 0.7817575471273677,
      "eval_loss": 0.7930530309677124,
      "eval_runtime": 1110.3461,
      "eval_samples_per_second": 3.857,
      "eval_steps_per_second": 0.069,
      "step": 7200
    },
    {
      "acc": 0.83350286,
      "epoch": 4.955295735900963,
      "grad_norm": 2.281674861907959,
      "learning_rate": 3.185436763708053e-08,
      "loss": 0.55087848,
      "memory(GiB)": 67.62,
      "step": 7205,
      "train_speed(iter/s)": 0.13388
    },
    {
      "acc": 0.83256226,
      "epoch": 4.958734525447043,
      "grad_norm": 2.406829357147217,
      "learning_rate": 2.862167372556297e-08,
      "loss": 0.55789819,
      "memory(GiB)": 67.62,
      "step": 7210,
      "train_speed(iter/s)": 0.133821
    },
    {
      "acc": 0.81454487,
      "epoch": 4.962173314993122,
      "grad_norm": 2.2203316688537598,
      "learning_rate": 2.564753377737945e-08,
      "loss": 0.60484362,
      "memory(GiB)": 67.62,
      "step": 7215,
      "train_speed(iter/s)": 0.133748
    },
    {
      "acc": 0.82130527,
      "epoch": 4.965612104539202,
      "grad_norm": 2.130246162414551,
      "learning_rate": 2.2931963179320628e-08,
      "loss": 0.59843221,
      "memory(GiB)": 67.62,
      "step": 7220,
      "train_speed(iter/s)": 0.133637
    },
    {
      "acc": 0.83102131,
      "epoch": 4.9690508940852816,
      "grad_norm": 2.521017551422119,
      "learning_rate": 2.04749759804478e-08,
      "loss": 0.55911312,
      "memory(GiB)": 67.62,
      "step": 7225,
      "train_speed(iter/s)": 0.133538
    },
    {
      "acc": 0.81951447,
      "epoch": 4.972489683631362,
      "grad_norm": 2.495345115661621,
      "learning_rate": 1.8276584892048502e-08,
      "loss": 0.59946508,
      "memory(GiB)": 67.62,
      "step": 7230,
      "train_speed(iter/s)": 0.133454
    },
    {
      "acc": 0.83500395,
      "epoch": 4.975928473177442,
      "grad_norm": 2.169851541519165,
      "learning_rate": 1.6336801287547673e-08,
      "loss": 0.55714474,
      "memory(GiB)": 67.62,
      "step": 7235,
      "train_speed(iter/s)": 0.133371
    },
    {
      "acc": 0.83105001,
      "epoch": 4.979367262723521,
      "grad_norm": 1.9003541469573975,
      "learning_rate": 1.4655635202457724e-08,
      "loss": 0.56020293,
      "memory(GiB)": 67.62,
      "step": 7240,
      "train_speed(iter/s)": 0.133301
    },
    {
      "acc": 0.82036457,
      "epoch": 4.982806052269601,
      "grad_norm": 2.2826859951019287,
      "learning_rate": 1.3233095334339681e-08,
      "loss": 0.5854476,
      "memory(GiB)": 67.62,
      "step": 7245,
      "train_speed(iter/s)": 0.133207
    },
    {
      "acc": 0.82185326,
      "epoch": 4.986244841815681,
      "grad_norm": 2.5508041381835938,
      "learning_rate": 1.2069189042725465e-08,
      "loss": 0.58682165,
      "memory(GiB)": 67.62,
      "step": 7250,
      "train_speed(iter/s)": 0.133133
    },
    {
      "acc": 0.83299255,
      "epoch": 4.9896836313617605,
      "grad_norm": 2.2958316802978516,
      "learning_rate": 1.1163922349123454e-08,
      "loss": 0.54637289,
      "memory(GiB)": 67.62,
      "step": 7255,
      "train_speed(iter/s)": 0.133052
    },
    {
      "acc": 0.81462727,
      "epoch": 4.993122420907841,
      "grad_norm": 2.2949371337890625,
      "learning_rate": 1.051729993694077e-08,
      "loss": 0.60125666,
      "memory(GiB)": 67.62,
      "step": 7260,
      "train_speed(iter/s)": 0.132965
    },
    {
      "acc": 0.83669167,
      "epoch": 4.99656121045392,
      "grad_norm": 2.335374593734741,
      "learning_rate": 1.0129325151499931e-08,
      "loss": 0.51913919,
      "memory(GiB)": 67.62,
      "step": 7265,
      "train_speed(iter/s)": 0.132889
    },
    {
      "acc": 0.83688688,
      "epoch": 5.0,
      "grad_norm": 2.2776167392730713,
      "learning_rate": 1e-08,
      "loss": 0.54480848,
      "memory(GiB)": 67.62,
      "step": 7270,
      "train_speed(iter/s)": 0.132804
    },
    {
      "epoch": 5.0,
      "eval_acc": 0.781712556800288,
      "eval_loss": 0.793134868144989,
      "eval_runtime": 1106.3573,
      "eval_samples_per_second": 3.871,
      "eval_steps_per_second": 0.07,
      "step": 7270
    }
  ],
  "logging_steps": 5,
  "max_steps": 7270,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.939618530083786e+19,
  "train_batch_size": 14,
  "trial_name": null,
  "trial_params": null
}