Upload folder using huggingface_hub

8873149 verified 16 days ago

31.7 kB

	{
	"best_global_step": 210,
	"best_metric": 0.09402994,
	"best_model_checkpoint": "/fsx-neo/dedicated-fsx-data-repo-neo-us-east-1/kayleexl/tree_reasoning/logical-reasoning/ms-swift/output_dpo/v7-20260217-182416/checkpoint-210",
	"epoch": 1.985781990521327,
	"eval_steps": 50,
	"global_step": 210,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.009478672985781991,
	"grad_norm": 19.55022430419922,
	"learning_rate": 9.090909090909091e-06,
	"logits/chosen": -0.8645371198654175,
	"logits/rejected": -0.8560649752616882,
	"logps/chosen": -212.84078979492188,
	"logps/rejected": -181.89553833007812,
	"loss": 1.9682148694992065,
	"memory(GiB)": 153.35,
	"nll_loss": 1.275067687034607,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1,
	"train_speed(iter/s)": 0.001829
	},
	{
	"epoch": 0.04739336492890995,
	"grad_norm": 10.874584197998047,
	"learning_rate": 4.545454545454546e-05,
	"logits/chosen": -0.8818354606628418,
	"logits/rejected": -0.8391438722610474,
	"logps/chosen": -206.83299255371094,
	"logps/rejected": -210.26193237304688,
	"loss": 2.225569725036621,
	"memory(GiB)": 171.5,
	"nll_loss": 1.5596290826797485,
	"rewards/accuracies": 0.390625,
	"rewards/chosen": 0.42497575283050537,
	"rewards/margins": 0.14753574132919312,
	"rewards/rejected": 0.27743998169898987,
	"step": 5,
	"train_speed(iter/s)": 0.001962
	},
	{
	"epoch": 0.0947867298578199,
	"grad_norm": 3.7358806133270264,
	"learning_rate": 9.090909090909092e-05,
	"logits/chosen": -0.42944854497909546,
	"logits/rejected": -0.4029228687286377,
	"logps/chosen": -153.91217041015625,
	"logps/rejected": -171.6427764892578,
	"loss": 1.2244630813598634,
	"memory(GiB)": 178.87,
	"nll_loss": 0.9248598217964172,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": 8.403377532958984,
	"rewards/margins": 3.649811267852783,
	"rewards/rejected": 4.753565788269043,
	"step": 10,
	"train_speed(iter/s)": 0.002002
	},
	{
	"epoch": 0.14218009478672985,
	"grad_norm": 2.5456342697143555,
	"learning_rate": 9.990034266657467e-05,
	"logits/chosen": 0.14313745498657227,
	"logits/rejected": 0.15165017545223236,
	"logps/chosen": -64.2056655883789,
	"logps/rejected": -108.23348236083984,
	"loss": 0.9479263305664063,
	"memory(GiB)": 178.87,
	"nll_loss": 0.5506663918495178,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": 13.307535171508789,
	"rewards/margins": 4.5142388343811035,
	"rewards/rejected": 8.793294906616211,
	"step": 15,
	"train_speed(iter/s)": 0.001977
	},
	{
	"epoch": 0.1895734597156398,
	"grad_norm": 9.239604949951172,
	"learning_rate": 9.949616551002787e-05,
	"logits/chosen": -0.7042765617370605,
	"logits/rejected": -0.6620756983757019,
	"logps/chosen": -57.892356872558594,
	"logps/rejected": -133.2845916748047,
	"loss": 0.6575197696685791,
	"memory(GiB)": 178.87,
	"nll_loss": 0.44857126474380493,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": 15.717184066772461,
	"rewards/margins": 7.5960211753845215,
	"rewards/rejected": 8.121164321899414,
	"step": 20,
	"train_speed(iter/s)": 0.001969
	},
	{
	"epoch": 0.23696682464454977,
	"grad_norm": 3.75114369392395,
	"learning_rate": 9.87837549867887e-05,
	"logits/chosen": -0.5987659096717834,
	"logits/rejected": -0.5469285249710083,
	"logps/chosen": -39.35096740722656,
	"logps/rejected": -128.31814575195312,
	"loss": 0.4350598335266113,
	"memory(GiB)": 178.87,
	"nll_loss": 0.30207258462905884,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": 19.038375854492188,
	"rewards/margins": 10.453929901123047,
	"rewards/rejected": 8.584444999694824,
	"step": 25,
	"train_speed(iter/s)": 0.001984
	},
	{
	"epoch": 0.2843601895734597,
	"grad_norm": 7.996090412139893,
	"learning_rate": 9.776754757575975e-05,
	"logits/chosen": -0.7030301094055176,
	"logits/rejected": -0.6584943532943726,
	"logps/chosen": -42.931304931640625,
	"logps/rejected": -132.83807373046875,
	"loss": 0.625270938873291,
	"memory(GiB)": 178.87,
	"nll_loss": 0.3963403105735779,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": 16.53431510925293,
	"rewards/margins": 9.225370407104492,
	"rewards/rejected": 7.308945655822754,
	"step": 30,
	"train_speed(iter/s)": 0.001981
	},
	{
	"epoch": 0.33175355450236965,
	"grad_norm": 0.928902804851532,
	"learning_rate": 9.645387162638652e-05,
	"logits/chosen": -0.7767706513404846,
	"logits/rejected": -0.7252510190010071,
	"logps/chosen": -30.822132110595703,
	"logps/rejected": -122.3298110961914,
	"loss": 0.47859888076782225,
	"memory(GiB)": 178.87,
	"nll_loss": 0.25827503204345703,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": 18.511274337768555,
	"rewards/margins": 9.673491477966309,
	"rewards/rejected": 8.837784767150879,
	"step": 35,
	"train_speed(iter/s)": 0.001982
	},
	{
	"epoch": 0.3791469194312796,
	"grad_norm": 4.358126163482666,
	"learning_rate": 9.485090794937319e-05,
	"logits/chosen": -0.8528544306755066,
	"logits/rejected": -0.8117485046386719,
	"logps/chosen": -28.26708984375,
	"logps/rejected": -153.4051055908203,
	"loss": 0.38582923412323,
	"memory(GiB)": 178.87,
	"nll_loss": 0.20131754875183105,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": 19.518356323242188,
	"rewards/margins": 13.451945304870605,
	"rewards/rejected": 6.066409587860107,
	"step": 40,
	"train_speed(iter/s)": 0.001983
	},
	{
	"epoch": 0.4265402843601896,
	"grad_norm": 9.361577987670898,
	"learning_rate": 9.29686388713456e-05,
	"logits/chosen": -1.4655885696411133,
	"logits/rejected": -1.4526116847991943,
	"logps/chosen": -41.395565032958984,
	"logps/rejected": -169.83302307128906,
	"loss": 0.4372711658477783,
	"memory(GiB)": 178.87,
	"nll_loss": 0.3007845878601074,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 16.87301254272461,
	"rewards/margins": 13.00146198272705,
	"rewards/rejected": 3.871551513671875,
	"step": 45,
	"train_speed(iter/s)": 0.00198
	},
	{
	"epoch": 0.47393364928909953,
	"grad_norm": 1.3884881734848022,
	"learning_rate": 9.081878607071996e-05,
	"logits/chosen": -1.4089267253875732,
	"logits/rejected": -1.3798249959945679,
	"logps/chosen": -29.07427978515625,
	"logps/rejected": -174.85606384277344,
	"loss": 0.28701162338256836,
	"memory(GiB)": 178.87,
	"nll_loss": 0.17918026447296143,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 20.193706512451172,
	"rewards/margins": 15.493553161621094,
	"rewards/rejected": 4.700153350830078,
	"step": 50,
	"train_speed(iter/s)": 0.001981
	},
	{
	"epoch": 0.47393364928909953,
	"eval_logits/chosen": -1.2822269201278687,
	"eval_logits/rejected": -1.255699634552002,
	"eval_logps/chosen": -34.7473258972168,
	"eval_logps/rejected": -143.84861755371094,
	"eval_loss": 0.4424428939819336,
	"eval_nll_loss": 0.2968122363090515,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": 19.00676155090332,
	"eval_rewards/margins": 12.395697593688965,
	"eval_rewards/rejected": 6.611064910888672,
	"eval_runtime": 230.2546,
	"eval_samples_per_second": 0.074,
	"eval_steps_per_second": 0.074,
	"step": 50
	},
	{
	"epoch": 0.5213270142180095,
	"grad_norm": 1.1772722005844116,
	"learning_rate": 8.841473758189854e-05,
	"logits/chosen": -1.1759651899337769,
	"logits/rejected": -1.1313683986663818,
	"logps/chosen": -26.088220596313477,
	"logps/rejected": -150.84393310546875,
	"loss": 0.22870185375213622,
	"memory(GiB)": 178.87,
	"nll_loss": 0.16189467906951904,
	"rewards/accuracies": 0.9750000238418579,
	"rewards/chosen": 19.440641403198242,
	"rewards/margins": 13.270869255065918,
	"rewards/rejected": 6.169772148132324,
	"step": 55,
	"train_speed(iter/s)": 0.001958
	},
	{
	"epoch": 0.5687203791469194,
	"grad_norm": 2.0721075534820557,
	"learning_rate": 8.577146442236857e-05,
	"logits/chosen": -1.0945132970809937,
	"logits/rejected": -1.060734748840332,
	"logps/chosen": -22.90542984008789,
	"logps/rejected": -128.8797607421875,
	"loss": 0.24675798416137695,
	"memory(GiB)": 178.87,
	"nll_loss": 0.17432959377765656,
	"rewards/accuracies": 0.987500011920929,
	"rewards/chosen": 17.570837020874023,
	"rewards/margins": 11.27192497253418,
	"rewards/rejected": 6.298913955688477,
	"step": 60,
	"train_speed(iter/s)": 0.00195
	},
	{
	"epoch": 0.6161137440758294,
	"grad_norm": 2.0549778938293457,
	"learning_rate": 8.290542736190188e-05,
	"logits/chosen": -1.080885648727417,
	"logits/rejected": -1.057293176651001,
	"logps/chosen": -17.660358428955078,
	"logps/rejected": -124.87294006347656,
	"loss": 0.36183264255523684,
	"memory(GiB)": 178.87,
	"nll_loss": 0.1854233592748642,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": 18.208276748657227,
	"rewards/margins": 11.001307487487793,
	"rewards/rejected": 7.206968784332275,
	"step": 65,
	"train_speed(iter/s)": 0.001945
	},
	{
	"epoch": 0.6635071090047393,
	"grad_norm": 1.9049893617630005,
	"learning_rate": 7.983447441444281e-05,
	"logits/chosen": -1.4264296293258667,
	"logits/rejected": -1.4030673503875732,
	"logps/chosen": -22.567996978759766,
	"logps/rejected": -163.80955505371094,
	"loss": 0.2892845392227173,
	"memory(GiB)": 178.87,
	"nll_loss": 0.15383335947990417,
	"rewards/accuracies": 0.949999988079071,
	"rewards/chosen": 18.27324676513672,
	"rewards/margins": 15.088933944702148,
	"rewards/rejected": 3.1843135356903076,
	"step": 70,
	"train_speed(iter/s)": 0.001941
	},
	{
	"epoch": 0.7109004739336493,
	"grad_norm": 1.0275962352752686,
	"learning_rate": 7.657772969104508e-05,
	"logits/chosen": -1.3237228393554688,
	"logits/rejected": -1.3014802932739258,
	"logps/chosen": -27.62123680114746,
	"logps/rejected": -179.39981079101562,
	"loss": 0.22349367141723633,
	"memory(GiB)": 178.87,
	"nll_loss": 0.16326689720153809,
	"rewards/accuracies": 0.987500011920929,
	"rewards/chosen": 19.444076538085938,
	"rewards/margins": 16.357398986816406,
	"rewards/rejected": 3.0866756439208984,
	"step": 75,
	"train_speed(iter/s)": 0.001941
	},
	{
	"epoch": 0.7582938388625592,
	"grad_norm": 2.1720211505889893,
	"learning_rate": 7.31554743060174e-05,
	"logits/chosen": -0.9713658094406128,
	"logits/rejected": -0.9438395500183105,
	"logps/chosen": -21.5306396484375,
	"logps/rejected": -158.5912628173828,
	"loss": 0.2255859136581421,
	"memory(GiB)": 178.87,
	"nll_loss": 0.15225784480571747,
	"rewards/accuracies": 0.9750000238418579,
	"rewards/chosen": 20.218997955322266,
	"rewards/margins": 14.551397323608398,
	"rewards/rejected": 5.6676025390625,
	"step": 80,
	"train_speed(iter/s)": 0.001941
	},
	{
	"epoch": 0.8056872037914692,
	"grad_norm": 2.247673988342285,
	"learning_rate": 6.958902007792466e-05,
	"logits/chosen": -0.7944511771202087,
	"logits/rejected": -0.7699103355407715,
	"logps/chosen": -11.273658752441406,
	"logps/rejected": -142.4789581298828,
	"loss": 0.1783364772796631,
	"memory(GiB)": 178.87,
	"nll_loss": 0.10094492137432098,
	"rewards/accuracies": 0.9750000238418579,
	"rewards/chosen": 19.9717960357666,
	"rewards/margins": 13.428759574890137,
	"rewards/rejected": 6.543033599853516,
	"step": 85,
	"train_speed(iter/s)": 0.001943
	},
	{
	"epoch": 0.8530805687203792,
	"grad_norm": 5.502572059631348,
	"learning_rate": 6.590057681196191e-05,
	"logits/chosen": -0.7691094875335693,
	"logits/rejected": -0.7428280711174011,
	"logps/chosen": -16.701950073242188,
	"logps/rejected": -178.28001403808594,
	"loss": 0.21286754608154296,
	"memory(GiB)": 178.87,
	"nll_loss": 0.1458219736814499,
	"rewards/accuracies": 0.987500011920929,
	"rewards/chosen": 18.113544464111328,
	"rewards/margins": 14.766156196594238,
	"rewards/rejected": 3.3473877906799316,
	"step": 90,
	"train_speed(iter/s)": 0.001941
	},
	{
	"epoch": 0.9004739336492891,
	"grad_norm": 6.771712779998779,
	"learning_rate": 6.211311399018916e-05,
	"logits/chosen": -1.2176296710968018,
	"logits/rejected": -1.2004112005233765,
	"logps/chosen": -10.625171661376953,
	"logps/rejected": -197.5986785888672,
	"loss": 0.14389824867248535,
	"memory(GiB)": 178.87,
	"nll_loss": 0.08421098440885544,
	"rewards/accuracies": 0.9750000238418579,
	"rewards/chosen": 21.306598663330078,
	"rewards/margins": 20.043148040771484,
	"rewards/rejected": 1.2634522914886475,
	"step": 95,
	"train_speed(iter/s)": 0.001943
	},
	{
	"epoch": 0.9478672985781991,
	"grad_norm": 0.7936939001083374,
	"learning_rate": 5.8250217730939973e-05,
	"logits/chosen": -1.2689450979232788,
	"logits/rejected": -1.2652291059494019,
	"logps/chosen": -24.885387420654297,
	"logps/rejected": -166.68470764160156,
	"loss": 0.22324090003967284,
	"memory(GiB)": 178.87,
	"nll_loss": 0.16993048787117004,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 18.267993927001953,
	"rewards/margins": 15.335573196411133,
	"rewards/rejected": 2.932422637939453,
	"step": 100,
	"train_speed(iter/s)": 0.001939
	},
	{
	"epoch": 0.9478672985781991,
	"eval_logits/chosen": -1.276165246963501,
	"eval_logits/rejected": -1.2667920589447021,
	"eval_logps/chosen": -17.997478485107422,
	"eval_logps/rejected": -172.5413818359375,
	"eval_loss": 0.18138757348060608,
	"eval_nll_loss": 0.15586450695991516,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": 20.681747436523438,
	"eval_rewards/margins": 16.939956665039062,
	"eval_rewards/rejected": 3.741788625717163,
	"eval_runtime": 230.8449,
	"eval_samples_per_second": 0.074,
	"eval_steps_per_second": 0.074,
	"step": 100
	},
	{
	"epoch": 0.995260663507109,
	"grad_norm": 0.7884749174118042,
	"learning_rate": 5.433594390817756e-05,
	"logits/chosen": -1.217622995376587,
	"logits/rejected": -1.2057679891586304,
	"logps/chosen": -13.138340950012207,
	"logps/rejected": -187.07447814941406,
	"loss": 0.12456157207489013,
	"memory(GiB)": 178.87,
	"nll_loss": 0.09173186123371124,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 19.977113723754883,
	"rewards/margins": 18.163719177246094,
	"rewards/rejected": 1.8133970499038696,
	"step": 105,
	"train_speed(iter/s)": 0.001931
	},
	{
	"epoch": 1.037914691943128,
	"grad_norm": 0.41725555062294006,
	"learning_rate": 5.039466834548568e-05,
	"logits/chosen": -1.0610564947128296,
	"logits/rejected": -1.0492563247680664,
	"logps/chosen": -17.22906494140625,
	"logps/rejected": -178.35047912597656,
	"loss": 0.10526471138000489,
	"memory(GiB)": 178.87,
	"nll_loss": 0.0985727533698082,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 19.968387603759766,
	"rewards/margins": 18.300251007080078,
	"rewards/rejected": 1.6681346893310547,
	"step": 110,
	"train_speed(iter/s)": 0.001939
	},
	{
	"epoch": 1.085308056872038,
	"grad_norm": 0.5403364300727844,
	"learning_rate": 4.64509350175992e-05,
	"logits/chosen": -0.9350749254226685,
	"logits/rejected": -0.9276103973388672,
	"logps/chosen": -15.192606925964355,
	"logps/rejected": -196.2861785888672,
	"loss": 0.10088248252868652,
	"memory(GiB)": 178.87,
	"nll_loss": 0.09568502753973007,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 20.20822525024414,
	"rewards/margins": 17.932273864746094,
	"rewards/rejected": 2.2759501934051514,
	"step": 115,
	"train_speed(iter/s)": 0.001939
	},
	{
	"epoch": 1.132701421800948,
	"grad_norm": 0.33638796210289,
	"learning_rate": 4.2529303204786953e-05,
	"logits/chosen": -0.8360708355903625,
	"logits/rejected": -0.8255692720413208,
	"logps/chosen": -12.213701248168945,
	"logps/rejected": -178.4746856689453,
	"loss": 0.08850648403167724,
	"memory(GiB)": 178.87,
	"nll_loss": 0.07898052781820297,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 20.77065086364746,
	"rewards/margins": 17.60364532470703,
	"rewards/rejected": 3.167004346847534,
	"step": 120,
	"train_speed(iter/s)": 0.00194
	},
	{
	"epoch": 1.180094786729858,
	"grad_norm": 0.42006343603134155,
	"learning_rate": 3.8654194551920485e-05,
	"logits/chosen": -0.8648909330368042,
	"logits/rejected": -0.8533682823181152,
	"logps/chosen": -13.303857803344727,
	"logps/rejected": -196.53375244140625,
	"loss": 0.11154735088348389,
	"memory(GiB)": 178.87,
	"nll_loss": 0.09461511671543121,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 19.808521270751953,
	"rewards/margins": 18.673742294311523,
	"rewards/rejected": 1.1347795724868774,
	"step": 125,
	"train_speed(iter/s)": 0.00194
	},
	{
	"epoch": 1.2274881516587677,
	"grad_norm": 0.4501703679561615,
	"learning_rate": 3.484974098465636e-05,
	"logits/chosen": -1.0564872026443481,
	"logits/rejected": -1.0499274730682373,
	"logps/chosen": -9.447141647338867,
	"logps/rejected": -210.6065216064453,
	"loss": 0.07890591621398926,
	"memory(GiB)": 178.87,
	"nll_loss": 0.0762052983045578,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 20.350528717041016,
	"rewards/margins": 20.427692413330078,
	"rewards/rejected": -0.07716653496026993,
	"step": 130,
	"train_speed(iter/s)": 0.00194
	},
	{
	"epoch": 1.2748815165876777,
	"grad_norm": 0.48629000782966614,
	"learning_rate": 3.11396344298212e-05,
	"logits/chosen": -1.122717022895813,
	"logits/rejected": -1.1127209663391113,
	"logps/chosen": -8.969633102416992,
	"logps/rejected": -178.16427612304688,
	"loss": 0.07699697613716125,
	"memory(GiB)": 178.87,
	"nll_loss": 0.07132184505462646,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 20.212081909179688,
	"rewards/margins": 18.33711814880371,
	"rewards/rejected": 1.8749620914459229,
	"step": 135,
	"train_speed(iter/s)": 0.001941
	},
	{
	"epoch": 1.3222748815165877,
	"grad_norm": 0.4852510094642639,
	"learning_rate": 2.754697927585399e-05,
	"logits/chosen": -1.0894103050231934,
	"logits/rejected": -1.0850476026535034,
	"logps/chosen": -13.88347053527832,
	"logps/rejected": -190.9267120361328,
	"loss": 0.11755204200744629,
	"memory(GiB)": 178.87,
	"nll_loss": 0.09814213216304779,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 20.125789642333984,
	"rewards/margins": 17.44692611694336,
	"rewards/rejected": 2.678863048553467,
	"step": 140,
	"train_speed(iter/s)": 0.001938
	},
	{
	"epoch": 1.3696682464454977,
	"grad_norm": 1.0523611307144165,
	"learning_rate": 2.4094148492096125e-05,
	"logits/chosen": -1.18220055103302,
	"logits/rejected": -1.183691382408142,
	"logps/chosen": -11.095239639282227,
	"logps/rejected": -180.09048461914062,
	"loss": 0.07882866859436036,
	"memory(GiB)": 178.87,
	"nll_loss": 0.06894151866436005,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 19.55763816833496,
	"rewards/margins": 17.858949661254883,
	"rewards/rejected": 1.6986896991729736,
	"step": 145,
	"train_speed(iter/s)": 0.001938
	},
	{
	"epoch": 1.4170616113744074,
	"grad_norm": 0.9743487238883972,
	"learning_rate": 2.0802644302934683e-05,
	"logits/chosen": -1.2402594089508057,
	"logits/rejected": -1.229536771774292,
	"logps/chosen": -10.528487205505371,
	"logps/rejected": -173.75906372070312,
	"loss": 0.05581583380699158,
	"memory(GiB)": 178.87,
	"nll_loss": 0.04851926118135452,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 21.25326156616211,
	"rewards/margins": 17.409027099609375,
	"rewards/rejected": 3.84423565864563,
	"step": 150,
	"train_speed(iter/s)": 0.001939
	},
	{
	"epoch": 1.4170616113744074,
	"eval_logits/chosen": -1.2280174493789673,
	"eval_logits/rejected": -1.2243937253952026,
	"eval_logps/chosen": -11.513480186462402,
	"eval_logps/rejected": -170.34632873535156,
	"eval_loss": 0.11434541642665863,
	"eval_nll_loss": 0.10074843466281891,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": 21.33014678955078,
	"eval_rewards/margins": 17.368852615356445,
	"eval_rewards/rejected": 3.9612925052642822,
	"eval_runtime": 228.4343,
	"eval_samples_per_second": 0.074,
	"eval_steps_per_second": 0.074,
	"step": 150
	},
	{
	"epoch": 1.4644549763033177,
	"grad_norm": 1.9418814182281494,
	"learning_rate": 1.7692964284439505e-05,
	"logits/chosen": -1.2662538290023804,
	"logits/rejected": -1.2612764835357666,
	"logps/chosen": -8.698439598083496,
	"logps/rejected": -195.09063720703125,
	"loss": 0.07216010689735412,
	"memory(GiB)": 178.87,
	"nll_loss": 0.05235465615987778,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 20.530902862548828,
	"rewards/margins": 19.212444305419922,
	"rewards/rejected": 1.3184587955474854,
	"step": 155,
	"train_speed(iter/s)": 0.001934
	},
	{
	"epoch": 1.5118483412322274,
	"grad_norm": 2.3436055183410645,
	"learning_rate": 1.4784473717366387e-05,
	"logits/chosen": -1.2591499090194702,
	"logits/rejected": -1.2514972686767578,
	"logps/chosen": -9.602866172790527,
	"logps/rejected": -204.9786376953125,
	"loss": 0.06997905969619751,
	"memory(GiB)": 178.87,
	"nll_loss": 0.0632362961769104,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 20.80245590209961,
	"rewards/margins": 19.767711639404297,
	"rewards/rejected": 1.0347453355789185,
	"step": 160,
	"train_speed(iter/s)": 0.001935
	},
	{
	"epoch": 1.5592417061611374,
	"grad_norm": 0.4779791235923767,
	"learning_rate": 1.2095284991437733e-05,
	"logits/chosen": -1.2291038036346436,
	"logits/rejected": -1.2240577936172485,
	"logps/chosen": -12.217391014099121,
	"logps/rejected": -200.1668243408203,
	"loss": 0.0741503119468689,
	"memory(GiB)": 178.87,
	"nll_loss": 0.0690564215183258,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 19.801494598388672,
	"rewards/margins": 18.78908920288086,
	"rewards/rejected": 1.0124043226242065,
	"step": 165,
	"train_speed(iter/s)": 0.001934
	},
	{
	"epoch": 1.6066350710900474,
	"grad_norm": 0.6247928142547607,
	"learning_rate": 9.642144811900739e-06,
	"logits/chosen": -1.225555181503296,
	"logits/rejected": -1.2201206684112549,
	"logps/chosen": -9.304153442382812,
	"logps/rejected": -219.2526092529297,
	"loss": 0.056455212831497195,
	"memory(GiB)": 178.87,
	"nll_loss": 0.04982581362128258,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 21.17973518371582,
	"rewards/margins": 21.15430450439453,
	"rewards/rejected": 0.025428902357816696,
	"step": 170,
	"train_speed(iter/s)": 0.001935
	},
	{
	"epoch": 1.6540284360189572,
	"grad_norm": 0.7543458342552185,
	"learning_rate": 7.440329910775273e-06,
	"logits/chosen": -1.2147386074066162,
	"logits/rejected": -1.2046931982040405,
	"logps/chosen": -11.757909774780273,
	"logps/rejected": -177.62388610839844,
	"loss": 0.11545271873474121,
	"memory(GiB)": 178.87,
	"nll_loss": 0.0637175664305687,
	"rewards/accuracies": 0.9750000238418579,
	"rewards/chosen": 19.637483596801758,
	"rewards/margins": 17.161773681640625,
	"rewards/rejected": 2.4757096767425537,
	"step": 175,
	"train_speed(iter/s)": 0.001935
	},
	{
	"epoch": 1.7014218009478674,
	"grad_norm": 0.9932089447975159,
	"learning_rate": 5.5035519122409895e-06,
	"logits/chosen": -1.3096096515655518,
	"logits/rejected": -1.3018414974212646,
	"logps/chosen": -10.068361282348633,
	"logps/rejected": -190.3312225341797,
	"loss": 0.07646466493606567,
	"memory(GiB)": 178.87,
	"nll_loss": 0.07355433702468872,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 19.979000091552734,
	"rewards/margins": 18.556865692138672,
	"rewards/rejected": 1.4221333265304565,
	"step": 180,
	"train_speed(iter/s)": 0.001934
	},
	{
	"epoch": 1.7488151658767772,
	"grad_norm": 1.022765040397644,
	"learning_rate": 3.843871944606969e-06,
	"logits/chosen": -1.3755590915679932,
	"logits/rejected": -1.3671270608901978,
	"logps/chosen": -8.571699142456055,
	"logps/rejected": -195.33099365234375,
	"loss": 0.06720139980316162,
	"memory(GiB)": 178.87,
	"nll_loss": 0.06385985761880875,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 20.94257164001465,
	"rewards/margins": 19.358797073364258,
	"rewards/rejected": 1.5837746858596802,
	"step": 185,
	"train_speed(iter/s)": 0.001935
	},
	{
	"epoch": 1.7962085308056872,
	"grad_norm": 0.2912954092025757,
	"learning_rate": 2.4716255306108605e-06,
	"logits/chosen": -1.4053622484207153,
	"logits/rejected": -1.397859811782837,
	"logps/chosen": -7.519402503967285,
	"logps/rejected": -204.46128845214844,
	"loss": 0.05536782741546631,
	"memory(GiB)": 178.87,
	"nll_loss": 0.05153592675924301,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 21.256345748901367,
	"rewards/margins": 20.680620193481445,
	"rewards/rejected": 0.5757262706756592,
	"step": 190,
	"train_speed(iter/s)": 0.001936
	},
	{
	"epoch": 1.8436018957345972,
	"grad_norm": 0.3675084114074707,
	"learning_rate": 1.3953582237871521e-06,
	"logits/chosen": -1.3809669017791748,
	"logits/rejected": -1.3703250885009766,
	"logps/chosen": -15.006329536437988,
	"logps/rejected": -199.88511657714844,
	"loss": 0.08639336824417114,
	"memory(GiB)": 178.87,
	"nll_loss": 0.07968685030937195,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 20.411216735839844,
	"rewards/margins": 19.984678268432617,
	"rewards/rejected": 0.4265367090702057,
	"step": 195,
	"train_speed(iter/s)": 0.001936
	},
	{
	"epoch": 1.890995260663507,
	"grad_norm": 0.941786527633667,
	"learning_rate": 6.217723917238128e-07,
	"logits/chosen": -1.3778371810913086,
	"logits/rejected": -1.3684101104736328,
	"logps/chosen": -7.696736812591553,
	"logps/rejected": -223.34890747070312,
	"loss": 0.0544640064239502,
	"memory(GiB)": 178.87,
	"nll_loss": 0.04780174046754837,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 19.833518981933594,
	"rewards/margins": 21.463306427001953,
	"rewards/rejected": -1.6297862529754639,
	"step": 200,
	"train_speed(iter/s)": 0.001936
	},
	{
	"epoch": 1.890995260663507,
	"eval_logits/chosen": -1.3681780099868774,
	"eval_logits/rejected": -1.363707423210144,
	"eval_logps/chosen": -9.783992767333984,
	"eval_logps/rejected": -174.166015625,
	"eval_loss": 0.09675905108451843,
	"eval_nll_loss": 0.08484382927417755,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": 21.503095626831055,
	"eval_rewards/margins": 17.923770904541016,
	"eval_rewards/rejected": 3.5793240070343018,
	"eval_runtime": 228.9543,
	"eval_samples_per_second": 0.074,
	"eval_steps_per_second": 0.074,
	"step": 200
	},
	{
	"epoch": 1.9383886255924172,
	"grad_norm": 0.34630173444747925,
	"learning_rate": 1.5568547761034004e-07,
	"logits/chosen": -1.3920785188674927,
	"logits/rejected": -1.3849624395370483,
	"logps/chosen": -9.088478088378906,
	"logps/rejected": -196.94784545898438,
	"loss": 0.0544456422328949,
	"memory(GiB)": 178.87,
	"nll_loss": 0.04648340493440628,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 20.052505493164062,
	"rewards/margins": 19.269899368286133,
	"rewards/rejected": 0.7826067805290222,
	"step": 205,
	"train_speed(iter/s)": 0.001931
	},
	{
	"epoch": 1.985781990521327,
	"grad_norm": 0.3001299798488617,
	"learning_rate": 0.0,
	"logits/chosen": -1.345251202583313,
	"logits/rejected": -1.3417621850967407,
	"logps/chosen": -13.094474792480469,
	"logps/rejected": -177.3877410888672,
	"loss": 0.10830415487289428,
	"memory(GiB)": 178.87,
	"nll_loss": 0.06853027641773224,
	"rewards/accuracies": 0.987500011920929,
	"rewards/chosen": 19.333545684814453,
	"rewards/margins": 17.912960052490234,
	"rewards/rejected": 1.4205853939056396,
	"step": 210,
	"train_speed(iter/s)": 0.00193
	},
	{
	"epoch": 1.985781990521327,
	"eval_logits/chosen": -1.3710763454437256,
	"eval_logits/rejected": -1.364762783050537,
	"eval_logps/chosen": -9.65355110168457,
	"eval_logps/rejected": -172.0828094482422,
	"eval_loss": 0.09402994066476822,
	"eval_nll_loss": 0.08348451554775238,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": 21.51613998413086,
	"eval_rewards/margins": 17.72849464416504,
	"eval_rewards/rejected": 3.787644863128662,
	"eval_runtime": 228.9559,
	"eval_samples_per_second": 0.074,
	"eval_steps_per_second": 0.074,
	"step": 210
	}
	],
	"logging_steps": 5,
	"max_steps": 210,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.9852517843992576e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}