崗位職責(zé):
1、從事大語言模型(LLM)預(yù)訓(xùn)練算法研究、訓(xùn)練、應(yīng)用,涉及多語言、知識增強(qiáng)、模型性能提升等方面;
2、基于RLHF范式的PPO強(qiáng)化學(xué)習(xí)算法優(yōu)化NLP模型生成效果,減少有害、敏感或偏見相關(guān)回復(fù);
3、支持公司通用類和垂類大模型中的強(qiáng)化學(xué)習(xí)模塊研發(fā)。
?
崗位要求:
1、碩士及以上學(xué)歷,計(jì)算機(jī)、數(shù)學(xué)或自動(dòng)化等相關(guān)專業(yè),兩年以上強(qiáng)化學(xué)習(xí)相關(guān)工作經(jīng)驗(yàn);
2、熟悉?actor-critic、Q-learning、PPO、off-policy?RL等強(qiáng)化學(xué)習(xí)算法,有完整訓(xùn)練過PPO算法經(jīng)驗(yàn)優(yōu)先;
3、對?RLHF基本原理有深入理解,有指導(dǎo)0-1構(gòu)建數(shù)據(jù)集能力?和?訓(xùn)練?RM模型經(jīng)驗(yàn)者優(yōu)先;
4、追蹤了解業(yè)績最新研究成果,包括但不限于instructGPT、LLaMA等大模型;
5、在ICML、ICLR、NeurIPS、AAAI等會(huì)議或期刊上發(fā)表過論文者優(yōu)先。
6、具備良好的溝通能力,跨團(tuán)隊(duì)協(xié)作能力,出色的規(guī)劃、執(zhí)行力,強(qiáng)烈的責(zé)任感,以及優(yōu)秀的學(xué)習(xí)能力。
職位福利:餐補(bǔ)、節(jié)日福利、交通補(bǔ)助、七險(xiǎn)二金
職位亮點(diǎn):央企正編,七險(xiǎn)二金,餐補(bǔ)交通補(bǔ)貼