工作描述:
1.?參與滴滴機器學(xué)習(xí)訓(xùn)練框架、推理框架的設(shè)計與研發(fā),服務(wù)于內(nèi)部各個產(chǎn)品線;
2.?參與機器學(xué)習(xí)分布式訓(xùn)練,多卡推理框架等底層組件的抽象與設(shè)計,包括訓(xùn)練框架優(yōu)化,分布式網(wǎng)絡(luò)優(yōu)化等;
3.?支持大模型在滴滴內(nèi)部場景的業(yè)務(wù)落地。
任職資格:
1.?熟練掌握Linux環(huán)境下的C/C++與Python語言;
2.?熟練掌握至少一種機器學(xué)習(xí)框架(Tensorflow?/?PyTorch?/?MxNet?或其他自研框架)并熟悉設(shè)計思路及工作原理;
3.?有以下至少一項的背景知識與經(jīng)驗:cuda編程,NCCL,編譯器,高性能網(wǎng)絡(luò),并行計算,集群調(diào)度;
4.?熟悉DeepSpeed、MegatronLM等分布式訓(xùn)練框架者優(yōu)先;
5.?有軟硬件聯(lián)合設(shè)計的經(jīng)驗,能使用數(shù)學(xué)工具分析深度學(xué)習(xí)訓(xùn)練中的優(yōu)化算法優(yōu)先;
6.?有大模型訓(xùn)練推理調(diào)優(yōu)經(jīng)驗優(yōu)先。