搜索職位:
-
職位描述
-
崗位職責:
1、從PaaS基礎架構層支持多機多卡訓練,提升訓練加速比,解決訓練瓶頸,并優化并行算法和通信算法;
2、從基礎架構層支持單卡多模型,多卡單模型等推理服務的部署和資源管理,提升資源利用效率;
3、負責AI相關的k8s集群設計與研發,支持GPU,NPU適配,混部,GPU虛擬化,監控,調度等組件的開發。
任職要求:
1、本科以上學歷,計算機相關專業,基礎架構領域5年以上工作經驗&3年以上AI基礎平臺研發經驗;
2、對k8s等主流云原生開源軟件進行代碼級掌控;主流云原生開源軟件PMC或Committer優先;
3、對并行訓練,推理有一定的了解,熟悉GPU虛擬化技術,Linux內核的優先;
4、對MPI,NCCL等并行通信協議有源碼級的理解;
5、具有成功的千卡規模的AI基礎平臺研發經驗優先。
-
企業介紹
-
工作地址
-
武漢