首页 > 【北斗计划】美团机器学习平台基础架构组 北斗招聘
头像
wanxy
编辑于 2020-07-29 15:34
+ 关注

【北斗计划】美团机器学习平台基础架构组 北斗招聘

岗位职责

美团机器学习平台是支撑美团全公司的基础平台团队,以平台化思路,支撑全公司的搜索、推荐、广告、运力调度、NLP、语音、图像视频、无人车等全场景的超大规模分布式训练与高可靠高并发低延迟的模型预测需求,职责包括并不限于:

  1. 通过系统性分析手段和自定义计算架构,对超大规模样本和参数的模型训练作业进行系统性的优化,面向单节点异构硬件和高性能网络架构设计通用、高效、智能的数据读取,计算图编译与执行,参数编排能力,通过系统+算法的联合手段,对集群级训练吞吐能力进行极致的性能压榨;
  2. 通过算法建模对复杂模型进行压缩(量化,剪枝,知识蒸馏等),在保证精度要求的情况下,面向云上与端上多种计算设备特性,提供高效轻量模型;
  3. 通过手工优化方法,对于特化模型子结构和特化硬件设备上提供SOTA的实现;持续迭代基于编译的优化方案,提升通用优化的适用性与优化效果,以及对新硬件的覆盖能力;
  4. 管理及优化全公司算法团队硬件资源,通过算法预估与启发式策略,对全公司万级别节点的大规模GPU/CPU集群构建精细化调度服务能力,对于训练作业和预测服务进行极致的利用率优化;
  5. 通过虚拟化技术与高度通用的接口抽象,对于训练与预测场景提供资源高效,环境灵活的运行时支持。

任职要求

  1. 有扎实的计算机基础,编写过大量代码,强大的问题诊断能力,熟练掌握C++和Python;
  2. 对分布式系统、高性能计算有实际项目经验;
  3. 熟悉TensorFlow/PyTorch/MXNet等框架代码的优先;
  4. 熟悉TVM/XLA/Glow等图优化框架代码的优先;
  5. 熟悉GPU、RDMA硬件架构,熟练使用CUDA,NCCL,MPI,Verbs编程的优先;
  6. 熟悉机器学习、深度学习算法的优先;
  7. 有开源项目贡献代码者优先;
  8. 有在OSDI、NIPS、MLSys等顶级会议或期刊中有论文发表者优先。

项目介绍:

1.训练引擎

美团有丰富的业务场景,每个场景都有海量的数据(用户行为、图片、用户评论、客服语音、无人驾驶仿真等),充分利用这些数据建模,能让AI更好的为客户赋能。为了高效同步业界领先的研究成果,美团内部主要基于开源的深度学习框架建模,但开源的深度学习框架在性能上,无法满足公司内复杂场景、大规模训练的需求。目前我们的建设思路是,基于开源框架的模型表达,自研高性能的runtime。从系统的视角来看,在计算图执行、流水线执行、通信框架、分布式参数交换等层面有大量的优化空间;从模型的视角来看,kernelfusion,kernel的优化,梯度压缩,混合精度等都是非常重要的优化方向。除了优化runtime,我们会基于业务领域打造一体化的建模能力,如:onlinelearning,强化学习,图学习等。对于大规模集群,如何做到稳定性、弹性的运行,且不影响算法效果,也是非常有挑战的工作。

2.预测引擎

针对多框架生产出来的模型,要部署到各种各样的硬件,部署到云和端上,且要做到延迟、吞吐、模型内存占用达标,对每个算法团队都是一件非常复杂的工作,这项工作的结果也决定最终模型是否可以应用的业务。我们整合了多套推理引擎,自动选择最优的优化方法进行优化,具体优化方法包括:基于编译的自动优化,基于大量业务实践的手工优化,基于厂商专有硬件的优化。

3.集群调度

针对机器学习的训练和预测任务,如何根据不同的环境要求、资源规格进行高效的部署本身是一件复杂的事情。但如何做到相互不影响,资源使用率更高(在离线混部、动态超卖)是都是非常有挑战的工作。

工作城市

北京市

面试城市&网申截止日期

北京市(2020/10/16截止)

联系方式

  1. 官网申请 https://campus.meituan.com/beidou ,岗位选择【美团机器学习平台基础架构】

全部评论

(1) 回帖
加载中...
话题 回帖

推荐话题

相关热帖

近期热帖

历年真题 真题热练榜 24小时
技术(软件)/信息技术类
查看全部

近期精华帖

热门推荐