写在前面:有投必应全程进度跟踪,1v1简历辅导,团队工程&学术氛围浓厚,除了有复杂精密的工程组件外还有很多可以探索的学术子领域(我组实习生刚中一篇NSDI,另有SoCC等顶会在投),成长空间巨大。可以直接扫码投递简历,也可以直接怼我的微信:cqkgodeep
我们团队的主要职责:超大规模的CPU以及GPU机器学习集群管理,CPU/GPU混合调度,压榨服务器的每一个时间片算力,提升集群整体的资源利用率,为集团节省海量成本,先进的云原生基础设施,挑战世界一流的研发体验,领先业界的稳定性体系。
大部门介绍:
阿里巴巴集团的电商、本地生活、云计算等庞大的业务矩阵构筑在电商与AI紧密结合的技术体系之上,在云原生时代这里已拥有数十万台强大的异构服务器,活跃着数万工程师精英。这个高度复杂的系统由TRE团队负责其稳定性,要为核心链路提供五个九的可用性以及无差错的资金运转,为此我们围绕故障发现、定位、自愈、变更风控和红蓝攻防等方面建设了强大的平台能力,同时也沉淀出一整套技术风险防控和稳定性建设的解决方案。TRE还负责在这个规模范围内,设定和落实硬件系统架构方向、研发混部和弹性相结合的智能调度系统、制定和优化集团整体资源预算、建设实时化的性能分析平台。TRE的研发效能团队,基于云原生的研发基础设施,致力于一切代码化、可编程的、全云端的研发流程,服务全集团的几万工程师,提供世界一流的体验,追求代码高质量工作更快乐。我们的目标是在稳定安全的前提下不断把研发效能与资源效率双双推向极致,同时TRE协同相关团队推进电商与AI和云原生技术的契合,强化新电商技术领先世界的体系优势。
全部评论
(2) 回帖