首页 > 【蚂蚁集团】云原生基础设施SRE岗
头像
cccupcake
编辑于 2021-03-07 12:57
+ 关注

【蚂蚁集团】云原生基础设施SRE岗

职位:云原生基础设施SRE岗-蚂蚁集团

【岗位职责】
SRE(Site Reliabilitiy Engineering)是结合传统软件工程与系统运维形成的新的技术体系,用以组建大规模高可用的分布式系统。蚂蚁基础设施中间件SRE团队的使命在于确保基础设施在快速演进的同时,具备高可用性以及扩展性。团队从高可用的角度切入到基础设施各部分组件的研发设计,通过工程化手段来优化生产运行中低效,繁复的操作,并致力于建设完善的监控体系以提高故障处理效率。 本职位包含大数据 SRE、数据智能运维分析专家、中间件 SRE、平台研发专家、区块链 SRE 5 个岗位 (P5、P6、P7、P8均有需求) 职位描述 一、大数据 SRE 1. 负责高可用体系建设,如故障自动定位、自动恢复、自适应容灾等,保障业务持续可用; 2. 负责双十一等重大活动保障,保障海量峰值下用户体验丝般顺滑,同时确保成本可控; 3. 负责人工智能和大数据领域新技术探索及落地,如资源调度、存储计算分离、离在线混部、分布式计算等。 二、中间件 SRE 蚂蚁金服中间件团队使用 Service Mesh、SofaStack、Serverless 等技术,上层业务提供统一高效的服务注册、消息、定时任务、限流等能力。中间件SRE团队致力于打造新一代中间件云原生系统的SLA体系,建设各种场景下的高可用能力,推进新的云原生技术在蚂蚁快速落地的同时,为上游业务提供5个9的可用率。加入我们,你将 1. 设计中间件系统的高可用技术风险体系,用以保障双十一等大型活动的平稳进行 2. 设计并支撑 Service Mesh、Serverless 在蚂蚁大规模场景下的接入、部署和升级方案 3. 建设中间件系统的监控和SLA规范,能够利用算法对监控进行持续降噪 4. 建设中间件变更防御、异常定位和自愈系统,能够快速定位和处理故障 三、平台研发专家 1. 负责自动化体系的建设。如快速部署变更、自动恢复、自适应容灾等,提升技术效能; 2. 负责双十一等重大活动保障,保障海量峰值下用户体验丝般顺滑,同时确保成本可控; 3. 负责人工智能和大数据领域新技术探索及落地,如资源调度、存储计算分离、离在线混部、分布式计算等 四、区块链 SRE 1. 负责蚂蚁金服区块链业务的运维保障工作,包括交付、监控、变更、应急响应、故障恢复; 2. 负责区块链高可用、高效运行等运维体系的建设,对高可用和效能提升有深刻的理解和实践; 3. 负责区块链技术风险相关各领域的功能研发,提升自动化、高可用、智能化等技术风险能力; 4. 参与重大项目(比如双11,双12)的技术保障工作,对技术风险领域进行评审和分析,保障重大项目顺利完成; 5. 熟悉技术风险和区块链技术的发展趋势,为团队在技术风险领域的持续发展提出建议和贡献; 五、规模化运维方向 蚂蚁金服基于pouch、Kubenetes等技术建设统一PAAS调度平台为上层业务提供高效的资源调度服务,单集群节点规模超过万台,SRE团队致力于打造新一代云原生系统的SLA体系,为上游业务提供5个9的可用率,在确保资源利用率和规模化运维效率的同时,建设各种复杂场景下的高可用能力。 1. 有强烈的技术热情,工作责任感。 2. 至少精通一门编程语言,Java/Golang优先 3. 熟悉Linux系统和 Shell,对网络及基础设施层有一定的了解和知识储备 4. 有Docker、k8s 、微服务治理及资源调度经验者优先 5. 熟悉监控及自动化部署平台研发,具有大规模集群调度和架构设计经验优先 6. 有良好的沟通,团队协作能力,熟悉DevOps流程

【岗位要求】
一、大数据 SRE 1. 3年以上的大规模集群实战运维经验,熟悉软件开发和系统架构,熟悉 Shell 脚本,掌握至少一门编程语言,Node、C++ 或者 Java 优先; 2. 熟悉服务管理、单元部署、自动扩容等运维系统建设,对成本控制、效能提升和故障排查有深刻的理解和实践; 3. 具有广告或搜索业务背景者优先,具有大规模集群调度和架构设计经验优先; 4. 具有 hadoop/spark/Flink/storm/elasticsearch/kafka 等大数据产品及消息队列系统开发/运维经验者优先; 二、中间件 SRE 1. 有强烈的技术热情,工作责任感。 2. 至少精通一门编程语言,Java/Golang优先 3. 熟悉Linux系统和Shell,对网络、存储等基础设施领域有一定的了解和知识储备 4. 有Docker、k8s 、微服务治理经验者优先 5. 熟悉运维自动化部署平台研发,具有大规模集群架构设计经验优先 6. 有良好的沟通,团队协作能力,熟悉DevOps流程 三、平台研发专家 1. 3年以上的大规模集群管控平台开发经验,掌握至少一门编程语言。Java、Node 优先; 2. 具有监控及自动化部署平台研发背景者优先,具有大规模集群调度和架构设计经验优先; 3. 对云平台有了解,有 IaaS/PaaS/SaaS 背景者优先; 4. 对网络及基础设施层有一定的了解和知识储备,熟悉 Linux 系统和 Shell 5. 有 Docker、k8s 及资源调度经验者优先; 6. 有产品经验优先 四、区块链 SRE 1. 2年以上的大规模集群实战运维经验,熟悉 IAAS/PAAS/SAAS 基础知识,熟悉软件开发过程; 2. 系统运维能力过硬,熟悉 linux/shell/Nginx/网络/数据库/监控/日志/docker等技术,故障排查经验丰富,有较强的动手能力和技术敏感度; 3. 熟悉自动变更、高可用、容灾等运维系统建设,对高可用能力和效能的提升有深刻的理解和实践; 4. 掌握 PYTHON/JAVA 中一门以上的编程语言,有运维开发经验,做过正式的软件项目开发,具有开源项目开发经验者优先; 5. 具有 AWS、Google Cloud Platform、阿里云使用经验者优先

【社招待遇和要求】
工作城市:北京,上海,杭州 | 职位类别:研发
薪酬:25K-50K  |  学历要求:本科及以上  |  工作年限:1年以上

投递地址:https://www.nowcoder.com/job/49889?jobIds=46826
我发布的其他职位,点击查看

全部评论

(0) 回帖
加载中...
话题 回帖

相关热帖

近期热帖

历年真题 真题热练榜 24小时
技术(软件)/信息技术类
查看全部

近期精华帖

热门推荐