首页 > 【阿里巴巴】【阿里云分布式存储】-- SRE 专家

【阿里巴巴】【阿里云分布式存储】-- SRE 专家

职位:【阿里云分布式存储】-- SRE 专家-阿里巴巴

【岗位职责】
【团队介绍】 我们的团队:阿里云分布式存储平台--盘古。 盘古是阿里云飞天操作系统的基础存储平台,支撑了全部阿里云业务。它是一个完全自主研发的分布式存储平台,用一种架构支持低延迟和高吞吐的各种业务。在这个由数十万台机器构成的平台上,你将接触最全面的硬件类型、系统问题、分布式故障模式,对性能指标、稳定要求最高的离在线关键业务。在追求极致地解决问题的过程中获是深入的第一手系统知识,和关于大规模系统设计的洞见。通过全方位的监、管、控和智能化的管理,保障线上始终稳定运行是盘古演进至今,从阿里云走向整个阿里巴巴集团存储中台的核心竞争力。SRE(Site Reliability Engineering)以软件工程的方法来保障线上系统的可靠性是盘古的实践结果,也是大规模计算机系统管理可持续的技术演进之路。 【职位描述】 1. 负责运维管控系统开发和线上运行保障,如制定监控告警体系、构建问题的自动发现、根因分析系统、故障自愈系统,“升系统的易用性”,保障业务永续运行;通过产品化降低分布式存储的运维、应用门槛。 2. 负责双十一等重大活动保障,保障海量峰值下用户体验丝般顺滑,使用技术手段来优化系统成本、性能; 3. 负责分布式存储系统在阿里集团的推广,对接用户需求并负责最终落地。

【岗位要求】
1. 2 年以上的大规模集群实战运维经验,熟悉软件开发和系统架构,掌握至少一门编程语言,C/C++或者python 优先,具有知名运维系统使用、开发经验者优先; 2. 系统工程能力扎实过硬,深入了解服务器和 linux 系统及网络、存储软件栈等上下游链路,具有很强的 线上安全生产敏感度和丰富的故障排查经验; 3. 熟悉系统部署、监控告警,异常发现、可视化分析展示等运维系统建设,对成本控制和系统优化有深刻的理解和实践;有把重复性工作简化成代码的习惯。 4. 具有良好的团队协作、沟通能力,良好的客户服务意识; 5. 具有分布式存储背景者优先,数据修复经验丰富者优化;

【社招待遇和要求】
工作城市:北京,杭州 | 职位类别:研发
薪酬:35K-50K  |  学历要求:本科及以上  |  工作年限:3年以上

投递地址:https://www.nowcoder.com/job/46274?jobIds=41194
我发布的其他职位,点击查看

全部评论

(0) 回帖
加载中...
话题 回帖

推荐话题

相关热帖

近期热帖

历年真题 真题热练榜 24小时
技术(软件)/信息技术类
查看全部

近期精华帖

热门推荐