这句话是四年前的需求评审会上说的。
说这话的是后端组的L,入职两年,技术不错,说话一贯有点冲。当时在讨论一个新功能的发布计划,我提了句要预留回滚窗口,他就笑着接了这句:"运维嘛,出了问题重启一下不就好了。"旁边坐着产品、测试、还有我们组长。大家都听到了,有人低头看手机,有人假装在记笔记。我没有立刻回他。
由于是政府的项目,接口的错误率在五分钟内从0.1%飙到了38%,写入开始大量失败。我从床上爬起来,开电脑,登跳板机,第一眼看到的是数据库连接池耗尽的报错:连接池最大设置的200,全部被占满,新请求全部超时。我拉了一下慢查询日志,发现有一个SQL在疯狂跑全表扫描,平均耗时从正常的8ms变成了4200ms。翻了下发布记录,当天下午五点有一次上线,后端组新加了一个查询逻辑,WHERE条件里用了一个没有索引的字段做过滤。我给值班开发发消息,没回。打电话,关机。然后我给L发了消息,因为这个需求是他写的。
运维的工作有大量是在别人不知道的时候做完的。系统稳,大家觉得理所当然。系统崩了,第一个被问的是运维。这个行业有一句话说得很准:运维做得好,没人知道你在干嘛。运维没做好,所有人都知道你存在。我接受这个设定。但别在评审会上当着一屋子人说"不就是重启服务器的"。那句话的代价,是我那晚四点半才睡着。
全部评论
(0) 回帖