McKinsey - Four ways to improve tech service resiliency


Author: Kimmy

https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/four-ways-to-improve-technology-service-resiliency

Companies can significantly reduce technology system outages and other costly tech glitches by improving incident response and how they manage change.

问题

单独看起来可能不算很大,但是通常一个公司每年都要面临数百次的弹性故障。

解析

四步

1. 探寻事项发生的根源和模式

深入分析可能存在的阶段,比如

等阶段。这种过程能够发现是否是某些流程导致的频繁错误。

比如某公司在部署后通常只测试happy path,这样促使研发关注度也放在happy path上,可以很快的完成工作,待会带来很多的不稳定因素。而通过提升该测试团队的全回归和用例覆盖能力,把生产环境问题的数量降低了30%。

2. 集成并自动预防和侦测问题

某些流程可以自动化。某大型金融机构通过自动监控和跟踪其移动应用的完整用户旅程中的警告,这些警告关联着一个工单系统,会自动创建工单交由对应的人去处理。这样一个过程应用以后在六周以后减少了8%的问题数量。

通常紧急的问题会跟着一些事务性(Routine)问题一起出现,而团队不得不靠自己来做优先级排序。通常一些团队在快速修复问题的时候会导致更高的变更失败率。除了要提升风险归类以外,还需要创建一个评分系统,通过变更量和应用质量对不同的开发团队分级。对于分值比较低的团队,需要限制生产环境变更;某金融机构采用了这套机制,高评分团队会获得绩效奖励,通过这种机制,团队的平均质量分提升了25~40个百分点,产品质量大大提升。

长期来看这种变更过程都可以纳入自动化管理的流程。

3. 开发工具和SME来加速问题响应

有问题出现时,客户是理解的,但客户不买帐的事长时间的等待解决问题、没有及时告知以及因为问题导致的用户体验下降。

4. 确保整个问题管理机制有组织、有行动、有顶层支持

通常问题管理团队会分析并给出解决方案来避免一些反复出现的问题,但这些方案很难落地,而因此导致更多问题继续出现。

某金融机构大概要花费4周分析并给出问题方案,而需要在等待6周左右才能实现对应的解决方案。通常是因为他们的SLA(Service-Level Agreement 服务等级协议)没有定义清晰。

领导层的支持也很重要。问题团队需要保持与CIO的紧密关系。某公司CIO会召开一个问题管理的状态评审周会,push某些方案执行,两个月后,方案落地时间从25天降低到8天。

再谈问题

需要思考的点:

创建时间:2020-09-07 最近更新时间:2023-11-03