【华为云技术分享】根因分析

1.  什么是根因分析

在工作中我们经常会遇到根因分析的提法,有时也称作根原因分析或简称RCA(Root Cause Analysis),那什么是根因分析呢?目前还没有一个公认的定义,一般都是从操作层面来解释怎么进行根因分析的,缺少方法论框架性说明。有些书籍将发现问题和寻找解决方案也纳入根因分析的范围,使什么是根因分析变得更模糊。本文通过梳理相关知识,完善概念和模型,希望能在思维方法层面提供一个理解根因分析的新视角。

做为思维方法论,会涉及大量抽象概念和逻辑方法,本文把容易混淆的概念重新定义,而对比较清晰的,可以在网上查询到的概念和方法为了行文简洁就不一一列出了。

根因分析的定义:指在现代管理、科学研究等领域中,带有主观目的性,为彻底解决问题或解释问题而使用的系统的逻辑思维方法以及一套相应的工具。根因分析包括两个步骤,首先通过溯因推理找到造成问题的各种原因,之后再根据原因之间关系,按照需要确定根本原因。

根因分析的主观目的性是指根因不是一个客观的事物,而是根据人的需要来确定的,同一个事情,根据需要完全可以确定不同的根因。例如,一次车祸的根因既可以是人为操作错误,也可以是车辆质量,这取决于分析的角度。

根因分析的系统性是指根因分析有明确的思维步骤和工具,并且要求结果可信。我们在日常生活中遇到问题有时也会刨根问底,但主要是基于经验的,没有严格步骤的,得出结论可能是不可靠的。

根因分析是一种逻辑思维方法,可以做为知识解释和传播,但更重要的,逻辑思维方法也是一种技能,需要长期训练才能得心应手的使用,这点是很多人忽略的。

根因分析做为现代管理手段,已有很多成型工具,主要有两类,一类是思维激发型工具,例如头脑风暴,一类是展示型工具,帮助梳理思路,例如因果图。这些工具使用效果的好坏和文化习惯有很大关系,要根据情况灵活使用。对激发型工具最核心的要点是通过观点碰撞激发灵感,对展示型工具最核心的要点是要符合麦肯锡的MECE原则,即列举要素时做到“互相独立,完全穷尽”,抓到这些要点后就可以根据情况创造性地使用工具了。比约恩·安德森的《根原因分析:简化的工具和技术》是目前比较受欢迎的关于RCA的书,已经出了第二版,虽然内容还有很多可以商榷的地方,比如根因分析的范围是什么。故障树的名称也有歧义,应该是故障原因树,错误的名字会误导分析。但书中的一些工具方法还是很有参考价值,例如创新型工具TRIZ。

根因分析做为系统的思维方法和工具,虽然在现代管理、科学研究中应用较多,但日常生活等领域也一样可以使用。

逻辑思维涉及的一些概念目前定义也比较模糊或深奥难懂,为了帮助理解根因分析,本文也重新进行定义如下:

因果关系,事物间具有先后顺序的确定性联系称作因果关系。前者为“因”后者为“果”。

概率关系,事物间具有先后顺序的具有统计特征的随机性联系称作概率关系。抛硬币的动作和结果就是概率关系。

现象,事物表现出来的,可以观察到或体验到的情况称作现象。

解释,没有经过验证的原因,一般和结果、现象等词一起使用。比如感冒是身体不舒服的原因之一,如果某一天真的身体不舒服了,感冒可以做为一种解释,经医院确诊后成为病因。

问题-原因,特指当因果关系中结果是负面的,不好的情况。这对名词在根因分析中经常一起使用。

2.  问题溯因阶段

问题溯因指通过对事物现象系统的观察和控制,经过逻辑分析和必要的验证,从而找出原因的过程。找到原因有三类方法:

1、穆勒五法,是英国哲学家穆勒1843年根据当时的科学实践经验总结的,包含求同法、求异法,共变法,剩余法,求同求异法等五种归纳推理方法。主要是通过观察不同条件下现象的差异来确定原因,详见百度百科:穆勒五法。这里以非典肺炎流行病源调查的例子给大家一个根因分析的感性认识,在非典流行病病源调查中,发现最初得非典的病人都和果子狸有关,那么按照求同法推断,果子狸就是非典病源,不过又花了几年时间,科学家发现蝙蝠的SARS病毒DNA与人传播的有高度相似性,蝙蝠应该经过果子狸把SARS病毒传播给人类造成非典肺炎,蝙蝠可能才是真正病源。这个案例揭示了求同法这类归纳推理结论的局限性,所以确定复杂现象的原因要审慎地验证。

穆勒五法主要应用在可以对条件和现象进行比较分析的场合,当只有最后结果而没有各种现象可以对比时,可以用下面假说的方法确定原因。

2、假说,根据已有知识通过类推或者没有类似知识而通过顿悟等方式合理猜测原因或规律的思维方法,这些结果可以通过验证手段检验真假。1910年,德国气象学家魏格纳偶然发现大西洋两岸的轮廓极为相似。此后经研究、推断,1915年发表《海陆的起源》,提出了大陆漂移学说。假说的提出有时是顿悟的结果,这种方法强依赖于个人。

归纳法的结果天然存在以偏概全的可能性,黑天鹅效应就是最经典的示例。另外有些原因与问题是概率关系,例如器件故障的原因完全可能是量子效应引起的随机故障,所以上述两种方法发现的原因都需要验证,验证方法有三种:

1.原因可以解释全部已知事实,并且可以预见未知事实。前面说的大陆漂移理论有一点无法解释,大陆漂移的动力在哪?从这个不能解释的疑点出发,1968年法国地质学家勒皮雄又提出板块构造学说,提供了动力的新解释,进一步发展了假说。

2.发现更深层次的原理,例如在确定非典病源的过程中,科学家通过DNA测序发现蝙蝠和人类的SARS病毒有高度相似性,从而确认病源。

3.通过数理统计验证,一般用卡方检验。主要用于科学研究这类可以产生大量条件-结果数据的场景。

3、规则逆推,在软件应用这类可控系统中,一般会预置一些原因定位手段,应用这些手段也可以确定原因,这是一种比较特殊的情况,属于通过规则溯因。

上述这些查找原因的方法可以统称溯因推理。不过要注意的是溯因推理有时也指1900年代由哲学家皮尔士引入的逻辑方法。因为逻辑学从各个分支逐渐发展,所以问题溯因并没有一个统一的定义,这里只取前者的一般意义,以便沟通。

利用上面的方法分析一个重大问题时,往往会得到一个复杂的原因树,下面通过例子感受一下。

某化工公司发生了一次小型爆炸事故,现场人员重伤,设备损坏,生产停产,附近的居民人心惶惶。

首先,我们要确定探讨的是哪一个结果,工厂减产,社会影响,人员受伤都是这次爆炸的结果,这里我们主要关心人身受伤。之后我们要对现场情况进行观察,了解爆炸的强度,现场的布局,人身的防护情况,受伤的部位。我们会对类似的场景进行比较分析,这期间会采用各种专业方法,如与先进的生产流程比较,查看别人是怎么控制这种安全事故的。经过这些步骤,完成了下面的原因分析树。

这个原因树有几个特点:

1.  原因是多层的、链状的,原因与现象是相对而言的,一个原因对上层是原因而对下层而言却是现象。如采购质量差是装备质量差的原因,却是管理失控的现象。

2.  原因可以有很多分支,如爆炸直接原因就有三类,装备质量差,操作不当,生产工艺差。

3.  原因是有颗粒度的,比如爆炸这个动作还可以再细分为点火、化学反应等几个阶段。颗粒度的大小取决于实际需要。

4.  主要原因,次要原因要根据实际情况确定。

 

 

3.   确定根因阶段

找到了原因树,那怎么确定根因呢?在哲学的定义中,根因是指多种原因中深层次,起决定性作用的原因。不幸的是定义中“深层次”,“决定性作用”的含义是模糊的,很难实际操作。最简单的说,根因就是原因的原因,按照这个定义,其实除了直接原因外,所有的原因都是根因,只是根有深浅而已。不过管理实践中的根因分析是希望找到彻底的解决方案,获取最大的改进效益,有很强的目的性,所以可以把在业务管理范围内,能够实施相应改进方案的最深层原因指定为根因。例如上面的爆炸的例子,采购部可以指定采购质量差做为根因,从而改良管理活动获得举一反三的效益。如果把装备质量差做根因,也可以改进,但不是最大的改进效益,而确定上级管理失控做为根因会造成自己无法形成改进方案。

对科学研究的根因分析而言,目的是获得最佳解释,根因分析越深入越好,只会受限于技术能力。

根因分析的注意事项

观察者的知识、技能,背景不同,对同一现象观察的主观认知也会不同

现象是由人观察得出的,这就不可避免地造成因对事物的敏感性不同,同一事情会有不同观察结论。对观察者而言,在思考时往往会忽略某些常见或不言而喻的现象,这有助于简化思考的复杂度,但有时这些现象中却隐含着造成问题的关键原因。杰克韦尔奇的自传中有个例子,在他检查工厂时,发现地上有一滩水,对工厂管理者而言,这滩水可能已经习以为常了,对他们而言是正常现象。而韦尔奇从不同层面思考从而发现了工厂管理上的漏洞。所以管理者不能只在屋子里听报告,报告受报告人的影响,即使看起来再全面也难以反映事物的全部。

原因的探索象一个侦探故事,既要脉络清晰,也要细心,不放过蛛丝马迹。借用罗胖的话:“不抽象,就不能深入思考,不还原,就不知道本来面目”,原因分析既是技术,也是艺术,要不断平衡抽象和细节考察的关系。

观察者的关注点不同,对同一现象得出的根因也会不同

在实际工作中,我们最常遇到的是几种原因共同作用,才能产生某种结果的情况,这些原因都有可能分析出自身的根本原因,至于选取哪一个领域进行分析,取决于分析人员所关心的领域。

例如,因为产品故障引起的大范围电信网络中断事故,网络设计人员从网络设计方面去探求网络可靠性的问题,研发人员会关心到底是什么原因造成产品故障,而产品维护人员会从维护管理角度探讨为什么预防性维护措施没有发挥作用。

原因所处层级越深,解决难度越大,需要的时间越长,最后的效益越大

原因是多层级的,原因所处层级越深,解决的难度越大,所花费时间越长,最后效益就越大。根因分析层级要适可而止,根因一般分析到分析者可控的程度即可。但可有意识进行更深入的根因分析,这样有利于对事物的理解。例如下面这个上世纪80年代电视机质量不良的例子,当我们理解这个技术问题背后有管理,社会等深层原因时,对事物就有了新认知。

问题现象
电视质量不良
技术原因
可能原因是:器件质量不过关,工艺不过关,质量检测不严格。
管理原因
出现器件质量不过关的原因:缺乏采购管理流程,或是流程有缺陷,或是降低成本而忽视了质量。
社会原因
在80年代中国社会环境整体缺乏管理人才和实施环境。
地理历史原因
历史上四面隔离的地理环境造成了中国独特社会环境,闭关锁国,不能引入先进思想。

HDC.Cloud 华为开发者大会2020 即将于2020年2月11日-12日在深圳举办,是一线开发者学习实践鲲鹏通用计算、昇腾AI计算、数据库、区块链、云原生、5G等ICT开放能力的最佳舞台。

欢迎报名参会https://www.huaweicloud.com/HDC.Cloud.html?utm_source=&utm_medium=&utm_campaign=&utm_content=techcommunity

你可能感兴趣的