硬件故障裕度(硬件容错)HFT指安全仪表系统在不发生整体故障的情况下能够保持并继续运行的硬件失效数量。结构约束是依据子系统(如传感器、逻辑控制器和最终元件)所要求的安全完整性等级(SIL)、所用组件的类型、子系统组件的安全失效分数SFF所建立的。当前,流行的SIL证书种类较多,质量良莠不齐,这些证书应谨慎解释。一些证书存在SFF数值不准确的情况,以下声称阀门SFF大于60%的情况是无效的:对“无作用”失效λNE给予信任;将部分行程测试(PST)视为诊断并给予信任。事实上,仅凭证书不足以证明产品符合GB/T20438-2017(IEC 61508:2010)第二部分和第三部分的要求,而必须要依据该文献第二部分附录D提供的安全手册。
1、应用硬件故障裕度的必要性
失效率的不确定性和设计中的假设通常需要采用“结构约束”来补偿。GB/T20438-2017(IEC 61508:2010)和GB/T21109-2007(IEC 61511:2003)均要求依据所需的SIL等级来设定结构约束。众所周知,结构结束是以HFT进行表征,即在发生故障时执行所需功能的能力。HFT是指当硬件中出现一个或多个危险失效时,某一组件或子系统继续执行所要求的安全仪表功能(SIF)的能力。HFT为1是指有2台设备,其结构约束如下,即2个组件或子系统中的一个发生危险失效不能阻止安全动作的触发。HFT对于缓解SIF设计中的潜在缺陷是必要的,这些缺陷可能是由于SIF设计时所做假设的数量,以及各种应用中使用的组件或子系统失效率的不确定性所致,只简单计算一下失效率是不够的。为了满足SIL等级目标,不仅需要具备最低的容错级别,而且计算出的失效率还应足够低。需要的容错级别主要取决于:失效率数据的置信度水平,主要的失效模式(安全或危险),是否能够检测到失效并对其进行响应。通过采用容错回路结构中的冗余组件可以实现容错,2台阀门串联结构实现容错如图1所示。
图1 2台阀门串联结构实现容错示意
GB/T21109.1-2007(IEC 61511:2003)中针对HFT的方法仅适用于相对简单的结构。GB/T20438-2017(IEC 61508:2010)中的方法可用于评估复杂结构的HFT要求。
2、硬件故障裕度应用中存在的问题
GB/T21109-2017(IEC 61511:2003)11.4条给出了HFT的要求。传感器、最终元件和非PE逻辑控制器的最小HFT见表1所列,表1规定了传感器与最终元件的HFT等级。所要求的HFT等级会随着SIL等级的提高而增加,并且给出了主导失效模式为安全状态或为可检测出危险失效条件下的要求。
表1 传感器、最终元件和非PE逻辑控制器的最小
若主导失效模式为危险失效且无有效诊断,则需要增加HFT。危险失效与安全失效模式下的最小HFT见表2所列。
表2 危险失效与安全失效模式下的最小HFT
驱动式停车阀的常见失效模式为危险失效,很容易在开启位置卡塞,从而发生泄漏。该类失效模式不仅危险,而且不易被检测到。
为了实现SIL3等级要求,则需要串联安装4台阀门,若能够证明“调整有限”和“先验使用”(证据充分),则标准允许降低HFT的要求(危险失效模式下的HFT减1)。危险失效与安全失效模式在先验使用证据充分且调整有限情况下的最小HFT见表3所列。
表3 危险失效与安全失效模式在先验使用证据充分且调整有限情况下的最小HFT
因此,实现SIL3等级的最低要求是串联3台阀门。然而,该方案不可行。安装3台阀门降低了可靠性,而且会增加基建与维护成本。
3、采用路径1H的方案
可以使用GB/T20438-2017(IEC 61508:2010)的路径1H来替代GB/T21109-2007(IEC 61511-2003)中的方法,以便确定所需的HFT。路径1H可以区分简单的“A类”设备和复杂的“B类”设备。
“A类”设备具有:明确的失效模式、确定性的行为、充分可靠的失效率数据。其他设备归为“B类”,该类设备具有复杂的行为和失效模式,且通常为包含软件的设备。
路径1H需要针对各组件的综合性数据和文件,以及严格的质量和配置管理。此外,还必须为各组件提供安全手册,以证明其符合GB/T 20438-2017(IEC 61508:2010)。“A类”设备的要求与GB/T 21109-2007(IEC 61511:2003)中“调整有限”和“先验使用”的要求相同。
路径1H采用SFF的概念,这是评估常见失效是否为安全状态的另一种方法。所要求的最高SIL等级取决于HFT,相关结果与GB/T 21109-2007(IEC 61511:2003)给出方法的结果近似。
A类安全相关子系统的结构约束见表4所列,表4给出的是依据HFT和SFF在路径 1H下的A类组件所要求的最高SIL等级。
当SFF<60%时,主要失效模式并未处于安全状态,若要达到SIL3,仍然要求HFT为2,则必须串联3台阀门,若只使用2台阀门来实现SIL3,则需要证明SFF≥60%。2台串联阀门示意如图1所示。
表4 A类安全相关子系统的结构约束
3.1 展示合规性时的常见错误
总失效率ΣλT是导致跳车的“安全”失效的失效率λS,与通过在线诊断检测出的 “危险”失效的失效率λDD,以及未检测出的“危险”失效的失效率λDU之和,如公式ΣλT=ΣλS+ΣλDD+ΣλDU所示;SFF的计算如公式SFF=(ΣλS+ΣλDD)/ΣλT所示。
3.2 “无作用”失效
常见的方法是添加无关的“无作用”失效λNE,例如,典型的阀门和执行器组件将具有:λS≈0.3×10-6/h, λD≈1.1×10-6/h,且无诊断功能,则λDD=0, SFF≈0.3/(0.3+1.1)≈21.4%。
λNE对安全功能没有任何影响。典型的λNE有可能是执行机构上的位置开关故障或者变送器读数显示故障,该类型的失效既不是危险失效,也不是安全失效。如果发生该类故障,并不会阻止变送器发送信号,也不会造成误停车。因此,该类失效对误跳车率或要求时的失效概率均没有影响,故应该被忽略。加入λNE会增加SFF:λS≈0.3×10-6/h,λNE≈1.0×10-6/h, λD≈1.1×10-6/h, λDD=0,则SFF≈(1+0.3)/(0.3+1+1.1)≈54.2%。
GB/T 20438-2017(IEC 61508:2010)中给出的SFF公式决不允许包含λNE。IEC61508:2010增加了明确的说明,λNE必须排除在SFF之外。
目前国内有部分在用的证书均对λNE给予了信任,因此,都是无效的。
过去一些选择方法用于SIL验证计算的商业软件包均对λNE给予信任。例如:Exida公司于2007年出版的第三版安全设备可靠性手册(SERH)曾将SFF计算中的λNE给予信任。现在用户计算SFF时应注意该问题。
3.3 部分行程测试
德国莱茵TÜV公司的证书在SFF的计算中对PST给予了信任:如果PST足够频繁,则可以称之为诊断。GB/T20438-2017(IEC 61508:2010)第二部分7.4.4.1条明确了诊断功能的频率要求。
低要求模式下,只有当诊断测试间隔与修复检测出失效所用的时间之和,小于确定安全功能实现的SIL计算中所使用的平均恢复时间MTTR时,才能对诊断给予信任。
诊断间隔必须包含在用于计算失效概率的MTTR之内。MTTR的影响因素见表5所列。
表5 MTTR的影响因素
如果MTTR延长到以月为单位的时间段,则会导致SIF失效的可能性大幅增加。相同的要求同样适用于HFT>0的高要求模式和连续模式。
在HFT=0的高要求模式和连续模式下,则允许:诊断间隔加安全动作响应时间必须小于过程安全时间;诊断测试率必须比要求率至少高100倍以上。
对于流程领域的低要求应用,每周或每天的自动测试可能足够频繁,但通常不切实际。6个月测试也不能归类为诊断,且无助于改善SFF。
德国莱茵TÜV公司已于2016年发表过声明,阐述如何解释该类证书。声明部分内容如下:
①对最终元件(尤其是阀门)进行认证,依据功能安全标准IEC 61508:2010对某些SIL的要求,SFF是至关重要的因素。由于SFF为安全失效与可检测出危险失效之和与总失效之比,因此有必要依据所要求的SIL等级确定安全失效和可检测出的危险失效。有关安全失效更为精确的定义可参见IEC 61508:2010。很显然,最终元件(尤其是阀门)没有足够的安全失效(甚至无安全失效),以达到SIL1以上的等级。因此,必须对最终元件采取诊断措施,以增加可测到的危险失效和SFF。以下要求适用于诊断措施:诊断措施必须为自动在线测试;测试频率至少比要求率高10倍;PST可以达到的最高诊断覆盖率DC为70%;SFF检验测试并非为诊断措施,因此不得用于增加SFF。
②EN161:2011/A3:2013 Automatic shut-off valves for gasburners and gas appliances中定义了SFF的替代定义,可用作确定所需HFT的替代方法。该方法基于失效模式与影响分析(FMEA),并考虑了“故障排除”(视同检测到的故障)。在进行FMEA期间,这些“故障排除”必须要证明是合理的。EN161:2011/A3:2013中定义的方法要求SIL3系统的HFT至少为1。如果使用该替代方法估算SFF,则必须要在证书当中声明。
3.4 在无证据的情况下假设先验使用
GB/T21109-2007(IEC 61511:2003)第一部分11.5.3条对文件要求进行了严格规定,以支持先验使用的声明。但这些要求较为繁琐,在实践中很难达到。大多数用户发现比较容易证明符合GB/T20438-2017(IEC 61508:2010)第二部分和/或第三部分,但需要采购独立认证的组件。
3.5 假设符合GB/T20438-2017(IEC 61508:2010)
GB/T20438-2017(IEC 61508:2010)第二部分7.4.9.6条要求供应商必须为声称符合该标准的每种产品提供安全手册,否则不能声称其合规。其中附件D给出了安全手册中应包含的详细要求,这些要求的信息类似于支持“先验使用”要求的信息。
4、采用路径2H的方案
鉴于GB/T20438-2017(IEC 61508:2010)路径1H在获取SFF时可能存在的问题,故在采用路径1H的HFT方案解决实际问题时应慎重。GB/T20438-2017(IEC 61508:2010)路径1H和GB/T21109-2007(IEC 61511:2003)均基于失效率,置信度水平至少为70%。这意味着所记录的两次失效之间70%的时间间隔要长于计算中使用的平均故障间隔时间MTBF。即计算要基于失效率λ70%,其至少要达到所记录的失效率的70%。HFT的目的是补偿失效率数据和假设中的不确定性。如果能够降低不确定性,则可以减少HFT。路径2H是基于90%的失效率的置信度水平,置信度水平如图2示。
事实上,路径2H的要求非常简单,如果能够证明置信度水平,则HFT为1足可以满足SIL3的要求,HFT为0即可满足SIL2的要求。对于“A类”组件,无需考虑SFF。而“B类”组件的要求很简单,“路径2H中使用的所有B类组件的诊断覆盖率应不低于60%”,置信度水平为90%的失效率比置信度水平为70%的失效率大约高0.8倍标准偏差(0.8σ)。
图2 路径2H置信度水平示意
IEC 61511:2016第一部分对基于路径2H的HFT要求进行了详细说明。
IEC 61511:2016中根据SIL等级的最小HFT见表6所列,HFT为1足可以满足SIL3等级。IEC6 1511:2016标准中已取消90%置信度水平要求。
表6 IEC 61511:2016根据SIL等级的最小HFT
5、数据搜集
5.1 可靠的数据来源
可靠的数据来源有两种:海上设备和可靠性数据库(OREDA),SERH。
由挪威科技工业研究院(SINTEF)发行的 OREDA提供了标准偏差和烃类加工行业中常用组件失效率的平均值,OREDA基于广泛的现场经验,尽管其应用范围有限。SERH由美国Exida公司出版发行,SERH中的失效率是采用失效模式及影响诊断分析(FMEDA)计算的,但基于单个组件的广泛数据集。尽管OREDA包含一些“特定现场”的失效,且OREDA的失效率有可能是相应SERH中失效率的2倍,但二者的结果大致上相同。
5.2 系统性失效的不同处理
数据来源之间存在差异的原因之一在于如何决定从数据集中采集或排除失效。阀门等非电子组件的失效通常是“系统性的”,但仍可以视为“准随机性”。GB/T 20438-2017(IEC 61508:2010)和GB/T 21109-2007(IEC 61511:2003)要求应通过采用适当的技术和措施来避免或控制系统性失效,然而,许多系统性失效却无法轻松消除。标准的目的是将这些“准随机”失效包含在失效概率计算当中,但需要注意的是,在确定需要排除的失效时需要做出判断。
5.3 基于供应商反馈数据的研究
诸多已发布的SIL证书的失效率要比SERH或OREDA中的失效率低约50倍,并声称90%的置信度水平。3.3节给出的示例证书具有:对于球阀的λS≈3×10-8/h,对于气动执行机构的λD≈3×10-8/h,对于组件的ΣλT≈6×10-8/h。
对于类似设备:SERH中λS≈1.4×10-6/h,OREDA中λS≈3.6×10-6/h。
请注意,置信度水平与给定数据集中的数据传播有关。对于小型数据集,可以声明90%的置信度水平,该置信度水平与测量出的失效率有效性或适用性无关。
基于供应商反馈的研究可能会无意中将许多未报告给供应商的失效排除在外。另外,还有可能将被视为“系统性”或“设计范围之外”的失效排除在外。那些源自限制使用数据集的低失效率可能只是一种不切实际的乐观。
5.4 最可靠的数据-用户自己的数据
用户使用自己数据的困难在于需要大量的运行经验。对于相当数量的设备,也许需要数十年的经验。分析失效原因与失效率同样重要,常见的系统原因必须予以控制。
6、结束语
GB/T20438-2017(IEC 61508:2010)和GB/T21109-2007(IEC61511:2003)路径1H中的HFT方法在流程领域中实际上并不适用。该方法需要串联3台阀门(1oo3表决形式)才能实现SIL3等级。GB/T20438-2017(IEC 61508:2010)路径2H的依据是将置信度水平提高到90%。该方案只允许使用2台阀门作为最终元件来实现SIL3等级。
IEC61511:2016采用路径2H,但并未明确要求90%的置信度水平。OREDA和SERH提供的失效率数据被公认为可靠。该类参考文件提供了足够信息,故能够以90%的置信度水平推断失效率。国内诸多流行的证书声称失效率远低于OREDA和SERH当中的失效率。用户应尽可能地收集自己的数据,尽管收集证据的工作异常繁重且需要大量证据。用户应将不同来源的失效率经常进行比较和评估,以确定其合理性。
对于路径2H而言,应采取较为保守的方法,并考虑失效率的整体传播性。所有的阀门失效本质上讲都是系统性的,因此,可以在一定程度上加以避免或控制。在评估失效率时,应考虑计划操作和维护的有效性。此外,还应特别注意辨识和控制好共因失效CCF,原因是该类失效几乎始终在计算出的失效概率中占据主导地位。
在确定SFF时,某些在用的证书因λNE或PST而备受赞誉,但这些证书必须谨慎解释。
作者:徐志杰、王立奉、黄刚