试验|数据汇聚处理系统软硬件结合的测试性、维修性试验方法

2021-10-19 23:02:52·  来源:环境技术核心期刊  作者:明志茂,等  
 
数据汇聚处理系统的通用质量特性具有软硬件结合的特点,针对其通用质量特性中的测试性、维修性试验,提出了软硬件结合的考核方法,利用FMECA梳理出系统硬件LRU级
数据汇聚处理系统的通用质量特性具有软硬件结合的特点,针对其通用质量特性中的测试性、维修性试验,提出了软硬件结合的考核方法,利用FMECA梳理出系统硬件LRU级故障模式和软件配置项故障模式,再从中抽取试验所需的故障数,硬件故障采取基于故障失效率的分层抽样的方法,软件配置项故障模式采取随机抽样的方法,详细阐述了试验实施过程,最后通过数据处理得出了试验结论。
 
随着信息化技术快速发展,装备不再仅仅局限于硬件系统,软件系统占比逐渐增多,数据汇聚处理系统是为适应现代信息战环境以软件为主的装备,主要由服务器等硬件设备组成,软件部署于各服务器,运行环境为室内控温机房。系统包含多个汇聚节点,每个汇聚节点部署于多地,通过云服务对各个节点数据汇聚、分析得到实时支撑数据。在通用质量特性方面,具有软硬件结合,持续可靠运行的特点,针对其测试性、维修性指标要求,需从软件和硬件两个方面进行考核。

目前,大多数测试性、维修性试验仅针对硬件指标开展,软硬件结合的测试性、维修性试验开展较少。在遵循相关标准规定的基础上,课题组针对复杂数据汇聚处理系统的特殊性,设计了试验方案,通过FMECA分析分别对数据汇聚处理系统软件、硬件故障进行全面梳理,采用基于故障模式失效率的按比例分层抽样的方法将所需故障样本进行了合理分配,按规定的维修层级抽取故障样本,兼顾了软硬件结合考核的特点,试验用例覆盖了系统主要功能,试验实施过程细化组织管理流程,全面考核了被试系统的维修性和测试性指标。

测试性、维修性指标要求

《数据汇聚处理系统研制总要求》规定了系统软件和硬件的测试性、维修性指标考核要求。
测试性:在基层级采用BIT或ATE或其他组合方式,将故障隔离到3个LRU或软件配置项以内的比例大于等于80%。
维修性:针对修复时间的维修性试验指标要求,系统在基层级维修条件下,硬件或软件故障平均修复时间不大于0.5小时。

测试性、维修性试验方案

依据GJB8895-2017《装备测试性试验与评价》和GJB2072-94 《维修性试验与评定》这两个标准,满足以下原则统筹制定试验方案。
1) 系统在规定的使用和维修条件中使用,如果能保证产生足够次数的维修作业,满足所采用的试验方法中样本量要求时,可优先采用自然故障,本次试验由于难以确保系统规定的使用和维修条件,且自然故障记录数据量不足,因此采取人工模拟故障注入的方式。
2) 测试性试验与维修性试验规定的层级都是LRU级,初步分析在覆盖被试品主要功能性能指标的情况下,没有可测不可修或者可修不可测的故障模式,可同步开展,共用一个故障样本集,制定试验方案时统筹考虑。

01、
测试性试验方案

承制方给出使用方风险值β为20%,测试性指标最低可接受值q1为80%,根据GJB 8895-2017《装备测试性试验与评价》,可采用最低可接受值试验方案。
考虑订购方风险β和故障隔离率最低可接受值q1,试验所需样本量计算公式(1)如下:
式中:
r—合格判定数
n—样本量
计算或查表可知,验证方案有(n,r)有:(8,0)、(14,1)、(21,2)、(27,3)、(33,4)、(39,5)等。结合维修性试验方案,一般样本量需≥30,因此选取的试验方案是(33,4),当失败样本次数≤4个,判为合格,否则判为不合格。

02、维修性试验方案

维修性指标要求为平均修复时间的维修性检验,使用方风险β取20%,根据GJB 2072-94《维修性试验与评定》,可采用固定样本量试验法验证平均修复时间,选用标准中附录A的方法9进行试验,一般试验样本量≥30。结合系统测试性试验样本量的实际状况,确定维修作业样本量n=33。试验方案见表1。
表1 维修性试验方案

03、备选故障模式库的建立

系统主要以通用服务器、计算机硬件和软件组成,硬件的故障定位成熟可靠,以备件更换为主,软件以恢复功能为主,根据系统的FMECA报告和相似产品外场故障数据,确定系统在规定层次各组成单元的功能故障模式、诱发功能故障模式的故障模式及故障率,梳理出的基层级(LRU)故障样本302个,软件配置项故障30个,硬件故障和软件配置项故障共同组成备选故障模式库,备选故障模式库见表2。
表2 备选故障模式库

04、故障样本的分配

根据试验方案,需从备选故障模式库中选取33个故障样本进行试验,在充分考虑软硬件故障模式覆盖验证的情况下,设定硬件LRU的故障样本数量为16个,软件配置项的故障样本数量为17个。对于16个硬件故障运用按比例分层抽样法进行维修作业分配到各LRU中,故障样本分配表见表3,分配步骤如下:
1)本次试验检测、维修级别定为外场可更换单元,即LRU级,根据FMECA中分出的层级,列出组成单元LRU层级需故障检测、维修的部位,这一层可以是组件、模块、印制板或单个零件;
2) 列出每项需检测、维修的部位的故障率,每项产品的数目,工作时间和加权系数,对开机时全程工作的产品T等于1;非全程工作的产品T等于其工作时间与全程工作时间之比;
3) 计算各组的故障率和各组的故障相对发生频率;
4) 计算分配验证样本量。

表3 故障样本分配表

试验实施

本次试验实施过程分为试验准备和试验执行两个阶段,详细实施步骤如下。

01.试验准备

(一)成立试验工作组
为统筹试验安排,加强对试验过程的管控,本次试验开始前由承试方协调相关人员成立试验工作组。工作组由用户代表、承试方、承制方及一线操作人员组成,试验工作组下设监督管理小组、故障设置小组、测试维修小组、技术保障小组、后勤保障小组。组织机构图见图1。

图1 试验组织机构

1)监督管理小组由用户代表、承试方组成,成员包括组长1名(用户代表)、试验过程管控人员1名(承试方)、记录员1名(承试方),主要职责为:试验准备情况确认,监督试验实施过程,试验样本修复后的状态确认,试验数据记录;
2)故障设置小组成员由承制方指派,成员人数不限,主要职责为:按监督管理小组的要求,完成对被试系统的故障注入以及修复后的确认;
3)测试、维修小组由一线操作人员、承制方组成,由一线操作人员进行实际操作,成员不得兼任其他小组,主要职责为:被试系统注入故障样本后,按照监督管理小组要求具体实施测试和维修作业;
4)技术保障小组由承制方组成,成员人数不限,成员也可兼任故障设置小组成员,主要职责为:试验场地的准备与恢复,处理现场发生的技术问题;
5)后勤保障小组由承制方人员组成。
(二)备品备件准备
为确保试验过程中故障的顺利注入,试验前由承制方负责准备好本次试验所需备品、备件,清单见表4所示。
表4 备品、备件清单


(三)试验场地准备
本次测试性、维修性试验地点位于承制方总装车间,首先规划出试验区域并隔离,然后在隔离区域内模拟被试系统在部署地实际放置情况,试验场地布置图见图2,满足以下环境条件:

1)作业人员与被试系统隔离的试验等待区域满足隔离要求,在不用自测装置时,测试点便于检查和故障隔离;
2)故障件、维修备件、仪器仪表、维修工具等试验保障器材的存放位置宜开展维修作业;
3)检查噪声、振动、防静电是否符合作业要求;
4)温度范围15℃~35℃,相对湿度小于80%。


图2 测试性、维修性试验场地布置图
(四)作业人员确认和技能培训
考虑故障样本和作业的难易程度以及装备后续使用、维修人员的编制因素。本次测试、维修小组的人数定为2人,包括1名一线操作人员和1名承制方人员,由一线操作人员作为主要故障检测及故障排除作业人员。作业人员在试验前已由承制方进行过必要的理论、实操培训,熟悉使用维护说明书的内容。

02.试验执行

试验准备工作完成后,按以下流程执行试验,试验流程图见图3。


图3 测试、维修作业流程图
(一)试验进场
试验开始当天,试验进场时由试验过程管控人员按照工作组分工表进行身份确认并发放工作牌佩戴,以便于现场人员区分管理。由于试验场地较大,参试人员均配备便携无线通信设备,然后参试人员按图2试验场地布置图就位,由试验监督管理小组下达开始试验的指令。
(二)故障样本抽取

由监督管理小组进行故障抽取,抽取方法如下:
1)软件故障抽取方法为:从表2备选故障模式库中的30个软件备选配置项随机抽取;
2)硬件故障抽取,首先按表2备选故障模式库中故障模式的相对发生频率累积范围进行统计,将故障模式的相对发生频率乘100得到累积范围,再进行随机抽样确定,数据来源于故障模式和影响分析(FMECA),得到的故障模式累积范围统计见表5。例如:在抽取硬盘故障时,当生成的随机数是10,从表5可见10在累积范围01~20之间,故抽取硬盘的内部机械或电路故障模式作为模拟注入故障;
表5 故障模式累积范围统计

3)第一个故障抽取完成后,开始故障注入作业,期间监督管理小组视上一个作业完成情况,适时抽取下一个故障样本,并通知故障设置小组做好下一个故障注入的准备工作,每次抽取的故障不重复。
(三)故障注入
故障设置小组按抽取的样本及表2中“故障注入方法”,以人工方式注入故障。每次测试、维修作业只注入1个故障样本。
进行故障注入时,测试、维修小组回避,进入“作业人员休息、等候区”,故障注入完成后,由监督管理组、故障设置组和技术保障组按故障注入成功判据确认故障注入状态,并记录故障注入情况。
(四)故障隔离与维修
故障注入成功后,由试验过程管控人员通知测试维修小组入场,同时,计时人员开始计时,操作人员立即进入“测试、维修作业区”进行故障诊断,记录故障隔离情况。
故障隔离后,测试维修小组接着开展维修工作,在排除故障的过程中,使用所配备的检测设备和维修工具、仪器,完成测试、更换、安装、检查等一系列维修作业。
修复完成后,测试维修小组报维修结束,由故障设置小组和技术保障小组确认故障是否修复,如故障仍未修复,通知作业小组重新进行故障诊断、修复。如确认修复后,由监督管理小组根据现场情况下达停止计时指令,作业小组停止维修作业,记录故障撤销情况,计时人员暂停计时。
(五)试验现场恢复
故障修复后,本次样本试验结束,清退参试人员,并清理现场,测试维修小组进入“维修作业人员休息、等候区”,准备下一个故障样本,按上述步骤重复直至完成33个故障样本。

试验数据处理评估

01、测试性试验数据处理

被试系统总累计注入故障33个,故障注入、故障隔离均顺利完成。试验中每个样本均隔离到3个LRU或软件配置项以内,无隔离失败样本,满足隔离失败样本次数小于等于4次的要求,按公式(2)计算,在L=3的条件下,被试系统的故障隔离率为100%。
1)故障隔离率


式中:
NFIL—正确隔离到小于等于规定可更换单元数的故障数;
NFD —正确检测出的故障数。
2)单侧置信下限估计
最低可接收值验证方案虽然未要求估计参数值,也可以根据n、F值得出参数量值,按公式(3)计算测试性指标的单侧置信下限:

式中:
n—样本量
F—失败次数
PL—单侧置信下限
C—置信度
经计算,被试系统在80%置信度下测试性参数单侧置信下限(PL)=95.2%,大于规定的最低可接受值。

02、维修性试验数据处理

被试系统总累计注入故障33个,维修性试验过程记录见表6。
表6 维修性试验过程记录
按公式(4)及公式(5)计算平均维修时间和方差:

式中:

—平均维修时间;
nc—故障样本数量;
Xcti—单个故障样本维修时间。

式中:

—样本方差。
将计算数据代入公式(6),若计算结果满足不等式关系,则接收。


式中:

—规定的平均维修时间;

—百分位数。
经计算,本次维修性试验平均维修时间=17min;
=25min,公式(6)成立,被试系统维修性指标达到规定要求。

结 论

测试性和维修性是装备重要的质量特性,我国研究起步较晚,目前来说,国内对测试性和维修性技术的应用主要体现在航空装备上,逐渐推广应用到航天、航海和地面装备,对于具有软硬件结合特点的数据汇聚处理系统,这类装备的相关试验开展的就更少。课题组从系统的组成特点出发,在兼顾软硬件验证的基础上,制定了合理的试验方法,试验实施过程严谨有序,试验效果较好,达到了试验目的,本文详细总结了试验方案制定、试验实施、数据处理等方面内容,可为广大同行开展同类设备测试性、维修性试验提供参考。

引用本文:

明志茂,洪翔,赵可沦.数据汇聚处理系统软硬件结合的测试性、维修性试验方法[J].环境技术,2021,232(04):117-122.

专家简介:明志茂(1977-),男,工学博士/博士后,高级工程师,兼任广电计量技术研究院院长,从事产品可靠性设计与分析、试验与评价、半导体元器件筛选与失效分析等研究。
分享到:
 
反对 0 举报 0 收藏 0 评论 0
沪ICP备11026620号