航天地面系统承担着卫星管理控制、指令上传、遥测数据和业务数据接收处理、以及地面设备设备管理维护等任务,完好的设备状态、正确的任务操作,是确保系统安全和业务实施的前提和基础。在航天任务操作中,有些工作可以通过自动化的流程实现,像基于时间序列顺序执行的每一圈次的数据业务通常可以自动执行,而像设备故障、计划调整、系统测试、设备维护等工作,往往都需要人工手动进行操作或处置。人的可靠性、特别是人为操作失误问题,不仅得到了常规生产流程的重视,在核电厂、航空、航海和航天等对可靠性、安全性要求更高的行业,投入了更多的精力进行分析和解决。
在影响航天任务质量的各种因素中,有的是因设备故障引起,有些是人为误操作所致。美国航天局针对其有人参与的关键任务进行统计分析[1],这些操作都是基于双岗复核实施,其中航天飞机在肯尼迪航天中心(KSC)的地面停放期间,所进行的开关切换操作主要是简单的手工操作,人为失误率为1.9E-3,平均每43次切换发生一次失误;约翰逊航天中心(JSC)国际空间站的岗位控制操作,需要在状态评估的基础上,在规定的时间内从列表中选择执行相应的控制指令,从年到年,共发送指令次,其中人为失误次,平均每次指令发送发生一次失误,人为失误率为5.3E-4;喷气推进实验室(JPL)火星探测器的控制操作,需要分析判断并人工生成指令操作,在次指令控制中,发生次人为失误,平均每次指令发送发生一次失误,人为失误率为1.05E-4。
欧空局分析其地面跟踪站网年至年期间发生的个异常,其中有次是由人为操作失误引起,平均每月有3.4次此类问题发生,每执行圈次任务发生一次人为错误,每35次异常中有一次是人为失误导致。可见人为操作失误对航天任务质量有着不可忽视的影响,轻则导致遥测数据或业务数据损失、某一圈次任务失败,重则危及航天系统的安全。
人为操作失误类型分析
人为操作失误的发生,有些是在正常操作中发生,有的发生在异常应急处置的时机,发生的任务阶段也不尽相同;从发生的原因来看,有操作者自身的内在原因,也有系统设计不合理等外在原因。下面分别加以分析。
内在原因分析
对于操作者自身的原因,从认知过程和人工参与的任务层次两个角度,重点分析岗位人为操作失误的原因。
(1)基于认知过程的原因分析
为了更好的分析人为操作失误的原因,有必要了解人对工作任务的认知过程,这个过程通常可分为三个阶段:第一个阶段是策划阶段,该阶段主要是明确工作目标以及为实现目标而需要采取的一系列操作;第二阶段是存储阶段,将计划内容进行记忆以备需要时实施;第三阶段是执行阶段,对计划中的过程行动进行操作实施。
根据上述三个阶段的划分,就操作者自身原因来看,主要可以分为以下几个方面:
一是疏忽,这主要发生在执行阶段,即对计划操作的不正确实施。在任务操作时,因疲劳或其他原因而精力不集中,这是导致操作失误的主要原因,像在卫星地面设备操作中没有注意到提示信息、选错了参数配置、键盘输入错误等。有分析表明,人只能短时间内对某项工作做到全神贯注,这个指标通常是20分钟左右,超出了这个时间就会注意力下降并有可能产生操作失误。
二是遗漏,这主要发生在记忆阶段,因为人记忆能力的局限,短时内只能记住有限的操作程序,在记忆过程中遗漏了操作规程的部分操作步骤。这样就会发生像没有完全检查到所有指标项、任务实施过程中省略了关键操作步骤,设备维护后没有装订初值等问题。以及操作过程中被外界影响或干扰而中断后,继续后续操作时很容易出现遗漏步骤的情况。还有像对一些近期口头交代尚未纳入操作规程的操作,没有正确的执行,如交接班过程中交代的有关操作事项。三是失策,这主要发生在任务计划阶段,如果把计划的制定也作为一种操作,错误往往发生在策划的方案不适用实现期望的目标,这种错误的代价往往更大,像卫星寿命末期离轨方案的设计,如果操作计划设计不合理就会影响轨位的再利用,严重的还会产生太空垃圾。
上述都是无意造成的失误,还有一类就是出于走捷径,为节省时间精力,而主观违背操作程序和规则。具体原因有的是习惯性的;有的是在特性场景下发生,像迫于时间或工作压力,还有在异常情况下为解决问题而背离程序。
(2)基于人工参与层次的原因分析
根据通用失误建模系统,可将工作任务对人的认知能力需求分为三个层次:第一个层次是岗位基础操作层次,这个层次的工作主要是熟悉掌握任务的基本操作程序,能够完成正常岗位操作;第二个层次是基于规则的操作,需要在既有的问题解决规则中,能够准确地将发生的问题匹配到正确的预案并实施操作;第三个层次是基于知识的操作,这需要在熟练掌握系统结构和工作原理的基础上,通过分析、推理来解决遇到的问题。
操作失误在每个层次都有可能发生。在第一层次中,操作失误通常是疏忽或纰漏,往往是精力分散,注意力不够集中造成;在第二层次和第三层次,操作失误主要是失策导致,在第二层次通常是因为状态判断不清或选取了不适当的处置规则,在第三层次往往是受系统复杂性的影响,操作失误通常是因为对系统的认识理解不充分、压力过大,过于自信或认知局限引起。
有研究表明,在人为失误发生的时机中,61%发生第一层次,28%发生在第二层次,11%发生在第三层次;但由于在实践中最多的是岗位基础操作,而很少进行第二、三层次的操作,所以基于知识的操作发生失误的可能性更大。从发现和改正的概率来看,第一、二、三层次分别是70%、50%和25%。
外部原因分析
从外部原因分析,主要有以下几个方面:
一是防差错设计不到位。在设备的设计研制阶段没有贯彻落实防差错设计原则,导致本可以避免的差错发生,或者导致更加严重的后果。比如人机接口设计不合理,操作界面的配色设计、按键位置的设计和标识不清,不同关键操作集中在狭小区域、布局和分布不合适等情况;还有缺乏必要的引导信息或者操作后果提示信息,以及逻辑设计上缺乏复核校验环节等。
二是训练不够充分,操作人员不能胜任复杂的系统操作。任务操作、尤其是关键任务操作,往往是要求在规定的很短时间内,岗位人员承受高度压力情况下实施,这就对岗位人员的能力、操作的正确性、熟练程度提出了更高的要求,训练的针对性、覆盖性、频度和贴近任务的程度都在一定程度上影响到岗位人员的操作。
三是岗位职责不够明晰,各岗位间界限不够明确。在职责划分上对不同岗位间交叉重迭部分