China Central FAE Sam Zhang
随着越来越多的工业应用对产品的可靠性和安全性要求越来越高,我们在做产品设计的时候不仅要正确的实现产品功能,同时也需要通过一些功能安全认证,比如家电行业的IEC60730等或者ISO13849等。一般的系统故障可以通过设计的迭代和严格测试来避免,但是硬件的随机失效理论上是无法完全消除的,所以要想提高硬件随机失效的诊断覆盖率,就需要软硬件诊断机制来保障。
作为系统的核心控制部分,MCU主平台的诊断机制就是最关键的部分。针对一般通用的MCU,以Piccolo C2000系列为例,硬件上提供了一些诊断或者校验机制,如下所示:
同时TI也提供了一些软件诊断方案,如MSP430 IEC60730 Software Package和C2000 SafeTI 60730 SW Packages软件库等,可以提供很多的诊断测试功能,例如CPU、时钟、外设、RAM等的诊断,已经可以满足一部分的需求。如下图所示为C2000 SafeTI 60730 SW Packages中的功能和资源消耗。
然而在实际的应用中,有些安全标准要求对RAM进行周期性的在线诊断,同时不能影响程序的正常运行。但是程序在运行过程中存储在RAM中的数据会实时的变化,而RAM的诊断往往会破坏这些存储的数据,比如电机控制类的实时性要求较高的场合。所以在没有ECC的情况下,如何对RAM进行实时在线的诊断是一个值得讨论的问题。
下面以电机控制为例,讨论硬件校验的实现,尤其是RAM在线检测的过程。
1. 系统软件流程
非破坏性的诊断可以放在背景循环里面进行,这些软件诊断不会对实时性中断造成影响,例如看门狗测试,内部晶振测试,FLASH CRC校验,静态变量RAM CRC校验,堆栈溢出判断,以及GPIO口诊断等。另外一些破坏性的或者对实时控制有影响的诊断,可以放到主中断中进行,如RAM March校验,ALU诊断以及CPU寄存器诊断等。具体流程图如下所示:
2. RAM诊断的方法
以C2000 SafeTI 60730 SW Packages为例,主要提供了两种RAM检测方式。
一种是CRC检测STL_CRC_TEST_testRam,此功能用于测试RAM的位错误。该测试以0和1的交替模式填充被测RAM区域,并使用PSA计算RAM的CRC。对于给定的RAM存储器区域,如果RAM存储器中没有任何stuck bit,则CRC值应始终相同。并行串行分析器(PSA)是c28x器件中的一个模块,可用于生成40位给定存储区域上的CRC。 PSA多项式为Y = x40 + x21 + x19 + x2 + 1。PSA通过监视数据读取数据总线(DRDB)来计算CRC值。 一旦激活就会监控Data Read Data Bus (DRDB),当CPU通过DRDB读取数据时,PSA每个时钟周期会为DRDB上的数据生成一个CRC。由于此测试具有破坏性,因此需要将要测试的RAM内容保存到单独的RAM位置。
当然也可以使用软件CRC的方式,使用起来更灵活,并且可以选择非破坏性的方式来计算CRC,对一些静态常量存储的区域可以考虑这种CRC方式。另外一点是软件CRC算法可以更方便的进行代码评估,以满足不同安全标准的要求。
另一种是MARCH检测STL_MARCH_TEST_testRam,此功能直接对RAM进行32bit的读写测试,可以选择进行MarchC 13N或者MarchC-测试。由于此测试具有破坏性,因此也需要将要测试的RAM内容保存到单独的RAM位置。
3. RAM在线检测的实现
由于需要周期性的RAM检测,以电机控制为例,可以将RAM检测放到主中断里面执行。同时关键是不能影响控制程序的运行和实时性,所以主要考虑两点:
第一是主中断时间有限,要尽可能减小RAM检测的时间,所以可以将RAM分成多个小段进行检测,每段RAM越小,占用中断的时间越小,但是所有RAM检测一遍的时间会变长,这个需要综合考虑。
第二是不能破坏RAM中的变量值,所以在检测是之前将RAM段中的内容保存到专门区域,戴检测完成并且通过之后,再将保存好的数据恢复过来,使用memCopy来提高效率。
具体实现方法如下:
首先定义好各个RAM区间的地址范围,可以参考具体的数据手册,如下所示:
然后定义好检测的范围和每次检测的数据长度:
注意由于STL_MARCH_TEST_testRam函数执行32位读/写测试,而在测试RAM单元阵列时,由于RAM单元的16位体系结构,所以要求起始地址为偶数,结束地址为奇数,可以测试的最大内存范围限制为65535个32位字。所以要求测试长度也需要为奇数。
在主中断里面的RAM在线检测函数里,首先将要检测区域的RAM值保存下来:
if ((gStructSTLMonitor.NowRamAddrStart >= MARCH_RAM_START)
&& (gStructSTLMonitor.NowRamAddrStart <= (MARCH_RAM_END-RAM_CHK_NUM)))
{
gStructSTLMonitor.NowRamAddrEnd = gStructSTLMonitor.NowRamAddrStart + RAM_CHK_NUM;
memCopy((uint16_t *)gStructSTLMonitor.NowRamAddrStart,(uint16_t *)
gStructSTLMonitor.NowRamAddrEnd,(uint16_t *)MARCH_RAM_BK);
}
然后进行检测:
gStructSTLMonitor.status = STL_MARCH_TEST_testRam((uint32_t *)
gStructSTLMonitor.NowRamAddrStart,(uint32_t *)gStructSTLMonitor.NowRamAddrEnd);
if(gStructSTLMonitor.status != SIG_RAM_MARCH_TEST)
{
STL_SetFail();
}
else
{
memCopy((uint16_t *)MARCH_RAM_BK,(uint16_t *)(MARCH_RAM_BK + RAM_CHK_NUM),
(uint16_t *)gStructSTLMonitor.NowRamAddrStart);
gStructSTLMonitor.NowRamAddrStart = gStructSTLMonitor.NowRamAddrEnd + 1;
gStructSTLMonitor.gTestStep++;
}
注意检测成功之后马上恢复当前区域的RAM值,并为下一次检测做好准备。如果检测发现故障,则进入故障处理函数。
参考文档:
- IEC60730 Safety Library for TMS320F2806x USER’S GUIDE
- Safety Manual for C2000™ MCUs in IEC60730 Safety Applications (SPRUHI3A)