我在am335x上移植Minigui的时候,在移动光标的时候,系统会死机,100%能复现,系统没有任何出错日志,ping不通开发板,外部中断也没有响应。经过定位是移植光标的时候,是调用memcpy进行内存拷贝导致的。每次调用两次memcpy,第一次的源地址是mmap映射framebuffer的内存到用户空间的地址,拷贝到普通内存中。经过排查定位,是linaro编译器对memcpy采用neon优化导致的。
我采用的运行环境是am335x,系统linux4.14,编译器是TI提供的linaro-4.9. 定位过程中做的工作:
1.采用linaro官方的最新的linaro8.x编译器也会死机.
2.采用arm9的编译器和arago编译器没有过死机现象。
3.在天嵌的开发板TQ335x上也出现同样的死机现象,linux版本是linux3.2,也是linaro编译器, tq提供的另一个A8编译器没有死机。
4.检查内存,不存在内存溢出的问题,无论内存是否对齐都会死机。
5.自己用c实现简单的memcpy,单个字节赋值不会死机
6.在cortex-a9上不死机
在stackflow上也遇到过类似的问题: https://stackoverflow.com/questions/56006842/memcpy-hangs-in-memcpy-neon-when-copying-into-dma-buffer
参照minigui死机的那段代码,自己写了下面的代码,每次运行必定会死机:
char buf0[4096];
char buf1[4096];
char buf2[4096];
int fd = open("/dev/fb0", O_RDWR);
p1 = mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_SHARED, fd, 0)
while(1)
{
memcpy(buf0, p1, 32);
memcpy(buf1, buf2, 32);
}
经过测试发现,死机的前提是p1作为第一个memcpy的源地址, 而且必须有第二个memcpy, minigui的代码跟这个类似。我们分析是neon指令优化的问题,所以用汇编写的一个mymemcpy函数,发现也会死机:
void mymemcpy(void *dst, void *src, int len)
{
__asm__ volatile(
"myloop:\n"
"vldm r1!,{d0-d1}\n"
"vstm r0!,{d0-d1}\n"
"subs r2,r2,#0x20\n"
"bgt myloop\n"
);
}
目前只能分析到这里,具体的深层原因目前不清楚, 对于这样的问题,现在我们想知道在项目中怎样才能合理的规避这个问题?