用DSP进行图像畸变校正算法研究,自己基于双线性插值来做一个畸变校正算法,发现DSP处理一幅200万像素的图像需要0.042s左右,统计各方面所耗费的时间,发现时间基本耗费在存储灰度矩阵上了,比如我通过A8传送一幅1080P的图像进入DSP进行校正,在DSP中开辟一个矩阵gray[1628][1236]用于存储校正后的灰度数据,时间基本用于将畸变处理后的数据放入该矩阵中了,而处理畸变校正的运算基本不耗时间,以下是我做的一些相关实验来验证:
1、存储校正后的灰度数据到矩阵gray[1628][1236]耗时0.042s;
2、存储校正后的灰度数据到矩阵gray[200][100]耗时0.037s;
3、存储校正后的灰度数据到矩阵gray[100][100]耗时0.037s(再细点的精度就没看过了),因为考虑到DSP L1 data cache大小为32kB,怀疑是不是超过32kB大小的数据空间会放到L2中,影响速度,因此设置一个小于32kB的矩阵来做对比;
综上发现,DSP运算耗时基本花在存储数据矩阵上了,并且数据矩阵大小对时间影响不大(此处原因还没弄懂),请教下各位有什么好的方法可以提高DSP的速度吗?