c6678加入链接库deplib.a66,测试函数dspf_sp_fft_SPxSP,有如下问题
1. 在simulator环境下,测试出的周期数和dsplib手册上的基本一致,例如8192点FFT需要88289 始终周期
但是在开发板上使用emulator运行时,效率下降很严重。 仍然以8192点为例,L1全设为CACHE,L2设256KBCACHE
此时将FFT输入输出旋转因子都放在L2里,需要254933个周期。都放在MCSM需要295429个周期。都放在DDR3中要274579周期。
这是CACHE未命中miss导致的么?如何避免这的周期浪费,最大化FFT效率。
2.输入参数中的 brv[4]是什么意思,有什么作用。
3.输入输出数组定义时都有Xi[M+2*PAD] 这里的PAD是什么意思有什么作用。
4.如果我需要8个核同时运行FFT。对存在MCSM中或者DDR3的数据进行运算,再将结果存回MCSM或者DDR3去。
例如核0做 x[0]~x[8191]的FFT 核1做x[8192]~x[16383] 以此类推。
那么在他们同时对MCSM或者DDR3存取数时会不会有访问冲突。
怎么安排8核同时进行FFT运算效率比较高
5. 如果用EDMA3 的TCPP0 将数据从DDR3导入MEM或者L2 速度有多快
问题问的比较多,麻烦专家耐心解答一下,谢谢。