通过共享内存和运行的核号来设计一个对矩阵做FFT的并行程序:
我把待处理的矩阵放到ddr中,矩阵逐行存放,实部和虚部交替存放。然后用CSL_chipReadReg函数得到当前运行的核号,根据核号决定每个核心对矩阵的那几行做FFT,每行做完之后用CACHE_wbL1d函数写回。整个函数的基本流程就是这样,
在测试的时候,发现八个核心没办法同时运行,有几个核心最后得到的结果是0。但是如果每个核心单独运行,就能得到结果。
想请教一下在程序较为简单的的情况下,能否直接通过共享内存和核心号进行并行程序的设计?