各位大神,我使用CCS5.5 + 仿真器验证C6655的矩阵相乘A*B=C的性能,矩阵A、B、C都是1024x1024,使用的是DSPLib的DSPF_sp_mat_mul函数,得到的GFLOPS为0.1,与理论上线值 20 GFLOPS 相差甚远,求各位大神指点一下。
This thread has been locked.
If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.
因为你用的内存很大,需要考虑内存冲突的问题,如果放在DDR内,是不是打开了Cache以及相关内存的Cache属性。
很多时候受限的是DDR的读写效率。