大家好,
我在器件 AM572x 上运行 dgemm 示例、设置 BLIS_IC_NT=2、因此计算将在2个 ARM 内核上运行、
当矩阵大小 M=N=K=1024时、此示例在2个 ARM 和2个 DSP 上花费的时间为0.435s 和0.64s。
这是输出文件:
e2e.ti.com/.../1263.dgemm_5F00_time_5F00_ARM_5F00_2_5F00_cores.dat
e2e.ti.com/.../7776.dgemm_5F00_time_5F00_DSP.dat
我已经检查了 M=N=K=1000时的性能、与 TI 所说的一样、2 ARM 上的性能为0.786s、2 DSP 上的性能为0.55s
http://www.ti.com/processors/dsp/libraries/linear-algebra.html?keyMatch=cblas&tisearch=Search-EN-Everything
矩阵尺寸(1024)更大、但在双臂上运行时消耗的时间更少、这一点令人惊叹。
Dose IT 显示 ARM 在运行 LINALG (dgemm)时具有比 DSP 更好的性能?
此外、这是在单 ARM 上运行示例时的输出文件。
e2e.ti.com/.../1200.dgemm_5F00_time_5F00_ARM_5F00_1_5F00_core.dat