This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] TMDSEVM572X:DGEMM 示例性能

Guru**** 2618835 points
请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/654442/tmdsevm572x-dgemm-example-performance

器件型号:TMDSEVM572X

大家好,

 我在器件 AM572x 上运行 dgemm 示例、设置 BLIS_IC_NT=2、因此计算将在2个 ARM 内核上运行、

 当矩阵大小 M=N=K=1024时、此示例在2个 ARM 和2个 DSP 上花费的时间为0.435s 和0.64s。

这是输出文件:

e2e.ti.com/.../1263.dgemm_5F00_time_5F00_ARM_5F00_2_5F00_cores.dat 

e2e.ti.com/.../7776.dgemm_5F00_time_5F00_DSP.dat

我已经检查了 M=N=K=1000时的性能、与 TI 所说的一样、2 ARM 上的性能为0.786s、2 DSP 上的性能为0.55s  

http://www.ti.com/processors/dsp/libraries/linear-algebra.html?keyMatch=cblas&tisearch=Search-EN-Everything

矩阵尺寸(1024)更大、但在双臂上运行时消耗的时间更少、这一点令人惊叹。

Dose IT 显示 ARM 在运行 LINALG (dgemm)时具有比 DSP 更好的性能?

此外、这是在单 ARM 上运行示例时的输出文件。

e2e.ti.com/.../1200.dgemm_5F00_time_5F00_ARM_5F00_1_5F00_core.dat

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    软件团队已收到通知。 他们将在这里作出回应。
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    你(们)好
    很抱歉、此帖子未正确分配且未解决。 很抱歉耽误你的时间。
    您是否仍在寻找这方面的指导?

    此致
    Mukul
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    您好!

    请参阅主题 e2e.ti.com/.../2404080

    确实、在将特定的 DGEMM 计算从具有 Linux 的 ARM 转移到 DSP 的同时、不会提高性能。 在 ARM 上使用 Linux-RT 可以观察到性能的提高。

    此致、
    Garrett