This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] CCS:DSP C66x 与 TI 编译器的峰值性能

Guru**** 2609955 points
Other Parts Discussed in Thread: TMS320C6678

请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/655693/ccs-peak-performance-of-the-dsp-c66x-with-ti-compiler

Thread 中讨论的其他器件:TMS320C6678

工具/软件:Code Composer Studio

大家好  

希望你们做得好,我正在做一个项目,它包含使用 TMS320C6678实现复杂矩阵乘法,所以我尝试比较两个代码的周期数(ti c 代码优化3和 asm 代码使用 sploop 流水线) 通过增大输入矩阵的大小、我得到了以下结果

所以、请大家解释一下为什么我们的峰值是82

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    您好!

    您使用的是哪个 SDK 版本?
    此 TMS320C6678 EVM 是定制板吗?

    此致、
    Yordan
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    您能否说明您是否使用 DSPLib 或线性代数(LINALG)进行基准标记? 当输入数量为82时、手动汇编似乎稍微好一些、因为它能够在可用的寄存器和计算单元上更有效地分配算术运算。

    汇编始终有提高编译器性能的空间、因为编译器仍有某些限制、即使在优化 O3时、它也会优化 C 代码。 您可以为 C 代码生成汇编文件、并将其与您的已有汇编文件进行比较、以查看导致改进的原因。 如果您想让我们进行评论、请提供汇编文件、以便我们提供分析。

    此致、
    Rahul