主题中讨论的其他器件:F29-SDK
工具与软件:
尊敬的 TI 代表:
我们使用 CFFT 示例评估 C29内核的1024pt FFT 性能、并发现优化汇编和优化 C 之间的性能差异相当大、在周期中几乎达到5倍、这对于我们的应用非常关键。
对于 VLIW 架构、手动优化汇编中的 DSP 例程可以说是完全没问题的、因此除了 SDK 中的原始代码示例外、是否有提供有关此主题的指导原则或文档的计划?
此致 Ihor。
This thread has been locked.
If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.
工具与软件:
尊敬的 TI 代表:
我们使用 CFFT 示例评估 C29内核的1024pt FFT 性能、并发现优化汇编和优化 C 之间的性能差异相当大、在周期中几乎达到5倍、这对于我们的应用非常关键。
对于 VLIW 架构、手动优化汇编中的 DSP 例程可以说是完全没问题的、因此除了 SDK 中的原始代码示例外、是否有提供有关此主题的指导原则或文档的计划?
此致 Ihor。
尊敬的 Ihor:
1、一般而言、我们的编译器已经实现了相当好的"授权"、即在许多情况下、C 代码性能与可从该架构中获得的最佳性能(通过优化汇编)相匹配。 当然、这仍然是编译器的早期阶段、并且随着时间的推移、各种类型的代码也会有所改善。
2.由于这是 VLIW 架构、我们绝对不希望客户手动优化装配体。 这非常繁琐且容易出错。 我们希望用户编写 C 应用程序代码、并使用我们的库(我们将在其中根据需要提供优化的汇编例程、例如 FFT、FIR)。
3.有些算法不适合在 C 语言中获得性能。FFT 就是一个典型的例子。 通过优化的汇编语言、我们可以完全填充128位指令包、并创建极其高效的内核。 但是、编译器无法执行此操作。
4. 我们有一个优化指南(https://www.ti.com/lit/sprujg0)、但其中讨论的是应用程序级别优化、而不是如何在此架构上编写优化汇编。
谢谢!
SIRA