This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] AM69A:Jacinto 7 上定制操作员的 DSP 推理性能问题

Guru**** 2538930 points


请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/1566811/am69a-dsp-inference-performance-issue-with-custom-operator-on-jacinto-7

器件型号:AM69A


工具/软件:


您好 TI 支持团队:

我目前正在使用的产品 SDK 10.01.04 TIDL 工具 10.01.00.01 。 我面临着挑战 性能问题 在 DSP 上运行模型推理时、使用ScatterElementsaxis=0reduction=add的运算符。 这些功能在我的 SDK 中本身不受支持、因此我实现了 自定义运算符

详细信息:

  • 输入形状:

    • 索引:[32 x 98304](变量输入)

    • 更新:[32 x 98304](可变输入)

    • data:[32 x 44800](常量输入)

  • C7 DSP 上的输出: 正确、但推理时间非常长。

  • 测量的性能:

    • 自定义实现:每次推理~7 秒(模型仅包含该运算符) ScatterElements

    • 空的实现 (没有实际的 C7 逻辑;输出零):每次推理~2.7 秒

  • 观察结果: 大输入形状和高元素计数会显著影响 DSP 推理时间、即使操作员也是如此 C7 DSP 上无法进行实际计算 。 这表明开销超出了运算符逻辑本身。

问题:

  1. 是否有建议的做法来减少具有大形状或高元素数的运算符在 DSP 上的推理时间?

  2. 对于定制运营商(如)而言、Jacinto 7 DSP 上是否存在已知的限制或性能瓶颈ScatterElements

感谢您的支持、

Habib Ben Ayed

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好;

    感谢您问这个问题。  

    一般来说、当 C7x 涉及 DDR 时、速度会变慢。 您能否查看操作的存储器位置:DDR、L2 或 MSMC? 以及它的用法、这些信息可能会给我们提供一些线索。

    我不知道您的 ScatterElements 是什么样子、但如果可能、您可以避免直接使用 DDR 吗?

    此致

    Wen Li

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好;

    一个好消息:TI 刚刚发布了 SDK  11.01.00.04、该 SDK 支持多个新运营商:Un挤压、Acos、Atan、cos、COSH、 Elu、Neg、Tan、Tanh、ScatterElements、 SiLU。 ScatterElements 是其中之一、请尝试新版本。 这可以解决您的问题。

    这是下载链接

    https://www.ti.com/tool/PROCESSOR-SDK-J784S4?keyMatch=j784s4%20sdk&tisearch=universal_search

    此致

    Wen Li