工具/软件:
您好 TI 支持团队:
我目前正在使用的产品 SDK 10.01.04 和 TIDL 工具 10.01.00.01 。 我面临着挑战 性能问题 在 DSP 上运行模型推理时、使用ScatterElements带axis=0和reduction=add的运算符。 这些功能在我的 SDK 中本身不受支持、因此我实现了 自定义运算符 。
详细信息:
-
输入形状:
-
索引:
[32 x 98304](变量输入) -
更新:
[32 x 98304](可变输入) -
data:
[32 x 44800](常量输入)
-
-
C7 DSP 上的输出: 正确、但推理时间非常长。
-
测量的性能:
-
自定义实现:每次推理~7 秒(模型仅包含该运算符)
ScatterElements -
空的实现 (没有实际的 C7 逻辑;输出零):每次推理~2.7 秒
-
-
观察结果: 大输入形状和高元素计数会显著影响 DSP 推理时间、即使操作员也是如此 C7 DSP 上无法进行实际计算 。 这表明开销超出了运算符逻辑本身。
问题:
-
是否有建议的做法来减少具有大形状或高元素数的运算符在 DSP 上的推理时间?
-
对于定制运营商(如)而言、Jacinto 7 DSP 上是否存在已知的限制或性能瓶颈
ScatterElements?
感谢您的支持、
Habib Ben Ayed