工具/软件:
您好:
我正在使用 J784S4 器件 RTOS SDK 10_01_00_04 和 TIDL 10_01_00_01 。 我使用的 ONNX 版本是 1.15.0 。
我正在使用 TI SDK 中提供的顶层实现、无需任何修改 。
在我的一个模型中、我有一个 Topk 带有输入形状float32[1,50,7168,1]和的运算符 K= 300 。 运行推理时、我测量了以下结果:
-
在 CPU 上: 8.13ms
-
在 C7 DSP 上: >1 秒
为了进一步研究,我构建了一个小得多的测试模型,只包含一个输入形状float32[1,1,100,1]和的 TopK 节点 K= 30 .(你可以找到这个模型 heree2e.ti.com/.../1665.topk_5F00_model.zip )对于这种情况,我观察到:
-
在 CPU 上: 0.10ms
-
在 C7 DSP 上: 0.91ms
同样、C7 的推理时间明显高于 CPU、这与我预期的情况相反。
您能否帮助我了解为什么 C7 DSP 的性能低于 TopK 操作员的 CPU? 此行为是否与 SDK 中的操作员实现相关?
您是否也有任何关于改进 C7 上 TopK 性能的建议或解决方案?
提前感谢您。