您好!
我正在基于 AM5728的平台上开发 OpenCV 应用。 在 DSP 上尝试加速时、我发现一个特定的函数- convertScaleAbs -在 DSP 上花费的时间比在 ARM 上花费的时间要长。 具体而言、对于1920x1080输入、在 ARM 上花费大约24ms 的时间、而在 DSP 上花费270ms 以上的时间。 我检查了 TI 是否发布了此函数的任何性能编号、我发现了以下内容:
http://processors.wiki.ti.com/index.php/OpenCV#Single_channel.2C_1920x1080._barcode_ROI_detection_use_case
为此算法发布了3个不同的数字- 5.77ms (ARM 壁式时钟)、268.27ms (DSP 基线壁式时钟)和3.13ms (DSP 优化的壁式时钟)。
现在、ARM 端性能似乎存在一些不匹配情况(我们观察到的24ms 与 TI 的5.77ms 之间的差异)。 尽管了解这种差异的原因会很好、但我更想加快 DSP 端的算法。 现在,我的问题如下:
1. DSP 基线和 DSP 优化版本的算法有何区别? 它是否与使用 http://downloads.ti.com/mctools/esd/docs/opencl/optimization/dsp_code.html 中列出的技术相同 、或者是否还有其他用途?
2.根据性能数据、我似乎有"baselineScaleAbs DSP 算法的"基线"版本。 由于 TI 还发布了优化的 DSP 内核的性能数据、这是否意味着还提供了优化的代码? 还是预计的性能数字?
此致、
制造商