This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] AM5728:OpenCL - DSP 优化问题

Guru**** 2560390 points
Other Parts Discussed in Thread: AM5728

请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/624289/am5728-opencl---dsp-optimization-questions

器件型号:AM5728

您好!

我正在基于 AM5728的平台上开发 OpenCV 应用。 在 DSP 上尝试加速时、我发现一个特定的函数- convertScaleAbs -在 DSP 上花费的时间比在 ARM 上花费的时间要长。 具体而言、对于1920x1080输入、在 ARM 上花费大约24ms 的时间、而在 DSP 上花费270ms 以上的时间。 我检查了 TI 是否发布了此函数的任何性能编号、我发现了以下内容:
http://processors.wiki.ti.com/index.php/OpenCV#Single_channel.2C_1920x1080._barcode_ROI_detection_use_case

为此算法发布了3个不同的数字- 5.77ms (ARM 壁式时钟)、268.27ms (DSP 基线壁式时钟)和3.13ms (DSP 优化的壁式时钟)。

现在、ARM 端性能似乎存在一些不匹配情况(我们观察到的24ms 与 TI 的5.77ms 之间的差异)。 尽管了解这种差异的原因会很好、但我更想加快 DSP 端的算法。 现在,我的问题如下:  

1. DSP 基线和 DSP 优化版本的算法有何区别? 它是否与使用 http://downloads.ti.com/mctools/esd/docs/opencl/optimization/dsp_code.html 中列出的技术相同 、或者是否还有其他用途?

2.根据性能数据、我似乎有"baselineScaleAbs DSP 算法的"基线"版本。 由于 TI 还发布了优化的 DSP 内核的性能数据、这是否意味着还提供了优化的代码? 还是预计的性能数字?

此致、
制造商