您好!
我正在尝试描述 OpenCV 算法在基于 AM5728的平台上进行背景减除(BackgroundSubtracorMOG2)所花费的时间。
我已启用 DSP 访问、因此、我从 OpenCL 程序中获取以下调试日志-
(笑声)
[内核1] TIDSP 修改的 MOG2 clk=15294248 frame_row=480 frame_col=640 (80a580 80c980 808180) prune =-0.000100
[内核0] TIDSP 修改 MOG2 clk=15297946 frame_row=480 frame_col=640 (80a580 80c980 808180) prune =-0.000100
上述日志似乎表明、在每个600MHz DSP 内核(15294248/600000000)上处理图像所花费的时间约为25.5ms。
我的理解是、OpenCL 程序应在每个 DSP 内核上并行运行、因此、算法处理整个映像(640x480分辨率)所需的时间应为25.5ms。
但是、当我分析算法在 ARM 端处理图像所需的时间时、它几乎是两倍(~51ms)。
每个 DSP 内核上的 OpenCL 程序是否以某种方式串行化? 或者我在这里缺少什么?
此致、
制造商