处理器（参考译文帖）

处理器（参考译文帖）(Read Only)

状态 Resolved
已锁定已锁定
回复 24 回复
订户 0 订户
视图 510 视图
用户 0 会员在此处

选项

选项

相关

[参考译文] TDA4VM：TDA4VM 与 TDA4V MidEco：对于同一逻辑、两个处理器的速度为何不同？

admin

Guru**** 2463330 points

Other Parts Discussed in Thread: FFTLIB, TDA4VM, MATHLIB

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic

器件型号：TDA4VM
主题中讨论的其他器件： TDA4VL、 MATHLIB、FFTLIB

工具与软件：

您好！

我要将相同的逻辑移植到两个处理器：TDA4VM 与 TDA4VMid Eco

我的逻辑流水线配置如下所示：
1)图像采集2) LDC 3)预处理4) tidl 5)后处理6)跟踪7)绘制 BBOX

此外、TDA4VM 使用8.2版、Mid Eco 使用 SDK 的9.2版。

查看这两款处理器的数据表、Mid Eco 电路板似乎在 DSP 内核上具有更好的计算性能(40GFLOPS 与160GFLOPS)

但是、当我们运行真正的逻辑时、与 TDA4VM 相比、我们看到所有节点上的执行时间都增加了。

您能解释一下为什么会发生这种情况的可能原因吗？

0 admin 1 年多前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

尊敬的 Dohee：

澄清您对 GLOPS 的陈述-

根据产品说明书、TDA4VM 具有80 GFLOPS 的性能、而 TDA4VMid-Eco 具有160 GFLOPS 的性能、因为有2个 C7x 内核：如果您仅在1上运行计算、则您将使用相同的80 GFLOPS

[报价 userid="617906" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic ]但是、当我们运行真正的逻辑时、我们发现与 TDA4VM 相比、所有节点的执行时间都有所增加。

您能解释一下本例中的节点是什么意思吗？

[报价用户 id="617906" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic ]1)图像捕捉2) LDC 3)预处理4) Tidl 5)后处理6)跟踪7)绘制 BBOX [/QUO]

您是否指的是流水线的这些部分？如果是、能否详细介绍一下您看到的性能差异？

此致！

Asha

0 admin 1 年多前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您好、Bhandarkar

首先、我要对我的问题没有得到解释表示歉意。

我在前面提到的节点就是您确定的节点。此外、除 tidl 外、我将所有节点都放在 TDA4VM 的 C66内核上、据我了解、tidl 的性能为40 GFLOPS。

如您所知、Mid Eco 电路板没有 C66内核、因此我将 TDA4VM 中 C66内核上的所有节点都置于第2个 C7x 内核上、中间 Eco 电路板上没有 MMA。
此外、根据您的说法、其性能为80 GFLOPS。

我提到的性能差异是执行时间。例如、当我们在 TDA4VM 中的 C66内核和 TDA4VMid Eco 中的 C7x 内核上放置相同的后处理代码时、每种情况下该函数的执行时间如下所示

TDA4VM (C66)；后处理节点：Avg = 6194us、最小值/最大值= 6078 / 25685 us、
TDA4VMidEco (C7x)；后处理节点：Avg = 11293 usecs、min/max = 11195/70855 usecs、

0 admin 1 年多前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

尊敬的 Dohee：

感谢这些说明。

根据我对 TDA4VM 的理解、除了在 C7x 内核上运行的 TIDL 节点之外、一切都在 C66上运行。

在 TDA4VMid-Eco 上、除了 TIDL 节点在具有 MMA 的 C7x_1上运行外、所有都在 C7x_2上运行。

在这种情况下进行比较可能会稍微困难一些。您是说对于所有节点、您看到的并非只是 PostProc、而是不同的节点吗？

对于 PostProc、您是否从内存中的类似点读取数据？您是否使用一些 VXLIB 实现来进行后处理？

此致！

Asha

0 admin 1 年多前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您好、Bhandarkar

再需要说明的是、在 TDA4VM 中、LDC 和 preproc 在 c66_1上运行、postproc、跟踪、在 c66_2上绘制 BBOX。

此外、我上面提到的减慢不仅适用于 postproc、在除 TIDL 之外的所有节点上都是类似的
(与 TDA4VM 相比、TIDL 在 Mid Eco 上的速度降低了约5-10%、并且两个电路板中的 LDC 都相似。)

[报价 userid="553100" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5439281 #5439281"]

对于 PostProc、您是否从内存中的类似点读取数据？您是否使用一些 VXLIB 实现来进行后处理？

[报价]

我不明白这到底是什么意思。读取存储器中的类似点意味着什么？有一点是肯定的、我的代码在两块板之间不会发生变化。

此外、询问您所讨论的 VXLIB 实施是否使用 TI SDK 中提供的默认示例是否正确？如果是、我们将使用已根据我们的情况进行修改的代码。

0 admin 1 年多前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

尊敬的 Dohee：

Unknown 说：
此外、我上面提到的减慢不仅用于 postproc、而且在除 TIDL 之外的所有节点上都是类似的
(与 TDA4VM 相比、TIDL 在 Mid Eco 上的速度降低了约5-10%、两个电路板中的 LDC 都相似。)

您能否提供减速百分比的细分？ TIDL 在 MidEco 上的速度降低5-10%、其他节点的速度是多少？

Unknown 说：
我不明白这到底是什么意思。读取存储器中的类似点意味着什么？一件事是肯定的,我的代码不会在两个板之间改变。[/报价]
您正在处理来自 C66和 C7x 的数据-该数据存储在存储器中的何处？如果您的代码在不同电路板之间没有变化-我猜这意味着您还没有将代码优化为 C7x 架构？

Unknown 说：
此外、询问您正在讨论的 VXLIB 实施是否使用了 TI SDK 中提供的默认示例是否正确？如果是这样、我们将使用经过修改以适应我们的情况的代码。

是的、我想知道您是否在进行一些预处理和后处理时使用一些默认的 SDK 实现。你的答案是不可以

此致！

Asha
[/quote]

0 admin 1 年多前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您好、Bhandarkar

Unknown 说：
您能提供减速百分比的细分吗？ TIDL 在 MidEco 上的速度降低5-10%、其他节点的速度是多少？

除 LDC 和 TIDL 之外的所有节点都减慢了约2倍、通过查看我之前发送给您的 PostProc 节点的执行时间可以看出这一点。

Unknown 说：
您正在对来自 C66和 C7x 的数据进行一些处理-此数据存储在内存中的什么位置？如果您的代码在不同电路板之间没有变化-我猜这意味着您尚未将代码优化为 C7x 架构？[/QUOT]
有。我没有执行任何额外的优化来移植到 C7x。另外、我不确定您是否提到这一点、我的数据存储在 DDR 存储器中、我将使用 TIvxMemShared2TargetPtr ()来获取地址。如果这不是您要寻找的答案、请提供进一步的说明。

此外、如果需要从 C66到 C7x 的额外优化技术、您可以提供示例代码或其他东西吗？

0 admin 1 年多前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您好、Bhandarkar。

我正在处理一些东西、还有一个问题、所以我将其写入。

目前、我正在使用 TDA4VMidEco、使用 C7x 的内在函数等、以显著缩短 LDC 的执行时间。

与 TDA4VM 相比、这种方法的执行时间几乎减半、但 CPU 负载保持不变。例如、对于具有相同功能的 LDC 节点、情况如下

TDA4VM(C66)；执行时间：40ms/CPU 负载：31%。
TDA4VMidEco (C7x)：执行时间：20ms/CPU 负载：30%。

我的期望是、如果执行时间减少、CPU 负载会降低、但事实并非如此。 CPU 负载是什么意思、我该如何降低它？哪些因素决定了 CPU 负载？请将此问题与我的上一个问题一同回答。

谢谢你。

姜道熙

0 admin 1 年多前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

尊敬的： Bhandarkar

我的问题何时可以得到解答？

如果这些问题难以回答、请告诉我。

谢谢。

姜道熙

0 admin 11 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

尊敬的 Dohee：

解锁线程以提供有关该线程状态的更新。

Asha 不再是 E2E 支持团队的一员、因此她不能提供有关此主题的任何更新。我们正在寻找一个资源来查看此内容、但这需要时间。

同时、我已经查看了该主题并发表了一些评论。

您的比较基于三个不同的矢量-> SoC (TDA4VM 与 TDA4VL)、SDK (8.2与9.2)和 DSP 内核(C66x 与 C71x)。这确实使得进行比较变得非常困难、我们完全不会再对同类进行比较。

C66x 和 C71x DSP 架构差别很大、它们运行的频率也不同。 TDA4VL 有两个 C71x、一个具有 MMAv2、一个没有 MMA、而 TDA4VM 的 C71x 具有 MMAv1。 TIDL 的性能在最近的 SDK 上肯定已经发生了变化、因此在使用不同的 SDK 时、单独一个器件不是为了进行比较而考虑的因素。

此处的任何比较都需要对等效因数进行、并将 SoC 保留为唯一的变量。如果使用 TDA4VM、请先比较该 SoC 上 C66x 和 C71x 内核的性能、以建立基准。这需要在您将在 TDA4VL 上使用的同一个 SDK 版本上完成。

对于 TDA4VL、请将 C71x 与 MMA 搭配使用、以便将其与 TDA4VM 上的 C71x 进行比较。

请提供确切的测试场景、我们可以在 TI EVM 上使用该场景来重现数据以便进一步分析。

此致

Suman

0 admin 10 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

尊敬的：安娜

遗憾的是、TDA4VM 电路板目前尚不可用、只有 TDA4VL 可用。

由于 TDA4VL 没有 C66内核、因此我们无法尝试您建议的方法。

您能否推荐另一种仅使用 TDA4VL 的方法？

好的。

姜道熙

0 admin 10 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

尊敬的 Dohee：

[报价用户 id="617906" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5580720 #5580720"]很遗憾、TDA4VM 电路板目前尚不可用、只有 TDA4VL 可供使用。

该线程是您首先开始进行的 TDA4VM 和 TDA4VL 之间的比较工作、因此如果您只能访问 TDA4VL 板、则可以做的事情不多。

我没有任何其他建议。

此致

Suman

0 admin 10 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

你好、Dohee

根据要求、我将在 TDA4VM C66x、TDA4VM C7x 和 TDA4VE C7x 之间共享 VxLIB 的性能差异。

•TDA4VM C66x VxLIB
software-dl.ti.com/.../VXLIB_c66x_TestReport.html
•TDA4VM C7x VxLIB
software-dl.ti.com/.../performance_summary.html
•TDA4VE C7x VxLIB
software-dl.ti.com/.../performance_summary.html

您可以从以下每种器件的 SDK 中找到其他此类信息、例如 DSPLIB、FFTLIB、MATHLIB、VXLIB。

https://software-dl.ti.com/jacinto7/esd/processor-sdk-rtos-j721s2/10_01_00_04/exports/docs/psdk_rtos/docs/user_guide/sdk_components_j721s2.html

谢谢你。

此致、

Johnny

0 admin 9 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

尊敬的团队、Suman、

这是当前情况的更新：

-相同算法的 C66 (VM)和 C7x (VE)之间的执行时间差几乎是 C66x 的两倍(C7x 比 C66x 慢)、即使数据表中的规格与下面相同。

Unknown 说：
TDA4VM (C66)；PostProcNode：Avg = 6194 usecs、min/max = 6078 / 25685 usecs、
TDA4VMidEco (C7x)；后处理节点：Avg = 11293 usecs、min/max = 11195/70855 usecs、

-这个执行时间是使用 VX Time Measure API 测量的,客户也会更新基于计数器的。

-通过优化(e.g.bufferization), C7x 变得比 C6x 快,但核心份额几乎与下面相同。

Unknown 说：
TDA4VM(C66);执行时间: 40ms/CPU 负载: 31%。
TDA4VMidEco (C7x)：执行时间：20ms / CPU 负载：30%。[/报价]
-C66x 和 C7x 基准测试资源根据客户的要求如上所述提供。

-根据数据表,同样的结果也必须得到相同的优化,但实际上它不是。

仍然没有任何确切的原因、且尚未找到解决方案、根据谈话内容、您可以看一下并更新该主题吗？

谢谢你。

BR、

Lynn

0 admin 9 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

[报价 userid="583245" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5608518 #5608518"]

-C66x 和 C7x 基准测试资源根据客户的要求如上所述提供。

-根据数据表,同样的结果也必须出来没有优化,但实际上它不是。

[报价]

你好、Lynn、

您能否参考此主题。似乎内容几乎相似。
https://e2e.ti.com/support/processors-group/processors/f/processors-forum/951567/tda4vm-curious-difference-in-performance-between-c66x-and-c7x

此致、
Sivadeep

0 admin 9 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

尊敬的 Sivadeep：

首先让我为大家详细介绍这个问题、链接的内容与此非常不同。

Unknown 说：
-根据数据表、同样的结果也必须输出而不进行优化、但实际上并非如此。

很抱歉、此评论中有一个拼写错误、"同样的结果也必须是优化 " .

[报价 userid="583245" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5608518 #5608518"]

TDA4VM (C66)；后处理节点：Avg = 6194us、最小值/最大值= 6078 / 25685 us、
TDA4VMidEco (C7x)；后处理节点：Avg = 11293 usecs、min/max = 11195/70855 usecs、

[报价]

该执行时间是在相同的优化级别下测量的、但即使数据表中的核心规格相同、差距也几乎是两倍。

Unknown 说：
TDA4VM(C66);执行时间: 40ms/CPU 负载: 31%。
TDA4VMidEco (C7x)：执行时间：20ms / CPU 负载：30%。[/报价]
随着更多的优化(例如仅在 C7x 上进行缓冲)、这一结果得以实现。

不过、尽管执行时间有两倍的间隔、但内核负载几乎相同(在本例中、C7x 比 C66x 快)。

重点是：

1.为什么 C66x (TDA4VM)和 C7x (TDA4VE)之间的执行时间存在两倍的差距、C66x 甚至比 C7x 更快？它们具有相同的核心规格。

2.如果像仅对 C7x 进行缓冲这样更多的优化、为什么虽然执行时间有两倍的间隙(此时 C7x 比 C66x 快)内核负载几乎相同？

2.1.是否可以减少内核负载？为什么即使执行时间减少了、CPU 负载仍然相同？

Unknown 说：
CPU 负载的含义是什么？如何降低？哪些因素决定了 CPU 负载？请将此问题与我的上一个问题一同回答。

您能否参阅上述内容并调查原因？

大家好、Dohee：

请参考上面的内容、并告诉我是否错过了您在此处提到的要点。

您能否在 C66x 和 C7x 之间共享基于计数器的执行时间测量值？

谢谢你。

BR、

Lynn
[/quote]

0 admin 9 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

你好、Lynn、

很抱歉响应延迟。

Unknown 说：
1. 为什么 C66x (TDA4VM)和 C7x (TDA4VE)之间的执行时间有两倍的差距、C66x 甚至比 C7x 更快？它们具有相同的核心规范。[/QUOT]

即使它们具有相同的内核规格也是如此。对于未优化的代码、不强制 C7x 始终优于 C66x。性能可能会因多种因素而异。 C7x 只能通过适当的优化实现更好的性能。
它可能基于以下因素：

缓冲区的正确放置–指数据在存储器中的位置(无论数据是否更接近 CPU)。

正确矢量化代码–确保代码有效利用矢量指令。

循环的高效使用–性能还取决于代码中循环的数量和结构。

您能否尝试在设置了编译器优化级别的 C66x 和 C7x 上运行优化的代码、并检查性能是否有任何差异？
Unknown 说：
2。随着像仅 C7x 上的缓冲化这样的更多优化、尽管执行时间有两倍的间隙(在本例中、C7x 比 C66x 快)、为什么内核负载几乎相同？[/QUOT]

您能否分享一下您是如何计算 CPU 负载的？此外、您可以使用 TSC 提供周期计数。

此致、
Sivadeep
[/quote]

0 admin 9 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

Sivadeep、

Unknown 说：
您能否尝试在 C66x 和 C7x 上使用编译器优化级别集运行优化的代码

为此、请参考以下内容。

我在这里的意思是、代码已经使用相同的优化级别集进行了优化、但执行时间如下所示。

[报价 userid="583245" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5614018 #5614018"]

很抱歉、此评论中有一个拼写错误、"同样的结果也必须是优化 " .

Lynn Kim 说：
TDA4VM (C66)；后处理节点：Avg = 6194us、最小值/最大值= 6078 / 25685 us、
TDA4VMidEco (C7x)；后处理节点：Avg = 11293 usecs、min/max = 11195/70855 usecs、

该执行时间是在相同的优化级别下测量的、但即使数据表中的核心规格相同、差距也几乎是两倍。

[报价]

正如我所知、具有相同的优化级别和相同的算法、至少两个 C7x C66x 性能应该相同、不是吗？

Unknown 说：
您能分享一下如何计算 CPU 负载吗？此外、您能否使用 TSC 提供周期计数。

客户已使用 OpenVX API 对其进行检查、基于 TSC 的周期计数将在客户进行测量后进行更新。

那么、除了以下原因之外、C66x 和 C7x 之间出现相同的可优化级算法执行时间间隔是否还有其他原因？

[报价 userid="637509" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5618575 #5618575">

缓冲区的正确放置–指数据在存储器中的位置(无论数据是否更接近 CPU)。
正确矢量化代码–确保代码有效利用矢量指令。
循环的高效使用–性能还取决于代码中循环的数量和结构。

[报价]

谢谢。

BR、

Lynn

0 admin 9 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

你好、Lynn、

Unknown 说：
随着更多优化(例如仅针对 C7x 进行缓冲)、这一结果得以实现。 [报价]
我对这一说法有疑问。据我所知、您使用的缓冲优化仅在 C7x 上。如果是这种情况、您可以在 C7x 和 C66上运行优化的代码并获取周期数。
[报价 userid="583245" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5620987 #5620987"]据我所知、使用相同的优化级别和相同的算法、至少两个 C7x C66x 性能应该相同、不是吗？[/QUOT]
它仍可能取决于我上面提到的各种因素。您使用的编译器优化级别是什么？

此致、
Sivadeep

0 admin 9 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

尊敬的 Sivadeep：

Unknown 说：
从我了解到的内容中、您使用的缓冲优化仅用于 C7x。

我来解释一下详细的流程。

1.先进行相同的优化和算法测试=>执行时间差如下所示。

[报价 userid="583245" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5614018 #5614018"]

TDA4VM (C66)；后处理节点：Avg = 6194us、最小值/最大值= 6078 / 25685 us、
TDA4VMidEco (C7x)；后处理节点：Avg = 11293 usecs、min/max = 11195/70855 usecs、

[报价]

2.随着更多的优化,如仅针对 C7x 的缓冲化,执行时间最终变得更快,但核心负载似乎几乎相同。

Unknown 说：
TDA4VM(C66);执行时间: 40ms/CPU 负载: 31%。
TDA4VMidEco (C7x)：执行时间：20ms / CPU 负载：30%。[/报价]
因此、从总体上看、执行时间应与此类似、甚至在案例1中也是如此、但事实并非如此、此外、在2中、即使 C7x 上的代码比 C66x 更优化、内核共享也几乎相同。您在这里有什么原因吗？

Unknown 说：
您使用的编译器优化级别是什么？

为此,我们需要从 Dohee 检查。

大家好、Dohee、除了 TSC、您可以在上面查看吗？

谢谢。

BR、

Lynn
[/quote]

0 admin 9 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

尊敬的 Lynn Kim：

Unknown 说：
随着更多优化(例如仅针对 C7x 进行缓冲)、执行时间最终变得更快(低于)、但内核负载似乎几乎相同。

我不确定是否仅针对 C7x 进行了优化、您能否在 C66x 中使用相同的优化并进行比较。如前所述、在某些情况下、两者之间可能存在执行时间差距。
您还可以更新使用 TSC 的周期数和您使用的编译器优化级别吗？

此致、
Sivadeep

0 admin 8 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

尊敬的 Sivadeep：

Unknown 说：
您还可以使用 TSC 更新周期数以及使用的编译器优化级别吗？

优化级别为3、C7x 和 C66x 上均为。

对于周期数测量、我们仍需要等待客户、那么您能否提供您对上述间隙的意见、尽管具有相同的优化级别？

谢谢你。

BR、

Lynn

0 admin 8 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

你好、Lynn、

公差。因此、在您不优化代码(而非编译器优化)的情况下、结果会有所不同。

Unknown 说：
尽管他们具有相同的核心规范。对于未优化的代码、不强制 C7x 始终优于 C66x。性能可能会因多种因素而异。 C7x 只能通过适当的优化实现更好的性能。
它可能基于以下因素：

缓冲区的正确放置–指数据在存储器中的位置(无论数据是否更接近 CPU)。

正确矢量化代码–确保代码有效利用矢量指令。

循环的高效使用–性能还取决于代码中循环的数量和结构。
[报价]
此致、
Sivadeep

0 admin 7 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

Dohee

该主题现在可以关闭吗？ 1个月内没有更新

Dave C

0 admin 7 个月前

TI__Guru**** 2463330 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

关闭由于没有进一步更新、如果需要进一步支持、只需回复重新打开。