This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] TDA4VM:TDA4VM 与 TDA4V MidEco:对于同一逻辑、两个处理器的速度为何不同?

Guru**** 2394305 points
Other Parts Discussed in Thread: FFTLIB, TDA4VM, MATHLIB

请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic

器件型号:TDA4VM
主题中讨论的其他器件: TDA4VLMATHLIB、FFTLIB

工具与软件:

您好!

我要将相同的逻辑移植到两个处理器:TDA4VM 与 TDA4VMid Eco

我的逻辑流水线配置如下所示:
1)图像采集2) LDC 3)预处理4) tidl 5)后处理6)跟踪7)绘制 BBOX

此外、TDA4VM 使用8.2版、Mid Eco 使用 SDK 的9.2版。

查看这两款处理器的数据表、Mid Eco 电路板似乎在 DSP 内核上具有更好的计算性能(40GFLOPS 与160GFLOPS)

但是、当我们运行真正的逻辑时、与 TDA4VM 相比、我们看到所有节点上的执行时间都增加了。

您能解释一下为什么会发生这种情况的可能原因吗?

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Dohee:

    澄清您对 GLOPS 的陈述-

    根据 产品说明书、TDA4VM 具有80 GFLOPS 的性能、而 TDA4VMid-Eco 具有160 GFLOPS 的性能、因为有2个 C7x 内核:如果您仅在1上运行计算、则您将使用相同的80 GFLOPS

    [报价 userid="617906" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic ]但是、当我们运行真正的逻辑时、我们发现与 TDA4VM 相比、所有节点的执行时间都有所增加。

    您能解释一下本例中的节点是什么意思吗?

    [报价用户 id="617906" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic ]1)图像捕捉2) LDC 3)预处理4) Tidl 5)后处理6)跟踪7)绘制 BBOX [/QUO]

    您是否指的是流水线的这些部分? 如果是、能否详细介绍一下您看到的性能差异?

    此致!

    Asha

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Bhandarkar

    首先、我要对我的问题没有得到解释表示歉意。

    我在前面提到的节点就是您确定的节点。 此外、除 tidl 外、我将所有节点都放在 TDA4VM 的 C66内核上、据我了解、tidl 的性能为40 GFLOPS。

    如您所知、Mid Eco 电路板没有 C66内核、因此我将 TDA4VM 中 C66内核上的所有节点都置于第2个 C7x 内核上、中间 Eco 电路板上没有 MMA。
    此外、根据您的说法、其性能为80 GFLOPS。

    我提到的性能差异是执行时间。  例如、当我们在 TDA4VM 中的 C66内核和 TDA4VMid Eco 中的 C7x 内核上放置相同的后处理代码时、每种情况下该函数的执行时间如下所示

    TDA4VM (C66);后处理节点:Avg = 6194us、最小值/最大值= 6078 / 25685 us、
    TDA4VMidEco (C7x);后处理节点:Avg = 11293 usecs、min/max = 11195/70855 usecs、

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Dohee:

    感谢这些说明。  

    根据我对 TDA4VM 的理解、除了在 C7x 内核上运行的 TIDL 节点之外、一切都在 C66上运行。  

    在 TDA4VMid-Eco 上、除了 TIDL 节点在具有 MMA 的 C7x_1上运行外、所有都在 C7x_2上运行。  

    在这种情况下进行比较可能会稍微困难一些。 您是说对于所有节点、您看到的并非只是 PostProc、而是不同的节点吗?

    对于 PostProc、您是否从内存中的类似点读取数据? 您是否使用一些 VXLIB 实现来进行后处理?

    此致!

    Asha

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Bhandarkar

    再需要说明的是、在 TDA4VM 中、LDC 和 preproc 在 c66_1上运行、postproc、跟踪、在 c66_2上绘制 BBOX。

    此外、我上面提到的减慢不仅适用于 postproc、在除 TIDL 之外的所有节点上都是类似的
    (与 TDA4VM 相比、TIDL 在 Mid Eco 上的速度降低了约5-10%、并且两个电路板中的 LDC 都相似。)

    [报价 userid="553100" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5439281 #5439281"]

    对于 PostProc、您是否从内存中的类似点读取数据? 您是否使用一些 VXLIB 实现来进行后处理?

    [报价]

    我不明白这到底是什么意思。  读取存储器中的类似点意味着什么? 有一点是肯定的、我的代码在两块板之间不会发生变化。

    此外、询问您所讨论的 VXLIB 实施是否使用 TI SDK 中提供的默认示例是否正确? 如果是、我们将使用已根据我们的情况进行修改的代码。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Dohee:

    此外、我上面提到的减慢不仅用于 postproc、而且在除 TIDL 之外的所有节点上都是类似的
    (与 TDA4VM 相比、TIDL 在 Mid Eco 上的速度降低了约5-10%、两个电路板中的 LDC 都相似。)

    您能否提供减速百分比的细分? TIDL 在 MidEco 上的速度降低5-10%、其他节点的速度是多少?

    我不明白这到底是什么意思。  读取存储器中的类似点意味着什么? 一件事是肯定的,我的代码不会在两个板之间改变。[/报价]

    您正在处理来自 C66和 C7x 的数据-该数据存储在存储器中的何处? 如果您的代码在不同电路板之间没有变化-我猜这意味着您还没有将代码优化为 C7x 架构?

    此外、询问您正在讨论的 VXLIB 实施是否使用了 TI SDK 中提供的默认示例是否正确? 如果是这样、我们将使用经过修改以适应我们的情况的代码。

    是的、我想知道您是否在进行一些预处理和后处理时使用一些默认的 SDK 实现。 你的答案是不可以

    此致!

    Asha

    [/quote]
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Bhandarkar

    您能提供减速百分比的细分吗? TIDL 在 MidEco 上的速度降低5-10%、其他节点的速度是多少?

    除 LDC 和 TIDL 之外的所有节点都减慢了约2倍、通过查看我之前发送给您的 PostProc 节点的执行时间可以看出这一点。

    您正在对来自 C66和 C7x 的数据进行一些处理-此数据存储在内存中的什么位置? 如果您的代码在不同电路板之间没有变化-我猜这意味着您尚未将代码优化为 C7x 架构?[/QUOT]

    有。 我没有执行任何额外的优化来移植到 C7x。  另外、我不确定您是否提到这一点、 我的数据存储在 DDR 存储器中、我将使用 TIvxMemShared2TargetPtr ()来获取地址。  如果这不是您要寻找的答案、请提供进一步的说明。  

    此外、如果需要从 C66到 C7x 的额外优化技术、您可以提供示例代码或其他东西吗?

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Bhandarkar。

    我正在处理一些东西、还有一个问题、所以我将其写入。

    目前、我正在使用 TDA4VMidEco、使用 C7x 的内在函数等、以显著缩短 LDC 的执行时间。

    与 TDA4VM 相比、这种方法的执行时间几乎减半、但 CPU 负载保持不变。 例如、对于具有相同功能的 LDC 节点、情况如下

    TDA4VM(C66);执行时间:40ms/CPU 负载:31%。
    TDA4VMidEco (C7x):执行时间:20ms/CPU 负载:30%。

    我的期望是、如果执行时间减少、CPU 负载会降低、但事实并非如此。 CPU 负载是什么意思、我该如何降低它?  哪些因素决定了 CPU 负载? 请将此问题与我的上一个问题一同回答。

    谢谢你。

    姜道熙

     

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的: Bhandarkar

    我的问题何时可以得到解答?

    如果这些问题难以回答、请告诉我。

    谢谢。

    姜道熙

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Dohee:

    解锁线程以提供有关该线程状态的更新。

    Asha 不再是 E2E 支持团队的一员、因此她不能提供有关此主题的任何更新。 我们正在寻找一个资源来查看此内容、但这需要时间。

    同时、我已经查看了该主题并发表了一些评论。

    您的比较基于三个不同的矢量-> SoC (TDA4VM 与 TDA4VL)、SDK (8.2与9.2)和 DSP 内核(C66x 与 C71x)。 这确实使得进行比较变得非常困难、我们完全不会再对同类进行比较。

    C66x 和 C71x DSP 架构差别很大、它们运行的频率也不同。 TDA4VL 有两个 C71x、一个具有 MMAv2、一个没有 MMA、而 TDA4VM 的 C71x 具有 MMAv1。  TIDL 的性能在最近的 SDK 上肯定已经发生了变化、因此在使用不同的 SDK 时、单独一个器件不是为了进行比较而考虑的因素。

    此处的任何比较都需要对等效因数进行、并将 SoC 保留为唯一的变量。  如果使用 TDA4VM、请先比较该 SoC 上 C66x 和 C71x 内核的性能、以建立基准。 这需要在您将在 TDA4VL 上使用的同一个 SDK 版本上完成。

    对于 TDA4VL、请将 C71x 与 MMA 搭配使用、以便将其与 TDA4VM 上的 C71x 进行比较。

    请提供确切的测试场景、我们可以在 TI EVM 上使用该场景来重现数据以便进一步分析。

    此致

    Suman

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的: 安娜

    遗憾的是、TDA4VM 电路板目前尚不可用、只有 TDA4VL 可用。

    由于 TDA4VL 没有 C66内核、因此我们无法尝试您建议的方法。

    您能否推荐另一种仅使用 TDA4VL 的方法?

    好的。

    姜道熙

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Dohee:

    [报价用户 id="617906" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5580720 #5580720"]很遗憾、TDA4VM 电路板目前尚不可用、只有 TDA4VL 可供使用。

    该线程是您首先开始进行的 TDA4VM 和 TDA4VL 之间的比较工作、因此如果您只能访问 TDA4VL 板、则可以做的事情不多。

    我没有任何其他建议。

    此致

    Suman

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    你好、Dohee

    根据要求、我将在 TDA4VM C66x、TDA4VM C7x 和 TDA4VE C7x 之间共享 VxLIB 的性能差异。


    •TDA4VM C66x VxLIB
    software-dl.ti.com/.../VXLIB_c66x_TestReport.html
    •TDA4VM C7x VxLIB
    software-dl.ti.com/.../performance_summary.html
    •TDA4VE C7x VxLIB
    software-dl.ti.com/.../performance_summary.html

    您可以从以下每种器件的 SDK 中找到其他此类信息、例如 DSPLIB、FFTLIB、MATHLIB、VXLIB。

    https://software-dl.ti.com/jacinto7/esd/processor-sdk-rtos-j721s2/10_01_00_04/exports/docs/psdk_rtos/docs/user_guide/sdk_components_j721s2.html

    谢谢你。

    此致、

    Johnny

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的团队、Suman、

    这是当前情况的更新:

    -相同算法的 C66 (VM)和 C7x (VE)之间的执行时间差几乎是 C66x 的两倍(C7x 比 C66x 慢)、即使数据表中的规格与下面相同。

    TDA4VM (C66);PostProcNode:Avg = 6194 usecs、min/max = 6078 / 25685 usecs、
    TDA4VMidEco (C7x);后处理节点:Avg = 11293 usecs、min/max = 11195/70855 usecs、

    -这个执行时间是使用 VX Time Measure API 测量的,客户也会更新基于计数器的。

    -通过优化(e.g.bufferization), C7x 变得比 C6x 快,但核心份额几乎与下面相同。

    TDA4VM(C66);执行时间: 40ms/CPU 负载: 31%。
    TDA4VMidEco (C7x):执行时间:20ms / CPU 负载:30%。[/报价]

    -C66x 和 C7x 基准测试资源根据客户的要求如上所述提供。

    -根据数据表,同样的结果也必须得到相同的优化,但实际上它不是。

    仍然没有任何确切的原因、且尚未找到解决方案、根据谈话内容、您可以看一下并更新该主题吗?

    谢谢你。

    BR、

    Lynn

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    [报价 userid="583245" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5608518 #5608518"]

    -C66x 和 C7x 基准测试资源根据客户的要求如上所述提供。

    -根据数据表,同样的结果也必须出来没有优化,但实际上它不是。

    [报价]

    你好、Lynn、


    您能否参考此主题。 似乎内容几乎相似。
    https://e2e.ti.com/support/processors-group/processors/f/processors-forum/951567/tda4vm-curious-difference-in-performance-between-c66x-and-c7x

    此致、
    Sivadeep

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Sivadeep:

    首先让我为大家详细介绍这个问题、链接的内容与此非常不同。

    -根据数据表、同样的结果也必须输出而不进行优化、但实际上并非如此。

    很抱歉、此评论中有一个拼写错误、"同样的结果也必须是 优化 " .

    [报价 userid="583245" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5608518 #5608518"]
    TDA4VM (C66);后处理节点:Avg = 6194us、最小值/最大值= 6078 / 25685 us、
    TDA4VMidEco (C7x);后处理节点:Avg = 11293 usecs、min/max = 11195/70855 usecs、
    [报价]

    该执行时间是在相同的优化级别下测量的、但即使数据表中的核心规格相同、差距也几乎是两倍。

    TDA4VM(C66);执行时间: 40ms/CPU 负载: 31%。
    TDA4VMidEco (C7x):执行时间:20ms / CPU 负载:30%。[/报价]

    随着更多的优化(例如 仅在 C7x 上进行缓冲)、这一结果得以实现。  

    不过、尽管执行时间有两倍的间隔、但内核负载几乎相同(在本例中、C7x 比 C66x 快)。

    重点是:

    1.为什么 C66x (TDA4VM)和 C7x (TDA4VE)之间的执行时间存在两倍的差距、C66x 甚至比 C7x 更快? 它们具有相同的核心规格。

    2.如果像  仅对 C7x 进行缓冲这样更多的优化、 为什么虽然执行时间有两倍的间隙(此时 C7x 比 C66x 快)内核负载几乎相同?

      2.1.是否可以减少内核负载?为什么即使执行时间减少了、CPU 负载仍然相同?

    CPU 负载的含义是什么?如何降低?  哪些因素决定了 CPU 负载? 请将此问题与我的上一个问题一同回答。

    您能否参阅上述内容并调查原因?

     

    大家好、Dohee:

    请参考上面的内容、并告诉我是否错过了您在此处提到的要点。

    您能否在 C66x 和 C7x 之间共享基于计数器的执行时间测量值?

    谢谢你。

    BR、

    Lynn

    [/quote]
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    你好、Lynn、

    很抱歉响应延迟。

    1. 为什么 C66x (TDA4VM)和 C7x (TDA4VE)之间的执行时间有两倍的差距、C66x 甚至比 C7x 更快? 它们具有相同的核心规范。[/QUOT]
    • 即使它们具有相同的内核规格也是如此。 对于未优化的代码、不强制 C7x 始终优于 C66x。 性能可能会因多种因素而异。 C7x 只能通过适当的优化实现更好的性能。
      它可能基于以下因素:
      • 缓冲区的正确放置–指数据在存储器中的位置(无论数据是否更接近 CPU)。
      • 正确矢量化代码–确保代码有效利用矢量指令。
      • 循环的高效使用–性能还取决于代码中循环的数量和结构。
    • 您能否尝试在设置了编译器优化级别的 C66x 和 C7x 上运行优化的代码、并检查性能是否有任何差异?
      2。 随着像  仅 C7x 上的缓冲化这样的更多优化、 尽管执行时间有两倍的间隙(在本例中、C7x 比 C66x 快)、为什么内核负载几乎相同?[/QUOT]
    • 您能否分享一下您是如何计算 CPU 负载的? 此外、您可以使用 TSC 提供周期计数。

    此致、
    Sivadeep

    [/quote]
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    Sivadeep、  

    您能否尝试在 C66x 和 C7x 上使用编译器优化级别集运行优化的代码

    为此、请参考以下内容。

    我在这里的意思是、代码已经使用相同的优化级别集进行了优化、但执行时间如下所示。

    [报价 userid="583245" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5614018 #5614018"]

    很抱歉、此评论中有一个拼写错误、"同样的结果也必须是 优化 " .

    TDA4VM (C66);后处理节点:Avg = 6194us、最小值/最大值= 6078 / 25685 us、
    TDA4VMidEco (C7x);后处理节点:Avg = 11293 usecs、min/max = 11195/70855 usecs、

    该执行时间是在相同的优化级别下测量的、但即使数据表中的核心规格相同、差距也几乎是两倍。

    [报价]

    正如我所知、具有相同的优化级别和相同的算法、至少两个 C7x C66x 性能应该相同、不是吗?

    您能分享一下如何计算 CPU 负载吗? 此外、您能否使用 TSC 提供周期计数。

    客户已使用 OpenVX API 对其进行检查、基于 TSC 的周期计数将在客户进行测量后进行更新。

    那么、除了以下原因之外、C66x 和 C7x 之间出现相同的可优化级算法执行时间间隔是否还有其他原因?  

    [报价 userid="637509" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5618575 #5618575">
    • 缓冲区的正确放置–指数据在存储器中的位置(无论数据是否更接近 CPU)。
    • 正确矢量化代码–确保代码有效利用矢量指令。
    • 循环的高效使用–性能还取决于代码中循环的数量和结构。
    [报价]

    谢谢。

    BR、

    Lynn

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    你好、Lynn、

    随着更多优化(例如 仅针对 C7x 进行缓冲)、这一结果得以实现。  [报价]

    我对这一说法有疑问。 据我所知、您使用的缓冲优化仅在 C7x 上。 如果是这种情况、您可以在 C7x 和 C66上运行优化的代码并获取周期数。

    [报价 userid="583245" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5620987 #5620987"]据我所知、使用相同的优化级别和相同的算法、至少两个 C7x C66x 性能应该相同、不是吗?[/QUOT]

    它仍可能取决于我上面提到的各种因素。 您使用的编译器优化级别是什么?

    此致、
    Sivadeep

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Sivadeep:

    从我了解到的内容中、您使用的缓冲优化仅用于 C7x。

    我来解释一下详细的流程。

    1.先进行相同的优化和算法测试=>执行时间差如下所示。

    [报价 userid="583245" url="~/support/processors-group/processors/f/processors-forum/1418735/tda4vm-tda4vm-vs-tda4v-mideco-why-are-the-speeds-of-the-two-processors-different-for-the-same-logic/5614018 #5614018"]
    TDA4VM (C66);后处理节点:Avg = 6194us、最小值/最大值= 6078 / 25685 us、
    TDA4VMidEco (C7x);后处理节点:Avg = 11293 usecs、min/max = 11195/70855 usecs、
    [报价]

    2.随着更多的优化,如仅针对 C7x 的缓冲化,执行时间最终变得更快,但核心负载似乎几乎相同。

    TDA4VM(C66);执行时间: 40ms/CPU 负载: 31%。
    TDA4VMidEco (C7x):执行时间:20ms / CPU 负载:30%。[/报价]

    因此、从总体上看、执行时间应与此类似、甚至在案例1中也是如此、但事实并非如此、此外、在2中、即使 C7x 上的代码比 C66x 更优化、内核共享也几乎相同。 您在这里有什么原因吗?

    您使用的编译器优化级别是什么?

    为此,我们需要从 Dohee 检查。

    大家好、Dohee、除了 TSC、您可以在上面查看吗?

    谢谢。

    BR、

    Lynn

    [/quote]
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Lynn Kim:

    随着更多优化(例如仅针对 C7x 进行缓冲)、执行时间最终变得更快(低于)、但内核负载似乎几乎相同。

    我不确定是否仅针对 C7x 进行了优化、您能否 在 C66x 中使用相同的优化并进行比较。 如前所述、在某些情况下、两者之间可能存在执行时间差距。  
    您还可以更新使用 TSC 的周期数和您使用的编译器优化级别吗?

    此致、
    Sivadeep  

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Sivadeep:

    您还可以使用 TSC 更新周期数以及使用的编译器优化级别吗?

    优化级别为3、C7x 和 C66x 上均为。

    对于周期数测量、我们仍需要等待客户、那么您能否提供您对上述间隙的意见、尽管具有相同的优化级别?

    谢谢你。

    BR、

    Lynn

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    你好、Lynn、

    公差。 因此、在您不优化代码(而非编译器优化)的情况下、结果会有所不同。  

    尽管他们具有相同的核心规范。 对于未优化的代码、不强制 C7x 始终优于 C66x。 性能可能会因多种因素而异。 C7x 只能通过适当的优化实现更好的性能。
    它可能基于以下因素:
    • 缓冲区的正确放置–指数据在存储器中的位置(无论数据是否更接近 CPU)。
    • 正确矢量化代码–确保代码有效利用矢量指令。
    • 循环的高效使用–性能还取决于代码中循环的数量和结构。
    [报价]

    此致、
    Sivadeep

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    Dohee

    该主题现在可以关闭吗? 1个月内没有更新

    Dave C

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    关闭由于没有进一步更新、如果需要进一步支持、只需回复重新打开。