This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] TDA2SX:GFLOPS、DLOPS 的数量? 如何计算 TDA2x 的计算能力

Guru**** 2553450 points
Other Parts Discussed in Thread: 66AK2H12, TDA2SX

请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/615108/tda2sx-number-of-gflops-dlops-how-to-calculate-the-computing-power-of-tda2x

器件型号:TDA2Sx
主题中讨论的其他器件:TDA266AK2H12

尊敬的 TI 专家:

我们有一些 ADAS 客户询问 TDA2系列 SoC 的计算能力。 我找不到一份官方文档、其中列出了 TI 以 GFLOPS/ TFLOPS 为单位的 TDA2x 计算能力、我们在哪里可以找到或如何计算该数字?

相比之下、ADAS 应用需要使用深度学习算法、 我们可以了解到、移动眼显示 EyeQ3提供~300GFLOPS、而 EyeQ4将该数字推至2.5TFLOPS。  

在 TI DSP 概览页面 http://www.ti.com/processors/dsp/overview.html上、我可以找到这些信息、即 TI  C66x DSP 内核在1GHz 频率下可提供每内核32 GMAC 和16 GFLOPS 的性能。

我发现 ARM Cortex-A15的效率大约为6.9FLOPS/GHz/内核 (https://devtalk.nvidia.com/default/topic/813318/jetson-tk1/flops-for-jetson-host/ ),

因此、我计算了66AK2H12 (4* ARM Cortex-A15@1.4GHz,8* C66x @1.2GHz)的总计算功率应约为4*1.4GHz * 6.9GFLOPS/GHz + 8*1.2GHz * 16GFLOPS/GHz = 38GFLOPS + 153.6LOPS = 191.6 GFLOPS、这非常接近 TI DSP 概述页面上的200GFLOPS。  

同样,我们可以计算 TDA2SX 的 GFLOPS (2 * arm Cortex-A15@1.176GHz,2 * C66x @0.75GHz),它是 2 * 1.176 GHz 6.9 GFLOPS/GHz + 2 0.75 GHz*16 GFLOPS/GHz = 16+24 =40 GFLOPS

同时、我还从 YouTube (www.youtube.com/watch )上找到了一段视频、其中说 TDA2的计算能力为266千兆 DLOP

2.您能解释一下 DLOPs (我猜是“深度学习操作”)的含义吗? 它与 FLOPS 有什么关系?

由于 EyeQx 使用 MIPS CPU、而 MIPS CPU 的效率与 ARM Cortex-A CPU 相当、因此我怀疑3W SoC 将提供300GFLOPS 甚至2.5TFLOPS、而 TI TDA2x 只提供40GFLOPs……

那么、在深度学习领域、人们对浮点运算的定义是不同的吗? 我发现人们在深度学习算法中讨论过、只需要半精度浮点运算、但当人们经常谈论浮点时、它们意味着单精度浮点(请参阅 https://teslamotorsclub.com/tmc/threads/ap2-0-cameras-capabilities-and-limitations.86430/page-20  #396)。  

 

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    Nestor、您好!

    我已将您的问题转交给深度学习专家。

    此致、
    Yordan
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    Yordan、您好!

    有任何反馈吗?
    谢谢。
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    Yordan、您好!

    您能否帮助向深度学习专家寻求进展?

    谢谢。
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    Nestor、您好!

    很抱歉耽误你的时间、我将对它们执行 ping 操作。

    此致、
    Yordan
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    Nestor、您好!

    让我先定义术语(至少在我的回复中由我使用)

    • FLOPS:单精度浮点运算
    • MAC:乘法+累加运算。 1个 MAC 相当于2个操作
    • DLOPS:在深度学习中、正如您所说的、半浮点甚至是8位定点数据类型就足够了。 因此、在上面的幻灯片中、DLOPS 指的是8位算术或条件运算(乘法/添加/比较)。 因此、您可以假设1个 MAC = 2个 DLOPS

     

    许多研究人员建议、8位或16位定点数据类型足以用于深度学习、TI 还认为、因此我将在上面的幻灯片中重点介绍 GMAC (或 DLOPS)

     

    TDA2x (理论性能)适用于8位或16位定点数据类型

    2x C6x DSP @ 1000GHz = 2*32 GMACS = 64 GMACS

    4xEVE @900MHz            = 4*16*900 MMACS   = 57.6GMACS

    2xA15 @1800MHz          = 2* 8 * 1800 MMACS = 28.8 GMACS

    总计= 150.4GMACS = 300GDLOPS

     

    现在实际吞吐量在很大程度上取决于网络结构、因此我无法对单个数字进行评论。

     

    您提到的幻灯片提到了使用深度学习网络的语义分割应用的性能。 在这种情况下、我们只使用4个 EVE 内核、这就是功耗为2.5W 的原因!!

     

    现在仍然存在的问题是、4xEVE 的理论最佳性能为57.6 GMAC (115.2 GDLOPS)、那么如何实现266 GDLOPS。 这里的点也是网络属性。 如果您看一下网络并计算 DLOPS、它是266 GDLOPS、但 TI 深度学习库会识别一些冗余操作并避免执行这些操作、这就是它可以在4xEVE 上运行266 GDLOPS 的复杂网络的原因。

     

    希望这能澄清…

     

    谢谢、
    此致、

    Pramod