[参考译文] TDA2SX：GFLOPS、DLOPS 的数量？如何计算 TDA2x 的计算能力

admin

Other Parts Discussed in Thread: 66AK2H12, TDA2SX

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/615108/tda2sx-number-of-gflops-dlops-how-to-calculate-the-computing-power-of-tda2x

器件型号：TDA2Sx
主题中讨论的其他器件：TDA2、 66AK2H12、

尊敬的 TI 专家：

我们有一些 ADAS 客户询问 TDA2系列 SoC 的计算能力。我找不到一份官方文档、其中列出了 TI 以 GFLOPS/ TFLOPS 为单位的 TDA2x 计算能力、我们在哪里可以找到或如何计算该数字？

相比之下、ADAS 应用需要使用深度学习算法、我们可以了解到、移动眼显示 EyeQ3提供~300GFLOPS、而 EyeQ4将该数字推至2.5TFLOPS。

在 TI DSP 概览页面 http://www.ti.com/processors/dsp/overview.html上、我可以找到这些信息、即 TI C66x DSP 内核在1GHz 频率下可提供每内核32 GMAC 和16 GFLOPS 的性能。

我发现 ARM Cortex-A15的效率大约为6.9FLOPS/GHz/内核 (https://devtalk.nvidia.com/default/topic/813318/jetson-tk1/flops-for-jetson-host/ )，

因此、我计算了66AK2H12 (4* ARM Cortex-A15@1.4GHz，8* C66x @1.2GHz)的总计算功率应约为4*1.4GHz * 6.9GFLOPS/GHz + 8*1.2GHz * 16GFLOPS/GHz = 38GFLOPS + 153.6LOPS = 191.6 GFLOPS、这非常接近 TI DSP 概述页面上的200GFLOPS。

同样，我们可以计算 TDA2SX 的 GFLOPS (2 * arm Cortex-A15@1.176GHz，2 * C66x @0.75GHz)，它是 2 * 1.176 GHz 6.9 GFLOPS/GHz + 2 0.75 GHz*16 GFLOPS/GHz = 16+24 =40 GFLOPS

同时、我还从 YouTube (www.youtube.com/watch )上找到了一段视频、其中说 TDA2的计算能力为266千兆 DLOP

2.您能解释一下 DLOPs (我猜是“深度学习操作”)的含义吗？它与 FLOPS 有什么关系？

由于 EyeQx 使用 MIPS CPU、而 MIPS CPU 的效率与 ARM Cortex-A CPU 相当、因此我怀疑3W SoC 将提供300GFLOPS 甚至2.5TFLOPS、而 TI TDA2x 只提供40GFLOPs……

那么、在深度学习领域、人们对浮点运算的定义是不同的吗？我发现人们在深度学习算法中讨论过、只需要半精度浮点运算、但当人们经常谈论浮点时、它们意味着单精度浮点(请参阅 https://teslamotorsclub.com/tmc/threads/ap2-0-cameras-capabilities-and-limitations.86430/page-20 #396)。

8 年多前

0 admin 8 年多前

TI__Guru**** 2589245 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

Nestor、您好！

我已将您的问题转交给深度学习专家。

此致、
Yordan

0 admin 8 年多前

TI__Guru**** 2589245 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

Yordan、您好！

有任何反馈吗？
谢谢。

0 admin 8 年多前

TI__Guru**** 2589245 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

Yordan、您好！

您能否帮助向深度学习专家寻求进展？

谢谢。

0 admin 8 年多前

TI__Guru**** 2589245 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

Nestor、您好！

很抱歉耽误你的时间、我将对它们执行 ping 操作。

此致、
Yordan

0 admin 8 年多前

TI__Guru**** 2589245 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

Nestor、您好！

让我先定义术语(至少在我的回复中由我使用)

FLOPS：单精度浮点运算
MAC：乘法+累加运算。 1个 MAC 相当于2个操作
DLOPS：在深度学习中、正如您所说的、半浮点甚至是8位定点数据类型就足够了。因此、在上面的幻灯片中、DLOPS 指的是8位算术或条件运算(乘法/添加/比较)。因此、您可以假设1个 MAC = 2个 DLOPS

许多研究人员建议、8位或16位定点数据类型足以用于深度学习、TI 还认为、因此我将在上面的幻灯片中重点介绍 GMAC (或 DLOPS)

TDA2x (理论性能)适用于8位或16位定点数据类型

2x C6x DSP @ 1000GHz = 2*32 GMACS = 64 GMACS

4xEVE @900MHz = 4*16*900 MMACS = 57.6GMACS

2xA15 @1800MHz = 2* 8 * 1800 MMACS = 28.8 GMACS

总计= 150.4GMACS = 300GDLOPS

现在实际吞吐量在很大程度上取决于网络结构、因此我无法对单个数字进行评论。

您提到的幻灯片提到了使用深度学习网络的语义分割应用的性能。在这种情况下、我们只使用4个 EVE 内核、这就是功耗为2.5W 的原因！！

现在仍然存在的问题是、4xEVE 的理论最佳性能为57.6 GMAC (115.2 GDLOPS)、那么如何实现266 GDLOPS。这里的点也是网络属性。如果您看一下网络并计算 DLOPS、它是266 GDLOPS、但 TI 深度学习库会识别一些冗余操作并避免执行这些操作、这就是它可以在4xEVE 上运行266 GDLOPS 的复杂网络的原因。

希望这能澄清…

谢谢、
此致、

Pramod

处理器（参考译文帖）

处理器（参考译文帖）(Read Only)

[参考译文] TDA2SX：GFLOPS、DLOPS 的数量？如何计算 TDA2x 的计算能力

处理器（参考译文帖）

处理器（参考译文帖）(Read Only)

[参考译文] TDA2SX：GFLOPS、DLOPS 的数量？ 如何计算 TDA2x 的计算能力

[参考译文] TDA2SX：GFLOPS、DLOPS 的数量？如何计算 TDA2x 的计算能力