主题中讨论的其他器件:AM67A、 AM68A、 TDA4VM
工具与软件:
您好!
查看 AM62A 和 TDA4EN 的比较时、我注意到 TDA4EN 支持直方图、而 AM62A 不支持直方图。 这使我相信、C7x 子系统有2个不同版本:

问题:
1.这些器件之间的 C7x 版本有哪些(TRM 中未提及)
2.这些版本之间还有哪些 C7x+MMA 区别?
This thread has been locked.
If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.
工具与软件:
您好!
查看 AM62A 和 TDA4EN 的比较时、我注意到 TDA4EN 支持直方图、而 AM62A 不支持直方图。 这使我相信、C7x 子系统有2个不同版本:

问题:
1.这些器件之间的 C7x 版本有哪些(TRM 中未提及)
2.这些版本之间还有哪些 C7x+MMA 区别?
您好!
是的、您可以更正这些 C7x 不相同。 AM62A 使用 C7504、而 TDA4AEN (在架构上与 AM67A 非常相似)使用 C7524。 因为 C7是一个封闭的体系结构,所以低层次的特征是不能直接访问的——C7xMMA 被视为黑盒 AI 加速器。
也就是说、有一些差异会影响用户级别
BR、
Reese
啊、当然可以。
我首先要指出的是、有许多很好的在线资源介绍了这些资源是什么以及它们存在的原因。 他们可能会给出比我下面的文字更直观的解释
简而言之、非线性激活通常是在混合了许多点/值的较大层(例如卷积)的输出上发生的点函数。 这会使原本是线性的算法出现某种"中断"、从而使其概括为基础数据中更复杂的函数和模式。 本质上、神经网络必须具有这些非线性才能在复杂数据上运行。
这方面的一些示例包括 Relu、SiLU、sigmoid、tanh (我建议查看 x-y 图的图像以了解这些示例。 有些是非常简单的像 RELU,这样几乎没有额外的计算涉及. 其他一些像 SiLU 或 TANH 这样的计算比较复杂--对于这些、查找表是加速量化数据的好方法。 对于8位量化、您基本上需要一个包含256个元素的表、从中获取非线性结果。
我们的文档中提到了其中的一些激活: https://github.com/TexasInstruments/edgeai-tidl-tools/blob/master/docs/supported_ops_rts_versions.md#feature-set-comparison-across-devices。
BR、
Reese
你(们)好
感谢您的认真阅读。 我将在其中进行更深入的探讨。 同时、我的客户和我整理了这张表格、您能帮我填写其余的表格吗?
|
特性/器件 |
AM62A |
TDA4xEN (AM67A) |
TDA4VE (AM68A) |
TDA4VM |
|
C7x 版本 |
C7504 |
C7524 |
C7120 | C7100 |
|
MMA 版本 |
修订版2 |
修订版2 |
修订版2 |
修订版1 |
|
每个 DSP/MMA 的 L2高速缓存大小 |
1.25 MB |
2.25 MB |
512KB |
512KB |
|
三级高速缓存大小 |
64KB | 256KB |
4MB |
8Mb |
|
DDR 带宽 |
14Gb/s |
14Gb/s |
34Gb/s |
17GB/s |
|
直方图/查找表支持 |
否 |
有 |
有 | 有 |
|
C7x/MMA 的数量 |
1. |
2. |
2. |
1. |
|
顶级的 |
1TOPS 或2TOPS |
4TOPS |
8TOPS |
8TOPS |
|
电阻50 v1224x224 [fps] |
33.5. | 40. |
184. |
121. |
尊敬的 David:
我用我所知道的信息更新了您的表-我想所有的盒子都覆盖了。
值得注意的是、AM62A 的基准测试标称值为1.7TOPS、如果以更高的时钟运行、可能还会增加10%。 其原因有点具有历史意义(第一个 EVM 和测试场中的功能使用在整个温度范围内无法达到最大速度的旧 PMIC)。
此外、具有>1个 C7x 内核的 AM67A/TDA4AEN 等器件将仅使用1个内核作为其基准。 这就是您在此处未看到~2倍 AM62A 性能的原因。
BR、
Reese