工具与软件:
SDK 版本:10_00_08_00 edgeai 工具
| 模型尺寸 | TDA4VEN 上的推理时间 | DDR 带宽(14个图像/秒) | |
| 模型1 | 21g MAC | 41毫秒 | 1706Mb/s |
| 模型2 | 22G MAC | 48.7ms | 2488Mb/s |
注意: 与模型1相比,模型2没有引入任何新的卷积层。
DDR 带宽增加了45%。
TI 支持团队按如下方式跟踪了此问题:
2024.12.13: 所有材料均已提交给 TI 支持团队。
This thread has been locked.
If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.
工具与软件:
SDK 版本:10_00_08_00 edgeai 工具
| 模型尺寸 | TDA4VEN 上的推理时间 | DDR 带宽(14个图像/秒) | |
| 模型1 | 21g MAC | 41毫秒 | 1706Mb/s |
| 模型2 | 22G MAC | 48.7ms | 2488Mb/s |
注意: 与模型1相比,模型2没有引入任何新的卷积层。
DDR 带宽增加了45%。
TI 支持团队按如下方式跟踪了此问题:
2024.12.13: 所有材料均已提交给 TI 支持团队。
| 模型尺寸 | TDA4VEN 上的推理时间 | DDR 带宽(14个图像/秒) | |
| 模型1 High_Resolution_optimization = False |
21g MAC | 41毫秒 | 1706Mb/s |
| 模型1 high_resolution optimization =真 |
21g MAC | 53毫秒 | 2500Mb/s |
| 模型2 High_Resolution_optimization = False |
22G MAC | 48.7ms | 2488Mb/s |
| 模型2 high_resolution optimization =真 |
22G MAC | 42.2ms | 1600MB/s |
最后、我们有以下 问题:
您好、Yu、
1.虽然卷积运算符在模型1和模型2之间是相同的,但在使用的其他运算符以及在两个模型中存在的分支中也存在差异。 由于网络中的分支存在差异、因此存在各种数据依赖方面、这也会影响写入每层输出的存储器空间(DDR 与片上存储器)。 这 最终会影响推理时间和 DDR 带宽。
2. 启用"high_resolution optimization"总是可以提供更好的 DDR 带宽(或者与禁用时相比具有相同的 DDR 带宽)。 但是、此功能此时不稳定、因此在某些 情况下可能会产生意外结果。
3.不, Onnx 版本不会影响 推理时间/DDR 带宽。
此致
进纸器
尊敬的 Febin:
感谢您的答复。
是的、与模型1相比、模型2有一个新分支、但与整个网络相比、它相对较小(1G MAC)。 但是、DDR 带宽增加了45%。 您的意思是、这主要是由于输出数量的增加? 我们想了解显著增加 DDR 消耗的关键因素、以便我们可以在设计网络时将其用作指南。
当您提到它可能"在某些情况下产生意外结果"时、您是否意味着同一个网络即使在大多数时间都正确、也可能产生意外结果? 或者您的意思是、只有某些网络结构才会出现意外结果?
期待您的见解。
您好、Yu、
DDR 带宽取决于很多网络动态特性。 我将尝试描述一些因素:
1.任何其输出张量大小大于 片上存储器大小的层都将其输出张量写入 DDR 并从 DDR 读取。
2.当网络中有并行分支时,根层的输出张量必须保留在内存中,直到其所有消费分支都被处理。 根层输出张量可以存储在片上,占用存储器,导致每个分支中的某些层(取决于张量大小)存储在 DDR 中。
3.如果并行分支中的任何卷积层具有较高的张量大小, 它也会显著影响 DDR 带宽。
此致
进纸器