This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] TDA4AH-Q1:当我们在 SDK 9.2中测试 InnerProduct 层时、我们发现该层的计算时间显著增加

Guru**** 2347800 points
请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/1489599/tda4ah-q1-when-we-test-innerproduct-layer-in-sdk-9-2-we-find-that-the-computation-time-of-this-layer-increases-significantly

器件型号:TDA4AH-Q1

工具/软件:

在 SDK 9.2中测试 InnerProduct 层时、我们发现该层的计算时间显著增加至7.5ms。 但 SDK 8.6中的计算时间仅为0.5ms。  

我们使用的 SDK 版本为 SDK 9.2、ti_dl 版本为 10.1

我们希望这一问题能够尽快得到解决

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好:Guang、

    请在下周结束之前给我一个答案。  

    谢谢您、

    Christina

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    e2e.ti.com/.../InnerProduct_5F00_model.zip

    这是我们的测试模型、其中包括 InnerProduct Layer

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    该问题阻碍了项目的进度、需要尽快解决。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Guang:

    请设置 DEBUG_LEVEL = 2、这样将提供层级性能的细分以及更详细的跟踪。 如需更多信息、请 单击此处。 这将更好地确定问题的根本原因是什么。  

    此致、

    Christina

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    此处提供了详细日志。

    /cfs-file/__key/communityserver-discussions-components-files/791/vh_5F00_9.2_5F00_2025_2D00_03_2D00_21_5F00_14_2D00_25_2D00_51.log

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好:Guang、

    这是咖啡模型。  对于此示例模型、我们可以转换为 ONNX、但想检查您在将完整 Caffe 模型转换为 ONNX 时是否有任何问题? 有一些离线工具可用于此类转换。

    对此问题进行快速更新

    我们在某些特定尺寸的内部产品(即使在8.6 版中)中存在一些不稳定问题(如下所述)、因此后续版本使用 通用的非最佳代码会导致性能不佳

    IN > 2048 || OUT > 1024 || OUT  < 16U

    对于您的情况、它如下所示并达到该条件

    输入:4800、输出:64

    但内产品可以转换成无菌,然后它应该提供更好的性能

    如果你能够使用 ONNX 模型,那么我们可以提供简单的手术规则 ,将内产品(在 ONNX 中的宝石)转换为 matmul。

    谢谢、

    此致、

    Pramod

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    但在 TIDL 8.6和9.2中、时间成本小于1ms。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    是的、我们在9.2中发现了稳定性问题、并对其进行了更改、因此任何从9.2 (包括9.2)开始的版本、您都应该看到性能较低。

    您能否确认将 您的模型转换为 ONNX 而不是咖啡的可能性? 您可以使用 caffe2onnx·PyPI 等工具

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    完整模型包含 caffe2onnx 不支持的运算符、如 YoloProposal 和 Argmax。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    将内部产品(ONNX 中的 gem)转换为 matmul。

    如何执行此操作?

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Guang:

    请查看 onnx 模型优化器 、了解如何将 gem 转换为 ONNX 的 matmul。 我个人不知道如何直接从咖啡转换,但也许开发团队可以很快提供更多的背景。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好广
    我们已经共享了该补丁。
    希望您收到它、补丁可以正常工作。
    如果您需要任何进一步的帮助、请告知我们。

    谢谢。此致
    Vijay

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    修补程序存在一致性问题。\n 我们目前正在修剪模型以重现此问题。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Guang:

    感谢您告诉我们。 为了透明起见、我们的 TI 印度团队周一正在休假。 请随时更新我们、我们会尽快回复您。  

    此致、

    Christina

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    请务必记住这一点

    2025年3月26日(星期三)分享了以下补丁、以解决内部产品性能问题。  

    链接:tidrive.ext.ti.com/.../7e46c098-8c53-4eb0-84c3-be47c8f34b04
    访问代码:|wH7N3VZ

    发布您提到的关于一致性问题、并提到将共享一个模型来突出问题、 您能否提供 修剪模型?

    如 Christina 所述、我们于2025年3月31日星期一在印度度假  、但鉴于问题的紧迫性、我们仍将努力为这一问题找到解决办法。 因此、请将相关详细信息分享 给我们、以便我们能够取得进一步的进展

    谢谢、

    Pramod

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、 

    我们在包含 修剪模型的另一个 TT 中提出了这个一致性问题。 请参阅它。

    e2e.ti.com/.../tda4ah-q1-the-consistency-issues-between-simulation-and-on-board-inference-as-well-as-the-consistency-issues-of-multiple-inferences-on-the-board

    谢谢、  

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    感谢 Guang,我们会认为 这个线程是封闭的假设性能明智它是好的,将回应其他线程关于不一致  

    谢谢

    变化

    Pramod

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、 

    抱歉、我的意思是性能问题仍然存在、 同时也存在一致性问题

    谢谢、  

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、

    我们仍然重复了基于新补丁的时间消耗急剧增加的问题。 请帮助我们解决问题。

    我们使用的补丁是:

    链接:tidrive.ext.ti.com/.../7e46c098-8c53-4eb0-84c3-be47c8f34b04
    访问代码:|wH7N3VZ

    时间消耗急剧增加的现象如下:

    我们使用的模型是  我们提供的 InnerProduct_model.zip

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    TI 系统 TIDL_7346中的问题跟踪

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、 Guang REN

    我在本地运行 innerproduct 模型、得到的 innerproduct 层的执行时间为~0.6ms。
    完整的网络执行时间为1.03ms。

     层执行时间=((该层的层周期)/ 1GHz)秒



    谢谢。此致
    Vijay

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    将关闭 TT、如果出现新问题、请随时创建新 TT。

    BR、Tommy