This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] AM69A:解读 get_TI_benchmark_data ()的性能测量值

Guru**** 2465890 points


请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/1472034/am69a-interpreting-performance-measurements-from-get_ti_benchmark_data

器件型号:AM69A
主题中讨论的其他器件:TDA4VH

工具与软件:

您好!

关于时间消耗、我目前正在尝试评估是否可以在您的 TDA4VH 卡上运行模型。 要做到这一点,我将使用您的onnxruntime.InferenceSession.get_TI_benchmark_data() 功能,如中所示edgeai-tidl-tools/examples/osrt_python/ort/onnxrt_ep.py。 这将返回包含一些计时数据的字典、包括两个字段ts:run_startts:run_end。 这两点包络了推理的哪些部分?

通过查看其他数据字段、我可以看到从进入第一个子图到退出最后一个子图之间大约经过了 xms。 但是、ts:run_start和之间ts:run_end存在大约5xms 的差异。  xms 是可接受的推理时间、而5xms 不是。 您能帮助我理解额外的4倍毫秒源于何处吗? 这些原因是由于推理的设置和清理吗? 如果是、是否可以通过使用 IOBinding 来缓解该问题? 然后、我如何让它与 TIDL 配合使用?

此致

奥洛夫

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    我刚刚观察到,几乎所有的额外时间都是在退出最后一个子图后花费的,这可能是一个线索。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    我想我可能已经找到了罪魁祸首。 查看通过 ONNX 提供的跟踪日志、似乎有一个 softmax 节点需要永久完成。 我目前正在研究如何缩短其计算时间。 为什么在时序中未考虑该节点仍然不为我所知。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Olof;感谢您在取得进展时提供的反馈信息。 我认为这不是由于推理的设置或清理所致。 如果您还有一些具体问题、敬请告知。

    此致

    文立