This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] TDA2EVM5777:Caffe-Jacinto 输出和 TIDL 输出之间不匹配

Guru**** 2013580 points
请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/725806/tda2evm5777-mismatch-between-caffe-jacinto-output-and-tidl-output

器件型号:TDA2EVM5777

您好!

我们正在使用 TIDL 进行人脸检测。 我们有一个 CNN 网络、它接收输入图像并提供类信息以及边界框信息。 我们已经使用 Caffe-Jacinto 对该网络进行了培训。 我们能够导入经过训练的网络、包括 TIDL 导入工具、而不会出现任何错误。

我们知道、TIDL 使用过去的统计数据在运行时进行动态量化。 根据 TI 专家的建议、应导入从摄像机拍摄的视频/图像、该视频/图像将用于最终的实际用例(对于我们而言、是 TDA2XEVM 电路板摄像机)。 因此、我们使用 TDA2XEVM 上的板载摄像头录制了2个视频。 让我们将这些视频命名为 record1.h264 (1200帧)和 record2.h264 (1300帧)。

步骤1:使用记录1 (原始 RGB 平面)导入视频以生成 NET.bin 和 Param.bin

-导入配置:numParamBits = 8,quantRoundAdd = 25

步骤2:使用记录1上的 NET.bin 和 Param.bin 进行引用、其中 histParam1=0、histParam2=0、margin=0

步骤3:使用记录1上的 NET.bin 和 Param.bin 进行引用、其中 histParam1=20、histParam2=10、margin=20

步骤4:使用记录2上的 NET.bin 和 Param.bin 进行引用、其中 histParam1=0、histParam2=0、margin=0

步骤5:使用记录2上的 NET.bin 和 Param.bin 进行引用、其中 histParam1=20、histParam2=10、margin=20

步骤6:使用 caffe-Jacinto 咖啡因模型和原型在 PC Python 安装程序中使用 record1进行推断

步骤7:在 PC Python 安装程序中使用 Caffe-Jacinto Caffemodel 和 prototxt 使用 record2进行推断


观察结果:
Step2和 Step3输出与 Step6非常匹配
-尽管它非常匹配。 我们面对的是输出框在视频序列上发生轻微偏移或晃动。

步骤4和步骤5的输出与步骤7不匹配
实际上是一个真实的用例。 我们应该在面周围得到适当的边界框。 但是、由于回归值中存在大量误差。
我们没有得到适当的边界框。 连续帧输出之间的变化太大。 边界框会在视频序列中的对象周围不断发生抖动。

始终先导入、然后推测不是解决方案。 您能不能提出建议、我们应该如何解决这个问题? 我们已经使用12位进行了相同的实验。 但是、我们将获得相同的资源。 我们还尝试了不同的值:histParam1、histParam2和 Margin。 我们的结果不是改善、而是变得更糟。

此致、

Sagar

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    您好 Sagar、

    记录1和记录2中的方案是否相同?
    如果不是、我们建议您创建一个"原始 RGB 平面"、它涵盖了 recod1和 record2视频中的所有情形、并为导入工具提供此工具以获取 NET 和 Param bin 文件。
    如果记录1和记录2中的方案相同、则为更多帧运行导入工具、以便在更多帧上收集统计数据(平均值)。

    谢谢、
    Praveen
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    我考虑的场景是相同的摄像头、相同的照明条件和相同的周围环境。
    是的。 在同一照明条件下、这2个视频在实验中一个接一个地录制。

    记录1:
    人1座椅位于摄像机前方并录制视频(1200帧)
    记录2:
    摄像机前面的人员2座椅、并录制视频(1300帧)

    此致、
    Sagar
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    您好 Sagar、

    请尝试会议中建议的选项。 我现在将关闭此主题、如果您遇到任何问题、我想打开此主题或创建一个新主题。

    谢谢、
    Praveen