This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] AM5728:我可以#39;t train ssd768x320以在 Caffe-Jacinto-models-0.17上进行异议检测?

Guru**** 2556660 points


请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/854252/am5728-i-can-t-train-ssd768x320-for-objection-detection-on-the-caffe-jacinto-models-0-17

器件型号:AM5728

我在  Caffe-Jacinto-models-0.17中通过 train_image_object_detection.sh 对 SSD 模型进行培训。我选择  dataset=ti-custom-cfg1 来培训我自己的数据集,它无法正常工作。以下是日志:

I1106 16:38:10.926060 13633 Net.CPP:412]数据所需的参数存储器(测试):11946688 DIFF:11946688
I1106 16:38:10.926062 13633 net.cpp:415]参数共享存储器(测试)(按数据):0 DIFF:0
I1106 16:38:10.926064 13633 net.cpp:421]网络初始化完成。
F1106 16:38:10.926213 13633 IO.CPP:55]检查失败:fd!=-1 (-1对-1)未找到文件:traine/ti-custom-cfg1/JDetNet/20191106_16-37_DS_DSFAC_32_hdDS8_1/sps/ti-custom-cfg1_ssdJacintoNetV2_iter_120000.caffemodel
***检查故障堆栈跟踪:***
@ 0x7f69c02ae5cd google:::LogMessage:::fail()
@ 0x7f69c02b0433 google::LogMessage::SendToLog()
@ 0x7f69c02ae15b google::LogMessage::Flush()
@ 0x7f69c02b0e1e google:::LogMessageFatal:::~LogMessageFatal ()
@ 0x7f69c12bc6dc 咖啡因::ReadProtoFromBinaryFile()
@ 0x7f69c1334f56咖啡因::ReadNetParamsFromBinaryFileOrDie()
@ 0x7f69c0e6b88a Caffe:::net::CopyTrainedLayersFromBinaryProto()
@ 0x7f69c0e6b92e 咖啡因:::net::CopyTrainedLayersFrom()
@ 0x41204c test_detection ()
@ 0x40d1f0 main
@ 0x7f69bea30830 __libc_start_main
@ 0x40de89 _start
@(无)(未知)

但是、当我替换  dataset=ti-custom-cfg2,时、这是可以的。 ?Δ I

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Wang、

    它们之间的一个大区别是 Cfg2用于512x256、而 cfg1用于768x320。 因此、问题可能是由于内存要求、可能会尝试减小批处理大小。

    如果上述建议也不起作用、您可以分享完整的培训日志吗?

    谢谢、

    Praveen

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好 Praveen、

    详细的培训日志为 Blow:

    e2e.ti.com/.../train_2D00_log_5F00_20191106_5F00_16_2D00_37.txt

    我 的 PC 上提供512*512*256。我尝试将批处理大小减至最小值1。它仍然不能。

    它是否与 GPU 有关?我将 GPU 信息放在下面:

    ------------------------------------------------------- +
    | NVIDIA-SMI 418.74驱动程序版本:418.74 CUDA 版本:10.1 |
    |----------------------------- --------------- --------------- +
    | GPU 名称 Persistence-M|总线 ID Disp.A | volatile Uncorr。 ECC |
    |风扇温度性能电源:使用情况/电容|内存使用情况| GPU-Util Compute M.|
    ================================================================ =========================== =========================== |
    | 0 GeForce GTX 166... 关| 00000000:01:00.0开|不适用|
    | 63% 57C P2 94W/120W | 2728Mib/5906Mib| 71%默认值|
    ------------------------------------------------------- --------------- --------------- +

    ------------------------------------------------------- +
    |进程:GPU 内存|
    | GPU PID 类型流程名称使用|
    ============================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================ |
    | 0 1162 G /usr/lib/xorg/Xorg 253MiB |
    | 0 19230 C……uan/Caffe-Jacinto/build/tools/caffe.bin 2463MiB |
    ------------------------------------------------------- +

    谢谢、

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Wang、

    我们查看了日志、它不是内存问题、我们必须最终运行日志以查看发生了什么错误。设置将需要一些时间、我们将检查并在下周回来。

    BTW、您是否仍面临此问题? 或者您对此问题进行了一些解决或修复?

    谢谢、

    Praveen

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好 Praveen、

    是的,它仍然让我感到困惑。

    我 将'sd_size':'512x512'更改为'300x300'。 但它不起作用。

    起初,我以为计算机配置有问题,,但另一个遇到同样的问题。

    CUDA 版本是否会导致这种情况?

    谢谢、

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    看起来、以下不是2的倍数会导致问题。 它应该由代码处理、而代码在您的末尾会出现故障 我们将对此进行研究。

    resize_height=320
    CROP_HEIGHT = 320

    是否可以将其更改为512并进行尝试?

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    我在日志中看到的一些参数与仅将以下标志切换为  ti-custom-cfg1时的参数不同。

    dataset=voc0712                  #voc0712、ti-custom-cfg1、ti-custom-cfg2

    我正在观察日志中的 reg_head_at_DS8':0、但在原始脚本中它被设置为1。 为了在我们的结尾重现问题、您可以发送您修改过的内容  

    脚本\train_image_object_detection.sh

    您还可以确认您没有更改任何其他文件吗?

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Soyeb

    我尝试过、它不起作用。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好,

    是的、我做了一些更改。原因我使用的是原始脚本、它只是面临相同的问题。

    实际上、原始脚本中的"ti-custom-cfg2"可以正常工作、但我无法使用模板"ti-custom-cfg1" anyway.Compared 这两个模板、只有以下差异:

    cfg1. cfg2
    use_cable_gt=0 use_cut_gt=1
    chop_nnum_heads = 1
    min_dim=368 min_dim=256
    resize_width=768 resize_width=512
    resize_height=320 resize_height=256
    cROP_width=768 CROP_WIDTH = 512
    CROP_HEIGHT = 320 CROP_HEIGHT = 256
    SAFETY_obj=1 small_obj=0
    ssd_size='512x512'
    use_batchnorm_mbox=0 use_batchnorm_mbox=1
    powe=4.0 Power=1.0 

       ‘s 哪个参数可能会导致结果中断或几乎没有 缓冲 区溢出。  

    谢谢、

    王   

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您需要使用与 ti-custom-cfg2或 ti-custom-cfg1相同的设置。 但我看到您的日志显示 reg_head_at_DS8设置为0。 而原始脚本将其设置为1。 我们无法看到您所面临的问题。 如果我们在结束时无法重新创建、我们将无法获得任何建议。

    因此、请运行 ti-custom-cfg1、因为它与 VOC0712具有相同的 LMDB (例如、如下所示)、并将日志分享给我们。

    train_data="../../caffe-jacinto/examples/VOC0712/VOC0712_trainval_lmdb
    test_data="../../caffe-jacinto/examples/VOC0712/VOC0712_test_lmdb

    name_size_file="../../caffe-jacinto/data/VOC0712/test_name_size.txt
    label_map_file="../../caffe-jacinto/data/VOC0712/labelmap_voc.prototxt

    num_test_image=4952
    num_classes=21

     

     

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    谢谢您的建议、我会尝试。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您可以尝试新版本吗? 我们做了一些小的修复。  

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    好的、我只是看到您的新版本。

    我将在行驶后提供反馈。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好!

    我无法同时运行 custom-cfg1和 custom-cfg2。

    这是 log.e2e.ti.com/.../train_2D00_log_5F00_20191219_5F00_17_2D00_41.txte2e.ti.com/.../train_2D00_log_5F00_20191219_5F00_17_2D00_37.txt

    我没有做过任何事情,只是要进行培训和测试数据。但问题仍然存在。请帮助。

    非常感谢!

    此致、

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您可以多花些时间吗? 它仍然没有固定。 完成后、我们将对您执行 Ping 操作。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    好的、我在等你。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您可以立即尝试吗? 您的日志显示:

    检查失败:错误= cudaSuccessess (101 vs. 0) 无效的设备序号

    指定的 GPU 是否与您的 m/c 中的内容匹配?

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好!

    我很抱歉粗心。  custom-cfg2现在起作用。

    但    custom-cfg1存在 CUDA 内存分配问题。


    也许我应该在 服务器上运行它。您可以 优化和降低内存要求吗?

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您使用的是哪种显卡? 我们在 GTX1080TI 上进行了测试。 如果 GPU 内存不足、您可以减小批量大小。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    非常感谢您!我 减小了纸张尺寸, 它正常运行。

    您能不能告诉我上一个 Caffe-Jacinto 版本?出错了

    顺便说一下、我看到了您的发布列表、您是否准备发布热电筒?

    坦克,这个问题让我困扰了近3个月。