This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] TDA2PXEVM:在 Caffe-Jacinto 上训练 VGG-SSD 时,我‘CUDNN_STATUS_NOT SUPPORTED’问题

Guru**** 2540720 points


请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/779899/tda2pxevm-i-have-cudnn_status_not_supported-problem-when-training-vgg-ssd-on-caffe-jacinto

器件型号:TDA2PXEVM

您好!  

    我正在测试一些检测网、基本网是 VG16。

   我在 Caffe-Jacinto 上训练 VGG-SSD、但它显示:   

I0306 20:09:00.571115 56887 net.cpp:200]创建的层 fc6 (34)
I0306 20:09:00.571128 56887 net.cpp:572] fc6 <- pool5
I0306 20:09:00.571157 56887 net.cpp:542] fc6 -> fc6
F0306 20:09:00.679510 56887 cudnn.HPP:143]检查失败:状态= CUDNN_STATUS_SUCCESS (9对0) CUDNN_STATUS_NOT SUPPORTED、器件0
***检查故障堆栈跟踪:***
@ 0x7f87d56b7daa (未知)
@ 0x7f87d56b7ce4 (未知)
@ 0x7f87d56b76e6 (未知)
@ 0x7f87d56ba687 (未知)
@ 0x7f87d6327ca3咖啡因:::cudnn::setConvolutionDesc ()
@ 0x7f87d6336dfa 咖啡因::CuDNNConvolutionLayer<>:Reshape ()
@ 0x7f87d662bcd8咖啡因::网::Init()
@ 0x7f87d662dc31咖啡因::网:网()
@ 0x7f87d660d360咖啡因::解算器:InitTrainNet()
@ 0x7f87d660d8d2咖啡因::解算器::Init()
@ 0x7f87d660dd9c 咖啡因::解算器::解算器()
@ 0x7f87d6694d56咖啡因:Creator_SGDSolver ()
@ 0x41c001咖啡因::SolverRegistry::CreateSolver ()
@ 0x40f450火车()
@ 0x40c9de main
@ 0x7f87d3eeef45 (未知)
@ 0x40d6cb (未知)
@(无)(未知)
已中止(转储内核)

 看起来它在 fc6上停止。

那么、VGG-SSD 是否曾在 Jacinto 上进行过测试?

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    我记得尝试看看它是否开始训练、但我不得不承认我没有花太多时间在 Caffe-Jacinto 上使用 VGG SSD。 您能告诉我您正在为此执行的确切命令吗?

    您是否曾尝试过我们提供的 jdetnet 或 mobiledetnet-0.5培训示例? 它们是否工作良好?
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    大家好、Mathew

        我的构图很简单: mydir/caffe/build/tools/caffe train -soler="mysolver.ptototxt"-GPU 0

        VGG-SSD 原型 设计: Caffe-Jacinto/models/VGGNet/Coco/ssd_300x300/

        我试过 Jdetnet、Mobiledetnet-SSD、RESNET-SSD、它们都运行良好。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    它对我来说很有用-训练很好。 我刚刚将数据集修改为 Pascal VOC、将批量大小训练为16、将批量大小测试为8以及与 Pascal VOC 相关的其他细微更改。 我使用了两个 GTC 1080 TI GPU、CUDA 10、CUDNN 7.4


    I0307 16:51:48.849717 3711 net.cpp:338]数据不需要向后计算。
    I0307 16:51:48.849722 3711 net.cpp:380]该网络生成输出检测_eval
    I0307 16:51:48.849822 3711 net.cpp:403]数据所需的顶部存储器(测试):2140341816 DIFF:2140341816
    I0307 16:51:48.849828 3711 net.cpp:406]底部存储器(测试)数据所需:2140340192 DIFF:2140340192
    I0307 16:51:48.849834 3711 net.cpp:409]共享(就地)存储器(测试)、按数据分类:809009152 DIFF:809009152
    I0307 16:51:48.849839 3711 net.cpp:412]数据所需的参数存储器(测试):137220824 diff:137220824
    I0307 16:51:48.849845 3711 net.cpp:415]参数共享存储器(测试)(按数据:0 diff:0)
    I0307 16:51:48.849850 3711 net.cpp:421]网络初始化完成。
    I0307 16:51:48.850175 3711解算器.cpp:55]解算器脚手架完成。
    I0307 16:51:48.853080 3711 Caffe.CPP:260]启动优化
    I0307 16:51:48.853093 3711求解器.cpp:455]解算 VGG_coco_ssd_300x300_train
    I0307 16:51:48.853099 3711解算器.CPP:456]学习率政策:保利
    I0307 16:51:48.853138 3711 net.cpp:1494][0]为类型 float 保留137222912字节的共享可学习空间
    I0307 16:51:48.883775 3740 data_reader.cpp:58]数据读取器线程:3、输出队列:12、深度:16
    I0307 16:51:48.891929 3740 taled_data_lay.cpp:105]输出数据大小:16、3、300、300
    I0307 16:51:51.999372 3711解算器.cpp:360]迭代1 (0.623492 s)、损耗= 24.7223
    I0307 16:51:57.144192 3711 cudnn_conv_lay.cpp:848][0]转换算法(F、BD、BF):'conv4_1'、空间为0.85G 256/1 7 5 5 (可用5.52G、请求0.85G) T:0 2.34 2.39
    I0307 16:51:57.800055 3711 cudnn_conv_lay.cpp:848][0]转换算法(F、BD、BF):'conv4_2'、空间为0.85G 512/1 7 5 5 (可用5.52G、请求0.85G) T:0 4.16 4.
    I0307 16:51:58.461263 3711 cudnn_conv_lay.cpp:848][0]转换算法(F、BD、BF):'conv4_3'、空间为0.85G 512/1 7 5 5 (可用5.52G、请求0.85G) T:0 4.1 3.98
    I0307 16:51:59.680435 3711 cudnn_conv_lay.cpp:848][0]转换算法(F、BD、BF):'con5_3'、空间为0.85G 512/1 7 5 5 (可用5.52G、请求0.85G) T:0 1.31 1.15
    I0307 16:52:00.630538 3711 cudnn_conv_lay.cpp:848][0] Conv 算法(F、BD、BF):'fc6'、空间为0.85G 512/1 0 0 (可用5.52G、请求0.85G) T:0 7.24 8.07
    I0307 16:52:00.926962 3711 cudnn_conv_lay.cpp:848][0] Conv 算法(F、BD、BF):'fc7'、空间为0.85G 1024/1 1 1 1 1 (可用5.52G、请求0.85G) T:0 1.25 1.86
    I0307 16:52:01.218245 3711 cudnn_conv_lay.cpp:848][0] Conv 算法(F、BD、BF):'conv6_1'、空间为0.85G 1024/1 1 1 0 (可用5.52G、请求0.85G) T:0 0.41 0.57
    I0307 16:52:01.443254 3711 cudnn_conv_lay.cpp:848][0]转换算法(F、BD、BF):'conv6_2'、空间为0.85G 256/1 0 1 (可用5.52G、请求0.85G) T:0 0.77 0.55
    I0307 16:52:01.646088 3711 cudnn_conv_lay.cpp:848][0] Conv 算法(F、BD、BF):'conv7_1'、空间为0.85G 512/1 1 3 (可用5.52G、请求0.85G) T:0 0.05 0.07
    I0307 16:52:01.869431 3711 cudnn_conv_lay.cpp:848][0]转换算法(F、BD、BF):'conv7_2'、空间为0.85G 128/1 0 1 (可用5.52G、请求0.85G) T:0 0.08 0.09
    I0307 16:52:02.075310 3711 cudnn_conv_lay.cpp:848][0] Conv 算法(F、BD、BF):'conv8_1'、空间为0.85G 256/1 0 0 0 0 (可用5.52G、请求0.85G) T:0 0.03 0.04
    I0307 16:52:02.294378 3711 cudnn_conv_lay.cpp:848][0]转换算法(F、BD、BF):'conv8_2'、空间为0.85G 128/1 6 0 1 (可用5.52G、请求0.85G) T:0 0.06 0.05
    I0307 16:52:02.509508 3711 cudnn_conv_lay.cpp:848][0] Conv 算法(F、BD、BF):'conv9_1'、空间为0.85G 256/1 0 0 0 0 (可用5.52G、请求0.85G) T:0 0.04 0.03
    I0307 16:52:02.747104 3711 cudnn_conv_lay.cpp:848][0]转换算法(F、BD、BF):'conv9_2'、空间为0.85G 128/1 2 0 3 (可用5.52G、请求0.85G) T:0 0.07 0.05
    I0307 16:52:03.025590 3711 cudnn_conv_lay.cpp:848][0] Conv 算法(F、BD、BF):'conv4_3_norm_mbox_loc'、空间为0.85G 512/1 6 1 5 (可用5.52G、req 0.85G) T:0 0.41 1.04
    I0307 16:52:03.633200 3711 cudnn_conv_lay.cpp:848][0] Conv 算法(F、BD、BF):'conv4_3_norm_mbox_conf'、空间为0.85G 512/1 7 5 5 (AVAIL 5.52G、req 0.85G) T:0 2.76 3.12
    I0307 16:52:03.893185 3711 cudnn_conv_lay.cpp:848][0] Conv 算法(F、BD、BF):'fc7_mbox_loc'、空间为0.85G 1024/1 6 1 5 (可用5.52G、req 0.85G) T:0 0.31 0.53
    I0307 16:52:04.485775 3711 cudnn_conv_lay.cpp:848][0] Conv Algos (F、BD、BF):'fc7_mbox_conf'、空间为0.85G 1024/1 7 5 5 (可用5.52G、req 0.85G) T:0 2.33 2.05
    I0307 16:52:04.711961 3711 cudnn_conv_lay.cpp:848][0] Conv 算法(F、BD、BF):'conv6_2_mbox_loc'、空间为0.85G 512/1 6 1 3 (可用5.52G、请求0.85G) T:0 0.13 0.11
    I0307 16:52:05.001874 3711 cudnn_conv_lay.cpp:848][0] Conv 算法(F、BD、BF):'conv6_2_mbox_conf'、空间为0.85G 512/1 6 4 5 (可用5.52G、请求0.85G) T:0 0.65 0.53
    I0307 16:52:05.222227 3711 cudnn_conv_lay.cpp:848][0]转换算法(F、BD、BF):'conv7_2_mbox_loc'、空间为0.85G 256/1 7 0 (可用5.52G、请求0.85G) T:0 0.06 0.05
    I0307 16:52:05.479074 3711 cudnn_conv_lay.cpp:848][0]转换算法(F、BD、BF):'conv7_2_mbox_conf'、空间为0.85G 256/1 2 0 (可用5.52G、请求0.85G) T:0 0.21 0.24
    I0307 16:52:05.677603 3711 cudnn_conv_lay.cpp:848][0]转换算法(F、BD、BF):'conv8_2_mbox_loc'、空间为0.85G 256/1 6 0 3 (可用5.52G、请求0.85G) T:0 0.03 0.03
    I0307 16:52:05.913166 3711 cudnn_conv_lay.cpp:848][0]转换算法(F、BD、BF):'conv8_2_mbox_conf'、空间为0.85G 256/1 6 0 1 (可用5.52G、请求0.85G) T:0 0.15 0.11
    I0307 16:52:06.123085 3711 cudnn_conv_lay.cpp:848][0] Conv 算法(F、BD、BF):'conv9_2_mbox_loc'、空间为0.85G 256/1 7 0 (可用5.52G、请求0.85G) T:0 0.07 0.07
    I0307 16:52:06.332170 3711 cudnn_conv_lay.cpp:848][0] Conv 算法(F、BD、BF):'conv9_2_mbox_conf'、空间为0.85G 256/1 2 0 (可用5.52G、请求0.85G) T:0 0.12 0.04
    I0307 16:52:06.629501 3711 soler.cpp:360]迭代2 (14.6298 s)、损耗= 23.7144
    I0307 16:52:06.629534 3711解算器.cpp:378] 火车网输出#0:mbox_loss = 21.6988 (* 1 = 21.6988损耗)
    I0307 16:52:09.711006 3711 soler.cpp:354] iteration 10 (2.59621 ITER/s、3.08142s/8 ITER)、loss = 21.26
    I0307 16:52:09.711055 3711解算器.cpp:378] 火车网输出#0:mbox_loss = 21.6548 (* 1 = 21.6548损耗)
    I0307 16:52:09.711064 3711 SGD 解算器.cpp:172]迭代10、lr = 0.000996004、m = 0.9、wd = 0.0005、GS = 1
    I0307 16:52:13.652300 3711 soler.cpp:354]迭代20 (2.53731 ITER/s、3.94118s/10 ITER)、损耗= 21.0627
    I0307 16:52:13.652384 3711解算器.cpp:378] 火车网输出#0:mbox_loss = 20.5817 (* 1 = 20.5817损耗)
    I0307 16:52:13.652402 3711 SGD 解算器.cpp:172]迭代20、lr = 0.000992016、m = 0.9、wd = 0.0005、GS = 1
    I0307 16:52:17.530352 3711 soler.cpp:354]迭代30 (2.57868 ITER/s、3.87795s/10 ITER)、损耗= 20.5405
    I0307 16:52:17.530542 3711解算器.cpp:378] 火车网输出#0:mbox_loss = 20.6633 (* 1 = 20.6633损耗)
    I0307 16:52:17.530570 3711 SGD 解算器.cpp:172]迭代30、lr = 0.000988036、m = 0.9、wd = 0.0005、GS = 1
    I0307 16:52:21.427054 3711 soler.CPP:354]迭代40 (2.56636 ITER/s、3.89657s/10 ITER)、损耗= 20.1331
    I0307 16:52:21.427132 3711解算器.cpp:378] 火车网输出#0:mbox_LOSS = 19.5243 (* 1 = 19.5243 LOSS)
    I0307 16:52:21.427150 3711 SGD 解算器.cpp:172]迭代40、lr = 0.000984064、m = 0.9、wd = 0.0005、GS = 1
    I0307 16:52:25.289528 3711求解器.cpp:354]迭代50 (2.58907 ITER/s、3.86239s/10 ITER)、损耗= 19.5177
    I0307 16:52:25.289592 3711解算器.cpp:378] 火车网输出#0:mbox_loss = 19.329 (* 1 = 19.329 loss)
    I0307 16:52:25.289613 3711 SGD 解算器.cpp:172]迭代50、lr = 0.0009801、m = 0.9、wd = 0.0005、GS = 1
    I0307 16:52:29.163571 3711求解器.cpp:354]迭代60 (2.58135 ITER/s、3.87394s/10 ITER)、损耗= 20.699
    I0307 16:52:29.163638 3711解算器.cpp:378] 传动系净输出#0:mbox_loss = 18.2515 (* 1 = 18.2515 loss)
    I0307 16:52:29.163658 3711 SGD 解算器.cpp:172]迭代60、lr = 0.000976144、m = 0.9、wd = 0.0005、GS = 1
    I0307 16:52:33.094141 3711 soler.cpp:354]迭代70 (2.54422 ITER/s、3.93048s/10 ITER)、损耗= 18.3668
    I0307 16:52:33.094192 3711解算器.cpp:378] 传动系净输出#0:mbox_loss = 15.8855 (* 1 = 15.8855损耗)
    I0307 16:52:33.094204 3711 SGD 解算器.cpp:172]迭代70、lr = 0.000972196、m = 0.9、wd = 0.0005、GS = 1
    I0307 16:52:36.948158 3711求解器.cpp:354]迭代80 (2.59476 ITER/s、3.85391s/10 ITER)、损耗= 14.6459
    I0307 16:52:36.948204 3711解算器.cpp:378] 传动系净输出#0:mbox_loss = 12.6562 (* 1 = 12.6562 loss)
    I0307 16:52:36.948215 3711 SGD 解算器.cpp:172]迭代80、lr = 0.000968256、m = 0.9、wd = 0.0005、GS = 1
    ^CI0307 16:52:40.430399 3711解算器.cpp:907]快照到二进制 proto 文件模型/VGGNet/Coco/ssd_300x300/VGG_coco_SSD_300x300_iter_89.caffemodel
    I0307 16:52:40.755810 3711 SGD 解算器.cp:398]快照解算器状态至二进制 proto 文件模型/VGGNet/Coco/ssd_300x300/VGG_coco_ssd_300x300_iter_89.solverstate
    ^CI0307 16:52:40.860830 3711解算器.cpp:487][0]优化提前停止。
    I0307 16:52:40.89685 3711 Caffe.CPP:268]器件上的解算器性能0:2.574 * 16 = 41.18img/sec (33.8秒内为89 itr)
    I0307 16:52:40.860992 3711 Caffe.CPP:271]优化在53秒内完成
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    我用于培训的命令是:
    CUDA_Visible 设备="0、1"构建/工具/咖啡因火车-解算器="./models/VGGNet/coco/SSD_300x300/solver.prototxt

    现在、我更改了以使用您使用的确切命令:
    Build/tools/Caffe Train -soler="./models/VGGNet/coco/SSD_300x300/solver.prototxt -GPU 0

    它仍然有效:
    I0307 17:00:29.225559 16598 cudnn_conv_lay.cpp:848][0] Conv 算法(F、BD、BF):'conv9_2_mbox_conf'、空间为0.85G 256/1 2 0 (可用5.51G、请求0.85G) T:0 0.13 0.05
    I0307 17:00:29.494833 16598.cpp:360]迭代2 (14.4843 s)、损耗= 26.3574
    I0307 17:00:29.494879 16598.cpp:378] 火车网输出#0:mbox_loss = 25.9206 (* 1 = 25.9206损耗)
    I0307 17:00:32.634999 16598.CPP:354]迭代10 (2.54772 ITER/s、3.14007s/8 ITER)、损耗= 22.171
    I0307 17:00:32.635092 16598.cpp:378] 传动系净输出#0:mbox_loss = 22.6692 (* 1 = 22.6692损耗)
    I0307 17:00:32.635108 16598 SGD 解算器.cpp:172]迭代10、lr = 0.000996004、m = 0.9、wd = 0.0005、GS = 1
    I0307 17:00:36.570186 16598解算器.cpp:354]迭代20 (2.54124 ITER/s、3.93509s/10 ITER)、损耗= 20.7142
    I0307 17:00:36.570227 16598.cpp:378] 火车网输出#0:mbox_loss = 19.9043 (* 1 = 19.9043损耗)
    I0307 17:00:36.570238 16598 SGD 解算器.cpp:172]迭代20、lr = 0.000992016、m = 0.9、wd = 0.0005、GS = 1
    ^CI0307 17:00:38.173678 16598解算器.cpp:907]快照到二进制 proto 文件模型/VGGNet/Coco/ssd_300x300/VGG_coco_SSD_300x300_iter_24.caffemodel
    I0307 17:00:38.519876 16598 SGD 解算器.cp:398]快照解算器状态至二进制 proto 文件模型/VGGNet/Coco/ssd_300x300/VGG_coco_ssd_300x300_iter_24.solverstate
    I0307 17:00:38.610859 16598.cpp:487][0]优化提前停止。
  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。
    您能否尝试 Pascal VOC 数据集并查看其是否正常工作。 我尚未尝试 Coco 数据集。

    我准备了 Pascal VOC 数据集、如下所述:
    github.com/.../ssd