处理器（参考译文帖）

处理器（参考译文帖）(Read Only)

状态 Resolved
已锁定已锁定
回复 19 回复
订户 0 订户
视图 548 视图
用户 0 会员在此处

选项

选项

相关

[参考译文] AM5728：我可以#39；t train ssd768x320以在 Caffe-Jacinto-models-0.17上进行异议检测？

admin

Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/854252/am5728-i-can-t-train-ssd768x320-for-objection-detection-on-the-caffe-jacinto-models-0-17

器件型号：AM5728

我在 Caffe-Jacinto-models-0.17中通过 train_image_object_detection.sh 对 SSD 模型进行培训。我选择 dataset=ti-custom-cfg1 来培训我自己的数据集，它无法正常工作。以下是日志：

I1106 16：38：10.926060 13633 Net.CPP：412]数据所需的参数存储器(测试)：11946688 DIFF：11946688
I1106 16：38：10.926062 13633 net.cpp：415]参数共享存储器(测试)(按数据)：0 DIFF：0
I1106 16：38：10.926064 13633 net.cpp：421]网络初始化完成。
F1106 16：38：10.926213 13633 IO.CPP：55]检查失败：fd！=-1 (-1对-1)未找到文件：traine/ti-custom-cfg1/JDetNet/20191106_16-37_DS_DSFAC_32_hdDS8_1/sps/ti-custom-cfg1_ssdJacintoNetV2_iter_120000.caffemodel
***检查故障堆栈跟踪：***
@ 0x7f69c02ae5cd google：：：LogMessage：：：fail()
@ 0x7f69c02b0433 google：：LogMessage：：SendToLog()
@ 0x7f69c02ae15b google：：LogMessage：：Flush()
@ 0x7f69c02b0e1e google：：：LogMessageFatal：：：~LogMessageFatal ()
@ 0x7f69c12bc6dc 咖啡因：：ReadProtoFromBinaryFile()
@ 0x7f69c1334f56咖啡因：：ReadNetParamsFromBinaryFileOrDie()
@ 0x7f69c0e6b88a Caffe：：：net::CopyTrainedLayersFromBinaryProto()
@ 0x7f69c0e6b92e 咖啡因：：：net::CopyTrainedLayersFrom()
@ 0x41204c test_detection ()
@ 0x40d1f0 main
@ 0x7f69bea30830 __libc_start_main
@ 0x40de89 _start
@(无)(未知)

但是、当我替换 dataset=ti-custom-cfg2，时、这是可以的。？Δ I

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您好、Wang、

它们之间的一个大区别是 Cfg2用于512x256、而 cfg1用于768x320。因此、问题可能是由于内存要求、可能会尝试减小批处理大小。

如果上述建议也不起作用、您可以分享完整的培训日志吗？

谢谢、

Praveen

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您好 Praveen、

详细的培训日志为 Blow：

e2e.ti.com/.../train_2D00_log_5F00_20191106_5F00_16_2D00_37.txt

我的 PC 上提供512*512*256。我尝试将批处理大小减至最小值1。它仍然不能。

它是否与 GPU 有关？我将 GPU 信息放在下面：

------------------------------------------------------- +
| NVIDIA-SMI 418.74驱动程序版本：418.74 CUDA 版本：10.1 |
|----------------------------- --------------- --------------- +
| GPU 名称 Persistence-M|总线 ID Disp.A | volatile Uncorr。 ECC |
|风扇温度性能电源：使用情况/电容|内存使用情况| GPU-Util Compute M.|
================================================================ =========================== =========================== |
| 0 GeForce GTX 166... 关| 00000000：01：00.0开|不适用|
| 63% 57C P2 94W/120W | 2728Mib/5906Mib| 71%默认值|
------------------------------------------------------- --------------- --------------- +

------------------------------------------------------- +
|进程：GPU 内存|
| GPU PID 类型流程名称使用|
============================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================ |
| 0 1162 G /usr/lib/xorg/Xorg 253MiB |
| 0 19230 C……uan/Caffe-Jacinto/build/tools/caffe.bin 2463MiB |
------------------------------------------------------- +

谢谢、

王

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您好、Wang、

我们查看了日志、它不是内存问题、我们必须最终运行日志以查看发生了什么错误。设置将需要一些时间、我们将检查并在下周回来。

BTW、您是否仍面临此问题？或者您对此问题进行了一些解决或修复？

谢谢、

Praveen

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您好 Praveen、

是的，它仍然让我感到困惑。

我将'sd_size'：'512x512'更改为'300x300'。但它不起作用。

起初，我以为计算机配置有问题，，但另一个遇到同样的问题。

CUDA 版本是否会导致这种情况？

谢谢、

王

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

看起来、以下不是2的倍数会导致问题。它应该由代码处理、而代码在您的末尾会出现故障我们将对此进行研究。

resize_height=320
CROP_HEIGHT = 320

是否可以将其更改为512并进行尝试？

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

我在日志中看到的一些参数与仅将以下标志切换为 ti-custom-cfg1时的参数不同。

dataset=voc0712 #voc0712、ti-custom-cfg1、ti-custom-cfg2

我正在观察日志中的 reg_head_at_DS8'：0、但在原始脚本中它被设置为1。为了在我们的结尾重现问题、您可以发送您修改过的内容

脚本\train_image_object_detection.sh

您还可以确认您没有更改任何其他文件吗？

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您好、Soyeb

我尝试过、它不起作用。

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您好，

是的、我做了一些更改。原因我使用的是原始脚本、它只是面临相同的问题。

实际上、原始脚本中的"ti-custom-cfg2"可以正常工作、但我无法使用模板"ti-custom-cfg1" anyway.Compared 这两个模板、只有以下差异：

cfg1. cfg2
use_cable_gt=0 use_cut_gt=1
chop_nnum_heads = 1
min_dim=368 min_dim=256
resize_width=768 resize_width=512
resize_height=320 resize_height=256
cROP_width=768 CROP_WIDTH = 512
CROP_HEIGHT = 320 CROP_HEIGHT = 256
SAFETY_obj=1 small_obj=0
ssd_size='512x512'
use_batchnorm_mbox=0 use_batchnorm_mbox=1
powe=4.0 Power=1.0

‘s 哪个参数可能会导致结果中断或几乎没有缓冲区溢出。

谢谢、

王

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您需要使用与 ti-custom-cfg2或 ti-custom-cfg1相同的设置。但我看到您的日志显示 reg_head_at_DS8设置为0。而原始脚本将其设置为1。我们无法看到您所面临的问题。如果我们在结束时无法重新创建、我们将无法获得任何建议。

因此、请运行 ti-custom-cfg1、因为它与 VOC0712具有相同的 LMDB (例如、如下所示)、并将日志分享给我们。

train_data="../../caffe-jacinto/examples/VOC0712/VOC0712_trainval_lmdb
test_data="../../caffe-jacinto/examples/VOC0712/VOC0712_test_lmdb

name_size_file="../../caffe-jacinto/data/VOC0712/test_name_size.txt
label_map_file="../../caffe-jacinto/data/VOC0712/labelmap_voc.prototxt

num_test_image=4952
num_classes=21

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

谢谢您的建议、我会尝试。

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您可以尝试新版本吗？我们做了一些小的修复。

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

好的、我只是看到您的新版本。

我将在行驶后提供反馈。

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您好！

我无法同时运行 custom-cfg1和 custom-cfg2。

这是 log.e2e.ti.com/.../train_2D00_log_5F00_20191219_5F00_17_2D00_41.txte2e.ti.com/.../train_2D00_log_5F00_20191219_5F00_17_2D00_37.txt

我没有做过任何事情，只是要进行培训和测试数据。但问题仍然存在。请帮助。

非常感谢！

此致、

王

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您可以多花些时间吗？它仍然没有固定。完成后、我们将对您执行 Ping 操作。

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

好的、我在等你。

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您可以立即尝试吗？您的日志显示：

检查失败：错误= cudaSuccessess (101 vs. 0) 无效的设备序号

指定的 GPU 是否与您的 m/c 中的内容匹配？

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您好！

我很抱歉粗心。 custom-cfg2现在起作用。

但 custom-cfg1存在 CUDA 内存分配问题。

也许我应该在服务器上运行它。您可以优化和降低内存要求吗？

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

您使用的是哪种显卡？我们在 GTX1080TI 上进行了测试。如果 GPU 内存不足、您可以减小批量大小。

0 admin 6 年多前

TI__Guru**** 2556660 points

请注意，本文内容源自机器翻译，可能存在语法或其它翻译错误，仅供参考。如需获取准确内容，请参阅链接中的英语原文或自行翻译。

非常感谢您！我减小了纸张尺寸，它正常运行。

您能不能告诉我上一个 Caffe-Jacinto 版本？出错了

顺便说一下、我看到了您的发布列表、您是否准备发布热电筒？

坦克，这个问题让我困扰了近3个月。