This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] TDA4VM:从.pth 转换为.onnx。 通过 edgeai-modelmaker 训练 yolox_s_lite 后

Guru**** 2553450 points
Other Parts Discussed in Thread: TDA4VM

请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/1553006/tda4vm-conversion-from-pth-to-onnx-after-training-yolox_s_lite-through-edgeai-modelmaker

器件型号:TDA4VM


工具/软件:

我正在使用 Edgeai-modelmaker 为 200 epoch 对定制数据集进行 yolox_s_lite 模型训练,但我已经停止了第 103 个 epoch 的训练,现在我希望.onnx 模型在当前的时代,即 103。 我在运行部分有 epoch_103.pth 文件。 应该如何将其转换为.onnx???  

并添加到上面的查询,如果我们已经停止训练,我们如何能够恢复训练(考虑到训练正在通过 edgeai-modelmaker 完成).

我尝试通过同一 edgeai-modelmaker 训练 yolox_s_lite 模型的单个 epoch 只是为了检查输出,我正在获取.onnx 和.prototxt 文件,但在编译时,我遇到了如下所示的错误:

onnxruntime.capi.onnxruntime_pybind11_state.Fail:[ONNXRuntimeError]:1:失败:从/home/chai/edgeai-tensorlab/edgeai-modelmaker/data/projects 装入模型/Schmun/run/20250813-144622/yolox_s_lite/compilation/work/od-8220/model/model.onnx 失败:/root/onnxruntime/onnxruntime/core/graph/model.cc:149 onnxruntime:::Model:::Model(onnx::::ModelProto&;const;Merged_Dataset_Updated;IR::untimestronstronstronnnnnon*、支持的版本:::IR

任务总计= 1、NUM_RUNN=0:100%|█████████████████████████████████████████████████████████████████████████████████████████████μ s |1/1 [00:02<00:00、4.48it/s、postfix={'running':[]、'completed':['od-8220']}]
警告:基准测试 — 已完成:0/1
任务总计= 1、NUM_RUNN=0:100%|█████████████████████████████████████████████████████████████████████████████████████████████μ s |1/1 [00:03<00:00、3.06s/it、postfix={'running':[]、'completed':['od-8220']}]
信息:包装工件到/home/chai/edgeai-tensorlab/edgeai-modelmaker/data/projects / Merged_Dataset_Updated / run/20250813-144622/yolox_s_lite/compilation/pkg、请稍候...
警告:20250813-155953:无法打包-/home/chai/edgeai-tensorlab/edgeai-modelmaker/data/projects Merged_Dataset_Updated /run/20250813-144622/yolox_s_lite/compilation/work/od-8220
回溯(最近一次呼叫):
文件“/home/chai/edgeai-tensorlab/edgeai-modelmaker/./scripts/run_modelmaker.py、第 153 行、在中
主 (CONFIG)
文件/home/chai/edgeai-tensorlab/edgeai-modelmaker/./scripts/run_modelmaker.py、第 88 行、位于 main 中
model_runner.run()
文件“/home/chai/edgeai-tensorlab/edgeai-modelmaker/edgeai_modelmaker/ai_modules/vision/runner.py、第 228 行、正在运行
self.model_compilation.run()
文件“/home/chai/edgeai-tensorlab/edgeai-modelmaker/edgeai_modelmaker/ai_modules/vision/compilation/edgeai_benchmark.py、第 163 行、正在运行
edgeai_benchmark.interfaces.package_artifacts(self.settings、self.work_dir、out_dir=self.package_dir、custom_model=True)
文件“/home/chai/edgeai-tensorlab/edgeai-benchmark/edgeai_benchmark/interfaces/run_package.py、第 271 行、位于 package_artifacts 中
将 open (os.path.join (out_dir、'artifacts.yaml')、'w') 用作 FP:
FileNotFoundError:[errno 2] No such file or directory:“/home/chai/edgeai-tensorlab/edgeai-modelmaker/data/projects Merged_Dataset_Updated./run/20250813-144622/yolox_s_lite/compilation/pkg/artifacts.yaml“

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Chaitanya:

    这需要一些研究。  如果星期一没有听到我的声音、请 ping 我。

    此致、

    Chris

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    嗨、Chris、

    您是否找到了有关查询的解决方案?  

    此致、

    Chaitanya

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Chaitanya:

    您能否向我发送您用于生成模型的命令行?  我无法根据输出确定。  此外、您是否可以从您的环境中运行“pip list“、以便我看到您正在运行哪个版本的模块?

    此致、

    Chris

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Chris、

    我使用命令行从 Edgeai-modelmaker 训练 yolox_s_lite、如下所示:

    “./run_modelmaker.sh TDA4VM config_detection.yaml “

    运行 Pip 列表后、我得到的模块版本如下:

    absl-py 2.1.0
    吸毒者 2.4.0
    aenum 3.1.15
    aliyun-python-SDK-core 2.16.0
    aliyun-python-sdk-kms 2.16.5
    吸引力 25.1.0
    autocfg 0.0.8
    cachetools 5.5.1.
    咖啡 2onnx 1.0.2
    Certifi 2025.1.31.
    cffi 1.17.1.
    字符集归一化器 3.4.1.
    反冲 0.70
    点击 8.1.8
    cloudpickle 3.1.1.
    Colorama 0.4.6.
    彩色 2.3.0
    结核病 15.0.1
    Contourpy 1.3.1
    crcmod 1.7
    加密 44.1.
    旋风分离器 0.12.1.
    Cython 3.0.12
    数据集 0.6
    debugpy 1.8.12
    装潢师 5.1.1.
    Dill 0.3.9.
    Distro 1.9.0
    DLR 1.13.0
    edgeai_benchmark 10.1.4+626e8e5 /home/chai/edgeai-tensorlab/edgeai-benchmark
    edgeai_modelmaker 10.1.0+626e8e5 /home/chai/edgeai-tensorlab/edgeai-modelmaker
    edgeai_tensorvision 10.1.0+626e8e5 /home/chai/edgeai-tensorlab/edgeai-tensorvision
    edgeai-torchmodelopt 10.1.0 /home/chai/edgeai-tensorlab/edgeai-modeloptimization/torchmodelopt
    Einops 0.8.1.
    例外组 1.2.2
    filelock 3.14.0
    扁平缓冲器 1.12
    Fonttools 4.56.0
    fsspec 2024.6.1
    gluoncv 0.10.5.post0
    Google-auth 2.38.0
    Google-auth-oauthlib 0.4.6
    graphviz 0.20.3.
    grpcio 1.70.0
    h5py 3.12.1
    HF-XET 1.1.8
    Huggingface-hub 0.34.4.
    人的友好 10.0
    Idna 3.10.
    Iniconfig 2.0.0
    Jinja2 3.1.4
    jmespath 0.10.0
    joblib 1.4.2
    JSON-THICK 3.17.3.
    Qiwisolver 1.4.8.
    loguru 0.7.3
    标签 3.7.
    markdown-it-py 3.0.0
    MarkupSafe 2.1.5
    matplotlib 3.10.0
    mdurl 0.1.2
    ml_dtypes 0.5.1
    mmcv 2.1.0
    mmdeploy 1.3.1 /home/chai/edgeai-tensorlab/edgeai-mmdeploy
    mmdet 3.2.0
    mengine 0.10.6.
    毫米波 1.3.1 /home/chai/edgeai-tensorlab/edgeai-mmpose
    模型索引 0.1.11
    mpmath 1.3.0
    多工艺 0.70.17
    munkres 1.1.4
    networkx 3.3
    忍者 1.11.1.3.
    NumPy 1.23.0
    nvidia-cublas-cu12 12.4.2.65
    nvidia-CUDA-cupti-cu12 12.4.99
    nvidia-CUDA-nvrtc-cu12 12.4.99
    nvidia-CUDA-runtime-cu12 12.4.99
    nvidia-cudnn-cu12 9.1.0.70
    nvidia-cufft-cu12 11.2.0.44
    nvidia-curand-cu12 10.3.5.119
    nvidia-cusolver-cu12 11.6.0.99
    nvidia-cuspars-cu12 12.3.0.142
    nvidia-nccl-cu12 2.20.5.
    nvidia-nvjitlink-cu12 12.4.99
    nvidia-nvtx-cu12 12.4.99
    oauthlib 3.2.2
    ONNX 1.17.0
    Onnx-图形外科医生 0.3.26
    onnx-ir 0.1.1
    onnxruntime-tidl 1.15.0
    onnxscript 0.3.0
    onnxsim 0.4.35
    OpenCV-python 4.11.0.86
    OpenCV-python-headless 4.11.0.86
    opendatalab 0.0.10.
    openmim 0.3.9.
    openxlab 0.1.2
    有序集 4.1.0
    osrt_model_tools 1.2 /home/chai/edgeai-tidl-tools/osrt-model-tools
    oss2 2.17.0
    包装 24.2.
    Pandas 2.2.3
    枕头 11.1.0
    枕头 SIMD 9.5.0.post2.
    PIP 25.1.1
    排版 4.3.6
    pluggy 1.5.0
    胶合板文件 1.1
    portalocker 3.2.0
    prettytable 3.14.0
    progiter 2.0.0
    我的超次元帝国 2.5
    PROTObuf 3.20.2.
    psutil 7.0.0
    pyasn1 0.6.1
    pyasn1_modules 0.4.1
    pybind11 3.0.0
    pybind11-global 3.0.0
    pycocotools 2.0.8
    pycparser 2.22
    cryptopydome 3.21.0
    PYDOT 3.0.4
    Pygments 2.19.1
    pyparsenting 3.2.1.
    Pythest 8.3.4
    python-dateutil 2.9.0.post0
    Pytz 2023.4.
    PyYAML 6.0.2
    请求 2.28.2.
    requests-oauthlib 2.0.0
    Rich 13.4.2.
    RSA 4.9
    安全柜 0.6.2.
    Scikit-Learn 1.6.1.
    SciPy 1.13.1.
    setuptools 60.2.0
    shapely 2.0.7
    Six 1.17.0
    sympy 1.13.1.
    将 0.9.0 制成表格
    tensorboard 2.11.2.
    tensorboard-data-server 0.6.1.
    tensorboard-plugin-wit 1.8.1.
    Temcolor 2.5.0
    术语表 3.1.10.
    tflite 2.18.0
    tflite-runtime 2.12.0
    THOP 0.1.1.post2209072238
    threadpoolctl 3.5.0
    tidl_tools_package 10.1 /home/chai/edgeai-tensorlab/edgeai-benchmark
    Timm 1.0.19
    tomli 2.1.
    手电筒 2.4.0+cu124
    Torchinfo 1.8.0
    Torchvision 0.19.0+cu124
    龙卷风 6.4.2.
    tqdm 4.65.2.
    Triton 3.0.0 1.
    TVM 0.12.0
    Typing_extensions 4.12.2.
    tzdata 2025.1
    urllib3 1.26.20
    宽 0.2.13
    Werkzeug 3.1.3
    车轮 0.45.1.
    Wurlitzer 3.1.1.
    xtcocotools 1.14.3.
    YACS 0.1.8
    yapf 0.43.0
    yolox 0.1.0 /home/chai/edgeai-yolox-main

    我认为这符合您的要求。 如果没有、请 ping 我。

    此致、

    Chaitanya

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的  Chaitanya:

    您遇到的错误是 ONNX 错误、而不是 TIDL 错误。 您正在使用的工具的导入版本与内部模型版本不匹配。  尝试将导入工具的版本降级至与模型匹配的版本。

    如果您向我发送 模型、与您正在使用的模型相关的任何其他文件、导入文件、 推理文件、输入数据、我将试用该文件并提供更具体的信息。

    此致、

    Chris

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Chris、

    您能否详细说明上述答案、即您正在讨论的导入工具以及它如何影响 edgeai-modelmaker 的内部流水线、以便在训练后无法对其进行编译?

    此外、我的另外两个问题仍未得到解答、如下所述:

    1. 我正在使用 Edgeai-modelmaker 为 200 epoch 对定制数据集进行 yolox_s_lite 模型训练,但我已经停止了第 103 个 epoch 的训练,现在我想在当前的 epoch 即 103 进行.onnx 模型训练。 我在运行部分有 epoch_103.pth 文件。 应该如何将其转换为.onnx???  

    2. 如果我们在中间停止训练,我们如何能够重新开始训练(考虑训练是通过 edgeai-modelmaker 完成的)。

    谢谢、

    Chaitanya