This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] TMS320DM8168:过流故障、过热警告

Guru**** 2551110 points
Other Parts Discussed in Thread: UCD7242

请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/1554662/tms320dm8168-overcurrent-fault-overtemperature-warning

部件号:TMS320DM8168
主题中讨论的其他器件:UCD7242

工具/软件:

我们注意到、模块在正常环境温度 24.5 摄氏度下具有过流和过热警告。

在已知良好的器件上、 可以按照以下方式测量可变电压和固定电压   

  • KGU 无故障、

           可变电压 :初始化@ 1.1V、稳定@ 1.00V、电流@ 2.63A、内部/外部温度@ 61°C / 71°C

           固定电压:初始化/稳态@ 1.0V、电流@ 0.42A、内部/外部温度@ 61°C / 85°C

     这一测量值更符合“+1V 变量“和“+1V 固定值“的初始功率预算。

在两个器件出现过流故障和过热警告时、可以按照以下方式对可变电压和固定电压进行测量。  

  • 生产单元 57 具有过流故障、过热警告

           可变电压 : 初始化@ 1.1V、在重启循环时稳定@ 1.1V、运行时稳定@ 1.0V、电流爬升至 7.8A(限值)、内部/外部温度 94°C /1.0V 111°C

           固定电压:init /稳态@ 1.0V、电流@ 1.84A、内部/外部温度@ 94°C / 101°C

  • 生产单元 60 具有过流故障、过热警告

           可变电压 :初始化@ 1.1V、在重新启动循环时稳定@ 1.1V、运行时稳定 0.97V、电流爬升至 7.8A(限值)、内部/外部温度爬升至 91°C / 119°C

           固定电压:初始化/稳态@ 1.0V、电流@ 1.38A、内部/外部温度@ 91°C / 104°C

我们在 KGU 和 4 个有问题的主板上检查了处理器的修订版本。  

所有电路板 JTAG ID 寄存器 (@ 0x48140600)= 0x3B81E02F、具有器件修订版本 2.1

我们已经验证了处理器的速度等级、它们都是 TMS320DM8168CCYG2。

我们已更换设备顶部的散热器、但它没有改变故障设备的行为。 我们使用 由 Boyd Laconia 制造的以下散热器器件型号 374024B00035G。

我们验证了 KGU 和各单元之间 1.0V 和 1.0V 可变电源轨的控制器 (UCD 9222) 和转换器 (UCD7242) 是否存在问题。

    • 它们具有相同的固件
    • 它们在器件上有相同的顶部标记
    • 我们确认 Linux 通过 I/O 控制可变电压,这是通过 Smart Reflex 功能设计的。

下面是 TMS320DM8168CCYG2 顶部标记的图片、供您参考。  

您能帮助我们在这些具有 TMS320DM8168CCGY2 的器件上找到解决此过流故障和过热问题的方法吗?

此致、

Luc

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Luc、

     抱歉、我不熟悉此器件来提供评论、为什么两个器件的电流高于 KGU。 在您拥有的总器件中、高电流器件的百分比是多少? 在阅读数据表时、它提到 SmartReflex 是器件正常运行所必需的。 我想知道 SmartRflex 是否正常工作。

      

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Charles:

    我们发现 250 个器件中有 6 个器件存在过流问题。

    我们查看了 SmartRflex、可以发现在电路板上进行的以下测量存在过流问题。

    这是 Fusion Digital Power Designer 工具对 1.0V-VR 电源轨的初始化。 在存在过流问题的电路板上:

    VID 代码从 15 -> 12 -> 10 -> 9 更改

    如果您需要更多信息或测量来找到解决该过流问题的方法、敬请告知。

    此致、

    Luc

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Luc、

     您是否具有相同的 KGU 图? 我来这里是为了收集信息、但没有真正的问题解释。 您能否确认是否进行了任何 ABA 交换测试并将问题追溯到处理器?  

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    ABA 交换测试是什么意思?

    Luc

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Luc、

     A-B-A  SWaP 方法是一种简单的交叉检查测试、可以确认观察到的问题不是系统性的。

    • A-B-A  交换方法
      (1) 拆除可疑组件 ( A )。
      (2) 更换可疑组件 ( A ) 和已知良好的组件 ( B )、然后检查原主板现在是否正常工作。
      (3) 安装可疑组件 ( A ) 连接到已知良好的板上、然后查看良好的板上是否出现相同的故障。

    步骤 3 很重要、因为它有助于我们排除任何可能、即问题是由系统性问题或良好电路板上多个轻微不良组件的相互作用引起的。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Charles:

    这些是相同的 KGU 图。

    VID 代码再次从 15 -> 12 -> 10 -> 9 更改

    我们将按照建议执行 ABA 交换测试、并告知结果。

    您还有其他建议吗?

    此致、

    Luc

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Luc、

     发生过流需要多长时间? 是立即运行还是在运行应用程序几分钟后运行? 我想您正在运行完整的应用程序。 实验中、如果禁用某些电源域、您是否仍然会看到过流? 很抱歉、我在演示时学习过这个设备。  

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Charles:

    从室温开始、故障卡通常会消耗稍高的初始电流(电流约为 3A、而正常电路板上的电流为 2.4A)。 在 1 至 3 个小时内、这一数字稳步增加、直至达到 7.8A。

    我们在 KGU 和故障装置上运行相同的应用程序。 虽然我们尚未尝试禁用单个电源域、但我们确实注意到在加载 DSP 之前、电流消耗更低。

    此致、

    Luc

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Luc、

      除了 ABA 交换测试结果外、您是否还能在所有六个过流单元上提供器件标识?

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Charles:

    是否可以通过 devmem2 从 TMS320DM8168 上的 Linux 读取 PCMR 寄存器?

    如果是、寄存器的存储器地址是什么。

    此致、

    Luc

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Luc、

     您可以在哪个参考中找到 PCMR 寄存器? 我找不到该寄存器。 您是指 PMCR 寄存器吗?

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Charles:

    抱歉、我做了个拼写错误。 它是数据表 PRCM register.in。

    此致、

    Luc

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Luc、

     阅读数据表、PRCM 从 0x48180000 开始。  

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Charles:

    出现过热问题的器件为 x 光栅 s/n 25051201 和 25051237、未发现焊接质量问题。

    在设备 s/n 25051237 上 、DSP 已被回流、并且仍然存在过热问题。 在该器件上、我们将尝试用新的 DSP 替换实际的 DSP。   

    板 S/N

    处理器序列号

    25051201.

    35AJDW

    25051237

    32ACJGW

    25051290 (KGU)

    34C99YW

    器件 s/n 25051201 和 KGU s/n 25051290 由我们制造、这两个器件将重新焊接并交换 DSP IC。

     您会发现器件 s/n 20251201 出现过热问题时出现以下顶部标记。

    您会发现器件 s/n 20251290 出现过热问题时出现以下顶部标记。

    您将在 KGU 装置 s/n 20251290 上发现以下顶部标记、该标记没有过热问题。

    此致、

    Luc

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Luc、

     感谢您提供器件标识。 在等待 ABA 交换测试结果时、我将与我们的内部团队核实这两个特定的 LTC (35AJDW 和 32ACJGW)。  

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Charles:

    我们分析了 TMS320DM8168 中的寄存器、对以下寄存器有疑问:

    • CM_VPC1_CLKSEL:我们在寄存器中获取值 3、但文档指示该值为保留值。 它通常应该初始化为 2、我们在 u-boot 和 Linux 中都看不到访问权限。
    • CM_DEFAULT_USB_CLKCTRL:待机状态表示正常工作、但空闲状态表示模块已禁用、模块模式由软件禁用。 我们期望值为 0x00070000。

     其余寄存器看起来正确、我们正在禁用 PCI、SATA、HDVICP2-0、HDVICP2-1、HDVICP2-2 接口和 SGX。 我们在下面提供了所有寄存器的内容、以供您参考和查看。

    此致、

    Luc

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Luc、

     读取 TRM 时、CM_VPC1_CLKSEL 寄存器只能由用户针对 B1:B0 上的 CLKSEL 字段进行编程。  CLKSEL 的有效选择为 0、1 或 2。 您是否在代码中的任何位置对该寄存器进行了编程、或者将其保留为默认值(应该为 2)? 如果将值 2 写入此寄存器并再次读取、会怎样? 得到了什么? 它仍然是 3 还是您的新编程值? 在一个良好的单元上、当您读取寄存器时它会返回什么?  

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Charles:

     

    我们查看 U-Boot 源、在初始化期间找不到对 CM_VPC1_CLKSEL 寄存器的任何访问。 我添加了代码、以将其显式设置为参考手册中指定的默认值。 在 Linux 方面、我们检查了 USB 初始化并禁用了 USB 接口、进而影响了 CM_DEFAULT_L3_SLOW_CLKSTCTRL 和 CM_DEFAULT_USB_CLKSTCTRL 寄存器。 以下是这些寄存器的最新值:

     

    寄存器    

    存储器地址

    旧值

    新值

    CM_VPC1_CLKSEL               

    0x48180344

    0x00000003

    0x00000002

    CM_DEFAULT_L3_SLOW_CLKSTCTRL    

    0x48180514

    0x00000102

    0x00000001

    CM_DEFAULT_USB_CLKSTCTRL        

    0x48180558

    0x00030000

    0x00070000

     

    我们还观察到、数据表 (SPRS614F) 列出了 CM_HDMI_CLKSTCTRL 和 CM_ACTIVE_HDMI_CLKCTRL 的寄存器地址、但技术参考手册 (SPRUGX8C) 中未介绍这些寄存器。 我们已查看 U-Boot 和 Linux 初始化、并确认未配置这些寄存器中的任何一个。 根据相邻模块的行为、可以合理地假设 CLKSTCTRL 默认为 SLEEP 模式。 对于 CLKCTRL、STBYST 位报告为功能状态、但不清楚哪个时钟输入正在驱动该状态。 但是、ILEST 位报告为“模块被禁用、无法访问“、这是预期结果。

     

    寄存器    

    存储器地址

    数据值

    CM_HDMI_CLKSTCTRL               

    0x48180408

    0x00000001

    CM_ACTIVE_HDMI_CLKCTRL          

    0x48180428

    0x00030000

     

    我相信我们现在已经验证了所有处理器未使用的电源域:

    • HDVICP2-0、HDVICP2-1 和 HDVICP2-2 在各自的 PRM_IVHD2 寄存器中被禁用
    • SGX530 在 PRM_SGX 寄存器中被禁用
    • PCI、SATA 和 USB 在各自的 CM_DEFAULT 寄存器和控制器模块器件控制器中被禁用       

    您是否有机会 按照之前的建议、与内部团队核实这两个特定的 LTC (35AJDW 和 32ACJGW)?

    您是否咨询过您的内部团队、确定他们是否知道 TI E2E 支持论坛上 DM8168/DM8169 的过热问题解决方案? 两位客户在使用 DM8168 时遇到了相同的问题、我们在文章中看不到他们是如何解决问题的。 是否是 DSP 出现芯片控制流程问题或制造问题?

    我们的合同制造商在执行 ABA 交换时遇到了问题、因为 BGA 重新焊球套件供应商发现尺寸错误、我们无法使用它。 他们订购了新的执行 ABA 交换的模块、以便我们测试模块。

    此致、

    Luc