This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] UCD9090A:所有电源轨在待机事件期间进入不可恢复的空闲状态时出现问题

Guru**** 2535750 points
Other Parts Discussed in Thread: UCD9090A

请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/power-management-group/power-management/f/power-management-forum/905343/ucd9090a-problem-with-all-rails-entering-unrecoverable-idle-state-during-stand-by-event

器件型号:UCD9090A

我们使用 UCD9090A 对进入服务器的 PCIe 卡上的电源进行定序。

UCD 连接到 PCIe_3V3_AUX、由 PCIe_3V3_AUX 定序的电路板上的所有电源均来自12V PCIe。 因此、所有定序都等待这个12V 电压成为正确的标称值(12V 电压和电流受到监控)。 已在生产中试用并测试了该卡,以便在多种标准 ATX 组合、服务器等中工作

在软关断期间、12V 电压会从卡上脱落、3V3 AUX 仍然可用、我们使用 UCD 对所有电源进行排序、并继续进行监控。 在我们在特定服务器中尝试之前、我们从未遇到过此问题。 由于某种原因、在此服务器中、我们可以多次循环通电、每次在待机期间、所有电源轨都从稳压状态变为 SEQ_ON、12V 变为 RAMP_UP、然后返回稳压状态。 然而、在完全相同的事件期间、所有电源从稳压变为空闲、然后当12V 变为可用时、电源保持空闲状态。

 

1第一张图片:

 

  • 第1次待机事件31:35-32:30。
  • 所有电源均悬空。 12V @ 1.9V。 所有处于 SEQ_ON 状态的定序电源、处于 RAMP_UP 状态的受监控12V 电源。 这一切对我来说都是正确的。
  • 电压轨监控图看起来正确、显示了在大约32:25时从0.85V 标称值到0V 的0P85V 电压轨压降。
      • 状态寄存器/位置显示 Vout#1显示欠压故障(UVF)。 这与预期的一样、因为电源没有12V Vcc、因此输出电压浮动、由于父电源为低电平、预计会出现 Slaved Fault。 序列关闭超时只是表示在电源中断之前未满足某些序列关闭条件。
      • 序列关闭超时用于检查电源轨在特定时间段内是否关闭。 如果超时用于检测发生这种情况时是否从未满足电源轨的某个序列关闭延迟、则会设置一个状态位。
        • 无法从此图中读取 GPIO 的状态。

 

2第二张图片

  • 从待机32:10 - 33:30重新启动
  • 所有电源均为标称值。 12V @ 12.538V。 稳压状态下的所有定序电源。 所有电源似乎都存在并且正常工作。
    • 0P85V 显示了在大约32:30时关闭序列、然后在33:15时重新开启序列。
      • 状态寄存器显示 POWER_STATE#条件已清除、但 UVF 和序列关闭尚未清除。 但是、我怀疑这些是历史记录、因为电源上的 ADC 报告其电压为0.856V、12P0V_Scaled 显示父电源电压为12.538V、"清除故障"按钮可能会删除这些值。
        • GPIO 显示 PB_RST_N、MARGIN_EN 和 CFGTR RST_N 处于高位、因此 PB 和 CFGTR 被置为无效、MARGIN_EN 置为有效。 MARGIN_HI 取消置位。

 

 

3第三幅图片

  • 2nst 待机偶数和从待机34:40-36:00重新启动
  • 所有电源均为标称值。 12V @ 12.526V。 稳压状态下的所有定序电源。 所有电源似乎都存在并且正常工作。
    • 0P85V 显示了在大约35:10时关闭序列、然后在35:45时重新开启序列。
      • 状态寄存器显示 POWER_STATE#条件已清除、但 UVF 和序列关闭尚未清除。 但是、我怀疑这些是历史记录、因为电源上的 ADC 报告其电压为0.856V、12P0V_Scaled 显示父电源电压为12.538V、"清除故障"按钮可能会删除这些值。
        • GPIO 显示 PB_RST_N、MARGIN_EN 和 CFGTR RST_N 处于高位、因此 PB 和 CFGTR 被置为无效、MARGIN_EN 置为有效。 MARGIN_HI 取消置位。

 

 

 

 

图4和5显示了第三个待机和重新启动事件的相同模式。

 

图4显示、在此阶段期间、GPI 报告 MARGIN_EN、MARGIN_HI、PB_RST 和 CFGTR 无效。

 

6第六张图片

  • 第四次待机事件37:90-39:10。
  • 所有电源均悬空。 12V @ 1.9V。 处于空闲状态的所有定序电源。 这似乎不正确。
    • 电压轨监控图看起来正确、在38:10时显示0至0.85在大约38:10时、0P85V 电压轨从标称0.85V 下降至0V。
      • 状态寄存器/位置显示 Vout#1显示欠压故障(UVF)。 这与预期的一样、因为电源没有12V Vcc、因此输出电压浮动、由于父电源为低电平、预计会出现 Slaved Fault。 序列关闭超时只是表示在电源中断之前未满足某些序列关闭条件。 但是、现在显示的输出关闭似乎不正确。
        • GPIO 符合预期。

 

 

7第七张图片

  • 上次从待机38:30-39:50重新启动
  • 所有电源均为标称值。 12V @ 12.6V。 处于空闲状态的所有定序电源。 所有定序电源均关闭。
    • 0P85V 显示了在大约39:10时关闭的序列、但是在12V 电压返回时没有序列如预期那样重新打开。
      • 显示的输出关闭不正确。 电源正常状态不正确。
        • 裕度 EN 不会重新置位。

位6“OUTPUT OFF”在寄存器79中被置位,但这是什么没有定义。 我们的输入电压为12伏、所有其他电源取决于系统正常运行该电源具有 RAMPUP 状态并移至稳压状态。 当系统发生故障时、由于没有可靠性、它将处于空闲状态、不会进入上升状态。

我已附上一些表一、其中显示了成功进入 SEQ_ON 和 RAMP_UP 状态的断电 PMBus 日志。 为了简洁、我仅包含 STATUS_WORD、MFR_STATUS 和 STATUS_VOUT。

正常断电
时间戳 适配器 PART_ID 地址 CommandID 代码 页面 相位 值编码 值已解码
24:08.6 1 UCD9090A 104. STATUS_WORD 0x79     0x9001 NOT_OV_LO上方、MFR、VOUT
24:08.6 1 UCD9090A 104. MFR_STATUS 0xF3 0   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
24:08.6 1 UCD9090A 104. STATUS_VOUT 0x7A 0   0x30 VOUT_UV_FAULT、VOUT_UV_WARN
24:08.6 1 UCD9090A 104. MFR_STATUS 0xF3 1   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
24:08.6 1 UCD9090A 104. STATUS_VOUT 0x7A 1   0x00
24:08.6 1 UCD9090A 104. MFR_STATUS 0xF3 2.   0x00000001 从属故障
24:08.6 1 UCD9090A 104. STATUS_VOUT 0x7A 2.   0x00
24:08.6 1 UCD9090A 104. MFR_STATUS 0xF3 3.   0x00000001 从属故障
24:08.6 1 UCD9090A 104. STATUS_VOUT 0x7A 3.   0x00
24:08.6 1 UCD9090A 104. MFR_STATUS 0xF3 4.   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
24:08.6 1 UCD9090A 104. STATUS_VOUT 0x7A 4.   0x00
24:08.6 1 UCD9090A 104. MFR_STATUS 0xF3 5.   0x00000001 从属故障
24:08.6 1 UCD9090A 104. STATUS_VOUT 0x7A 5.   0x20 VOUT_UV_WARN
24:08.6 1 UCD9090A 104. MFR_STATUS 0xF3 6.   0x00000001 从属故障
24:08.6 1 UCD9090A 104. STATUS_VOUT 0x7A 6.   0x30 VOUT_UV_FAULT、VOUT_UV_WARN
24:08.6 1 UCD9090A 104. MFR_STATUS 0xF3 7.   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
24:08.6 1 UCD9090A 104. STATUS_VOUT 0x7A 7.   0x00
24:08.6 1 UCD9090A 104. MFR_STATUS 0xF3 8.   0x00000000
24:08.6 1 UCD9090A 104. STATUS_VOUT 0x7A 8.   0x10 VOUT_UV_FAULT
24:08.6 1 UCD9090A 104. MFR_STATUS 0xF3 9.   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
24:09.3 1 UCD9090A 104. STATUS_WORD 0x79     0x9001 NOT_OV_LO上方、MFR、VOUT
24:09.3 1 UCD9090A 104. MFR_STATUS 0xF3 0   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
24:09.3 1 UCD9090A 104. STATUS_VOUT 0x7A 0   0x30 VOUT_UV_FAULT、VOUT_UV_WARN
24:09.3 1 UCD9090A 104. MFR_STATUS 0xF3 1   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
24:09.3 1 UCD9090A 104. STATUS_VOUT 0x7A 1   0x00
24:09.3 1 UCD9090A 104. MFR_STATUS 0xF3 2.   0x00000001 从属故障
24:09.3 1 UCD9090A 104. STATUS_VOUT 0x7A 2.   0x00
24:09.3 1 UCD9090A 104. MFR_STATUS 0xF3 3.   0x00000001 从属故障
24:09.3 1 UCD9090A 104. STATUS_VOUT 0x7A 3.   0x00
24:09.3 1 UCD9090A 104. MFR_STATUS 0xF3 4.   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
24:09.3 1 UCD9090A 104. STATUS_VOUT 0x7A 4.   0x00
24:09.3 1 UCD9090A 104. MFR_STATUS 0xF3 5.   0x00000001 从属故障
24:09.3 1 UCD9090A 104. STATUS_VOUT 0x7A 5.   0x20 VOUT_UV_WARN
24:09.3 1 UCD9090A 104. MFR_STATUS 0xF3 6.   0x00000001 从属故障
24:09.3 1 UCD9090A 104. STATUS_VOUT 0x7A 6.   0x30 VOUT_UV_FAULT、VOUT_UV_WARN
24:09.3 1 UCD9090A 104. MFR_STATUS 0xF3 7.   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
24:09.3 1 UCD9090A 104. STATUS_VOUT 0x7A 7.   0x00
24:09.3 1 UCD9090A 104. MFR_STATUS 0xF3 8.   0x00000000
24:09.3 1 UCD9090A 104. STATUS_VOUT 0x7A 8.   0x10 VOUT_UV_FAULT
24:09.3 1 UCD9090A 104. MFR_STATUS 0xF3 9.   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT

以及不良断电事件的表。 我比较了这两个表、唯一的区别是在发生不良断电后的待机事件。 STATUS_WORD 显示 NOT_OF_OLUP、OFF、POWER_Good、MFR、VOUT、其中显示了与上面的"正常"表不同的关断和电源正常。 和 STATUS_VOUT 在一页上 VOUT_UV_FAULT、VOUT_UV_WARN

BAD 断电
时间戳 适配器 PART_ID 地址 CommandID 代码 页面 相位 值编码 值已解码
28:59.2. 1 UCD9090A 104. STATUS_WORD 0x79     0x9001 NOT_OV_LO上方、MFR、VOUT
28:59.2. 1 UCD9090A 104. MFR_STATUS 0xF3 0   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
28:59.2. 1 UCD9090A 104. STATUS_VOUT 0x7A 0   0x30 VOUT_UV_FAULT、VOUT_UV_WARN
28:59.2. 1 UCD9090A 104. MFR_STATUS 0xF3 1   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
28:59.2. 1 UCD9090A 104. STATUS_VOUT 0x7A 1   0x00
28:59.2. 1 UCD9090A 104. MFR_STATUS 0xF3 2.   0x00000001 从属故障
28:59.2. 1 UCD9090A 104. STATUS_VOUT 0x7A 2.   0x00
28:59.2. 1 UCD9090A 104. MFR_STATUS 0xF3 3.   0x00000001 从属故障
28:59.2. 1 UCD9090A 104. STATUS_VOUT 0x7A 3.   0x00
28:59.2. 1 UCD9090A 104. MFR_STATUS 0xF3 4.   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
28:59.2. 1 UCD9090A 104. STATUS_VOUT 0x7A 4.   0x00
28:59.2. 1 UCD9090A 104. MFR_STATUS 0xF3 5.   0x00000001 从属故障
28:59.2. 1 UCD9090A 104. STATUS_VOUT 0x7A 5.   0x20 VOUT_UV_WARN
28:59.2. 1 UCD9090A 104. MFR_STATUS 0xF3 6.   0x00000001 从属故障
28:59.2. 1 UCD9090A 104. STATUS_VOUT 0x7A 6.   0x30 VOUT_UV_FAULT、VOUT_UV_WARN
28:59.2. 1 UCD9090A 104. MFR_STATUS 0xF3 7.   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
28:59.2. 1 UCD9090A 104. STATUS_VOUT 0x7A 7.   0x00
28:59.2. 1 UCD9090A 104. MFR_STATUS 0xF3 8.   0x00000000
28:59.2. 1 UCD9090A 104. STATUS_VOUT 0x7A 8.   0x10 VOUT_UV_FAULT
28:59.2. 1 UCD9090A 104. MFR_STATUS 0xF3 9.   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
29:00.1 1 UCD9090A 104. STATUS_WORD 0x79     0x9841 NOT_OF_LOUTER, OFF,POWER_Good,MFR,VOUT
29:00.1 1 UCD9090A 104. MFR_STATUS 0xF3 0   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
29:00.1 1 UCD9090A 104. STATUS_VOUT 0x7A 0   0x30 VOUT_UV_FAULT、VOUT_UV_WARN
29:00.1 1 UCD9090A 104. MFR_STATUS 0xF3 1   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
29:00.1 1 UCD9090A 104. STATUS_VOUT 0x7A 1   0x00
29:00.1 1 UCD9090A 104. MFR_STATUS 0xF3 2.   0x00000001 从属故障
29:00.1 1 UCD9090A 104. STATUS_VOUT 0x7A 2.   0x00
29:00.1 1 UCD9090A 104. MFR_STATUS 0xF3 3.   0x00000001 从属故障
29:00.1 1 UCD9090A 104. STATUS_VOUT 0x7A 3.   0x00
29:00.1 1 UCD9090A 104. MFR_STATUS 0xF3 4.   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
29:00.1 1 UCD9090A 104. STATUS_VOUT 0x7A 4.   0x00
29:00.1 1 UCD9090A 104. MFR_STATUS 0xF3 5.   0x00000001 从属故障
29:00.1 1 UCD9090A 104. STATUS_VOUT 0x7A 5.   0x30 VOUT_UV_FAULT、VOUT_UV_WARN
29:00.1 1 UCD9090A 104. MFR_STATUS 0xF3 6.   0x00000001 从属故障
29:00.1 1 UCD9090A 104. STATUS_VOUT 0x7A 6.   0x30 VOUT_UV_FAULT、VOUT_UV_WARN
29:00.1 1 UCD9090A 104. MFR_STATUS 0xF3 7.   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT
29:00.1 1 UCD9090A 104. STATUS_VOUT 0x7A 7.   0x00
29:00.1 1 UCD9090A 104. MFR_STATUS 0xF3 8.   0x00000000
29:00.1 1 UCD9090A 104. STATUS_VOUT 0x7A 8.   0x10 VOUT_UV_FAULT
29:00.1 1 UCD9090A 104. MFR_STATUS 0xF3 9.   0x00000005 slaved_fault、SEQ_OFF_TIMEOUT

我们还使用 VOUT_UV_FAULT 检查了电源页6创建故障的可能性。 我尝试将第6页的 VOUT_UV_WARN 设置为0V、但在不良的关闭事件上仍然看到相同的日志。

希望这涵盖了所有内容。

此致、

Sean Suttie。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    编辑:

    我们还使用 VOUT_UV_FAULT 检查了电源页6创建故障的可能性。 我尝试将第6页的 VOUT_UV_FAULT 设置为0V、但仍然在不良的关闭事件上看到相同的日志。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    你(们)好

    我假设您已在故障响应中启用了重新定序选项。

    为了成功执行重新定序、所有重新定序电源轨必须保持低于 POWER_Good 阈值。 如果其中一个电源轨在其他电源轨达到 POWER_Good 关断阈值之前恢复正常、则重新定序将失败(保持空闲状态)。

    我怀疑、在其余电源轨关闭之前、12V 电压会很快恢复。

    在“全局配置”->“其他配置”->“重新定序”下,您可以选中“12V 电压轨”复选框,以将其排除在重新定序之外。 这将对您有所帮助。

    如果没有、我需要您的项目文件 来进一步审查此问题。

    此致

    Yihe

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Yihe、

    我尝试过这种情况、我假设我必须选中的复选框是在该区域吗?

    我今天测试了2个 UCD 配置。 一个仅选择电源轨#9 (12V)、另一个选中全部。

    我们仍然看到这些新配置出现了同样的问题。

      我是否有安全的方法可以向您发送 Fusion Digital Power Designer 文件?

    谢谢、

    肖恩。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    你好

    您可以通过当地的 TI 团队(David)给我发送。

    您自己的 PMBus 日志。 问题可能来自 VOUT_UV_FAULT 电源轨。 理想情况下。 当12V 关闭时、您不会看到12V 以外的电源轨出现 UV 故障。 如果是这种情况、您可能需要检查系统。

    解决方案是通过 UV_FAULT 为该电源轨启用重新定序选项。 这可能会有所帮助。

    您知道哪个电源轨显示了额外的 UV_FAULT 吗?

    此致

    Yihe

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Yihe、

    1.2V 电压轨上显示 VOUT_UV_FAULT。 当我调查此故障时、我尝试将 VOUT_UV_FAULT 阈值降低至0、以查看它是否会消除此故障但未成功。

    我已通过电子邮件将配置文件发送给 David。 我尝试了一个构建、在该构建中、我启用了所有电源轨的重新定序、但遗憾的是、没有成功。

    谢谢、

    肖恩。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    你好

    但1.2V UV 故障未显示在正确的重新定序情况下。

    多个12V UV 故障后是否存在此问题? 有多少人试图解决这个问题? UCD9090A 在这些测试期间没有复位或重启? 如果对 UCD9090A 进行下电上电、它是否会开始工作?

    从快照中、重新定序之间的时间为0ms。 您可以尝试增大它吗?

    收到 Dave 的项目文件后、我将查看该文件。

    此致

    Yihe

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    你(们)好

    我收到了您的文件。 以简化调试。 我建议如下:

    1.禁用除12V 外的所有电源轨的故障响应

    2.禁用12V 的干扰

    3.将重新定序间隔增加到大数。

    此致

    Yihe

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Yihe、

    感谢你的答复。

    我将尝试这些项目并创建实验配置文件。

    我将反馈测试的进行方式以及我对配置所做的更改。

    此致、

    肖恩。