This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] TMS320C6678:核心到核心通信失败问题

Guru**** 2330830 points
请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/1500874/tms320c6678-core-to-core-inter-communication-failing-problem

部件号:TMS320C6678

工具/软件:

您好、

我们使用 C6678的客户遇到了通信故障问题
器件内的内核到内核通信。

生产的电路板数量:981个
此问题的主板数量:6.

C6678的 Core0用作主器件、Core1到 Core7用作从器件。
在每个内核上初始化内核间通信(ipc_start ())、
然后使用 MessageQ_put()和 MessageQ_get()进行通信。

例如、在将映像处理从 Core0卸载到 Core1的情况下、处理流程如下:
(1) Core0使用 MessageQ_put()发送计算所需的参数、例如数据地址。
(2) Core0使用 MessageQ_get()等待来自 Core1的响应。
(3) Core1使用 MessageQ_get()接收参数并执行必要的处理。
(4) Core1使用 MessageQ_put ()将计算结果返回到 Core0、
例如拇指值等
(5) Core0接收来自 Core1的响应并继续执行下一个进程。

这种现象再次出现在调查方案中:
开机>初始化>内核之间的通信 x512次>检查结果>关机、重复此过程。
这种现象的发生频率并不稳定、此时我们无法提供可重复的值。
它不会在特定数量的通信上发生。

现象1:等待上述响应时发生无限等待(2)。
我们假设内核之间的通信断开或通信指向的内核挂起、
但我们不知道如何找出问题的原因。

现象2:上述响应中的总和值(4)有时与预期值不同。
此外、在某些情况下只有总和值不同、而在其他情况下、存储器中的数据和总和值都不同。
在这种情况下、内核间通信是正常的、但假定内核异常。
从内核使用每个内核的 DDR3、MSMC (共享 L2)和高速缓存存储器(L1/L2)。

我们希望了解以下信息、如果有任何信息、请告诉我们。
1.其他用户/客户是否已确认类似问题?
2.是否有任何可能的因素或调查方法来确定原因?

此致、
G.F.

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、

    感谢您的联系。  
    您能告诉我们正在使用什么 TI SDK 以及对 TI 提供的代码进行了哪些修改吗? 此外、为什么现在看到这个问题而不是之前看到的问题? 上一个 TI SDK 在5年前发布、我们没有看到任何其他客户/产品报告任何问题。

    那么、您是否确定您的代码修改已经过适当的实施和测试?

    请告诉我们。

    谢谢。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、

    感谢您的答复。

    我将询问我的客户所使用的 TI SDK 版本以及关于修改的信息。

    请稍候。

    最好的员工

    G.F.

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    好的。 请告诉我们。

    谢谢。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、

    我问了我的客户、并得到了以下答案:


    >您能否告诉我们正在使用什么 TI SDK 以及对 TI 提供的代码进行了哪些修改?
    >还有、为什么现在和以前都出现这一问题?

    客户使用以下版本的 SYS/BIOS SDK:
    SYS/BIOS:6.45.01.29****尚未针对 SYS/BIOS 进行定制。
    pdk_c667x:2.0.2****已根据 DDR 配置进行定制
    IPC:3.43.01.03****尚未针对 SYS/BIOS 进行定制。

    在出现这种现象之前或之后未对软件或硬件进行任何更改。
    客户还确认主板制造商没有变化。

    客户不知道为什么现在出现此问题。

    他们还有以下其他问题:
    您上次对 C6678流程进行更改的时间是什么时候?

    2.是否必须为每个 DSP 内核等设置 DDR3内存配置参数?

    此致、
    G.F.

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、

    感谢您提供的额外数据和对我们查询的回答。

    我们也不知道为什么现在这些问题正在发生。

    [引述 userid="102565" url="~/support/processors-group/processors/f/processors-forum/1500874/tms320c6678-core-to-core-inter-communication-failing-problem/5779358 #5779358"]

    您上次对 C6678流程进行更改的时间是什么时候?

    [/报价]

    理想情况下、这些器件是成熟的且被视为稳定的、因此无需对其进行任何工艺更改。 他们是否知道何时开始在设备上看到这些问题(订单日期、批号)?

    2.是否必须为每个 DSP 内核等设置 DDR3内存配置参数?

    否、通常第一个内核将配置 DDR3。 我们不会针对每个内核执行该操作。

    谢谢。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、

    感谢您的答复。

    >他们是否知道何时开始在设备上看到这些问题(订购日期、批号)?
    我查看了批号、并想通过当地 TI FAE 与您分享。

    我不知道他们何时开始看到此问题、因此我需要向客户咨询。
    据我所知、截至4月10日、使用 C6678实施了六个电路板时出现问题。

    客户是否应该检查以调查原因?

    此致、
    G.F.

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    我会将此主题重新分配给我们的硬件支持团队、以便澄清您的疑问。

    谢谢。

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、

    在您将此主题重新分配给硬件支持团队后、我尚未收到回复、但进度如何?

    根据我的客户信息、
    有两种类型的 C6678电路板、两种类型的电路板都存在此问题:
    一种类型的电路板自2025年1月以来、已在7个电路板上进行;另一种类型的电路板自2024年6月以来、已在3个电路板上进行。

    此致、

    G.F.

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 G.f:  

    我不知道其他客户有任何类似的问题。  

    该系统投入生产多长时间?  每年配送多少件商品?

    故障率/重现性是否足以让您 在生产线上筛选这些系统、并避免向客户发货?

    您可以尝试以下操作:

    -提高故障 系统的内核电压?  故障率会降低还是消失?

    -回流焊失败的系统?  

    - ABBA 交换 SoC 故障系统和良好的系统?

    谢谢、
    Kyle

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    尊敬的 Kyle:

    感谢您的回复、对我的延迟回复感到抱歉。
    我收到了客户的回复、因此我将分享以下信息:

    >-在发生故障的系统上提高内核电压? 故障率会降低还是消失?
    客户尝试使用3个电路板、将内核电压从1.1V 升至1.2V。
    结果如下:
    在2块电路板上、问题得以减少。
    在1块电路板上、故障率都没有降低也没有消失。

    >-故障系统上的回流焊?
    由于担心元件脱落、因此无法进行回流焊
    插入的组件的接头也在输送机上、不能加载。
    但是、关于回流焊、如果我们要求更换 BGA 产品的是外包制造商、则可能发生这种情况。
    在要求外部供应商之前、TI 对与这种现象的因果关系有何看法?

    - ABBA 交换 SoC 故障系统和良好的系统?
    我们无法独自完成此操作、因此必须向外部制造商下订单。
    只是为了确认、如果通过交换元件来转移这种现象、TI 是否能够得到制造商的分析?
    (我们考虑在同一电路板上交换两个 DSP)

    客户还有以下其他问题:

    (1)是否存在通过重新回流解决缺陷现象的情况?
    (2)如果问题是由于安装缺陷导致的、则应通过 X 射线检查来检测。
    这是否是无法使用该方法识别的东西?
    (3) DSP 内核冻结的可能原因是什么?

    此致、
    G.F.

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、  

    1.是的,我们已经看到了罕见的情况,冷焊点可以通过回流焊固定。

    2.有机会看到 这样一个问题的 X 射线。

    3.这可能是由 PCB 边缘性(如边际性电源或配电网络)造成的,也可能是由 SoC 边缘性或两者结合造成的。  

    同样、可能存在软件时序依赖性(软件错误)、这些依赖性会因每个 SoC 中正常器件间差异可能存在的时序细微变化而暴露。

    此致、

    Kyle