This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

[参考译文] TDA4VM:TDA4VH RCU CPU 失速警告。

Guru**** 1980945 points
请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

https://e2e.ti.com/support/processors-group/processors/f/processors-forum/1137990/tda4vm-tda4vh-rcu-cpu-stall-warning

器件型号:TDA4VM
主题中讨论的其他器件:TDA4VHCSD

大家好、体验一下

启用 CONFIG_PRETERM 并在 TDA4VH 平台上运行`RCU-Torture` torture tests 时。 有时我们会观察到以下 RCU CPU 停止警告。

[15:13:07]root@J7-EVM:/run/media/mmcblk1p1 # insmod torture.ko

[15:13:12]root@j7-evm:/run/media/mmcblk1p1 insmod rcutorture.ko

[08:06:42][60830.687903] RCU-torture:RTC:0000f24553fd ver:614614 tfle:0 RTA:614614 rtaf:0 rtf:614605 rtmbe:0 rtbke:0 rtbre:0 RTBF:0 rbf:0 r1000 rtb:0 rbt:0 r205rtb:0 rbt:0:0 rbt:0:0 r20409nT:0:0:0 r205rbt:0:0
[08:06:42][60830.708581] RCU-酷刑:阅读器管:133426404760 2118331 0 0 0 0 0 0 0 0 0 0 0 0
[08:06:42][60830.715735] RCU-酷刑:读卡器批次:133422733238 5792891 0 0 0 0 0 0 0 0 0 0 0
[08:06:42][60830.722981] RCU-酷刑:自由循环:614613 614613 614612 614611 614610 614609 614608 614607 614606 614605 0
[08:06:42][60830.733964]??? 写入器停止状态 RTWS_STTOutter (8) g4639925 f0x0 ->状态0x1 CPU 4.
[08:06:42][60830.742578] RCU:RCU_PRETER: Wait state:RCU_GP_WAIT_FQS (5)-> state:0x402 delta -> gp_activity 2 -> gp_req_activity 3642057 -> gp_WAKE_TIME13151 -> seq_WAKE_4639925->需要的 GP_4632_flags_0x9932>Q_4625->需要的标记
[08:06:42][60830.742584] RCU:RCU_node 0:7 -> gp_seq 4639925 -> gp_seq_needed 4639932
[08:06:42][60830.742590] RCU:CPU 0 -> gp_seq_needed 4639928
[08:06:42][60830.742596] RCU:CPU 1 -> gp_seq_needed 4639928
[08:06:42][60830.742602] RCU:CPU 2 -> gp_seq_needed 4639928
[08:06:42][60830.742607] RCU:CPU 3 ->gp_seq_needed 4639928
[08:06:42][60830.742612] RCU:CPU 5 ->gp_seq_needed 4639928
[08:06:42][60830.742618] RCU:CPU 6 ->gp_seq_needed 4639928
[08:06:42][60830.742624] RCU:CPU 7 -> gp_seq_needed 4639932
[08:06:42][60830.742631] RCU:自引导以来调用的 RCU 回调:223104966
[08:06:42][60830.742638] RCU_Tasks:RTGS_WAIT_CBS (11)、自15207685 g:0 I:0/0 K.
[08:06:42][60830.742645] RCU_Tasks_粗 鲁:RTGS_WAIT_CBS (11)、自15207685 g:0 I:0/0 K.
[08:06:42][60830.742653] RCU_Tasks_trace:RTGS_WAIT_CBS (11)、自15207685 g:0 I:0/0 K. N0 h:0/0/0起
[08:06:42][60841.139879] RCU:信息:RCU_Preempt Detected detects on CPU/ tasks:
[08:06:42][60841.145967] RCU:4-...0:(19个周期的这个 GP) idle=33A/1/0x4000000000000000 softirq=3058565/3058567 fqs=1347361
[08:06:42]][60841.156032](由3个检测到、t=364661 jiffies、g=4639925、q=4273405)
[08:06:42][60841.156035] CPU 4的任务转储:
[08:06:42][60841.156039]任务:RCU_Torture_rea 状态:S 栈:0 pid:619 PPID:2个标志:0x0000002a
[08:06:42][60841.156047]呼叫跟踪:
[08:06:42][60841.156058]_switch_TO+0xc0/0x118
[08:06:42][60841.156062] 0xff000b7e46a080

谢谢、  

Quantli

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好!

    CONFIG_PRETERM 已在 arch/arm64/configs/tisdk_j784s4-evm_defconfig 中启用。

    您使用的是哪款 SDK?

    -凯尔西

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好!  

    [引用 userid="274047" URL"~/support/processors-group/processors/f/processors-forum/1137990/tda4vm-tda4vh-rcu-cpu-stall-warning/4361033 #4361033"]您正在使用哪款 SDK?[/quot]

    TDA4VH SDK8.2.2

    谢谢

    Quantli

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好!

    内核使用以下 RCU 配置进行编译:

    编号
    # RCU 子系统
    编号
    CONFIG_TRE_RCU=y
    CONFIG_PRETER_RCU=y
    CONFIG_RCU_experi=y
    CONFIG_SRCU=y
    CONFIG_TRE_SRCU=y
    CONFIG_Tasks_RCU_generic=y
    CONFIG_Tasks_RCU=y
    CONFIG_Tasks_粗 鲁_RCU=y
    CONFIG_Tasks_trace_RCU=y
    CONFIG_RCU_STALL_COMON=y
    CONFIG_RCU_Need_SEGCBLIST=y
    CONFIG_RCU_FANOUT=64
    CONFIG_RCU_FANOUT_LEVE_16
    未设置# CONFIG_RCU_FAST_NO_Hz
    CONFIG_RCU_BOOST=y
    CONFIG_RCU_BOOST_DELAY=500
    未设置# CONFIG_RCU_NOCB_CPU
    未设置# CONFIG_TASE_TRACE_READ_MB
    RCU 子系统的#结束

    编号
    # RCU 调试
    编号
    CONFIG_FICE_RCU=y
    未设置# CONFIG_FICE_RCU_list
    CONFIG_Torture_test=m
    CONFIG_RCU_SCALE_TEST = m
    CONFIG_RCU_Torture_test=m
    未设置# CONFIG_RCU_REF_SCALE_TEST
    CONFIG_RCU_CPU_STALL_TIMEOUT=21
    CONFIG_RCU_TRACE=y
    CONFIG_RCU_EQS_DEBUG=y
    未设置# CONFIG_RCU_STRICT_GRAM_PERIOD
    RCU 调试结束

    编号
    #锁定调试(自旋锁、互斥锁等)
    编号
    CONFIG_LOCK_debuging_support=y
    CONFIG_FICE_LOCIN=y
    未设置# CONFIG_FICE_RAW_LOCK_STENGATE
    未设置# CONFIG_LOCK_STAT
    CONFIG_DEBUG_RT_互 斥量= y
    CONFIG_DEBUG_SPINLOCK = y
    CONFIG_DEBUG_互 斥量= y
    CONFIG_DEBUG_WW_MUTEX_SLOWPATH=y
    CONFIG_DEBUG_RWSEMS=y
    CONFIG_DEBUG_LOCK_ALLOC=y
    CONFIG_LOCKDEP=y
    # CONFIG_DEBUG_LOCKDEP 未设置
    # CONFIG_DEBUG_Atom_SLEEP 未设置
    未设置# CONFIG_DEBUG_LOCK_API_SEARTESTS
    未设置# CONFIG_LOCK_Torture_test
    未设置# CONFIG_WW_mutex_selftest
    未设置# CONFIG_SCF_Torture_test
    未设置# CONFIG_CSD_LOCK_WAIT_DEBUG
    锁定调试结束(自旋锁、互斥体等)

    谢谢

    Quantli

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好、Quanti、

    感谢您提供详细信息。 最后几个问题。

    • 这是您正在报告的回归还是您第一次在8.2 SDK 上运行、但失败了?
    • [引用 userid="515377" URL"~/support/processors-group/processors/f/processors-forum/1137990/tda4vm-tda4vh-rcu-cpu-stall-warning "]

      15:13:07]] root@J7-EVM:/run/media/mmcblk1p1 # insmod torture.ko

      [15:13:12]root@j7-evm:/run/media/mmcblk1p1 insmod rcutorture.ko

      [/报价]
      上述2个模块的插入非常好、足以重现问题、或者您需要并行运行任何其他测试用例?

    另一个建议是、您能否持续运行 memtester 并检查是否存在任何问题?


    此致、
    基尔西

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    大家好、 Keerty

    [引用 userid="274047" URL"~/support/processors-group/processors/f/processors-forum/1137990/tda4vm-tda4vh-rcu-cpu-stall-warning/4366203 #4366203"]插入上述2个模块足以重现问题,或者您需要并行运行任何其他测试用例?

    是的、 上述2个模块的插入非常好、足以重现问题。  该问题将在(__LW_AT__每次约5-10小时)。吸入2个模块后出现

    [引用 userid="274047" URL"~/support/processors-group/processors/f/processors-forum/1137990/tda4vm-tda4vh-rcu-cpu-stall-warning/4366203 #4366203"]另一个建议是,您是否可以连续运行 memtester 并检查是否存在任何问题?[/quot]

    感谢您的建议 ,我正在运行 memtester。 如果有问题、我会给您回复。  

    谢谢

    Quantli

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    大家好、 Keerty

    memtester test。无问题

    谢谢

    Quantli

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好!

    感谢您的确认、这样 DDR 就不会出现问题。 这是否会影响您的任何用户案例?

    此致、

    基尔西

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    大家好、 Keerty

    在运行设计验证测试(系统满载)且系统卡住时、RCU CPU 停止扭曲。

    [CPU7] Time:Thread 2.724192 FEQ    :1970 MHz   Real:2.797871 带宽:40.815072 Gb/s

    [CPU4]时间:线程2.702266s    FEQ:1986 MHz   实际值:2.822112s[17755.387587] RCU:信息:RCU_PREOPTH 检测到 CPU /任务上的停止:

    [17755.393728] RCU:    5-...0:(1个周期的这个 GP) idle=51e/1/0x40000000000000000002 softirq=202913/202914 fqs=1250644

    [17818.407590] RCU:信息:RCU_Preempt Detected secteds on CPU/ tasks (RCU_preempt 检测到 CPU /任务上的停转):

    [17818.413727] RCU:    5-...0:(1个周期的 GP) idle=51e/1/0x400000000000000000000002 softirq=202913/202914 fqs=1257695

    [17881.427584] RCU:信息:RCU_Preempt Detected secteds on CPU/ tasks:

    [17881.433730] RCU:    5-...0:(1个周期的这个 GP) idle=51e/1/0x40000000000000000002 softirq=202913/202914 fqs=1264853

    [17944.447602] RCU:信息:RCU_Preempt Detected secteds on CPU/ tasks (RCU_preempt 检测到 CPU /任务上的停转):

    [17944.453721] RCU:    5-...0:(1个周期的 GP) idle=51e/1/0x40000000000000000002 softirq=202913/202914 fqs=1271935

    [18007.467583] RCU:信息:RCU_Preempt Detected sected sidks on CPU/ tasks:

    谢谢

    Quantli

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好!

    感谢您的日志。 在运行应力测试时、我们重复了 TDA4VH 的类似故障。 投资正在进行中。 我们将在该主题上发布。

    此致、

    基尔西

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    大家好、 Keerty

    有关 RCU 问题的任何进展?现在,我们可以 通过修改 Linux 系统处理器的数量来避免 RCU 问题 (双核 A72运行 Linux,六核 A72运行 FreeRTOS)。  

    谢谢

    Quantli

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    、我在尝试在 TDAVH、PSDKR v8.2.2上支持8个以上摄像头时遇到了类似的问题

    在我看来、通过在 tiovx 和单个过来的应用程序中启用 CSIRx2 J7_Capture.h、这个问题可能会再次出现

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    大家好、 Keerty
    我们尝试在 TDA4VH EVM 板上运行 ti-linux-kernel-08.05.00.004 (5.10.153)以执行 RCU 应力测试(运行 Linux 的8核 A72)、 也会重现此问题。
    日志参见附件。

    谢谢

    e2e.ti.com/.../linux5.10.153_2D00_rcu_2D00_oops.txt

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好!

    非常感谢您试用最新的 SDK! 我们一直在进行多个根本的实验、导致了这个问题。

    • 增加内核/MPU 电压、但我们仍然看到 RCU 崩溃。
    • 已尝试启用/禁用 L3高速缓存的组合、但仍出现问题。

    我们已邀请硬件专家对此进行研究。 我们将随时向您发布最新消息。

    此致、
    基尔西

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    Quan、您好!

    根据您的测试观察结果、崩溃需要多长时间? 它是否在15分钟内持续崩溃? 我看到 GRO 您的日志大约需要766秒。 这是一致的吗?

    此致、

    基尔西

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    大家好、 Keerty

        实际发生时间范围为10分钟到10小时以上,我们有另一个运行10小时的日志,但有一个例外。

    谢谢

    e2e.ti.com/.../linux5.10.153_2D00_rcu_2D00_oops_2D00_2.txt

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    您好!

    您是否启用了这些模块? 您是否启用了所有远程内核? 您能不能尝试一下
    是否已禁用所有模块? 我们正在尝试并行实验。

    -凯尔西

  • 请注意,本文内容源自机器翻译,可能存在语法或其它翻译错误,仅供参考。如需获取准确内容,请参阅链接中的英语原文或自行翻译。

    大家好、 Keerty

         模块和 远程内核 已启用,我们将 在 禁用所有模块的情况下进行实验。

    谢谢

x 出现错误。请重试或与管理员联系。