子产品线 |
计算产品线 |
产品族 |
Kunpeng S920S00/S920S00K主板涉及的服务器整机 |
产品型号 |
长江计算服务器 |
发布时间 |
2020-10-26 |
重要程度 |
重要 |
紧急程度 |
紧急 |
操作类别 |
预警 |
类别ID |
|
操作要求 |
学习预防 |
||
完成时间 |
不涉及 |
||
涉及版本 |
BIOS版本号1.36(包含)及其以下版本 |
||
涉及的设备 |
Kunpeng 服务器S920S00/S920S00K机型(CPU型号为Kunpeng 920 5220/3210) |
||
涉及应用范围 |
1、本公告仅适用于长江计算服务器产品线销售的项目。 |
||
人力投入 |
不涉及 |
||
修改记录 |
2020-10-26 |
第一次发布 |
|
联系人 |
服务接口人 |
吴磊 leiwu@yctco.com.cn |
关键字:动态调频,ACG调频,CPU负载,挂死,复位
摘要: Kunpeng 920 5220、Kunpeng 920 3210芯片动态调频基于ACG调频,BIOS 1.36(包含)及其以下版本ACG调频流程中存在芯片寄存器配置问题,概率性导致调频挂死,CPU负载动态变化大的时候可能影响功能。
备注:ACG(adaptive clock generator)自适应时钟调节器,当瞬时电压跌落比较低时,动态降低CPU的频率,这样可以使得CPU在更低的电压下安全工作。
【问题描述】
触发条件:
条件一、涉及机型:Kunpeng S920S00/S920S00K机型;
条件二、涉及CPU型号:Kunpeng 920 5220、Kunpeng 920 3210;
条件三、涉及版本: BIOS版本号1.36(包含)及其以下版本;
条件四:
1、开启功率封顶,默认值为关闭;
2、开启DEMT,默认值为关闭;
3、CPU温度超过105摄氏度,环境温度超过40摄氏度;
4、OS下调频模式未设置为performance模式(OS兼容性列表中centos 7.6、ubuntu、suse 系统默认为非performance模式)。
注:如果设置performance模式,则不会自动调频,CPU按照标称频率跑,即使CPU负载达到90%以上也不会触发调频,功率会上升。
同时满足以上条件一、二、三和条件四中任一场景时,则会触发动态调频可能导致OS概率性挂死或重启。
故障现象:
当条件满足时,CPU负载动态变化大频繁触发动态调频时可能导致OS概率性挂死或重启。
判断方法:
1、确认版本号:
查看BIOS版本方法如下图所示,在iBMC的Web界面中选择“iBMC管理> 固件升级”可以查看BIOS版本是否是1.36(含)以下版本。
2、满足以上版本,再确认功率封顶是否开启:
如上图即为功率封顶开启,可能概率性触发动态调频。
3、若未开启功率封顶,再判断DEMT是否开启:
方法1:进入BIOS界面,Advanced→Performance Config
如上图,设置为“Fast Mode”或“Smooth Mode”即为DEMT开启状态。
方法2:
从BMC带外配置导出配置文件config.xml 进行确认:
配置文件中DemtMode配置为Fast Mode或者Smooth Mode可触发调频:
4、如果CPU温度超过105摄氏度也可能触发调频,方法如下:
BMC一键收集日志中dump_info\LogDump\ remote_log文件中有如下告警:
5、如果OS下动态调频配置为非performance模式也可能触发调频,确认方法如下:
输入如下命令查看:
步骤1:cd /sys/devices/system/cpu/cpu0/cpufreq/
步骤2:cat scaling_governor
查看scaling_governor的值即可。
【问题原因】
动态调频接口中在执行从CPU关ACG函数时,未加跨片偏移,未成功读取从CPU的ACG状态,导致从片未关ACG时就进行了动态调频操作,这样会导致动态调频概率性挂死。
【影响和风险】
主要影响CPU的可靠性,如果业务负载动态变化很大,可能触发CPU动态调频失败导致OS挂死或重启。
【措施和方案】
规避方案:
1、在OS下关闭动态调频
进入OS命令行,在如下路径下,将scaling_goernor改下成performance模式:
路径:
/sys/devices/system/cpu/cpu0/cpufreq/scaling_governor
/sys/devices/system/cpu/cpu1/cpufreq/scaling_governor
…
/sys/devices/system/cpu/cpu*/cpufreq/scaling_governor
修改方法:
输入如下命令,先进入到每个cpu的cpufreq路径,使用echo修改scaling_governor值,再使用cat命令确认是否修改正确:
步骤1:cd /sys/devices/system/cpu/cpu0/cpufreq/
步骤2:echo performance > scaling_governor
步骤3:cat scaling_governor
2、若功率封顶开启,则关闭该功能即可
3、若DEMT开启,则关闭该功能即可。
解决方案:
主板BIOS升级到目标及以上版本,BMC、BIOS、CPLD需要配套升级。
服务器 |
BIOS 当前版本 |
iBMC推荐版本 |
BIOS推荐版本 |
CPLD推荐版本 |
S920S00 |
低于1.35(包含) |
5.73及以上 |
1.38及以上 |
5.01及以上 |
S920S00K |
低于1.35K(包含) |
5.73及以上 |
1.38K及以上 |
5.01及以上 |