主机的异常重启排查及解决
接受到Zabbix最新的一次告警

连接主机查看主机依旧重启

在系统上排查
最近一次重启时间为:2024年3月11日14:53左右(之前已经有多次重启)
查看最近一次系统日志:/var/log/syslog

1 | 除Docker报错外无其他报错。 |
查看最近一次内核日志:/var/log/kernel.log

1 | 无明显异常 |
查看定时任务 crontab -l
1 | 无异常 |
查看对外提供的服务 netstat -lanp
1 | 无异常 |
查看历史命令 history
1 | 无异常 |
硬件上排查
通过ibmc控制进入
1 | 有重启的记录无告警 |
ibmc的截图(服务器重启前1秒提供的)发现服务器在最后重启时命令行终端页面出现了:sysrq:Resetting

据相关资料显示
1 | sysrq功能(也称为Magic SysRq键)允许用户在系统发生问题时执行一系列的低级操作,包括重启系统。如果你的系统在终端页面上显示"sysrq: Resetting",然后系统重新启动,这可能意味着系统在执行了SysRq功能中的重启命令。 |
1 | 检查主机未连接外部键盘,设置内核关闭Sysrq的功能。 |
重启问题依旧。
重新排查系统
发现系统内核版本在发生重启时间前后有变化。

在Zabbix上查看该主机发生重启问题前后System description信息的内核的确发生了变化。

初步排查到问题
查看已经安装的内核版本,将内核版本切换到
1 | 5.4.0-147-generic |

1 | gnulinux-5.4.0-147-generic-advanced-c6c57711-25d6-4dc0-a477-6f65c1943d17 |
修改内核文件/etc/default/grub
1 | 将GRUB_DEFAULT的值由0修改为其上面查询出来的;格式如下 |
更新grub
1 | sudp aptdate-grub |
重启
1 | 查看内核版本 |
问题被解决
主机稳定运行1天未进行相关重启。
