■サーバが重い・サーバに繋がらない 2
サーバに繋がらないという連絡
Zabbixで
Too many processes on {HOSTNAME}
を確認すると、プロセス数が300を超えていた。
topコマンドで確認すると、MySQLの負荷が異常に高い
MySQLのスロークエリを確認すると、以下のSQLなど複数のクエリで長時間ロックされていた。
# Time: 150911 19:11:57
# User@Host: refirio[refirio] @ localhost []
# Query_time: 1412.046061 Lock_time: 706.623757 Rows_sent: 1 Rows_examined: 1756
SET timestamp=1441966317;
SELECT COUNT(*) as cnt FROM w_delivery_call_header target WHERE EXISTS(SELECT * FROM w_delivery_call_list dl 以下略
MySQL方面からは、これ以上のことは判らず。
引き続き原因調査のため、SSHでログインしてしばらく操作していると、以下のメッセージが表示された。
Message from syslogd@refirio1 at Sep 11 20:34:02 ...
kernel:Uhhuh. NMI received for unknown reason 21 on CPU 0.
Message from syslogd@refirio1 at Sep 11 20:34:02 ...
kernel:Do you have a strange power saving mode enabled?
Message from syslogd@refirio1 at Sep 11 20:34:02 ...
kernel:Dazed and confused, but trying to continue
エラーメッセージでググる。
OSが認識していない理由コードでNMIが発生したというメッセージ
http://japan.zdnet.com/article/20367195/
Dazed and confused, but trying to cont...
http://ossmpedia.org/messages/linux/2.6.9-34.EL/58911.ja
「実際の報告事例としては相性も含めてメモリカードの不具合が一番多い。」
誰も教えてくれなかったMySQLの障害解析方法
http://qiita.com/muran001/items/14f19959d4723ffc29cc
ハードウェアの故障やメモリの容量不足によっても、スロークエリは発生するみたい
ハードの問題の可能性が高いため、サブ機に切り替えて様子見。
その後、IPが変化したり、Zabbixの監視対象から外れていないか確認。
SSHアクセス、HTTPアクセス、バックアップの仕組みが動いているか、など諸々の動作確認を行う。
さくらに連絡
マザーボードの問題らしい
載せ替えて対応してくれるらしいが、ネットワークカードのMacアドレスが変わる
よってサーバ内の設定調整が必要になるが、Macアドレスを使うアプリケーションは走らせていないので問題無いと思われる
(Macアドレスでライセンス認証を行うものがあるので注意。)