カテゴリー
Linux

サーバーダウンの原因調査

WordPressを稼働させているサーバが良く落ちる。

データのバックアップにbackWPupのプラグインを使っているのだが、これが動く前後でMySQLやApacheが死ぬ。

原因調査と対応について、今後のためにもここにメモ代わりに書き残しておく。

  1. messageログを確認
    egrep -i ‘fatal|error|memory|resource’ /var/log/messages
    Oom Killが発生していると一発で判明する。
    うちでは突然OomKillが発生して手あたり次第サービスが終了されてしまい、WordPressの機能不全に陥っておりました。
  2. メモリを食ってる問題のプロセスを特定...したいけど、どうしたらいいんだろう...。いずれかのhttpdがメモリを食いつぶし始めるんじゃないかと思うのだが、サーバーに問題が発生した時点で、慌ててApache、MySQLを再起動させたので、現状この先どう調べればよいのかわからない。
    各サービスを再起動させる前に、psかtopでも発行してればもう少しヒントを得られたのかな?
    ただ、動いてるプロセスからして、ApacheかMySQLのどちらかしか考えにくいし、おそらくはApacheなんだろうなと思うのだが...、何に対するリクエストで、そんなメモリをバカ食いするんだろうか。
    OomKill発生前のアクセスログから地道に調査するしかないのかなぁ...めんどくせぇ。

以後、調査が進めば随時追記していきます。