BLOGTIMES
2010/06/28

rejecting I/O to offline device が出ていますと言われた日

  server  sakura  customersupport 
このエントリーをはてなブックマークに追加

帰り道でケータイに監視サーバからSSHタイムアウトのアラートが入ったので、どうせ個人サーバだし、よくある*1一時的な障害だろうとたかをくくって、家に帰ってPCの電源を入れてアクセスしてみたら、本当にサーバが落ちていて焦りました。

Pingは帰ってくるものの、HTTP、SSH、SMTP、IMAPなどのアプリは全滅。Pingに遅延はないし、さくらのMRTGにも異常はないので、これらを見る限りトラフィック過多とかではなさそう。気になるのはSSHのコネクション自体はいったん開く(Connection timed outではなく、Connection closed といわれる。)という不思議な症状であること。つまり、つながるが一方的に切られる状態であり、まったく応答がないわけではない。もし、プロセスが死んでいたら、そもそもコネクションは開かないはず。これはむしろすっぱり落ちているよりも嫌な予感がする。

以下、障害対応メモ。

20:30 状況確認を手配

さくらのリブート受付係に電話し、コンソール状況の確認と完了次第のケータイに折り返しを依頼。

20:50 エラー状況の報告

さくらより入電。コンソールには「rejecting I/O to offline device」が連続して出ている状態との報告。これは何らかの理由でディスクに障害が起こってデバイスがオフラインになったときにしか起こらない*2エラーなので、ちょっと嫌な予感。ひとまずリブートと RAID ボリュームのチェックを依頼。

それにしてもディスクが1つしかないマシンで、そのディスクがオフラインになってもちゃんとカーネルが生きているっていうのもおもしろいですね。

21:16 復旧の報告

ひとまずリブートしたら復旧したとのこと。RAID状況に問題なし
サービスの疎通が確認できたとの報告。

ログによると2時間くらい落ちていたようです。

/var/log/cronlog

Jun 28 19:12:01 sailane crond[14118]: (hsur) CMD (LANG=en /usr/bin/fetchmail > /dev/null 2>&1) Jun 28 21:12:38 sailane crond[2435]: (CRON) STARTUP (V5.0)

とりあえずこのまま経過観察をするということになりそうです。4月末にディスクを交換したばかりなのについていませんね。
ついでに、先日モデムを交換したADSLの不調も復活しちゃってるし。。。。


トラックバックについて
Trackback URL:
お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/3628
Trackbacks
このエントリにトラックバックはありません
Comments
愛のあるツッコミをお気軽にどうぞ。[policy]
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
コメントはありません
Comments Form

コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。

OpenID を使ってログインすることができます。

Identity URL: Yahoo! JAPAN IDでログイン