ケーススタディ

ここでは、何らかの原因でユーザーからレスポンスが遅いという連絡があった場合を想定し、基本的な考え方を見ていきます。

状況確認

レスポンスが遅いなど、サーバーに障害が発生している際にまずチェックするのがtopコマンドの出力結果です。 topコマンドはサーバの稼働状況をリアルタイムに確認することができるコマンドで、コマンド一つで大量の情報を取得することができます。まずは画面の見方を確認していきましょう。

topコマンドの見方

1行目 top

項目	内容
項目名なし(基本情報)	現在時刻稼働時間ログインユーザー数
load average	時間あたりの待機タスク数(1分ごと 5分ごと 15分ごと)

uptimeというコマンドでも同じ内容が表示されます。特に時間あたりの待機タスク数（ロードアベレージ）は重要な指標です。

2行目 Tasks

項目	内容
total	タスク合計
running	稼働中タスク数
sleeping	待機中タスク数
stopped	停止中タスク数
zombie	ゾンビタスク数

Linuxでは基本的にタスクとプロセスはほぼ同じ意味で使われます。

3行目 Cpu

項目	内容
us	ユーザプロセスの使用時間
sy	システムプロセスの使用時間
ni	実行優先度(nice値)を変更したユーザプロセスの使用時間
id	アイドル時間
wa	I/Oの終了待ち時間
hi	ハードウェア割り込み要求での使用時間
si	ソフトウェア割り込み要求での使用時間
st	OSの仮想化を利用している時に、他の仮想CPUの計算で待たされた時間

4行目 Mem

項目	内容
total	メモリーの合計容量
used	使用中容量
free	未使用の容量
buffers	バッファとして利用されている容量

5行目 Swap

項目	内容
total	スワップ領域の合計容量
used	使用中のスワップ領域の容量
free	未使用のスワップ領域の容量
cached	キャッシュされているスワップ領域の容量

スワップ領域とは

使用中のメモリ容量が実メモリの容量を上回った時に使われる、外部記憶装置の記憶領域のことです。実メモリに比べて処理速度が遅いため、全体の処理速度の低下につながります。

6行目以下プロセスについて

項目	内容
PID	プロセスID
USER	実行ユーザ名
PR	静的優先度
NI	相対優先度(NICE値)
VIRT	仮想メモリサイズ
RES	利用しているメモリ容量
SHR	利用している共有メモリ容量
S	プロセスの状態
%CPU	CPU使用率
%MEM	物理メモリ使用率
TIME+	プロセスの実行時間
COMMAND	プロセスで実行されているコマンド

ロードアベレージとは

ロードアベレージとは、単位時間あたりの実行待ちプロセス数です。ロードアベレージの値がCPUのコア数より多い場合、サーバが重くなります。コア数は以下のコマンドで確認可能です。

cat /proc/cpuinfo | grep processor

ロードアベレージが高い場合

ケースA CPU使用率が高い

CPU使用率がほぼ100%になっている場合は、 CPUが原因である可能性が高くなります。

想定される原因

特定のプロセスのCPU使用率が高くなっていることが考えられます。そうでなければ、CPUの処理速度が不足していると考えられます。

対処方法

psコマンドでどのプロセスが原因になっているのかを調査し、プロセスを終了させたり、nice値(プロセス実行スケジューリングの優先順位）を変更したりなどプロセス毎に対応します。また、topコマンドを実行中に「Shift + P」を押すと CPU使用率の高い順にプロセスがソートされます。

ケースB メモリ使用量が多い

スワップが発生している場合は、メモリ使用量が原因である可能性が高くなります。

想定される原因

特定のプロセスが極端にメモリを消費している場合、プログラムの不具合・非効率などの可能性があります。特定のプロセスに集中しているのでなければ、メモリ不足の可能性が高くなります。

対処方法

プログラムに不具合があればその修正をすることになります。メモリ不足ならばメモリの増設か処理の分散を検討することになります。

参考

メモリ不足については、メモリの仕組みを理解していないと誤解してしまう可能性があります。メモリの仕組みについての理解が重要です。 http://www.atmarkit.co.jp/ait/articles/0810/01/news134.html

ケースC ディスクI/Oの終了待ち時間が長い

ディスクI/Oの終了待ち時間が長い場合、 I/O頻度が原因である可能性が高くなります。

想定される原因

アプリケーションの都合上避けられない場合もあるが、プログラムが非効率な可能性もあります。

対処方法

データの分散キャッシュサーバの導入メモリ増設でキャッシュ領域を拡大

ロードアベレージが低い場合

ケースD TCPコネクションが多い

数万のTCPコネクションが貼られている場合、 TCPコネクションが原因である可能性があります。

想定される原因

特定のサーバにTCPコネクションが集中している可能性があります。

対処方法

サーバの増設を行い負荷分散を行う必要性が考えられます。

ケースE 上記のいずれにも当てはまらない場合

他のホストに原因がある可能性が高くなります。

ケーススタディ

ケーススタディ

状況確認

topコマンドの見方

1行目 top

2行目 Tasks

3行目 Cpu

4行目 Mem

5行目 Swap

スワップ領域とは

6行目以下プロセスについて

ロードアベレージとは

ロードアベレージが高い場合

ケースA CPU使用率が高い

想定される原因

対処方法

ケースB メモリ使用量が多い

想定される原因

対処方法

参考

ケースC ディスクI/Oの終了待ち時間が長い

想定される原因

対処方法

ロードアベレージが低い場合

ケースD TCPコネクションが多い

想定される原因

対処方法

ケースE 上記のいずれにも当てはまらない場合

results matching ""

No results matching ""

ケーススタディ

状況確認

topコマンドの見方

1行目 top

2行目 Tasks

3行目 Cpu

4行目 Mem

5行目 Swap

スワップ領域とは

6行目以下 プロセスについて

ロードアベレージとは

ロードアベレージが高い場合

ケースA CPU使用率が高い

想定される原因

対処方法

ケースB メモリ使用量が多い

想定される原因

対処方法

参考

ケースC ディスクI/Oの終了待ち時間が長い

想定される原因

対処方法

ロードアベレージが低い場合

ケースD TCPコネクションが多い

想定される原因

対処方法

ケースE 上記のいずれにも当てはまらない場合

results matching ""

No results matching ""

6行目以下プロセスについて