Pandora: Documentation ja: Intro Monitoring

From Pandora FMS Wiki
Jump to: navigation, search

Pandora FMS ドキュメント一覧に戻る

1 モニタリングの概要

1.1 Pandora FMS を使ったモニタリング

Pandora FMS のすべてのユーザ操作は、ウェブコンソールを通して行います。Pandora FMS コンソールは、最新のウェブ標準技術を使っており、拡張ブラウザとオプションでフラッシュを利用します。Firefox 2.x 以上を利用することを推奨します。Internet Explorer 8 以降も使えますが、いくつかの管理画面でおかしな動作をするため、使いにくいです。

一般的に、モニタリングは、プロセスの実行結果を (モジュールを通して) サーバに送信するものであると言えます。サーバはそれらを処理し、フロントエンド (ウェブコンソール) はユーザに結果を表示します。

Pandora FMS はスケーラブルなモニタリングツールです。1台のサーバで、1200〜1500エージェント をモニタリングすることができます。統合管理の仕組み (メタコンソール) を使えば、モニタリングプロセスの数は制限なく増やすことができます。

1.1.1 ソフトウエアエージェントでのモニタリングと、リモートモニタリング

Pandora FMS には、主にソフトウエアエージェントを使った方法とリモートで行う方法の 2つのモニタリング手法があります。

ソフトウエアエージェントを使った場合は、モニタリング対象にいくつかのソフトウエア (モジュール) を入れます。例えば、そのシステムの CPU 使用率の取得などです。それに対してリモートモニタリングは、モジュールを使わずネットワークを通してテストを実施します。例えば、ホストの生き死になどです。

これらの 2つのタイプの主な違いは、ソフトウエアエージェントではモニタリング対象でチェックを実行するするのに対し、リモートモニタリングは、Pandora FMS サーバから対象システムに対してチェックを実施することです。

1.1.2 Pandora FMS のエージェント

Pandora FMS で行われるすべてのモニタリングは、一般的な "エージェント" と呼ばれる対象を通して管理されます。それは、グループと呼ばれるより一般的な単位に分類されます。エージェントは、一つのグループのみ所属できます。 情報は、グループ、エージェント、モジュールグループ、および、モジュールをベースにした論理的な階層構造を通して整理されます。システムにインストールされたソフトウエアエージェントから得られる情報のみを基にしたエージェントや、ソフトウエアエージェントによらないネットワーク情報だけのエージェントがあります。ソフトウエアのインストールは必須ではありません。Pandora FMS ネットワークサーバでネットワークモニタリングタスクを実行することもできます。

AgentHierarchy.png

同様に、ネットワーク情報とソフトウエアエージェントから得た情報の両方を持つエージェントもあります。

モジュールで収集される情報は、コンソールで Pandora FMS エージェントに (論理的に) 割り当てられます。リモートシステムで実行されるプログラムという意味でのソフトウエアエージェントと、(モジュールにより情報収集を行うモニタリング対象という意味での) エージェントの概念は異なることを理解してください。

1.1.3 ステータス/イベントモニタリング

Pandora FMS 3.0 で、これまでと動作が変るような新たな重要な機能が追加されました。Pandora FMS は、ユーザがデータを正常、警告、障害の 3つの状態に分類できるようにしています。

全ての *proc モジュールでは、値が 1 または 1以上だった場合、自動的に正常状態にします。また、1より小さい値 (0 もしくはマイナスの値) であれば、障害状態とします。

しかし、CPU使用率ではどうでしょうか。システムは、正常、障害、警告の値をどのように知ればよいでしょうか。それはデフォルトではわかりません。数値データを取得するだけで、それに関して言及はしません。すべて値としては "正しく"、つまり "正常" 状態です。

エージェント設定には、これまで出てきていない次の 2つのステータスフィールドがあります。

  • 警告状態 (Warning status)
  • 障害状態 (Critical status)

これら 2つのフィールドには、それぞれ最小と最大の 2つの値があります。モジュールが警告状態を示す範囲および、障害状態を示す範囲を設定します。

Critico.jpg

これらのオプションを理解するには、例を見ると良いでしょう。エージェントの CPU モジュールは、0% から 100% までの値をとり、常に正常状態です。そこで、CPU 使用率が 70% に達した場合に警告状態とし、90% に達したら障害状態にしたい場合は、次のように設定します。

  • 警告状態 (Warning status):70
  • 障害状態 (Critical status):90

これにより、値が 90 に達したときに、モジュールは障害状態となり、70 と 89.99 の間では、警告状態になります (70 より下回れば正常状態になります)。

文字列タイプのモジュールの場合は、Str フィールドに正規表現を使うことで警告および障害状態を設定できます。例えば、状態に応じて OKERROR connection failBUSY to much devices といった文字列を返すモジュールがあるとします。

警告や障害状態を設定するには、次の正規表現を設定します。

Warning Status: .*BUSY.*
Crirical Status: .*ERROR.*

正規表現は大文字小文字を区別するということに注意が必要です。 このモジュール設定により、文字列データに BUSY が含まれる場合は警告状態になり、文字列データに ERROR が含まれる場合は障害状態になります。

両方の状態を同じ値に設定した場合は、障害状態が優先されます。 つまり、警告状態になることはありません。障害状態は、警告状態よりも重要であるからです。

それぞれの状態を表すモジュールの例を以下に示します。

Colorin.jpg

ブーリアンデータ (1 か 0) を返すだけのモジュールでは意味がないことは明らかです。

これらの値は、メイン画面のモニタビューに表示されます。いくつのチェック項目が正常、警告、障害状態であるか、簡単に確認することができます。

1.1.4 その他共通モニタリングパラメータ

1.1.4.1 データの保存

Historicaldata.png

Pandora FMS は、どんなデータでも個別に保存することができます。デフォルトでは、すべてのモジュールのデータを保存します (それにより、グラフ表示やレポートの作成等が可能です)。しかし、多くのデータをモニタする必要がある大きなシステムでは、リソースの消費を押さえるために、いくつかのデータは保存しなくてもいいかもしれません。

このオプションにより、保存の必要がないモジュールのデータを保存しないようにできます。保存を無効にしても、アラートの動作、イベントの生成、現在の状態の参照は可能です。

1.1.4.2 連続抑制回数

Fft.png

連続抑制回数 (FF Threshold: FF は FlipFlop を意味します) パラメータは、イベントや状態の連続的な変化をフィルタするために利用します。オリジナルの状態から変化した状態が連続して X 回を超えて続かないと、変化が発生したと Pandora FMS が認識しないようにすることができます。以下に例を見てみましょう。あるホストへの ping でパケットロスがあります。このような場合、次のような結果になります。

1
1
0
1
1
0
1
1
1

しかし、ホストは稼働しています。連続抑制回数を 2に設定し、少なくとも 3回連続でダウン状態にならないと、Pandora にダウンと認識し通知して欲しくないとすると、上記の例はダウンと見なさないパターンに該当します。逆に以下のような場合にダウンと認識します。

1
1
0
1
0
0
0

最後の状態になったときに、ダウンと認識し、それ以前はダウンではありません。

連続抑制回数は、このような不安定な変動を避けるために便利です。すべてのモジュールにおいて実装されており、状態の変化を避けるのに利用します (*proc モジュールの場合は、設定された制限もしくは自動制限により制限されます)。

バージョン 5.1 からは、連続抑制回数には 2つのモードがあります。

  • 全状態変化(All state changing): 正常、警告、障害すべての状態変化に対して、同じ値を利用します。
  • 個別状態変化(Each state changing): 正常、警告、障害への状態変化ごとに異なる値を設定できます。

非同期モジュールでは、タイムアウト(連続抑制タイムアウト)も設定できます。短時間に複数回、警告や障害のデータを受信した場合にのみ障害通知をしたい場合に便利です。 データを受信する間隔がタイムアウト値を超えた場合は、連続抑制回数のカウンタがリセットされます。

Ff timeout.png

たとえば、エージェントから 5分以内に 2回障害データが送られた場合にのみ通知をしたい場合(5分を超える間隔でデータが送られてきても障害通知したくない場合)は、連続抑制回数に 1、連続抑制タイムアウトに 300 を設定します。