ITサービスマネジメントのフレームワークであり、参照モデルやテンプレートとして活用されるITIL(Information Technology Infrastructure Library)。
そこで定義されるプロセスの中でも、システム運用の現場で日常的に出てくるもののひとつに「インシデント管理」があります。
インシデント管理を正しく理解し、適切な運用を行うことは、トラブルの早期解決を実現し、再発防止にもつながります。
本記事では、インシデント管理の基本知識とともに、管理における主な問題点や解決策を解説します。「インシデントが多発している」「インシデントの対応が遅い」「インシデントの管理ができていない」などにお悩みの方はぜひ参考にしてください。
インシデント管理の概要解説
インシデントは、医療業界、航空業界、鉄道業界など様々な分野で用いられ、業界によってその定義は異なります。
本項では、IT業界におけるインシデントとインシデント管理について解説します。
そもそもインシデントとは?
インシデント(incident)とは、「出来事」「事件」といった意味を持つ英単語です。
情報セキュリティでは、マルウェアの感染や情報漏えい、フィッシング、不正アクセスといったセキュリティ上の脅威となる事象を指し、ITサービスマネジメントとしては、システムのフリーズや不具合といったシステムが正常に稼働できなくなる事象を指します。
似た言葉に「アクシデント」がありますが、実際に事件や事故が起きて被害が生じた状況のことをアクシデントといい、事件や事故が起きる手前の状況のことをインシデントといいます。
また、「ヒヤリハット」とも呼ばれることがありますが、厳密には意味が異なります。ヒヤリハットは、その言葉通りヒヤリとしたりハッと気づいたりして、事件や事故を回避した体験のことをいいます。ヒヤリハットがないインシデントは気づかれにくく、重大事故につながる可能性があるため注意が必要です。
インシデント管理とは?
インシデント管理とは、何らかの理由でインシデントが発生した場合に、発生把握から収束まで進捗状況を管理することをいいます。
例えば、ユーザーから「突然システムにログインできなくなった」といった報告を受けたら、組織のIT部門はその内容に合わせて適切に対処し、元の状態に復旧するまで対応することを指します。
インシデント発生時に、迅速に対応し、ビジネスへの悪影響を最小限に抑えるためにインシデント管理は必要となるのです。
また、似た意味の言葉に「問題管理」がありますが、インシデント管理は、迅速なシステム復旧を目的とし、一時的な回避策として目の前のインシデントを取り除く応急処置であることに対して、問題管理は根本的な原因を発見して改善・解消することを意味します。
インシデント管理と問題管理の違いについては、以下の記事で詳しく解説しています。
▼インシデント管理と問題管理の違いとは? 管理の目的や課題について解説
インシデント管理の6ステップ
インシデント管理には、主な流れとして6つのステップがあります。それぞれ詳しくみていきます。
1.インシデントの受付
まず、ユーザーからの連絡やシステムのアラート・通知によってインシデントの発生が確認されます。
インシデント管理としては、どのようなことが起きたのか正確に記録するところからスタートします。インシデントが発生したユーザーの名前、部署、発生日時、発生場所などの基本事項をまとめ、今後のための履歴として残します。
2.インシデントの分類
発生したインシデントの内容について分類します。
過去に似た事例がないかデータベースや履歴から確認したり、発生場所や内容、影響範囲に応じてインシデントを分類したりします。
3.優先順位の設定
インシデントを分類した上で、緊急度、重要度、難易度を基に優先順位を識別します。
「ネットワークにつながらない」「パスワードを再発行してほしい」といった要求など、どちらの影響範囲が大きく、解決を優先させるべきか、インシデントの状況をよく理解した上で、ユーザーに回答することが重要です。
4.担当者の割り当て
分類されたインシデントに対して、対応方法や対応手段、解決までにかかる時間、工数などを踏まえて担当する者に割り当てます。
インシデントの難易度から、担当者だけでは対応できないと判断した場合、より専門的な部署の担当者や上司にエスカレーションして問題を処理します。
5.インシデントの解決
過去の事例やナレッジを参照して対応策を検討し、実行します。インシデント管理では根本的な解決ではなく、取り急ぎ業務やサービスが滞らないよう、速やかに復旧させるための応急処置を行うことが重要です。
6.インシデントのクローズ
インシデントが解消し、業務やサービスが復旧したら、顧客や関係者に速やかに報告します。
経過観察が必要な場合はそのまま管理を継続し、大きな変更を伴う根本的解決が必要な場合は「問題管理」に引き継ぐ必要があるでしょう。これまでの経緯や対応内容をナレッジとして記録したらクローズとなります。
なぜインシデント管理は必要?
インシデントを管理する必要性は、以下の2点です。
- 復旧に向けて速やかな解決を行うため
- 再発防止のため
それぞれ詳しく解説していきます。
1.復旧に向けて速やかな解決を行うため
インシデントが発生し、システムやサービスが停止してしまった場合、業務が滞ってしまうため、即時解決が求められます。
過去の事例やナレッジをいつでも簡単に記録・共有できる状態にしておけば、問題解決に素早く対応することができます。そのため、解決するまでのプロセスやワークフロー、部署間での連携手順をしっかりと定めることが大切です。
また、インシデントの分析や分類を行うことで状況の整理も可能です。迅速に解決しようと焦ってしまい、分析や分類が不十分のまま進めてしまうと、その後の対応を間違えてしまう恐れもあるため注意が必要です。
インシデント管理は、担当者の負担を軽減し、速やかな解決を行うために必要な作業といえるでしょう。
2.再発防止のため
インシデントは、システムを運用する以上、度々起こり得ることであり、完全に防ぐのは不可能に近いです。
しかし、インシデント管理を行うことで、同じインデントを引き起こさないよう防止できます。
そもそも一度起きたインシデントは発生リスクが高いものと考えられ、二度三度繰り返されることが予測できます。インシデントの発生から復旧までを台帳などに記録し、発生原因を特定し対策することで、再発防止につながります。
インシデント管理の主な問題点
インシデント管理は、システム上の問題やトラブルを解決するために必要ですが、この「インシデント管理」自体にも問題があるといわれています。
ここでは、インシデント管理をする上でよくある課題を解説します。
1.同様のインシデントが繰り返し発生する
先述の通り、インシデント管理は再発防止を目的として行うものですが、管理が不十分だと同様の事象が繰り返し発生してしまいます。
これらは、記録に漏れや抜けがあったり、詳細な共有を怠ったり、さらには問題管理に引き継がず、根本的原因を追究・調査しなかったりすることが原因と考えられます。
インシデントの発生は業務効率や生産性の低下を招きかねないため、繰り返さないことが大切です。
記録のルールが徹底されているか、管理フローが曖昧になっていないか見直す必要があるでしょう。
2.情報共有、ナレッジ共有ができていない
インシデント管理は、問題を解決するだけでなく、適切に記録しチーム内で共有しないと意味がありません。ナレッジを共有し、過去事例を参照することで、影響範囲や対応にかける作業時間が担当者同士でイメージしやすくなり、問題解決へのスピードも速まります。
また、インシデントの記録は進捗管理でもあり、担当者が途中で交代してもスムーズに状況を把握できる役割もあります。しかし、チーム内でどのように対応したのか記録されず、共有されないままだと属人化につながり、解決までに無駄な時間をかけてしまいます。
関連の記事をご用意しております。ぜひご覧ください。
▼運用設計とは? システムの安定稼働における重要性や行うべきタイミングを解説
3.社内体制が整っていない
インシデント管理は、ユーザーからの問い合わせ全般に対応するサービスデスクの担当であることが一般的ですが、企業によっては人手不足から他業務と兼務しながらインシデント対応している場合も少なくありません。また、システム全般に詳しい専門知識を持った人材が必要になるため、社内に対応できる人が限られているといったケースもあるようです。
さらには、先述の6段階ステップのような問題受付から解決までの運用フローが確立されておらず、ルールやマニュアルが整備されていないなど社内体制が整っていない場合もあります。インシデント対応をその場しのぎで行うことは、同じインデント発生を繰り返し、解決を遅らせる原因にもなります。
インシデント管理のポイント
ここでは理想的なインシデント管理を行うためのポイントを解説します。
1.運用体制を整備する
前述の問題点の通り、インシデント管理はインシデントの発生から問題解決までの運用体制をきちんと整えることが重要です。
専門部署がなく、専門的知識を持った人材が限られていたとしても、運用フローや管理システムを明確にしておけば、ノウハウやナレッジが蓄積していき、徐々に担当者のスキルも向上していくでしょう。
まずは、「インシデント管理」と「問題管理」の役割や担当部署を明確にし、インシデントの情報を記録するフォーマットを用意します。一次対応する範囲やエスカレーション先なども整理し、突発的に起こるインシデントに対して、いざという時スムーズに対応できるような体制を整えておきましょう。
関連の記事をご用意しております。ぜひご覧ください。
▼システム運用と保守の違いを解説! 具体的な業務内容は?
2.管理ツールを利用する
インシデント管理をする場合、普段から使い慣れていて更新のしやすいExcel(エクセル)上で行われている場合が多く見受けられます。
しかし、Excelでの管理は表のフォーマットがバラバラで集約に時間がかかり、最新の情報が分かりにくいなどのデメリットがあります。業務を効率化するには、管理ツールの利用をおすすめします。
管理ツールは、一度入力するだけで一元管理できたり、閲覧権限のあるメンバーへスムーズに情報共有したり、蓄積されたデータを可視化したりとインシデント管理を迅速に行えるような機能を備えています。
管理ツールは担当者の入力負担を減らすことにもつながり、スピード感を求められるインシデント管理に最適ですが、市場にはインシデント管理用の多くのツールが提供されています。価格だけで判断せず、自社の運用に合った機能を備えているツールを選定することが大切です。
関連の記事をご用意しております。ぜひご覧ください。
▼サーバー監視ツールとは? 導入メリットや比較ポイントを徹底解説
3.アウトソーシングを利用する
社内での運用に限界を感じている場合は、アウトソーシングすることを検討してみてはいかがでしょうか。
問い合わせ対応から障害一次対応、各部署へのエスカレーション、レポート報告など、外部の専門会社に任せることで効率的な運用体制を確立できます。
経験豊富なITのプロが対応するため解決時間の短縮にもなり、顧客や従業員満足度の向上、そして業務の効率化向上にもつながるでしょう。ナレッジが社内に蓄積していかないという懸念もありますが、その場合は、事前のヒアリングで自社の要望をきちんと伝え、定期的にノウハウやナレッジの共有会を行うことをおすすめします。
関連の記事をご用意しております。ぜひご覧ください。
▼ITアウトソーシングのメリット・デメリット、導入ポイントを解説
インシデント管理は適切に実施
インシデント管理は、インシデントが発生した際に、状況把握から収束まで管理することをいい、速やかな解決と再発防止を目的としています。スムーズな対応を行うためには、最適な問題解決までのプロセスと社内体制を整えることが大切ですが、企業の多くは運用に課題を抱えています。
テクバンでは、24時間365日リモート監視する「システム運用マネジメント」をはじめ、情シス部門をサポートするサービスを提供しています。
例えば、社内のITヘルプデスクを担い、IT関連のお問い合わせに対応する「Techvan Support Center」、PCのライフサイクルを一元管理する「LCM(Life Cycle Management)サービス」、IT資産管理ツールの導入・運用サポートを行う「IT資産管理ソリューションサービス」などがあります。これらを組み合わせ、お客様の課題に合わせたインシデント管理運用をご提案いたしますのでお気軽にご相談ください。
情報システム部門業務支援サービス
テクバンの運用保守・監視・障害支援に関するアウトソーシングサービスの導入事例について、無料でダウンロードできます。ぜひご参考ください。
【事例】もうアウトソースで悩まない。インフラ運用保守を上手に委託する方法