事象→事故→アクション会議2010/08/16 00:14

最近、、事故だかとか、事象だとか、アクション会議にふれ合う機会が多いため、それぞれについて改めて考えてみた。


「事象(インシデント)」
システムを構成する要素において何らかのバグ、障害、その他人為ミスが発生した状態。
サービスに実害は出ていない(その時点では確認出来てない状況を含む)ところまでが事象の境界で、一旦外部に実害が出てしまうとそれは、事故に昇格する。


「事故(アクシデント)」
前段階として事象として認識されている事もあるし、突然発生することもあるが、実際にユーザに不利益、迷惑をかけるような障害を発生させてしまっている状況全体を指して事故と呼ぶことが多い。大抵は発生してしまった事態(事象)を分析する過程で、これは事故だな、と判定される。


「アクション会議」
事故内容については、ステークホールダー間において速やかに情報展開、共有が行われるが、それらを踏まえた上で当事者が集合して、これまでのアクションを評価し、次のアクションプランを検討する。だいたい日中に事故が発生したら、その日の夕方。夕方~深夜に発生したのであれば、翌朝一で開催される。会議の場においては次の2点が追求される結構厳しい会。

・事故対応の状況(概要影響範囲、顧客対応状況、現在のリカバリーの状況、原因の調査)
・再発防止策の検討(プログラムのバグなのか、設計上の考慮漏れなのか、運用上の人為ミスなのか、あるいはそれ以外なのか)


アクション会議は必ずしも一カ所で行われているわけではなく、大きな組織では、その結果を踏まえて別の上位レイヤーでのアクション会議へと、エスカレーションが行われる。




Google
WWW を検索 zak.asablo.jp を検索