高信頼性システムの目安としての99.9...%の意味するところ ― 2009/11/28 19:08
昔から、コンピュータ、ネットワークシステムについて高可用性の宣伝指標で謳われている、99.9...%というものの意味について。
この業界で言うところのこの数値は、要するに、1年間(24h365.25day)の稼働(時間)率をSLAという形で約束しているところに由来するようだ。だから、確率の話であるはずの信頼性とは異なるものであり、単なる割合の話である。だから、業界用語でも普通は高可用性(HA)と言っている。
それぞれの稼働率の期待するダウンタイムを計算してみると、こうなる。
99.9% 約9時間(8.766時間)
99.99% 約1時間(52.596分)
99.999% 約5分(5.2596分)
ここでのポイントは、この稼働時間率は1年間の平均値ということであり、障害の回数については評価の対象となっていない。そういう意味では、MTBF(平均故障間隔)、MTTR(平均復旧時間)の2点のほうがよほど厳しい指標であり、可用性についても、MTBFとMTTRをベースに計算されるべきものである。
可用性 =(MTBF / (MTBF + MTTR)) X 100
ただ、大量に製造する個々の部品はともかく、そもそも事例自体が数えるほどであり、また複雑なシステムの場合には、MTBFとMTTRを保証するのは非常に難しいだろう。だから、稼働率という、何となくキャッチフレーズとしても有効な99.9...%という数値が遊離して使用されているのだと思う。
この業界で言うところのこの数値は、要するに、1年間(24h365.25day)の稼働(時間)率をSLAという形で約束しているところに由来するようだ。だから、確率の話であるはずの信頼性とは異なるものであり、単なる割合の話である。だから、業界用語でも普通は高可用性(HA)と言っている。
それぞれの稼働率の期待するダウンタイムを計算してみると、こうなる。
99.9% 約9時間(8.766時間)
99.99% 約1時間(52.596分)
99.999% 約5分(5.2596分)
ここでのポイントは、この稼働時間率は1年間の平均値ということであり、障害の回数については評価の対象となっていない。そういう意味では、MTBF(平均故障間隔)、MTTR(平均復旧時間)の2点のほうがよほど厳しい指標であり、可用性についても、MTBFとMTTRをベースに計算されるべきものである。
可用性 =(MTBF / (MTBF + MTTR)) X 100
ただ、大量に製造する個々の部品はともかく、そもそも事例自体が数えるほどであり、また複雑なシステムの場合には、MTBFとMTTRを保証するのは非常に難しいだろう。だから、稼働率という、何となくキャッチフレーズとしても有効な99.9...%という数値が遊離して使用されているのだと思う。
この業界の常識としては、99%に満たないものは非商用のシステムで、99.5%以上が商用システムということらしい。そして、99.99%以上を、いわゆるミッションクリティカルと呼ぶようだ。99.99%(フォーナイン)の時点でシステムの復旧にかけられる時間は分単位となり、99.999%(ファイブナイン)の意味するところは、もはや手動での復旧作業が必要となるダウンをしないシステム、ということになる。
http://msdn.microsoft.com/ja-jp/library/aa291543%28VS.71%29.aspx
伝統的な情報通信産業でのシステムはこの99.999%をウリとして、メインフレームなどを高値で売ってきたわけだ。最近はGoogle Appsなどのクラウドシステムが成長してきているが、Googleはこれの月間の稼働率を2010年までに、99.99%を目指すらしい。