2012年3月13日(火曜日)
Azure閏年問題の詳細
公開: 2012年3月15日14時0分頃
Windows Azureが閏年バグでダウンした問題、日本語の詳細情報が出ましたね……「2012 年 2 月 29 日に発生した Windows Azure 中断について、Windows Azure ブログにて公開された要約 -- Windows Azure Platform (www.microsoft.com)」
何が起きて何をしたのか、時系列順に詳しく説明されていて良いですね。おおざっぱにまとめると、最初の原因となった部分はこんな感じでしょうか。
- VMからホストOSに対する通信は暗号化されていおり、必要に応じて新規に証明書を作成したりもする
- 2012年2月29日の午前9時頃、VMが新しく作成された
- そのVMが有効期限1年の証明書を作成しようとしたところ、期限終了日として2013年2月29日を設定しようとしてしまい、不正な日付だったため作成に失敗
- 証明書の作成ができなかったため、通信に失敗
- VMからの通信が途絶したため、ハードウェア障害と判断されて、自動的にほかのハードウェアにVMを作り直そうとした
- 新しく作られたVMでも証明書の作成に失敗し…… (以下ループ)
証明書の有効期限のチェックが問題だったのではなくて、新規作成ができなかったということですね。
今後の改善点などもまとめられていて興味深いです。個人的に興味深いのはこの部分。
他の伝達経路 – かなりの数のお客様が、問題発生時にお客様に伝達するために、ブログ、Facebook ページ、Twitter アカウントをより良く使うことを求めています。また、問題発生後に、より迅速に電子メールを介した公式の情報伝達を提供することも求めています。我々は、情報伝達を全体的に改善し、これらの経路を介してより積極的に情報を提供する措置を講じてまいります。また、特定のサービスに関する問題を診断するために、お客様とサポートにより粒度の細かいツールを提供する措置も講じてまいります。
正直なところ、障害が発生しているのにクラウディアさん (twitter.com)が年齢の話しかしていないのはどうかと思いました……。いや、クラウディアさんの担当ではないのかもしれませんが。
- 「Azure閏年問題の詳細」にコメントを書く
- 前(古い): 2012年3月12日(Monday)のえび日記
- 次(新しい): 2012年3月14日(Wednesday)のえび日記