12/04/2018

インターネットがダウンした時: 大規模なエッジ障害を追跡

RIPE Labsより

Philipp Richter — 30 Nov 2018

エンド・ユーザーだけでなく、サービス・レベル・アグリーメント(SLA)を満たす必要があるサービス・プロバイダーにとっても、インターネットの中断のない利用可能性はますます重要になってきている。しかし、意図しないファイバーカット、自然災害、サイバー攻撃、政治的な理由による政府の意図的なインターネット停止など、エンドユーザーの接続性に影響を及ぼす停止は広範囲に及んでいる。

大規模な停止は検出が比較的容易で、様々なニュースサイトやソーシャルメディアで頻繁に報告されるま。検出が困難なのは、ローカル、小規模、より分散した停止(小さな地域に影響する電源障害によって引き起こされるようなものなど)である。しかし、本研究で示されているように、様々な場所で毎日何千もの停止が発生している。

これらの停止は、インターネットのコントロール・プレーン(ネットワーク間で交換されるルーティング情報)を調べるても、通常は見えない。従って、これらの潜在的に小さな事象を検出することは、干草の中で針を見つけることに似ている。

私たちの新しい論文「Advancing the Art of Internet Edge Outage Detection (IMC 2018)」では、MITの私の同僚、メリーランド大学、アカマイと私は、主要なコンテンツ配信のアクセスログを活用し、エンドユーザのアクセスパターンの異常を追跡する事で、インターネットのエッジの停止を受動的に検出する新しいアプローチを提示した。

決して眠らないインターネット: ベースラインの活動

今回の研究では、毎日世界中のユーザーから数十億件のリクエストを受けている、世界130カ国、1,700のネットワークに20万台以上のサーバを搭載した大規模なCDNから収集したログを分析した。

Tracking edge outage fig1

図1: 調査のために収集されたログには、時間毎の個々のIPv4の/24アドレスブロックからのCDNへの要求数が含まれている

面白いことに、多くのアドレスブロックについて、私たちは24時間365日の活動を1時間ごとにCDNへの要求を見た。下の図はこの例を示している。今月中は、/24プレフィックスのアクティブなIPv4アドレスが1時間に130個以下になることは無かった。

Tracking edge outage fig2

図2: 1か月間のサンプル/24アドレスブロックの時間別アクティブIPv4アドレスの数を示すグラフ。ここでアクティブなIPv4アドレスは、その時間に少なくとも1回はCDNにコンタクトしたことを意味する

リクエストの一部を調べると、ユーザーきっかけの膨大なコンテンツ要求(例えば、Webコンテンツやビデオコンテンツなど)以外にも、人が起因としていないリクエストが相当数あったことが分かった。

当初は驚いたが、スマートフォンやスマートテレビのアプリやウィジェットが定期的に情報(天気、株式市場、カレンダー)を更新し、様々なソフトウェアのインストールが頻繁な更新要求を出していることは、家庭内の常時接続デバイスの増加によって説明できる。従って、WiFiに接続されたいくつかのデバイスを使用すると、CDNログに安定したリクエストパターンが発生する。これを観測ベースライン活動と呼ぶ。

中断の検出

ベースライン活動は、停止検出に理想的な信号である。その理由は、(i) 人間が引き起こす活動にはほとんど依存しないが、(ii) 機能するネットワークに依存する。

次に、アドレスブロックのデバイスからの一定のCDNコンタクトが一時的に存在しないか、または大幅に減少した場合のベースライン活動の中断を1時間ごとに検出する手法を開発した。私たちは少なくとも1時間続く中断を検出できる。

スライディング・ウィンドウを使用して、各ブロックおよび時間のベースライン値を計算し、このアクティビティから重大な中断(減少)を検出した。この手法により、世界中の12.5Kを超えるネットワークで数百万のアドレスブロックを追跡できる。

Tracking edge outage fig3

図3: スライディング・ウィンドウを使用して、12,000を超えるネットワークに渡って、アクティビティの重大な中断(または減少)を検出した

私たちは、検出技術、キャリブレーション、クロスバリデーション、グローバルカバレッジの詳細については、私たちの論文を参照して頂きたい。

中断のグローバルな視点

私たちは、1年にわたるCDNログ(図4)を使って、いくつかの興味深い観測を行うことができる中断検出メカニズムを実行した。

Tracking edge outage fig4

図4: 2017年3月から2018年3月まで毎時12000件以上のネットワークからの/24アドレスブロックの一部または全部が中断

マイクロ中断

グローバルには、常に中断とエッジの停止がある。監視されているアドレス空間の約0.2%が任意の時間に中断される。これらの混乱の多くは規模が小さく、特定のISPまたは地域のエンドユーザーに影響を与える。ファイバ切断や停電から個々のISPネットワークの障害に至るまで、様々な要因によって発生する可能性がある。

主な外部事象

2017年9月のハリケーン・イルマなどの主要な外部事象は、多くの場合、複数のプロバイダで大規模なインターネット停止を引き起こす。そのような事象とそのデータセットでの表現は、自然災害に直面したインターネットアクセスの信頼性と回復力を評価することを可能にする。しかし、自然災害による停止は、私たちが発見した氷山の一角に過ぎない。個々のネットワークでの大規模な停止も観測された。これは、誤った設定、サービス拒否攻撃、または政治的な理由による意図的なインターネット停止の結果である可能性がある。

定期メンテナンス

もう1つの面白いパターンは、クリスマスと大晦日の間の週を除き、検出された中断の中で毎週繰り返される「急増」だった。

私たちは、物理的な場所とローカルの中断時間を調べ、真夜中直後の火曜日、水曜日、木曜日に中断が起きる可能性が高いことを発見した。これらの時間は、主要ISPの定期メンテナンス間隔と正確に一致する。

私たちは、多くのISPにとって、全ての中断の大半は、公にされたメンテナンス間隔内に開始し、終了することが分かった。これは、実際の理由でインターネットのエッジ停止を突き止める際に重要な見解である。計画されたメンテナンス中のサービス停止は、自然災害などの計画外の事象によって引き起こされた停止と比較して、SLAおよび規制報告に関して異なる意味を持つ可能性がある。

特定された中断のネットワークとタイミングの側面に関するより詳細な調査については、私たちの論文を参照して頂きたい。

自然災害よりも中断の原因となる可能性が高い定期メンテナンス

ハリケーン・イルマという一つの自然災害だけでなく、予定された保守が、検出された中断の総数に及ぼす現象を説明するために、米国のブロードバンド・インターネットを提供する7大ISPを選択した。これらのISPに属する全ての/24のアドレスブロックのうち、ハリケーン・イルマの間または予定されたされたメンテナンス期間中(月曜から金曜、深夜から06:00まで)にどのくらい中断があったかを知りたいと考えた。

ISP A(Cable) ISP B(Cable) ISP C(Cable) ISP D(DSL) ISP E(DSL) ISP F(DSL) ISP G(DSL)
% /24s only disrupted maintenance window 67% 54% 75% 29% 60% 71% 62%
% /24s only disrupted during Hurricane Irma 11% 1% 2% 23% 1% 0% 3%

表1 — メインテナンス期間(月曜日から金曜日の深夜0時〜現地時間06:00)またはハリケーン・イルマの週(2017年9月9〜15日)に、米国でブロードバンド・インターネットを提供する7つのISPの中で中断を検出したアドレスブロックの分布。

1つを除いて、ISPの中で最も中断したアドレスブロック(最大75%!)は、スケジュールされたメンテナンス・ウィンドウの間だけ影響を受けた。この見解は、停止の根本的な原因とSLAとポリシー策定への最終的な影響を特定する際に重要な成果をもたらす。

更に、2つのISPはハリケーン・イルマの影響を強く受けた。ISP Aを見ると、中断事象のタイミングを利用するだけで、全ての中断されたアドレスブロックのほぼ80%を説明することができる!

将来を考える

私たちの検出メカニズムを利用して、外的事象(停電、天気、災害、検閲)とどの程度関係しているのか、またどの程度影響を受けているのか、それらの回復時間はなど、障害やインターネットの停止の原因を更に探るつもりだ。乞うご期待!