3/27/2017

Apache Hadoopは我々を失望させている

Slashdotより

これは広く採用された最初のオープンソースの分散コンピューティング・プラットフォームである。しかし、あなたがMapReduceあるいはPigでプログラムする方法を知るデータ科学者なら、ただしスタックが上がるにつれ、抽象レイヤはビジネスアナリストがデータを理解することを可能にする約束を果たすことにHadoopはほとんど失敗している、と運用している一部の専門家がDatanamiに語っている。Slashdot読者atcclearsはレポートを共有する:

私はハッピーなHadoopの利用者を見つけられない。それは同じくらいシンプルなものである。」クラウドベースのリレーショナル・データ・ウェアハウス製品を開発・実行しているSnowflake ComputingのCEO、Bob Mugliaが述べている。「技術的には、今後構築される技術基盤にならないことは、私には明白である。」... S3 (ストレージ用)やSpark(処理用)などの優れたネズミ捕りのおかげで、Hadoopは将来的にニッチな状態に格下げされるだろう、Mugliaは言う。「実際に管理されたHadoopで成功した利用者数はおそらく20未満だろう、もしかして10未満かも知れない...。」

おそらくHadoopをうまく管理している企業の一つがFacebookである。しかし、行動分析企業のInteranaを創業する前にFacebookのHadoopクラスタの運営を手助けしていたBobby Johnsonによれば、Hadoopが未だにあるという事実が歴史的な問題である。その問題は少し強いかも知れない。」Johnsonは言う。「しかし、皆が長い間にやって見ようとしてきたことは沢山あるが、あまり適していない。」Hadoopの強みは、安価なストレージリポジトリとしての役割と、ETLバッチ作業負荷の処理にある、Johnsonは言う。しかし、インタラクティブでユーザフレンドリーなアプリケーションを実行するには適していない...「何年もの間、Facebookでそれに衝突してきたが、決して素晴らしいものではなかった。」彼は言う。「掘り下げて、本当の答えを得るのは本当に難しい... どのようにこの物が欲しいものを得るのかを理解しなければならない。」

Johnsonは、「データのパイプがあり、何か役に立つたいことがあれば、それを利用することができる。それはより良く一体化する支配者のように感じる...」と主張し、大規模なデータアプリケーションには代わりにApache Kafkaを推奨している。そして、以前LinkedInでHadoopクラスタを運用していたKafkaの作者は、Hadoopを"まさに構築するには非常に複雑なスタック"と呼んでいる。