Hadoop 2.0がビッグデータへのアクセスを改善

2013年10月17日 18時4分

Apache Hadoopの新しいメジャー・バージョンのリリースによって、アプリケーションは記録データに直接アクセスすることができるようになる。

期待されていたよりも少し長くかかったが、Apacheソフトウェア財団は先日、Apache Hadoop 2.0の一般公開を発表した。これはビッグデータの管理におけるHadoopの役割を、大きく前進させるだろう。

Apache Hadoop 2.2.0(一般に利用可能な初の2.xシリーズ)の最も大きな変更点は、MapReduceフレームワークを、MapReduce 2.0として知られるApache YARNへとアップデートしたことだ。MapReduceはHadoopの大きな機能の１つで、有用な情報を取得するためにHadoop分散ファイルシステム(HDFS)に送られる検索ジョブを準備するバッチプロセッサである。MapReduceの旧バージョンでは、JavaベースのMapReduceツールの制約上、バッチの中で一度にひとつずつしかジョブを実行することができなかった。

利用可能な最新版のMapReduce 2.0では、同時に複数の検索ツールがHDFSストレージシステム内のデータにヒットできるようになる。

新しいYARN/MapReduce 2.0のアーキテクチャー

YARN(MapReduce 2.0)は、MapReduceの機能性をさらに分割するということを行っている。MapReduce JobTrackerコンポーネントの2つの主要な役割（リソース管理とジョブのスケジューリング/モニタリング）を、別々のアプリケーション（グローバルなResourceManagerとアプリケーションごとのApplicationMaster）へと分離しているのだ。

こうした機能分割は、Hadoopクラスタ資源の管理において、現在のMapReduceシステムより強力な方法を提供することとなる。オペレーティング・システムがジョブを扱うのと似た方法で資源を管理できるようになったことは、これまでの「一度に一つずつ」の制限がもはや無くなったことを意味する。

Hadoop 1.0において多くのサードパーティ製ベンダー・ツールが外部からアプリケーションを構築しなくてはならなかったのと違い、MapReduce 2.0では開発者がHadoop内で直接それを構築することが可能となった。これによってHadoop 2.0は、開発者が操作データをはるかに効率的に検索するアプリケーションを作成できるプラットフォームとしての地位を確立することになるだろう。

Hadoop新バージョンの最も大きな変更点はYARNだが、HadoopのHDFS側にもいくつかの注目すべき更新が行われた。HDFSの高い有用性、HDFSスナップショット、HDFS内データにアクセスするためのNFSv3ファイルシステムのサポート、などである。

さらにHadoop 2.2は今回、マイクロソフト・ウィンドウズでも公式にサポートされた。これは間違いなくマイクロソフトのプラットフォームに依存している企業の興味をかき立てるだろう。

各企業にとって、新しいHadoopのバージョンに移行することは間違いなく困難を伴うだろう。しかし、今回のMapReduceフレームワークへの根本的変化は、進歩を続けるビッグデータの世界において、より多くの有用性をHadoopにもたらすに違いない。YARNの新しい機能をフル活用する新しいツール群もすぐに登場するだろうから、期待して待とう。

YARNの画像提供：Hortonworks

Brian Proffitt
[原文]