» Hadoop Conference 2014

株式会社データ総研 データ総研のオンサイト教育
製品案内 DMBOK ITコンサルティングサービス ITコンサルティング事例 紹介セミナー 教育コース 技術情報 DRIブログ 会社概要
Hadoop Conference 2014

あまりの忙しさに、7月22日発行予定のデータマネジメント通信を休んでしまいました。毎回の配信を楽しみにしていただいている読者の皆様には申し訳ございませんでした。あまりの暑さに、次もお休みしようかと思うほどですが、大変おもしろいカンファレンスに参加したので、そこで得た情報をお伝えしようと思います。

7月8日、Hadoop Conference 2014に参加しました。主催者発表で1296名の参加登録があり、Hadoop生みの親であるDoug Cutting氏がキーノートスピーチを実施しました。

1) Doug Cutting氏のプレゼン(もちろん聞き取れた範囲です)
 ・世の中の流れとして、ハードウェアはますます安くなり、もっと多くのデータを記憶できるようになる。
 ・データの価値はますます高まる。価値あるプレディクションを得られるようになる。
 ・オープンソースが生き残る。ディベロプメントモデルとして優位だからだ。リスクを回避できるし、誰かにお金を払う必要もない。
 ・Hadoopは、ビッグデータ界を席巻している。
 ・従来のDWHはすべてHadoopへ移行できるだろう。そのうち、トランザクションシステムまでHadoop上で動くようになる。
 ・我々はエンタープライズデータハブ(EDH)を推進している。(ここで言うEDHは、データ総研が言うEDHとは違います。同じ言葉を使っていたので、少々ビックリしました)

さて、Doug Cutting氏は、サイロ問題の解決手段の1つとして、エンタープライズデータハブを提案しています。「Hadoop上ですべてのデータを統合すればサイロ問題は解決する」と言っていました。データ総研はセマンティックな視点も含めて、サイロ問題を解決しようと考えていますが、Doug Cutting氏からはそういった発言はありませんでした。

ビッグデータとりわけ非構造化データに関して、以前から持っていた私の見解は、「非構造化データをそのまま扱うのでは、意味あるデータを取り出し、企業が従来から持っているデータと統合することは難しい」というものです。私が今回のカンファレンスに参加した最大の理由は、「Hadoopの世界でどの程度メタデータを扱えるようになったか」を知るためです。その意味では、目的を達成できたと思っています。

今回のカンファレンスでは18セッションあるなかで、8つのセッションでSQLについて言及されています。

たとえば、Cloudera Impalaは、Hadoop上で使えるSQLエンジンです。これを使えば、SQLのDDLが使えるのでメタデータを定義することができます。

Spark SQLはODBC、JDBCのインタフェースを持ち、型付きスキーマをサポートできます。

HBASEもRDBに似た感じでデータ項目を定義することができます。ただし、JOINなどはできないので、物理DB設計の際には非正規化が必要になります。RDBMSとの違いは、HBASE自身がメタデータ情報を持っていないことです。この違いは大きいです。

データベースの詳しい話は、別な機会に譲ることにして、今回のカンファレンスでは、集まっている人達の人種の違い(少し、大げさな言い方をすれば文化圏の違い)を感じたので、その点についても触れておきたいと思います。

違いその1 英語のスピーチ当たり前
Doug Cutting氏のプレゼンが始まる際に、「すみませんが通訳は頼んでいませんのでプレゼンは英語のまま聞いて ください。ゆっくり話してくれるので大丈夫です」と一言あっただけで、当たり前のように英語のプレゼンが始まりました。私は、少々驚きました。我々が企画するカンファレンスでは必ず通訳を必要とするからです。英語でコミュニケーションすることが当たり前の人達が集まっているから通訳なしでプレゼンできるのでしょう。

違いその2 ソースコードで機能確認
あるセッションでHadoopや周辺のエコシステムに関係する機能を説明する際、ソースコードを映しながら説明していました。おそらく、オープンソースをリバイズしていく人達にとっては当たり前なのでしょうが、私はついていけませんでした。本物のプログラマー集団が、このカンファレンスには参加していると感じました。

まとめ
今回のカンファレンスでは、世界の最先端でオープンソースを発展させている人たちの熱気を感じることができました。また、英語の壁を乗り越えて新しいことにチャレンジする頼もしい若者が沢山いることにも感激しました。今後、ビッグ&スモールの統合メタデータ環境が充実してくると思われますが最先端のメタデータ管理ノウハウを提供できるように、私も頑張りたいと触発されたのでした。

データ総研 コンサルタント