» ビッグデータのクオリティは求めすぎない

株式会社データ総研 データ総研のオンサイト教育
製品案内 DMBOK ITコンサルティングサービス ITコンサルティング事例 紹介セミナー 教育コース 技術情報 DRIブログ 会社概要
ビッグデータのクオリティは求めすぎない

「ビッグデータ」という言葉が流行し始めてから5年ほど経ったでしょうか。当時は、情報活用を通じて企業の競争優位性を高めるデータサイエンティストが脚光を浴びました。その一部の人が、ビッグデータ活用の事例を発表したことにより、多くの企業がビジネス変革への期待を膨らませました。ただ、実際は「何か新しいことができるかも」が大半を占めていたと思われます。

うってかわって近年は、業界や業種を問わず、ビッグデータの活用事例が続々と公開されています。インターネットで検索をすれば、広告記事を含めて、結構な数の事例にありつけます。この5年の間に、有能なデータサイエンティストが増えたかどうかは分かりません。ただ少なくとも、ビッグデータを活用するためのインフラが発展し続けており、スキルやナレッジがアップデートされていることは間違いないでしょう。(本質的には「活用事例=競争優位の源泉」ですので、それを公開するなんてとんでもないわけです。共益性が高いか、まあその程度の代物かもしれません。)

一方で、ほとんど公開されていないのが、ビッグデータのクオリティ管理の情報です。その理由を推測してみます。
1.ビッグデータの活用においては、データクオリティ管理は重要ではない。
2.何らかの理由により、意図的に公開していない。
3.管理できていないので、公開のしようがない。

まず1.についてです。
ビッグデータ活用の課題で最近よく耳にするのは、個人情報取扱・人材確保・処理速度などです。ビッグデータそのものの”質”に関する課題はあまり語られていませんが、誤ったデータを活用した場合、結果も誤りになるのが自然です。普通に考えれば「データクオリティ管理は重要ではない」とは言えません。ただ、活用する側は、質の低いデータが一定量含まれることは織り込み済でしょうし、あながち間違いだと言えない気もします。

続いて2.についてです。
これはあり得ますが、可能性は低いと想定します。具体的な方法は開示されずとも、こういったノウハウは、ベストプラクティスとして紹介されることがほとんどです。

となると、最後の3.が正しい理由に最も近そうです。
現時点では、ビッグデータ、とりわけ非構造化データに対するデータクオリティ管理はかなり難しい、あるいは実現不可能なのかもしれません。例えば、SNSの書き込みです。その内容の真贋はどうしたら確認できるでしょうか。現状においては、書き込み内容の現場を訪れて裏を取るくらいのことしかできません。もし、地球上のあらゆる場所にカメラやセンサーが取付けられ、そこから発信されるデータと書き込み内容をAIを使って照合できれば確認が取れるかもしれませんね。それくらい非現実的なことではないでしょうか。

ちなみに、SNS上の情報の真贋の見極めがいかに難しいかは、世界的なSNSの代表格であるフェイスブック社も「困難な問題」の1つとして提起しています。20億人近いユーザーを持つ同社は、自らのプラットフォーム上の投稿内容の影響力とそこで問われる社会的責任を真摯に受け止めており、この問題の議論の場を広げるために今年6月15日に提起したそうです。(※詳しくは同社の「Facebookニュースルーム」をご参照ください。)

本稿をまとめるとしましょう。
ビッグデータのクオリティ管理は、重要だが非常に難しいことなので、低品質データは必ず紛れると割り切ってクオリティを求めすぎないことが肝要だと思います。まだまだ”これから”の分野だと言えるので、引き続き注目していきます。

データ総研 コンサルタント