» ビッグデータのクオリティマネジメント

株式会社データ総研 データ総研のオンサイト教育
製品案内 DMBOK ITコンサルティングサービス ITコンサルティング事例 紹介セミナー 教育コース 技術情報 DRIブログ 会社概要
ビッグデータのクオリティマネジメント

今回のデータマネジメント通信は、次の問いから始まります。

「ビッグデータに関するデータクオリティマネジメントは可能か?あるいは必要か?」

ビッグデータとは、データ量が膨大なデータを指し、構造化データと非構造化データの両方を含みます。
非構造化データは、SNSなどのテキストデータ、あるいはブログ、音声、動画、センサーのデータなどが該当し、次のような特徴を持っています。
・データ量が多い
・次々と新しいデータが発生する
・いろいろな形式のデータがある
・何か意味を取出すためには、構造化する必要がある
・お互いのデータ間で一貫性・整合性が維持される保証がない
・リソース的でなくイベント的(安定したマスタがあるのではなく、出来事の連続)

ここで、従来型の典型的なデータクオリティマネジメントを想定してみましょう。
顧客マスタがあり、そこで管理される氏名、住所、電話番号、契約種別コードなどの従属データが存在します。
住所や契約種別コードに誤りがあった場合、担当部署がその責任を追及され、正しい値に訂正する作業を行います。
これらのデータ項目はさまざまな業務で参照されるため、その品質を高く保つ必要があると認識されます。

一方で、ビッグデータの場合を想定してみましょう。
価格ドットコムなどに書きこまれたデータ(たとえば、○○という機種名のデジタルカメラが△△という店で最安値に近い□□□円だった)のデータクオリティはどのように管理するのでしょう?
たとえば、これらのデータに誤りがあるかどうか、どうすればわかるのでしょうか?
実際にその店まで行って確認すればわかりますが、そのようなことは手間がかかりすぎて現実的ではありません。
通常、書き込まれたデータはそのまま他の人達に伝達され、正しいデータであっても少々誤りが含まれていても、正しいデータであるかのように使われます。
顧客マスタの住所のように、誰かが確認して正しい値に修正するということができないのです。

「ビッグデータに関するデータクオリティマネジメントは可能か?あるいは必要か?」に対する現時点の応えは次のようになります。

ビッグデータの多くは、マスタ的でなくイベント的な性質をもち、データクオリティを確認する手間が膨大で実施しきれません。
従って、現時点では従来型のデータクオリティマネジメントは不可能と思われます。
今後、ビッグデータの利用が普及した段階で、従来型とは異なるデータクオリティマネジメントが出現すると想定しています。
その時に、再度この話題を取り上げたいと思っています。

データ総研 コンサルタント