» 人工知能にとっての「データ品質」を考えてみる

株式会社データ総研 データ総研のオンサイト教育
製品案内 DMBOK ITコンサルティングサービス ITコンサルティング事例 紹介セミナー 教育コース 技術情報 DRIブログ 会社概要
人工知能にとっての「データ品質」を考えてみる

経営の意思決定や業務革新のために、様々な形でデータ活用が盛んに行われています。
そして、データ活用が広がると共にデータ品質への関心が高まっています。
データマネジメントのバイブルである『DAMA-DMBOK』にも10の機能の1つ
として「データクオリティ管理」があり、高品質なデータを維持管理していくための
取り組みについて記されています。

現在、データ活用の分野ではデータサイエンティストなる職種が注目を集めています。
膨大なデータをもとに統計学等を駆使し“価値ある情報”を導き出す人達です。
そのデータサイエンティストにとって「データ品質」は非常に重要な要素の1つです。
コンピュータの世界でとても有名な用語である“garbage in, garbage out”のように
どんなに素晴らしいロジックを組み立てても、基となるデータが誤っていれば、
必然的に得られるデータは誤っており使い物にならないからです。
ただ、役割としてデータサイエンティストは「データ品質」を管理するわけではなく、
「品質を管理されたデータ」を利活用することになります。

データサイエンティストが注目を集める一方、昨今特に熱気を帯びていると感じるのが
人工知能(AI)です。“3つのV”で形容されるビッグデータを大いに活用するには
もはや人間には難しいのかもしれません。
いま一番有名な人工知能といえば、IBMの「ワトソン」だと思われます。
料理の世界に適用された「シェフワトソン」のニュースを記憶している方も多いでしょう。
ソフトバンクが手がける「Pepper」との共同展開も発表されていますね。

さて、人工知能にとっての「データ品質」とは何なのでしょうか?
一世代前までの人工知能は、膨大なインプットデータに基づいて「判断」したように
みせるものでした。要するに「品質を管理されたデータ」を利活用するのです。
一方、現在の人工知能はデータからそのデータの特徴をコンピュータ自らが見つけ出し、
それを用いて判断をするそうです。基となるデータには低品質データも当然含まれる
ことになりますが、人工知能はどう判断するのでしょうか?

筆者は人工知能については門外漢なので、推測でしかないのですが、現時点では
「データ品質」を判断することはできないと考えます。あくまでもコンピュータにとって
データは文字列や記号でしかなく、その意味まではつかめないからです。
少し前にグーグルの人工知能が猫の画像を識別した、というニュースがありましたが、
コンピュータ自らが見つけ出した特徴こそが「データ品質」と言えるかもしれません。
また、人工知能に意味を与えるという観点では「メタデータ」が重要になると考えます。
特にビジネスに人工知能を活用する局面では必須ではないでしょうか。
人工知能にとっての「データ品質」とは「メタデータの品質」が私の仮説です。

イノベーションは普通の人の想像を遥かに越えてくるものですから、人工知能が自ら
メタデータを管理し、データ品質を管理するのも夢物語ではないのでしょう。
経営者が「Pepper」に意思決定を相談する未来もそう遠くないのかもしれません。

データ総研 コンサルタント