» 【第15号】Data Quality 97 報告(1/2)

株式会社データ総研 データ総研のオンサイト教育
製品案内 DMBOK ITコンサルティングサービス ITコンサルティング事例 紹介セミナー 教育コース 技術情報 DRIブログ 会社概要
技術情報
【第15号】Data Quality 97 報告(1/2)

DRI通信15号 「Data Quality 97 報告(1/2)」 1997.12.1
山一証券の自主廃業など、それでなくてもあわただしい12月になりました。
普段かからないと豪語している人がかかる風邪も流行っています。上手に気分
転換をしてお正月を迎えましょう。
さて今月は、「オブジェクト指向」を一休みして、弊社社員、椿高明の
Conference報告をお届けします。やや長文ですが、軽い読み物になっています
ので、気軽にお読みください。


さる9月29日〜10月1日に、米国はダラスにて開催された、Data Quality 97 に
参加してきました。わが国では、データウェアハウス、データマイニングな
ど、売娘の声が賑やかな段階ですが、そういった投資の先に、どのような現実
が待っているのか、ということをリアルに実感することができました。数年の
うちに、Data Qualityは、日本でも極めて重要なトピックになってゆくと思わ
れました。
0. はじめに:データクオリティとは?
データウエアハウスの持つインパクトは、(1)孤島システムの壁を崩しこれら
を統合することで、いままでになく付加価値の高い情報を得られること、(2)
データベースに蓄えられた情報がいままでになく縦横無尽に活用できるようにな
ること、の2点にあると考えられます。
ところが、データウェアハウスの構築を本格的に実施してきた米国では、次の
ような問題が生じているようです:
・「本来値が入っているべきなのに、入っていない」
・「明らかにおかしな、ありえない値が入っている」
・「意味不明の値があり、どう解釈してよいかわからない」
さらには、もっと深刻な問題が生じているようです:
・「Aシステムのこの項目とBシステムのこの項目は一つに統合できるか?」
・「統合はしてみたが、コードの体系がだいぶ食い違っている。」
・「Aシステムのこのコード値と、Bシステムのこのコード値は同じ意味?」
・「このレコードとこのレコードは同じオカレンスを指しているのでは?」
・「レコードを統合したいが、二つのシステムの間で、値が食い違う。」
・などなど
Data Quality 97 は、近年急浮上してきたこれらの一連の問題のすべてを、
「データの品質」の問題であるとし、議論の咀上にのせています。
データ総研の視点から眺めると、上記の諸問題は、システムを運用する業務サ
イドの作業品質のまずさを差し引けば、1つのフィールドに複数の意味を持た
せてしまったいわゆる 観点混在(many facts in one place)のまずさ、1つ
の意味をあちこちのフィールドに分散させてしまったいわゆる冗長性(one
fact in many places)のまずさ、これらを複合した many facts in many
places というまずさが引き起こしているのだ、と診断できます。
つまり、対象業務の迅速な機械化に目を奪われ、データ項目の標準化を怠った報
いであり、実装上の制約や度重なる保守によって、データ項目の意味的な品質を
犠牲にしてしまった報いである、と言うことができるわけです。
では、彼等は、上述のような問題に対して、どのように立ち向かおうとしてい
るのでしょうか? Data Quality 97 は、その試みの最前線にあたるわけです。
1. 概要
Data Quality 97 は、データベースにおけるデータ値の品質に焦点を当てた、
チュートリアル/カンファレンス/エキシビジョンです。参加者にむけた概論
の講義、最新動向の報告、これらを支援するツールの展示が行われていまし
た。
場所は、米国テキサス州ダラス(アーバイン)の、オムニマンダレイ・ホテル
にて、期間は、1997/09/29〜10/01の3日間で開催されました。
講演2つ、講義4つ(選択式で2つ)、発表12(選択式で6つ)、展示6件という規
模、参加者は約240人で、ほぼ8〜9割近くがデータウェアハウスを構築した(し
ている)ユーザ企業でした。残りは、この方面のコンサルタントのようでし
た。ユーザ企業には、「データ品質担当」というポストを既にもっているとこ
ろが、いくつか見られ、目新らしさを感じました。
こういった形式での会議の実施は今年がはじめてのようですが、同様の趣旨に
よるいくつかの会議は、既に先行して何度が実施してきた経緯があるようで
す。スピーカーはいずれも互いに馴染みのいわば『同志』といった雰囲気で、
これを座長のイングリッシュ氏が旗ふり役として束ねている、といった雰囲気
でした。来年は、秋口にシカゴ、晩秋にロンドンで実施する予定とのこと。
データクオリティ改善『運動』とでも呼べるような熱気を感じました。
2. 各発表の要旨と寸評
※ 私が選択した2講義、2講演、6発表と、比較的面白かった展示3点につい
て、報告します。
2.1. 講義 「データウェアハウスの監査と監督をどう実現するか」 ロウェ
ル フライマン (Tutorial “Implementing Data Warehouse Audit and
Control Processes” Lowell Fryman)
[要旨]
・監査監督の目的は、正しいデータを正しく取り込むこと
・監査監督の手順は、対象を特定し、監査基準を設け、測定し、訂正すること
・各手順でなすべきこと、いくつか
・各手順で注意すべきポイント、いくつか
・100%の品質はとてつもなく高価。費用対効果から妥協ライン定めるべし
[寸評]
・声ちいさく、覇気感じられない。印象が薄い
・汚くなってしまったデータを、どう取り込み段階で品質改善するかが主題
・そもそも汚さないようにする、という発想はない
・★
2.2. 講義 「データ・クオリティ改善の方法:根源分析とプロセス改善」 
ラリー イングリッシュ(Tutorial “How to Improve Data Quality: Root
Cause Analysis and Process Improvement” Larry English)
[要旨]
・データ・クオリティ改善の目的
「形式を整えること」だけではない
「ビジネス上正しい内容」とすることである
「汚れてしまったものを奇麗にする」ではない
「ただ査察すること」でもない
「汚れの原因を探り、改善の方法を練ること」を含む
・データ・クオリティ改善のマクロ展開(TQdMなる手法。詳細略)
・データ・クオリティ改善のミクロ展開(略)
・データ・クオリティ改善のコア手法(因果関連ダイアグラム)
・データ・クオリティ改善のコツ多数
[寸評]
・話術、組み立て、ユーモア、等々、プレゼンテーション絶品
・真摯、誠実さ、熱意、尊敬あり、好人物。さすが!
・データクオリティ問題の本質と全貌を、バランスよく掴んでいる
・やや総花的。目が醒めるようなオリジナルなところは、少ない
・★★★★★
2.3. 基調講演 「データ・クオリティ:これまででわかったこと」 ラリー
 イングリッシュ (Keynote Presentations “Data Quality: The State of
Art” Larry English)
[要旨]
・データ品質の低さに起因するコストの試算(数倍〜十数倍のコスト増)
・データ品質改善のCS:知識労働者が顧客、彼等を満足させること
・データ品質改善へのシナリオ
[寸評]
・データ品質の重要性が、たいへんよくわかる、素晴しい講演
・聴衆を魅き込むプレゼンは、たいしたもの
・ちょっと時間オーバーしたのは残念
・★★★★★
2.4. 発表 「第二世代のデータ・クオリティ・システム」 トマス レッド
マン (Conference “Second-Generation Data Quality Systems” Thomas
Redman)
[要旨]
・応急処置に終始するのが第一世代
・プロセスの改善によって、問題発生を防ぐのが第二世代
・根本的に問題が発生しないようにするのが、第三世代
・今は、第二世代が最前線
・プロセス改善が、データ品質改善にどう結び付くか。理屈と事例
・なお、第三世代がどんなものは、わからない
[寸評]
・声は大きいが、熱気は感じられない
・資料が断片的でわかりにくい
・何かの焼き直しといった感じで、目新らしさなし
・事例にリアリティなし
・第三世代こそ、データ標準化でしょう。それが、わからないなんて‥
・★
9. ここまでの印象
さて、だいぶ長文になってしまいましたが、ここまでで、日程の半分が終わった
ことになります。ホテルの部屋にもどって、ひと息つきながら、ここまでの印象
をいくつか。
『すごい熱気!』
正直のところ、こういったテーマで、これだけ熱気があるのには、驚きました。
DWHへの投資が進むとどうなるか。日本の数年後を先取りする体験でした。頭ぶつ
けてはじめて気付く、というところなんでしょうが。
『雰囲気は、意外に明るい』
昔だったら、「わが社のデータベースは品質が低くて」なんて公言する人は、
絶対にいなかったでしょう。今はみな、開き直っています。「データ品質に
問題ない会社なんて、あるもんか!」これは某超一流企業の担当者の言。
『プラグマティストの力強さ』
「データ値が汚れている?だったら洗えばいいじゃないか。」これがデータ・ク
レンジングという考え方。膨大なデータの汚れ具合を、人工知能に解析させて値
を修正する。アメリカ人はこういった手段をまっ先に思い付くようです。いくつ
ものツールが展示されていました(次号で紹介)。できることをやろうじゃない
か、というプラグマティストの力強さを感じました。
『汚れないようにする、という考え方はないの?』
この発想のほうが、品質管理のコンセプトが浸透した日本人には、馴染みやすい
はずです。どうも、そういった発想が主流になりにくいあたり、プラグマティス
トのアメリカ人の弱点かもしれません。データ標準化を実現した日本の超一流企
業(もちろん、PLAN-DBユーザ!)では、データ品質の問題がほとんどない、とい
う驚くべき事実を、彼等に紹介したら、どんな顔をするでしょうね!
(次号につづく)
文責:椿高明@データ総研 ttsubaki@drinet.co.jp