» 【第17号】データの品質

株式会社データ総研 データ総研のオンサイト教育
製品案内 DMBOK ITコンサルティングサービス ITコンサルティング事例 紹介セミナー 教育コース 技術情報 DRIブログ 会社概要
技術情報
【第17号】データの品質

DRI通信17号 「データの品質」          1998.2.1
雪にたたられた1月でした。8日は「ひどい目に遭った」と夜10時半に家にた
どりつきましたが、翌朝聞いて見ると、1時、2時、一番ひどい人は4時半につ
いたとか。私は平均的な被害者だったようです。後半になって、青い空に燦々と
陽のさすいつもの東京の冬が戻ってまいりましたが、今度はひどい風邪が流行っ
ているようです。うがいや適度の運動を励行して元気にこの冬を乗り切りましょう。
15号、16号とダラスでのConferenceの報告をお届けしましたがいかがでし
たでしょうか。考えて見るとこの10年間、情報技術の進歩は驚くべきものがあ
ったわけですが、いずれも、データの容器、運搬ツール、処理ツールの進歩であ
り、コンテンツすなわちデータの品質に関する進歩は、非常に心もとないものだ
ったのではないでしょうか。しかもこれが、情報システムがビジネスニーズに対
応できない最大の原因になっているように思われます。


■データの品質が悪いとは
データの品質が悪いとは、どういうことでしょうか。データの品質の悪さの実証
的分類を知りませんが、おおよそ次のように考えられます。
1)間違ったデータ(Nullを含め)が入力されている
  ・受注数量20が10となっている
  ・顧客住所が訂正されていない
2)冗長データが同時に更新されないために不整合がある
  ・Replicateされたデータの一方の更新が遅れている
3)入力タイミングの逆転により不整合がある
  ・数量データより金額データの方が先に登録された
4)別の管理対象に同じ識別子が与えられている(Homonym)
  ・東京支店は組織でもあり、建物でもある
  ・品番は製品ファイルのKEYであり、在庫ファイルのKEY(の一部)でも
   ある
5)別種の管理対象が同種として括られている
  ・基礎工事、内装工事と同列で追加工事が扱われる
6)同種の管理対象がローカルに別種として括られている
  ・製品と部品が別種とされているため、製品かつ部品の扱いに困る
7)同じ管理対象が別々に認識され異なった識別子で二重に登録されている
( Synonym)
  ・国際電信電話とKDDが別もののように登録されている
8)同じ管理対象が別の括りとして認識され異なった識別子で二重に登録されて
  いる
  ・日立製作所が顧客ファイルにも購入先ファイルにも登録されている
9)新版と旧版が共存し管理対象が二重に登録されている
  ・組織ファイルに新版と旧版があり、レコード数が違う
  ・システムAでは三菱化学になっているが、システムBでは三菱化成と三菱
   油化が残っている
10)コード体系が壊れている
  ・品番の頭1桁が、事業の拡大によって商品大分類を表わせなくなった
11)再定義の濫用
  ・Null値であることをよいことに、あるフィールドにまったく違う意味のデ
   ータがストアされている
■品質劣化の原因
このようなデータの品質劣化の原因はどこにあるのでしょうか。ざっと考えて見
ると
a)入力チェックが不十分 1)
b)運用の仕組みや体制が不備 2)3)7)9)
c)データの意味についての理解が不十分 4)5)
d)データを整理する範囲がせまい 6)8)
e)コード設計/物理ファイル設計の原則についての理解が不十分10)11)
のようになるのではないでしょうか。
そしてその根本原因は「個別業務の特定画面・帳票を1日でも早く出す」ことを
第一優先で進めてきた近視眼アプローチや、運用保守軽視の「開発でおわり」ア
プローチにあったのではないでしょうか。今データウエアハウスなどで求められ
る「業務横断的データの自在な活用」など、もともと視野になかったし、「デー
タの仕様は変化しつづけるビジネスルールの表現である」との認識は非常に希薄
だったのですから。
■対策
それでは対策はどうなるのでしょうか。a)、b)に対しては、ソフトによる支
援、体制やワークフローの整備があるでしょう。またe)については技法の教育
が必要でしょう。しかし主要な課題はc)、d)を解決するための整合性の保証
ではないでしょうか。そしてこのためには広範囲のデータ分析を行いインフラデ
ータを整備することが不可欠のように思われます。
ときどきデータ分析を「データ項目の名前の統一」程度に誤解される方がありま
す。データ項目はなんらなかの管理対象の性質(属性)を表わすものですから、
必ず管理対象を突き止めた上での分析でなければなりません。実際の画面や帳票
の中でのそのデータ項目の意味を追及することになりますから、人間のインテリ
ジェンスによらなければなりません。
それはあたかも「左手を怪我した」、「火事は左手だ」、「その手には乗らない
よ」といった文例から「手」の意味を探り辞書をつくるようなもの。結局、デー
タの品質はツールでは作れない。正しい方法論を用いて人が作らなければなりま
せん。地道な人の努力が必要です。
大切なことは誰にも分かる。誰かやってくれないか、俺はやりたくない。責任を
とるべき人が事態を認識していない。データの品質問題も、一日延ばしが続く
2000年問題と同じことが原因となっているように思われます。
(お知らせ)
ご承知の方も多いと思いますが、今年は会場の都合で2月にずれこんでしまいま
したが、17日(火)、18日(水)アルカディア市ヶ谷において、恒例のDO
A特別セミナーをひらきます。17日はPLAN-DBの紹介、東レさん、宝酒造さ
んの事例、18日は私の1997年のDB関係の動向レビュー(ORDBMS、
DWH、ERP、ビジネスルールアプローチなど)とTEC増渕さんのERP(SAP)
です。まだ余裕があるようですが、参加希望者は忘れないうちにお申し込みくだ
さい。
第2回七夕会は、4月20日(月)にする予定です。時間は前回短くて厳しかっ
たので、今回は4時からにしようかなと思っています。テーマは、オブジェクト
指向の続きか、データの品質か、もっと別のものかまだ決めていません。ご要望
がありましたら、お寄せください。