データ品質の管理方法

データ品質管理は新しい分野です。 次第に、石油産業、銀行業、小売業の方向が勢いを増しています。 それぞれがほぼ独自の方法で進みます。
私はデータ品質アナリストとして働いています。 この記事では、データ品質管理の管理方法、直面した困難、およびそれらを克服する方法について説明します。

画像
オフィスの画面でのデータ品質の視覚化。 ブロックレベルはエラーの数に比例します。

当社のIT回路には、30以上の大規模なソフトウェアシステムとさまざまな技術を使用したシステムがあります。 大規模な企業システム、石油生産と社内開発のための特別プログラムがあります。 この場合、システムは相互にやり取りし、情報を交換します。

炭化水素の生産に取り組んでいます。 石油産業の間違いは非常に高価です。 井戸の軌道に関するデータが正しくないと、機器の妨害、隣接する井戸の破壊につながる可能性があります。 修理と罰金の費用は数百万ドルに達します。 深刻な結果には深刻な態度が必要です。 データエラーを修正するほうが、その結果よりも簡単で安価です。

何を確認しますか?


どのデータエラーが重要で、何をスキップできますか? 私たちは、現実に基づいて、ユーザーの問題の原因に焦点を合わせることにしました。

「そこには不完全なデータがあります。」というフレーズに従業員に答えさせるのは困難です。 しかし、契約の日付を延期するのを忘れたと言って、請負業者が現場に入ることを許可されていない場合、彼らはすぐに行動します。

または別の例。 やがて、クラスターサイトの計画は更新されませんでした。 ビルダーは、電源ケーブルにマークが付けられていない計画を立て、正常に掘りました。 その結果、井戸のブッシュの電源が切れました。 そして、これは回復のコストだけでなく、従業員の生命と健康に対する脅威でもあります。 データの問題は、現実世界の問題につながっています。 そのような状況は、データ品質分析者によって取られます。

画像
会議「スマートオイル&ガス:石油およびガス産業のデジタル変換」でのスピーチのスライド。

データエラーが検出されると、アナリストはエラーの発生を防止しようとします。 たとえば、ビジネスプロセスを変更することで問題を回避できます。 または、ソフトウェアリビジョンは、入力マスクの作成などのエラーを防ぐことができます。

エラーを完全に排除することが不可能な場合、検証ルールが正式化され、データ品質管理システム(独自の開発)がスケジュールに従ってそれらを起動します。 検出されたエラーは特定の人に関連付けられており、ユーザーは自分に関連するエラーのみを受け取ります。

測定方法


何かを制御するには、まずそれを測定する必要があります。 最初に頭に浮かぶのは、データ品質の割合です。 エラーの数を取得し、オブジェクトの数で割り、数を取得する必要があります。 しかし、実際の状況はここでは感じられません。 1000個のオブジェクトごとに1つの重大なエラーは認識されません。 一般に、99%は良いですか、悪いですか?

すべての制御対象システムのエラーの総数である絶対インジケータを使用することにしました。

画像
企業システムのエラー数のダイナミクス。

1年半で、私たちは信じられないほどの道を歩み、エラーの数を18,000から400に減らしました。

やる気を起こさせる方法は?


問題点が見つかったら、エラーを修正する必要があるユーザーと対話するシステムを構築する必要があります。 特定の人をノックするのは簡単ではありません。特にエラーが彼に影響を与えない場合、別の部門の人は苦しみます。 たとえば、今日、掘削部門は井戸の深さを示していませんでしたが、明日、生産部門はポンプを下げる場所を知りません。

すべての人に合った普遍的なレシピを見つけるのは難しいです。 私たちの仕事では、次の手法を組み合わせて使用​​します。


画像
注目を集めるための視覚化の1つ。 潜水艦の深さはエラーの数に等しい

エラーの数を減らすための強力な推進力は、修正されたエラーメッセージテンプレートでした。 最初に、システムはチェックのコンテキストでエラーに関する統計を送信しました。 このような手紙は、レポートのようなものです。 文字の変換は弱かった。 ユーザーにデータの修正を促す形式に切り替えることにしました。 新しいテンプレートは、何が間違っていたか、このデータを修正することが重要である理由、およびその方法を示します。 また、データ品質チームとやり取りするためのボタンもありました。 それらを使用して、ユーザーからフィードバックを受け取ります。

画像
エラーメッセージの例

次は?


私たちは、新しい人々と新しい部門が関与する、データ品質管理が求められる新しい分野を常に探しています。 今年は100のデータ検証ルールを追加し、それらの合計数は500を超えました。

私たちは、広さだけでなく内陸部でも成長することに関心があります。 志を同じくする人々を見つけ、経験を交換できる小さなデータ品質管理フォーラムを開催したいと思います。

データの品質をどのように扱いますか?

Source: https://habr.com/ru/post/J347838/


All Articles