DaData.ruは同じ人を見つけて破壊します



DaData.ruは、連絡先データ(名前、住所、電話番号、電子メール、パスポート)の自動検証、修正、重複排除のサービスです。

電話に453件の連絡先があります。 それらの間には重複があります。同じ人物が「Lech」、「Alexey Megafon」、または「Zinoviev、Alexey Ivanovich」として記録されます。 LekhaにはSkypeと誕生日があり、Alexey Nikolaevichには電子メールと主要な携帯電話番号があり、Megafonにはわかりやすいオペレーターの予備の番号があります。

電話連絡先では、重複は不快ですが、特に迷惑ではありません。 さらに悪いことに、そのような跳躍が会社の顧客ベースで始まるとき。

問題


顧客の連絡先情報が複数のExcelファイルまたはデータベースに広がると、生活が複雑になります。


解決策


同一の顧客を見つけて破壊します。 これは、DaData.ruがまさに行うことです。クライアント、住所、電話の間で重複を検出します。 それらを組み合わせて、マーケティング、CRM、および分析のための「参照」クライアントベースを構築します。



誰が便利になるでしょう:


自転車を書くよりも簡単


Pfff、重複を見つける、考えます。 ここでは、感謝しないでください:

address1 == address2 

ああ、まだタイプミスがあります。 次に、このように:

 similarity (address1, address2) > 0.95 

まあ:

 > similarity ( "  11/-89", ", , 11 , 89") > 0.95 False 

データは最初に正規化され、「標準的な」外観(「モスクワ時間、スクホンスク11 / -89」→「127642、モスクワ、ul。スクホンスカヤ、11、apt。 そして、注意して比較してください。そうしないと、次のようになります。

 > similarity ( ", - 1-,  20", ", - 3-,  20") > 0.95 True #  

重複を検索するときは忘れないでください:


簡単なことではありません。 そして、ダダトでは、すべてが準備ができています。

手動でチェックするよりも正確


多くの場合、人々は住所や電話を間違えたり、同じことをさまざまな方法で書いたりします。
ノボシビルスク、セント パール、d。2
Zhmchuzhna NSC 2、入り口4
ノヴォシビルスク地方ソヴェツキー地区、
Zhemchuchnaya通り、家2、アパート98

したがって、顧客を手動で比較することは困難です。人はこのデータを同じものとして認識しません。 もちろん、200人のオペレーターを雇ってベース全体を完成させることができます。 彼らは長い間働くでしょう、それは高価になりますが、その結果、彼らはまだ多くのテイクを逃します。

Dadataは30分で10万件のレコードを処理し、データを3つのグループに分けます。




同一のDadataが団結します。 そして、同様のものは手動で見る方が良いです:
「Ovchinnikov Fedor、10/12/1990、Samara Kirova 12」と「Fedor ovchinnikov、Samara、fedor @ thefedor.ru」-同じ人物ですか? あなたは彼の注文の履歴を上げてそれを理解することができます;ダダタはここでは助けません。

仕組みと費用


Dadataは、エラーやタイプミスを考慮して、既製のアルゴリズムを使用して名前、住所、電話を比較します。 8年間、私たちは大企業の顧客とのプロジェクトでそれらをデバッグし、今では誰にでもアクセスできるようにしています。

Dadataが同様の顧客を集めたとき、彼は名前、住所、電話など、すべての人から最高のものを選びます。 複数のアドレスまたは電話がある場合は、すべてかかります。 同一-1つに結合します。

顧客が結合するほど類似していない場合、これを報告します:
そのようなクライアントを団結させます
エレナバエバ、1990年10月10日生まれ
モスクワ、Norilskaya str。、17、apt 25

エレナ・バエバ
ナリルスカヤモスクワ時間、家17 kv25、4階
しかし、これらは (父と息子)ではありません
アレクセイ・エフレーモフ、1951年6月18日
g。ノボシャフチンスク、セントレッドドーン、d 7

アレクセイ・エフレーモフ、1976年12月3日
g。ノボシャフチンスク、セントレッドドーン、d 7

ファイルで動作しますが、APIはまだです。 必要に応じて(および使用方法)コメントを記入してください。

ファイルのエントリごとに25コペックかかります(10,000エントリ= 2,500ルーブル)。 ファイル統計と100エントリの表示は無料です。 自分で試してみてください

Source: https://habr.com/ru/post/J273251/


All Articles