古いドキュメント検索システムの代替品を作成した理由

2000年代後半から、大企業のセキュリティサービスのプロセス自動化に取り組んできました。 ほとんどすべての企業で、重要なセキュリティタスクの1つは、潜在的な顧客と請負業者の信頼性をチェックすることでした。 このチェックには、膨大な数のテキスト情報に含まれる企業または人々に関する情報の定期的な検索が含まれていました。 この配列は、さまざまな形式とさまざまなソースからの数千万のドキュメントを表します(そして、今でも表します)。 問い合わせ、レポート、pdf、doc、xls、txt形式のステートメント、場合によっては同じpdf、tiffなどのスキャンなどがあります。一般に、このデータセット内の企業または個人に関する情報をすばやく見つけるタスクは重要です。どんなビジネスでも。


dtSearchの使用から、独自の完全なソリューションへの長い道のりを歩んできました。 この記事では、経験を共有したいと思います。


検証プロセスを自動化するために、独自のソリューションを使用しましたが、ドキュメント内の全文検索のエンジンはdtSearchでした。 私たちの選択について少し(これは2010年に開催され、2016年の秋まで私たちと共にいました):



次に起こったこと


年が経ち、システムが開発され、徐々にdtSearchがボトルネックになり、問題点になりました。



リストはどんどん増えていきますが、上記の問題と比較して、他のすべては些細なことです。


そのため、ある瞬間、私たちはあなたがそのように生きることができず、代替案を探すか、独自のソリューションを作成する必要があることに気付きました。 残念ながら、代替品の検索は賢明なものをもたらさず、2010年に存在した製品はあまり進歩せず、新しい製品(LucidWorks Fusion、SearchInformなど)にはまったく感銘を受けませんでした。


次に、Apache Tika + ElasticSearchまたはApache Solrを使用してシステムの全文検索モジュールを作成するオプションを検討しました。これは一般に問題を解決します。 ただし、クイック検索、OCR、およびユーザーフレンドリーなインターフェイスを備えた優れたソリューションが市場にまだ存在しないという考えは、私たちを苦しめることをやめません。


したがって、私たちはためらうことなく、誰にとっても生活を楽にする独自のオープンソースソリューションを作成することにしました。それがアンバーの誕生です。


Ambar-全文ドキュメント検索システム


Ambarインターフェイス


開発プロセスでは、dtSearchに悩まされていたすべての問題に留意しました。 したがって、システムの主な要件は、軽量で直感的でありながら強力でスケーラブルでした。 私たちは数千億のファイルのボリュームに即座に焦点を合わせました。前提条件は、検索の複雑さとドキュメントの数に関係なく、0.5秒以内のクイック検索でした。


リリースは2017年1月に行われました。その後、最初の主要クライアントでAmbarを立ち上げました。


知っておくべき重要なシステムのキーポイント:



近い将来、メールの内容を読み取って索引付けする機能を追加し、名前付きエンティティ(名前、住所、文書番号、識別番号、電話番号)の認識を追加することにより、システムの分析部分の開発を開始する予定です。


プロジェクトの説明と連絡先


GitHubのプロジェクトページ


→興味深い事実とベストプラクティスをすべて共有するブログ


ご清聴ありがとうございました!



Source: https://habr.com/ru/post/J325786/


All Articles