インターネットアーカイブは、1400万以上の無料の歴史的画像をFlickrにアップロードします



インターネットアーカイブの従業員の1人が、OCRスキャンプロセスで数百万冊の本からイラストを自動的に抽出するプログラムを開発しました。これは現在インターネットアーカイブによって実行されています。 Kalev Leetaruは既存のテキスト認識モジュールを使用しました。OCRの前にイラストを破棄するために、まずイラストの境界を定義しました。 しかし、なぜ素材は消えるべきなのでしょうか?

抽出されたすべてのイラストは整列され、切り取られ、きれいにされ、本からの付随するテキストとともにFlickrフォトホスティングにアップロードされました。 したがって、パブリックドメインにあるインターネットアーカイブブックイメージのイラストのアーカイブでは、全文検索が可能です。

合計1400万枚の画像が Flickrにアップロードされています(現在260万枚がアップロードされています)。



古い本の写真のギャラリーは非常にエキサイティングなものです。 ここでは、風景、料理に関するイラスト、メモ、医療ガイドの写真、古い地図を見つけることができます。 イラストのカタログは、ある種の「タイムトラベル」にあなたを招待します。何らかの用語(電話、飛行機)を入力すると、これが以前どのように見えるかがわかります。





多くの写真は、過去からの奇妙な不明瞭なオブジェクトです。 説明がなければ、それが何であるか理解できません。



確かに、ウィキペディアの編集者は、多くの歴史的な記事を補充するのに適した説明資料を見つけるでしょう。

各イラストについて、本の名前、出版年、およびイラストが出会ったページが示されています。 本をオンラインで読むためのリンクがあります(これらはすべてインターネットアーカイブWebサイトで公開されています)。 このプロジェクトの一環として、6億ページが既にデジタル化されています。

非商用または商用の使用、再発行、編集など、誰でもこれらの画像を使って何でもできます。

Source: https://habr.com/ru/post/J235031/


All Articles