10,000,000,000,000,000バイトがアーカイブされました



10月25日、インターネットアーカイブの活動家と従業員は、重要なイベントの式典を開催しました。インターネットアーカイブは10ペタバイト(10 16バイト)を超えました。 Time Machineのこのアーカイブのおかげで、何年も前に有名なサイトがどのように見えたかを確認したり、保存されたWebページのコピーを見つけたり、単に「無料バックアップ」からサイトを復元したりできます。

Internet Archiveは、2011年の80テラバイトのサンプルサンプルをすべての研究者に配布することを発表しました。 WARCファイルには、約27億個のURIが含まれています。 これらには、すべてのテキストコンテンツと、画像、ビデオ、フラッシュなど、保存された他のすべてが含まれます

サンプリング:
開始日:2011年3月9日
終了日:2011年12月23日
一意のURLの数:2,273,840,159
ホスト数:29,032,069

Heritrix Spider は、Alexaによると、最初に100万の最も人気のあるサイトをダウンロードし(Habrはすでにそこにいた)、その後リンクをたどった。



式典で発表された別の興味深い事実。 初めて、国全体の文学遺産全体が完全にデジタル化され、インターネットにアップロードされました。 これらの人々はバリ人になりました。

インターネットアーカイブは、伝説的な科学者でありプログラミングイデオロギーのドナルドクヌースによって表彰されました。 彼はオルガンを演奏し、セレモニーを開きました。

Source: https://habr.com/ru/post/J156349/


All Articles