Heritrix

Heritrix
	HeritrixのAdmin Console.
作者	インターネット・アーカイブ他
最新版	3.12.0 / 30 October 2025
リポジトリ	github.com/internetarchive/heritrix3;
プログラミング; 言語	Java
対応OS	Linux/Unix-like/Windows (unsupported)
種別	クローラ
ライセンス	Apache License
公式サイト	webarchive.jira.com/wiki/display/Heritrix/Heritrix
	テンプレートを表示

作者インターネット・アーカイブ他

最新版

3.12.0^[1]

/ 30 October 2025

リポジトリ

github.com/internetarchive/heritrix3

プログラミング
言語 Java

Heritrix はインターネット・アーカイブが開発したウェブアーカイブのためのWebクローラーの一種。Java言語で実装され、自由ソフトウェアライセンスにより自由に利用できる。主にウェブブラウザを使って操作するが、コマンドラインツールを使ってクロールを開始するなどの操作も可能である。名前は「(女性の)相続人」を意味するheiressの古語に由来する^[2]。

Heritrixの開発は、2003年にまとめられた仕様に基づいて、インターネット・アーカイブとNordic National Librariesの共同で行われた。最初のリリースは2004年1月で、その後インターネット・アーカイブの従業員や外部のウェブアーカイブに関心を持つ人々によって継続的に改良が続けられている。

もっともHeritrixがインターネット・アーカイブ自身のウェブ収集に使われるようになったのはかなり後のことである。かつてはアーカイブの大半はアレクサ・インターネット社から提供されていた。アレクサ社は自身の業務に供するため独自のia_archiverと呼ばれるクローラーを使ってウェブ収集を行っており、収集したデータをインターネット・アーカイブに寄贈している。当初インターネット・アーカイブ自身もHeritrixを使って収集を行ってはいたが、小規模なものに留まっていた。

2008年からインターネット・アーカイブは自身の全ウェブ規模のクローリングの性能を向上させ、現在では自身で収集したものが大半を占めるようになっている^[3]。

[1]

[2]

[3]

Heritrix

Arcファイル

Arcファイルを処理するツール

付属のコマンドラインツール

関連項目

脚注

外部リンク

Related Articles