WARC (ファイルフォーマット)

複数のデジタル資源を関連情報と共に1つの集合アーカイブファイルに統合する方法を規定するファイルフォーマット From Wikipedia, the free encyclopedia

WARC(Web ARChive)とは、複数のデジタル資源を関連情報と共に1つの集合アーカイブファイルに統合する方法を規定するアーカイブフォーマットである。これらの統合された資源はWARCファイルとして保存され、ReplayWeb.pageなどの適切なソフトウェアを使用して再生できたり、ウェイバックマシンなどのアーカイブウェブサイトで使用できる。

MIMEタイプ application/warc
派生元 ARC[1]
国際標準 ISO 28500:2017[2]
概要 拡張子, MIMEタイプ ...
閉じる

WARCフォーマットは従来World Wide Webから収集された「ウェブクロール」をコンテンツブロックのシーケンスとして保存するために使用されていたインターネットアーカイブARC_IAファイルフォーマット[3]の改訂版である。WARCフォーマットはアーカイビング団体の収集、アクセス、交換の需要をより適切にサポートするために古いフォーマットを一般化したものである。現在記録されている主なコンテンツに加えて、この改訂版では指定されたメタデータ、省略された重複検知イベント[注釈 1]、後日の変換記録など関連する二次コンテンツも収容できる[4]。WARCフォーマットはHTTP/1.0ストリームに触発されており、同様のヘッダーとCRLFを区切り文字として使用するので、クローラの実装に非常に適している。

2008年に最初に仕様が規定されたWARCは[5]、現在ではほとんどの国立図書館システムでウェブアーカイビングの標準として認められており[6]、一部の国立図書館システムではWACZも許容できるフォーマットとして挙げられ始めている[7][8]

ソフトウェア

脚注

関連項目

外部リンク

Related Articles

Wikiwand AI