Anna's Archive
From Wikipedia, the free encyclopedia
Anna's Archiveは、2022年のZ-Libraryを閉鎖しようとする法執行機関の動きの直後、偽名者のアンナが開設したオープンソースの検索エンジンである。シャドウライブラリを対象にZ-Library、Sci-Hub、Library Genesisを含む主要なシャドウライブラリなどの記録を集約する。
|
| |
|
Anna's Archive ホームページ(2025年1月15日) | |
| URL |
annas-archive |
|---|---|
| タイプ | |
| 設立者 | アンナ(Anna Archivist)、Pirate Library Mirror |
| 営利性 | No |
| 登録 | 任意 |
| 開始 | 2022年11月 |
「人類史上最大の真にオープンな図書館」[† 1]を自称して「存在するすべての書籍をカタログ化し、これらすべての書籍をデジタル形式で簡単に利用可能にするという人類の進展を追跡する」ことを謳う[1]。
ファイルは直接ホストせずにメタデータをインデックス化し、第三者によるダウンロードリンクを提供するのみで、著作権が存在する資料のダウンロードについて責任を負わない[† 2]。
起源
Anna's Archiveは、Pirate Library Mirror (PiLiMi) プロジェクトから派生したものである。これは、匿名の有志によるシャドウライブラリのミラーサイト化を目的とした取り組みであり、2022年9月にZ-Libraryの完全なコピーを完成させた[2][3]。PiLiMiは「多くの国において著作権法に意図的に違反した」と認めており[2][3]、当初の重点は検索可能性ではなく保存にあった[4]。2022年11月、米国の法執行機関がZ-Libraryの複数のドメインを押収し、その運営者とされる人物を逮捕した数日後、PiLiMiのメンバーであるアンナ (Anna Archivist) はAnna's Archiveを立ち上げた。当初はZ-LibraryおよびLibrary Genesisからの検索結果を表示していた[1][2][3][5]。
ウェブサイトと運営
検索エンジン[1]、メタ検索エンジン[2]、シャドウライブラリなど種々に説明されている[3]。サイトはファイルを直接ホスティングせず、第三者提供のダウンロードリンクを掲載する[† 1][6]。IPFSプロトコルを通じたダウンロードも提供する[注釈 1][2][7]。
ソースコードはパブリックドメインとしてCC0ライセンスの下で公開する[† 4]。同プロジェクトのデータ[注釈 2]はトレントファイルを通じて一括配布し、ウェブサイトの閉鎖に対する耐性を持たせている[† 1]。現在は.li、.se、.org の異なるトップレベルドメイン下に3つのミラーサイトを運営する[† 1]。
2025年1月15日現在[update]で40,369,782冊の書籍と98,401,746本の論文を収録[† 1]し、組み込みのトレントのリストはおよそ1ペタバイト[† 6]である。「ソースライブラリ」として Library Genesis、Sci-Hub、Z-Library、Internet Archive、DuXiu、MagzDB、Nexus/STC などを挙げ、Open Library および WorldCat はメタデータのみの提供元とする[† 7]。これらのデータセットの一部は公式に公開しているが、その他はスクレイピングや非公開の手段で取得して配布する[† 7][8]。
資金面
ボットによる悪用を防ぐため、有料会員のみ高速ダウンロードを提供して非会員はブラウザ認証による低速な手段を使用する。自らを非営利団体と称し、会費や寄付の大半はサーバーインフラの維持に用いて運営者の私的使用に充てない、と主張する[† 1]。一部のボランティア貢献者に会員資格や報酬を提供する[† 8]。
大規模な金銭的またはデータの貢献と引き換えに、大規模言語モデルの学習を行うグループに対して、SFTP経由で全コレクションへの高速アクセスを提供している[9]。2025年1月時点でおもに中国を拠点とする約30社に提供し、LLM企業とデータブローカーの両方が含まれるとされる[10]。DeepSeek のVLモデルはこのデータを用いて学習した[11]。
動機
アンナは、プログラマであり情報活動家であるアーロン・スワーツからこのプロジェクトの着想を得たと語っており[† 1]、彼および他のシャドウライブラリアンたちは「情報は自由になりたがっている」と信じていると述べている[12]。
サイトのブロックと法的問題

アメリカ合衆国
2023年以降、Anna's Archiveのドメインは、アメリカ合衆国通商代表部による年次の悪名高い市場のリストに掲載されている。このリストは、大規模な知的財産権の侵害に関与しているとされるデジタル市場および物理的市場に焦点を当てるものである。これらの報告書では、同サイトはSci-HubおよびLibrary Genesisと関連があると記述されている[13][14][15]。2023年のリストに関する通商代表部からのコメント要請に対し、アメリカ出版協会はAnna's Archiveを侵害サイトとして特定し、その暗号通貨ウォレットを分析した結果、2023年7月時点で29,000ドル以上の資金を受け取っていたことが判明した[16][17]。
OCLCによる訴訟
2023年10月、Anna's Archiveが世界最大の書誌データベースであるWorldCatの全データをスクレイピングし、その専有データを無料で公開したと報じられた。アンナはこれを「世界中の書籍をマッピングする上での大きなマイルストーン」と表現した[8]。WorldCatの運営元であるOCLCは、2024年1月にオハイオ州南部地区連邦地方裁判所に同サイトを提訴し、このスクレイピングが自社サーバーへのサイバー攻撃によって行われたと主張した[6]。OCLCは、Anna's Archiveに対して合計500万ドル超の損害賠償と、スクレイピングやデータ共有の差し止めを求めた[18]。OCLCは、自社の内部システムが侵害されたわけではないが、同サイトの行為は法的にはハッキングに該当すると考えていると述べた[19]。訴訟で名指しされた唯一の被告は、Anna's Archiveまたはスクレイピングへの関与を否定した[20]。技術ジャーナリストのグリン・ムーディは、この訴訟は「費用がかかる上に無意味」であり、情報のアクセスを促進するというOCLCの公式な使命に反していると批判した[21]。
2024年7月、訴訟を受けて、Anna's Archiveの.orgミラーはアメリカの法域を回避するために新たな.gsミラーへと置き換えられた。しかしその直後、.gsドメインは停止され、ミラーは元の.orgドメインへと戻された[18][22]
2025年3月、本件の法的な新規性に関する懸念から、裁判所は一部の判断をオハイオ州最高裁判所に委ね、OCLCによる欠席判決の申し立ておよび被告による却下申立ての双方を却下した[23]。4月には、OCLCは名指しされた被告と和解し、彼女を訴訟から除外する代わりに、サイト自体に対する判決の取得に焦点を移した[24]。
NVIDIA訴訟
2024年3月、作家のグループが、NVIDIAの生成AIプラットフォームNeMoがオープンソースのデータセットBooks3を学習に使用したとして、カリフォルニア州北部地区連邦地方裁判所にてNVIDIAを提訴した[25][26]。このデータセットにはAnna's Archiveを含む複数のシャドウライブラリからの著作権保護データが含まれていた[27]。同社は回答書において、これらのサイトをシャドウライブラリとする性格付けに異議を唱えたが、アンナ自身はこの用語を使用していた[27][28]。
Meta訴訟
2025年2月、MetaがAIモデルの学習に著作権保護作品を使用したとしてカリフォルニア州の裁判所で提訴された訴訟において、内部メールが開示され、同社がLibrary Genesisに加えてAnna's Archiveのトレントを通じて81テラバイト以上のデータをダウンロードしていたことが明らかとなった。原告はリチャード・キャドリー、サラ・シルバーマン、クリストファー・ゴールデンらを含む作家グループであり、CEOのマーク・ザッカーバーグがシャドウライブラリの利用を個人的に承認したと主張した。同社はAI学習における著作権保護データの使用はフェアユースであると主張していた[29][30][31]。
オランダ
2024年3月、ロッテルダムの地方裁判所は、BREINの要請により、オランダの主要なインターネットサービスプロバイダに対し、Anna's ArchiveおよびLibrary Genesisのブロッキングを命じた。この命令は「動的」なものであり、対象サイトが将来ドメインやIPアドレスを変更した場合でも、ISPはそのブロックを更新する義務を負うものである[32][33][34][35]。
イタリア
2024年1月、イタリア通信規制庁は、イタリア出版社協会による著作権侵害の申し立てに基づき、国内のインターネットサービスプロバイダに対しAnna's Archiveのブロックを命じた[36]。イタリアのデジタルサービス局による調査では、当該サイトに著作権保護された資料が存在することが確認され、その一部のサーバーはウクライナのホスティング業者が所有している可能性が高いとされたが、運営者の身元は判明しなかった[3]。
イギリス
2024年12月、英国出版協会は高等法院から命令を勝ち取り、主要インターネットサービスプロバイダに対しAnna's Archiveおよび他の著作権侵害サイトのブロックを義務付けた。この命令は、2015年以降1988年著作権・意匠・特許法第97A条の下でブロックされたサイトのリストを拡張するものである。同協会は、Anna's Archiveのドメイン上で100万件以上の著作権保護された書籍および学術論文の記録を特定したと述べている[37][38]。
その他の問題
Anna's Archiveは、2024年6月時点でGoogle 検索においてDMCA削除要請の対象となったドメインの中で上位10位に入っていた[39]。また、大手出版社を代理してGoogleや他の検索エンジンに削除要請を送っているオランダの反海賊版サービスLink-Bustersによって、最も頻繁に標的とされているサイトの一つである[40][41][42]。
2025年1月、メッセージングアプリTelegramは、著作権侵害を理由にAnna's Archiveのチャンネルを停止した。運営者はアプリ上での侵害投稿を避けるための措置を講じていたとされているにもかかわらず、この措置が取られた。同週にはZ-LibraryのTelegramチャンネルも停止された。両者とも事前通知は受けていなかった。これらの削除措置は、デリー高等裁判所による法的措置に関連しているとの憶測がある[43]。