LAION
From Wikipedia, the free encyclopedia
LAION (ライオン)は無許諾のwebデータなどからAI基盤モデルやデータセットを形成するドイツの非営利団体[1][2][3]。インターネットから無断で集めた画像と説明文の巨大なデータセットを多く公開したことで有名で、Stable DiffusionやMidjourneyやNovelAIなど多数の目立つtext-to-imageモデルの基礎データに使われている[4][5][6][2]。58億5000万もの画像データセットを載せたLAION-5Bは特に有名である[2][7]。LAIONのデータセット群はAI利用者に重宝される一方で、含まれる画像は基本的に権利者の同意なく収集されていることなど、様々な分野から問題の指摘がされており、データセットを利用したAI企業が訴訟されるなどしている[2][8][9][10]。LAIONは「Large-scale Artificial Intelligence Open Network」の頭文字である[1]。
Jenia Jitsev
Richard Vencu
Robert Kaczmarczyk
Theo Coombes
Mehdi Cherti
Aarush Katta
Jan Ebert
| 創立者 |
Christoph Schuhmann Jenia Jitsev Richard Vencu Robert Kaczmarczyk Theo Coombes Mehdi Cherti Aarush Katta Jan Ebert |
|---|---|
| 団体種類 | 非営利団体 |
| 活動内容 | 人工知能 |
| ウェブサイト | https://laion.ai/ |
2023年2月、ゲッティイメージズがStable DiffusionのStability AIに対して起こした訴訟の中では、LAIONのデータセットが問題視された[11][12]。また、2023年4月、データセットから自身の写真の削除を要求したドイツの写真家ロバート・クネシュケから提訴されている[8][13]。
2023年4月15日、LAIONとその協力者は、オープンソースのAIアシスタントのチャットボットであるOpenAssistantをリリースした。
LAION-5Bなど画像データセット
LAIONは、収集した画像とその説明文であるキャプションとが紐づけされた膨大なデータセットを数多く発表しており、AI研究者によく使用されている[2]。LAION-400MやLAION-5Bは特に有名である[2]。これらLAIONのデータは、アメリカの非営利団体コモン・クロールがウェブサイトからスクレイピングしたデータセットから、それぞれの権利者の同意なく取り込まれたものである[14][2]。コモン・クロールは毎月30億以上のウェブサイトをスクレイピングしてデータを収集している[2]。LAION創設者のクリストフ・シューマンは、ネット巡回で収集されたHTMLコードからimgタグで画像を探し出し、そのimg内の代替テキストalt属性をキャプションとして関連付けた[14][2]。そして画像認識AIのCLIPを使い、説明文との一致率の低い画像を選び削除している[15]。LAIONは、収集画像そのものを所有せず、データセットには画像へのURLが指定されていて、利用者自身のダウンロードが必須であるとしている[16][17]。
2022年9月にMetaが発表した動画生成AIのMake A VideoにもLAIONのデータセットが用いられている[18]。
LAION-400Mは、2021年8月に公開された最初のLAION制データセットで、4億組の画像と注釈文が搭載されていた[19]。コモン・クロールが2014年から2021年までに無差別に集めたウェブサイトの一部から抜き取られたものである[19]。LAION-400Mの開発は、OpenAIがCLIPモデルをトレーニングするときに使った4億の画像データを集めるための処理を再現しオープンソースとして公開する企てだった[15]。これは、OpenAIが基盤モデルのコードと重みはオープンソース化したが、データセットを公開しなかったためである[15][20][14]。LAION創設者のシューマンには、大手企業がデータを独占することを防いで民間に広く拡散する目的があった[20][14]。
2022年にGoogle Brainが公開したtext-to-imageモデルのImagenはプライベートな内部データセットと共にLAION-400Mのデータを取り込んだ[21]。
LAION-5Bは、2022年3月にLAION-400Mの後継として公開された、58億5000万組の画像と注釈文が搭載されたデータセットである[7][2]。公開時点では、無料で利用できる画像データセットの中では最大であった[15]。開発にはDoodlebot、 Hugging FaceやStability AIなどのAI関係の企業が資金を提供している[22]。
このデータセットを利用している生成AIは、Stability AIのStable Diffusion、Midjourney、AnlatanのNovelAI、DeviantArtのDreamUpなどがある[23][24][10]。
LAION-5Bの画像元として判明しているサイトは多岐にわたり、Pinterest、Shopify、Wix.com、SlidePlayer、Danbooru、pixiv、X(旧Twitter)、Flickr、DeviantArt、Tumblrなども含まれる[2][25][26]。
CommonPoolは、2023年4月に公開された、128億の画像とキャプションで構成されたtext-to-imageモデルのデータセットである[2]。他のデータセットと同様にコモン・クロールから取得された画像が利用されている[2]。マルチモーダルのデータセットのベンチマークDataCompの一部である[2]。
人権侵害・児童ポルノ・訴訟・問題点
LAION-5BなどLAIONの画像データセットには、様々な研究が示すように、強姦、性的画像、児童性虐待画像(CSAM)、ステレオタイプの中傷、人種差別や民族中傷、医療写真、戦争写真、事件や事故の犠牲者写真、想像上の侵攻画像、宗教的なタブー画像など、その他の極めて問題ある内容の画像が混ざっている[26][27][28][29][30][31]。また、バイエルン放送の調べでは、Hugging Faceから提供されるLAIONのデータセットの中に、多くのプライベート・機密データが入ってることが明らかになっている[6]。
2022年9月、アメリカの技術者アンディ・バイオは、大学や非営利団体などがデータセット開発を担うことが、大手企業による説明責任逃れの隠れ蓑になっていると見ている[18][32]。バイオは、学校などの研究施設や非営利団体のデータ収集とモデルの学習は、アメリカの著作権法で認可するフェアユースに当てはまるかもしれないが、企業がそのデータセットを訓練に使用して商用で画像を出力するのは、一種のデータロンダリングだと批判した[18][32]。
著作権
LAIONのデータセットが無断でWebからスクレイピングされて収集された画像であることは、アーティストからは「権利を侵害している」と批判の声が上がっている[30][33]。『名探偵ピカチュウ』にも参加したコンセプトアーティストのRJ Palmerも人間のアーティストを心配するコメントを出している[30]。一方2024年9月、ドイツ・ハンブルク地方裁判所 は写真家の著作権侵害の訴えを棄却している[34][35][36]。当事件は世界に先駆けたAI関連判決として注目されており[34][35][37]、"landmark" (今後の判例の分水嶺となるような) といった表現[37]で当判決の重要性を強調する文献も見られる。
2023年1月、アメリカでは、漫画家のサラ・アンダーセン、イラストレーターのケリー・マッカーナン、ビジュアルアーティストのカーラ・オーティスたちが、著作権侵害でありデジタルミレニアム著作権法に違反するとして、生成AIのStable DiffusionのStability AI社とMidjourneyと芸術家コミュニティのDeviantArtに対して集団訴訟を起こし、3社が使用したLAION-5Bのデータセットによる画像の無断使用を問題視した[24][10][38][39]。2024年1月、画像生成AI・Midjourneyが機械訓練に使用した1万6,000人以上のアーティスト名を記録したリストが見つかる。その中にはウォルト・ディズニーや草間彌生などの有名クリエイターの名前もあった[40]。ライアットゲームズの開発者ジョン・ラムによると、Midjourneyの開発者らが選んだアーティストたちである[40]。2023年に集団訴訟を起こしたアーティストも多くこのリストに入っていた[40]。イギリスのアーティストたちの間でもアメリカでのアーティストたちの訴訟に影響を受け、団結する必要があるという動きが出ている[10]。
DeviantArtはアメリカの芸術家コミュニティで3億5000万点以上の作品が投稿されていたが、作品がLAION-5Bを通してStable Diffusionに使用されたことが判明している[24]。バターリック弁護士によると、DeviantArtはAIから自社の投稿作品を守るどころか、自社から無許可に収集された画像のAI利用を放置したという[24]。弁護士は、DeviantArt投稿者の権利を侵害するLAION-5Bを使用したStable Diffusionを基盤にして有料の生成AIアプリDreamUpを公開したことを指摘した[24]。
AnlatanのNovelAIが使うデータセットLAION-5BにDanbooruの画像が入っていることが判明している[25][41]。DanbooruはpixivやX(旧Twitter)などのSNSに投稿された二次元イラストが転載されていることが問題になっているサイトである[25][41]。pixivでは、自身の作品のデータがAIに不正利用されており、pixivの対応が適切でないとしてユーザーたちの間で抗議の意味で非表示・削除にする動きが起こった[42]。
肖像権・プライバシー
2022年9月にアメリカ、ニューハンプシャー大学法学部のTiffany Li助教は、一般人の顔写真がLAIONに許諾なく使用されてることを指摘している[43]。また、LAION自体が画像を直接所有しないため、誰が最初に収集しデータセットに入れて公開したのかを特定するのが容易ではなく、責任者かを明確にして処罰するのも困難なことが問題を複雑化させているとも述べた[43]。カナダ・アメリカのメディアMotherboardは、プライバシー侵害の恐れとその解消が困難であり、それ以前に被害者本人が気づかない問題もあると警告する[43]。LAIONを含めて、LAIONのデータセットに関連するAI企業の多くは削除依頼や訴訟などで問題が発生した際に、悪いのは自分たちでなくインターネット全体であるとして責任をたらい回しにしたコメントを発表している[43][4][17][18]。
医療写真
2022年9月にアメリカ、カリフォルニアの画像生成AI利用者がLAION-5B内の画像を検索できる「Have I Been Trained?」を調べる中で自分の医療用の顔写真が含まれていることを発見する[16][17]。利用者がLAIONに削除の方法を問い合わせたが、LAION側からは自分たちは画像を直接所有してないため、所有するサイトに削除を依頼するのが最良だとの回答が返ってきた[16][17]。ニュースサイトArs Technicaの調査では同様の医療写真が数千枚見つかっている[16][17]。
事件・事故・災害などの犠牲者写真
2023年12月、読売新聞の取材でStability AIのStable Diffusionの使うLAION-5B内に事件や災害の犠牲者の写真が大量に取り込まれていることが判明した[44]。読売新聞によると、ニュースサイトや転載された掲示板などが収集元と考えられるという[44]。1997年に兵庫県で起きた神戸連続児童殺傷事件の被害児童や、2000年の東京の世田谷一家殺害事件の家族の写真、2015年に過労で自殺した電通の新入社員の顔写真も含まれていた[44]。 2001年のアメリカ同時多発テロ事件や2011年東日本大震災のなどテロや災害の犠牲者の写真も確認された[44]。電通の新入社員の遺族は、過重労働の実態や教訓を伝えるためと報道各社に顔写真を提供しており、AIのデータに使われたことに困惑してやめてほしいと訴えた。死者のデジタルデータの事情を良く知る関東学院大の教授は、犠牲者の遺族にはAIへの利用は想定外で死者の尊厳にもかかわると無断利用の問題を指摘した[44]。
児童性虐待写真
2023年12月20日、アメリカのスタンフォード大学インターネット観測所の研究者デビッド・ティールは、LAION-5Bに児童ポルノ=児童性虐待画像(CSAM)、が1008件見つかったことが外部で確認されており、疑いがあるものも入れると3226件あることに気づいて報告書を公開した[3][45][23]。これらCSAMは様々なwebサイト、ソーシャルメディア、アダルト動画サイトなどから収集されたことが判明している[23]。2023年12月、読売新聞が調査したところ、Stability AIの使うLAIONのデータセットに1993年出版の裸体の少女の写真集の画像を発見する[31]。また他児童の裸の写真が複数確認された[31]。LAIONは、スタンフォード大学が示した検証に対して「我々は違法コンテンツを一切許容しない」と声明を出し、LAION-5BとLAION-400Mを問題が解決するまで停止した[46][31][3]。 しかし、2024年2月、Stability AIの提携企業がデータセットの中に新たに児童の性的画像を見つけたことを明らかにした[31]。