ビッグデータ

ビッグデータ ^[1]^[2]（英: big data）とは、従来のデータベースや分析ソフトウェアでは処理が困難なほど大量かつ複雑なデータの集合、またはそれを収集・保存・分析するための技術や仕組みを指す。

ビッグデータの活用においては、データの収集、取捨選択、保存^[3]、検索、転送、分析^[4]、可視化などが課題となる。これらの課題を克服することで、企業活動の分析、医療や防犯分野への応用、交通状況の把握などに役立つとされている^[5]^[6]^[7]。

この用語はデータマイニング分野で用いられてきたが、2010年代に入ってからは社会的関心を集める流行語として、新聞や雑誌などでも広く使われるようになった^{[注釈 1]}。その後、人工知能（AI）関連技術の普及により、取り上げられる機会は減少している。

概要

データ量の上限

計算資源や処理時間には限界があるため、現実的に扱えるデータ量にも上限が存在する。2012年現在^[update]の上限は、エクサバイトのオーダーと見積もられている^[8]。

特にこの制約を受けやすい分野として、ゲノミクス、気象学^[9]、コネクトミクス、物理シミュレーション^[10]などの科学分野のほか、インターネット検索、金融などの企業活動にも影響を及ぼす。

近年データが増加している原因としては、モバイル端末、リモートセンシング、ソフトウェアログ、カメラ、マイク、無線ID、ワイヤレス・センサネットワークの普及とされている^[11]^[12]。

全世界の1人当たりの情報は1980年代以降40か月ごとに倍増し^[13]、2012年現在^[update]、1日あたり毎日250京（2.5×10¹⁸）バイトのデータが作成されたとされる^[14]。

課題

ビッグデータは、その規模や複雑性から、多くの関係データベース管理システムや従来のデータ分析ソフトウエアでは処理が困難である。そのため、数十台〜数千台のサーバ上で動作する「並列処理ソフトウェア」が必要となる^[15]。

大企業における課題としては、組織全体にまたがるビッグデータの主導権を誰が担うのかという点も挙げられる^[16]。また、ビッグデータの定義を明確にする事も企業毎の課題である。

成長と今後の展開

データセットは、リモートセンサー、モバイルデバイス、カメラ、マイク、無線周波数識別（RFID）リーダー、および類似のテクノロジーによって収集されるものが増えるにつれて、増え続けている。2.5エクサバイト（2.5Å〜1018バイト）のデータが毎日作成され、世界のデータの90％がわずか2年間に作成されたと推定した研究も存在する。これらの数値は、おそらく今日より高くなっている。

ビッグデータアプリケーションは、ビジネス、特にキャプチャして保存する大量のデータから利益を得るためにデータ製品とサービスを構築することを志向するビジネスにとって、ますます競争力のあるソースになりつつある。ビッグデータアプリケーションのメリットを享受する企業が増えるにつれて、企業にとってデータの活用がますます重要になることを示す兆候がある^[17]。

定義

一般に、ビッグデータは従来のソフトウエアの処理能力を超える規模のデータと定義されている^[18]。しかし、NoSQLを初めとするビッグデータ関連技術の普及により、数値による定義は時代とともに変化していく考えられている^[19]。

2001年の研究報告書^[20]において、ダグ・レイニー（METAグループ、現ガートナー）のアナリストは、データ量（Volume）、速度（Velocity）および多様性（Variety）の3要素に着目し、それぞれの英単語の頭文字を取って「3V」という概念を提唱した。

2012年、ガートナーはビッグデータの定義を以下のように更新している。

「ビッグデータとは、高容量、高速度、高多様性のいずれか、あるいは全てを備えた情報資産であり、新たな形の処理を必要とし、意思決定の高度化、洞察の発見、ならびにプロセスの最適化に寄与するものである」^[21]。

さらにこの定義に、正確さ（Veracity）を加えるべきだとする提案もある^[22]。

例

例としては、巨大科学、RFID、センサネットワーク、ソーシャルネットワーク、ビッグソーシャルデータ分析^[23] （ソーシャルデータ革命による）、インターネット文書、インターネット検索のインデックス作成、通話記録明細、天文学、大気科学、ゲノミクス、生物地球化学、生物学、他の複雑でしばしば学際的な科学研究、軍事偵察、新しい住宅購入者用の通勤時間予測、医療記録、写真アーカイブ、ビデオアーカイブ、大規模なeコマースがある^[24]。

巨大科学

大型ハドロン衝突型加速器 (LHC) では約1億5000万のセンサーが毎秒40万のデータを発生させる。毎秒ほぼ6億回の衝突がある。99.999％のデータをフィルタリング・除去処理し、1秒あたり100の衝突が有用なデータとなる^[25]^[26]^[27]。その後、センサデータの0.001％未満を処理する。すべての4つのLHC実験は1年に25ペタバイトを発生する。これは複製後約200ペタバイトになる。もし全てのセンサデータがLHCで記録されるなら、データの処理は著しく困難になるであろう。データは複製前で1年に1.5億ペタバイト、すなわち一日あたり約500 エクサバイトを超えてしまうであろう。この数字は一日あたり5垓（5×10²⁰）バイトで、世界すべての情報源を合計した数値の約200倍である。

科学研究

スローン・デジタル・スカイサーベイ（SDSS）は2000年に天文データを収集し始めたが、最初の数週間で天文学の歴史の中で収集したすべてのデータよりも、多くのデータを蓄積した。SDSSは、1晩約200GBの割合で継続して、140テラバイト以上の情報を集めている。SDSSの後継である、大型シノプティック・サーベイ望遠鏡は、2016年に運用開始後、同じ量のデータを5日おきに取得すると期待されている^[5]。
ヒトゲノム計画は当初その処理に10年かかったが、今では一週間も経たないうちに達成することができる。DNAシーケンサは、過去10年間でシーケンシングのコストを1万分の1に削減した。これはムーアの法則の100倍である^[28]。
計算機社会科学 — Tobias Preis et al. はGoogle Trendsデータを使用し、高いGDPを持つ国のインターネットユーザは、過去よりも将来の情報を検索することを示した。調査結果により、インターネット上の行動と現実世界の経済指標との間に関連性が存在することが示唆された^[29]^[30] ^[31]。著者らは、2010年に45の異なる国でインターネットユーザーによるGoogleのクエリのログを調べ、前年の検索のボリューム（2009年)と来年（2011年）の検索のボリュームを比較し、「将来期待指数」と呼んでいる^[32]。著者らは、それぞれの国の1人当たりGDPと将来期待指数を比較し、将来についてより検索が多いGoogleユーザは高いGDPを持つ傾向があることを発見した。
NASA気候シミュレーションセンター（NCCS）^[33]は32ペタバイトの気象観測、シミュレーションデータをDiscoverスーパーコンピューティングクラスタ上に格納している^[34]。
Tobias Preisと共同研究者のHelen Susannah Moat、ユージン・スタンレーは、Google Trendsにより提供される検索ボリュームデータに基づく取引戦略を用いて、インターネット上の株価の動きを予測する方法を紹介した^[35]。金融に関連した98の用語のGoogle検索ボリュームの分析はScientific Reportsに掲載され^[36]、金融に関連した検索語は、金融市場の大きな損失より前に出ていることを示した^[37]^[38]^[39]^[40]^[41]^[42]^[43]^[44]。

政府機関

2012年、オバマ政権は政府が直面する重要問題への対処に利用できるかを探るため、「ビッグ・データ・リサーチ・イニシアティブ」を発表した^[45]。イニシアティブは、6つの部門にまたがって84の異なるプログラムから構成されていた^[46]。
ビッグデータ分析は、バラク・オバマの2012年の再選運動に大きな貢献を果たした^[47]。
米国連邦政府は、世界Top10のスーパーコンピュータのうち6台を所有している^[48]。
ユタ・データ・センターは、現在、米国・国家安全保障局（NSA）によって建築中のデータセンターである。建設後は、インターネット上でPRISMによって収集されたヨタバイトの情報を扱うことができるようになる^[49]^[50]。
民商事分野の判決のビッグデータ活用は、法律家の支援ツール開発などにつながり、紛争解決の迅速化や紛争予防に資するとの展望から、政府が裁判所から判決文の提供を受け、AI技術による匿名処理を施した上でDB化する計画が進められている^[51]^[52]。
福岡県警察は、ビッグデータを活用して、指定暴力団・工藤會による襲撃から証人や情報提供者を警護するため、組員らの行動パターンを基に襲撃の予兆を把握するシステムを開発。捜査員が尾行で確認した組員らの動向や車両の使用状況といったデータをコンピュータ解析し、襲撃時期や地域を予測する。組員や車両が襲撃の予兆となる特異な動きを見せると検知し、危険度に応じて、最重要対象者を24時間態勢で警護する^[53]^[54]。

民間部門

Googleは、Google マップにおいて、スマートフォンのGPSおよびジャイロセンサーにより測定された位置および移動速度^[55]を、多数の端末から匿名情報として収集して分析し、マップ上に道路の混雑状況を表示する。さらに、Google マップナビにおいて、目的地までの経路の混雑状況に応じた通過速度を計算し、最適経路をユーザーにナビゲーションする^[56]。
ウォルマートは1時間あたり百万以上のトランザクションを処理し、2.5ペタバイトのデータを保持する。これはアメリカ議会図書館に所蔵されているすべての書籍の167倍の情報量である^[5]。
Facebookは、ユーザーの500億枚の写真を処理している^[57]。
FICOファルコンクレジットカード詐欺検知システムは、世界全体で21億のアクティブなアカウントを保護している^[58]。
ウィンダミア不動産は約1億の匿名のGPS信号を使用し、新しく家を買う人に1日の時間帯毎の通勤時間を提供している^[59]。
ソフトバンクは、月間約10億件（2014年3月現在）の携帯電話のログ情報を処理して、電波の接続率の改善に役立てている^[60]。
トヨタは、車載通信機（データ・コミュニケーション・モジュール：DCM）から車両データを送信し、トヨタスマートセンター内のトヨタビッグデータセンター（TBDC）に蓄積する。収集したデータを解析し、各種サービスへの展開に利用するとしている^[61]。

途上国の開発

ここ数十年で情報通信技術開発 (ICT4D)の分野で研究が進み, ビッグ・データが途上国の開発にも有用であることが示唆された^[62]^[63]。ビッグデータの出現は、医療、雇用、生産性、犯罪や公衆安全、自然災害や資源管理などの重要な開発分野の意思決定を改善する^[64]。その一方でビッグデータのよく知られた問題、例えば、プライバシー、相互運用性、不完全アルゴリズムを全知全能にする問題は、技術インフラの不足、経済および人的資源の不足のような未解決課題を悪化させている。これは新たな情報格差、意思決定の格差に繋がる^[64]。

市場性

ストレージコストの継続的な低下、データマイニングおよびビジネスインテリジェンス（BI）ツールの成熟、組織に大量の備蓄を引き起こした政府の規制や裁判など、多くの要因が「ビッグデータ」とビジネスネットワークの統合に貢献している^[17]。

ビッグデータの専門家の需要は増加しておりSoftware AG、オラクル、IBM、マイクロソフト、SAP、EMC、HPといった企業は、データ管理と分析だけを専門とするソフトウェア会社に150億ドル以上を費やしている。2010年には1000億ドル以上の業界価値があり、年間約10％で成長していた。これはソフトウェアビジネス全体の約2倍の速さである^[5]。

全世界の携帯電話契約数は約46億であり、10から20億人がインターネットにアクセスしている^[5]。通信ネットワークを介して交換される容量は、1986年に281ペタバイト、1993年に471ペタバイト、2000年には2.2エクサバイト、2007年には65エクサバイトであった^[13]。インターネット上のトラフィック量は2013年までに667エクサバイトに達すると予測されている^[5]。

解析・処理技術

インフラストラクチャー

従来のビジネスデータストレージおよび管理テクノロジには、リレーショナルデータベース管理システム（RDBMS）、ネットワーク接続ストレージ（NAS）、ストレージエリアネットワーク（SAN）、データウェアハウス（DW）、およびビジネスインテリジェンス（BI）分析が含まれる^[17]。従来のデータウェアハウスとBI分析システムは、企業インフラストラクチャ内で高度に集中化される傾向がある。これらには、RDBMS、高性能ストレージ、およびデータのマイニングと視覚化のためのオンライン分析処理（OLAP）ツールなどの分析ソフトウェアを備えた中央データリポジトリが含まれることがよくある。

ソフトウエア

2004年、GoogleはMapReduceと呼ばれるビッグデータ処理技術の論文を発表した^[65]。これはデータ処理を分割し、複数のコンピュータで並列に実行するものである。この分割と並列処理のステップを「マップ（Map）」と呼ぶ。各コンピュータの処理結果は最終的に一つに集められ、解析者に配信される。これを「リデュース（Reduce）」と呼ぶ。この技術は成功を収めた^[要説明]ので、そのアルゴリズムを再現しようとした者もいた。実際にMapReduceはHadoopという名前で、Apacheのオープンソースプロジェクトに採択された。

2011年マッキンゼーレポートによると^[66]、以下の技術が必要と示唆された。 A/Bテスト、相関ルールの学習、統計分類、データ・クラスタリング、クラウドソーシング、データ融合と統合、アンサンブル学習、遺伝的アルゴリズム、機械学習、自然言語処理、ニューラルネットワーク、パターン認識、異常検出、予測モデリング、回帰分析、感情分析、信号処理、教師あり学習と教師なし学習、シミュレーション、時系列解析、可視化である。多次元ビッグデータはテンソルとして表現でき、これは多線部分空間学習のようなテンソル・ベース計算にて効率的に処理できる^[67]^[68]。

さらに関連技術には、超並列処理（MPP）データベース、検索ベースのアプリケーション、データマイニンググリッド、分散ファイルシステム、分散データベース、クラウドコンピューティングとインターネットがある^[要出典]。一部のMPPリレーショナルデータベースは、ペタバイトを格納および管理する能力を持っている。加えて、暗黙的にRDBMSをロード、監視、バックアップする能力も必要となる^[69]^[70]。

ハードウェア

ビッグデータ分析の専門家は、一般的に遅い共有ストレージを敵視し^[71]、ソリッドステートドライブ（SSD）やダイレクトアタッチトストレージ（DAS）を好む。ストレージエリアネットワーク (SAN)やネットワークアタッチトストレージ (NAS)は遅く、複雑で、高価であると認識される。容易に入手可能で低コストなハードウエアをベースに成長するビッグデータ分析システムにこれらは適さない。

研究活動

2012年3月に、ホワイトハウスは6連邦政府省庁および政府機関で構成される「ビッグデータイニシアティブ」を発表した^[72]。2億ドル以上の予算が付与された。

これにはカリフォルニア大学バークレー校^[73]^[74] AMPLabへの、全米科学財団「計算機科学の探検」研究費、5年間 $1千万ドルが含まれる。AMPLabは加えてDARPAと10以上の産業界からの資金提供を受け、交通の混雑の予測^[75]、がん対策のような広範囲の課題に挑戦する^[76]。

このイニシアティブにはまた、エネルギー省のローレンス・バークレー国立研究所が率いるスケーラブル・データ管理・分析・可視化(SDAV)研究所^[77]への5年間 $25百万ドルの資金提供も含まれる。SDAV研究所は、科学者が省のスーパーコンピュータ上のデータを管理、可視化するための新しいツールの開発を目指す。このために6国立研究所と7大学の専門知識を結集することを目指している。

米国マサチューセッツ州は、2012年5月に「マサチューセッツ州ビッグデータイニシアティブ」を発表し、州政府や民間企業が資金を提供している^[78]。マサチューセッツ工科大学はThe Intel Science and Technology Center for Big Data をMITコンピュータ科学・人工知能研究所で主催した^[79]。

欧州委員会はビッグデータ・プライベート・フォーラム^[80]に資金提供する。これには企業、教育機関、その他のビッグデータ関係者が参加している。プロジェクトの目標は、研究と技術革新の面で戦略を定義することである。このプロジェクトの成果は、次のフレームワークプログラムであるHorizon 2020^[81]で利用される^[82]。

IBMは毎年開催される学生の国際プログラミングコンテスト、"Battle of the Brains"のスポンサーとなった^[83]。ビッグデータ世界選手権は、2014年にテキサス州オースチンで初めて開催された^[84]^{[注釈 2]}。

批判

ビッグデータパラダイムへの批判

実証科学の性質による根本的な限界があるので、ビッグデータパラダイムは実証科学によるものなので、ビッグデータにも実証科学と同様の限界がある^[86]。

2012年4月のハーバードビジネスレビューの記事によると、ビッグデータはどんなにわかりやすく分析されたとしても、大きな決断（ビッグディシジョン）によって補完されなければならないとされた^[87]。同時に、ビッグデータの解析結果は「過去に知られたものか、良くても現在のもの」にしかならないと指摘された^[64]。過去の経験が多数入力されれば、過去と同じ事象を予想する可能性がある。

要するに、想像力を使わずにビッグデータだけで論理的な推論を行うことは、革命的な視点を生み出すことはできない。パラダイムから独立して科学的に真偽を決定することは不可能である^[88]。オットー・ノイラートは科学を、外海に再建しなければいけないボートと比較している^[89]。

データの統計的処理では科学的であったが、なぜ錯覚が生まれるかというメカニズムの解明では、仮説を立て実験データとの照合を論じてはいたものの、その仮説自体はやはり思弁に過ぎなかった。脳科学の進歩によって急速に、認識論と存在論の2つの世界は大きく浸食されつつある^[90]。脳細胞をシミュレートする深層学習技術は、10年前の人間の想像を超えているということである。機械学習とディープラーニングを使用したビッグデータは、10年前の限界を超えている^[91]。

科学的観点からの批判

ダナ・ボイドは標本調査に基づき代表的な母集団を選ぶという科学の基本的原則を無視し、異種のデータ源から成る大量のデータの処理にこだわることに懸念を示した^[92]。このやり方は、偏った結果につながる可能性があるにもかかわらず、多くの科学者はこのような統合は最も有望な科学の最先端と主張している^[93]。