データジャーナリズム

報道
ニュース / スタイル倫理 / 客観性（英語版）価値（英語版） / 情報源（英語版）名誉毀損編集の独立（英語版）ジャーナリズムスクール（英語版）
分野
芸術（英語版） / 経済（英語版）エンタテインメント（英語版）環境（英語版） / ファッション（英語版）医療（英語版） / 政治（英語版）科学（英語版） / スポーツ（英語版）テクノロジー（英語版） / 貿易（英語版）交通 / 天気 / 世界（英語版）
ジャンル
支援（英語版） / 分析（英語版） / 放送（英語版）市民 / シビック（英語版）協力（英語版） / 交流（英語版） / データベース（英語版）ゴンゾー / 調査 / 文学（英語版）マックレーカー（英語版） / ナラティブ（英語版） "ニュー・ジャーナリズム" 非営利（英語版） / オンライン（英語版） / 意見（英語版）平和（英語版） / 写真 / 視覚（英語版） / 番犬（英語版）
社会的影響
第四の権力報道の自由 / 報道しない自由インフォテインメント（英語版）偏向報道パブリック・リレーションズイエロー・ジャーナリズムピンクスライム・ジャーナリズム
報道機関
新聞社 / 出版社放送局インターネット通信社代替メディア（英語版）
役割
ジャーナリスト / 記者編集者 / コラムニストコピーエディター（英語版）天気キャスター / 気象学者 / 気象予報士ニュースキャスター解説委員 / 解説者写真家
カテゴリ
表話編歴

データジャーナリズム（でーたじゃーなりずむ、英: Data journalism）またはデータ駆動型ジャーナリズム（DDJ)とは、ニュース記事を作成・強化する目的で大規模なデータセットのフィルタリングと分析に基づいたジャーナリズムである。

データジャーナリズムは、デジタル時代における情報の制作と配信における数値データの役割の増大を反映している。これは、ジャーナリズムとデータ可視化（英語版）、コンピュータサイエンス、統計学などの他の分野との融合を含み、「異なる分野から引き出された重複する一連の能力」である^[1]。

データジャーナリズムは、いくつかの概念を統合し、それらをジャーナリズムに結びつけるために広く使用されてきた。一部の人々は、これらをジャーナリスティックプロセスにおける新技術のより単純な使用からより複雑な使用に至るレベルまたは段階と見なしている^[2]。

多くのデータ駆動型の記事は、オープンソースソフトウェア、オープンアクセス出版、オープンデータなどの新たに利用可能になったリソースから始まる一方、他のものは公的記録の請求（英語版）や流出資料の産物である。このジャーナリズムへのアプローチは、特に米国で何十年も使用されてきたコンピュータ支援報道（英語版）（CAR）というラベルを含む、より古い実践に基づいている。部分的に類似したアプローチに対する他のラベルには、1972年に出版されたフィリップ・マイヤーの本に基づく「精密ジャーナリズム」があり^[3]、その中で彼は記事の調査における社会科学からの技術の使用を提唱した。データ駆動型ジャーナリズムはより広いアプローチを持つ。そのプロセスの核心は、オンラインで自由に利用できるオープンデータの可用性の増加に基づいており、オープンソースツールで分析される^[4]。データ駆動型ジャーナリズムは、一般市民や特定のグループまたは個人がパターンを理解し、その発見に基づいて決定を下すのを支援することで、公共のための新しいレベルのサービスに到達するよう努力している。そのため、データ駆動型ジャーナリズムは、ジャーナリストを新しい方法で社会に関連する役割に置くのに役立つ可能性がある。

データに基づいた物語を語ることが主な目標である。データからの発見は、あらゆる形式のジャーナリスティックライティング（英語版）に変換できる。可視化は、複雑な状況を明確に理解するために使用できる。さらに、ストーリーテリングの要素を使用して、発見が実際に何を意味するのかを、その発展の影響を受けた人の視点から説明することができる。データとストーリーのこの関係は、関連性があるが理解が難しい発展と、検証可能で信頼性があり関連性があり覚えやすいストーリーとの間のギャップを埋めようとする「新しいアーク」と見なすことができる。

ヴェグリスとブラツァスはデータジャーナリズムを「データから有用な情報を抽出し、その情報に基づいて記事を書き、読者がストーリーの重要性を理解したり、自分に関連するデータを特定したりするのに役立つ可視化（場合によっては対話型）を記事に埋め込むプロセス」と定義した^[5]。

アントノプロスとカリオタキスはデータジャーナリズムの実践を「統計の使用と調査によってレポートとニュース記事を強化する方法であり、ニュース記事に対するより深い洞察を提供し、関連データを強調するためのものである。ジャーナリズムのデジタル時代における1つのトレンドは、テーブル、グラフ、マップ、インフォグラフィック、マイクロサイト、バーチャルワールドなどのデータ可視化ツールを通じて対話型オンラインコンテンツとして情報を一般に広めることであった。このようなデータセットの詳細な調査は、関心のあるタイムリーなトピックに関するより具体的な結果と観察につながる可能性がある。さらに、データジャーナリズムは、一見ニュース報道の優先事項ではなかった隠れた問題を明らかにする可能性がある」と定義している^[6]。

建築家でマルチメディアジャーナリストのミルコ・ローレンツによると、データ駆動型ジャーナリズムは主に次の要素から成るワークフローである：スクレイピング、クリーニング、構造化によるデータへの深い掘り下げ、特定の情報をマイニングすることによるフィルタリング、可視化、そしてストーリーの作成^[7]。このプロセスは、個人の関心と幅広い一般の関心に対応する結果を提供するために拡張することができる。

データジャーナリズムのトレーナーであり作家であるポール・ブラッドショー（英語版）は、データ駆動型ジャーナリズムのプロセスを同様の方法で説明している：データは発見されなければならず、これにはMySQLやPythonのような専門的なスキルが必要かもしれない、次に尋問し、これには専門用語と統計の理解が必要であり、最後にオープンソースツールの助けを借りて可視化しマッシュアップする^[8]。

データレポーターでウェブストラテジストのヘンク・ファン・エス（2012年）からは、より結果志向の定義が来ている^[9]。「データ駆動型ジャーナリズムは、記者がオープンツールを使用するかどうかにかかわらず、かなりの量のデータ（任意の形式で）を見つけ、処理、提示するワークフローを通じて、未発表のストーリーを伝えたり、新しい角度を見つけたり、ストーリーを完成させたりすることを可能にする。」ファン・エスは、データ駆動型ワークフローの一部が「良いストーリーテリングの法則と同調していない」製品につながると主張している。なぜなら、その結果は問題を説明するのではなく、問題を示すことに重点を置いているからである。「良いデータ駆動製品には異なる層がある。関連する情報を掘り下げることによって、あなただけに重要なパーソナライズされた情報を見つけることを可能にするだけでなく、大きな全体像を把握するためにズームアウトすることも可能にする。」

2013年、ファン・エスは^[10]で可視化を必ずしも含まない短い定義を提示した：「データジャーナリズムは、関連するストーリーが可能になる前にツールで最初に処理する必要があるデータに基づくことができる。それは必ずしも可視化を含まない。」

しかし、データジャーナリズムを定義する上での問題の1つは、多くの定義が十分に明確ではなく、情報の最適化、分析、可視化の計算方法を説明することに焦点を当てていることである^[11]。

概念としての出現

「データジャーナリズム」という用語は、1960年代半ばから始まる彼の仕事を通じて、米国が黄金時代に入ったという理論を支持するために統計とナラティブを重ね合わせた政治評論家ベン・ワッテンバーグ（英語版）によって造られた^[12]^[13]。

ジャーナリズムにコンピュータを使用した最も初期の例の1つは、CBSが大統領選挙の結果を予測するためにメインフレームコンピュータを使用した1952年の試みにまでさかのぼるが、データ分析にコンピュータを使用することがより広く採用され始めたのは1967年までではなかった^[14]。

当時デトロイト・フリープレス（英語版）で働いていたフィリップ・マイヤー（英語版）は、都市全体に広がる暴動についての報道を改善するためにメインフレームを使用した。データ分析をジャーナリズムに取り入れる新しい先例が設定され、マイヤーは1970年代にフィラデルフィアでの有罪判決のパターンを調査するためにドナルド・バートレット（英語版）とジェームズ・スティール（英語版）と協力した。その後、マイヤーはこれらの技術をジャーナリズムにデータ分析を組み合わせるための『精密ジャーナリズム』という本を書いた。

1980年代の終わりにかけて、コンピュータ支援報道の分野を正式に組織化するのに役立つ重要な出来事が起こり始めた。調査報道記者のビル・デッドマン（英語版）（アトランタ・ジャーナル・コンスティテューション（英語版））は、中所得層の黒人居住区での銀行やその他の住宅ローン貸付機関による人種差別を分析したCAR技術を使用した1988年のシリーズ『お金の色』で1989年にピューリッツァー賞を受賞した^[15]。コンピュータ支援報道のための全米研究所（NICAR）^[16]は、調査報道記者とエディター（英語版）（IRE）と協力してミズーリ・ジャーナリズム・スクール（英語版）に設立された。CARに特化した最初の会議は、NIEARとインディアナ大学のジェームズ・ブラウンによって企画され、1990年に開催された。NICAR会議は毎年開催されており、現在はデータジャーナリストの最大の集まりとなっている。

データジャーナリズムはコンピュータ支援報道の実践者によって何十年も非公式に使用されてきたが、主要ニュース組織による最初の記録された使用は、2009年3月にデータブログを立ち上げたガーディアンである^[17]。そして、この用語の父性は議論の余地があるものの、2010年7月のウィキリークスのアフガニスタン戦争文書のリーク（英語版）以来広く使用されている^[18]。

ガーディアンの戦争日誌の報道は、グーグル・フュージョン・テーブル（英語版）などの無料のデータ可視化ツールを活用し、これはデータジャーナリズムのもう一つの一般的な側面である。『ガーディアン』のデータブログ編集者であるサイモン・ロジャース（英語版）による『事実は神聖である』^[19]は、データジャーナリズムをこのように説明している：

「コメントは自由だが、事実は神聖である」とCPスコット『ガーディアン』編集者は1921年に書いた。90年後、これらの神聖な事実を公開することはそれ自体が新しいタイプのジャーナリズムになった：データジャーナリズムだ。そしてそれは急速に定着しつつある。

調査的データジャーナリズムは、データジャーナリズムの分野と調査報道を組み合わせたものである。調査的データジャーナリズムの例は、大量のテキストデータや財務データの研究である。調査的データジャーナリズムは、大規模なデータセットの処理のためのビッグデータ分析の分野にも関連している^[20]。

この概念の導入以来、多くのメディア企業がニュースルーム向けの可視化を開発する「データチーム」を創設している。最も注目すべきなのは、ロイター^[21]、プロパブリカ^[22]、『ラ・ナシオン』（アルゼンチン）^[23]などのチームである。ヨーロッパでは、『ガーディアン』^[24]と『ベルリナー・モルゲンポスト』^[25]が非常に生産的なチームを持っており、公共放送局も同様である。

議員経費スキャンダル（2009年）（英語版）や2013年の「オフショアリークス」の公開などのプロジェクトが示すように、データ駆動型ジャーナリズムは時に「あまりオープンでない」つまり秘密のデータを扱う調査的役割を担うことがある。

毎年のデータジャーナリズム賞^[26]はこの分野における優れた報道を表彰しており、近年の多くのピューリッツァー賞もデータ駆動型のストーリーテリングに授与されている。これには2018年の国際報道ピューリッツァー賞^[27]や2017年の公共サービスピューリッツァー賞^[28]が含まれる。

分類法

多くの学者がデータジャーナリズムプロジェクトのさまざまな分類法を提案している。ミーガン・ナイトは、データジャーナリズムプロジェクトを制作するために必要な解釈と分析のレベルに基づいた分類法を提案した。具体的には、分類法には次のものが含まれていた：数字の引用、静的マップ、リストとタイムライン、表、グラフとチャート、動的マップ、テキスト分析、およびインフォグラフィック^[29]。

サイモン・ロジャースは5つのタイプのデータジャーナリズムプロジェクトを提案した：事実のみによるもの、データベースのニュース記事、地域データを語るもの、分析と背景、そして深い調査^[30]。マーサ・カングは7つのタイプのデータストーリーについて論じた：時間の経過による変化を語る、大きく始めて掘り下げる、小さく始めてズームアウトする、対比を強調する、交差を探る、要因を解剖する、そして外れ値をプロファイルする^[31]。

ヴェグリスとブラツァスは、聴衆に情報を提示する方法に基づいた別の分類法を提案した。彼らの分類法は階層的構造を持ち、次のタイプを含んでいた：数字のみのデータジャーナリズム記事、表を含むもの、可視化（対話型と非対話型）を含むもの。また、対話型可視化を含むストーリーの場合、彼らは3つの異なるタイプを提案した：伝送型、相談型、および会話型^[32]。

データ品質

多くの調査では、見つかるデータに欠落があったり誤解を招いたりする可能性がある。データ駆動型ジャーナリズムの一つの層として、データ品質の批判的検証が重要である。他のケースでは、データが公開されていなかったり、さらなる分析に適した形式になっていなかったりする場合がある。例えば、PDFでのみ利用可能な場合などである。ここでは、データ駆動型ジャーナリズムのプロセスがデータ品質についての物語や、機関によるデータ提供の拒否についての物語に変わる可能性がある。全体的な実践がまだ初期段階にあるため、データソース、データセット、データ品質およびデータ形式の検査は、この作業の同様に重要な部分である。

データ駆動型ジャーナリズムと信頼の価値

事実とイベントの原動力をより深く見る視点に基づいて、メディア戦略の変更が提案されている：この見解では、「注目から信頼へ」移行するという考え方がある。メディアビジネスモデルの柱であった注目の創出は、新しいイベントの報告が多くの場合、ツイッターなどの新しいプラットフォームを通じて伝統的なメディアチャネルよりも速く配信されるため、その関連性を失っている。一方、信頼は希少な資源として理解できる。ウェブを通じて情報を配布することははるかに簡単で速くなったが、提供物の豊富さが任意のストーリーの内容を検証・確認するコストを生み出し、機会を創出する。メディア企業を信頼されるデータハブに変換するという見方は、2011年2月にOwni.eu^[33]とNieman Lab^[34]で共同発表された記事で説明されている。

データ駆動型ジャーナリズムのプロセス

生データをストーリーに変換するプロセスは、精製と変換に似ている。主な目標は、受信者が行動を起こせる情報を抽出することである。データジャーナリストの任務は、隠れているものを抽出することである。このアプローチは、財政、健康、環境、その他の公共の関心がある分野など、ほとんどあらゆる文脈に適用できる。

データジャーナリズムの逆ピラミッド

2011年、ポール・ブラッドショーは「データジャーナリズムの逆ピラミッド」と呼ぶモデルを紹介した。

プロセスのステップ

これを達成するために、プロセスはいくつかのステップに分割する必要がある。結果につながるステップは異なる場合があるが、6つのフェーズを見ることで基本的な区別ができる：

検索：ウェブ上でデータを検索する
クリーニング：データをフィルタリングして変換するプロセス、可視化の準備
可視化：パターンを静的または動的な視覚として表示する
公開：ビジュアルを統合し、ストーリーにデータを添付する
配布：ウェブ、タブレット、モバイルなど、さまざまなデバイスでのアクセスを可能にする
測定：時間の経過に伴うデータストーリーの使用状況と使用範囲を追跡する

ステップの説明

データの検索

データは、data.gov、data.gov.uk（英語版）、World Bank Data API^[35]などの政府データベースから直接入手できるほか、政府機関に情報公開請求を行うことでも入手できる。一部の請求は英国のWhat Do They Knowなどのウェブサイトで行われ、集計されている。データの公開に向けた世界的なトレンドはあるものの、その情報が使用可能な形式で自由に利用できる程度には国による違いがある。データがウェブページにある場合、スクレイパーを使用してスプレッドシートを生成する。スクレイパーの例としては：WebScraper、Import.io、QuickCode（英語版）、OutWit Hub（英語版）、Needlebase（2012年に終了^[36]）などがある。他のケースではOCRソフトウェアを使用してPDFからデータを取得できる。

データは、2012年3月にハンブルクのデータジャーナリズム会議でヘンク・ファン・エスが示したように、クラウドソーシングを通じて一般の人々によっても作成される場合がある^[37]。

データのクリーニング

通常、データは簡単に可視化できる形式ではない。例えば、データポイントが多すぎたり、行と列を別の方法で並べ替える必要があったりする場合がある。もう一つの問題は、一度調査すると、多くのデータセットをクリーニング、構造化、変換する必要があることである。OpenRefine（オープンソース）、Data Wrangler、Google スプレッドシート^[38]などのさまざまなツールを使用すると、データのアップロード、抽出、またはフォーマットが可能になる。

データの可視化

グラフやチャートの形でデータを可視化するには、Many EyesやTableau PublicTableau Publicなどのアプリケーションが利用できる。Yahoo! PipesやOpen Heat Map^[39]は、データスプレッドシートに基づいてマップを作成できるツールの例である。オプションとプラットフォームの数は拡大している。一部の新しい提供物はデータの検索、表示、埋め込みのオプションを提供しており、Timetric^[40]などがその例である。

有意義で関連性のある可視化を作成するために、ジャーナリストは増加するツールを使用している。現在、何を探し、どのように行うかについての説明がいくつか公開されている。最も注目すべき発表された記事は次のとおりである：

ジョエル・ガンター：「#ijf11：ニューヨーク・タイムズからのデータジャーナリズムのレッスン」^[41]
スティーブ・マイヤーズ：「データ可視化をレポーティングツールとして使用することで、ストーリーの形を明らかにできる」、サラ・コーエンによるチュートリアルへのリンクを含む^[42]

2011年現在、canvasタグを使用したHTML 5ライブラリの使用が人気を集めている。データをさまざまな形式でグラフ化できるライブラリが数多く存在する。一例としてRGraph（英語版）がある^[43]。2011年現在、データを可視化できるJavaScriptライブラリのリストが増えている^[44]。

データストーリーの公開

データと可視化を公開するためのさまざまなオプションがある。基本的なアプローチは、ウェブ動画の埋め込みと同様に、データを単一のストーリーに添付することである。より高度な概念では、一つのページに複数の可視化、記事、データへのリンクを表示する単一のドシエを作成できる。多くの場合、このようなスペシャルは個別にコーディングする必要がある。なぜなら、多くのコンテンツ管理システムは、発行日に基づいて単一の投稿を表示するように設計されているからである。

データの配布

既存のデータへのアクセスを提供することは、重要性が高まっているもう一つのフェーズである。これらのサイトを「マーケットプレイス」（商業的または非商業的）と考え、データセットが他者によって簡単に見つけられるようにする。特に記事の洞察がオープンデータから得られた場合、ジャーナリストは使用したデータへのリンクを他の人が調査できるように提供すべきである（新たな洞察につながる可能性のある別の照会サイクルを開始する可能性がある）。

データへのアクセスを提供し、グループがどのような情報を抽出できるかを議論できるようにすることは、Buzzdata^[45]の背後にある主なアイデアである。このサイトでは、共有やフォローなどのソーシャルメディアの概念を使用して、データ調査のためのコミュニティを作成している。

データの収集または配布の両方に使用できる他のプラットフォーム：

Help Me Investigate（ポール・ブラッドショーによって作成）^[46]
Timetric^[47]
ScraperWiki^[48]

データストーリーの影響の測定

プロセスの最後のステップは、データセットや可視化が閲覧された頻度を測定することである。

データ駆動型ジャーナリズムの文脈では、ユーザーデータやマーケティング目的やユーザー制御を超えた他の用途に使用される可能性のある他の情報の収集など、そのような追跡の範囲は問題視されるべきである。使用状況を測定するための新しい非侵入的なオプションの1つは、PixelPingと呼ばれる軽量トラッカーである。このトラッカーは、プロパブリカとDocumentCloud（英語版）によるプロジェクトの結果である^[49]。データを収集するための対応するサービスがある。このソフトウェアはオープンソースであり、GitHubからダウンロードできる^[50]。

例

データ駆動型ジャーナリズムの適用方法の例は増えている。この分野のパイオニア的なメディア企業の1つである『ガーディアン』（「ガーディアンにおけるデータジャーナリズム：それは何であり、私たちはそれをどのように行うのか？」^[51]を参照）は、データ記事の広範なリストをまとめている。「すべてのデータジャーナリズムを1つのスプレッドシートに」を参照^[52]。

データ駆動型ジャーナリズムの他の著名な使用例は、内部告発組織ウィキリークスによるアフガニスタン戦争日記（英語版）の公開に関連している。これは2004年から2010年にかけてのアフガニスタン戦争に関する91,000件の秘密軍事報告書の概要である^[53]。3つの世界的なブロードシート紙、すなわちガーディアン、ニューヨーク・タイムズ、デア・シュピーゲルが広範なセクションを専用にした^[54]^[55]^[56]。ガーディアンの報道には、16,000件のIED攻撃のタイプ、場所、犠牲者を示すインタラクティブマップが含まれていた^[57]。ニューヨーク・タイムズは、下線が引かれたテキストの上にマウスを置くことで軍事用語の説明を明らかにする報告書の選択を公開した^[58]。一方、デア・シュピーゲルは、反乱軍の爆弾攻撃に関連する死亡者数などのトピックについてハイブリッド可視化（グラフとマップの両方を含む）を提供した^[59]。イラク戦争ログ（英語版）のリリースについて、『ガーディアン』はグーグル・フュージョン・テーブル（英語版）を使用して、誰かが死亡したすべての事件のインタラクティブマップを作成した^[60]。これは2011年のイングランドの暴動でも再び使用された手法である^[61]。