データ保存
From Wikipedia, the free encyclopedia
長い年月をかけて収集された歴史的データのほとんどは、失われるか破壊されてきたのが実態である。戦争や自然災害が発生したり、データを保存・保護するための資材が欠如していたり、必要な対応が施されていなかったりなど、さまざまな要因が入り混じってそのような事態が引き起こされてきた。おおむね、政府の記録・統計、法律上の契約や経済的取引に関わる文書類など、もっとも重要な類のデータセットだけが意図的に残されてきたといえる。科学研究や学位論文のデータについては、管理の不十分さやデータ保存に対する認識の低さから、そのほとんどが失われてきた[4]。だが現代では、データ保存の重要性に対する意識が高まりを見せている。データを保存するうえではさまざまな方法があり、そうした取り組みを行う重要な組織も多数存在している。
デジタルデータの保存用ストレージ製品が最初に登場したのは1950年代で、基本はフラットないし階層構造のものであった[5]。こうした製品には諸々の問題が残っていたが、それまでと比べてデータの保管コストがはるかに安価になり、アクセスも容易になった。1970年代には、関係データベースとスプレッドシートが現れる。関係データベースは構造化された問い合わせ言語を使ってデータを表形式で構造化するもので、以前の種類のストレージよりも効率的であった。スプレッドシートでは大量の数値データを保持し、関係データベースに適用して派生データを生成することができる。さらに近年では、関係データベースを補完するものとして、非構造化ないし半構造化データを大量に保持する非関係データベース(非構造化クエリ言語)が出てきた[4]。
重要性
データ保存の範囲は広い。政府や企業の記録からアート作品に至るまで、本質的にあらゆるものがデータとして表現され、失われる可能性がある。それは、人類の歴史を永久に失うことにつながる。
データの損失は、個人的なもの、仕事上のもの、組織内でのものなど、小規模な範囲ないし独立した文脈で生じるだけでなく、環境保護、医学研究、国家安全保障、公衆衛生、経済開発[6]、文化などに良い意味からも悪い意味からも永続的な影響を与えかねないような、大規模な範囲で、あるいは国内規模や国際規模で生じることもある。データ消失が生じる要因もまた、災害、戦争、データ漏えい、過失など、単純な亡失から自然劣化に至るまで多種多様である。
たとえば自然災害、天然資源、景観に関するデータコレクションを保管している米国地質調査所を見ると、データコレクションを適切に保存・保管することでどのようにそれらを活用できるかが分かる。同調査所が収集したデータは連邦・州政府の土地管理機関により土地利用の計画・管理目的で利用されているとともに、それら過去データは継続的に参照されている[6]。
関連する概念
英語の data holding (データ保有) という概念は、インフォーマルな形で保管されているデータのコレクションを指し、必ずしも長期保存が目的とならない。たとえば、個人用ファイルのコレクションやバックアップデータが該当する。この「データ保有」は一般的に、これまで天災・人災のせいでデータが失われた際に用いられてきた管理手法とされる[4]。
データリテンションという概念もデータ保存とは区別される[7]。というのも、リテンション(保持)ということばは本来、対象物(ここではデータ)を持ち続ける、もしくは使い続けることを意味するためである。一方、保存は、将来利用するために対象物を保護・維持管理・確保することを意味する[8]。リテンション方針では、データを意図的に削除すべき、公開アクセスを制限すべきタイミングについても言及されることが多いが、保存方針では、永続性とアクセス可能性の担保が重視される。
したがってデータ保存とは、データやそのバックアップコピーをもつ、あるいは所有するという概念を超えるものである。データ保存は、災害の発生や技術の変化という事象に先立ち、バックアップやリカバリの仕組みを含め、データへ確実にアクセスできることを保証する取り組みである[9]。