データ開示運動

データ開示運動 (data disclosure movement) とは,学術活動において出版物だけでなくその基となるデータ自体が開示されるよう働きかける市民運動です。

骨子

この運動に加わる者は,次の7本柱の全部または一部について実践します。

  1. 自らが開示に関する権利を有する既存のデータを開示します。
  2. 研究者をはじめとする,データの開示に関する権利保持者に対して,既存のデータが開示されていない場合にその開示を願います。
  3. 調査等の実施に際して,結果としてできるかぎり多くのデータが開示可能となるよう,法的・倫理的障害の積極的除去に努めます。
  4. データ開示のリスク等に関する研究や技術開発に努めます。
  5. 国や大学,財団などの研究資金の出資者に対して,資金を使用して収集されたデータの開示を出資の条件に盛り込むことを願います。
  6. データを開示するという仕事を,論文等の発表と同様又はそれ以上に高く評価します。
  7. 広い意味で学術活動に関わる人々から上記6項への理解と協力が得られるよう,教育,経営,行政,立法などにおいて助力します。

※ 「開示に関する権利」等,意味の明確化のために下記の細事もご覧下さい。

背景

21世紀初頭の現在,多くの科学分野(例えば生命科学,認知科学,教育科学,社会科学,健康科学など)において, 研究活動の成果として一般に公表されるのは出版物や学会でのプレゼンテーション,報告書などであり, その基となっているはずの生のデータについては公表されない場合がほとんどです。

データの開示が可能である(can)だけでなく,開示すべき(should)理由には,少なくとも次のものがあります:

  1. 第1に,科学的知識の発展は,累積的であるとしばしば言われます。 ではそこで蓄積されているのは何かというと,仮説や解釈よりもむしろ観察された事実です。 個々の場当たり的なデータ解釈や説明はそのほとんどが時が経つと急激に価値を失っていきますが,経験的根拠としてのデータの価値は時が経っても変わらず,依然として説明すべき対象であり続けます。 よって,後世に残しておくべきは,要約と解釈を書いた論文以上に(それも大切ですが),データとそれを得た方法です。

  2. 第2に,科学的探求は,可謬的過程です。誤りを見つけ,それを修正することで進んでいきます。 誤りにはいろいろな種類のものがありますが,データの要約と分析における誤りもその1つです。 実際に,様々な分野で,統計学的手法の適用における誤りが指摘されてきました。 他の種類の誤りについては,例えば理論の検証におけるロジックの誤りは,学術雑誌のピアレビューという研究者同士の相互チェック制度によって発見され修正されます。 しかし,生のデータが提示されない場合,チェックする人がアクセス可能なのは報告された計算結果(例えば回帰係数)だけであり, 統計解析の適用と計算の過程はチェックの対象になりません。 データ開示は,探求の過程におけるより多くの部分を第三者によるチェックの網にかけることを可能にします。

  3. 第3に,データが開示されることで,それまでできなかった新しい分析が実施可能となります。

    1. 分析例の1つ目として,メタ分析 (meta-analysis) があります:簡単に言えば,同じ主題について調べた複数の研究がある場合, それら複数の研究を総合した結論や評価を出すための統計的手法です。 これまでに実施されたメタ分析のほとんどは,論文等で報告された要約的(あるいは推定的)指標をもとに行われてきました。 しかし,これが要約的指標ではなく生データをもとに行われれば,より高精度なまた多様な分析が実施可能であることはしばしば指摘されており, 実際に医療などの分野でそのような分析が実施される例が出始めています。

    2. 分析例の2つ目として,複数の母集団や時系列での比較,先行研究との比較,追試検証などの比較的分析があります。 当然ながら,このような比較的分析は,比較するそれぞれの対象のデータが入手できなければ実施できません。 よって,これまでに生データで比較的分析が行われたのは,一研究者や研究グループが比較対象のデータを入手できた少数のケースに限られます。 それ以外の場合の比較は,主に誌面上で報告された指標(例えば平均値)などで行われてきました。 生データが開示されれば,比較的分析が適用できるケースを圧倒的に増やすことが出来ます。 また,追試検証についても同様に,先行研究のデータが入手できることは稀なので,誌面上の情報でしか判断できませんでした。 先行研究のデータが開示され広く入手できるようになれば,より詳細な検討が可能になります。

    3. 分析例の3つ目として,複数のデータセットをリンクさせた結合的分析があります。 これは,データセットをリンクさせるキー情報が利用可能という特別な場合に限られますが,新しい知見を生み出す非常に強力な武器となります。 なぜなら,上に挙げた科学分野の多くでは,データの収集が非常に困難な変数が存在します。 例えば,テストスコア,医療データ,経済状況,行政履歴などの通常は秘密にされるデータです。 それらの変数のデータは非常に貴重であり,特別な場合にしか収集されません。 また,普通は研究者が入手できないため,研究上の分析の中に含められることは数少ないのが現状です。 しかし,これらについて全くデータが取られないわけではなく,取られたデータは存在しています。 必要な措置を講じてそれらが学術研究の場に開示されると,研究者は他のデータとそれを結合させて, それぞれの関心・理論に応じた検証材料を作り出すことが出来ます。これを行いたい研究者は実際に山ほどいるはずです。

  4. 第4に,システマティックレビューの促進が挙げられます。これまでに行われてきた研究レビューが(そのレビュー対象の選択の意味で) 恣意的であることはしばしば指摘されていますが,特に応用的分野(例えば,教育,医療,政治など)においてはこの恣意性による被害を深刻に受け止める必要があります: すなわち,効果の見積りが大きく歪むことによって直接的に実害が発生します。 上で挙げたメタ分析は,(結果の総合の意味での)レビューの恣意性(非客観性)を避ける手段の1つとして用いられるものです。 しかし,メタ分析はレビュー対象の選択の恣意性をも避ける手段ではありません。 メタ分析を台無しにする原因の1つとして,出版バイアス (publication bias) が頻繁に指摘されています: 簡単に言えば,データから得たすべての結果のうち,偏った一部分しか白日の下にさらされない,という傾向です。 論文に書かれなかった部分のデータの開示が,出版バイアスを打ち消す根本的解決法となります。 社会的な面では,上の骨子6が重要です。 データ開示がデフォルトになることにより,本当のシステマティックレビューが実現できます。例えば,効果がないという主張や, そのような研究は行われていないという主張を,強い根拠を持って行うことが出来るようになります。 これらの主張が困難であることからして,科学の現状は病的であるとすら言わざるを得ません。

これら4つの理由の背後に共通してあるのは,データの入手コストの問題です。 少なくとも上記の科学分野においては,データが容易に入手できないからこそ,既に収集されたデータを開示し共有することが重要になります。 関心のあるデータが何でも簡単に手に入るのならば,比較だろうが検証だろうが苦労はしません。その都度パパッとデータを取ればよいでしょう。 しかし実際には,研究者は多くのコストをかけてデータを収集しています。 データが開示されれば,結果として,データ収集に要する費用を社会全体として節約することにつながります。 多くのデータは科学研究費補助金など税金に由来する資金を使用して収集されていますので,税金の無駄遣いの削減にもつながります。

数十年前までは,データが公表されていないことに納得できる事情がありました。 それは,実のところ技術的に,生のデータを公衆に対して容易に利用可能な形で配布するのが難しかったからです。 もっと昔は複製を作ることすら一苦労の時代でした。その後,印刷やコピーが身近になっても, 数字の羅列が印字された紙束をもらったとしてどうしたものかという状況であり, よほど重要で活用の見込みが高いデータ(例えば国勢調査など)でないかぎり,他の人の作った紙束の山で部屋を埋めようとする人はいなかったでしょう。

しかし時代は変わりました。皆さんご存じのとおり,現在ではデータは簡単に複製でき,簡単に配布でき,簡単に保管できます。 生のデータを広く配布することについて技術的な障害はなくなったと言ってよい状況です。 それにもかかわらず,生のデータの広範な開示は現実になっていません。 おそらくその原因の1つは,長らくデータは開示されないのが慣例であったため,開示に意義があるという考えが文化的に根付いていないことだと思われます。 もう1つ考えられる原因は,データ入手コストの高さに由来する研究者間の利害対立です。 例えば,自分の集めたデータをもとに他の研究者が理論を発表する,などの状況への嫌忌です。 これは不毛で不必要な対立であり,データ開示への理解と評価によって解消できるものですが,現在の制度と文化が解消の土壌を与えていません。 また,利害対立に関係ないデータでありながら開示されていないものも多く存在します。

具体的に

骨子の各柱で述べられていることについて,理解のために具体例の一部を挙げてみます:

1. 自ら開示

2. 開示依頼

3. 積極的準備

4. 研究開発

5. 出資条件

6. 評価

7. 教育等

上ではあえて極端な例を挙げている部分がありますが,もっとささやかな行いの例はたくさん思い浮かぶでしょう。

どんなに小さな試みでも構いません。開示の意義の理解と,賛同しようとする意志があることが重要です。

データに関して重要なポイントの1つは,あるデータの価値はそれを使う人や時代や状況などによって異なるのが当たり前で, 現時点でのデータの所有者が一切の価値のあるなしを判断できるものではないということです。 よって「どんなデータでもとりあえず開示しよう,後世に残しておこう」という態度が望ましいのです。 開示に先立っての「このデータは価値がある,こっちは価値がないから開示しないでおこう」などという(現在ならありそうな)判断は,必要ないどころか, 潜在的な社会的損失を生むものです。

データ開示運動およびこのページに関する細事

対象データ

データ開示運動は,研究の一部として使用された,あるいはそれを目的として収集されたデータを対象としており, 世の中のあらゆるデータに対して開示を求めるものではありません。そういう意味で,混同が予想される場合は, 「学術的なデータ開示運動」や「研究上のデータ開示運動」などと修飾しておくことが望ましいかもしれません。

参加

データ開示運動に参加しているというための条件は,骨子で述べられていることのどれか小さな一部の実践です。 全部を実践してもよいですが,それは必須ではありません(実際にそのような人はまずいないでしょう)。

注意すべきは,逆は成り立ちません。すなわち,骨子の一部を実践しているからといって,データ開示運動の参加者だと自認しているとは限りません。 しかしおそらく,そのような人々はデータ開示の意義を理解されている良き仲間でしょう。

骨子に少し注意深く目を通せばお分かりいただけると思いますが,この運動は研究者のみならず,市民一般に開かれた運動です。 研究成果としてのデータの開示が市民の常識になることが望まれています。

開示に関する権利

いろいろな国にいろいろな法令がありますが,データ開示という行為に特に絡んでくるものとして,プライバシー保護に関する法令,財産権に関する法令,などが考えられます。 それらは守られなければなりません。 この制約により,たとえ学術的目的で集められ学術的目的で配布されるデータであっても, そのようなデータのすべてをすべての人々に対して自由に開示する,ということはできません。 このような事情から,データを開示可能なものにすること(骨子3)や,開示のための特別な措置(骨子4に関係) が重要になります。

骨子において「開示に関する権利」という言葉を使っていますが,これは法の定めによって異なるものです。 従って,データ開示運動の骨子1や2では,その場その場に応じた法令の範囲内で,ということのみ述べています。 ただ,骨子7にあるとおり,データ開示が行いやすいよう法の改正を求めることは,データ開示運動の一部と言えるでしょう。

なお,日本においては,データ自体は著作物とは見なされないというのが通説のようです。 その場合,データ自体は著作権法の適用外となります。 しかし,データをもとに作った図画,文章,データベースなどや,データ収集に関する物(調査票など)は,場合によって著作権法の保護対象となるでしょうから,注意が必要です。

開示と公開

「公開」という言葉は,公に(広く一般に)開示する,という意味を持つと考えられます。 しかし,「開示に関する権利」の節でも述べているように,データはすべて「公開」できるものとは限りません。 そのような場合でも,たとえ限定されていたとしても開示されることは,まったく開示されないのに比べれば,大きな意義があります。 よって,データ開示運動では,より強い意味の「公開」よりも,「開示」という言葉を用いています。 「開示」は「公開」をその一部として含んでいると考えますので,「公開」を拒否するものではありません。 これは具体例の節を見ていただければ明らかです。

「開示」と「公開」のこのような関係から,データ開示運動よりも強い主張をしたい人がデータ公開運動という題を掲げるかもしれません。

アーカイブ

「背景」の節で述べられた開示の意義について,それらを実現するための現在最も良い方法と言われているのは,データをデータアーカイブへ預けることです。 個々人がバラバラに開示を行うよりも,開示されたデータが一所に集まっていたり統一されたフォーマットになっていたりするほうが出来ることが多くなる, 開示作業の負担が減る,死後も永続的開示が担保される,などがその主な根拠です。

しかし,データ開示運動ではそこまでは求めていません。よって,データアーカイブへの寄託は骨子に含まれていません。 個々人による開示を実現しようとする人もデータ開示運動の一員として活動できます。

ただ,上の「開示と公開」の話と似ていますが,データ開示運動はデータアーカイブへの寄託を拒否するものではなく,それを開示の一種として含んでいます。 一切開示をしないアーカイビング(単なる保管)は含みません。

上と同様に,より強い主張をしたい人がデータアーカイビング運動という題を掲げるかもしれません。

Linked Data

Sir Timothy John Berners-Lee の目指す Linked Data は,まさにこの運動と同じ理想を見ています。Tim は聴衆に "Raw Data Now!" と叫ばせました。

TED Talk: Tim Berners-Lee on the next Web

Linked Data とは,データの開示をウェブで行い,データを互いに結びつけよう(上記「背景」における分析例の一種),という考えです。

データ開示運動の目的に照らすと,ウェブが素晴らしい媒体であることは間違いないですが,データ開示運動はそこまで求めません。ウェブに馴染みのない方々でも参加できるようにするためです。 上と同様に,"Linked Data" はより強い主張をしたい人が掲げる題です。

参考資料

コストに関する資料

Keeping Research Data Safe (KRDS)
研究データの収集や保存,開示等に関するコストの分析結果をレポートしています。

データ開示状況

Who Shares? Who Doesn't? Factors Associated with Openly Archiving Raw Research Data
DNAマイクロアレイ分野では少しずつ増えているようですが,未だ少ないです。

データ開示に関する各国の法的状況

Report on the Legal Status of Research Data in the four partner countries
オランダ,デンマーク,ドイツ,イギリスについて,研究データの開示の妨げになるような法(著作権法,データベース法など)を調べ,開示するために必要な条件を挙げています。

ページ更新

このページは不定期に更新されます。予めご了承下さい。

より良い文言への修正や具体例など,ご意見いただければ有難く思います。随時受け付けております。

  1. created on 2010-07-01
  2. updated on 2013-04-24