記事13「COVID-19機械可読データセット公開」

【アメリカ・研究】〔国立国会図書館 カレントアウェアネス・ポータル〕2020年3月24日 公開

 

2020年3月16日、米国大統領府科学技術政策局(OSTP)は、アレン人工知能研究所(Allen Institute for AI:AI2)・Facebook創設者ザッカーバーグ(Chan Zuckerberg)氏による慈善団体チャン・ザッカーバーグ・イニシアチブ(CZI)・ジョージタウン大学のCenter for Security and Emerging Technology(CSET)・Microsoft社・米国国立医学図書館(NLM)が共同して、新型コロナウイルスに関する研究データセット“COVID-19 Open Research Dataset(CORD-19)”を公開したことを発表した。

 

CORD-19は、OSTPの要請により複数の研究組織が共同構築した、新型コロナウイルス感染症、新型コロナウイルス、及びコロナウイルス群に関する学術文献の研究データセット。OSTPのこのプレスリリースの発表時点で、2万9,000件以上のデータマイニング・テキストマイニング可能な機械可読の論文情報、1万3,000件以上の文献のフルテキストの情報を含んでいる。

データセットはAI2の人工知能に関する研究・エンジニアリングのプロジェクトページSemantic Scholar”* から利用可能で、新しい研究がbioRxiv、medRxiv等のアーカイブサービスや査読付きの出版物で公開された場合に更新される。

 

米国政府はデータセット作成機関とともに、国内の人工知能研究者へ新型コロナウイルス感染症に関する優先度の高い科学的問題に科学コミュニティが回答することを支援するマイニング技術の開発を呼びかけている。呼びかけに応じて開発したマイニングツールや得られた知見については、世界中の研究者が自由に利用できるように、機械学習・データサイエンスのコミュニティKaggleのプラットフォームへ提出することが求められている。

 

参考情報:

Call to Action to the Tech Community on New Machine Readable COVID-19 Dataset(OSTP,2020/3/16)新しい機械可読のCOVID-19データセットに関する技術コミュニティへの参加要請

https://www.whitehouse.gov/briefings-statements/call-action-tech-community-new-machine-readable-covid-19-dataset/

 

New Dataset Makes Coronavirus Research Open and Machine Readable(CZI,2020/3/16)

コロナウイルス研究を公開し、機械可読にする新しいデータセット

https://chanzuckerberg.com/newsroom/new-dataset-makes-coronavirus-research-open-and-machine-readable/

 

COVID-19 Open Research Dataset (CORD-19)(Semantic Scholar)

COVID-19公開研究データセット

https://pages.semanticscholar.org/coronavirus-research

 

COVID-19 Open Research Dataset Challenge (CORD-19)(Kaggle)

COVID-19公開研究データセットの試み

https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

 

用語

Semantic Scholar

AIが搭載された研究者向けの高機能論文検索エンジン。科学分野の論文を10万本以上読み込んだデータを参照して、重要なフレーズを探しながら、新しい論文の文章すべてを分析する。

Google ScholarやPudMedは、メタデータに関しては、著者や論文の引用回数や実験対象となる有機体、使われている共変数など比較的基礎的なものしか含まれていない。Semantic Scholarは自動で論文を読み込み、トピックやその影響力、引用回数などの情報を取り出す機能を備えており、最新の論文や探しているものを簡単にみつけることができる。さらにその論文が独自の実験か他人の実験を基に書かれたものか、実験方法、動物の種類、テストを行った脳の部位といった情報を自動取得し、それらの情報を加味して検索を行える。アレン人工知能研究所が開発し、2015年から公開中。

https://www.semanticscholar.org/

 

AI2(Allen Institute for AI、アレン人工知能研究所)

AI研究に特化した非営利研究機関。マイクロソフト社の共同創設者である故Paul Allen氏によって2014年に設立された。所在地は米ワシントン州シアトル。Aristoを始めとし、PRIOR、Semantic Scholar、AllenNLP、MOSAICといったプロジェクトを運営する。

ワシントン大学とのディープラーニング人工知能の共同調査や、イリノイ大学アーバナシャンペーン大学およびワシントン大学との「構成、検索、融合ネットワーク」(CRAFT)という人工知能の共同開発など、さまざまな大学と提携を行っている。

https://allenai.org/