生成AIを悪用して執筆された「疑わしい論文」の増加とその影響
HKS Misinformation Reviewは、ハーバード大学ケネディ・スクールが公開している査読付きOAジャーナルです。タイトルの通り「Misinformation(誤情報)」のレビューに特化しており、偽の情報やメディア操作、ニュースの質、誤情報などについてさまざまな観点から検証した論文を出版しています。
スウェーデンのボロース大学を中心とする研究チームが、HKS Misinformation Reviewにある報告書を投稿しました。Google Scholarの中に、生成AIを使用して執筆された疑わしい論文(questionable papers)が大量に見つかったとして警鐘を鳴らしています。その報告書の概要をご紹介し、生成AIを悪用した疑わしい論文が学術界にもたらす影響について解説します。
生成AIを悪用した「疑わしい論文」の増加
近年の生成AIの発達は目覚ましく、論文の執筆においてもさまざまなシーンで活用されることが増えてきました。文献の収集や要約・整理、構成案の作成、校正などの工程で生成AIを適切に使用することは、論文の執筆を効率化し精度を高めるのに役立ちます。その際は、生成AIを活用した事実を明示することが大切です。
一方、昨今では生成AIを悪用して作成された論文が学術誌やアーカイブ、リポジトリなどに増加しており、問題となっています。執筆工程で生成AIを使用した事実を宣言していなかったり、捏造された文章が含まれていたりと、信頼性に欠ける疑わしい論文が増えていることは、科学的知識に対する信頼の基盤を損なうリスクがあるといえます。
報告書「GPT-fabricated scientific papers on Google Scholar: Key features, spread, and implications for preempting evidence manipulation」の研究チームは、学術検索エンジン「Google Scholar」の中から生成AIを使用した兆候がある論文のサンプルを取得し、疑わしい論文がどれくらいあるかを調査しました。
その結果、生成AIによって作成された疑わしい論文が139件見つかり、他の論文と同様にGoogle Scholarの結果ページにリストされていました。そのうち89件はインデックスされていないジャーナルに投稿されていましたが、19件はインデックスされたジャーナルで見つかっており、なかには有名な科学雑誌や出版物、会議の議事録やリポジトリに掲載された研究なども含まれていたといいます。
今回の調査で見つかった疑わしい論文が、それぞれどの領域に関連しているかも報告されています。取得したサンプル中の疑わしい論文のうち、23%がコンピューティング領域、19.5%が環境領域、14.5%が健康領域に関連していました。
また、これらの疑わしい論文によく使われているキーワードについても報告されています。具体的には、環境領域では「分析」、「持続可能」、「グローバル」などが、健康領域では「ヘルスケア」、「COVID-19」、「感染」などが多く使われていました。論文のタイトルには「生物学」、「遠隔医療」、「気候政策」、「多様性」、「破壊」などの流行語および一般的なキーワードが使われており、広範かつ最新の研究を示唆するタイトルになっていたといいます。
また、報告書では、これらの疑わしい論文はすでにさまざまなオンライン学術研究インフラにまで浸透していると指摘されています。例えば、研究者の識別コードであるORCiD、ResearchGateやX(旧Twitter)などのSNS、Frontiersなどのジャーナルや米国電気電子技術者協会 (IEEE)などの学会にも波及しています。疑わしい論文のコピーが複数存在しており、さまざまなアーカイブやリポジトリ、SNSなどに広がってしまっているということです。疑わしい論文が元のソースから撤回されたとしても、他のプラットフォームから削除したり、追跡したりすることは困難といえます。
生成AIによる「疑わしい論文」が学術界にもたらす影響
報告書では、生成AIの普及によって信頼性の低い論文が増えたことで、次の2つのリスクが生じているとしています。
・さまざまな領域の学術研究インフラに疑わしい論文が浸透することで、学術的なコミュニケーションの仕組みが機能しなくなり、科学的な記録の完全性が失われること
・一見すると科学的に見えるコンテンツが、実は生成AIを悪用して不正に作られており、しかもGoogle Scholarをはじめとする学術検索エンジンで検索結果に出やすいように最適化される可能性が高まること
特に、Google Scholarは検索エンジンと同様に自動クローラーを使用しており、これらの疑わしい論文についての規制がまだないのが現状です。報告書の調査結果を見ても、Google Scholarには、信頼性のあるジャーナルの出版物や品質管理された学術文献に掲載されている論文が大部分である一方で、グレーな文献や疑わしいジャーナルの資料が多く含まれていることが明らかとなりました。
Google Scholarで検索する際に、査読済みの資料に限定したり、資料の種類や出版状況、品質管理の形式などでフィルタリングしたりすることはできません。つまり、Google Scholarでは質の高い論文とそうでない論文が同じインターフェース上に表示されてしまうということです。そのことを念頭に置き、信頼できる情報かどうかを検索者自ら精査して判断する必要があるといえます。