AI査読の可能性

東京大学大学院工学系研究科の松尾豊教授は、2024年2月に開かれた「2023年度全国公正研究推進会議」の基調講演のなかで、将来的に科学論文の査読にAIを活用できる可能性について紹介しました。AIを活用した査読によって、査読プロセス自体の改善や論文の品質向上、科学的信頼性の確保、査読者の時間的負担の軽減などさまざまなところに役立つことが期待されています。人間の査読者とAI査読の比較や、AIを査読に活用することに対する欧米の反応などを紹介し、AI査読がもつ可能性について解説します。

GPT-4の査読コメントと人間の査読者の査読コメントの共通点比較

2023年10月、スタンフォード大学、ノースウェスタン大学、コーネル大学の研究者たちが“Can large language models provide useful feedback on research papers? A large-scale empirical analysis”という論文を発表しました。この研究ではまず、GPT-4を使用して学術論文に査読コメントをフィードバックする自動化パイプラインを作成しました。さらに、GPT-4による査読コメントと人間の査読者による査読コメントを比較するパイプラインも開発しました。そのうえで、学術的な論文の査読にGPT-4などの大規模言語モデル（LLM）を活用できるかどうかを調査しています。

人間の査読者とAI査読の比較について

Nature系列のジャーナルがアクセプトした3,096本の論文に対して、人間の査読者がフィードバックした査読コメントは8,745ありました。これらの論文に対してGPT-4がフィードバックした査読コメントのうち、人間の査読者のうち少なくとも1人以上が同じ内容を言及していたもの、つまりAIと人間の査読者が共通して指摘した査読コメントは57.55％にも上りました。

なお、2人の人間の査読者がフィードバックした査読コメントの重複率は28.58％だったのに対し、1人の人間の査読者とGPT-4の重複率は約30.85％と、ほぼ同等だったこともわかりました。これは、人間の査読者が2人で査読を行う場合とGPT-4と人間の査読者1人が査読を行う場合とで、フィードバックの共通点がほぼ同等であることを示唆しています。

また、人工知能研究をテーマに毎年開催されている国際会議ICLR（表現学習国際学会）の論文データ1,709本に対するフィードバックを比較した結果、GPT-4による査読は、より大規模な修正が必要な論文に対して有益であることも示されました。

LLMを活用した査読に対するアンケート調査

さらに、この論文では308人の研究者に対してメーリングリストやオンラインアンケートを行い、LLMを活用した査読に対する意見を収集しています。その結果、LLMが生成したフィードバックが、自身の論文の主要な点に関する意見や自身の予想と部分的に一致していると感じた研究者が70％以上いたことがわかりました。うち35％は、一致度はかなり高いと感じているといいます。

調査対象のうち82.5％の研究者は、人間の査読者によるフィードバックよりもLLMによるフィードバックのほうが有益（または一部だけ有益）、もしくは同等であると感じたと回答しています。17.5％の研究者は、LLMによるフィードバックは人間のフィードバックよりも劣ると回答しているものの、8割を超える研究者がLLMによる査読が有益であると実感していることは、AI査読の有用性を支持する結果となるでしょう。

LLMによる査読は完璧ではなく、課題もあるため、高い専門性を持つ人間の査読者によるフィードバックはこれからも引き続き必要であるといえますが、正式な査読を受ける前の論文にLLMを活用することで、論文の初稿の質を高めるのに役立つといえます。

生成AIを査読（レビュー）に活用することに対する欧米の反応

一方で、投稿された論文が査読を受けるべき品質に満たず、査読前に編集部の判断でリジェクトされるケースもあります。Annals of Internal Medicine（AIM：米国内科学会誌）のケースを例に挙げると、投稿された原著論文のうち約6割は査読前にリジェクトされており、約4割が査読プロセスへと進みます。最終的にアクセプトされるのは、投稿されたすべての論文のうち1割にも満たないといいます。 Janine Huisman氏とJeroen Smits氏が2017年に行った調査では、投稿された論文を査読プロセスに進める前に編集者の判断においてリジェクトしたケースを集計しています。その結果、調査対象3,500件のうち約3分の1のジャーナルでは2週間以上、約6分の1では4週間以上もかかっていることがわかりました。投稿から2～4週間もの間、編集者の手元でプロセスが滞っていることが浮き彫りとなった形です。

ジャーナル側には、査読に進むか否かの判断を迅速に行うことが求められています。また、査読にかかる時間とコストを無駄にしないためにも、研究者一人ひとりが質の高い論文を投稿することが重要といえます。

査読プロセスにかかる時間

生成AIを査読に活用することに対して一定の評価がある一方で、欧米では慎重な見方も広まっています。

欧州委員会は、研究コミュニティにおける生成AIの責任ある使用を支援する目的で、“Living guidelines on the responsible use of generative AI in research”（研究における生成AIの責任ある使用に関する実践的なガイドライン）を提示しました。このガイドラインでは、研究者はピアレビューや評価などでは生成AIツールの使用を控えること、生成AIを使用する際はプライバシーや機密性、知的財産権を尊重することなどが記載されています。また、研究機関や資金提供機関に対しても、生成AIの責任ある使用を支援することが示されています。

また、米国科学アカデミー紀要は“Five Principles of Human Accountability and Responsibility”（人間の説明責任と責任の5つの原則）を公表し、査読プロセスのなかでも意思決定をするステップでAIを活用する際は、人間が慎重に監視することとしています。

査読をはじめ研究においてはAIを慎重に活用する必要がある

AI査読ツールは万能ではないため、編集者や査読者、著者を含め、人間がいかに上手に活用するかが重要です。あくまで人間の査読者の負担を軽減し、学術分野のさらなる発展のために、AIが正しく活用されることが期待されています。

参考文献

一般財団法人校正研究推進協会 — 2023年度全国公正研究推進会議
 arXiv — Computer Science — Machine LearningCan — large language models provide useful feedback on research papers? A large-scale empirical analysis
ITmedia NEWS — 「GPT-4」は論文の査読ができるか？　米スタンフォード大らが検証　参加者の80％以上「AI査読は有益」
Natureダイジェスト — AIによる査読に集まる期待
 European Commission — Guidelines on the responsible use of generative AI in research developed by the European Research Area Forum
PNAS — Protecting scientific integrity in an age of generative AI

※価格は税抜き表記になります