英語文献DBのPubMedとarXivの日本語検索を「みんなの自動翻訳@TexTra」で始めました!

2024年9月24日

国立研究開発法人情報通信研究機構

「みんなの自動翻訳@TexTra」では、2024年9月から、英語文献データベースのPubMedとarXivから取得した論文のタイトルと要約の日本語検索サービスを始めました(https://mt-auto-minhon-mlt.ucri.jgn-x.jp/content/tool/search/)。論文のタイトルと要約を、情報通信研究機構で開発した学術論文に強い自動翻訳エンジンで日本語に翻訳し検索可能としました。

概要

国立研究開発法人情報通信研究機構(以下、NICTという。)では、英語文献データベースのarXivとPubMedから3,980万件(8月末時点で、arXiv 215万件、PubMedは3,765万件)の文献情報をダウンロードし、論文のタイトルと要約を日本語に自動翻訳してデータベース化し日本語と英語で検索できるようにしました。また、これらの文献データベースは日次で追加更新しています。

背景

arXiv(https://arxiv.org/)は、著名なプレプリント(出版や査読前の論文)サービスです。また、PubMed(https://pubmed.ncbi.nlm.nih.gov/)は、主に医学文献を対象とした世界最大の文献データベースです。一方、NICTでは、みんなの自動翻訳@TexTra(https://mt-auto-minhon-mlt.ucri.jgn-x.jp)という自動翻訳サービスを一般に公開しています。そして、従来、汎用の翻訳エンジンに加えて、専門の翻訳エンジンを研究開発しており、その中でも学術文献の英日・日英翻訳に強い「サイエンス」翻訳エンジンを研究開発してきました。

成果

今回、NICTでは、arXivおよびPubMedからダウンロードした論文のタイトルと要約を、サイエンス翻訳エンジンにより、全て和訳してデータベースを構築しました。また、それらを、みんなの自動翻訳@TexTraにおいて検索できるサービス(https://mt-auto-minhon-mlt.ucri.jgn-x.jp/content/tool/search/)を一般に公開しました。これらの重要文献データベースを日本語で検索できることはユーザーの高い利便性につながります。また、検索エンジンにはElasticsearch(https://www.elastic.co/jp/)を使っているため、高速な検索が可能です。

論文翻訳検索画面

今後の展開

本文献検索サービスは、論文のタイトルと要約の自動翻訳のみを提供していますが、今後、本文の自動翻訳の提供も目指します。

謝辞

本研究開発は、総務省の「ICT重点技術の研究開発プロジェクト(JPMI00316)」 によって実施した成果を含みます。

NICTの問い合わせ先

ユニバーサルコミュニケーション研究所
先進的音声翻訳研究開発推進センター
先進的翻訳技術研究室

内山 将夫