「新聞記事を対象とする日英対訳コーパスの作成状況」

高橋大和 松尾義博 畑山満美子 古瀬蔵
NTT コミュニケーション科学研究所
白井諭
ATR 音声翻訳通信研究所

はじめに

文書の電子化の普及に加え、インターネットの拡大により、コンピュータによる自然言語処理に非常に有用な様々な分野の電子化文書データの入手が容易になってきている。しかし、単一の言語データの入手は簡便になったが、多言語間のデータはそれほど多くはなく、利用できる量も限られている。

そこで、CD−ROM言語データとして広く利用されている日本経済新聞記事と、その速報訳である日経BIZの英文記事を対応付けする事により、定期的かつ継続的に対訳データの作成を行う方法を研究している。ここでは、新聞記事の特徴、記事対応付けの手法とその問題点、文対応とタグ付けによるコーパス作成を紹介したい。

1.対象とする新聞記事とその特徴

日本文記事のデータとして、日本経済新聞社が年単位で発行している日本経済新聞のCD−ROMから抽出したデータを利用している。また英文記事データとして、パソコン通信による速報システムであるテレコンBIZからダウンロードした Nikkei Telecom Japan News & Retrieval の記事を利用している。記事の特徴として、日本文、英文とも会社に関する新製品情報・株式情報などが多い、日本円は特にドル変換をしていない、意訳が多いが、ほとんどの英文に対応する日本文が存在する、日本文記事数:英文記事数は8:1ほど、などの特徴を紹介する。

2.日英の記事の対応付け

日本文記事が英文記事の約10倍近い量であり、この中から英文記事の内容にマッチする記事を見つけなければならない。そこで、数値(円、%、ドルなど)をキーワードとした対応付けを行った後、固有名詞キーワードに対して日本語単語の読み推定と英語単語の発音推定による対訳語の推定を行い、この辞書を用いてより多くの対応記事を得る方法を紹介する。

3.日英の文の対応付けとタグの付与

現在、得られた記事対応を元に、記事内での文対応を行い、タグを付与する研究を進めている。文対応に関しては、記事対応で用いた数値と自動生成される対訳辞書による対応付けと単語の統計情報を使った対応付けを併用する方法を研究している。

タグ付けに関しては、形態素解析レベルのタグの付与を目指している。

高橋大和 yamato@cslab.kecl.ntt.co.jp