新聞記事日英対訳コーパスの構築 (1)
− 基本構想と検討課題 −

白井 諭+    藤波 進+    池原 悟+    上田 洋美++    井上 浩子++

(+NTTコミュニケーション科学研究所)    (++NTTアドバンステクノロジ(株))



[ 平成7年度(第48回)電気関係学会九州支部連合大会, p.855 (1995.9). ]
[ In Record of the 1995 Joint Conference of Electrical and Electronics Engineers in Kyushu, p.855 (September, 1995). ]



INDEX

     1 はじめに
2 コーパス構築の可能性
3 対応付けへの課題
4 おわりに
  <謝辞>
  <参考文献>



1 はじめに

機械翻訳などの研究において,大量の対訳コーパスの必要性が指摘されている。 現状では,日英対訳コーパスはマニュアル等の少量のものしか利用可能ではない。 その理由として,一般的なデータを大量に収集するのが難しいこと, 日英のように言語ギャップが大きい場合は表現が対応付けにくいことが挙げられる。

マニュアルは操作法などの具体的な説明が記述されるため, 言語間の対応が比較的取りやすいと考えられる。 また,継続的に改良されている製品等のマニュアルでは前版の内容がある程度流用できるため, それを狙って実用化されている例[IBM]も見られる。

新聞記事を対象とすれば継続的にデータを収集できる利点がある。 日英両紙を発行している新聞社もあるが,日本文記事を単純に翻訳して 英文記事を作るわけではない[Shibasaki 94]ことなどから, 対訳データとしての利用は困難であると考えられてきた。

しかし,新聞記事の一部でも対訳データとして整備できれば,十分なデータ量の確保が可能になる。 そこで本稿では,新聞記事対訳コーパスの構築の可能性を検討し,解決すべき課題の整理を行なう。




2 コーパス構築の可能性

本稿では,日本経済新聞社のテレコンDBから抽出した新聞記事を使用した。 日本文記事(日経四紙)はテレコンBIZに,英文記事(速報)はテレコンONEに収録され, ダウンロードが許容されている。

ニュース内容が一致する日本文と英文の数記事について比較検討を行なってみた。 分析の例を図1に示す。 比較検討の結果,英文記事は日本文記事の単純な翻訳ではないことが確認された。 一方,ほとんどの英文には内容的に対応する日本文があり(部分対応も含む), うち字数にして5割は格要素なども対応していることがわかった。 即ち,対応する文を抽出し蓄積することにより対訳コーパスの構築が可能であると考えられる。

東京ガス、大阪ガス、東邦ガスの都市ガス三社は ガス導管の材料を海外から調達する方向で検討を始めた。 スチール管は韓国製鋼材を、 ポリエチレン管の素材は欧州化学メーカー製を採用したい考え。 円高差益を利用してガス導管への設備投資を軽減するのが狙い。 ガス導管は品質について高い信頼性が要求されるためこれまで国産に限っており、 海外からの本格的な調達はこれが初めて。      【2段略】
一方、スチール管についても安価な韓国製鋼材を試験的に使用する方針。 これまで取引していた高炉メーカー以外のパイプメーカーを通じて韓国製鋼材を輸入、 加工してもらう方法も浮上している。 設備投資の根幹であるガス導管はこれまで新日本製鉄、住友金属工業、 NKKなど高炉メーカーから調達している。 導管への投資額(工事費除く)は九三年度で三社あわせて約三百億円。
三社は外材調達に先だって、 これまで三社でばらばらだったガス導管の仕様統一も進めている。 安価な外国製材料を採用したうえで同一仕様で生産することによって、 コスト削減の相乗効果をはかる。      【後略】
Tokyo Gas Co., Osaka Gas Co. and Toho Gas Co. are gearing up to procure materials for gas pipelines from abroad in an effort to take advantage of the strong yen and to cut back on capital investment. The three major city gas suppliers are considering using South Korean materials in steel pipes and buying materials for polyethylene pipes from a European chemical manufacturer.
It would be the first time the gas companies procure materials from overseas suppliers.
In fiscal 1993, the combined investment on pipelines -- excluding construction fees -- by the three companies totaled roughly 30 billion yen.
The three companies have already taken steps to standardize specifications of pipelines to be imported so that costs can be cut further.
(出典:日本文=テレコンBIZ,英文=テレコンONE; 日本経済新聞1994年9月4日付記事)

図1 日本文と英文の対応付けの例




3 対応付けへの課題

テレコンDBには日本文は1975年以降,英文は1983年以降の記事が収録されている。 記事数の例を表1に示す。日本文記事は英文記事に比べ数倍多く収録されている。

表1 日本文記事と英文記事の量(1994年11月分)


日本文記事英文記事
記事数平均字数記事数平均語数平均Bytes
11001410.2137123.4792.9
2840408.5120121.8775.4
3485396.439132.3830.6
4637449.497125.7803.0
5504367.729140.8905.4
6167588.412129.3829.2
7495541.5128118.0758.8
8929451.9152117.4754.5
9819410.8146122.2782.3
10941471.7151121.6777.3
合計6818437.71011122.3783.0

記事の対応づけは,日英の記事の比率から見て, 英文記事に対応する日本文記事を得るのが効率的である。 テレコンDBはフリーキーワードにより検索するが, 目的記事に到るにはキーワード指定を試行錯誤することが多く,大量のデータの収集には適さない。 一定期間の全記事を日英両DBから取り出しておき,その中で記事を対応づける。 詳細は別稿[白井95a]で検討する。

文の対応付けは,文の出現順が異なることを考慮するとともに, 部分対応をどう処理するかが問題となる。 前節の調査によれば,日本文が長文である場合にその前半や後半が1英文と対応することが多い。 従って,日本文の長文を分割し,英文に対応する日本文を抽出するのが基本手順となる。 詳細は別稿[白井95b]で検討する。

なお,記事や文の対応付けには,対訳辞書を介したキーワードのほか, 通常はキーワードから除外される数値情報が記事固有の情報として利用できる。 対応の情報はSGMLタグとして保存する[Bond 95]予定である。




4 おわりに

本稿では,並立する日英の新聞記事DBから取り出したデータを用いて 対訳コーパスの構築が可能であることを示すとともに,実現に到る検討課題を整理した。 具体的な検討結果は別稿でそれぞれ報告する。




<謝辞>

本検討にご協力くださった小見佳恵氏,松尾三津恵氏を始めとする NTTアドバンステクノロジの各位に感謝する。




<参考文献>

[Bond 95]
F.Bond, H.Nakaiwa & S.Ikehara: Tagging an aligned Japanese / English courpus, 言語処理学会第1回年次大会(1995)

[IBM]
日本アイ・ビー・エム: 「IBM TranslationManager」パンフレット & 「IBM TranslationManager/2」パンフレット

[Shibasaki 94]
K.Shibasaki: "Machines that translate, but not perfectly", The Daily Yomiuri, September 14, 1994

[白井95a]
白井,上田,阿部,藤波,池原: 新聞記事日英対訳コーパスの構築(2) -並立DBから取得した記事の対応付け-, 電気関係学会九州支部第48回連合大会(1995)

[白井95b]
白井,松尾,瀬下,藤波,池原: 新聞記事日英対訳コーパスの構築(3) -記事の特徴分析と文の対応関係の検討-, 電気関係学会九州支部第48回連合大会(1995)