| 1.はじめに | |
| 2.数値による記事対応 | |
| 3.数値と名詞キーワードによる記事対応付け | |
| 3.1.英文記事からの名詞キーワードの抽出 | |
| 3.2. 対訳リストの作成 | |
| 3.3. 日本文記事 | |
| 3.4.記事対応付け | |
| 3.5.結果 | |
| 4.一ケ月分のデ-タに対する記事対応 | |
| 5.おわりに | |
| 参考文献 |
機械翻訳などの自然言語処理技術を研究する上で、大量の対訳コーパスは非常に有用である。 しかし、大量の一般的なデータの収集は困難である、という問題点がある。
しかし、新聞記事を対象として、再現率よりも適合率を重視し、 数値をキーワードとして利用することにより、 記事対応を行うことができることが報告されている[1]。
これは、日本経済新聞社が提供しているテレコンDBから取得した日英記事を比較検討した例では、 部分対応を含めると、ほとんどの英文に内容的には対応する日本文があり、 そのうち5割は格要素などの対応もとることができるためである[2]。
本稿では自動的な記事対応付けの手法の確立をめざし、 数値キーワードと併用して名詞キーワードを利用することによる効果と、 より長い期間の記事データに対して適応した場合の結果とその問題点について報告する。
ここでは、日本経済新聞社が有料情報サービスとして提供しているテレコンDBから、 電話回線経由のパソコン通信により取り寄せることができる、 日経テレコンBIZに収録されている日経四紙(日本経済新聞, 日経産業新聞, 日経流通新聞, 日経金融新聞)を日本文記事として、また、Nikkei Telecom Japan News & Retrievalより、 日経四紙の速報訳として提供されている記事を英文記事として実験を行った。
1994年11月2日から9日までの8日間の英文記事に数値による記事対応を行い、 第一候補と第二候補の対応項目数の差が2個以上の時、正しい対応記事とみなす、という条件で、 表1のような結果を得た。
| 2日 | 3日 | 4日 | 5日 | 6日 | 7日 | 8日 | 9日 | 合計 |
| 30 | 14 | 39 | 8 | 2 | 39 | 44 | 46 | 222 |
この結果を基に、人手により日英の対訳名詞辞書を作成し、 その効果を確認した。
本稿では、多数の候補記事に対して効率よく対応項目を見つけるために、 字面処理程度の浅い解析による方法を用いる。
記事は1日分を対象として、 その本文と見出しから名詞と推定される単語を名詞リストとして切り出す。 抽出条件を以下に示す。また、この条件を満たす単語は一単語とみなす。
| ・ | 大文字を含む単語列 |
| 例1:NTT Communication Science Lab. | |
| 例2:SL-enhanced Intel i486SX | |
| ・ | 大文字を含む単語列の所有格に大文字を含む単語がある場合 |
| 例1: Japan Federation of Employers' Associations | |
| 例2: International Standardization Organization’s ISO9001 | |
| ・ | “of”、“&”を大文字を含む単語間に挟んでいる場合 |
| 例1: Social Democratic Party of Japan | |
| 例2: Mitsubishi Trust &Banking Corp. | |
| ・ | 大文字を含む単語列の所有格に大文字を含む単語列が連接していない時、また、 ”of”の後ろに大文字を含む単語が連接しない時は、そこまでで切り出す。 |
| 例1: NTTs line → NTT | |
| 例2: Bank of city →Bank | |
| ・ | “The”は単語列に含まない。 これは、文の途中では小文字になり、切り出し単語が増えてしまうためである。 |
| 例: The U.S. →U.S. |
抽出した名詞キーワードの項目をキーとして、対択辞書を検索する。 日本語訳があった場合、対訳リストに日英の対として追加する。 訳がなかった場合は項目を削除する。
対訳リストは、記事単位で日本語訳の重複がないように、重複する単語があった場合は削除する。
日本文記事三日分のタイトルと第一段落をリード文として切り出す。 これに対して、対訳リストのマッチングを行う。
3.2.節により切り出した対訳リストを基に、 数値による記事対応で対応が付いた記事から、対訳辞書を人手により作成した。 内容を表2に示す。
| 内容 | 項目数 |
| 企業名 | 588 |
| 製品名 | 107 |
| 人名 | 23 |
| 地名・その他 | 136 |
| 合計 | 1344 |
新聞記事を対象としているため、企業名が一番多く出現する。 表6から、実際のデータにおける出現率も、企業名が一番多いことがわかる。
| ||||||||||||||||||||||||||||||||||||||||||||||
| 英単語列 | ||||||||||||||||||||||||||||||||||||||||||||||
| 日本語対訳(出現数) |
この辞書を用いて、数値による記事対応と名詞による記事対応を併用して、 記事対応実験を行った。
ここで、記事単位で見た時、名詞キーワードによる記事対応でマッチングした 対訳語の一部分を含んでいる別の対訳語があった場合、長い単語のみ残し短い対訳語を削除する。
| 例: | Tokyo 東京 | |
| Bank of Tokyo 東京銀行 | ||
| この二つの対応対訳語があった時は、 “Bank of Tokyo 東京銀行”のみ残す。 | ||
また、数値を含む対訳語がマッチングした場合、数値対応と重複することになる。 そこで、数値対応とマージする時に、数値対応の該当する項目を削除する。 これは、名詞の方がより長いマッチングを行っているため、信頼性が高いと考えるからある。
対応記事の第一候補と第二侯補の対応項目数の差が2個以上という条件で、 数値による対応付けと名詞キーワードによる対応付けをマージしたデータに対して評価を行った。 結果を表3に示す。
表3 数値とキーワードを併用(1994/11/2-9)
| ||||||||||||||||||||||||||||||
| *1: 数値とキーワードによる正解対応記事数 | ||||||||||||||||||||||||||||||
| *2: 数値のみの正解対応記事数 |
これより、数値と名詞キーワードを併用した場合、 66記事(約29.7%増加)の新しい対応を得ることができることがわかり、 効果を確認することができた。 ここで、新しく選られた記事対応から、さらに新しい名詞対訳語を人手により抽出した。 結果を表4に示す。
| 内容 | 項目数 |
| 企業名 | 8 |
| 地名・その他 | 3 |
| 合計 | 11 |
新規の対訳を加え、同じ条件で対応づけを行った。 結果は、11/02の対応記事が一つ増えたのみだった。 対訳辞書の効果は高いが、再帰的な適応の効果は小さい。 新聞記事の特徴として、 記事の示すトピックはある会社のことに特定されるためであると考えられる。
ここで、提案した記事対応を評価するため、一ケ月分のデータに対して、記事対応を行った。 対象とする新聞記事データは1995年8月1日から31日までの英文、日本文記事としたことで、 記事対応は、前後の日付に対しても行うため、日本文は7月31日から9月1日分までを用意した。
記事対応の結果を表5に示す。
表5 記事対応結果(1995/8/1-31)
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
結果として、明らかに間違った記事か選択されたものが6記事、 最近の動向の記事として紹介された記事の極一部が対応しているものが11記事であった。
正解率は、数値のみで98.5%、併用の場合、98.6%であった。 東証の記事における数字の偶然の一致、また、英文が長く日本文が短い、 もしくはその逆という形で間違っている。
また、対訳辞書を用いることにより、149記事(16.5%)の新しい対応付けを得ることができている。 このことから、辞書による効果は高いと考えられる。
今回の実験により、対訳辞書を用いた名詞キーワードによる対訳付けの効果を確認できた。 8日間分のデータから抽出した対訳語句においても、効果があることが分かった。 問題としては、効率よく名詞キーワードを収集する方法が必要である点である。 これには、カタカナ語と漢字の読みによる 自動的な単語対応づけ[3]を適用し、実験を行いたい。
また、候補記事の第一候補と第二候補の項目数の差が二個という条件では、 まだ不十分な面もある事が分かった。 キーワードの長さや数値の単位による評価値の加減が必要と考えられる。 また、差が小さい場合にも、対応が正しいと考えられる条件を見つけていきたい。
本手法により、大量の日英の対訳記事を収集することが可能になり、 新語や専門用語の対訳の収集、対訳表現の抽出など、 辞書の整備や翻訳表現調査の効率化が図れると考えられる。 また、白井[4]に提案されている文対応の方法を実験をすすめ、 文対応とのバランスを考えながら、記事対応の評価をしていきたい。 また、記事対応を行ったデータはSGMLタグとして構造化し[5]、 継続的な対訳コーパスの構築を目指す予定である。