日英機械翻訳技術と市況速報への適用


おおやまよしふみ しらいさとし よこおあきお ふじなみすすむ
大山芳史/白井/ 横尾昭男/藤波

インターネットの普及で, 世界の情報が容易に入手できるようになりました. しかし言語の壁は厚く, 誰でも情報を相互流通できる段階ではありません. 今回, 日本語の意味を解析する翻訳システム(ALT-J/E)をベースに, 産業経済記事, 特にスピードと正確さが要求される市況情報を翻訳する実験システム (ALTFLASH)を構築しましたので紹介します.



[ NTT技術ジャーナル, Vol.9, No.6, pp.73-76 (1997.6). ]
[ NTT Gijutsu Journal, Vol.9, No.6, pp.73-76 (June, 1997). ]



INDEX

     はじめに
機械翻訳システムの分類
機械翻訳システムの方式
市況速報翻訳システム
  ■ALTFLASHの処理の流れ
  ■見出し翻訳
  ■直接翻訳(テンプレート翻訳)
おわりに
  ■参考文献



はじめに

インターネットで世界中の情報が瞬時にして取得できるようになった現在, 世界中の情報を相互に提供するニーズが急速に高まりつつあります. また, 政治情勢や経済情報のように, 昼夜を問わず, 時間, 分の単位で生きている情報が重要になっています. これらは, 計算機の高性能化やネットワークの広がりでさらに発展すると思われますが, 逆に, いつでも, どこでも, 誰でも, 欲しい情報を取得するには, 世界中の言語の相違によるバリアをいかに解消できるかが課題となってきています.

このような状況の下, 自動翻訳システムも積極的に利用されるようになってきました. 日本では, 外国のWWWの文章が主に英語で書かれていることから英日翻訳のニーズが高く, パソコンで動作する製品も数多く発売されています. 逆に, 日本語を他の言語へ翻訳するニーズとしては, 大量のマニュアル文書や即時性が要求されるニュースの翻訳があります.

近年, 日本の経済が国際的に重要視されており, 海外では日本の情報をリアルタイムに得たいというニーズが高まっています. 日本の新聞社や証券会社では専門のスタッフを置いて, 日本語の記事を英訳した速報ニュースを海外に発信していますが, さらにたくさんの情報を英語で取得したいという要望は高まってきています. したがって, これらを自動翻訳することにより, 全世界に向けた24時間のオンライン情報提供が可能となります.

NTTでは, 日本語の解析の研究を1980年に開始し, 新聞の産業記事のように固有名詞や複合語がよく出てくる日本文を正確に解析する形態素解析技術, およびこの解析に必要な機械辞書の構築を進めてきました. さらに英語への変換を行う場合, 各々の単語についてその文で使われている意味を把握しないと正確な翻訳はできないことから, この機械辞書には日本語の意味を詳細に記述し, 翻訳品質の向上を目指してきました.




機械翻訳システムの分類

まず, 機械翻訳システムをどのように利用するかという面でみてみます. 計算機による翻訳には, 利用者が直接使用するものと, 翻訳の支援ツールとして使われるタイプのものがあります. 前者としては, 例えばWWWの情報をブラウジングする要領で機械翻訳するもので, 翻訳する対象の文や範囲は利用者がその場で決定してリアルタイムの処理を行うものがあります. 後者にはマニュアルなどまとまった大量のドキュメントを翻訳する場合の下訳として システムを使う場合があります. したがって, 出来上がった文章をさらに推敲したり編集したり, これまでに使った例文を参照したりする作業が伴う場合があります. また, 最近では和英や英和辞書がシステムに組み込まれていて, 指定する単語を自動的に辞書引きしてくれるツールもあります.




機械翻訳システムの方式

翻訳システムには, (1)トランスファ方式, (2)中間言語方式, (3)直接翻訳方式があります. (1)は解析, 変換, 生成のステップを持ち, (2)は, 言語に依存しない中間言語への解祈とそこから目的の言語への変換の2ステップで翻訳する方式で, (3)は原言語と目的言語のペアを蓄積しておき, その中から同一または類似した文章を用いて翻訳する方式です.

NTTのALT-J/E1)では, 日本語の単語の意味を約3,000のカテゴリに分類し, そのカテゴリを付与した約40万語の単語辞書2)と 約16,000パタンの構文辞書3)を用いて解析を行う 意味解析型日英翻訳システムを実現しています. これは(1)トランスファ方式を見直した方式に基づいています. まず, 辞書を検索して単語の候補を抽出します. 次に単語と単語の係り受けを調べ, 意味的にまとまった範囲を識別します. これにより, 訳し分けを行います. 例えば, 「油を売る」が全体で1つなら「怠ける」の意味で, idle away one's timeと変換し, 分けていいなら, 油→oil, 売る→sellと変換してこれに基づき英訳を生成します. このように, 全体のまとまりで意味をとらえるか, さらに分解して意味解析を進めるかを判断しながら処理をしています. に, ALT-J/Eの代表的な機能を示します. 図1に約3,000カテゴリのうち, 単語「バス」に対応する意味カテゴリの例と, それらの英訳の対応を示します.

表 ALT-J/Eの基本機能
機能 翻訳例(日本語→英語)概要&説明
動詞の訳し分け 妻が休暇を取る許可を取り, 私がホテルを取った.
My wife got permission to take a vacation and I reserved a hotel.
構文意味辞書を用いて, 動詞の「取る」を, 目的語の意味の違いによって訳し分ける.
名詞の訳し分けと日本語書替え 私はバスに乗って学校へ行った.
I went to school by bus.
バスには, bus, bath, bassがあるが, 図1に示す意味カテゴリより, 「乗る」と関連があるbusが残る. さらに, 「バスに乗って」は, 「バスで: by bus」と自動的に書き替えて翻訳する.
用言性の慣用句 私は彼のしっぽをつかみ, 彼は猫のしっぽをつかんだ.
I found his weak point and he graspd the cat's tail.
同じ表現をしていても, 慣用的な使い方(弱点を見つける)と通常(文字どおりの)訳し分けが可能.
主語, 目的語の補完 (1) NTTは新型交換機を導入する.
(2) 自己診断機能を搭載, 20 システムを設置する予定だ.
NTT will introduce a new model exchange.
The new model exchange is equipped with a self checking function and NTT is planning to install 20 systems.
動詞の意味から, 「搭載」しているのは「交換機」, 「設置する予定」を立てるのは「NTT」と判断し, 主語を補う.
数の生成 その大学は全国の高校から学生を集める.
That university recruits some students from high schools throughout the country.

「全国の〜」や「〜を集める」から単数複数を判断しschools, studentsとする.
所有代名詞の補完 彼は, 息子をエンジニアにし, 娘を医者にした.
He made his son an engineer and made his daughter a doctor.
英語では, 親戚や自分の持ち物には所有代名詞を付けて表現する. この例では「彼の娘」や「彼の息子」と判断して, 所有代名詞(his)を補う.

図1 単語意味カテゴリ体系例

ビジネスの分野での翻訳を考えると, 表に示すような日常使われる表現だけでなく, さらに専門的な表現や省略が多用される場合があります. このような専門的な分野のスタイルにいかに合わせられるかが, 実用システム構築時には課題となります.




市況速報翻訳システム

今回, 市況速報をターゲットに速報向けハイブリッド翻訳システム(ALTFLASH)を構築しました. 実 験にあたっては, 意味解析型翻訳システムであるALT-J/Eを核にして, (3)直接翻訳方式のうちのテンプレート翻訳を組み合わせています. 最近, 様々なところで日本語と英語の対訳データベースの構築の動きがあり, 研究と実用の両面で重要性が認識されつつあります. これら対訳データを用いた用例翻訳7)は, ATRなどにおいて研突が行われています. 商用で流通している大規模の用例を集めることによって, NTTでは(3)で用例を用いて高品質な翻訳を目指す方式も併せて研究しています.

今回の実験対象は, 日本経済新聞社がニュース速報などをパソコン向けオンライン情報サービスとして実現している日経テレコンBIZで流通している記事です. 目標となる英文記事は日経Telecom Japan News & Retrievalに収録されています. この中で, 東証外国部の記事を翻訳した状況を図2に示します. 右上が, 市況ニュース(入力)で, 2段目がALTFLASHによる翻訳結果, 3段目は流通している英文記事です.

図2 市況速報の翻訳例




■ALTFLASHの処理の流れ

日本文(原文)の記事を入力すると, 前処理として見出し部分を記事から切り出し, 英語の見出し文としてのスタイルに合わせて翻訳します. このとき, 見出しに情報が少ないときは, 本文から情報を抽出して英文の見出しをつくり上げます. 本文の翻訳は, 「意味解析型翻訳」と「直接翻訳(テン プレート翻訳)」を並列に別プロセスで実行します. 直接翻訳は, 定型的な文を対象に英文の固有名詞や数値を埋め込んで, 英文を生成します. 意味解析型翻訳では, テンプレートに当てはまらない記事を対象に, 意味辞書を用いて構文解析, 意味解析を行います. それぞれの解析結果から英文の速報記事を作成します. 以下, 具体例で処理を説明します.




■見出し翻訳

英文記事では見出しが重要で, 結論を端的に示す見出し翻訳では, 日本語の見出しにニュースとしての情報が不足している場合, 本文の1文目の情報を用いて, 文を生成します. 図3の例では, 「東証外国部・大引け」としか日本語見出しに情報がないため, 記事本文の1文目の「欧州株の軟調を映しさえない展開」より, さえないを抽出し, 英文の見出しをLowerと生成します.

   東証外国部    Tokyo Foreign Stocks
大引け Cls
さえない Lower

これにより, 英訳の見出し文は図2に示すように“Tokyo Foreign Stocks Cls: Lower”となります.




■直接翻訳(テンプレート翻訳)

頻出する「売買高は概算10万株. 」などの文章を効率よく処理するため, 以下の図4(a)(b)のようなテンプレートを用いています.

図3 速報向けハイブリッド翻訳システム(ALTFLASH)の構成

日本文: /売買高/商/    /は/が/の/    /概算/概算で/約/    《数値1》株[だった] [ . ]
英訳: Trading volume was estimated at 《数値1》 shares.
(a) 数値が変わる例
日本文: 半面, 《企業1》 [/ , /や/ 《企業2》] などが買われ, 《企業3》など /は/が/も/ 高い [ . ]
英訳: 《企業1》 [ , 《企業2》] was/were bought along with 《企業3》.
(b) 固有名詞が変わる例

/ / /:選択
《 》:変数
[ ]:省略可能

図4 テンプレート翻訳ルール

実際このようなテンプレートをどのように収集するかが課題ですが, 現在は記事データをまとまった単位で蓄積しておき, それをN-Gram統計処理*という手法で, よく表れる表現, また離れたところにある表現を自動的に効率よく抽出する支援プログラムも準備できています4).

図2では2, 3, 5文目がテンプレートにヒットしており, 意味解析型翻訳処理は, 1, 4文目であることを示しています.




おわりに

ALT-T/Eは, 現在VI&Pで翻訳サーバとして実験中5)です. 本システムで構築した日英の変換辞書は, インターネット情報ナビゲーションサービスTITAN6)で利用されています. 今後, 市況情報のサービスについては, 用例翻訳の検討を進め, 流通している日英の記事から翻訳ルールを自動構築する手法の研究を継続していく予定です.




■参考文献

1)
中岩浩巳, 池原悟: “翻訳通信に適した意味解析型翻訳技術”, NTT R&D, Vol.44 No.5, pp.443-448, 1995

2)
横尾昭男 他: “日英機械翻訳における意味解析のための単語辞書”, 第3回言語処理学会年次大会A2-2, 1997

3)
白井諭 他: “日英機械翻訳における意味解析のための構文辞書”, 第3回言語処理学会年次大会A2-3, 1997

4)
内野一 他: “離散共起表現データを用いた単語のグルーピング”, 第3回言語処理学会年次大会C1-7, 1997

5)
和田久 他: “VI&P総合実験における翻訳通信システムの構築に関する検討”, 電子情報通信学会春期大会D255, 1995

6)
林良彦 他: “インターネット情報ナビゲーションサービスTITAN(タイタン)”, 本誌, Vol.8 No.8, pp.20-23, 1996

7)
E. Sumita, K. Oi, O. Furuse, H. Iida and T. Higuchi: “Example-Based Machine Translation using Associative Processors”, Journal of Natural Language Processing, Vol.2 No.3, 1995



(左上から)大山 芳史    
コミュニケーション科学研究所
知識処理研究部主幹研究員
白井 諭
同 上   主幹研究員
(左下から)構尾 昭男
同 上   主幹研究員
藤波 進
情報通信研究所
データべ-ス研究部主幹研究員





Footnote
* N-Gram統計処理: 2 文字 (bi-gram) , 3 文字(tri-gram) といった文字数制限を設けずに, n文字で構成されるすべての文字列を高速に抽出し頻度データを得る手法. (Return)