| 1 はじめに | |
| 2 獲得タスク | |
| 3 提案手法 | |
| 3.1 質問 | |
| 3.2 提案手法における探索アプロ-チ | |
| 4 実験 | |
| 4.1 最低有効事例率の比較 | |
| 4.2 最低成立事例率の比校 | |
| 4.3 探索アブロ-チの違いによる性能比較 | |
| 5 おわりに | |
| 謝辞 | |
| 参考文献 |
トランスファー方式の機械翻訳システムが必要とする意味構造変換ルールは, 辞書作成の専門家がその条件付けを行なう事により, 作成されている. 本稿では, 専門家が行なうこの作成作業を如何に支援するかと言う問題を取り上げる. 実用的なシステムを構築するためには, 変換ルールを大量に作成する必要があり[7], 作成を支援する手段が必要であった.
変換ルールの作成を支援する従来法には, 帰納学習によるアプローチ[6;4;2;3]がある. このアプローチは翻訳用例を沢山必要とするため, このアプローチにより作成可能な変換ルールは限られていた. 特に, テキスト中の出現頻度が低い表現に対応する変換ルールは, 大量に作成される必要であるにも関わらず, このアプローチでは作成が難しかった.
そこで本稿では, 支援システムがそれ自身と専門家のやり取りを通して変換ルールの条件を獲得する支援手法を提案する. システムは, シソーラスを利用して例文を生成し, その例文が翻訳例として正しいか否かを専門家に質問し, 専門家の応答により適切な条件を探索する.
提案手法を評価するために, 専門家が作成したルールの条件を提案手法で獲得出来るかを試したところ, 十分な質問が可能な時には提案手法はその正しい条件を獲得出来た.
以下, 2節では本稿で取り上げるタスクを明確にする. 3節で提案手法について述べる. 4節で実験結果を示し, その結果を議論する. 5節でまとめる.
トランスファー方式の機械翻訳システムでは, 動詞と名詞の共起関係に着目し, 原言語の共起関係パタンとそれに対応する目的言語の共起関係パタンの対からなる 意味構造変換ルール(パタン対と呼ぶ)が中心的な役割を果たす. 例えば, NTTで研究開発している日英機械翻訳システム, ALT-J/E[1]は, このようなパタン対を備えた, トランスファー方式のシステムである.
図1にALT-J/Eのパタン対の例を示す. IF部は日本語パタンで, THEN部はそれに対応する英語パタンである. このパタン対は, 「入力文の日本語動詞が‘焼く’の場合, ‘焼く’の主語(N1)が<人>の語義を持ち, ‘焼く’の目的語(N2)が<パン>または<菓子>の語義を特てば, 日本語動詞‘焼く’に対する適訳は英語動詞‘bake’で, ‘bake’の主語はN1の英語訳, ‘bake’の目的語はN2の英語訳である. 」と示唆している. <人>, <パン>, <菓子>が入っている各スロットには, 意味カテゴリと呼ばれる名詞の語義が入る. ALT-J/Eは, 意味カテゴリを約2700個持っており, これらの意味カテゴリは図2に示す様な最大の深さ12段の階層構造(シソーラスと呼ぶ)を成す. ALT-J/Eの日本語辞書中の各名詞(全部で約40万語)は, いずれかの意味カテゴリ(1つとは限らない)を語義に持つ.
|
パタン対を作成する際, 専門家は各スロットに入れるべき適切な(抽象的過ぎず, 特殊過ぎない)意味カテゴリを探索する. 以下本節では, 専門家が入力すべき意味カテゴリを特徴付け, 本稿で取り上げるタスクを明確にする. そのために, まず幾つかの記号と概念を導入する.
今, 専門家があるパタン対のあるスロット(対象スロットと呼ぶ)に入れるべき意味カテゴリを探索しているとする. そして, (1)そのパタン対の各スロットにマッチする原言語名詞(具体語と呼ぶ)の組, (2)各具体語の意味カテゴリ, を思い浮かべているとする. 対象スロットに対する具体語の意味カテゴリがシソーラスのリーフであれぱ, 専門家が対象スロットに入れるべき意味カテゴリは対象スロットに対する具体語の意味カテゴリ自身又はその上位概念であるから, 入れるべき意味カテゴリの候補はシソーラスの頂点と対象スロットの具体語の意味カテゴリを結ぶパス上にある.
そこで, 次のリスト(候補リストと呼ぶ)を考える.
(C1, C2, … Ci , … CM )
ここで, i 番目の要素は, 上述のパス上のルートから数えて i 番目の意味カテゴリーである. 従って Mは, 対象スロットに対する具体語の意味カテゴリの深さである. また, シソーラス上にある Ci の兄弟をS(i ,j ), (1 <= j <= Ni )と記述する. ただし, Ni はシソーラス上にあるCi の兄弟数である.
例えば, 対象スロットに対する具体語が‘太郎’で, その意味カテゴリが<男>であれば, 図2に従って, (<名詞>, <具体>, <主体>, <人>, <人間>, <人間<生物学的特徴>>, <人間<男女>>, <男>)が候補リストとなり, M = 8 となる. また, C3 = <主体>で, N3 = 2, S(3,1) = <場>, S(3,2) = <具体物> となる. なお, リーフには子ノードはないが, 説明の簡単のために, NM+1 = 1, S(M + 1, 1)= CM と定義する. 従って, 先の例の場合, N9 = 1 で, S(9, 1)= C8 となる.
|
Ci に対する有効事例率: (1)前述の具体語の組を利用して生成される文, (2)対象スロットに対する具体語をS(i + 1, j ), (1 <= j <= Ni+1)配下のリーフを語義に持つ各原言語名詞で置き換えて生成される文を考える. 例えば, S(3, 1), S(3,2)配下の部分木は, 図3においてS(3, 1), S(3,2)配下の左右の三角形に対応するので, 底辺が丁度リーフに対応する. 置き換えに使われる名詞は, いずれかの底辺上のリーフをその語義に持つ名詞である. この時, ある文は原言語文として受理されるが, ある文は受理されない. 置き換えによって生成される文の内, 原言語文として受理される文の割合を, 意味カテゴリCi に対する有効事例率と呼ぶ.
|
Ci に対する成立事例率: また, 上述の原言語文として受理される文の内, ある文は獲得対象パタン対による翻訳が適切であり, ある文は適切でない. 受理される文の内, 獲得対象パタン対による翻訳が適切な文の割合を, 意味カテゴリCi に対する成立事例率と呼ぶ.
更に, 対象スロットに指定する意味カテゴリの最低限持っていて欲しい有効事例率, 成立事例率を, 順に最低有効事例率, 最低成立事例率と呼ぶ. また, 有効事例率, 成立事例率が共に最低有効事例率, 最低成立事例率以上である意味カテゴリを成立カテゴリと呼び, 成立カテゴリでない意味カテゴリを不成立カテゴリと呼ぶ.
上述の用語を用いると, 専門家が入力するべき意味カテゴリはシソーラス上最上位の成立カテゴリと特徴付けられる. なぜならば, 適切な意味カテゴリは, 対象スロットにマッチすべき名詞をなるべく多く覆い, マッチすべきでない名詞の覆いを最小限度に押える必要があるからである.
そこで本稿で取り上げる獲得タスクを, 次の様に定める. あるパタン対のあるスロットに入れるべき意味カテゴリを獲得する時,
| 入力: | (1) | 獲得対象パタン対のスケルトン | ||
| (2) | IF部の各スロットの条件にマッチする具体語の組 | |||
| (3) | (2)の各具体語の意味カテゴリ | |||
| 出力: | シソーラスの頂点と対象スロットに対する具体語の意味カテゴリを結ぶパス上にある, 最上位の成立カテゴリ | |||
例えば, 図1に示すパタン対のJ-Subjスロットに指定すべき意味カテゴリを獲得したい場合, スケルトンとして, 図1のJ-Subjスロット及びJ-Objスロットを空欄にした雛型が入力されてる. IF部のスロットの具体語として, J-Subjスロットに対し‘太郎’, その意味カテゴリとして<男>, また, J-Objスロットに対し‘アップルパイ’, その意味カテゴリとして, <ケーキ>が例えば人力される. 出力される意味カテゴリは, 図2のルート<名詞>とリーフ<男>を結ぶパス上の8個の意味カテゴリの内, 最上位の成立カテゴリである.
本稿では, 前節で述べた獲得タスクを解く支援システムを通して, 専門家を支援する手法を提案する. 支援システムは, 専門家とのやり取りを通して, 探索リストの中から上述の最上位の成立カテゴリを探索する. システムは後述の3つの探索アプローチのいずれかで探索を行なうが, その際各探索ポイントで専門家に質問をする. まずその質問戦略を説明する.
探索ポイントがCi であるとき, システムは以下の質問を生成し, 専門家から回答を入力してもらう.
質問生成
システムは, 各S(i + 1, j), (1 <= j <= Ni+1) について, シソーラス上のS(i + 1,j) 配下のリーフに位置する意味カテゴリを語義に持つ名詞を利用して, 前節の有効事例率の定義で説明した通りに文を生成する. 例えば, 初期入力時が前節の例の場合, C2, <具体>が探索ポイントであれば, N3 = 2, S(3,1) = <場>, S(3,2) = <具体物> なので, <場>と<具体物>各々について, 文を生成する. <土地>が<場>配下のリーフであって, ‘高地’がこれを語義とする名詞であれば, ‘高地’を使った文‘高地がアップルパイを焼く’を生成する. 生成される他の文は, 下線部の名詞が置き変わった文である.
ここで問題となるのは, システムが生成する文の量である. リーフの意味カテゴリを語義に持つ名詞は非常に多いため, システムが生成可能な全ての文を調べ尽くす事は現実的でない. そこで各リーフについて, そのリーフを語義に持つ特徴的な名詞を, そのリーフの代表語としてシステム側で予め準備する. その上でシステムは, 置き換えに利用する名詞を決められた個数だけ, システムが注目中のリーフの代表語中からランダムに抽出する事とする.
質問提示とその回吝
システムは生成した質問を専門家に提示する.
専門家は, 提示された生成文が原言語文として受理されるかどうか,
もしそうなら獲得対象のパタン対による翻訳が適切かどうかを判断し, その回答を全てシステムに入力する.
成立事例率や有効事例率が下限に近く微妙な場合には, 専門家は必要に応じてより多くの事例を提示してくれるようシステムに要求する.
以下, システムが取る3つの探索アプローチを説明する. これらの違いは候補リスト中のどの意味カテゴリから上述の質問戦略を適用するかである. 最初の2つボトムアップアプローチとトップタウンアプローチが, learner searchあり, 最後の二分アプローチがbinarysearch である. 図3に各探索アプローチのイメージを示す・
ボトムアップアプローチでは, システムはパス上の最下位の意味カテゴリ(候補リストの末尾)から順に, 即ちCM, CM-1, …の順に上述の質問戦略を適用する. 不成立カテゴリに到達した時点で探索を終了し, 不成立カテゴリに到達する前に到達した最後の成立カテゴリを最終出力とする.
トップタウンアプローチでは, システムはパス上の最上位の意味カテゴリ(候補リストの頭)から順に, 即ちC1, C2, …の順に上述の質問戦略を適用する. 成立カテゴリに到達した時点で探索を終了し, その成立カテゴリを最終出力とする.
二分アプローチでは, システムはまず, リーフ, 頂点の順に質問戦略を適用する. 継いで, 探索すべき候補を丁度二分する意味カテゴリに, もし二分する意味カテゴリが無ければ大体二分する下よりの意味カテゴリに, 上述の質問戦略を適用する. 質問戦略を適用された意味カテゴリが成立カテゴリであるか否かにより, 候補リストをbinary search流に更新し, 次回はこの更新された候補リストを基に探索を繰り返す. 従って, 候補リスト(初期候補リストを除いて)の第一要素は常にが不成立カテゴリ, 最終要素が成立カテゴリとなる. 探索を繰り返すと, 最後候補リストの大きさが2となる. この時システムは最終要素を最終出力とする.
以下の2点について提案手法を実験的に評価した.
実験で正解とした意味カテゴリは, 人手で作成されたALT-J/Eのパタン対[5]に指定された以下のもので, 日本語動詞‘読む’のパタン対中の<主体>, <精神>, <抽象物(精神)>, 日本語動詞‘選ぶ’のパタン対中の<長>, 日本語動詞‘入賞する’のパタン対中の<式・行事等>1である. これらが適切な指定であることは事前に確認した. また, 実験に利用したシソーラスは先に説明したALT-J/Eのシソーラスで, 代表語はALT-J/Eのシソーラス作成時に参考にした名詞である. 提案手法のシステムの操作は, ALT-J/Eのパタン対を作成している熟練作業者2名が自たった.
なお, 最低有効事例率と最低成立事例率の値としては, 前者には1%, 10%, 20%, 30%を, 後者には100%, 90%, 80%を選んだ. 有効事例率は生成文の生起確率に対応するため, その値を余り大きく指定するとシステムに無視される生成文が多くなり問題である. また, 最低成立事例率にあまり小さな値を指定すると, 獲得される意味カテゴリがカバーすべきでない名詞を多くカバーするようになり, 問題が多い.
実験方法
上述した一番目の点を評価するために, 最低有効事例率が幾つである時に, 提案手法により適切な意味カテゴリが獲得出来る条件付き確率が最大になるかを調べた. 具体的には, 最低有効事例率を固定し, 最低成立事例率, 獲得する意味カテゴリを色々変えて各探索アプローチで提案手法により1度つづ獲得試行を行ない, 各最低有効事例率毎に, 獲得される意味カテゴリが正解に一致する割合を集計した. 質問のための文は各S(i + 1, j ) につき10個生成させた.
実験結果
実験結果を図4に示す. 凡例の数字は, 獲得された意味カテゴリの, 正解からのずれ及びその方向を示す. 例えば, 1, -1は, 各々正解から上に1, 下に1ずれた事を示す. 百分率は各事象(一致した, 1つ上にずれた等の)の全試行に対する割合である. 最低有効事例率が1%の時, 正解に一致する条件つき確率が67%と一番高い.
|
実験方法
上述の結果を基に最低有効事例率を1%に固定した場合, 最低成立事例率が幾つである時に, 提案手法により適切な意味カテゴリが獲得出来る条件付き確率が最大となるかを調べた. 質問のための文は先と同様に生成させた.
実験結果
その結果を図5に示す. 凡例の数字と百分率の意味は先と同じである. 最低成立事例率が90%または80%の時, 正解に一致する条件付き確率が69% と一番高い. さらに誤差一段まで見ると, 最低成立事例率が90%の時, 誤差が一段以内である率は85%と一番高い.
|
以上より, 一番目の点に関しては, 最低有効事例率と最低成立事例率の値が各々1%と90%の時に, 提案手法により適切な意味カテゴリが得られる可能性が高い事が分かった.
実験方法
最低有効事例率を1%, 最低成立事例率を90%に固定した場合, 提案手法が獲得する意味カテゴリが正解の意味カテゴリと一致するか, また一致しないならどれだけずれたかを, 上述の5つ意味カテゴリについて各探索アプローチ毎に実験した. 実験に際し, 各獲得対象カテゴリの獲得を各探索アプローチで3度行なった, 質問のための文はこれまでと同様に生成させた.
実験結果
図6と表1に, 各探索アプローチによる提案手法の正解率と平均質問数を示す. 二分アプローチは, 正解率66%, 平均質問数62回と他の探索アプローチより性能, 質問数共に勝る.
|
| アプローチ | ボトムアップ | トップダウン | 二分 |
| 平均質問数 | 116.0 | 62.7 | 72.0 |
本稿では, 支援システムが辞書作成の専門家とのやり取りを通して変換ルールの条件を獲得すると言う, 変換ルールの生成支援手法を提案した. 提案手法を利用すれば, 翻訳システムの語彙体系を熟知していない作業者でも 支援システムに聞かれる質問に答えるだけで適切な意味カテゴリの指定が可能となった. 今後は提案手法の実験評価を更に進める. また, 生成文の作り方(代表語の選び方など)を工夫し, より少ない質問数で有効事例率と成立事例率を精度よく推定する方法を開発する.
本論文をまとめるに当たり種々御協力頂いた, NTTアドバンステクノロジ(株)の関係各位並びにNTTコミュニケーション科学基礎研究所の中岩浩巳氏に感謝致します.