Shinji Nakai, Satoru Ikehara & Satoshi Shirai, Technical Report of IEICE, November 5-6, 1998, SIG-NLC, Kyushu Institute of Technology, Iizuka, Fukuoka

「の」型名詞句における係り受け規則の自動生成法

中井慎司⁺ 池原悟⁺ 白井諭⁺⁺

⁺鳥取大学工学部 ⁺⁺NTTコミュニケーション科学研究所
〒680-0945 鳥取市湖山町南4-101 鳥取大学工学部
E-mail: nakai@ike.tottori-u.ac.jp
Tel: 0857-31-6743

あらまし

本塙では、構造に多義を持つ日本語名詞句の中でも、基本的でかつ高頻度で現れる「AのBのC」を対象に、名詞の意味属性を用いた係り受け規則の自動生成法を提案する。この手法は名詞句の持つ意味的な構造に着目して、 1つの名詞句学習データから、 3つの名詞A、B、C間の意味的係り受け規則(3タイプ、計7種類)を自動生成する。次に、得られた係り受け規則を別の名詞句標本データ(10,021個)に汎用規則(1, 2, 3次元規則の順)から適用した結果、判定率96.0%、適合率88.4%の精度で係り先が判定でき、最終的な正解率は85.1%であった。これより、提案した方法は名詞句の特徴をよく捉えた、精度の高い係り受け規則が得られることが分かった。

キーワード

Automatic Generation of Dependency Rules for Japanese Noun Phrases with Particles "no"

Shinji NAKAI⁺ Satoru IKEHARA⁺ Satoshi SHIRAI⁺⁺

⁺Faculty of Engineering, Tottori University ⁺⁺NTT Communication Science Laboratories
Minami 4-101, Koyamachou, Tottori, 680-0945 Japan
E-mail : nakai@ike.tottori-u.ac.jp
Tel : 0857-31-6743

Abstract

This paper proposed a method automatically to generate dependency rules for "A no B no C", the most typical noun phrases and frequently appeared in Japanese (similar to "C of B of A" in English), using a semantic attribute system currently developed. In this method, 3 kinds of semantic dependency rules such as one-, two-, tree-dimensional rules are independently generated from a noun phrase data-base. In the experiments, the generated rules. were applied to the dependency analysis (in the order of 1-, 2- and 3-dimensional rules) resulting in the recall rate of 96.0%, precision rate of 88.4%, accuracy rate of 85.1%. From these result, it was found that the method yields accurate rules for dependency analysis.

key words

[ 電子情報通信学会技術研究報告, NLC98-3, pp.15-22 (1998.5). ]
[ Technical Report of IEICE, NLC98-3, pp.15-22 (November, 1998). ]

INDEX

自然言語処理の最大の問題は、表現の構造と意味に関する解釈の曖昧性である。いままで、多くの研究が行われてきたが、確率的、文法的情報に頼った従来の方法では、これらの問題を解決するのは困難であった。

日本語名詞句の解析では、従来、コーパスの基づく方法として、単語の共起情報を用いて係り先を決定する方法[1]、意味的クラスの共起情報を用いて係り先が決定される確率を求める方法[2]、また、名詞句解析では、大量の対訳用例の中から意味的に類似した表現を発見し、翻訳結果を得る方法[3]などが提案されてきた。しかし、通常、コーパスから得られる標本はスパースであり、適切な用例がない場合には、結果は保証されない。また必要十分な標本データを収集すること、計算量が膨大となることなどが問題であった。

これに対し、最近大量の標本データから汎化を用いた学習を行いルールを生成する手法が盛んに行われており、 Alves[4]らは「A のB のC」の係り受け解析に適用している。しかし、この手法は3つの名詞の組の構造だけで名詞句を捉えようとしており、名詞句それぞれの特徴に適したルールが作成されにくいといった問題がある。この問題を解決するため、本稿では、「A のB のC」を対象に、名詞句の持つ構造に着目して、 3つの名詞A、B、C間の意味的係り受け規則(3つの名詞の組の規則、 2つの名詞の組の規則、1つのみの名詞の規則)を名詞句標本データから自動生成する手法を提案する。そして、得られた係り受け規則を別の名詞句標本に適用して解析精度を評価する。

以下では、日本語名詞句の中でも、基本的でかつ高頻度で現れる、2つの助詞「の」と3つの名詞A、B、C から構成された「A のB のC」の形の名詞句を考える。ただし、記号A、B、C は名詞の出現順序をも表す。この名詞句は、係り受け関係に曖昧さのある名詞句の中で最も基本的なものである。以下、この型の名詞句を単に「の型名詞句」という。

日本語では、一般に、表現要素間に後方修飾の原則があることに注意すると、「の型名詞句」では、名詞B の係り先は名詞C に特定されるため、先頭の名詞A について、以下の2通りの係り受け解釈が存在することになる。

1)	A→B (&B→C) の場合
	例)	「私の母の名前」、「浴室の脱衣場の壁」


2)	A→C (&B→C) の場合
	例)	「私の昔の友達」、「東京の数学の教師」

以下では、簡単のため、1)を「b係り」、2)を「c係り」と呼ぶ。

「A のB のC」を「A のB」と「B のC」に分けて考える方法は意味論的にも問題がある。要素合成法の考え方に従えば、表現の意味はそれを構成する部品の意味に還元されるが、言語表現では、この原理が成り立たない場合が多く、表現の構造と意味の関係を考えなければならない場合が多い。例えば、下記の名詞句では、2つの名詞句に分離することは適切でなく、3つの名詞の組とその出現順序に依存して意味が決定される。

このような場合は、表現を分解せず、ひとまとまりのものとして扱うことが必要である。従って、「の型名詞句」の名詞間の係り受け関係を決定する場合も、表現を構成要素に分解してよい場合と分解できない場合に分けて考えることが重要である。

「の」型名詞句の係り受け解析では、3つの名詞の意味属性の組が決まれば係り受け関係が一意に決定できると仮定する^注と、すべての係り受け規則は3つの名詞の意味属性の組で表現される。ここで「の」型名詞の係り受けの特徴を見てみると、必ずしも3つ名詞の意味属性のすべてが決まらなくても、係り受け関係が決まる場合がある。例えば、「私(A)の本当(B)の父(C)」では、「私」は「本当」に係ることができないのでc - 係りである。つまりこの名詞句は「本当(B)」のみによって係り先を決定できる。そこで(A,B, C)の3つの名詞の同時共起で「の」型名詞句の係り受け関係を捉えるだけでなく、(A,B), (B,C), (C,A)のそれぞれ2つの名詞の関係、およびそれら3つの関係、さらに(A)、 (B)、(C)それぞれ1つの意味属性で係り受け関係を捉えるほうが、対象とする名詞句の構造の特徴をより良く捉えられると考えられる。また、 3つの意味属性の組でルールを作成するだけでなく、2つの意味属性の組のルール、および1つの意味属性のルールを作ることにより、1)複数の 3つの意味属性の組のルールを2つ、または1つの組の意味属性のルールに置き換えることによって、ルール数を圧縮することができ、2)制約の緩いルールにすることによって、未知の用例に対し、より多くの係り受けの判定ができると考えられる。次節以降で1、2、3次元それぞれの係り受け規則の生成法および適用順序について述べる。

前節の仮定に従い、名詞句「A のB のC」の意味構造を(X,Y,Z)で表す。ただし、X, Y, Z は、それぞれ、名詞A, B, C の意味属性番号[5]とする。次に図1に示すように、この意味構造の名詞句に対する係り受け規則を(X,Y,Z:D)で表す。ただし、D は係り受けのダイプで、D＝b は前方係り受け (b-dependency)、D＝c は後方係り受け(c-dependency)を表す。

(X,Y,Z:D) : 係り受け規則の一般形
	X, Y, Z : 名詞A, B, C の意味属性番号
	D : 係り受けの種類(b またはc)

この規則は、構成要素の名詞の一つの意味属性とその名詞が何番目の名詞として使用されたかが分かれば、残りの2つの名詞の意味属性とは無関係に、係り受け関係が決定できる規則である。対象とする名詞句では3つの名詞が使用されているため、その位置に対応して、係り受け規則は、次の3種類に分けられる。
(X,*,*:D), (*,Y,*:D), (*,*,Z:D)
* : 任意の意味属性

2) 2つの名詞に着目した規則(2次元規則) この規則は、2つの名詞の意味属性とそれらの出現位置が与えられれば、残りの名詞の意味属性とは無関係に係り受け構造が決定できる規則である。意味属性が無関係となる名詞の位置に応じて、解析規則は次の3種類に分類される。
(X,Y,*:D), (*,Y,Z:D), (X,*,Z:D)

この規則は、3つの名詞すべての意味属性とその出現位置の関係で係り受け構造が決定できる規則で次の1種類である。
(X,Y,Z:D)

単語の意味属性と出現位置では係り受け構造が決定できないもの。単語の字面を用いて規則を記述する必要があるため、ここでは例外ルールと考える。

図4に示すように、名詞A, B, C のそれぞれについて単語意味属性体系の木を用意し、各木の各ノードにリスト(m_i、n_i)を対応させる。ただし、 m_i は、i 番目の意味属性を持つ名詞が使用された名詞句のうち、b-dependency の数、n_i は、 c-dependency の数を表すもので、いずれも、3.2節で作成した標本データを集計することにより得られる値である。

ここで、1次元規則は、3つの名詞のうちのどれか一つの名詞の意味属性のみに依存して係り受け関係が決定できる規則である。十分大量の標本データからm_i, n_i の値が求められているとすれば、m_i またはn_i のどちらか一方が0となるところでそのノードからルートのノードにたどったとき係り先の違う用例がない場合に1次元規則が存在する。逆に、両者の値がいずれもゼロでないときは、その意味属性i を用いた1次元規則は存在しない。

すなわち、名詞A の意味属性体系で、m_i ≠0 かつn_i ＝0 なる意味属性i からは、係り受け規則 (i,0,0:b)が得られ(図5参照)、m_j ＝0 かつn_j ≠0 なる意味属性j からは、係り受け規則 (j,0,0:c)が得られる。 m_k ≠ 0 かつn_k ≠ 0 なる意味属性k では、1次元規則は存在しないから、次項に述べる方法で、2次元規則、3次元規則の有無を調べる。なお、m₁ ＝0 かつn₁ ＝0 なるノード1では、改めて規則を作成する必要はない。

1次元規則が1次元配列から求められたのに対して、2次元規則は、2次元配列から求められる。(i,j)の位置の配列要素(m_ij, n_ij)から係り受け規則を抽出する方法、および規則を汎化する方法も前と同様である。3次元規則もまた同様である。

初めに、1次元規則を生成し、生成された規則に当てはまるデータを標本データから削除する。次に残された標本データに対し2次元規則を生成し、同様に生成された規則に当てはまるデータを削除する。そして最終的に残されたデータに対して3次元規則を生成する方法。この場合、規則の適用は1次元規則から先に適用する必要がある。

標本データから1、2、3次元ノレールを独立に生成し、その後、次元間で重複するルールを削除する方法。

1. の方法は、生成された規則に当てはまる用例を順次削除していくため、2. の方法に比べて、後に生成される規則の数は減少する。また、後になるに従って生成規則のための用例数が減少することにより、2. の場合より汎用的な規則が生成されるが、学習用の標本があらがじめ十分用意されていない場合は、必要な規則が生成されなくなる危険がある。

2. の方法では、各次元の規則はお互いに独立に生成されるため、その総数は、1. に比べて多くなる。また、2次元規則、3次元規則が汎化できる程度も低い。しかし、学習データが必ずしも十分でなくても、必要な規則の多くが生成できる可能性がある。

本論文では、規則生成に必要な標本データをもれなく用意することは現実には不可能であることを考慮し、有限の標本から必要な規則をなるべくもれなく抽出するために、2. の方法を採用する。

学習データから3タイプ、計7種類の係り受け規則を生成する場合、包含関係のある規則が生成される可能性がある。この場合、包含する側の係り受け規則だけを残し、包含される側の係り受け規則を除去することにより、ルール数の削減を図ることができる。そのための規則として以下の2 つの規則をつくった。

1)	次元の異なるルールが生成された場合、より低い次元のルールを残し、その他のルールを除去する。
2)	同次元のルールが生成された場合はどちらも残す。

本手法では3.4節の2. の規則生成法に従って、1つの学習データから3タイプ、計7種類の規則を生成する。この方法では、生成された規則はいずれも独立であるため、適用順序は任意であるが、ここでは以下の順に適用することとする。

1)	まず、汎用的な規則の順に1次元規則、2次元規則、3次元規則の順に適用する
2)	同次元内の複数の規則が適用され異なった係り先が得られた場合、その次元では係り先を決定せず次の次元に送る

通常の規則の適用では、例外規則から先に適用していく必要があるが、図2に示すように1、2、3次元規則の間には包含関係があり、3次元規則は1、2次元規則を包含し、 2次元規則は1次元規則を包含している(1、 2、3次元全ての規則が生成されるわけではない)。そこで、規則の適用順序はより広範な名詞句の特徴を代表していると思われる規則(1、2、3次元の順)から適用する。(図 3参照)

1、2次元規則にはその中に3つの規則があるため、同一の名詞句に対して、2つ以上の規則が適用されたときは、係り先の違う結果が得られる可能性がある。この場合はその次元で特徴を捉えられないという理由で係り先を決定せず、次の次元に送る。

図6に実験の手順を示す。実験に使用する名詞句は新潮文庫100冊(900万単語)より抽出した 10,021個のデータに、人手で意味属性および係り先を付与したデータを使用した。実験は、10 分割Cross Validation の方法とし、10,021の名詞句データの9割を学習用データ、残りの1割をテストデータとして、10回繰り返した。

表1に標本データの各名詞ごとの意味属性の深さついての度数分布を示す。

表2に生成された規則の個々の規則数とその係り受け規則を実験データに適用したときのカバー率及び適合率を示す。この表より以下のことが分かる。

表2 自動生成された個々の係り受け規則の数と適用回数および正解率

約223の係り受け規則が得られ、全体の19% をカバーしている。

ルールの種類ごと(ABのみ、BCのみ、CA のみ)のカバー率は60から80%である。しかし、 3つ合わせた規則(係り先が競合した場合には判定しない)を適用したところ、全体の86%の名詞句に対して係り先を判定することができ、その適合率は91%であった。

また、3つの規則合わせて、約2,860個の係り受け規則が得られた。

係り受け規則数は約2450と多いが、カバー率および適合率は1、2次元規則と同程度である。

生成された3タイプ、計7種類の規則を 10,021件の実験データに適用し、カバー率、適合率、および正解率を出した。このときの7種類の規則の適用順序は3.6節で述べた通りである。結果は、表3に示すように、最終的に全体の 96.0%の実験データに対して係り先が決定され、その適合率は88.4%であった。規則が適用されなかった名詞句はわずか4.0%であった。カバー率と適合率をルールが適用される段階ごとに見てみると、カバー率は個々に適用したときと比較して2、3次元の順に悪くなっているのが分かる。適合率も同様に比較した場合、カバー率と同様に 2、3次元の順に悪くなっているが特に3次元での落ち込みが大きい。これは1、2次元ルールの適用が終わった段階において、判定しにくい名詞句データが3次元の規則適用に送られてくるからである。このことより、3次元規則の適用に送られてきた名詞に対しては別方式で係り受け解析を行うといった、ハイブリッド型解析を行うことも考えられる。

表3 汎用規則から適用した場合のカバー率および適合率

表4に2次元規則、3次元規則のみを使った解析と本手法との解析精度の比較を示す。この表の全ルールとは学習データから得られた係り受け規則すべてを指す。この中には1つのみの学習データから得られた係り受け規則も含む。一方、度数2以上のルールとは2つ以上の学習データから得られた係り受け規則を指す。信頼性の面から 1つのみの学習データから得られた係り受け規則は使用しない方が妥当と思われる。しかし、3 次元ルールでは全てのルールを使用した方が正解率が良くなるという結果が得られた(カバー率の差がそのまま正解率に反映されている)。以上のことをぶまえて本実験では、2次元ルールは度数2以上のルールを適用し、3次元ルールは全てのルールを適用し解析を行った。結果は、1、2、 3次元のルールを汎用的なルールから適用するとした本手法が単一次元のみの場合と比べて、カバー率で6～11%上回った。それにより、最終的な正解率も6～7%向上した。このことより1つの学習データより、3タイプ、計7種類の規則を生成し、汎用的な規則(1次元規則、2次元規則、 3次元規則の順)から順に適用することの有効性が示された。

表5に、ルールを削減した場合と削減していない場合とのルール数および正解率の比較を示す。この表より、ルールを削減したものはしなかったものに比べてルール数を35.1%削減することができた。またルール数削減に伴うカバー率の低下を1.8%に抑えることができた。

表5 ルール数の削減前、削減後のルール数および正解率の比較

本稿では、係り受け解析に曖昧性のあるもっとも典型的な名詞句である「AのB のC」を取りあげ、名詞の意味属性を使用した意味的係り受け規則の自動生成法を提案した。この方法により、大量の解析済みの名詞句標本から名詞間の意味的構造と係り受け解釈の関係を自動的に学習し、汎用性の高い規則から順に3タイプ、計7種類の規則を生成した。

本方式を日本語名詞句10,021件に適用した実験では、1次元規則223件、2次元規則2859件、 3次元規則2455件が得られた。また、これらの規則を別の名詞句標本10,021件の解析に適用した結果によれば、カバー率96.0%、適合率88.4%、正解率85.1%で名詞句の係り受けを解析できた。これより、提案した方法は精度の高い係り受け規則が得られることが分かった。

また本方式は別の名詞句の係り受け解析“Aの B とC”、“形容詞+AのB” などにも適用可能であると思われる。

	1 はじめに
	2 表現の意味構造
	2.1 対象とする名詞句とその意味構造
	2.2 名詞句の構造と意味の問題
	3 係り受け規則の生成法
	3.1 提案する係り受け規則生成の背景
	3.2 係り受け規則の形式とタイプ
	3.3 係り受け規則の抽出と汎化
	3.4 係り受け規則の生成法
	3.5 重複する係り受け規則の除去
	3.6 係り受け規則の適用順序
	4 実験の方法と結果
	4.1 実験対象と実験の手順
	4.2 実験結果
	4.2.1 標本データの特徴解析
	4.2.2 生成された規則の個々の規則数とカバー率および適合率
	4.2.3 汎用的な規則から適用した場合のカバー率および適合率
	4.2.4 単一次元と本手法との比較、検討
	4.2.5 係り受け規則の削減について
	おわりに

	参考文献

タイプ	1次元ルール			タイプ	2次元ルール			タイプ	3次元ルール
タイプ	ルール数	カバー率	適合率	タイプ	ルール数	カバー率	適合率	タイプ	ルール数	カバー率	適合率
Aのみ	78.5	9.0	91.5	AB のみ	974.6	59.3	90.2	-	-	-	-
Bのみ	84.3	8.8	89.2	BC のみ	937.0	69.8	91.7	-	-	-	-
C のみ	60.3	6.2	87.6	CAのみ	947.2	67.0	91.3	-	-	-	-
1次元規則	223.1	19.3	91.7	2次元規則	2,859	85.8	90.9	3次元規則	2,455	91.0	86.7
(A,B,C)				(AB,BC,CA)

	2次元ルール		3次元ルール		本手法
	全ルール	度数2以上のルール	全ルール	度数2以上のルール	本手法
カバー率	65.8%	85.8%	91.0%	79.1%	96.0%
適合率	90.2%	90.9%	86.7%	91.3%	88.4%
正解率	59.3%	78.0%	78.9%	72.2%	85.1%

	カバー率	適合率	正解率	ルール数
規則削減前の係り受け規則を適用	96.0%	88.4%	85.1%	5,313.4
規則削減後の係り受け規則を適用	94.2%	87.8%	82.7%	3,448.4

あらまし

キーワード

Abstract

key words

INDEX

1 はじめに

2 表現の意味構造

2.1 対象とする名詞句とその意味構造

2.2 名詞句の構造と意味の問題

3 係り受け規則の生成法

3.1 提案する係り受け規則生成の背景

3.2 係り受け規則の形式とタイプ

3.3 係り受け規則の抽出と汎化

3.4 係り受け規則の生成法

3.5 重複する係り受け規則の除去

3.6 係り受け規則の適用順序

4 実験の方法と結果

4.1 実験対象と実験の手順

4.2 実験結果

4.2.1 標本データの特徴解析

4.2.2 生成された規則の個々の規則数とカバー率および適合率

4.2.3 汎用的な規則から適用した場合のカバー率および適合率

4.2.4 単一次元と本手法との比較、検討

4.2.5 係り受け規則の削減について

おわりに

参考文献