決定木を用いた日本語係り受け解析
春野 雅彦
ATR人間情報通信研究所
白井 諭
大山
芳史
NTTコミュニケーション科学研究所
フロントページへ戻る
本稿ではコーパスから決定木を構成し日本語係り受け解析に利用する方法を 述べる。一般に日本語係り受け解析では2文節間の係り易さを数値で表現し、
その数値を1文全体で最適化することによって係り受け関係を決定する。 したがって日本語係り受け解析は2文節間の係り易さを正確に計算するこ
とに帰着する。本研究の主旨は2文節の係り易さの評価と必要な属性の自動選 択に決定木を利用することである。これまでに英語、日本語で行われた統計
的依存解析の研究では、文節の種類によらず予め決められた属性すべてを使った 条件付き確率で係り易さを評価してきた。
一方、決定木を利用する手法では係り受け関係にある文節とそうでない 文節を弁別する属性が、2文節の種類に応じて重要な順にしかも必要な数だけ
選択される。大量の属性をシステムに与えても必要なものだけ利用されるため 、構文解析の精度向上に効果が期待される属性を全て採用出来る。
合わせて本研究ではブースティングと呼ばれる手法を用いて複数の決定木 を混合し確率計算を行う手法を試みた。
EDRコーパスを用いた提案手法の評価を行った。まず1つの決定木を利用した パーザで既存の統計的係り受け解析法を4%上回る解析精度が得られた。
次にブースティングを用いたパーザでは1つの決定木によるパーザと比較して、 1. 様々な数の訓練事例に対して解析精度が向上する、2. 混合する
木の数に依らずデータへの過適応は起こらないという2点が明らかと なった。
- はじめに
- 統計的係受け解析と決定木の利用
- 統計的係り受け解析モデル
- 決定木の構成と枝刈り
- 係り受け確率の計算と利用する属性
- ブースティングアルゴリズムの適用
- 実験と考察
- 枝刈りと解析精度
- 訓練データ数と解析精度
- 種々の属性の影響
- 頻出単語の表層、分類語彙表カテゴリの利用
- ブースティングアルゴリズムの適用
- 関連研究
- おわりに
- 謝辞
- 参考文献
1.
はじめに
近年大量の電子化言語データが氾濫しているにも関わらず、多くの応用で利用される自然言語処理技術は形態素解析に限られている。その大きな要因に、構文解析技術が実際のアプリケーションで利用可能な程成熟していないことが挙げられる。構文解析の精度をどこまで上げられるかが自然言語処理に課せられた大きな課題となっている。
日本語の実用システムにおける構文解析では、従来から依存文法の考え方に基づく係り受け解析を採用することが多い。これは係り受け解析が文節という単位毎に情報を集約し、次に文節間の係り受け関係を決定するため、単純に構成論的な方法と比較して無駄な曖昧性を減らし、頑堅なシステムを構築出来るためである。一般に係り受け解析では2文節間の係り易さを数値で表現した係り受け行列を用意し、動的計画法を用いて1文全体で最適化することで文の係り受け関係を決定する。従って、係り受け解析の本質的問題はどのように係り受け行列を構成するかに帰着する。これまで多くの研究者によって係り受け行列を高度化する手法が提案されてきた。例えば[福本他
92],[白井他
95]は南[南
86]によって提案された従属節の階層性を係り受け行列の中に取り込み、 [黒橋,
長尾 92]は日本語長文の並列句に現れる文節列の類似性に着目し係り受け行列に制約を加えた。[亀田
95]では更に字種、読点や副詞性単語の有無などについても考慮している。
これまでに行われた研究は係り受けの優先度(すなわち係り受け行列の値)を人手で設定する。係り受け解析で使われる属性数は多く、互いに競合することも多いため、その優先度を人手で決定するのは非常に困難な作業である。優先度が解析するテキストの種類に依存すると考えられるため、構文解析の適用範囲を変更しようとすると優先度の保守管理も非常に煩雑となる。それに加えて各手法の評価が数十から数百という少数の文でしか行われていないため、一般的な効果を評価することも困難である。
本稿ではコーパスから決定木を構成し日本語係受け解析に利用する手法を述べる。具体的には2文節の係り受け確率の評価と必要な属性の選択に決定木を利用する。これまで英語、日本語で行われた統計的依存解析の研究[Collins
96],[藤尾,
松本 97]
では、文節の種類によらず予め決められた属性すべてを使った条件付き確率で係り易さを評価してきた。そのため有限のデータから計算する条件付き確率が正確であるためには、利用する属性数は少数に成らざるを得なかった(データスパースネスの問題)。一方、決定木を利用する手法では、係り受け関係にある文節とそうでない文節を弁別する属性が、2文節の種類や周囲の環境に応じて重要な順に、必要な数だけ選択される。そのため大量の属性をシステムに与えても必要がなければ利用されず、データスパースネスの問題を避けられる。このため我々のシステムでは従来研究で解析精度向上に有効であることが知られている属性を自由に取り込むことが可能である。更に、データの特徴を抽出し係り受け確率の精度を向上させるためブースティングと呼ばれる手法を適用する。ブースティングはデータの分布を動的に振らせることで複数の分類器を生成し予測に利用する手法である。
評価は出来る限り客観的に行うためEDRコーパス[日本電子化辞書研究所
95]を利用し訓練事例とテスト事例を区別した。テスト文数も言語現象の偏りを避けるため1万文とした。このような評価法を用いることで様々な属性が解析精度全般に与える影響をある程度客観的に知ることが可能となった。本稿の構成は以下の通りである。2章で決定木を用いて係り受け解析の統計モデルを構成する手法について述べる。また学習に用いた属性についても説明する。3章ではEDRコーパスを用いた実験結果について報告する。続いて
4章で本研究と他の統計的構文解析法について議論し、5章で本稿をまとめる。
2. 統計的係受け解析と決定木の利用
2.1. 統計的係り受け解析モデル
入力文をSとし、Sがm個の文節集合B({,...,})
に分けられるとする。ただし、b_iは各々文節であり、f_iは i番目の文節が持つ様々な属性である。ここで文全体の係り受け集合Dを D =
{mod(1),...,mod(m-1)}とする。mod(i)はi番目の文節が係る文節の番号を示している。これ以降Dは以下の条件を満たすものと仮定する。
- 各文節は自分より後ろに必ず係り先を持つ
- 各係り受けが交差することはない(非交差条件)
統計的係り受け解析とは、1文に訓練データの観点から見て最も確率が高い係り受け集合D_bestを割り当てる過程である。係り受け集合は文節集合から決定されるので、統計的係り受け解析は以下の様に書くことが出来る。
各係り受けが先ほどの条件を満し、他の係り受けとは独立であると仮定するとP(D|B)は
と変形出来る。注意すべきことは各係り受けは独立であるが、その係り受け確率自体は1文全体の属性集合{f_1,...,f_m}から決定されていることである。我々が提案する手法は学習データから決定木DTを構成して、属性集合
{f_1,...,f_m}中から必要な属性を自動的に選択する。すなわち(1)式中の係り受け確率P(mod(i)=j|f_1,...,f_m)を(2)式の様に近似しようとするものである。
2.2.
決定木の構成と枝刈り
本節では決定木を利用して係り受け確率((2)式)を計算する準備として、決定木の概念と汎用プログラムC4.5[Quinlan
93]で使われる決定木構成法の概略を述べる。 (構文解析プログラムの決定木作成モジュールはC4.5を部分的に改造することで作成した。)
詳細に興味のある読者は[Quinlan 93]を参照されたい。
決定木アルゴリズム[Breiman
et al. 84]は表1の様な属性-値のベクトルとクラスから成る事例集合が与えられると、情報理論的基準に基づいてクラス弁別規則を木の形で生成し、事例の分類や回帰分析に利用する手法である。表1で、height、language、eye、hairが属性、
nationalityがクラスに相当する。決定木の構成は属性の値に応じて、事例を再帰的に分割することで行われる。図1は表1の事例から生成された決定木の例である。各節点に付けられた属性はテスト、各枝に付けられた値は事例の分割に応じた属性値を表し、葉の部分に括弧尽きで示された値はその葉に割り当てられた事例が属するクラスを示す。図1の例では最初のテストとしてlanguageが選ばれ、その値がJapaneseであればクラスがJapaneseであると判定されることが分かる。決定木の各節点では属性によるテストが行われその値に応じて事例が分割されるのであるから、決定木中の各節点ではその節点に割り振られた事例のクラス頻度分布が利用可能である。従って未知事例が入力された時にその事例が各クラスに属する確率を計算出来る。例えば、
180 English black white
という事例が入力されると、図1の決定木を
language=English、eye=blackと順に辿ってheigtの節点まで到達する。この節点には学習過程で表1の2、3、5番目の事例が割り振られているので、入力事例のクラス予測はAmericanである確率2/3,
Philippineである確率1/3となる。係り受け解析に応用する際にはクラスは'係る'、'係らない'の2種を用い、各節点でのクラス分布を上記の様に計算することで2文節の係りやすさを求めることになる。
表1. サンプル事例
height |
language |
eye
| hair |
nationality |
180 |
English |
blue |
blond |
America |
170 |
English |
black |
blond |
American |
190 |
English |
black |
black |
American |
180 |
Japanese |
black |
black |
Japanese |
160 |
English |
black |
black |
Philippine |
図1. 決定木の例
次にC4.5での決定木構成法を簡単に説明する。 C4.5では、以下の2段階の手続きによって決定木を構成する。
- 情報理論的なヒューリスティック関数を最大にする。属性を選んで事例集合を再帰的に分割し、クラスを完全に弁別出来る決定木を構成する。決定木の各節点はある属性による事例の分割を意味し、その属性値に応じて分岐する。各節点は後の処理の為に各々に割り当てられた事例のクラス分布を保持している。決定木の葉には出来る限り1つのクラスの事例だけが集中する様に事例の分割が行われる。
- 1で構成した訓練事例のクラスを完全に弁別する決定木は、訓練事例に過適応しており、一般的な分類能力は必ずしも高くない。そこで統計的検定の考えに基づいて決定木の枝刈りを行う。信頼レベル0%から100%で枝刈りの強さを指定し、値が小さいほど枝刈りを強く行うことを意味する。
2.3.
係り受け確率の計算と利用する属性
前節では決定木を利用してある事例がそれぞれのクラスに属する確率を計算出来ることを説明した。本節では係り受け確率の計算手法について述べる。2つの文節が係り受け関係にある確率を計算する場合、事例集合は文内の任意の2
文節の組合せによって構成される。決定木の構成は基本的に事例数の線形オーダの時間で終了するため、このように組合せ的に事例を生成しても十分効率的に動作する。
学習に使用する属性は2文節 (前文節と後文節)とその周辺の構文的特徴を中心とした言語情報で、その一覧を表2に示す。また表3には各々の属性の取り得る値一覧を示してある。(形態素解析にChasen[国立国語研究所
64]のカテゴリを利用した。これらの属性の構文解析精度への影響については次章で述べる。学習するクラスはコーパス中での係り受け関係の有無を示す0,1の2値である。前節の決定木構成アルゴリズムは、係り受け関係の判定に関連の深い属性を順に選び決定木DTを構成する。
(2)式のP(mod(i)=j|DT)を計算する準備として、決定木DTから文節b_iと文節b_jが1文内で係り受け関係にあった確率P(mod(i,j)|DT)
(クラスが1である確率)をラプラス推定量として計算する。
P(mod(i,j)|DT)は文節b_iと文節b_jの係り易さを示す確率であるが、あらゆる距離で現れた係り受け関係を含んでいる。従ってP(mod(i,j)|DT)からP(mod(i)=j|DT)を計算するには、
b_iの他の係り先候補も考慮しP(mod(i,j)|DT)をb_iの全ての係り先で正規化を行った(3)式を用いる。もちろん(3)式のP(mod(i,j)|DT)の代わりに決定木中の頻度分布を用いてP(mod(i)=j|DT)を計算することも可能である。その場合と比較して(3)式は遠い係り受けを重視する傾向がある。
表2. 学習に利用する属性一覧
属性番号 |
内容 |
属性番号 |
内容 |
1 |
前文節番号 |
10 |
後文節主辞品詞 |
2 |
前文節主辞見出し |
11 |
後文節語形 |
3 |
前文節主辞品詞 |
12 |
後文節句読点の有無 |
4 |
前文節語形 |
13 |
後文節括弧開の有無 |
5 |
前文節句読点の有無 |
14 |
後文節括弧閉の有無 |
6 |
前文節括弧開の有無 |
15 |
文節間距離 |
7 |
前文節括弧閉の有無 |
16 |
文節間読点の有無 |
8 |
後文節番号 |
17 |
文節間''は''の有無 |
9 |
後文節主辞見出し |
. |
. |
表3. 各属性の取る値一覧
属性番号 |
各属性の取り得る値 |
3,10 |
サ変名詞,感動詞,記号,形式名詞,形容詞,固有名詞,時制相副詞,時相名詞,人名,数詞, 接続詞,地名,陳述副詞,程度副詞,動詞,動詞性接尾辞,発言副詞,評価副詞,頻度副詞, 普通名詞,副詞,副詞形態指示詞,副詞的名詞,名詞形態指示詞,名詞性名詞助数辞, 名詞性名詞接尾辞,名詞接続助詞,名詞接頭辞,様態副詞,量副詞,連体詞,形態指示詞 |
4,11 |
きり,くらい,けど,けれど,けれども,こそ,こと,さ,さえ,し,しか,じゃ,すなわち,すら,て, で,でも,ぜ,そして,それに,ぞ,ため,だけ,だって,だの,っけ,ったら,って,つつ,と, とか,とも,ども,な,なあ,ない,ないし,ないしは,ながら,など,なら,ならびに,なり, なんか,なんて,に,ね,の,のみ,は,ばかり,へ,ほど,また,または,まで,も,もしくは, もの,ものの,や,やら,よ,よう,より,る,わ,を,サ変名詞,意志,括弧開,感動詞,基本,記号, 及び,共,形式名詞,形容詞,形容詞性述語接尾辞,固有名詞,語幹,時制相副詞,時相名詞, 条件,人名,推量,数詞,接続詞,地名,中,陳述副詞,程度副詞,動詞,発言副詞,評価副詞, 頻度副詞,普通名詞,
副詞,形態指示詞,副詞的名詞,並びに,又は,未然,名詞形態指示詞, 名詞性述語接尾辞,名詞性名詞助数辞,名詞性名詞接尾辞,命令,様態副詞, 量副詞,連体,連体詞,連体詞,形態指示詞,連用 |
5,12 |
non,読点,句点 \\ \hline
|
6,13 |
non,‘,(,“,「,『,【,〈,[ |
7 14 |
non,’,”,),〉,」,』,】,] |
15 |
A(前文節番号と後文節番号の差が1),B(前文節番号と後文節番号の差が2〜5), C(前文節番号と後文節番号の差が6以上) |
16 |
0,1 (2文節間の読点の有無 0:無 1:有) |
17 |
0,1 (2文節間の副助詞「は」の有無 0:無 1:有) |
2.4. ブースティングアルゴリズムの適用
表4にAdaboost[Freund
and Schapire
96]アルゴリズムによって決定木を混合する方法を示す。まず全事例の重みを1に初期化し、(順次決定木の作成と結果の評価による重みの更新を続ける。最終的な予測確率は各決定木の解析精度に応じてそれらを重み付け平均することで得られる。なお途中で誤り率T_tの誤り率e_tが0.5以上になった時にはループを抜け学習を終了する。
表4. Adaboostアルゴリズムで決定木を混合する方法
入力: N個の事例 ,...,
ここで e_i,w_i
は各々、事例とその重みを表す
初期化 i=1,...,N の全ての事例に対して w_i=1
Do for t=1,2,...,T
- w_iを与えて C4.5(事例の個数を重みでカウント)を呼び
- 決定木T_t を作る
- Error をT_tを用いて正しく解析出来なかった事例とする
-
- $T_{t}$で正しく解析出来た事例に対しては, 重みを以下のように修正
-
出力 最終的な確率予測
3. 実験と考察
提案手法の定量的評価を行うため、EDRコーパス[日本電子化辞書研究所
95]を用いて以下の5項目の実験を行った。以下の各節でそれぞれの結果について述べる。
- 決定木の枝刈りと解析精度の関係
- データ量と解析精度の関係
- 種々の属性の影響
- 文節主辞の単語、分類語彙表カテゴリを属性に加えた場合の精度
- ブースティングアルゴリズムの適用
本研究で構文解析の精度とは構文解析システムが付けた係り受中で、
EDRコーパスでも係り受け関係が付与されたものの割合を示す。また、訓練データ、テストデータは以下の方法で作成した。
- EDRコーパスから文を抽出し形態素解析[松本他
96]を行った後、文節に分解した。(形態素解析して文節に分解するプログラム[藤尾,
松本 97]を提供して頂いた奈良先端大の松本裕治先生に感謝致します。)
- 1の出力から2文節ずつの組み合わせを作成し、これをEDRコーパスの係り受け可否の情報
(ブラケット情報のみ)と比較する。この時、EDRの係り受けとの対応を完全に取ることが出来ない文節組を含む文のデータは採用しない(その文から作られる2文節の組み合わせのうち、1つでも不正なものがある時は文全体のデータを採用しない)。
- 2で残ったコーパス(総文数207802,総文節数1790920)を20個のファイルに分ける(1個のファイルが約1万文強)。訓練データは文数に応じて、各ファイルの先頭から同じ文数ずつ取り出し作成した。テストデータ(1万文)は、訓練データとの重なりが無いように、20に分けた各ファイルの2501
文目から500文ずつ取り出して作成した。
3.1. 枝刈りと解析精度
表5に決定木を様々な信頼レベルで枝刈りした際の構文解析精度を示す。使用した訓練データ数は1万文である
\footnote{訓練データ数を変化させても同様の傾向が見られる。}。
表5. 枝刈りの信頼レベルと解析精度
信頼レベル |
25% |
50% |
75% |
95% |
解析精度 |
82.01% |
83.43% |
83.52% |
83.35% |
2章で述べた様に信頼レベルの値が小さい程、強い枝刈りを意味する。通常の機械学習の問題には25%程度が適当であると実験的に示されている[Quinlan
93]。従って決定木を係り受け解析に利用する場合の枝刈りは通常より少なめに行うのが良いということになる。この結果から以下に述べる実験では全て信頼レベル75%を使用した。
枝刈りは小数のデータしか持たない情報をノイズであると考えて捨てることに相当する。一方、構文解析を含む自然言語現象は一般的規則で記述するのが困難な例外的な表現を頻繁に伴う。係り受け解析において枝刈りを少なめにすると精度が向上するのは、少数の事例しか持たない情報もノイズでは無く、係り受け関係の決定に有益な情報を含んでいるためであると考えられる。
3.2. 訓練データ数と解析精度
表6に様々な数の訓練データから決定木を作成し、同じ1万文のテストデータで評価した解析精度を示す。
図2は訓練データ数と構文解析精度の関係を分かり易くするため、同じデータを学習曲線の形に書き改めたものである。図2から訓練データ数が2万文程度までは急激に解析精度が向上し、その後学習曲線の立ち上がりは鈍り始め3万文から5万文で収束にかなり近付くことが分かる。
表6. 訓練データ数と解析精度
訓練データ数 |
3000文 |
6000文 |
10000文 |
20000文 |
30000文 |
50000文 |
解析精度 |
82.07% |
82.70% |
83.52% |
84.07% |
84.27% |
84.33% |
図2. 学習曲線
学習曲線の様子をまとめると
- 係り受け解析の学習に必要な訓練データ数はおよそ5万文である
- 解析精度は最高84.33%である
の2点が重要であり以下ではこれらについて考察する。
一般に構文解析結果付きのコーパスを作成は非常にコストが掛かる作業である。本節で得られた結果は少なくとも係り受け解析の学習に関しては5万文程度のコーパスが有れば十分であることを示しており、今後のコーパス作成にある程度の指針を与える。もちろん、EDRコーパスは様々な分野のテキストから構成されているので対象分野を絞ったコーパスを利用し学習を行えば、より少ないデータ数で高い精度を達成することも可能となるであろう。
次に解析精度が収束する84.33%という数字について検討する。最近の英語の統計的構文解析システム[Collins
96],[Magerman
95]では我々と同種の情報を用いて86〜87% の解析精度が得られていること、日本語文節の係り先は自分より後ろであり,
英語よりも予測が行い易いことの2点を考慮すると現状の精度は満足出来るものではない。[Collins
96],[Magerman
95]で利用されるPenn Treebank[Marcus
et al. 93]コーパスは細かい形態素情報を含んでいるためpart-of-speech
taggerの構成にも同時に利用されている。またこれらのパーザーでは様々な構文的カテゴリ名を利用した学習を行っている。一方我々はEDRコーパスの括弧付けのみを利用し、形態素解析にはChasen[松本他
96]を用いた。このことである程度の解析精度差が生じるものと考えられる。次に、学習システムの評価はデータの質に大きく依存することから、1万文のテストデータを訓練データとしても使い評価を行うと精度は88.85%に留まった。従って低い解析精度の原因として、データの揺れやノイズによる影響も考えられる。これらの考察は同じくEDRコーパスに
Collins[Collins
96]と同様の手法を適用した藤尾らのシステム[藤尾,
松本 97]の解析精度が80.48%程度に留まっていることからも支持される。
3.3. 種々の属性の影響
表7に1万文の訓練データに対して、各々の属性の解析精度への影響を示した。具体的には個々の属性を利用しない場合にどの程度解析精度が低下するかを表している。
表7. 個々の属性の削除による解析精度の低下
属性内容 |
解析精度の低下 |
前文節主辞品詞 |
-0.07% |
前文節語形 |
+9.34% |
前文節句読点の有無 |
+1.15% |
前文節括弧開の有無 |
0.00% |
前文節括弧閉の有無 |
0.00% |
後文節主辞品詞 |
+2.13% |
前文節語形 |
+0.52% |
後文節句読点の有無 |
+1.62% |
後文節括弧開の有無 |
0.00% |
後文節括弧閉の有無 |
0.00% |
文節間距離 |
+5.21% |
文節間読点の有無 |
+0.01% |
文節間''は''の有無 |
+1.79% |
表7の結果から係り受け解析に特に有効な属性は前文節の語形と文節間距離であることが分かる。この2属性の組合せは直感的に理解すると'可能な範囲で出来るだけ近い係り先を優先する'という頻繁に用いらてきたヒューリスティックスを表すと考えて良い。'可能な範囲'や'優先のさせかた'を統計を用いて柔軟に設定出来るのが学習に基づく手法の利点であるとも言える。この結果から今後より高い解析精度を達成するためには、文節語形の詳細な検討が必要となる。
他の属性の多くは僅かずつ解析精度の向上に寄与している。文字種などを含むこの種の属性数を増やすことも今後の重要な課題である。括弧に関する情報が解析精度に寄与しなかった理由はEDRコーパスには、括弧を含む表現が少ないことがあげられる。この属性の有効性については他のコーパスを利用した検証が必要である。また、前文節主辞品詞が唯一解析精度を低下させているが詳細な理由は判明していない。恐らく使用した品詞分類が細かすぎ、1万文の訓練データでは十分な学習が行えなかったのではないかと考えられる。
3.4.
頻出単語の表層、分類語彙表カテゴリの利用
本節では文節の主辞の語彙情報を属性として利用した場合の解析精度について述べる。訓練データは1万文で、利用した属性は以下の4種類である。参考のため表8に分類語彙表における小数点以下1桁までの分類項目を示す。表中の括弧内に示した数字は小数点以下2桁まで見たときの下位分類数である。
表8. 分類語彙表の小数点1桁目
1 |
体の類 |
1.1 1.2 1.3 1.4 1.5 |
抽象的関係(10種類) 人間活動の主体(9種類) 人間活動--精神および行為(9種類) 生産物および用具(8種類) 自然物および自然現象(7種類) |
2 |
用の類 |
2.1 2.3 2.5 |
抽象的関係(3種類) 精神および行為(6種類) 自然現象(1種類) |
3 |
相の類 |
3.1 3.3 3.5 |
抽象的関係(6種類) 精神および行為(4種類) 自然現象(1種類) |
4 |
その他(3種類) |
. |
. |
表9は各々の属性に対する解析精度を示す。全ての属性について解析精度は主辞の語彙情報を利用しない場合(83.52%)より劣っている。特に頻出語と分類語彙表の両者で情報を多く使うほど精度が悪くなることは注目に値する。詳細な原因を特定することは難しいが、決定木の上位の段階でこれらの属性による事例分割が行われ、その属性を利用出来ない(頻出語でない、あるいは分類語彙表に掲載されていない主辞)事例の解析精度が下がる傾向が見られる。
表9. 主辞の語彙情報と解析精度
主辞の語彙情報 |
上位100語 |
上位200語 |
分類語彙表1桁 |
分類語彙表2桁 |
解析精度 |
83.34% |
82.68% |
82.51% |
81.67% |
この実験の結果から語彙情報を利用すれば解析精度が上がるという安易な期待は成り立たないことが分かる。今回の実験では頻出語と分類語彙表だけについて実験を行ったが、語彙情報の影響を詳細に調べるためにはコーパスからのクラスタリング手法[Charniak
97]や他のシソーラス[Ikehara
et al. 91]の適用も重要な課題である。
3.5. ブースティングアルゴリズムの適用
表10と図3にブースティングを利用した場合の解析精度を示す。枝刈りは全て55%で行い、繰り返し回数5回の値を示した。図3の点線は決定木を1つ利用した場合の解析精度を示している。2つの学習曲線を比較するとあらゆるデータ数に対してブースティングの精度が高く、特に少ない事例数に対して曲線の立ち上がりが早いことが分かる。
表10. ブースティングを利用した場合の解析精度(枝刈り55%)
訓練データ数 |
3000文 |
6000文 |
10000文 |
20000文 |
30000文 |
50000文 |
解析精度 |
83.10% |
84.03% |
84.44% |
84.74% |
84.91% |
85.03% |
図3. ブースティングを利用した場合の学習曲線
表11は訓練事例数5万文の場合の様々な繰り返し回数に対する正解率を示す。この表から繰り返し回数が増えてもほとんど訓練事例への過適応が起こらないことが分かる。
表11. 繰り返し回数と解析精度(事例数5万文)
繰り返し回数 |
1 |
2 |
3 |
4 |
5 |
6 |
解析精度 |
84.32% |
84.93% |
84.89% |
84.86% |
85.03% |
85.01% |
4. 関連研究
本章では既存の統計的構文解析手法の研究と本研究の関連について述べる。
1980年代後半から1990年代始めにかけて、確率文脈自由文法のパラメータをコーパスから推定する研究が盛んに行われた[Charniak
93]。これらの研究の結果、品詞や非終端記号の共起関係だけでは、構文的曖昧性を正しく解消するには不十分であることが明らかとなった。[Magerman
95]は様々な語彙的情報を考慮し、文法規則の適用を決定木で選択する手法を提案し86%程度の高い解析精度を得た。一方 [Collins
96]は依存文法の考え方を統計的構文解析に導入した。英語文を句の列に分解した後、2つの句の係り受け確率を、主辞の共起確率、句間距離等の属性を用いて計算し前者を上回る解析精度を得た。これら2つの研究は語彙情報を含む様々な属性を利用したために良く比較されるが、各々の成功理由は微妙に異なっている。つまり[Magerman
95]が成功した理由は本質的に様々な属性の選択に決定木を用いたことであり、[Collins
96]が成功した理由は言語的まとまりとして句(文節)を選び、その係り受け関係を考えたことである。本論文で提案した決定木を利用した係り受け解析法は両者の利点を活かし、係り受け解析に多くの属性を利用可能としたものである。その結果、これまで行われた日本語係り受け解析研究で得られた多くの知見が利用可能となった。
日本語で行われた統計的構文解析の研究としては[藤尾,
松本 97]がある。我々の手法が決定木を利用し係り受け確率の計算に利用する属性を対象となる文節対に応じて動的に変更するのに対して、[藤尾,
松本 97]では常に同じ属性を利用する。[Collins
96]の手法にも言えることであるが、常に同じ属性を利用し、スムージングを用いて係り受け確率を計算する手法は文節の特殊性を反映することが難しく、属性数にも制限を受けるという問題を含んでいる。
5.
結論
本稿ではコーパスから構成した決定木を利用する日本語係り受け解析法について述べた。係り受け解析に決定木を利用することで多くの属性を利用した場合にも動的な属性選択が可能となった。その結果、多くの先行研究の知見を統計的学習の枠組に取り込むことが可能となった。
これまで日本語構文解析法の評価では通常数十文から数百文の小規模なデータが使用されることが多く、しかも各研究者が独自のデータを使用しているため解析精度を互いに比較することは難しかった。客観的な評価基準が存在して始めて様々な析手法の評価が可能となることを考えると、日本語構文解析研究においても共通のテストデータを評価に利用することが望ましい。本研究では出来る限り客観的な評価を行うためEDRコーパスを利用して訓練事例とテスト事例を明確に区別した。1万文のデータでテストを行った結果、決定木を1つ利用した場合に既存の統計手法を4%上回る解析精度が得られた。またブースティングの適用により更に解析精度が向上することを示した。今後は提案手法でのより高い解析精度の達成と一般性検証のため以下の項目について研究を進める予定である。
- 係り側、受け側文節に関する詳細な情報を含む様々な属性の解析精度への影響の調査
- 日本語だけでなく英語等の言語への本手法の適用
参考文献
[Breiman et al. 84] L. Breiman, J. Friedman, R.
Olshen, and J. Stone. Classification and Regression Trees. Wadsworth,
1984.
[Charniak 93] Eugene Charniak. Statistical Language
Learning. The MIT Press, 1993.
[Charniak 97] Eugene Charniak. Statistical Parsing
with a Context-free Grammar and Word Statistics. In Proc. National Conference
on Artificial Intelligence, pages 598-603, 1997.
[Collins 96] Michael Collins. A New Statistical Parser based
on bigram lexical dependencies. In Proc. 34th Annual Meeting of Association
for Computational Linguistics, pages 184-191, 1996.
[Freund and Schapire 96] Yoav Freund and Robert Schapire. A
decision-theoretic generalization of on-line learning and an application to
boosting. 1996.
[Ikehara et al. 91] S Ikehara, A Yokoo, and M Miyazaki. Semantic
analysis dictionaries for machine translation (in Japanese). In NLC 91-19.
IEICE, 1991.
[Magerman 95] David M. Magerman. Statistical Decision-Tree
Models for Parsing. In Proc.33rd Annual Meeting of Association for
Computational Linguistics, pages 276-283, 1995.
[Marcus et al. 93] Mitchell Marcus, Beatrice Santorini, and Mary
Ann Marcinkiewicz. Building a large annotated corpus of English: The Penn
Treebank. Computational Linguistics, 19(2):313-330, June 1993.
[Quinlan 93] J. Ross Quinlan. C4.5 Programs for Machine
Learning. Morgan Kaufmann Publishers, 1993.
[亀田 95] 亀田 雅之. 軽量・高速な日本語解析ツール「簡易日本語解析系q_jp」. 言語処理学会第1回年次大会,
pages 349-352, 1995.
[国立国語研究所 64] 国立国語研究所. 分類語彙表. 秀英出版, 1964.
[黒橋, 長尾 92] 黒橋禎夫, 長尾真. 長い日本語文における並列構造の推定. 情報処理学会論文誌,
33(8):1022-1031, 1992.
[松本他 96] 松本 裕治 他. 形態素解析システムChasen2.0使用説明書, 1996.
[藤尾, 松本 97] 藤尾正和, 松本裕治. 統計的手法を用いた係り受け解析. 自然言語処理研究会 NL117-12,
pages 83-90, 1997.
[日本電子化辞書研究所 95] 日本電子化辞書研究所. EDR電子化辞書仕様説明書, 1995.
[白井他 95] 白井諭, 池原悟, 横尾昭男, 木村淳子.
階層的認識構造に着目した日本語従属節間の係り受け解析の方法とその精度. 情報処理学会論文誌, 36(10):2353-2361, 1995.
[南 86] 南 不二男. 現代日本語の構造. 大修館書店, 1986.
[福本他 92] 福本文代, 佐野洋, 斉藤洋子, 福本淳一. 係り受けの強度に基づく依存文法. 情報処理学会論文誌,
33(4):719-726, 1992.
フロントページへ戻る