| 1 はじめに | |
| 2 多義の分類 | |
| 3 多義の絞り込み | |
| 3.1 規則適応の例 | |
| 3.2 規則の例 | |
| 3.3 結果 | |
| 4 おわりに | |
| 参考文献 |
多段解析法に基づく日本語形態素解析では, 形態素単位99.5%の解析精度を達成したことを既に報告している[1]. その際, 構文的・意味的関係を見て形態素の正誤を判断すべき場合は 解析多義の中に正解が含まれれば解析成功としていた. 形態素解析単体としての利用を考えると, これらの多義は少ないほどよい. そこで本稿では, 個々の品詞・単語の特性に基づく解析多義の解消を目的として, 新聞記事965文に現れた解析多義520件を詳細に分析し, 解析多義の絞り込み規則について提案する.
日経産業新聞965文(情報欄リード)に対する形態素解析結果に含まれる多義520事例を対象とした. 全体を分類し, その中から出現件数の多い10事象を抽出した(表1参照). 現在の多義を把握するとともに, それを紋り込む規則を考える上で戦略を立てるという目的がある.
抽出した事象は以下の通り.
形態素多義の多くは深い解析(構文解析, 意味解析等)により解消すべきであるが, 部分的に深く解析することによりある程度の多義は解消できあることが 知られている[2]. そこで, この観点から再度検討を加えることにした. 具体的には, 多義が生じた語を含む文節の直前直後の文節, あるいは数個前までの文節を見ることにより多義紋り込みの可能性を検討した.
事象1,2,3,4,7,10については, 品詞(各々の事象)について適応される規則を考えることができる. それ以外の事象については, 各々の語に別個の親則を考えた.
1つ例を示す.
| 「光ファイバーは米国メーカー製品の流入などもあり価格低下が急ピッチで進んでいる. 」 |
この文を形態素解析すると, 次のように単語分割される.1
| 「光ファイバー/は // 米国/メーカー/製品/の // 流入/など/も // あり // 価格/低下/が // 急ピッチで // 進ん/でいる/. 」 |
この文では「急ピッチで」の品詞解釈に, 1)形容動詞連用形 2)形容動詞副詞形の多義がある, 事象7に分類される. これに対し考えた規則は,
| 直前の文節に数詞がなく, かつ直後の文節に動詞があれば.副詞的に使われている方を選ぶ. |
というものである. この文では, 直前の文節は数詞でなく, 直後の文節に「進む」という動詞があるので, 規則が該当 し多義は取り除かれる. このように, 全ての事例について, 規則が考えられるかどうか, またその規則が該当するかを 調べた.
まず, 規則に現れる言葉の定義を挙げる.
| 直前− | 同じ文節内で, 多義語の前 |
| 直後− | 同じ文節内で, 多義語の後ろ |
| 直前の文節− | 多義語がある文節の, 1つ前の文節 |
| 直後の文節− | 多義語がある文節の, 1つ後ろの文節 |
| 自分の前− | 多義語がある文節と, そこから前をたどって, 文頭にたどり着く, または句読点が出てくる, または動詞が出てくるまでの間 |
また, 特記がない場合は, 列挙された規則以外には, 多 義候補には手を加えない(消極的規則).
以上, 例には品詞(事象)について規則を考えられるものを挙げた. 10事象について立てた規則数としては, 品詞に基づいたもの6事象10規則, 単語に基づいたもの4事象37規則である.
表1に事象ごとの事例数と規則の適用された数, ならびに事例の多義の合計と規則の適用による多義の削減数を示す.
| 事象 | 事例数 | 適用数 | 多義合計 | 削減数 | ||
| 1 | 79 | 57 | 196 | 90 | ||
| 2 | 10 | 10 | 25 | 12 | ||
| 3 | 18 | 18 | 39 | 19 | ||
| 4 | 6 | 4 | 20 | 12 | ||
| 5 | 90 | 67 | 297 | 117 | ||
| 6 | 63 | 52 | 155 | 76 | ||
| 7 | 29 | 17 | 58 | 17 | ||
| 8 | 78 | 46 | 164 | 46 | ||
| 9 | 48 | 47 | 114 | 63 | ||
| 10 | 93 | 24 | 208 | 40 | ||
| 11 | 50 | 24 | 119 | 28 | ||
| err | (5) | (12) | ||||
| 計 | 564 | 366 | 1395 | 520 |
但し, 1つの文節内に複数の多義の事象が現れる場合については, それぞれについて分類したので, その分重複して数えられている. また, 1つの事例に複数の事象が同時に現れる場合についても重複して数えられている. そのため, 本検討で取り上げた事例数(520件)と表1の事例数の総計(564件)は一致しない.
別の事象におけるルールと組み合わさって多義が減少する場合については, それぞれの事象において数えた. また, あらわれた多義の候補の中に, 正しい解釈が存在しない場合は, error に分類した.
このように, 事例数で見ると全体の64.9%(=366/564)に, 多義が除去されるまたは滅少するなど, 何らかの効果が見られる. 多義削減効果を計る指標として, 1事例に現れる平均多義候補数を考えると, 2.47(=1395/564)から1.55(=(1395-520)/564)に減少しており, これも効果が認められる.
また, 上の評価は同一文節内の事例の重複を許したものであるので, 実質総計での評価を示すと, 事例数で520事例のうち効果が見られたものは320事例(61.5%)で, 多義数では2.39(1242)から1.52(789)への減少となる.
多段解析法による形態素解析の多義を11事象に分類し, 多義を絞り込むのに効果のある47規則を提案した. 机上実験によれば, 多義の生じた520文節のうち61.5%に規則が適用され, 平均多義数は2.39から1.52に減少する見込みである. 今後は規則を改良するとともに, 処理系を実現する予定である.