人間の言語活動において, 類推による新たな言語表現の生成は一般的に行なわれていると考えられるが, 言語処理への具体的な応用例は少ない。 また, 単純な類推により文を生成しただけでは, 生成結果の多くが非文法的となることから, あらかじめ一定の制約を設けた上で類推を行なう場合が多い。
これに対して, 本論文では, 非文法性の分析を狙いとして, 記号レベルの類推処理により文生成を行なった結果を報告する。 具体的には, 既存のテキストコーパスを対象として, この中に現れる任意の文に対し文字レベルで言語学的類推を適用し, 新たに生成された文の非文法性の原因を分析した。
類推関係は, 4つのものの比例関係に基づいた概念である。 Hermann Paulは新しい文の生成にも類推関係が適用されると考えた(Paul 20. 109ページ)。 さらにBloomfieldは文のパターンはほぼ類推により関係づけられることを示した(Bloomfield 33. 275ページ)。 以下に日本語の例を挙げる。
| 場所が彼に決められた。 | : | 場所を彼が決めた。 | = | 柿が彼に食ベられた。 | : | x |
| ⇒ | x = 柿を彼が食べた。 | |||||
記号レベルで類椎を行なうと非文法的な文や非意味的な文が生成されることがある。 例えば:
| 場所が彼に決められた。 | : | 場所を彼が決めた。 | = | 先生が学院に来られた。 | : | x |
| ⇒ | x = *先生を学院が来た。 | |||||
その理由で, Chomskyは類推が文法性の判断基準にならないとした(Chomsky 86. 12ページ)。
しかし, Itkonenは言語的情報を構文木に与えることにより, 生成される文の構文の正しさが類推関係で制御され, 非文法的な文の生成を防げることを示した(Itkonen & Haukioja 97)。
本論文では, 制約を設けることにより類推による非文法的な文の生成を防止するのではなく, 逆に, 記号レベルで一様に類推による文の生成を行なってから, 非文法性の原因を分析を試みる。
ATR-NECのツリーバンク(Lepage & al. 98) から「持」という文字が含まれる153文を対象として取り出した。 以下, 「基礎データ」と呼ぶ。 この基礎データの諸元を表1, 図1に示す。
| サイズ(文字の数) | 文の数 | ||
| 最小 | 平均±漂準偏差 | 最大 | |
| 8 | 19.5±6.2 | 37.5 | 153 |
|
類推方程式を次のようにして解く(Lepage & Iida 98)。 はじめに, 3つの記号列の間 ( 持っています: 持っていません = お持ちします: x ) から最長共通部分系列を見いだし, 余り部分を組み合わせることにより, 解答となる部分列を生成する。
| x | = | ε - ε + お 持 - 持 + 持 ・ ってい - ってい + ちし ・ ま - ま + ま ・ す + せん - す |
| = | お ・ 持 ・ ちし ・ ま ・ せん |
記号レベルの類推では一般に2つの場合がある。 1つは, 3文の組み合わせからは類推文が生成されない場合である。
| お持ちしませんか。 | : | 手持ちのドルがありません。 | = | カードは持っていません。 | : | 「正解無し」 |
もう1つは, 3文の組み合わせから類推文が生成される場合である。
| お持ちしませんか。 | : | いいえ, お持ちします。 | = | 持っていませんか。 | : | x |
| ⇒ | x = いいえ, 持っています。 | |||||
また, 類椎解決アルゴリズムは非決定的であるが, 本実験では複数の類推文が生成される場合、1番目のみを対象とすることにする。
| こっちこい | : | そっちいって | = | ここへこい | : | x | |||
| ⇒ |
| ||||||||
基礎データにおいて, 単純に3文を組み合わせると 1533/8
3.6 × 106/8 = 450,000となる。
これに対し, 類椎解決を適用すると, 成功する場合が約25,000で、成功率は約1/18である。
成功した場合の生成文を異なりで見ると1248文である。 基礎データに含まれる文と同じ文が153文生成された。 表2に概要を示す。 基礎データの文数(153文)と比べると、生成された文の数は約8倍になる。
| 新しい文 | 基礎データと同じ文 | 合計 | ||
| 一回出現 | 二回出現 | |||
| 文数 | 1095 | 151 | 2 | 1248 |
| 頻度 | 18 | すべて 142 | すべて 280 | 約 25,000 |
表3に大雑把の分類を示す。 3分の1以上の場合には, 文法的にも意味的にも正しい文が得られた。
| 正しい文 | 非文 | 合計 | ||
| 自然 | 文脈依存 | 非文法的 | 非意味的 | |
| 453 | 2 | 769 | 24 | 1248 |
| 36.3% | 0.2% | 61.6% | 1.9% | 100% |
文法的, 意味的に正しい452文のうち, 基礎データに含まれる文と同じ文を除くと, 299文が真に新しい文である。 は改めて生成された。 すなわち、基礎データの文数(153文)に比べると約2倍の新しい文が生成されたことになる。 類椎による生成能力を特徴づける量として「含蓄性」という概念が提案されている(Lepage & Ando 96)。 これは, 類推で生成された文法的に正しい文ともとの文の比で表せる。 本実験の場合, 含蓄性は195%となる。
以下に新しい文の例を挙げる。
あとでテーブルにそこにあるもの何でも持ってきて下さい。
大きな荷物は船内にはそこにあるもの何でも持ち込めません。
小皿を二, 三枚そこにあるもの何でも持ってきて下さい。
確認書を持っていないのですが。
手持ちのドルがあります。
ここは, はっきりと見えるが, 類推で文の部分の変換が起こる。
例文から, 類椎により文の部分置換の様子が観察される。 例えば, 「そこにあるもの何でも」という部分列が, 「あとでテーブルに持ってきて下さい。」や「大きな荷物は船内には持ち込めません。」という基礎データの文に挿入されることにより新しい文が生成されている。
以上の例では1つの部分列が挿入されているが, 一般的には複数の部分列が挿入されることもある。
ある対立関係が基礎データ中に1組しか見いだせない場合, その対立関係を利用した新しい文の生成を行なうことはできない。
例えば, 本実験の基礎データでは, 以下の2文の間の対位関係(「は別の」と「違う」)はこの1組み以外には発見できなかった。
このワインとは別のものを持ってきてください。
このワインと違うものを持ってきてください。
対立関係の利用が正しくなかったのは, 不適切な文脈において利用されたからであると考えられる。 文字列が単語として不適切や, 文法的には正しくても意味をなさない場合があるが, 記号列に対して類椎を行なった結果として生じた問題であり, 基本的に同じ原因である。
言語における活用の規則性は類推の関係により説明できる。 例えば, 文献(Lepage 99)ではフランス語の動詞活用への適用が述べられている。 本実験では, 日本文の語尾表現に現われる「ます」と「ません」を「す」と「せん」の対立として生成した文が多く見られた。
生ものや植物の種などは持っておられませんか。 (基)
生ものや植物の種などは持っておられますか。
キーホルダーを持っています。 (基)
キーホルダーを持っていません。
また, この対立関係を活用が異なる「です」に適用したため, 次のような非文法的な文が生成されている。
缶ジュースなら持ち込んでも宜しいですか。 (基)
*缶ジュースなら持ち込んでも宜しいでせんか。
前節せは, 部分列が連続的に挿入された場合の例を挙げたが, 複数の個所で挿入されたものは, 置換, 挿入, 削除が生じる場合がある。
「小皿を二, 三枚持ってきて下さい。」という基礎データの文から, 「小皿」と「を二, 三枚持ってきて下さい。」が, 無意味に挿入され, さらに, 別の基礎データの文から「日」が文頭に挿入された例を示す。
*日小皿のマンガを二, 三枚おみやげに持ってきていますが問題はありませんか。
*日小皿の雑誌を二, 三枚たくさん持って行きたいのですが, 税関で問題はないですか。
*日小皿の植木を二, 三枚アメリカに持って行きたいのですが。
これらの例では「日」を削除すれば文法的には正しくなるが, 意味的には不都合が生じている。
無意味な対立関係を利用したことによる誤りもある。 以下の例では, 挿入や置換がどの文との関係で生じたかの判断が難しく, 原因が解明されていない。
*グラスは[手荷物]おいくつ持[って]いしましよう, アイスはボックス一つで宜しい[ま]すか。
基礎データのうち最も似ている文は「グラスはおいくつお持ちしましよう, アイスはボックス一つで宜しいですか。」である。 「持ち」と「持って」の対立, 「ます」と「です」の対立は基礎データからある程度は予想される。 しかし, 「手荷物」の誤挿入は予想外であった。これは, アルゴリズムの適用の問題である可能性が考えられるので, 次節で議論する。
さき述べたとおり, アルゴリズムの一番目の正解しか本実験で見いださないので, 文字のずれが見える。 以下の例では, 3つの基礎データ文から, 次の文が得られたが,
| 持っていません。 | : | 石鹸を持ってきてください。 | = | お持ちしません。 | : | x |
| ⇒ | x = *石鹸をお持てきちくださし。 | |||||
ほかの類推文としては, 「*石鹸をお持ちきてくださし。」がある。 文法的に正しくないが, 上の例と比べると考えられる。 これらの差を編集距離を使って説明できないか検討したい。 例えば, 入力文と最初の例の編集距離は11でありが, 後の例は10である。
非意味的というのは, 文法的に正しい文に対する誤りである。
部分挿入では, 文法的には問題のない位置であっても, 挿人する部分列が整合するか否かによって, 正しい場合と無意味な場合がある。
しかし, 判断が難しい場合が少なくない。 例えば, 次の生成文は特殊な文脈では生成しそうである。
? このバッグの大きさなら機内にそこにあるもの何でも持ち込むことが出来ますか。
? すぐお持ちしません。
次の文は文法的には可能だか, 意味的には相当無理があると考えられる。
?? ホテルの看板をそこにあるもの何でも持ってるそうなので見つけて下さい。
この例において, 「ホテルの看板を持ってる」場面は考えにくいので不自然である。
このような例は言語学ではよく知られているが, 一般に正確に判断することは難しい。’
次の例では, 「問題は」の後にポーズを人れ, 「禁正されています」を疑問と解釈すれば話し言菓としては言えるそうである。
日本のマンガをおみやげに持ってきていますが問題は禁止されています。
また, 次の例では前半と後半が論理的に不整合であるが, 文法的な問題はない。
? すみません, ウォンは持ち合わせていますので日本円で支払ってもいいですか。
本論においては, 類推解決のアルゴリズムを利用し, 153文の基礎データのうち, 任意の3文の組み合わせに対し, 類推生成を試した。 その結果, 文法的にも意味的にも正しい文を299文所たに生成することができた。
生成された文のうち誤りを含む807文を対象として, 例を挙げながら誤りの分類を試みた。 文字レベルで部分列の対立関係に着目するだけでは, 挿入の位置, 文脈との不整合が誤りの大部分を占める。 今後は, 文法や意味による制約のし方について検討を進める予定である。