Satoshi Shirai, Japanese Society for Artificial Intelligence SIG-LSE-9901-(8), March 19-20, 1999, pp.59-66 : but no sequencial pages

ことばの組み合わせっていくつあるの?
--日英機械翻訳のための単文の結合価パターン対の収集--

白井諭

ATR音声翻訳通信研究所 / NTTコミュニケーション科学基礎研究所
(〒619-0288 京都府相楽郡精華町光台2-2 / 〒619-0237 京都府相楽郡精華町光台2-4)

あらまし

機械翻訳において, 単語を順に訳して組み合わせるのでは十分な訳文品質が得られないため, 単語の共起関係を検出しその組み合わせに応じて訳文を組み立てるのが一般的である。特に, 日英のように言語の差異が大きいものでは共起関係の利用の必要性が高い。しかし, どれだけの数のパターン対をどのようにすれば用意できるかが問題であった。

これらの問題を解決するため, 本稿では, まず, 人間用の和英辞書からパターン対の収集を行なった。そして, その方法では収集できなかった高頻度用言の低頻度用法や低頻度用言の用法に対して, 日本語辞書の語義ごとに記載された用例や, 人間の知識を内省して得られた作例文を利用してパターン対を抽出する方法を試行した。

その結果から推計すると, 訳し分けが特に必要な和語動詞約1,000語に対し約7,500件のパターン対が必要であり, それを作成するには約15,000件の用例収集が必要であること, 漢語動詞や用言性慣用表現を含む日本語述語全体では, 約27,000件のパターン対が必要であることがわかった。これらのパターン対は, 辞書情報などを参考に人の知識を内省した用例文からほぼ網羅的に収集できる見込みである。

[ 人工知能学会 SIG-LSE-9901-(8), pp.59-66 (1999.3). ]
[ Japanese Society for Artificial Intelligence SIG-LSE-9901-(8), pp.59-66 (March, 1999). ]

INDEX

まず, まえおき。一人が通常使用する語数は数千語であると言われ, 言語処理研究の比較的初期は, 数千語程度の範囲を対象としたものが多かった。しかし, 国語辞書には数万から十数語が収録されており, 人間共通の言語活動はその範囲で行なわれていると考えられる。そこで, 汎用性を目指して, 一般語全体を対象範囲に広げると, 数千語の範囲で開発された方式は通用しなくなることが多かった。量的な変化が質的な変化を伴うのはよく知られた事実であるが, 言語処理もその例外ではないようである。

実際の文章を言語処理の対象にする場合, 国語辞書の収録単語だけでは十分でない。例えば, 新聞には人名, 地名, 企業名, 製品名などの固有名詞が頻出するほか, 時事用語も数多く現れる。専門文書には分野固有の専門用語やことば遣いが多用される。さらに, 国広が指摘しているように[国広97], ことばを深く扱うにはことわざや百科知識も要求される。

もちろん, 対象範囲を拡大するために語数を増やす以外に, 対象範囲を絞り込むことにより適用性を高める対応の仕方が考えられる。現状, 実用に供せられている言語処理は, 対象範囲を絞り込んだものに限られているのではないだろうか。その一方で, 設定された対象範囲依存に開発するのではなく, 共通的基盤となる範囲を整備しておきたいという欲求が生じる。その場合, 必要なことばの数はいくつくらいあるのだろうか。

新聞記事を書き言葉の代表例として考えると, 国語辞書に収録されている一般語のうち, 古語を除いた10万語のほか, 日本の地名20万件, 主な姓氏10万件, 高頻度の名前5万件, 主要な企業名1万社程度が必要になると考えられる。日本語語彙大系[池原97]では, このような見積もりのもとに, 複合語とみなせるものを基本語に分解し, その異なりを見出し語として収録し, 1つの見出し語に異なる意味属性を付与した。意味属性の異なりで見ると, 収録語数は延べ40万語となる。

日本語語彙大系は書きことばの主要な部分を収録しているに過ぎない。編集しながらわかったことは, ことばは, 1万語(そのうちの特に1,000語)程度の多様な用法のある語と, 地名や専門語のように, 限られた場面でしか使用されない語に大別されることである。機械翻訳ヘの適用を通して評価してきた結果, 収録されていない語のほとんどは限られた用法しか持たないと思われる。

続いて, まえおき, その2。主要なことばの数は30万語として, どれくらいの組み合わせがあるのだろうか。 2単語の組み合わせ, 例えば「XのY」を考えると, 答えは30万×30万にはならない。文法的に, 意味的に見て組み合わさらない単語が存在するからである。逆に, 何らかの形でこの文法的, 意味的制約を利用して言語表現を解析する。制約を効率的に記述するため, ことばに文法属性や意味属性を付与し, 属性間の関係を制約として記述するのが普通であろう。また, そうしないと, 3単語, 4単語, ...と組み合わせの数を増やすのは不可能である。

しかし, 常に属性を使えばよいわけではない。簡単な例として, 「油を売る」は“サボる”を意味する場合と文字通り“油を売る”場合があるが, 類似する単語に置換した「オイルを販売する」や「ガマの油を売る」には文字通りの解釈しかない。「店で油を売る」は微妙であるが, 「喫茶店で油を売る」は通常“サボる”であると思われる。

このように, 意味のある組み合わせを同定するのは容易ではないが, 共通的基盤となる範囲を整備しようとすると, 一定の条件を設定してでも, 組み合わせの数を推計する必要がある。新聞記事1カ月分(日本経済新聞, 1990年1月分)を大まかに分析すると, 延べの品詞の出現は表1のようになる。

表1 新聞記事における品詞の分布
(日本経済新聞, 1990年1月分)

助詞, 助動詞, 記号を別にすれば, 名詞が圧倒的に多く, 次いで動詞である。実際, 名詞と動詞が組み合わされば1つの事象を表すようになり, 文章表現の骨格を形成する。事象を表すという点では, 頻度は低いが形容詞も同様の働きをする。

以上でまえおきを終わり, 以下, 本稿では, 日英機械翻訳の立場から名詞と用言(動詞, 形容詞)の組み合わせについて検討する。

機械翻訳の方式として, 初期は規則型の方式が主流であったが, 辞書の構築や規則の収集が容易でなく, 規則の相互干渉の制御が難しいため, 訳文品質の向上が困難であるとされている。その後, 用例型の方式が脚光を浴びたが, 対訳用例の収集が容易でない上, 用例集に詳細な情報の付与が必要であるなど, 『用例を追加すれば容易に品質が向上する』システムの出現は見ていない。最近, パターン型の方式が主張されているが, 従来の規則型翻訳では単語ごとに翻訳していたのに対し, 単語の組合せのパターンを翻訳単位とした「規則型翻訳」と見なすことができる。従って, パターンが容易に収集できるか, またその相互干渉が制御できるかが本来的課題であり, これらを解明する必要がある。

これらの方式は, 表現の意味をどのように捉えるかの試みであると見ることができる。初期は, 部分の意味の和が表現全体の意味であるとする要素合成の原理に基づいていた。要素合成では多様な表現の意味を説明できないため, 「英借文」の考え方により, 表現の実例そのものを用いようとした。しかし, 人間の直感のように類似性を測ることができないため, 意味の単位をパターンに求めたと考えられる。

これに対し, 筆者らは, 言語現象の個別性への対処を自然言語処理の重点課題と位置づけ, 言語知識の体系化[池原99]を念頭に置き, 初期は新聞記事の自動読み上げシステムの開発を通して, 大規模辞書の構築を進めてきた。日英翻訳の開発では, 意味を喪失しない表現単位として, 用言を中心とする単文を結合価パターンとして捉え[石綿83], それを日英対訳の形で対にして辞書記述し, 日英翻訳を行なう方式の実現を目指してきた。この方法を実現するには, パターンの記述精度の問題とパターン対収集方法の問題がある。

パターン記述精度の問題については, 日英機械翻訳の場合, 格要素となる名詞の意味属性を約2,000種類以上の分解精度で分類すれば, 慣用表現を除き, 日本語の動詞を訳し分けられるようなパターン対が記述できることが知られている[池原93]。

パターン対収集の問題については, 既に, 種々のヒューリスティックスや機械学習を応用した方法が提案されている。しかし, どれだけのパターン対を作成すればよいか不明であること, 網羅的にパターン対を作成するのに必要な用例を実際の文書から収集するのは困難なことなど, 様々な問題があり, 実用できるレベルにない。これに対し, 訓練されたアナリストであれば, 適切な対訳用例を見て, 類推能力によって, 1用例から1パターン作成することができる。現状では, 基本的なパターン対の作成作業はむしろ人手を中心に進め, 計算機は作業支援に使用するのが現実的と考えられる。

そこで, 本稿では, 人手によるいくつかのパターン対作成の方法について部分的に作業実験を実施し, その結果から, 日英機械翻訳ではどれだけの数のパターン対が必要か, また, それは実際にはどのような方法によれば作成できるかを明らかにする。

具体的には, まず人間用の和英辞書からパターン対の収集を行なった。高頻度用言の低頻度用法や低頻度用言の用法のパターン対が収集できないことがわかったため, それぞれ, 次の方法を試みる。高頻度用言の低頻度用法を収集するため, 日本語辞書の語義ごとに記載された用例を利用する方法と, 人間の知識を内省して得られた作例文を利用する方法を試行する。低頻度用言の用法を収集するため, 日本語辞書に収録されている用言を対象として, 人間の知識を内省して得られた作例文を利用する方法を提案する。それらの方法でどれだけのパターン対が収集できるかを検討する。また, 得られたパターン対の数から, 最終的にどれだけの数のパターン対を作成すればよいかを推定し, その作成方法について議論する。

機械翻訳において, 用言(動詞, 形容詞等)と体言(名詞)の共起関係の知識を結合価パターンにまとめるには, 対象となる用言の種類, 名詞の意味分類の方法等が問題となる。特に, 名詞の意味分類では, 翻訳する言語ペアによって必要とされる分解能に差が生じる。日英機械翻訳の場合は, 日本語の用言と英語の動詞の意味的な対応関係が記述できる程度の分解能を得るため, 日本語の名詞の意味を2,000種程度以上に分解整理することが必要とされている[池原93]。本稿では, この条件を満たしていると見られる日英機械翻訳システムALT-J/E[池原89]の枠組みを用いて, パターン対の作成方法を検討する。

ALT-J/Eの結合価パターン記述の枠組みは, 図1に示すように, 日本語名詞に対する単語意味属性体系と2つの意味辞書(単語意味辞書, 構文意味辞書)から構成される。単語意味属性体系は, 3種類の意味属性体系から構成されるが, 結合価パターンの記述には, そのうちの一般名詞意味属性体系が使用される。これは, 日本語名詞の意味的な用法を約2,700種の属性名で表現し, それらの相互の意味的関係を12段の木構造に整理したものである。単語意味辞書では, 単語約40万語の持つ意味(1単語1つ以上)が一般名詞意味属性と固有名詞意味属性を用いて記述されている。

単語意味属性体系

一般名詞意味属性体系(12段木構造2,700属性)
固有名詞意味属性体系(9段木構造130属性)
用言意味属性体系(100属性＝動的属性×格関係)

意味辞書
構文意味辞書		単語意味辞書
・一般パターン (13,500件) ・慣用パターン (5,000件) ・専門パターン (若干)		・一般語(12万語) ・固有名詞(20万語) ・専門用語(5万語) ・時事用語等(3万語) (合計40万語)

太字はパターン対記述に使用する属性, 網掛けは本稿の検討範囲
図1 ALT-J/E におけるパターン対記述の枠組み

また, 構文意味辞書は日本語の結合価パターンとそれに対応する英語の構文パターンをペアとして持つ。これらの辞書は, 構文解析結果の絞り込み, 動詞の訳語の選択, 名詞訳語の選択等の意味解析に使用される。

ALT-J/Eの結合価パターンは, 用言, 格要素(主名詞+助詞), 副詞要素, 様相情報から構成され, 骨格構造と詳細要素に分けて記述される[横尾94]。主名詞は, 通常, 日英の動詞が訳し分けられる最小限の深さの意味属性を用いて記述される[池原93]。意味属性で代表できないような名詞の場合は, 名詞そのものの字面が使用される。格要素の主名詞が意味属性によって指定されたパターンを一般パターン, 1つ以上の格要素の主名詞が名詞そのものによって特定されたパターンを慣用パターンと呼ぶ。慣用パターンは, 慣用表現や固定化した比喩的な表現に対する日英間の対応付けのために使用される。また, 各パターンには用言意味属性[中岩97]が付与される。本稿では, 一般パターンの収集を対象とする。

パターン対は述語となる用言毎に作成されるが, 「名詞+だ(です)」型の述語のうち, 英語で名詞補語として訳出できないものに対してもパターン対が作成される[白井94,95]。例えば, 「今日は天気だ。/ It is fine today.」や「あなたに質問です。/ I ask you a question.」などである。また, 専門分野ごとに特有の表現は, 専門パターン対として別に用意する必要がある。

パターン対作成はあくまで人手作業によるものであり, すべての知的判断はアナリストにより行なわれる。アナリストの負担を軽減し効率よくパターン対を作成するには支援処理の利用が有効である。日英機械翻訳用のパターン対の構造は, その大半が約10種類のテンプレートで記述できることが知られている[横尾94]。これに着目し, 与えられた日英対訳用例の中から日本語側, 英語側のパターン要素を検出し, パターン対の原形を生成する処理を実現した[白井94,96]。生成されたパターン対の原形をアナリストが検証・修正することにより, 最終的なパターン対が作成される。

パターン対を収集する方法として, 和英辞書の情報を参照する方法が考えられる。人間用の和英辞書には, 日本語の用言に対して, 語義とそれに対応する英語の動詞や語法, 例文などが記載されている。従って, これらの辞書に記載された語法や例文を分析し, 格要素, 副詞要素などの日本語側の制約条件を整理すれば, 日本語動詞と英語動詞のペアに対してパターン対を作成することができる。例えば, ライトハウス和英辞典[小島84]には, 動詞「上がる」に対して5つの語義が示され, 第2の語義の例文として次の文がある。

この例文の文要素を分析し, 若干の情報追加を行うことにより, 図2のパターン対が得られる。本稿では, 何冊かの和英辞書を使用してパターン対を作成した。

┌	Ｘ〔成績, 能力〕が	┌	SUBJ	X
├	Ｙ〔数量〕から	├	VP	improve
├	Ｚ〔数量〕まで	├	PP	from Y
└	上がる	└	PP	to Z

図2 人間用の和英辞書を使用したパターン対作成の例

和英辞書に含まれる主な用言5,600語に対して上記の方法でパターン対を作成した。得られたパターン対は, 当初, 一般パターン10,000件, 慣用パターン5,000件であった。その後の見直しにより, 一般パターンの中に統合できるものが含まれていること, また, 慣用パターンの中にも汎用化できるものがあることなどが分かり, 辞書から収集したパターン対は, 一般パターン10,000件と慣用パターン3,000件となった。

上記で得られたパターン対を使用して, 情報処理装置関連の仕様書(1,361文)の翻訳実験を行った。その結果によれば, 専門用語と思われるものを除くと, 試験文中に現れた用言の種類は142件, 翻訳に必要なパターン対は201件であるのに対して, 本節の方法であらかじめ準備できていたパターン対は120用言に対する154件であった。試験文中の22の用言(22パターン)はパターン対が登録されていないこと, また, 23の用言に対しては合計25のパターン対が不足していることが分かった。この例から見れば, 用言の数で15%(22/142), パターン対の数で23%(22+25/201)が不足していることになる。パターン対が不足している用言は, 単語当たりの語義の多い和語動詞が目立った。

人間の場合も, 和英辞書を引いて必要な情報が得られないという現象にしばしば遭遇する。その時, 人間は同じ意味の別の表現に言い換えて辞書を引き直すが, 計算機は自動的に言い換えることはできないので, 計算機用の辞書は不足している語がないように準備しておく必要がある。

一般に, 辞書は, 語彙調査などを行なつた上で一定の手順を踏んで編集されることを考えると, 高頻度の用法が収録対象から多数洩れているとは考えにくい。すなわも, 不足している用言やパターン対は低頻度のものであると考えられる。上記の実験結果のうも, 23用言に対し25パターン対が不足していたのは高頻度用言の低頻度用法であり, パターン対の登録がなかった22用言は低頻度の用言であると考えられる。以下では, 高頻度用言の低頻度用法の場合と低頻度用言の場合に分けて, パターン対の収集方法を検討する。

高頻度の和語動詞については, かねてより日本の言語学者が中心となって, その語義と対応する用例を収集分析する研究が進められ, 既に861動詞に対して語義分類と語義ごとの語法や用例 (ただし, 日本語用例のみ)がIPAL動詞辞書[IPA87]としてまとめられている。そこで, 本節では, 日本語の語義をより詳細に分類する立場から, この辞書の用例を使用したパターン対の収集を考える。

具体的には, IPAL動詞辞書の各語義に示されている用例に対して, 日本語原文に忠実で, かつ, 英語としても十分通用する英訳文を翻訳家に作成してもらい, その対訳データからアナリストがパターン対を作成する方法でパターン対の収集を試みた。

上記の方法により, 861の和語動詞に対して, 5,243文(和文7.5万字, 英文4万語)の対訳例文が得られた。これらの対訳例文を使用したパターン対作成作業では1,532パターン対が新規に作成され, 既存のパターン対500件に対する修正情報が得られた。しかし, 3.1節の実験で不足していた和語動詞のパターン対のすべては充足されなかった。

IPAL動詞辞書は, 日本語動詞の語義分類に基づいて用例が作成されている。従って, 日英翻訳の観点で十分な語義分類であるかが問題となる。 IPAL動詞辞書において, 1語義あたり複数の例文が与えられている動詞で, 1つのパターン対で間に合ったケースは少なかったことから, 語義あたりの例文数を増やす必要があるのではないかと予想される。

日本語例文とパターン対の関係を観察すれば, 同じ動詞を使用していても, 動詞の使われ方のニュアンスが異なるときに新たな英語パターンが必要となる場合が多いことに気づく。そこで, 英語の理解できる日本人が辞書等を参考にしながら自分の知識を引き出し, 日本語としてニュアンスの異なる用法を可能な限り列挙するという方法で例文を作成し, 翻訳専門家にその例文に対する英訳文を付与してもらい, その対訳データからパターン対の収集を試みた。

列挙する用例は, 作業に掛ける時間にもよるが, ある程度の時間以上考えても用例が思い浮かばなくなるまで抽出することとした。用例数としては, いくつかの動詞について思考実験した結果に従い, IPAL動詞辞書の語義数の2～3倍を目標とした。

上記の方法による作業結果では, 約1.5人年の作業により, 861動詞に対し対訳用例10,497文(和文13万字, 英文6.8万語)が収集された[白井97]。

また, 収集した用例から, 語義数の多い動詞と少ない動詞が混合するように36動詞(1,100用例文)を選び, パターン対の抽出を試行したところ, 新たに300件が抽出された。

単純計算では, 和語動詞の対訳用例10,497文からはパターン対3,000件の抽出が期待される。

低頻度用言は, 辞書に収録されていても極めて簡単な記述にとどまるため, 辞書からまとまった分量の例文を収集するのは困難である。そこで, 3.2節と同様に, 英語の理解できる日本人が自分の知識を引き出し, 日本語としてニュアンスの異なる用法を可能な限り列挙するという方法で例文を作成し, 翻訳専門家にその例文に対する英訳文を付与してもらい, その対訳データからパターン対の収集を試みる。用例数としては, 低頻度用言であることを勘案し, 1語あたり2文を目標とするが, ある程度の時間以上考えても用例を思いつかなくなるまで例文作成を試みることにする。

次に, どの用言を例文作成の対象にするかが問題となる。本稿では, 現代日本語を対象とし, 現代日本語の例文が豊富に記載されている現代国語例解辞典[林85] (以下, 「例解」)を基準として, 低頻度用言を選定することとする。そして次のようにして作業対象語数を見積もった。

電子化された最大規模の国語辞典として学研国語大辞典[金田一80](以下, 「学研」)がある。この辞典には単語の品詞のほか文語・古語といった表示も行なわれている。例えば, 和語動詞と思われるものだけでも6,300語収録されており, 文語や古語と表示されているものを除いても5,900語にのぼる。この5,900語を個別に眺めるとかなり特殊な語が多く含まれていることがわかる。一方, 「例解」を対象としたサンプル調査では, 対象とすべき和語動詞は3,500語程度と見込まれる。従って, ここでは単純に, 「学研」に収録されている文語や古語を除く用言の6割が, 「例解」に収録されている作業対象用言と仮定して作業対象語数を推計する。

和英辞書に収録の少なかった和語動詞として, 「とびだす」「うちこむ」のように, 見かけ上2つの語が合成された複合型のものがある。「例解」からは2,105語が抽出され, 3,717文の用例が内省により得られた[白井98]。例文からパターン対を作成する際の歩留まりを7割と予想すると, 2,600件のパターン対抽出が期待される。しかし, 3.1節の方法で800件ほど収集済みであることを踏まえ, 新規パターン対は2,000件と予測する。

ナ型形容詞は, 「学研」には4,300語が収録されているので, 「例解」からは2,600語が抽出され, 4,400例文が作成されると推計される。 3.1節の方法により900語1,200パターン対が収集済みであることを踏まえ, 新規パターン対は2,000件と予測する。

漢語動詞は, 「学研」には9,000語が収録されているので, 「例解」からは5,400語が抽出され, 9,000例文が作成されると推計される。 3.1節の方法により3,000語4,000パターン対が収集済みであることを踏まえ, 新規パターンは3,500件と予測する。

3.2節の方法によれば, 和語動詞861語(漢字異なりでは約1,100語)に対し, パターン対4,500件の新たな収集が見込まれる。

日本語辞書の詳細な語義分類としては, IPAL形容詞辞書[IPA90]も利用可能である。 IPAL形容詞辞書には1,917文の例文が収録されており, 和語動詞の場合と同様に内省による例文作成を試みたところ1,909文が収集された[白井97]。これらに対するパターン対作成は, 現時点では開始していないが, 対訳例文に対するサンプル調査では英訳文の英語動詞の異なりが比較的低いため, 新規に得られるパターン対は例文数の1～2割程度であると予想している。

3.3節では, 新規パターン対は, 和語動詞では2,000件, ナ型形容詞では2,000件, 漢語動詞で3,500件が収集されると予測した。

このほか, 3.2節で対象とされなかった和語動詞やイ型形容詞が, 3.3節の方法の適用対象となるが, 「学研」との対比から400語程度残っていると思われる。これらはあまり多義性はないと考え, 語数と同程度のパターン対数を予測する。

前節までの検討をまとめると表1を得る。この表から,日英機械翻訳では, 一般パターン, 慣用パターンを含め, 約27,000のパターン対が必要と推定される。これらのパターン対は日英翻訳の意味解析における使用を念頭において作成を進めている。正しい日本文が入ってくるという前提のもとに, 入力日本文を受け入れるための“アクセプタ”としての十分性を検証してきたに過ぎない。例えば, 「AがBをZする」「CがDをZする」という2つの日本語パターンに対し, 英語パターンが同じであれば, 日本語パターンを「X[A,C]がY[B,D]をZする」のように, 縮退させて記述している。今後は, 格要素の条件の交差性の検証等のパターン記述の精密化も考慮したい。また, 各パターン対に用例を付与して保守性を高めるなどの改良も並行したい。

表1 日英機械翻訳に必要なパターン対の数の見積もり(単位1,000)

言語知識の体系化の一環として, 日英機械翻訳において, 用言の意味を訳し分けるのに必要な結合価パターン対の数とそれを収集する手段について検討した。具体的には, まず人間用の和英辞書からパターン対の収集を行ない, 一般表現10,000件, 慣用表現3,000件を得た。評価実験により, 高頻度用言の低頻度用法や低頻度用言の用法は和英辞書には記述されていないため, これらのパターン対が収集できないことがわかった。

高頻度用言の低頻度用法を収集するため, 日本語辞書の語義ごとに記載された用例を利用する方法と, 人間の知識を内省して得られた作例文を利用する方法を試みた。その結果, 訳し分けが特に必要な和語動詞約1,000語に対し約7,500件のパターン対が必要であり, それを作成するには15,000件の用例収集が必要であることがわかった。

低頻度用言の用法の収集にも, 人間の知識を内省して得られた作例文を利用する方法の適用が考えられる。日本語辞書に収録されている用言を対象として, 内省により作例文の収集を開始した。収集された用例を対象とした机上検討によれば, 低頻度用言は比較的多義性が低いため, パターン対の収集効率は高いと予想している。

これらの結果, 漢語動詞や用言性慣用表現を含む日本語述語全体では約27,000件のパターン対が必要であると見込まれる。また, 人手でパターン対を作成する場合は, 辞書情報などを参考に人の知識を内省して用例を作成する方法によって, パターン対作成に必要な用例をほぼ網羅的に収集できる見込みである。なお, これまでに収集した結合価パターン対の主要部分は日本語語彙大系[池原97]として1997年上梓した。

高頻度の用法を収集するのは比較的容易であるが, 人手により大量のデータを整理して辞書・規則を的確に記述するのは容易ではない。このような対象から辞書や規則を整備する場合は, 統計的手法等による支援を得ることにより, 作業の効率化が有効である。

一方, 低頻度の用法を収集するのは困難であるが, アナリストが若干の事例を参考に, 内省により辞書・規則を作成していくことが可能である。訓練されたアナリストであれば, 副作用を予想しながら辞書・規則を作成しているので, 作成された規則が適用された場合の副作用はそれほど大きくないと考えられる。

以上を踏まえて用例型翻訳を再検討すると, 特に低頻度の領域において単に用例を追加するのでは, 追加する用例の汎用性が保証されておらず, 「用例を追加すれば品質が向上する」という目標には反して, 副作用の危険が大きいと言わざるを得ない。逆に, 高頻度の領域では, 統計的手法等により, 汎用性の低い用例を自動的に選別して一定の信頼性を保証することが可能であると考えられる。

規則型翻訳と用例型翻訳の役割分担を考えると, 高頻度の用法には用例型翻訳を, 低頻度の用法には規則型翻訳を適用するのが有利であると考えられる。この点からも, 低頻度の用法を辞書・規則として集大成する必要がある。しかし, 自然言語のような開集合の構成要素を網羅するのは原理的に不可能であるため, 一方では, 言葉を根源まで追窮して法則性を見いだすなどの取り組み[宮崎99]が不可欠であると考えられる。

なお, 本稿は“「言語資源の共有と再利用」シンポジウム”で発表した論文[白井99]をもとに, 「ことば工学」に向けて加筆した。

構文意味辞書の整備, 拡充にご協力頂いている渡邊いづみ氏, 木村淳子氏, 高橋直美氏を始めとするNTTアドバンステクノロジ(株)の関係各位に感謝する。長年にわたりパターン対の作成を担当して頂いた細井純子氏, 八木晶子氏, 井上浩子氏を始めとする方々に感謝する。パターン対作成の基礎資料となる用例収集にご協力頂いている相澤弘氏, 武智しのぶ氏, 分部恵子氏を始めとする方々に感謝する。また, 単語意味辞書の整備, 拡充を担当して頂いている阿部さつき氏, 小船園望氏に感謝する。

	-1 ことばの数っていくつあるの
	0 ことばの組み合わせっていくつあるの?
	1 はじめに
	2 パターン対記述の枠組み
	3 パターン対の収集方法
	3.1 和英辞書からのパターン対の収集
	3.2 高頻度用言のパターン対の充足
	3.3 低頻度用言のパターン対の収集
	4 必要なパターン対数と用例数の見積もり
	5 おわりに

	謝辞
	参考文献

品詞	延べ語数	比率(%)
名詞	12,555,773	81.85
助詞	893,615	5.83
助動詞	496,907	3.24
記号	491,337	3.20
動詞	446,485	2.91
ナ型形容詞	32,219	0.21
イ型形容詞	31,697	0.21
副詞	27,810	0.18
連体詞	24,339	0.16
接続詞	11,389	0.07
感動詞	96	0.00
合計	15,340,548	100

	3.1和英辞書から		3.2(1)IPAL辞書から			3.2(3)対訳作例から			3.3対訳作例から			合計
	語数	P数	語数	例数	P数	語数	例数	P数	語数	例数	P数	P数


一般パターン	5.6	10.0	1.2		1.7	1.2		3.3	10.4		8.3	23.2
和語動詞	1.2	3.2	1.1	5.2	1.5	1.1	10.5	3.0	0.4	1.0	0.3	8.1
複合和語動詞	0.4	0.8							2.1	3.7	2.0	2.8
漢語動詞	3.0	4.3							5.0	10.0	3.5	7.8
イ型形容詞	0.2	0.5	0.2	1.9	0.2	0.2	1.9	0.3	0.4	1.0	0.4	1.0
ナ型形容詞	0.9	1.2							2.6	4.0	2.0	3.2
名詞	0	0							0.1	0.2	0.1	0.1


慣用パターン	0.6	3.0			0.1			0.4			0.5	4.0

	彼の学校の成績が上がった。
	His school record has improved.

あらまし

INDEX

-1 ことばの数っていくつあるの

0 ことばの組み合わせっていくつあるの?

1 はじめに

2 パターン対記述の枠組み

3 パターン対の収集方法

3.1 和英辞書からのパターン対の収集

3.2 高頻度用言のパターン対の充足

3.3 低頻度用言のパターン対の収集

4 必要なパターン対数と用例数の見積もり

5 おわりに

謝辞

参考文献