| 要約 | |
| 1 言語学的背景 | |
| 2 目的: 類推空間相似に基づく翻訳 | |
| 3 方法: 基本演算としての類推解決 | |
| 4 結果 | |
| 5 考察 | |
| 6 結論 | |
| 参考文献 |
「類推は、モデルとその規則的模倣を予想する(ソシュール、小林英夫訳)」。 即ち、類推は事例を一定の規則に基づいて模倣することにより成立する。 例えば、「食べる:食べます=決める:x ⇒ x=決めます」。 本論文では、機械翻訳にその原則の適用可能性を示す。 類推関係は、記号レベルで適用することとし、この関係に基づく言語処理手法は普遍的な手法であるため、 いろいろな言語に適用可能であると考えられる。
音韻学−形熊学 本研究の着目は、ソシュールによる「一般言語学講義(小林英夫訳岩波書店)」、第III部第4章の中の次の指摘である。
[古典語形honosと競争する新語形honor、] この二重性は、
:
, etc.
をモデルにして作られた新語形honorによって除かれた;
その手順, 以下に研究するが, これからさき, 比例四個式の計算に引きもどしてみようと思う:
:
=
: x ⇒ x = honor
ソシュールは、アリストテレスの類推の定義を単語に応用した。 即ち、類推とは3つの形を与え、欠けている4つ目の形を見い出すことであり、類推方程式として規定される。
歴史的には、類推とは古典文法学者によるラテン語ないしはギリシャ語の形態的記述、
および、あらゆるアラビア語の伝統文法を意味する。
これらは、先ずモデルを提供し、次に類推による曲用、活用、派生等を再構築するのに必要で十分な情報という形で、
語彙的要素を提供する。
類推は言語の比較研究、より正確にはインド-ヨーロッパ語研究にも適用されている。
(もしギリシア語 /h/ がラテン語の /s/ に対応すると言えるなら、
ν\cπερがsuper(最高)で、
がsemi(半分)である、等)。
類推関係はHjelmslevとJakobsonの音韻研究の骨格をなし(/p/ は /t/ となり、/b/ は /d/ に当たる、等)
関与的音韻対立の概念を伴っている。
統辞論 共時的観点から、類推だけであらゆる言語現象を説明できないし、例外はそこかしこにみられる。 しかし、ある意味ではヘルマン・パウルとブルームフィールドは統辞論が類推の適用対象になりうると考えている。
柿が彼に食べられた。 : 柿を彼が食べた。 = 打ち合わせ場所が彼に決められた。 : x ⇒ x = 打ち合わせ場所を彼が決めた。
統辞論における類推の効果に関する議論は、チョムスキーによって否定された。 類推によって非文法的文章が簡単に生成されることから、彼は類推が判断材料とならないであろうと結論づけた。
柿が彼に食べられた。 : 柿を彼が食べた。 = 先生が学院に来られた。 : x ⇒ x = *先生を学院が来た。
しかし、チョムスキーの言語生得説及び文脈自由文法の仮説は、 心理学の実験でも、言語学的データ(形態論[バンバラの例]・統辞論[スイスのドイツ語圈の例])でも否定された。 こうして類推は表舞台に帰り咲くことができる。
|
次のような2言語の文章−翻訳の列を使い、類推のみに基づく機械翻訳方式の実験システムを作成した。
システムにある文章、例えば
を入力し、
,
,
という3つのフランス語文章を類推関係で見つけようとするものである。
実際には、以下のようになる。
:
=
: x ⇒ x =
フランス語の類推関係を日本語の類推関係に移植すると、次のようになる。
彼女は少女だ : あなたは少女だ = 彼女は看護婦だ : x ⇒ x = あなたは看護婦だ
そうすると、結果的に
のフランス語の文章に対応する「あなたは看護婦だ」の日本語訳の文章が得られる。
類推空間相似 上記の方法では、フランス語と日本語の二つの空間があり、 第2空間の類推的構成は、第1空間の要素との照応によって移植または保存されると仮定している。 数学では構成を保存する機能が相似と呼称される。
先に挙げた例では、入力した文章
の訳として「あなたは看護婦だ」を即座に得ることができる。
実際には常に3つの文章を見つけることができるとは限らないので、
2つの文章を探し、3つ目の位置に出現するべき文章を類推解決アルゴリズムを用いで獲得し、
その3つ目の文章をフランス語と日本語の翻訳情報の中に存在するかどうかを確かめる。
こうして獲得したその3つ目の文章を用いることにより、手法は帰納的に適用される。
記号列の基礎演算 上記の方法をコンピュータで実行するため、次のような記号列の間の類推方程式を解決する機械的な手順(アルゴリスム)を提案した。
食べます : 食べる = 決めます : x ⇒ x = 決める
提案されたアルゴリズムは普遍的であり、入力した3語の記号列以外の知識に影響されてはいけない。 即ち言語知識や世界知識を一切用いない。
□○ : Δ○ = □● : x ⇒ x = Δ●
実際には、上記のような接頭辞と接尾辞の入れ替え操作だけでは不十分である場合もある。 具体的には、セム語については数限りない接中辞の平行挿入を扱わなければならないので、問題はもっと複雑である。 1
aslama : muslim = arsala : x ⇒ x = mursil
|
ここに前述の手法と2章の例文(図1)によって得られた幾つかの翻訳がある(図2)。 括弧内の数字は一つの翻訳が出現する頻度を示している。入力が同じ場合、最も頻度が高い翻訳が最尤であると推測できる。
この方式は十分に改良された機械翻訳システムに比べると品質では劣るかもしれないが、方法論としては大きな利点がある。
第1に、文書を異なる2言語について並べるだけで事足りる。 これはある程度自動的に行うことができる。
第2に、このタイプのシステムでは文法規則を明示する必要はない。 文法記述は一般の機械翻訳システムの構築には必須である。 文法は、前もって一つの言語のデータを分析し、明示的に分類することである。 ここでは類推が暗黙のうちにこの分析を行う役を担つている。 翻訳結果の精度の高さは、収集したデータの妥当性に依存する。
第3に、普通の語彙・文法の分割は不要である。 この点は認識論の観点から重要である。 実際にいかなる言語学者でも、単語や文章等に明確な定義を与えるのは困難である。
心理学で人間活動の特徴の一つと考えられている4項類推式に基づき、言語に依存しない新しい言語処理方式について述べた。 類推関係を翻訳に適用し、2ヶ国語の対応を用いて、翻訳が可能であることを示した。
また、この類推関係は、画像や音波の空間にも適用可能と考えられるので、 今後は音響処理や両像処理に対する本技術の適用性を検討する予定である。