知の自由塾

言語の発展と、機械処理

提供: 有限会社　工房　知の匠

文責: 技術顧問　大場　充

更新: 2025年8月26日

あらまし

人類の言語の発展過程では、個人の私的な認識と、人類が共有できる客観的な事実の区別以外にも、重要な問題がありました。それは、話し言葉で語られたことを、書き残す技術でした。4大文明が発祥すると、各文明において、書き言葉が発明されました。さらに、その書き言葉を記録し、複写する技術も開発され、改良されてきました。これによって、人類の知は、大きく発展しました。

言語の発展と、機械処理

ホモ・サピエンスが誕生してから、ホモ・サピエンスの言語は、長い間、対面している人々の間での意思疎通の方法に限定されていました。その後、少しずつ、話者の表情や話者の肉体の使い方なども含めた、対話的な意思疎通のための表現から、その場にいない聴衆にも、話者の意志を伝えられるようにする、文字と書き言葉の発明に進歩してきました。メソポタミア地域に定住していた古代バビロニアの人々は、粘土板の上に、木の「へら」を押し付けて、その痕跡を残す方法(楔形文字)で、話し言葉を記録する方法をあみ出しました。エジプト地域では、石の表面を削って痕跡を残す方法で、ヒエログリフと呼ばれる絵文字を記録する方法を生み出しました。

図12. 文字の発明と言語の発展

話し言葉を粘土板などの媒体に記録し、話者が話をしているときに、その場にいて、その話の内容を聞いていた人々だけでなく、その場にはいなかった人々や、話者が生きていた時代には、生きていなかった人々も、媒体に記録された内容を読んで理解することで、その内容を確認することができるようになりました。例えば、古代バビロニアの王、ハムラビが即位したとき、国民に対して、全ての国民が守るべき民法を、粘土板に記した「ハムラビ法典」が作られ、数多くのコピーが作られ、各地に配布・掲示されました。このハムラビ法を、今日の我々が、読み、理解することができるのは、ハムラビ法典が粘土板に書かれた楔形(くさびがた)文字で、後世に残されたからです。

古代バビロニアの粘土板に記された楔形(くさびがた)文字、古代エジプトのパピルスや石碑などに記されたヒエログリフ(象形文字)、古代中国の竹や動物の骨に残された古代漢字文字などの後、今から2千年ぐらい前、中国で紙が発明されました。これによって、書き言葉を容易に紙に記録する方法が、人間社会に定着し始めました。その後、モンゴル帝国の拡大を経て、紙は、中国だけでなく、ヨーロッパの諸地域にも伝わり、広く利用されるようになりました。紙が西洋社会に伝播すると、写本製作の技術が進歩し始めて、「分業」が導入され、写本の製作過程が著しく効率化され、写本を低価格で大量に作ることができるようになりました。

15世紀に、ドイツで活字を使った活版印刷機が発明されると、それまでに分業化が確立されていた写本製作の方法を改良して、印刷技術を利用した出版が産業化されました。このことによって、書籍の印刷は、さらに低価格でできるようになり、様々な分野の書籍が、ラテン語ではなく、現地語で印刷・販売されるようになりました。例えば、デカルトの「方法序説」は、当時、書物の出版では普通であったラテン語ではなく、フランス語で出版されました。また、ドイツの宗教家ルターは、それまで、ラテン語で書かれていた聖書を、時間をかけて、ラテン語のまま、手で書き写して作成した聖書を、ドイツ語に翻訳し、印刷出版しました。これによって、ラテン語を読めなかった、一般の市民も、ドイツ語で聖書を読むことができるようになりました。これによって、一般の人々の知的水準は、飛躍的に向上しました。このルターによるドイツ語聖書の出版は、その後の宗教改革に多大な影響を与えました。

ヨーロッパの社会には、宗教改革以前にも、書き言葉としてのラテン語を利用した、公文書の記録と保存、特に公証役場における文書の公的な保存や、教会における個人の記録(出生や結婚・離婚、死亡など)の保存、さらに教会や裁判所における裁判記録などの保存は、慣習的に実施されていました。ラテン語での記録が要請されていたため、公証人は、記録の保持を要請する依頼人が、現地語で述べたことを、ラテン語に翻訳して記録に残しました。ドイツ語での聖書の出版によって、ドイツ語などの文書化の決まりが整ってきたため、16世紀になると、公文書館などに保管される文書も、ラテン語で書く必要性が薄れ、現地語で記載される例が一般的になりました。

印刷技術が普及した後、科学技術などに関する文章、特に論文などについては、著者が作成した原稿を、同じ専門分野の専門家が精査し、必要な文章の改善を提案した後、改善後の文章を雑誌に掲載する標準的な手続きが確立されました。書籍についても、科学技術分野では、似たような手続きがとられるようになりました。これらは、今日、「査読」と呼ばれている、公式な活動です。査読の過程を踏むことで、単一の著者による主観的な表現の多用や、客観性に乏しい表現などが、出版される公の文章に混入することを、未然に防止するようにするためです。また、知的所有権が争われる「特許」などの、独占的な所有権を認めるための文章では、所有権を認定するために、事前にその内容を公開して、類似の提案が既に発表されていれば、そのことを反論として主張できるようにします。

図14. インターネットとSNS

20世紀の中ごろから、これらの文書は、コンピュータを活用したデータベース上に蓄積され、必要に応じて、誰でもその内容を検索し、内容を確認できるようになりました。コンピュータと通信回線を活用することで、地球上のどこからでも、文章を検索し、見つけ出して内容を確認することが、極めて短時間のうちに行えるようになりました。そのことで、世界中で作成される文章を、いつでも、どこでも、自分自身の要求に従って、検索し、内容を読むことができるようになりました。19世紀から20世紀の社会では、印刷技術を活用した、「新聞」などのメディアによって、速報として社会的に重要な情報を、早く、多くの人々に、低コストで提供されていました。20世紀の後半、特に1990年代になると、インターネットを利用して、個人が情報発信者となり、世界の人々に対して、自分の意思で、即座に情報を発信できるようになりました。つまり、20世紀の前半まで、出版社や、放送局などの専門家たちによって、その内容の質を保証できない情報は、自動的に排除されていました。従って、情報の内容についての真偽は、問題になりませんでした。しかし、個人個人が、情報を獲得し、直接、即座に発信できるようになると、その情報の真偽を客観的に保証することが、できなくなりました。

21世紀の初頭になって、インターネットを利用した情報交換が、一般的になり、人々がインターネットを利用した情報交換で、個人の意志で情報を取得することが主たる手段になりました。これによって、個々人が発出する主観的な情報が、第三者の客観的な評価を受けないまま、次から次へと人に伝えられ、巷(ちまた)で言われる「電報ゲーム」のような性質を持ったネットワーク上で、情報共有されることが普通になりました。この主観的な情報の共有が中心となったネットワークが、ソーシャル・ネットワーク・サービスと呼ばれている、インターネット上で提供されているサービスです。それは、主観的な印象だけが優先されるネットワークで、いわゆる「フェーク・ニュース」の流布を止めることが難しい、情報共有の手段です。

人と人との言葉による情報交換だけでなく、コンピュータは誰かがコンピュータ上で作成し、コンピュータに接続されたデータベースに登録した文書などの情報から、ある人が興味を持ったキーワードを部分的に含んだ文書や画像、そして音声などの表現を探し出し、画面上に表示することができるようになりました。特に、文章などの情報検索では、特定のキーワードを、長い文の一部に含む文章を含んだ文書だけでなく、指定したキーワードが表現する意味を含むと考えられる文を含む文章なども、検索し、表示することもできるようになっています。

これは、機械学習の技術を利用した、人工知能の応用による情報検索の例です。人工知能の研究では、指定した検索語(キーワード)や検索文を解析して、データベース中にある文章の中から、それに関係のある検索語や検索文、さらに該当すると解釈できる文脈をもった文章表現なども探し出す、自然言語処理の研究もあります。しかし、実際に情報検索サービスで提供されている技術では、指定されたキーワードと関連のある単語や文の例から、経験的に連想される文や単語を含む文章などを探し出して、表示する例などです。現実の応用では、文の文脈を解析するまでもなく、経験的に関係が推定される文だけからでも、かなりの精度で、適切な文章を実用的には見つけ出すことが可能であるとされています。

図15. SNSの問題

この方法では、文の表現に含まれる論理の構造や、文の表現に含まれている論理的推論の展開など、人間の言語表現であれば、その裏に隠れている論理構造や推論のやり方を分析し、それに基づいて、文の表現から、その表現が意味する内容を把握する方法が採られます。このような人間的な方法は、人間の知能を活用する場面では、効率的であり、有効な方法です。しかし、それをコンピュータに実行させようとすると、計算に掛かる時間が膨大になり、効率的ではありません。また、そのような計算が、結論に到達できる(計算が終わる)かどうかも確かではあません。しばしば起こることは、そのような計算が、結論に向かって直線的に進むのではなく、「循環論」となって、計算が終わらなくなることです。そのため、上述したような簡便な方法の方が、有効である例が少なくないのです。

特に、人間同士の意志の疎通では、表現に用いられる言葉(単語や単語の列)が意味する内容は、その単語や単語の列そのものが、直接意味する内容を参照している場合もありますが、そうではなく、使われた単語や単語の列そのものが直接意味する内容ではなく、それらの意味する内容によって、間接的に暗示される内容が参照される例もあります。前者を、「外延」と呼び、後者を「内包」と呼びます。ある単語が提示されたとき、話者がその単語の外延を参照しているのか、それとも、その単語の内包から暗示される意味をも参照しているのかは、その言葉が語られている文脈や、文の主題、そしてその文を含む文章の論理構造などの深い分析を行って決定しなければなりません。このことも、コンピュータによる処理を難しくします。それを防止する意味でも、上述したような最近の人工知能で使われている「生成AI」技術は、意味があります。しかし、それは、コンピュータによる言語の処理が、人間の意味理解よりも、かなり「大雑把」であり、厳密なものではないことを意味しています。