Get Things Right

My English blog is here http://getthingsright.blogspot.com/

自然言語処理(Natural Language Processing NLP)

人は言語コミュニケーションを通じて相手の知性を知る。だから自然言語処理技術は人工知能の重要な構成要素。1957年のソ連による初の人工衛星打ち上げに、アメリカはショックを受け、ソ連の科学技術を知るために、ロシア語から英語への機械翻訳が盛んに研究された。

現在でもテロや仮想敵国を監視するために、国防高等研究計画局(DARPA)などがNLP技術関連の研究に助成金を出資し、監視の自動化を進めている。具体的にはNPL技術で英語・外国語を問わず文章を解析、Why,What,How,Purposeなどを選別、自動抽出している。

対象データは文章などの非構造化データ(Unstructured data)。データベースに格納して構造化データ(structured data=知識) に変換しないと、検索・抽出操作、連結操作、演算操作などができない。非構造化データを構造化データに変換するには、自然言語処理技術(NLP)を用いて、文章の意味を解析し、抽出処理を行う。

この作業には非構造化データ(Input)と構造化データ(Output)との間の依存関係がある。

すなわち:

1)NLPは構造化データ(Output)を用いて、非構造化データ(Input)の意味を解析し、構造化データ(Output)に変換
2)構造化データ(知識)が増えれば、上記1)の精度が上がる
3)1)→2)を繰り返すことにより、構造化データ(知識)が増え、解析の精度が上がる

NLP技術の発展は構造化と非構造化データの差異を縮め、コンピュータの知性を更なる高みへと押し上げる。

純化した例を上げよう。

馬 、 動物 、 生物。これら3つの単語は、「馬は動物」。「動物は生物」という関係がある。そのため三段論法(A=B, B=C, then A=C) を使って「馬は生物」と推論ができる。推論の為にはWeb上などのデータソースからA=B, B=C に該当する情報を集め、データベースに知識として格納して初めて(A=C)の推論を演算できる。A=Bの情報を集めるなら、英語では「A is B」など 「is」に注目したり、また上記例「馬は動物(に含まれる)」なら「 horse is a part of animal 」のように「partやinclude」という単語が手がかりとなるであろう。このようにBe動詞や単語の意味や役割がわかれば、それを元にコンピュータは自動で知識(構造化データ)を獲得でき、個々の知識の繋がりを蓄積すれば、推論の幅を広げることがでる(A=B=C=D…と広げる)。推論の幅が広がれば、より効率的に知識の獲得できる。

コンピュータの知識獲得は、コンピュータがどれだけ意味を正確に捉えるかに依存する。正しい意味は、人間の主観や常識に依存する。だから今後、IT企業は個人情報を積極的に活用せざる得ない。例えば日本語入力。「だい」という言葉。自分のパソコンで漢字変換すると「だい」が「台」となるが、歌会などの場所では「題」のほうが相応しい。もしコンピュータが個人の位置情報や、スケージュール情報、究極的にはDNA情報を元に性格・適性・趣味を解析すれば、「だい」の意味を正しく推論し「題」と変換する精度を上げることができる。

既にTwitterなどのSNS投稿の賛成、反対を自動認識し、それを元に拡散や「いいね」ボタンを自動的に押すことは技術的に可能。前回の米国大統領選挙で外国の介入が問題となる背景には、NLP技術は悪用されれば、フェイクニュースの拡散などを通じて選挙結果を誘導し、民主主義選挙の根本を揺るがしかねないからだ。

アラブの春に象徴されるようにSNSの社会的影響力は証明済み。そしてNLP技術はSNSに介入し、社会や選挙に影響を与える基盤技術となりえる。SNS企業にNLP技術による介入を監視、排除する金銭的な動機がない中(排除しようとすると間違って正当なユーザーも排除する可能性が高い)、自分はザッカーバーグような人工知能に対しての楽観的な態度が、長期的には国家の仕組みを専制主義的なものへと押しやる遠因となりえるのではないかと危惧する。

つまり:
1)個人情報が楽観的に共有され、NLP技術の意味をとる精度が上がる
2)NLP技術で効果的に世論を操作し、専制主義的国家に近づける
3)個人情報を取得、利用する基盤が促される
4)使用できる個人情報の増加(DNA情報など)と、NLP技術の進歩で、より小さい粒度(個人レベル)で世論を操作する。そして1)に戻る。

参考:

日本語入力を支える技術 ?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)

日本語入力を支える技術 ?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)

自然言語処理 (放送大学教材)

自然言語処理 (放送大学教材)

自然言語処理の基本と技術 (仕組みが見えるゼロからわかる)

自然言語処理の基本と技術 (仕組みが見えるゼロからわかる)

https://www.youtube.com/watch?v=W285adx2Nr0