自動運転自動車は本当に可能か？ - dr-yokohamanerの知的生活の技術

　この問題に対する答えはＹｅｓであり、Ｎｏです。歩道を車で走る人間だっているのですから、そんな程度でよければＹｅｓです。しかし、Ｄｒ．Ｙ的には１００年後でもゴールド免許を持つ普通の人間のように自動運転できる人工知能の実現はＮｏです。

　まともな運転をしている人には分かりますが、車を運転する要諦はアクセル、ブレーキ、ステアリングハンドルの操作ではありません。勿論、そんなことは最低限の条件です。運転の要諦は、自分の置かれた環境の中で自分の立ち位置と環境の認識を確実に行って事故を起こさないよう、環境に無用な擾乱を起こさないように車を制御することでしょう。

　Ｄｒ．Ｙは目先から２００ｍ以上前方までの全体を剣道の「遠山の目付」で捉えながら運転しています。自動車道で時速１００Ｋｍで走っていると秒速３０ｍ弱ですから、２００ｍ先など７秒で来てしまいます。決してそんなに遠くを見ているわけではありません。自動車道を１０ｍの車間距離で運転している人の気がしれませんが、多分、小学高低学年程度の算数ができない人なのでしょう。普通の人ですね。こんな人は一杯います。事故が絶えないわけです。

　あるいは、一般道でも、突然、路地から全速力の自転車で飛び出してくる何も考えていないおばちゃん、おじちゃんは、これも幾らでもいます。何を考えているのか、理解に苦しみますが、そんな何も考えていない本能だけで生きている人は、これも普通にいます。そんな時でも、ビックリして避けようといきなりハンドルを反対側に切って他の車に衝突するなどという事故を起こさないために全体を見ている、というより感じているのです。

　人工知能に何ができるかについては、「2016-03-22　人工知能に小説が書けるか？」で書きました。要点は「囲碁と小説の違い、それは、問題の対象が盤面という小さな環境（世界）と、宇宙あるいは人間の生活環境、精神環境という広大な環境との違いなのです。」運転にもこれと同じことが言えます。

　運転している時、人間は周囲の環境を見て、様々な判断をしています。これがコンピュータプログラムで実現される人工知能にはできないのです。見たものを認識する人工知能技術はＶｉｓｉｏｎと言われます。これが難しいのです。今できていることは、肌色を認識して人間の顔と「思われるもの」を認識するなどのような非常にローカルな、極々部分的な事ができるだけです。例えば、自然の背景の中で撮った自分の写真から自分の姿だけ抜き出したいと思っても、人間にとってそんな簡単な事が、人工知能にはできないのです。自動運転と言っても、道路の分離線や、標識、前の車など、特徴的な物を特徴点の抽出という野蛮で初歩的な方法で見ているだけで優れた人間が行う景色を茫洋とみて視野１７０度＋後ろを全体的に認識しているというようなことはまるでできていないのです。

　人間は写真を意味を感じてみています。これは山、これは草、これは蝶、これはアスファルト舗装の道路、これは自分の立ち姿などなど。コンピュータプログラムを書いた人なら分かりますが、コンピュータにとっては、あるいはプログラムを書く人間にとっては、写真は様々な色の点の集まりにすぎません。色の点（画素といいます）の集まりにまとまりを感じ、それを一つの「何か」（例えば、山、川、蝶）と理解する人間の脳の働きというのは、一体なになのか？？実に摩訶不思議なのです。こんな機能を論理的にどう表現できるのか（つまりプログラムできるのか）さっぱりわからないのです。

　写真の平面に散らばっている色の点のある集まりを蝶と認める方法を、あなたは日本語で良いので書けますか？数学的、論理的厳密性をもってですよ。適当ではだめです。たとえば、こんな風に：

　１．座標（x, y)に白色^＊がある（モンシロチョウとしてという仮定を許す大甘な条件で）
　２．座標 (x+1, y+1)には白色がある。
　　　　・・・

　こんな調子で一般の紋白蝶を認識できるでしょうか？できるわけもありません。嘘だと思ったら、書いてみてください。

　＊：白色にも広がりがあります。ＢＭＰでいえば、ＲＧＢが全部、２５５，２５５，２５５だけが紋白蝶の羽の白ではありませんので、これもどこまでを紋白蝶の白とするか数的表現をしなければなりません。ＲＧＢとは下記の図で示されるものです。これはペイントというＭＳの只ソフトで作った図です。

f:id:dr-yokohamaner:20160411211245j:plain

　プログラムとは、例えば、音楽会のプログラム、入学式のプログラムというようなものがあります。日本語にはピッタリする言い方がないので、文脈によってたとえば、入学式なら「式次第」とでも言いますか。つまり、「次第」、処理の順番です。コンピュータプログラムも同じ意味です。コンピュータに何かをさせるための処理の順番です。１．これをせよ。２．あれをせよ。３・・・。

　一枚の何が写っているか予め分かっていない写真＝単なる色の点の集まりに対して、何が写っているか認識できる手順を、コンピュータプログラムでなくて日本語で良いので（どちらでも同じ事ですから）書けますか？これがＶｉｓｉｏｎの問題です。実際には、人間には、まだ何が写っているのかが分かっていてさえ、それを一般に認識できる手順を書き下す事はできていません。それが分かれば、写真から自分の姿を抜き出す（背景を白にする）ことが可能になります。

　というわけで、周囲の景色全体を茫洋と認識しながら道路上を事故を起こさないように走行するプログラムなど書きようがないのです。できることは、運転支援くらいでしょう。

　自動運転で事故を起こした場合、責任の在り処をどこにするのかなどという法律の問題などどうでも良いくらいの所にしか人工知能はいません。できるはずもないことなので。

　自動運転の記事をみていると、大昔、自動翻訳がマスコミの表に出てきたとき、翻訳者たちが自分たちの仕事がなくなると大騒ぎして色々な講演会などが開かれた話を思い出します。未だに自動翻訳は本物の翻訳者にはまるでかないません。英語など全然わからないという普通の人々には、なんとか大意はわかるという使い方が只でネットでできるので便利と言えば便利ですが、それで人間の翻訳者は要らなくなったかと言えば、そんなことは皆目ありませんね。