擬人化していくコンピューター

最近、矢継ぎ早にコンピューター関連で先進的な技術を見ることが出来たので、新しい世界を考えることが出来るようになった。今回は、その注目すべき技術を、各機能別に紹介し、それがもたらす未来について書いてみたい。

1.3Dが見える目、「RealSense」

RealSenseは、~~2ch以上の赤外線センサ~~2ch光学センサと赤外線センサによって奥行き情報を獲得し、それを映像と合成することで立体物を認識する技術、この技術で得られる3D映像は、従来の2chのカメラで合成した3D映像と違って、色々な角度から見ると、それに応じて立体映像が変化する、より情報量の多い3D映像が得られる点にある。

2.3Dを写す表現手法、「Dyanamic Perspective」

これは、本当はamazonが発表する以前に携帯ゲームなどで実現されていたが、技術そのものに名前が付けられたのは、Amazonからであろう。この技術は、人間の目に合わせて映像をパースを似あわせて変化させることで、仮想的に立体物に見せる手法である。これは、静止画ではエッシャーの目の錯覚のダイナミック版と言っていい。

3.意識を持った記憶「Genaral Harmonis」の圧縮技術

General Harmonics社の新しい圧縮技術は、データの特徴に合わせて識別できること、そして、それを効率よく圧縮する。データそのものにタグが付けられているような圧縮方式と考えられ、このタグを利用することで、概念的な識別が可能となる。これは、RealSenseのような奥行き情報を伴った画像技術と組み合わせれば、物体を識別できるデータとなる。そう言う意味で意識を持った圧縮データと言っていい。こういうデータがあると、Siriのような音声認識と組み合わせると、映像の中にあるものを即座に呼び出せる可能性がある。ただ、GeneralHarmonicsの技術が、どのような特徴をピックアップしているかによるのだが...

こういう技術があると何がいいのか、実用的な側面から考えてみる。

RealSenseの奥行きデータと顔認識を使うと、背景部分と人を分離して処理できる。ということは、背景部分に仮想スクリーンを設定すれば、プロジェクターのように機能させることが出来る。光回線やLTE回線を使えば、ハイビジョンクラスの映像を転送することも可能だ。しかし、そう言う技術がイマイチ使われていないのは、リアルタイムエンコードに必要なプロセッサパワーが足りないからである。1280×720でi7クラスのプロセッサが必要、それが出来て初めて、ビデオカンファレンスが出来るのだが、それに加えて、RealSenseの奥行き情報（8〜12bitモノクロ）のエンコードも加えると、結構処理が重たくなる。そして、その1280×720ドットの奥行き情報のデータを超解像度技術で、32インチ位の4KディスプレイにDynamicPerspectiveで高解像度に映し出せば、まるで、そこに生の人がいるかのように見えるはずだ。（ヘッドマウントディスプレイが使えないのは、あれをかぶってしまうとお互いの顔が見えなくなってしまうから）そこに仮想スクリーンが加わると、会議室になり、それはPCがあれば、いつでも会議ができる。会議が終わったら机に向かってすぐ仕事が出来る状態になる。

これはオフィスのLANで使えるだろう。LANであれば、100Mbpsあるので、エンコード時のタイムラグの大きいmp4ではなく、映画に使われているMotionJPEG2000の方が1コマずつ圧縮するのでリアルタイム処理がしやすいだろう。もっと言えば、それとは別に8〜10ビットモノクロの奥行き情報も付加して3Dにすれば、リアルタイムで3Dであり超解像で4Kのビデオカンファレンスが出来る筈である。しかも仮想プロジェクタ付きだ。組織の意思の疎通に役立つだろう。大事なのは、人の顔なのだ。これがリアルに見えることが重要、そして、それを議事録として記録すれば、プレゼンにおける反応が観察でき、顧客に訴求できたかが分かる。そして、顔認識情報と名刺の情報をリンクさせれば、どのポジションの人にどのように訴求できたかが分かる。

これは、単に会社の会議室のみならず、会社帰りに友人たちと顔を合わせて話したりするシチュエーションも考えられる。光回線の速度であれば複数人で集まって会話することが出来るだろう。また3Dだと、実際に物理的に集まっているかのように3D映像で合成できる。これは、コミュニケーションの質が向上する。一般的なビデオ会議では平面上のモニタで対話しているが、あまり自然な対話手法とはいえない。円卓に人を配置して、会話することが出来る。

攻殻機動隊 STAND ALONE COMPLEX 第9話

そう言うMotionJPEG2000のビデオデータを、今度はGeneralHermonicsの技術で圧縮し、その過程で映像内のデータを分類し、そこに顔認識を使った名刺情報を加えれば、誰が、どう反応していたかとPCに聞くと、そこが超解像ズームアップされて表示され、プレゼン画像と並行して表示されるような形になると推測できるのだ。このように言語認識による命令が視覚認識を伴って反映されるという事は、コンピューターが目で見て物事を判断できる状態が生まれるということだ。

この過程で、コンピューターが擬人化していく、単なる静止物体の認識だけでなく、その動作までもパターニングして認識できるのならば、それは、行動を把握できることになる。どんどん人間の認識能力に近づいていくことになる。そして、それらはAIと結びつき、擬人化した有能なサポーターとなって人々の前に現れることになる。それをするには、まだまだコンピューティングパワーが足りないのだが、攻殻機動隊に出てきた円卓の3Dチャットくらいは、現在の技術でも出来そうなレベルに達しているのだ。

これに適したハードウェアは、RealSenseカメラを搭載したワイドアスペクトモニタと高速なプロセッサ（CPUとGPU）を搭載したPCである。GPUの活用が重要なので、高速メモリバスも必要、そういう意味ではTSVを使った次世代のメモリの登場が待たれる。