SKY NOTE

skymouseが思った事考えた事を記したもの

Pref..
Speech
STOP
Follow..
QR Code
|◀
▶|
QR
×
voice
volume
0
rate
0
pitch
0

AmazonのDynamic Perspectiveで立体テレビ電話が出来るはず

AmazonのFirePhoneに採用されているDynamic Perspectiveを考えてみると、これって、テレビ電話に使うと面白いことができると思ったので、それを書いてみた。

 Amazon Fire Phone: Firefly y Dynamic Perspective en acción
 

1.テレビ電話の背景を消せる

  • テレビ電話で困るのが背景が写りこんでしまい、部屋の様子がわかってしまうことだが、Dynamic Perspectiveの2chの深度センサーを使うと、顔の深さの部分だけ表示し、他を壁紙に切り替える事ができる筈だ

2.人とPC画面が合成できる(仮想スクリーン)

  • 奥行き情報で人の深度のみを表示し、背景にはスライドを表示させると、天気予報のお姉さんのようなプレゼンが出来る。これのいいところは、スクリーンがなくてもプレゼンが出来る点。例えば、背景にPowerPointを転送しておいて、それを人が指さしながら説明できる。即席バーチャル教室の出来上がりというわけ。オンラインでのスクリーンのある会議がオフィスの机に居ながらにしてできる。

3.テレビ電話で人の顔の表情を立体的に捉えることが出来る

  • 深度センサと画像センサの情報を合成して、人の顔を立体的にリアルに再現できるはずだ。それをDynamic Persfectiveで表示すれば、人の表情がリアルなテレビ電話が出来る。

まるで、画面の向こう側に本物がいるかのような錯覚を感じさせるテレビ電話が出来る。これは、RGBの他に奥行方向のデータが必要だが、要するにモノクロの奥行き情報をもう1ch転送できればいいだけだ。つまり、カラーとモノクロの2つのムービーが転送できれば、それは可能。

深度センサーの解像度が低いと、これは上手く出来ないのだが、LeapMotionなどを見れば、視差があれば、ソフトウェア的に深度の解像度を上げられるようなので、スマホのように顔が近くにある場合は、なんとかいけそうに思える。自分としては、AmazonのFireFlyの画像認識技術で人の名前を覚えてくれると有り難い。つまり、リアルなテレビ電話と同時に顔認識で名前も一緒に表示されると、非常に便利だと思う。顔の表情って立体的に見えると分かりやすいんだよね。

FirePhoneの4chの赤外線のセンサを見てたらLeap Motionの構造と同じだって感じた。ほんでもって、ライブ映像の配信ってどうして、ああも画質が悪いのかと調べていた。無線の帯域幅がハイビジョン並みの動画が送れる2.5Mbps以上あるから、帯域幅の問題じゃない、するとエンコード負荷の問題だと分かったが、これも、iMessage(必要帯域幅1Mbps以上)などを見れば、かなりの解像度のテレビ電話がすでにある。つまり、iPad2クラスのスペックがあれば、高画質な動画が送れる筈である。ならば、現在、都市部のソフトバンク帯域幅でも上り最低1.6Mbpsで、ギリギリハイビジョンの動画が送れる。

 三大キャリアのLTE回線速度は? 五大都市圏で徹底チェック
 http://weekly.ascii.jp/elem/000/000/132/132782/

平均4Mbpsは、軽く出ている感があるので、これらのデータから総合すると、日本の無線通信環境だと3Dテレビ電話が可能だと思う。プロセッサパワー次第という感もある。エンコード負荷と奥行き処理負荷の両面を考えると、GPUを効果的に使う必要を感じるが、やってみると面白いと思う。

恐らく、これが出来るプロセッサパワーは、TSVメモリバスを使った次世代のメモリを採用したGPUによって可能になると思う。現在でも低解像度ならば出来るはずだ。そもそも低解像度ならば、処理負荷も少なくなるはずだから、結構早く出来ると考えていたら、超解像度が使えるんじゃないかと思った。確か、工学院大学の合志教授の超解像度が使えれば、今すぐにでも出来る可能性がある。

この技術でVGAクラスの映像を2倍程度に引き伸ばせれば、HD解像度の3Dテレビ電話が今すぐにでも出来るし、エンコード負荷や深度処理負荷も低解像度であれば大幅に低減できる。帯域幅は既に十分すぎるほどあるし、総合的に考えると、合志教授の超解像度技術を使えば、HD解像度の高画質な3DTV電話が現在のプロセッサパワーでも可能だと思う。