NVIDIAが2016年に新しいGPUアーキテクチャ、Pascalアーキテクチャを発表した。従来と一線を画すアーキテクチャで、大幅なメモリ帯域の向上が図られている。
PC Watch:次世代GPUのPascal、次期TegraのEristaなどを発表
http://pc.watch.impress.co.jp/docs/news/event/20140326_641416.html
Pascalを搭載したモジュール、ペンと比較して小型化していることが分かる。
1.3Dメモリの採用とNVLink(新しいバス)による大幅なメモリ帯域の向上
- NVIDIAはメモリ帯域を拡張するのに2つの方法論を用いた。1つはメモリの高速化と、2つ目は、その高速化したメモリのデータを運ぶバスを新たに作った。それは貫通電極(TSV)を用いた積層型のメモリ「3D Memory」と、PCI-Expressより高速な広帯域バス「NVLink」である。それでは、その性能を見ていこう。
- 3D Memory(メモリを貫通電極を用いて積層し、広帯域化と大容量化を両立)
- ・積層方式:HBMか?(内部バス幅1024bit、ロークロック)
- メモリ内部バス幅:最大1024bit(128byte)
- ・電力効率:最大4倍
- ・実装量 :4倍の容量(最大32GB)
- ・積層 :DRAMベースダイに最大8層
- ・同面積:2.5倍の容量(8Gbitチップ積層使用時:32GB)
- Tesla系製品:最大容量12GB→32GB(2.5倍)
- ・アクセス粒度:32byte(1チャンネルあたり)
- ・帯域幅 :2〜4倍(帯域幅ターゲットは1TB/s)4層重ねるとフル速度になる
- 1024bit(128byte)×4層=512byte×2GHz=1TB/s
- スタックドメモリ(3D Memoryの写真)
- HBM Stacked DRAMの構造(画像をクリックすると拡大します)
- NVLink
- 資料:http://pc.watch.impress.co.jp/docs/column/kaigai/20140327_641498.html
- ・PCI Express 3.0(16GB/s)に比べて、5〜12倍の帯域幅(80〜200GB/s)
- ・高速シリアルインターコネクト
- ・基本構成:8レーン(双方向:200GB/s:25GB/s×8)
- 拡張仕様:16レーン(双方向:320GB/s:20GB/s×16)
- 16レーン時、電力仕様 1.35V/0.9V(28nmCMOS)
- ・マルチGPU(複数個のPascal)、マルチCPU
- ・物理層はPCI Expressと異なるが、論理層は互換性がある設計
- プログラミングモデル上は、PCI-Expressとして使うことが出来る。
以下の様な構成の新しいバスとメモリを採用した製品が2016年に出てくるということだ。注目しているのは、帯域幅と容量だ。最大容量構成を見れば、殆どメインメモリと同等の容量を搭載できるのである。つまり、GPUとCPUをNV Linkで繋げれば、メモリを共有してもパフォーマンス(容量、スピード共に)がそれほど落ちない事になる。これにより、実装面積の小型化、省エネ化、そしてARMの64bit化も合わせて見れば、CPUとGPUが統合されるようなモデルが見えてくる。さらにNVIDIAでは、ローエンドからハイエンドまでのGPUアーキテクチャを共通化し、スケーラブルに処理能力を拡張できる仕様になっているため、今後、NVIDIAがGPUアーキテクチャを更新すると同時に、全ての製品ラインナップで、その新しいアーキテクチャの恩恵を受けられるという事になる。非常に合理的な戦略で、従来のボトルネックであったメモリ帯域幅の問題を抜本的に解決しているため、大幅なパフォーマンスアップが見込めると思われる。