北森瓦版 - Northwood Blog (Author : 北森四葉. Since July 10, 2006.)
 
GP100は“big Pascal”とも呼ぶべきコアで、16nm FinFETプロセスへの移行により、前世代のGM100からトランジスタ数はほぼ倍増して153億となり、一方でダイサイズは前世代とほぼ同等の610mm2となっている(GM200はトランジスタ数が80億でダイサイズが601mm2、その前のGK110はトランジスタ数が71億でダイサイズが551mm2)。

GP100ではStreaming Multiprocessorの構成も変更が加えられており、“Kepler”では1つのStreaming Mutltiprocessorに含まれるCUDA coreの数が192、“Maxwell”では128であったのにたいし、“Pascal”は64となっています。GP100では合計60のStreaming Mutiprocessorが搭載され3840のCUDA coreを搭載しますが、Tesla P100ではそのうち56のStreamint Multiprocessor(CUDA core数としては3584)が有効化されています。
Tesla P100の周波数はBase 1328MHz / Boost 1480MHzと前世代・前々世代と比較すると高く設定されているのも特徴です。これにより単精度浮動小数点演算性能(FP32)は10.6TFlopsを実現します。単精度と倍精度の比は2:1で、倍精度浮動小数点演算性能(FP64)は5.3TFlopsとこちらも前々世代と比較して高い数値となります(前世代の“Maxwell”は倍精度浮動小数点演算性能が単精度の1/32で、倍精度はほぼ考慮されていなかった)。一方で半精度浮動小数点演算性能(FP16)も1サイクルで2つをペアで処理できるようになり、21.12TFlopsとなっています。

GP100の最大の特徴の1つとなるHBM 2は16GBが搭載され4096-bitインターフェースで接続、720GB/secの帯域を実現します(8Gbit DRAM 4 Hi×4で16GBだろうか? また、HBM 2では規格としてECCに対応するが、今回のTesla P100がECC対応かどうかは明言されていないよう)。

GP100のもう1つの特徴が4本のNVLinkでMulti GPU環境においてより高速な転送を可能とします。NVLink 1ほんの転送速度は双方向で40GB/secとなります。NVLink対応のCPUと接続する場合はこれを利用でき、対応していない場合はPCI-Expressスイッチを介してPCI-Expressで接続されます。

Tesla
P100M40K40
コア・プロセスGP100 16nmGM200 28nmGK110 28nm
SM562415
CUDA core数358430722880
TPC64128192
コア周波数Base1328MHz948MHz745MHz
Boost1480MHz1114MHz875MHz
演算性能FP3210.6TFlops6.8TFlops4.29TFlops
FP645.3TFlops213GFlops1.43TFLops
搭載メモリHBM2 16GBGDDR5 12GBGDDR5 12GB
メモリ帯域720GB/sec288GB/sec288GB/sec
メモリインターフェース4096-bit384-bit384-bit
L2 cache4MB3MB1.5MB
TDP300W250W235W


今回発表されたのはHPC向けのTeslaのみですが、コンシューマ向けとなるミドルレンジ向け“Pascal”についても若干触れられています。

Mid-range "Pascal" GPUs Stick to GDDR5-class Memory(techPowerUp!)
NVIDIA’s mid-range “Pascal” GPUs will utilize GDDR5-class memory(VR-Zone)

NVDIAのCEOであるJen-Husn Huang氏がそのミドルレンジ向け“Pascal”が搭載された基盤を手にしていますが、おそらくはMobile向けか組み込み向けのモジュールでと考えられ、2基のGPUのMXM基板(?)が搭載されたものとなっているように見えます。そしてGPUコアと思われるチップの周囲にはHBM 2ではなく、GDDR5系列のメモリが搭載されていることがわかります。あまり鮮明な写真ではなく、基板も特殊なもののため読み取りづらい点も多いですが、今回Jen-Husn Huang氏が披露した「ミドルレンジ向け“Pascal”」はいわゆる自作PCユーザーが一般的に目にするグラフィックボードという形態ではないことだけはわかります(・・・NVIDIAはこの手の基板の披露にしばしば変なものを出してくることがあり、これが本当に「ミドルレンジ向け“Pascal”」であるのか?という疑問もあるが)。



PCパーツの通販は・・・
ソフマップicon 1's TSUKUMO ネットショップ ドスパラ パソコン工房

コメント
この記事へのコメント
152048 
ECCについてはリンク先のリンク先のnVIDIA公式の情報で言及されておりました。
しかし、DGX-1が6月出荷となりますと、そこそこGP100は数が揃っているのかな。発表内容でもTeslaに力を入れているので、TITANになって降りてくるのは確かに遅くなるかもしれないですね。後は、DualGPUボード上のGPU同士をNVLink接続した場合の性能向上がどうなるか気になります。(グラフィックでは無い用途のスライド上のスコアではほぼ倍増していたようなので。)
2016/04/06(Wed) 23:22 | URL | LGA774 #-[ 編集]
152049 
SPそんなに増えてないのを周波数上げてカバーか
この方式って過去そんなに良かった記憶がないけどなあ
2016/04/06(Wed) 23:26 | URL | LGA774 #-[ 編集]
152050 
これが本当にスペック通りの性能を発揮できるなら凄いわくわくするな

ただ16nmプロセスでダイサイズ610平方mmって歩止まりどうなるんだろ……そっちのほうも気になる
2016/04/06(Wed) 23:45 | URL | LGA774 #-[ 編集]
152051 
一目で見てコレ高いヤツやって分かる高級バスいいよね・・・
2016/04/07(Thu) 00:53 | URL | LGA774 #-[ 編集]
152054 
手に取ってるやつは車に搭載するヤツやで
2016/04/07(Thu) 03:50 | URL | LGA774 #-[ 編集]
152056 
単純にGP100を10分割してみると
CUDA 360くらいで1300M駆動の30Wですね。
同スペックGT740くらいからすると1.3倍駆動で消費電力半分か。
はよミドル、ローにもPascalきてな~。
2016/04/07(Thu) 05:03 | URL | LGA774 #-[ 編集]
152059 
HBMをこんなTDPのチップと一緒にして大丈夫なのか?
リファレンスから水冷で来たらAMDのも一緒でやっぱり熱に弱いんだって思っちゃうが。
2016/04/07(Thu) 08:15 | URL | LGA774 #-[ 編集]
152060 
610mm2の正方形だと300mmウエハでは90個かそこらしかパターンが載らない。
SMを4基disableにしてるそうだけど、仮に歩留が良くても生産には随分時間がかかるね。
2016/04/07(Thu) 08:22 | URL | LGA774 #-[ 編集]
152063 
この単精度性能で本当にゲーム向けに適したものになるのかというのが疑問だな
単精度が1.5倍程度の割にTDP爆増してるし
MaxwellはOC余地が山ほどあったけどBoost1500じゃもうそんなに回らないと思うし
2016/04/07(Thu) 12:13 | URL | LGA774 #-[ 編集]
152064 
何でHBM2なのに帯域1TB/secじゃないん?
2016/04/07(Thu) 17:55 | URL | LGA774 #-[ 編集]
152065 
んー...
まぁ順当な上がり幅だなー...
と思いたいが

むしろ色々な意味で悪化してないかこれ?

Keplerからコア増量して、メモリ帯域を2倍ちょっとまで上げて
クロックもほぼ倍増してTDPは1.25倍でこの伸び幅はちょっと・・・
2016/04/07(Thu) 20:52 | URL | LGA774 #-[ 編集]
152067 
>何でHBM2なのに帯域1TB/secじゃないん?
そこ含め車おじさんがきれいに概要まとめてくれたぞ
http://www.4gamer.net/games/251/G025177/20160407104/
2016/04/08(Fri) 00:26 | URL | LGA774 #-[ 編集]
152068 
コア数思ったより少ない…
2016/04/08(Fri) 04:29 | URL | LGA774 #-[ 編集]
152069 
SPが思ったより少ないのは、100の回路を80%稼働させるより、80の回路を100%稼働させようって方針みたいな?
GM200とGK110はスペックでは10%くらいしか変わらないのが、実際は50%くらい向上したし
Maxwellベースだけど改良が加えられてるから、実際は1.5倍よりもう少し性能向上を期待できるかな?
2016/04/08(Fri) 04:31 | URL | LGA774 #-[ 編集]
152070 
SM54基じゃなくて56基っすよ
2016/04/08(Fri) 11:39 | URL | LGA774 #-[ 編集]
152077 
GP100ではFP16がFP32の倍速で計算できるようになったそうだよ。
FP64もGK110の4倍。これはかなり大きな進歩といえるだろう。
どちらも全然ゲーム向きの機能じゃないけどね。
2016/04/09(Sat) 07:55 | URL | LGA774 #-[ 編集]
152079 
>>何でHBM2なのに帯域1TB/secじゃないん?
>そこ含め車おじさんがきれいに概要まとめてくれたぞ
メモリチップは1TB/secだけどGPUの方で安全マージンが取れなかったという事かな?
いくらJEDECに仕様が公開されているとはいえ借り物のメモコンでいきなり全力出せるほど甘くはないか
GF100の時と同じように…
2016/04/09(Sat) 12:19 | URL | LGA774 #-[ 編集]
152085 
HBM使えたのか...まあ未だRADEONしかコンシューマー向けでHBM使えるやつないし、まだRADEONは大丈夫かな。
2016/04/09(Sat) 23:30 | URL | LGA774 #-[ 編集]
152096 
単精度のトランジスタ辺りの効率がkeplarまで下がりそう。
GP104以下はグラフィック向けに作ってるならいいけど、またプロセス停滞するのを見越してもう一世代出すためにわざと効率下げようみたいにはなって欲しくないな。
2016/04/11(Mon) 03:58 | URL | LGA774 #-[ 編集]
152098 
これはHPC向けですし、HBM2がまだ出始めであることを考えると、マージンを取っているのはメモリの方だと思いますよ。昔もVRAMをマージン取って使ってる例はよくありました。
2016/04/11(Mon) 08:41 | URL | LGA774 #-[ 編集]
152103 
どこかのHPにも書いてあったけど初採用のHBM2のクロックは低く設定してるそうですわ。
2016/04/12(Tue) 05:24 | URL | LGA774 #-[ 編集]
152116 
これ完全にHPC向け,しかも今流行りの機械学習向けだからゲーム用(GeForce)はMaxwellベースでGDDR5のままなのでは・・・
プロセス停滞を見越して,あるいはMaxwellの大成功を貯蓄として今回はゲーム用は力入れないとかはありそう.
2016/04/14(Thu) 00:24 | URL | LGA774 #-[ 編集]
コメントを投稿する(投稿されたコメントは承認後表示されます)
URL:
Comment:
Pass:
秘密: 管理者にだけ表示を許可する
 
トラックバック
この記事のトラックバックURL
http://northwood.blog60.fc2.com/tb.php/8506-cbb73673
この記事にトラックバックする(FC2ブログユーザー)
この記事へのトラックバック