北森瓦版 - Northwood Blog (Author : 北森四葉. Since July 10, 2006.)
NVIDIA Pascal based GP100 GPU to boast of 12TFLOPS SP & 4 TFLOPS DP performance(VR-Zone)
NVIDIA Pascal GP100 targeting 12 TFLOPs in Single Precision computing performance(VideoCardz)
NVIDIA GP100 Silicon to Feature 4 TFLOPs DPFP Performance(techPowerUp!)
Nvidia Slide reveals numbers on Single and Double precision for Flagship Pascal GPU(Guru3D)

CUDA Fellow Manual UjaldonよりリークしたNVIDIAのプレゼンテーション資料にNVIDIAの次世代GPUである“Pascal”―GP100の演算性能が記述されていた。これによるとGP100の演算性能は単精度12TFlops、倍精度4TFlopsとなる。

このスライドには歴代のNVIDIA GPUに加えてIntelのXeon Phi、AMDのRadeon HD 7970の演算性能とメモリ帯域が記載されています。
 
演算性能メモリ帯域
NVIDIA PascalSP:12TFlops
DP:4TFlops
1024GB/s
Tesla K20X (GK110)SP:3.95TFlops
DP:1.31TFlops
250GB/s
Tesla M2090 (GF110)SP:1.331TFlops
DP:665GFlops
177GB/s
Intel Xeon PhiDP:1.024TFlops300GB/s
Radeon HD 7970DP:1.01TFlops288GB/s


“Pascal”の項目にはwith Stacked 3D DRAMと記載されており、ここで示されている“Pascal”が最上位のGP100であろうことは間違いないでしょう。またGP100が3次元積層DRAMを搭載することも改めて確認された形となります(HBM 2であろう)。

GP100の場合倍精度浮動小数点演算性能は単精度浮動小数点演算性能の1/3となっています(GF110 (Fermi) は1/2. GK110 (Kepler) は1/3、GM200 (Maxwell) は1/32)。そしてこの演算性能の数字からGPUの周波数とCUDA core数の予想がされています。12TFlopsを実現する周波数とCUDA core数の組み合わせは無数にあるものの、最も考やすい構成として周波数1000MHz、CUDA core数6144という数字が挙げられています。この予想は“Pascal”が“Maxwell”と同様の構成でCUDA coreが128基で1ユニットを構成するという前提の元に成り立っています。そしてCUDA core数6144の場合はユニットは48となり、いかにもそれらしい数字が出てきます(他には850MHzでCUDA core数7168・ユニット数56、あるいは周波数1200MHzでCUDA core数5120・ユニット数40という組み合わせも予想としてある)。



PCパーツの通販は・・・
ソフマップicon 1's TSUKUMO ネットショップ ドスパラ パソコン工房

コメント
この記事へのコメント
151469 
最新世代と比較しない辺りあれよね
帯域辺り演算性能もkeplarより上でもfermiより下がってるぞ
2016/02/20(Sat) 18:21 | URL | LGA774 #-[ 編集]
151472 
DPに振っちゃったから
Maxwellのアドバンテージは最早ないと思って良さそうだな
2016/02/20(Sat) 20:52 | URL | LGA774 #-[ 編集]
151473 
むしろ、GP110以下のモデルがGP100同様の倍精度性能を持ってくるかどうかが気になるところです。
ハイエンドでは倍精度は必要でも、普通のGPUとしては使われず、ディープラーニングとかでも半精度の方が重視されてる現状、無駄な倍精度に機能を振るのかどうか。
2016/02/20(Sat) 20:58 | URL | LGA774 #-[ 編集]
151474 
2014年4月開催のワークショップで使用されたスライドに同じ画像が載ってる件
http://gpu.cs.uct.ac.za/Slides.html
http://gpu.cs.uct.ac.za/Slides/Kepler2.pdf (P75,76)

で、その頃のNVIDIAはと言うと
http://pc.watch.impress.co.jp/docs/column/kaigai/20140327_641498.html
こんなシリコンインタポーザも載ってないオモチャを掲げて得意げにH・B・M!連呼とかしてたわけで、
まともに性能を語れる段階になかったのは確定的に明らか


未だにこんなガセネタしか出てこないってことは、やっぱりPascalは開発失敗してぐだぐだなんだろうな…
2016/02/20(Sat) 21:11 | URL | LGA774 #-[ 編集]
151476 
>>151473
半精度のほうが重視されてるのでなく倍精度が遅すぎるせいで
ビッグデータでは半精度で数をこなしたほうがマシというのが現実

従来高性能コンピューティングが必要とされてきた設計・解析分野では勿論
今も倍精度こそが重要なので、最上位モデル以外は数値解析に使えないなんて
開拓した市場を捨てるようなラインナップをするとは考え難い
それよりは改良Maxwell/Pascalの二本立てのほうがまだしもありそう
2016/02/21(Sun) 00:23 | URL | LGA774 #-[ 編集]
151479 
nVidiaのスライドだと Pascal≒Maxwell+mixed precision+3D memory+nVlinkと表記しててmaxwellはPascalのベースとまで書いてるからGP104とかの倍精度無し、HBM無しのPascalは半精度が速くなった16nm版maxwellと言っても過言ではないと思う。nVLinkにしても現時点で対応してるのはpowerだけで一般人には恩恵が無いし。
2016/02/21(Sun) 04:05 | URL | LGA774 #-[ 編集]
151517 
>151469 
最新世代のDPはとても低いから比べる意味がないからじゃない?
2016/02/27(Sat) 19:14 | URL | LGA774 #-[ 編集]
151565 
半精度と単精度の区別がついてないやつ多いな。
2016/03/01(Tue) 19:26 | URL | LGA774 #-[ 編集]
コメントを投稿する(投稿されたコメントは承認後表示されます)
URL:
Comment:
Pass:
秘密: 管理者にだけ表示を許可する
 
トラックバック
この記事のトラックバックURL
http://northwood.blog60.fc2.com/tb.php/8440-8c90d825
この記事にトラックバックする(FC2ブログユーザー)
この記事へのトラックバック