それがHaswellの実力だとしても

Haswellの発売から10日――
どうも。山田です。

関東GPGPU勉強会 #2にご参加いただきました皆さま、どうもお疲れ様でした。そしてありがとうございました。
大変楽しい会になりましたことにお礼を申し上げます。
Twitterのほうではなんかいろいろ呟いてますが、GPGPUもやるならXeon Phiもってことで、Xeon Phiハッカソンをやろうってことが決定しました
いかんせん、Xeon Phiに関しては情報もコードも少ないので、今回は勉強会形式ではなく、ハッカソン形式にして実際にコードを書いてもらい、それをオープンにしていくことで、Xeon Phiの実際のコードは、性能は、書きやすさは、性能の出しやすさは、なんていうことを考える一因になれば、と思っています

さて、何書こうかなーとかのんびりと書き書きとあれこれ益体のないコードを量産しておりましたら、先日こんな記事がガジェ通さんから出てまいりまして
Haswellは “失敗作” なのか? ‐炎上騒ぎに見るCPU性能の検証と考察

なかなか刺激的なタイトルだと思います
まぁ、GT2の時点でGPU側の性能を論ずるのであれば少なくともEU分を倍とかしてかんがえてあげてくれよという感じがありますね
というわけでGPU側については、GT3eが出てくるまでしばらく保留します

さて、CPUの性能はどんなもんなんでしょうか
折しもFXシリーズの新作が投入された本日、FXシリーズとHaswellの対決を噛ましてみたいと思います

NAS Parallel Benchmarkの話

一応、このベンチマークには何があるかというのを記載します。

EP 乗算合同法による一様乱数、正規乱数の生成
MG 簡略化されたマルチグリッド法のカーネル
CG 正値対称な大規模疎行列の最小固有値を求めるための共役勾配法
FT FFTを用いた3次元偏微分方程式の解法
IS 大規模整数ソート
LU Synmetric SOR iterationによるCFDアプリケーション
SP Scalar ADI iterationによるCFDアプリケーション
BT 5x5 block size ADI iterationによるCFDアプリケーション

http://mikilab.doshisha.ac.jp/dia/smpp/01_bench/naspara.html

クラスはAを使用しました。ただし、AだとISが小さすぎるのか0なので、今度はデカいのでやろうと思います

Time in seconds.

Thread FX-4100 1Thread FX-4100 4Thread i7 4770K 1Thread i7 4770K 4Thread
EP 40.79 13.73 21.47 3.24
MG 2.10 1.44 0.88 0.74
CG 1.68 1.04 0.82 0.49
FT 6.78 3.20 3.23 1.27
LU 64.44 25.19 36.68 9.83
SP 93.06 65.97 36.20 26.44
BT 123.01 86.33 65.00 36.84

Mop/s

Thread FX-4100 1Thread FX-4100 4Thread i7 4770K 1Thread i7 4770K 4Thread
EP 13.16 39.09 25.00 165.69
MG 1849.33 2700.14 4421.16 5256.33
CG 890.96 1444.51 1829.20 3032.36
FT 1052.43 2232.62 2210.37 5611.27
LU 1851.26 4736.25 3252.15 12131.55
SP 913.51 1288.60 2348.05 3215.27
BT 1368.02 1949.31 2588.84 4568.09

お、おう……
まぁこの戦いフェアじゃない。アンフェアだめっちゃアンフェアだという指摘は、なるほど確かにすいませんでしたとしか言えない。
なんでFX-4100なんだよ!せめてPiledriverのFX-8350ぐらい呼んでこいよ!!
……というお叱りはごもっともなので、Piledriverの8350を持ち出そうと思います
いや、稼働状態ではあるんですが、ちょうど別のことやっててベンチが取れないタイミング…