最近の話題 2010年6月26日

1.CPU vs. GPU: Intelのオウンゴール

  2010年6月21日から23日にかけてフランスのSait-Maloで開催されたISCA 37で,Intelは,"Debunking the 100X GPU vs. CPU Myth: An Evaluation of Throughput Computing on CPU and GPU"と題する論文を発表しました。

  IntelのCore i7とNVIDIAのGTX280を対象に14種の科学計算プログラムで,GPU,CPUともに最適化されたコードで性能比較を行っています。GPU派の人の やる比較は,GPU用に最適化されたチップ全体の結果と,CPUは1コアでコンパイラ最適化程度の場合の比較で,CPUの全コアを使って最適化した結果との比較ではないことが多いので,このように両者を最適化した比較は貴重で,この論文がISCAに採択されたのは理解できます。

  発表者の意図は,GPGPUはCPUの100倍も速いと言われているが,実際はそんなに速くないということを明らかにすることなのですが,その結果はGPUの方が平均で2.5倍,最大で14.9倍速いという結論です。確かに100倍速いというのは正しくないということを示したのですが,平均2.5倍でも十分速いので, 一般の受け止め方はやっぱりGPGPUの方がのかとなってしまい,これはIntelのオウンゴールではないかという見方が一般的です。

  また,最新のFermi PUではなく,2年前に発売されたGTX280と,7か月前に出したCore i7を比較しており不公平という非難もありますが,昨年11月の論文締切の時点では,Core i7は発売直後なのに対して,Fermiは発売されていなかったので,Fermiを使えなかったのはやむを得ません。

2.AMDがFireStream 9350,9370を発表

  2010年6月23日にAMDはGPGPUを使う計算アクセラレータであるFireStream 9350と9370を発売と発表しました。グラフィックス向けには既にHD 5870として発売されているGPUですが,これを計算アクセラレータ製品であるFireStreamでも提供するという発表です。

  製品としては9350と9370があり,9350は単精度のピーク性能が2TFlops,倍精度が400GFlopsで,2GBのGDDR5メモリを積んで150Wの消費電力です。一方,9370は単精度2.64TFlops,倍精度528GFlopsで,メモリ4GBで225Wとなっています。

  HD5870はクロックが850MHzですが,この性能から見ると,9370は825MHzにクロックを落としているようです。また,2010年6月23日のThe Registerによると,9350は2個のSIMDコアを殺して18SIMDコアとして,クロックも700MHzに落としているとのことです。また,メモリクロックは9370は1.15GHz,9350は1GHzだそうです。そして,9370のお値段は$1,999となっています。

  NVIDIAのTesla 20はメモリ容量とバンド幅を7/8に落としてECCをつけるというオプションがありますが,こちらはそういう高信頼性機構はありません。実装形態としては,9350,9370もNVIDIAのM2050 ,M2070と同様に,大型のフィンを付けたパッシブ空冷タイプです。

3.AMDがOpteron 4000シリーズを発表

  2010年6月23日にAMDは大型データセンター向けと銘打ったOpteron 4000シリーズプロセサを発表しました。

  4コアと6コアの製品がありますが,4コア2.2GHzクロックの4122は$99と,AMDのサーバ用プロセサとしては初めて$100を切った価格での発売というのがポイントです。Intelのサーバプロセッサの最低価格は$167なので, これと比較すると4割安く,大量に使うデータセンターでは,相当な違いになります。

  また,6コア低電力版の4162 EE,4164 EEは,クロックは1.7GHzと1.8GHzですが,消費電力32Wと,コアあたり6W以下という低消費電力というのがもう一つのポイントです。

  もちろん,これ以外にも50Wと75Wで,2.2GHz〜2.8GHzの製品もあります。

4.TileraとQuantaが512コアサーバを発表

  2010年6月22日のThe Inquirerが,TileraとQuantaの512コアのS2Qサーバの発表を報じています。

  このサーバは,TileraのTilePro64プロセサを2チップ搭載した小型のマザーボード 4枚を2Uの筐体に収容しています。先週の話題で,SeaMicroのAtomベースの512コアサーバを紹介しましたが,これは10U筐体であるのに対して,こちらは2Uなので,性能は別としてコア密度では5倍ということになります。高密度の理由は,TilePro64は,その名の通り64コアのプロセサなので8チップで512コアになるからです。

  TilePro64については2009年9月27日の話題で紹介していますが,64コアを8x8のアレイに並べて,2次元のメッシュであるiMeshインタコネクトで接続したプロセサで,各コアは16KBのL1D$と64KBのL2$を持ち,L2$は全コア分が纏まって4MBのキャッシュとして動作するという構造になっています。そして4チャネルのDDR2コントローラを内蔵しています。また,PCI Express,10G Ethernet,Flexible I/Oをそれぞれ2チャネル内蔵しています。

  S2Qサーバでは各CPIUチップに8枚のDIMMスロットを持ち,4GB DIMMを使うと,256GBを搭載することができます。そして,S2Qは 最大24本の2.5インチディスクを内蔵することがきます。

  ディスクを除いたプロセサ部の消費電力は負荷が重い状態で400Wとなっており,やはり,SeaMicroのSM10000よりかなり低電力です。

  そして,TilePro64のクロックは0.9GHzと,SeaMicroの1.6GHzクロックのZ530に比べてクロックが低く,また,コアの面積も小さいので,コアあたりの性能 は低いと思われますが,それでも体積あたりの性能や電力では,SeaMicroのサーバを上回る可能性は十分にあります。但し,SeaMicroの製品はIntelアーキで従来のx86ベースのプログラムがそのまま動くのが売りですが,Tileraは独自アーキなので,全てのアプリはリコンパイルが必要となります。

  なお,Quanta(広達電脳)は台湾の大手のODMで,サーバやPCの設計から製造を手広く手掛けており,世界中のメーカーにサーバやPCを供給しています。

  このTilePro64は2007年のHotChipsで発表され,その時点で既に出荷を開始していたので90nmという今では時代遅れのプロセスを使っているのですが,Tileraは既にTSMCの40nmプロセスを使う100コアのTile-Gx100プロセサを発表しており,2011年2Qから出荷予定となっています。また,2013年頃にはTSMCの28nmプロセスを使って200コアの製品を予定しているとのことです。

@757260

inserted by FC2 system