最近の話題 2012年11月10日

1.AMDがPiledriver 16コアのAbu Dhabiを発表

  2012年11月5日にAMDは,Piledriverコアを最大16コア搭載するOpteron 6300シリーズを発表しました。Bulldozerコアを使う6200シリーズと同様に,16コアの製品は8コアのチップを2個,パッケージに搭載するマルチチップモジュールと見られます。Piledriverコアは,8月のHot Chips 24でも発表されて います。

  Abu Dhabiは,SPECjbbベンチマークでは,BulldozerコアのInterlagosと比較すると性能で24%改善しており,性能/電力では40%改善 とのことです。

  しかし,2012年11月4日のSemiAccurateでは,この程度の改善ではIntelに太刀打ちできず,あくびが出る代物と酷評しています。

  AMDのパフォーマンスページのSPECfp_rateの結果では,16コアで2.5GHzクロックの6380のスコアが423でお値段が$1088,Intelの8コア,2.0GHzのXeon E5-2650はスコアが433で,お値段が$1107となっています。つまり,SPECfpでは,2.5GHzクロックのPiledroverコアは,2.0GHzのIntelのIntelのE5コアの半分の性能しか無いというになります。まあ,プロセサチップの定価あたりのSPECfp_rateは同程度としても,E5-2650はSandyBridgeですが,IntelはIvy Bridgeが出てきており,その次のHaswellも見えてきている状況なので,Abu DhabiがIntelのサーバプロセサに対抗するのは,SemiAccurateが言うように,かなり厳しそうです。

  また,IntelのE5は,PCI Express 3.0をCPUチップに内蔵しているのですが,SemiAccurateの記事では,Abu Dhabiのアンコアは,Interlagosと同じで,PCI Express 2.0と書いています。そうなると,AMDのサーバチップはIntelのサーバチップに比べてI/O性能も半分で, 更に厳しい戦いと思われます。

2.IntelがItanium 9500を発表

  2012年11月8日にIntelは,Poulsonのコードネームで開発されていたItanium 9500を発表しました。従来のItanium 9300の後継チップで,9300が4コアであったのを8コアに倍増し,クロックも1.86GHzから2.53GHzに引き上げることで最大2.4倍に性能を改善しています。

  製造プロセスは32nmでトランジスタ数は3.1Bとなっています。2.53GHzクロックのチップの消費電力は170Wとなり,前世代と比べると最大で8%減少し,アイドル時の消費電力は80%削減になっています。

  Xeonと比較してのItaniumの売りはRASですが,今回の9500では,SPARC64やPOWER7と同様に,エラーを検出した命令を再実行してエラーから回復するという機構が採用されています。

  なお,Poulsonは,昨年年2月のISSCCで発表されており,2011年2月26日の話題で紹介しています。

3.MIPSがImaginationに身売り

  RISCプロセサの初期から続くMIPSテクノロジは,2012年11月5日にImagination Technology社に身売りすることを発表しました。ImaginationのPowerVRは,Apple,Samsung,Intelなどが使う組み込みGPUとしてはトップシェアで,これにMIPSのCPUコアが加わると,CPUとGPUが揃い,ARMに対する競争力が強化されます。

  MIPSの保有する580件の特許の内,MIPSアーキテクチャに直結する基本の82件の特許はMIPSに残し,MIPSの他のビジネスと合わせて$60Mで,ImaginationがMIPSを吸収します。そして,残る498件の特許は,Allied Security Trustの特許買い取り機関であるBridge Crossingが$350Mで買い取ることになります。ASTは,特許がパテントトロルに買われるのを防ぐため,IntelやPhillips,ARMなど26社が運営する団体です。しかし,MIPSは売却する498件の特許についても無償の実施権を保持するとのことで,MIPSプロセサの開発には支障はなさそうです。

  全体的には,勢いのあるImaginationがMIPSを吸収し,より強力なIPライセンス会社になるのは良いことだと思いますが,Stanford大の現在の学長でヘネパタ本の著者として高名なJohn Hennessey教授らが設立したRISCプロセサの名門のMIPSの名前が消えるのは,さびしいものがあります。

4.Crayが新スパコンXC30を発表

  2012年11月8日にCrayは,Cascadeのコードネームで開発してきたスパコンをXCシリーズと名付け,その最初の製品であるXC30を発表しました。Cascadeは,DARPAのHPCSプロジェクトなどの資金を得て開発されてきたものです。

  これまでCrayは自社開発のインタコネクトでAMDのOpteronプロセサを接続するスパコンを作ってきています。インタコネクトは最初のXTシリーズではSeaStar,そして第二世代のXE/XKシリーズはGeminiですが,今回のXCシリーズはAriesという新しいインタコネクトになっています。これまでのCrayのインタコネクトのトポロジは3Dトーラスだったのですが,AriesではStanfordのDally教授 と共同開発したDragonflyトポロジが使われています。

  XC30の実装ですが,新開発のAriesインタコネクトチップを搭載したブレードに,PDCと呼ぶCPUとメモリを搭載したドータボードが2枚搭載できます。PDCには4個のXeon E5-2600が載っていますが,2個ずつがペアで1ノードを構成します。従って,2枚のドータボードで4ノードです。Ariesをから,4つのx16 PCIe3.0のポートが出ており,これに各ノードが接続されます。

  この4ノードのボードが16枚で1つのシャシーを構成し,3つのシャシーが1筐体に収容されます。つまり,筐体あたり384CPUチップで,クロックが2.6GHzのE5-2600の場合は,筐体あたり約64TFlopsになります。

   新開発のAriesは48ポートのHigh Radixルータを内蔵し,8ポートがCPU側,2030ポートがローカル接続,残りの2010ポートがグローバル接続に使われます。XC30のDragonflyトポロジですが,まず,2次元の完全結合ネットワークを作ります。 シャシー内の16枚のAriesブレード間をローカルで完全接続し,次に2筐体の6シャシー間をそれぞれ3本のリンクで完全結合します。これらの接続に2030本のローカルポートを使います。

  これがグループと呼ばれる単位で,グループは96枚のAriesブレードを含み,1920960本のグローバル接続が出ます。これを2本ペアにする4リンクまとめると,240本で,最大960240+1グループまで完全結合で接続できます。ローカル接続は電気ケーブルで5.25GB/s/dir,グローバル接続は光で4.68GB/sとなっています。

  Dragonflyは3Dトーラスよりもネットワーク半径が小さく,Fat Treeよりも距離の長い光リンクの本数が少なく,コストが安いとしています。また,Ariesはメモリのグローバルアドレッシングをサポートしており,Cray SHMEMやPGAS言語を効率的にサポートできるようになっています。

  960240グループ,192480筐体が最大システムで,2.6GHzのE5-2600CPUの場合,12030.7PFlops程度のピーク性能となります。今回発表されたのはE5-2600だけを使うシステムですが,将来,IntelのXeon PhiやNVIDIAのKeplerを搭載するシステムが出る予定で,これらを搭載するとピーク性能を更に引き上げることが出来ると考えられます。

  なお,Crayはインタコネクト部門をIntelに売ってしまったので,自社開発のインタコネクトとしてはAriesが最後になるとみられます。

  XC30は,既にいくつかの導入先が決まっており,日本では京大に入ることになります。

5.Blue Watersが試用を開始

  2012年11月8日のHPCWireが,Blue Watersスパコンが完成し,フレンドリーなユーザへの提供を開始したと報じています。Blue Watersは当初,IBMのPOWER7システムで構築が進められていたのですが,IBMが撤退し,Crayが後を引き受けることになったというシステムです。

  報道によると,このシステムは,237筐体のCrayのXE6と32筐体のXK7からなり,XK7にはNVIIDAのGK110 GPUが搭載されるとのことです。そして25PB以上のストレージが付くとのことです。

6.TACCのStampedeは2013年1月7日からフル稼働

  2012年11月9日のHPC Wireがテキサス大のTACCのStampedeシステムは,3013年1月7日からフル稼働と報じています。StampedeはIntelのE5 CPUとメニーコアのXeon Phiを使うシステムで,DELLのC8220Xサーバ6400台(12800 チップ)とXeon Phiを数千個使用すると書かれています。また,Xeon Phiの部分だけで7PFlopsを超えるという記述があります。

  Xeon Phiの性能は,1+Pflopsですから,全体で7PFlopsとなれば,使用個数は6400個で,DELLの8220Xに1個ずつと考えられます。となると,Xeon Phiの1個あたりの性能は1PFlopsを若干超えるということになります。

  今年6月のTop500で150位となったIntelのDiscoveryスパコンからの比例で計算すると,Stampedeのピーク性能は8.58PFlops,LINPACKは5.62PFlopsとなりますが,CPU,GPUのクロックが違えば,多少,変動することはありえます。この性能は,6月のランクでは4位に入る値ですが,Titan,Blue Waters,Milaなどが入ってくるので,今回は7位か8位というところでしょうか。

inserted by FC2 system