最近の話題 2010年11月20日

1.Top500首位は,やはり天河一号Aシステム

 10月30日の話題でも予想を紹介したように, 2010年11月14日に発表された第36回Top500で,中国の国防科学技術大学が開発した天河一号Aシステムが,2.66PFlopsを達成し1位になりました。Xeon 5670のデュアルソケットのサーバにNVIDIAのM2050 GPUを接続したノードを7168ノードという構成ですが,Top500の構成では8コアのFT-1000という記述がついています。

 中国国内で行われているTop100では,Xeon 5670とM2050のほかにFT-1000が2048個という記述があり,これが自前の「飛騰」プロセサのようです。しかし,4.701PFlopsというピーク性能と186368コアというTop500の記述はXeonとM2050の性能とコア数と一致するので,FT-1000プロセサは使われていないようです。なお,中国のTop100ではFT-1000の分の16384コア多いコアカウントになっています。

 そして前回トップと2位のJaguarと星雲が1ランク後退し,4位に東工大のTSUBAME2.0が入りました。LINPACK性能は1192TFlopsで,星雲の1271TFlopsに及びませんでした。ピーク比率という点では,天河一号Aが53.3%に対してTSUBAMEは52.1%と若干,負けています。ただし,天河一号Aの方がCPUの比率が多いのでCPUリミットになっている部分の実行時間を短縮できる可能性があります。また,東工大の遠藤先生は,フルシステムでの測定は4日しかとれず,十分なチューニングが出来なかったと言っておられました。

 5位には1.054PFlopsでローレンスバークレイ国立研究所に入ったHopperというCray XE6システム,先週紹介したフランスのTera-100は1.050PFlopsで僅差で6位になりました。そして,かつて1位であったRoadrunnerが1.042PFlopsで7位になり,ここまでが1PFlops超えのシステムです。

 LINPACK性能だけがスパコンの性能ではありませんが,地球シミュレータ以降,Top10に入った日本のシステムはTSUBAME1と2しかない訳で,東工大の頑張りは評価されるべきだと思います。

 それから,あまり話題になっていませんが,今回のTop500では115位にBlue Gene/Qのプロトタイプ,170位に日本の京コンピュータの一部システムがランクインしています。どちらも性能/電力の高いシステムで,次のGreen500では上位にランキングされています。

2.Green500首位は,Blue Gene/Qプロトタイプ

 消費電力あたりのLINPACK性能でランキングを行うGreen500ですが,今回のGreen500の首位は1684.2MFlops/Wとぶっちぎりの高効率でBlue Gene/Qのプロトタイプが獲得しました。このBG/Qは2012年の完成と言われている20PFlopsのSequoiaシステムに使われる予定です。

 そして第二位は東工大のTSUBAME2.0で958.35MFlops/Wです。3位はNCSAのCore i3とNVIDIAのC2050のクラスタで,第4位に部分稼働したK Computerの828.67MFlos/Wが続いています。

 ということで,大規模なフルシステムの完成は2012年になるのですが,汎用CPUを使っても,GPUを使う2位,3位のシステムと見劣りのしないLINPACK性能/電力が実現できています。

 また,Flops/Wで比較すると小規模なシステムの方が有利なので10位までのうちの7システムが100kW以下の小規模システムですが,その中で1243.8kWのTSUBAME2.0が2位になっているのは大したものです。

3.NVIDIAがECHELONプロジェクトのプロセサ構想を発表

 2010年11月17日のEE Timesが,SC10の基調講演でNVIDIAのチーフサイエンティストのBill Dally氏が,同社が契約したDARPAのExascaleプロジェクトに向けたプロセサの構想を発表したと報じています。DARPAの契約に関しては8月14日の話題で紹介しています。

 基調講演で示された構成は,8CUDAコアのSMを128個収容し,ピーク性能は10TFlopsと書かれています。各コアは4浮動小数点演算となっているので,4096演算/サイクルです。これで10TFlopsを実現するにはクロックは2.44GHzとなります。

 これは現在のFermiの2倍のコア数で,クロックは2倍強,そして現在の倍精度浮動小数点演算は2サイクルに1回 であるのを1サイクルに1回に引き上げる必要がありますが,半導体の進歩を考えると,頑張れば可能なレベルと思います。

 しかし,GPUはCPUが無いと動きません。ということで,このEE Timesの記事に載せられた図にはLC0〜7という8個の汎用CPUコアが書かれています。NVIDIAが現在使えるのはARMですが,これで行けるのかどうか興味があるところです。また,この図を良く見るとチップの性能は20TFlopsとなっているのですが,EE Timesの記事は何故,10TFlopsになってしまったのでしょうかね。ただし,20TFlopsになるとCUDAコアあたり8演算にするかクロックを倍増する必要があり,かなり大変そうです。 

4.ZT SystemsがARMベースのサーバを発表

 2010年11月19日のEE Timesが,ニュージャージ州のZT Systemsという会社がARMベースのサーバを発表と報じています。 ZT Systems社はx86ベースのカスタムのサーバなどを製造,販売し,年間$400M程度を売り上げている中堅どころのメーカだそうです。

 今回発表したサーバは1U筐体にSTMicro製のSpear 1310という600MHzクロックのARM Cortex A9のデュアルコアのチップを最大8個搭載し,消費電力は80Wとなっています。各プロセサチップには1GBのDDR3メモリとNAND Flash,そしてGbEとUARTが装備されており,マザーボードに搭載された2個のEthernet SWで8個のプロセサと外部を接続しています。

inserted by FC2 system