最近の話題 2011年11月19日

1.SC11のTop500とHPC Challengeでは「京」が完勝

  2011年11月12日〜18日にかけてシアトルでSC11が開催されました。ここで,14日にTop500が発表され,10.51PFlopsを達成した「京」コンピュータが ,予想通り,1位を維持しました。そして,15日に発表されたHPC Challengeでは,Class 1のG-HPL,EP-STREAM,G-RandomAccess,G-FFTの全4種のプログラムで「京」が1位を独占しました。

  2005年から始まったHPC Challengeで,2005年と2006年はBG/Lが1位を独占したという前例があるのですが,2007年からは全種目を制覇したシステムはなく,6年ぶりの快挙です。LINPACKは偏った評価という (某N社派の)人も,HPC ChallengeのClass 1を総舐めにしたのですから,世界トップということに異論はないと思います。

2.Gordon Bell賞も日本が独占

  そして,実アプリでの性能を競うGordon Bell賞でも,「京」を使って10万原子のシリコンナノワイヤーの電子状態を計算したという理研,東大,筑波大,富士通の共著の論文が3.08PFlopsを達成して ,Peak Performance部門のAwardを獲得しました。7月ころの測定でフルシステムは揃っておらず,ピーク性能が7.07PFlopsの状態での測定で,ピーク性能に対する効率は43.63%とのことです。この性能は,今回の候補論文の中で 最高で,予想通りの結果です。

  そして,東工大のTSUBAME 2.0を使って金属の凝固過程をシミュレーションした論文が単精度浮動小数点計算では2.0PFlopsを出し,Special Achievement in Scalability and Time-to-Solution部門のAwardを獲得しました。Special AwardはFlops性能はPeak Performance賞に及ばないが,計算の内容がScalabilityやTime-to-Solutionなどで優れて いると認められた論文に授与されます。

  今回のGordon Bell賞候補となったその他の論文は,ナノエレクトロニクス素子の解析を行うパデュー大の論文の単精度で1.44PFlops,TSUBAME 2を使って血流などの解析を行ったイタリアのConsiglio Nazionale delle Ricercheの論文が600TFlops,同じく血流の解析を行ったブラウン大の論文はBG/Pの結果とJaguarの結果の比較を行っていますが,Flops値は出していません。この3件の論文も非常に良い論文であるということで,Honorable Mentionとなりました。

  しかし,残りの3件もHonorable Mentionとなる激戦で,東工大の論文も投稿時点では単精度で1.017PFlopsだったのを,その後の頑張りで発表時には2.0PFlopsに引き上げたのが,効いているのではないかと思います。

  なお,コストパフォーマンスを競うカテゴリの論文は候補に残らず,この賞は今年は対象なしになりました。

  ということで,「京」やTSUBAME 2.0は単にLINPACK性能が高いだけでなく,アプリケーションでも高い性能が出せることと,日本でもこれらのスパコン用の高性能のアプリが作れることを示したことになります。もちろん,これらの 2つのアプリが出来たからと言って,どんなアプリでも高い効率がうまく出せるということではありませんが,少なくとも今回受賞したことは単なるベンチマーク狙いのマシンではないことを証明しています。

  しかし,世界でもトップクラスの「京」のハードが完成し,Top500で1位を取ったら目的達成とばかりに事業仕訳で運営費を削るのは違和感があります。折角,多額の予算を使ってシステムを作ったのに,それを使って成果を出すための予算が不足するようでは,何のために作ったのか分からなくなり,これこそ本当の予算の無駄遣いです。

  なお,Gordon Bell賞への応募論文は25件以上あり,中国からも少なくとも2件の応募があったようですが,これらは候補に入らなかったということになります。

  ということで,Top500,HPC Challenge,Gordon Bellと今年のSC11での表彰は日本イヤーになりましたが,来年は米国の10〜20PFlopsクラスのマシンが動き始めるので,このようなわけには行かないと思われます。また,中国も自前で1PFlopsクラスのマシンを作り,今回は 候補に入らなかったとはいえ,Gordob Bellに論文を出すというように力を付けてきているので,油断はできません。

3.中国の神威藍光(Sunway Bluelight MPP)

  11月5日の話題で紹介した神威藍光ですが,LINPACKで795.9TFlopsを出しTop500で14位にランクインしました。

  ピーク性能は1070.16TFlopsで,137200コアとなっているので,1コアあたり7.8GFlops,クロックは0.975GHzという計算になります。消費電力は1074kWとなっており,チップあたり46.2Wですが,これはインタコネクトやメモリも含んだ値なのでCPUだけだと30W位ではないかと思います。クロックが遅いとはいえ16コアなので「京」のSPARC64 [fxと同じ程度のFlopsを,65nmという1世代古いプロセスで,より少ない電力で実現しています。どのようにして,これが可能になっているのかは興味があるところです。

  今回,China Computer FederationのTechnical Committee of HPCという団体がブースを出しており,現物はなかったのですが,説明のパネルが2枚展示してありました。

  それによると神威藍光は全体が11筐体で,そのうち9筐体が計算ノードになっています。13720コアを16コアで割ると8575チップですが,パネルでは8704 CPUとなっています。また,8704を使うと筐体あたり967チップですが,パネルでは1024チップ搭載となっています。かなり大型の筐体ですが,1024CPU搭載はBG/Qと同じCPU個数で非常に高い実装密度です。

  11月5日の話題で紹介したように計算ノードは水冷で,写真などはありませんでしたが,説明員に聞いたところ,コールドプレートを2枚の計算ボードの間に挟む構造だそうです。京はCPUとICCだけが水冷で,DIMMや電源などは空冷ですが,神威藍光は全て水冷で,空気は流さなくても良いとのことでした。ただし,ネットワーク用の2筐体(接続はFat Tree)は空冷だそうです。11月5日の話題では,小柳先生の情報として8℃の水で水冷と書きましたが,展示してあるパネルには入口が13℃,出口が16℃とありました。展示員に聞いたところでは,入り口は10℃〜16℃とのことで,13℃+/−3℃という感じです。

  ここの展示員は他のブースの情報収集に忙しいのか,2〜3度行ってもブースは無人で,3日目にやっと捕まえて質問することができました。

4.Green500のトップはBG/Qが守る

  Green500は1位から5位までをBG/Qが独占しました。昨年 のBG/Qは小規模なシステムでしたが,今回は消費電力が340kWでTop500で17位の4筐体のシステムが4位にはいっています。そして,第5位が長崎大学のGPUを使う出島クラスタ となっています。

  また,100kWを超えるシステムではフランスのGENCIのCurieハイブリッドシステムが8位,NVIDIAのC2050を使う中国のMole-8.5(Top500 21位)が9位,そして1.2438MWのTSUBAME 2.0(Top500 5位)が10位となっています。

5.Graph500はスコアが大幅に伸長

  Graph500は,4筐体のBG/Qシステムが254GTEPSを出してダントツの1位です。そして,2位がロシアのLomonosovで103GTEPS,僅差の3位が東工大のTSUBAME 2.0の100GTEPSとなっています。

  ただし,1位のBG/Qは問題サイズが32と小さく,2位のLomonosovは37,TSUBAMEは36,4位のJUGENEも37と,2〜4位はかなり大きなグラフを処理しています。

  今年の6月の時点ではLomonosovが問題サイズ37で43.5GTEPSでした。CPUチップ数は4096のままですが,6月時点では8Kコアですが,今回は32Kコアとコア数が4倍に増え,性能は2.4倍に増えています。

 

inserted by FC2 system