最近の話題 2012年6月23日

1.SequoiaがTop500の1位を米国に奪還

   2012年6月14日に,ハンブルグで開催中のISCで第39回のTop500が発表されました。予想されたことですが,Lawrence Livermore国立研究所のSequoiaと呼ぶBlue Gene/Qのシステムが1位となり,暫くぶりに米国にトップを奪還しました。

  このシステムは1572864コアとなっており,16コアのBG/Qチップを98304個使用してます。そして,ピーク性能20.13PFlopsで,LINPACKでは16.32PFlopsを実現しています。2位に後退した「京」は10.51PFlopsで,約1.6倍の性能ですから,年率2倍くらいの性能向上ペースに乗っています。

  消費電力は7.89MWで,京の12.66MWから比べるとかなり少なく,2069.04MFlops/Wと京の830.18MFlops/Wに比べて2倍以上の電力効率となっています。ピークFlopsに対するLINPACK性能の比率は81%で,Blue Gene系としてはこんなものでしょう。

  Sequoiaは96筐体のシステムですが,その半分の48筐体のArgonne国立研究所のMiraが3位に入っています。そして,ドイツのLRZのSuperMUCと呼ぶIBMのiDataPlexを使う3.185PFlopsのシステムが4位に入っています。京の前に1位であった中国の天河1Aは,今回は5位です。そして6位は,その前に1位であった,Oak Ridge国立研究所のJaguarです。

  7位はイタリアのFermiと呼ぶ20筐体のBG/Qシステムです。8位はJuQUEENと呼ぶドイツのFZJの16筐体のBG/Qシステム,9位はCurieと呼ぶフランスのBullのシステム,そして10位は中国の曙光の星雲システムです。

  このようにトップ10の設置国では,米国が3,日本が1,中国が2,ドイツが2,イタリア,フランスが1と言ったところで,メーカー別では,IBMが5,富士通,CRAY,国防科技大,Bull,曙光が各1となっています。

  そして今回は20位までが1PFlopsを超えています。

  日本のシステムでは,京が2位,Bull製の六ヶ所村のHeliosが1.237PFlopsで12位,東工大のTSUBAME2.0は14位,東大のOakleaf-FXが18位,高エネ研のBG/Qが36位,筑波大のHA-PACSが41位,東北大の日立のSR16000のシステムが70位,Camphorと呼ぶ京大のCRAY XE6システムが73位,原研の富士通製のBX900クラスタが84位というのが100位までにランクインしており,500位までに合計35システムが入っています。その中で,手作り系では,AMDのRadeon GPUを使う長崎大のDEJIMAクラスタが61.4TFlopsで496位と辛うじてTop500にランクインしています。

  なお,6位のJaguarはTitanへのアップグレードが行われており,次回の11月のTop500には入ってくる可能性があります。ピーク性能は20PFlopsと言われていますが,NVIDIAのGK110 GPUを搭載する計画で,その性能と搭載個数によっては,20TFlopsを上回り,Sequoiaのトップを脅かす可能性もありそうです。

2.IntelのKnights Cornerは54コア

  2012年6月19日にIntelはMICと呼んでいたメニーコアチップをXeon Phi(ジーオン ファイ)というブランドで,今年の後半に商用化すると発表しました。

  Knights Cornerというコードネームで開発されてきた最初のXeon Phiチップを,アクセラレータとして使うIntelのスパコンが,今回のTop500で150位にランクインしました。Discoveryと呼ぶこのシステムは,総コア数が9800,アクセラレータのコア数が7560で,全体のピーク性能は180.992TFlopsです。CPUはXeon E5-2670で,アクセラレータはMICとなっています。

  そして,LINPACKで118.6TFlopsを出して,150位となっています。このシステムの消費電力は100.8kWです。

  これらのデータから推測すると,MICチップ(Knights Corner)を180140個使用し,各チップは54コアでクロックは1.111GHzと考えられます。チップのピーク演算性能は0.96GFlopsで,Intelの発表の1TFlopsには少し足りませんが,まあ,それに近い性能で,コア数もIntelのいう50コア以上に合致します。

  もっとも,この数字はDiscoveryという試作的なスパコンでの数字で,製品版ではチップあたりのコア数やクロック周波数は,多少変動があり得ると思われます。

3.ISC2012の学生クラスタコンペティションは清華大学が優勝

  ハンブルグで開催されたISC2012について,2012年6月21日のHPC Wireが記事を載せています。それによると,今年の参加者は2403人で,過去最高とのことです。

  このところSCやISCで人気が高まっているのが,学生のチームによる性能競争のクラスタコンペティションです。学生6人のチームで外からの助言などは禁止,電力はSCの場合は120V 26Aがリミットで,その範囲内ならばどんなマシンや構成を使っても良い(ただし,スポンサーが用意してくれる必要がある)。そして,LINPACKとその他の数種のアプリケーション (入力データは開始時に公開される)の実行という問題が出され,規定の時間内に最高の性能を出したチームが優勝ということになります。

  HPCWireの記事によると,今回のISC2012での優勝は北京の清華大で,2.65TFlopsというLINPACKの最高スコアを出したのは同じく中国の国防科技大(NUDT)とのことです。中国全土から選抜されたこの2チームはやはり強力で,コロラド大とSUNYの米国チーム,地元のカールスルーエ工大は 及びませんでした。

  昨年11月のSC2011では,ロシアのNizhni Novgorod州立大が1.926TFlopsを出してLINPACKの最高スコアだったのですが,今回のNUDTのスコアは,これを37.6%上回っています。 なお,SC2011での優勝は台湾の国立清華大で,2010年に続いての2連勝でした。

4.HPのGeminiは,まず,IntelのCentertonを使用

  2012年6月19日のEETimesが,HPがProject Moonshotという名称で開発している低電力サーバは,Geminiシステムという名称で,このシステムには各種のCPUがカートリッジとして搭載できるようになっていますが,最初に商品化されるのはIntelのデュアルコアAtomのCentertonであると報じています。

  CentertonはAtomコアを2個搭載し,サーバ用なので,仮想化やメモリのECCなどをサポートし,その他に各種I/Oインタフェースなども集積したSoCになっています。そして,TDPは僅か6Wです。

  HP社内では,Project MoonshotのWebサーバは,このCentertonを使う1台のGeminiシステムで動いており,300ユーザの同時接続で,同時に2500ページのアクセスをサポートして,消費電力は12〜14Wとなっているとのことです。これを従来のXeonサーバ を使うと150W位を消費するので,大幅な改善です。

  HPはCalexedaのARM SoCを評価していることを明らかにしていますが,ARMは,あるワークロードには良いが,まだ,Atomに比べて適用範囲が狭いと考えており,最初に商品化するGeminiはAtomベースになるとのことです。

  また,Cntertonの後継は22nmプロセスを使いAvotonと呼ばれると,2012年6月21日のThe Inquirerが報じています。

5.IntelがVLSIシンポジウムで22nmプロセスを発表

  2012年6月15日の日経Tech-On!がVLSIシンポジウムでのIntelの22nmプロセスの発表を報じています。

  Intelは,2008年のIEDMで32nmプロセスを発表しており,従来のペースから行くと,2010年の12月のIEDMで22nmプロセスを発表するのですが,FinFETの情報を社外に出したくないのか,2011年のIEDMでも発表はありませんでした。今年の2月のISSCCではIvy Bridgeを発表したのですが,ISSCCは回路の学会で,22nmプロセスについては,今回のVLSIシンポジウムが初ということになります。

  Intelの22nmプロセスはFinのピッチが60nm,M1が90nm,M2が80nmとのことです。M2の方がピッチが狭いのはFinがあることが関係しているのでしょうかね。露光はArF液浸の2重露光となっています。SRAMセルのサイズは0.092um2とのことで,32nmの0.171um2の半分にはなっていませんが,露光も苦しいところでは,まあ妥当と言う感じです。

  ゲート長はHP用が26nm,MP,SPが30nmとなっており,HP用でも22nmにはなっていないようです。Finの高さは34nmで,断面写真を見ると衝立ではなく,3角形に見えます。Finの厚みは中央付近で8nmとなっています。ゲート絶縁膜 厚はSiO2換算で0.9nmとなっています。

  元々,IntelのTri-Gateという名称はFinの両サイドと上の3面をチャネルに使うからTri-Gateであった筈ですが,この3角の断面のFinでは2面しかないので,Tri-Gateは作りようがありません。

  それはともかく,Finが完全空乏化するので短チャネル効果が抑制でき,サブスレッショルドスロープがnMOSでは69mV/dec,pMOSでは72mV/decに改善したと書かれています。このため,閾値電圧を32nmに比べて0.1V低減できたとのことです。

  そして,pMOSはSiGeで歪を掛け,nMOSも歪を掛けており,飽和電流はnMOSは1.26mA/um,pMOSは1.1mA/umとなっています。ただし,この値が電源0.7Vのものか0.8Vのものかは記事では明確に書かれていません。

  これにより,電源電圧が0.7Vの動作では32nmと比べて37%リングオシレータの性能が向上したとのことです。

  また,1〜6層の絶縁物をULKにして寄生容量を12〜18%削減しており,セル面積0.108um2の380MbitのSRAMは,0.8Vの電源で3.4GHzクロックで動作すると書かれています。

 

inserted by FC2 system