最近の話題 2012年6月23日

最近の話題 2012年6月23日

１．SequoiaがTop500の1位を米国に奪還

　 2012年6月14日に，ハンブルグで開催中のISCで第39回のTop500が発表されました。予想されたことですが，Lawrence Livermore国立研究所のSequoiaと呼ぶBlue Gene/Qのシステムが1位となり，暫くぶりに米国にトップを奪還しました。

　　このシステムは1572864コアとなっており，16コアのBG/Qチップを98304個使用してます。そして，ピーク性能20.13PFlopsで，LINPACKでは16.32PFlopsを実現しています。2位に後退した「京」は10.51PFlopsで，約1.6倍の性能ですから，年率2倍くらいの性能向上ペースに乗っています。

　　消費電力は7.89MWで，京の12.66MWから比べるとかなり少なく，2069.04MFlops/Wと京の830.18MFlops/Wに比べて2倍以上の電力効率となっています。ピークFlopsに対するLINPACK性能の比率は81%で，Blue Gene系としてはこんなものでしょう。

　　Sequoiaは96筐体のシステムですが，その半分の48筐体のArgonne国立研究所のMiraが3位に入っています。そして，ドイツのLRZのSuperMUCと呼ぶIBMのiDataPlexを使う3.185PFlopsのシステムが4位に入っています。京の前に1位であった中国の天河1Aは，今回は5位です。そして6位は，その前に1位であった，Oak Ridge国立研究所のJaguarです。

　　7位はイタリアのFermiと呼ぶ20筐体のBG/Qシステムです。8位はJuQUEENと呼ぶドイツのFZJの16筐体のBG/Qシステム，9位はCurieと呼ぶフランスのBullのシステム，そして10位は中国の曙光の星雲システムです。

　　このようにトップ10の設置国では，米国が3，日本が1，中国が2，ドイツが2，イタリア，フランスが1と言ったところで，メーカー別では，IBMが5，富士通，CRAY，国防科技大，Bull，曙光が各1となっています。

　　そして今回は20位までが1PFlopsを超えています。

　　日本のシステムでは，京が2位，Bull製の六ヶ所村のHeliosが1.237PFlopsで12位，東工大のTSUBAME2.0は14位，東大のOakleaf-FXが18位，高エネ研のBG/Qが36位，筑波大のHA-PACSが41位，東北大の日立のSR16000のシステムが70位，Camphorと呼ぶ京大のCRAY XE6システムが73位，原研の富士通製のBX900クラスタが84位というのが100位までにランクインしており，500位までに合計35システムが入っています。その中で，手作り系では，AMDのRadeon GPUを使う長崎大のDEJIMAクラスタが61.4TFlopsで496位と辛うじてTop500にランクインしています。

　　なお，6位のJaguarはTitanへのアップグレードが行われており，次回の11月のTop500には入ってくる可能性があります。ピーク性能は20PFlopsと言われていますが，NVIDIAのGK110 GPUを搭載する計画で，その性能と搭載個数によっては，20TFlopsを上回り，Sequoiaのトップを脅かす可能性もありそうです。

２．IntelのKnights Cornerは54コア

　　2012年6月19日にIntelはMICと呼んでいたメニーコアチップをXeon Phi（ジーオンファイ）というブランドで，今年の後半に商用化すると発表しました。

　　Knights Cornerというコードネームで開発されてきた最初のXeon Phiチップを，アクセラレータとして使うIntelのスパコンが，今回のTop500で150位にランクインしました。Discoveryと呼ぶこのシステムは，総コア数が9800，アクセラレータのコア数が7560で，全体のピーク性能は180.992TFlopsです。CPUはXeon E5-2670で，アクセラレータはMICとなっています。

　　そして，LINPACKで118.6TFlopsを出して，150位となっています。このシステムの消費電力は100.8kWです。

　　これらのデータから推測すると，MICチップ（Knights Corner）を~~180~~140個使用し，各チップは54コアでクロックは1.111GHzと考えられます。チップのピーク演算性能は0.96GFlopsで，Intelの発表の1TFlopsには少し足りませんが，まあ，それに近い性能で，コア数もIntelのいう50コア以上に合致します。

　　もっとも，この数字はDiscoveryという試作的なスパコンでの数字で，製品版ではチップあたりのコア数やクロック周波数は，多少変動があり得ると思われます。

３．ISC2012の学生クラスタコンペティションは清華大学が優勝

　　ハンブルグで開催されたISC2012について，2012年6月21日のＨＰＣ Wireが記事を載せています。それによると，今年の参加者は2403人で，過去最高とのことです。

　　このところSCやISCで人気が高まっているのが，学生のチームによる性能競争のクラスタコンペティションです。学生6人のチームで外からの助言などは禁止，電力はSCの場合は120V 26Aがリミットで，その範囲内ならばどんなマシンや構成を使っても良い（ただし，スポンサーが用意してくれる必要がある）。そして，LINPACKとその他の数種のアプリケーション（入力データは開始時に公開される）の実行という問題が出され，規定の時間内に最高の性能を出したチームが優勝ということになります。

　　HPCWireの記事によると，今回のISC2012での優勝は北京の清華大で，2.65TFlopsというLINPACKの最高スコアを出したのは同じく中国の国防科技大（NUDT)とのことです。中国全土から選抜されたこの2チームはやはり強力で，コロラド大とSUNYの米国チーム，地元のカールスルーエ工大は及びませんでした。

　　昨年11月のSC2011では，ロシアのNizhni Novgorod州立大が1.926TFlopsを出してLINPACKの最高スコアだったのですが，今回のNUDTのスコアは，これを37.6%上回っています。なお，SC2011での優勝は台湾の国立清華大で，2010年に続いての2連勝でした。

４．HPのGeminiは，まず，IntelのCentertonを使用

　　2012年6月19日のEETimesが，HPがProject Moonshotという名称で開発している低電力サーバは，Geminiシステムという名称で，このシステムには各種のCPUがカートリッジとして搭載できるようになっていますが，最初に商品化されるのはIntelのデュアルコアAtomのCentertonであると報じています。

　　CentertonはAtomコアを2個搭載し，サーバ用なので，仮想化やメモリのECCなどをサポートし，その他に各種I/Oインタフェースなども集積したSoCになっています。そして，TDPは僅か6Wです。

　　HP社内では，Project MoonshotのWebサーバは，このCentertonを使う1台のGeminiシステムで動いており，300ユーザの同時接続で，同時に2500ページのアクセスをサポートして，消費電力は12～14Wとなっているとのことです。これを従来のXeonサーバを使うと150W位を消費するので，大幅な改善です。

　　HPはCalexedaのARM SoCを評価していることを明らかにしていますが，ARMは，あるワークロードには良いが，まだ，Atomに比べて適用範囲が狭いと考えており，最初に商品化するGeminiはAtomベースになるとのことです。

　　また，Cntertonの後継は22nmプロセスを使いAvotonと呼ばれると，2012年6月21日のThe Inquirerが報じています。

５．IntelがVLSIシンポジウムで22nmプロセスを発表

　　2012年6月15日の日経Tech-On!がVLSIシンポジウムでのIntelの22nmプロセスの発表を報じています。

　　Intelは，2008年のIEDMで32nmプロセスを発表しており，従来のペースから行くと，2010年の12月のIEDMで22nmプロセスを発表するのですが，FinFETの情報を社外に出したくないのか，2011年のIEDMでも発表はありませんでした。今年の2月のISSCCではIvy Bridgeを発表したのですが，ISSCCは回路の学会で，22nmプロセスについては，今回のVLSIシンポジウムが初ということになります。

　　Intelの22nmプロセスはFinのピッチが60nm，M1が90nm，M2が80nmとのことです。M2の方がピッチが狭いのはFinがあることが関係しているのでしょうかね。露光はArF液浸の2重露光となっています。SRAMセルのサイズは0.092um²とのことで，32nmの0.171um²の半分にはなっていませんが，露光も苦しいところでは，まあ妥当と言う感じです。

　　ゲート長はHP用が26nm，MP，SPが30nmとなっており，HP用でも22nmにはなっていないようです。Finの高さは34nmで，断面写真を見ると衝立ではなく，3角形に見えます。Finの厚みは中央付近で8nmとなっています。ゲート絶縁膜厚はS_iO₂換算で0.9nmとなっています。

　　元々，IntelのTri-Gateという名称はFinの両サイドと上の3面をチャネルに使うからTri-Gateであった筈ですが，この3角の断面のFinでは2面しかないので，Tri-Gateは作りようがありません。

　　それはともかく，Finが完全空乏化するので短チャネル効果が抑制でき，サブスレッショルドスロープがnMOSでは69mV/dec，pMOSでは72mV/decに改善したと書かれています。このため，閾値電圧を32nmに比べて0.1V低減できたとのことです。

　　そして，pMOSはSiGeで歪を掛け，ｎMOSも歪を掛けており，飽和電流はnMOSは1.26mA/um，ｐMOSは1.1mA/umとなっています。ただし，この値が電源0.7Vのものか0.8Vのものかは記事では明確に書かれていません。

　　これにより，電源電圧が0.7Vの動作では32nmと比べて37%リングオシレータの性能が向上したとのことです。

　　また，1～6層の絶縁物をULKにして寄生容量を12～18%削減しており，セル面積0.108um²の380MbitのSRAMは，0.8Vの電源で3.4GHzクロックで動作すると書かれています。