最近の話題 2013年5月11日

最近の話題 2013年5月11日

１．文科省がExaスパコンの開発予算の要求を決定

　　2013年5月6日の日経が，文科省が，2014年春から「京」の100倍の性能のスパコン開発を始めるための予算要求を行うと報じています。来年度の予算はそれほど大きな額にはならないと思いますが，総開発費は，「京」のときと同じ1000億円程度と想定しています。

　　という記事で，5月8日のNHKのニュースでも似たような趣旨で報道され，小柳先生が出てました。しかし，この小柳委員会は，松岡先生のTweetによると「正確には報告書は概ね「色々なアプリケーションの社会ニーズや国際競争を考えると、2020年頃にエクサスケールの性能を持ったフラッグシップマシンがあると良い。でも技術詳細は色々あり、具体的なプランはこれからキチンと考えるべし。」なっている。「ベンチでエクサ世界一」は寧ろ委員会タブー。」とのことで１ExaFlopsで世界一を奪還はマスコミのキャッチフレーズのようです。

　　5月9日の日経にも記事があり，その中に「ただ、東京工業大学の牧野淳一郎教授は「世界最速の達成にこだわるのではなく、使いこなせるスパコンを目指すべきだ」と指摘する。」という記述があるのですが，牧野先生の公開日誌では「私から記者氏におくったメイルには、「世界最速には大いにこだわるべきだが」って書いてあるんだけど、日経側の事情があったようである。」と書かれています。

　マスコミって信用できないのね。

　10PFlopsの次はその100倍の1ExaFlopsということで，米国では数年前から検討を開始しており，中国も一番乗りに意欲を示しています。その点では日本は出遅れていますが，2014年度から開発を始め，2020年度ころの完成を目指すという計画です。

　　噂では，中国は，広州のスパコンセンターにIntelのXeon Phiを使う40PFlopsのマシンを建設しており，来月に発表されるTop500で，米国のTitanを抜いて1位を奪還するとのことです。このマシンは当初は40PFlopsと見られますが，最終目標は100PFlopsで，1000PFlops（1ExaFlops)への踏み台となるマシンとのことです。

２．CRAYが小規模スパコンXC30-ACを発売

　　20013年5月7日にCrayは，XC30の小規模版のXC30-ACスパコンを発表しました。お値段は50万ドルから300万ドルとなっており，Fortune 100からFortune 1000クラスの企業のHPCニーズにこたえる製品とのことです。

　　CRAYのXC30は，ブロアと水冷の熱交換器のキャビネットを計算ノードキャビネットの間に挟み，キャビネット列の一方の端から吸い込んだ空気をキャビネット列のトンネルを流し，他方の端から排気するという冷却方式をとっています。空気を横に流すので，8CPU搭載のブレードは水平に置かれています。16ブレードが１つのシャシに収容され，キャビネットには３シャシが収容できます。

　　これに対して，XC30-AC（Air Cooled）は，完全な空冷で，冷却水を供給する必要がないので，設置が簡単です。XC30-ACは，XC30と同じブレードを使いますが，１つのキャビネットに16ブレードで，縦置きとなっています。つまり，発熱を1/3にして，下から取り入れた空気を上に吹き上げるという，従来のXKシリーズまでに採用されていた空冷システムを使っています。床をあげて冷却した空気を送り込まなくても，コンクリートの床に直接置いても良いそうです。

　　また，8キャビネット以下の構成では，ノード間の接続に高価な光ケーブルが必要ないこともお値段を下げています。

　　最大構成は8キャビネットで，1024CPUチップまでの規模のシステムが作れます。

３．NECの次期スパコンのマイナビの記事を訂正しました

　　先週の話題で，NECの次期スパコンの記述の中で地球シミュレータの640ノードが共有メモリというのは間違いと訂正しましたが，マイナビの記事も差し替えました。記事には差し替えと書いてありますが，前の記事を読んだ人にプッシュで伝わるわけではないので，効果は限定的です。読者でマイナビの最初の記事をご覧になった方はリンクをクリックして読んで下されば幸いです。

４．Intelが次期AtomとなるSilvermontを発表

　　2013年5月6日にIntelは，次世代AtomのSilvermontを発表しました。これまでのAtomプロセサはIn-Order命令発行であったのですが，Silvermontではコアのマイクロアーキテクチャを一新し，Out-of-Orderとし，分岐予測の改善や分岐ミス時のペナルティーの削減，メモリアクセスもOut-of-Order処理を取り入れ，演算器のレーテンシも短縮などの多くの改善を組み込んでいます。

　　このコア2個と最大1MBのL2キャッシュの組をモジュールとし，最大4モジュールとIDIと呼ぶリンクでシステムエージェントに含まれるクロスバに接続しています。

　　Silvermontを使う製品としては，マイクロサーバ向けのAvoton，通信機器向けのRangeley，タブレット向けのBay Trail，スマホ向けのMerrifield，そして名称未定のインフォテイメント向けのチップが開発されることになっています。PCマーケットは縮小し始めており，これらの分野で先行するARM勢からシェアを奪わない将来はないので，Intelにとって，最も重要なプロセサの発表です。

　　Silvermontは，現在のSalwellと同じ2命令並列デコードのプロセサですが，Out-of-Orderなどの上記のアーキテクチャ改善で，Saltwellコアと比較するとIPCが50%向上しているとのことです。

　　そして，クロックの向上とあわせて，シングルスレッドの実行時のピーク性能はSaltwellの2倍の性能で，消費電力は同じとしています。また，2コア4スレッドのSaltwellと比べ4コア4スレッドのSilvermontのピーク性能は2.8倍，同一電力での性能は2.5倍となっています。また，性能を同じとすると消費電力は，シングルスレッドでは1/4.7，4スレッドでは1/4.4となっています。

　　Out-of-Orderにすると制御が複雑になり物量が増えるのですが，Coreプロセサのような4命令並列に比べると増加は小さく，また，マルチスレッドのサポートを止めてトランジスタを浮かせているなどで，全体としての物量増加はあまり多くないようです。

　　また，Silvermontは22nmのFinFETプロセスを使っており，FinFETのリーク電流が少ないことを利用して，L2キャッシュの一部は電源を入れてデータを保持した状態でC6ステートに入るようになっています。全てをメモリに退避すると，復元に時間がかかるのですが，L2キャッシュから復元できるとなると気安くC6ステートに入ることができ，結果として電力を減らすことができます。

　　そして，クロックゲートやパワーゲートの単位を細分化し，動作が必要な部分だけに絞り込んで動かし，低アクティビティーのときの電力を減らしています。ARMのbig.LITTLEは小コアで低負荷時の電力を下げていますが，Silvermontは低負荷になると自動的にARMの小コアより電力が減るという図を示していました。

　　また，3種の競合するARMコアのプロセサと比較して，3種の幾何平均で，同一電力では2倍の性能，同一性能では電力が1/4.3という図を示しました。これは主催者側発表ですから，多少，眉唾かも知れませんが，それを割り引いても，ARM勢に対して，性能と電力で強い競争力を持つと思われます。