最近の話題 2012年6月30日

1.富士通は常に世界一を狙ってスパコンを開発

  2012年6月25日のロイターなどが,富士通の 株主総会での山本社長の「富士通は技術の会社。世界一を目指すところにいろいろな技術がついてくる。2位を目指すところには2位の技術しか集まらない。2位は物まねでできるけれど,世界1位は物まねではできない。オリジナリティがないとできない」と1位を目指す理由を述べたと報じています。そして,次に紹介する台湾中央気象庁からのPrimeHPC FX10の受注を発表しました。

  また,26日の日経は,「近日中に1位を奪回できると思う」との発言を載せています。そして,FX10の後継機の性能を10倍に高める計画としています。そして,現在,200億円規模のスパコンビジネスを2015年までに1000億円まで拡大し,スパコンの世界シェア10%を目指すとしています。

  ということで,富士通としては世界一を目指すスパコン開発への投資を続けることは確実と思われます。しかし,京やFX10のように自前CPUの開発を続けるのか,CRAYのようにIntel,AMDのCPUにNVIDIAのGPUやIntelのXeon Phiのような他社のエンジンを使うのか,どちらに進むのか興味深いところです。

  いずれにしても,現在の200億円規模の売り上げでは開発費は賄えませんから,1000億円規模にビジネスを拡大するのは必須ですが,3年で5倍の拡大は至難の業です。

2.富士通が台湾中央気象庁から1PFlops超のスパコンを受注

  2012年6月24日の日経が,富士通が台湾中央気象庁から1PFlopsのPrimeHPC FX10スパコンを受注したと報じています。これはPriemeHPC FX10としては,初の海外受注となります。受注額は約14億円だそうです。

  今年から3年間で段階的に納入し,最終的に1PFlops超となる見込と書かれています。とすると,ピーク1.135PFlopsの東大のOakleaf-FXとほぼ同じ規模となります。東大の導入予算は46億円なので,単純に考えると東大の1/3以下のお値段です。

  仮に,2フェーズの納入で,フェーズ1に1/4程度を入れ,2.5年後のフェーズ2で3/4を入れるとすると,フェーズ2の時期にはFlops単価は1/3程度に下がっているので,実質は半分程度のコストになります。これなら2013年に28億円/PFlops相当となります。また,東大よりも稼働時期が半年あまり遅れることでPFlops単価の相場が2〜3割下がることを考慮すると,東大より安いのは確かですが,滅茶苦茶なディスカウントではない(営業の某本部長のご苦労がしのばれます)のでしょう。また,PCクラスタなら1PFlopsは10億円以下になりますから,少なくとも,このくらいの値段でないと受注は難しかったのでしょうね。

  従来,スパコンは,一括で入れて,5年後に全取り替えというパターンが一般的だったのですが,これだと当初のTop500のランクはあがり,寿命の前半は相当なプレゼンスとなりますが,後半では目立たないシステムになってしまいます。また,新たなスパコンを入れると,それ向けのプログラムの開発には時間が掛り,フル稼働になるには時間が掛る(あまり空いていると問題なので,何かで埋めてしまうので,統計上は空いていませんが)ので,最初からフルシステムでは無く中間で性能アップを行う方が有効という考えから,分割納入という仕様も増えています。

  台湾中央気象庁は,気象に加えて地震,津波のシミュレーションを日本と共同で進めると書かれており,「京」で開発されるこられのソフトも魅力であったと思われます。

  これでPrimeHPC FX10の受注は,神戸大に続き6システム目で,目標まで残り44システムとなりました。ノード数では東大が4800,九大が768,岡崎と神戸大が各96,近畿大が12で, 仮に,この台湾中央気象庁のシステムが東大と同じ規模とすると,合計は10572ノードとなり,「京」の1/8程度のノード数となります。

  また,販売されたシステムではありませんが,Top500の270位に富士通の沼津工場に設置された4筐体384ノードのPrimeHPC FX10システムがランクインしています。

   なお,スパコンのお値段に関しては,東工大の松岡先生のTwitterでは,「でSequoiaは20ペタ160億だが、一年たたずに米TACCは2012末から4年間で総額40億円ぐらいで10ペタのSTAMPEDEを稼働させるし、同時期稼働のORNLのTitanも20ペタで80億円程度でほぼ同相場である。つまり2013年前半の本来の相場は1ペタ4億程度である。」と書かれています。 これから比べると台湾中央気象庁のFX10も,なお,滅茶高です。

3.LLNLが24ラックの5PFlopsのBG/Qを導入

  2012年6月28日のThe Registerが,Top500で1位になったSequoiaを持つローレンスリバモア国立研究所が,この夏に24ラックのBG/Qを導入すると報じてます。

  Sequoiaは,核兵器の開発,保守のシミュレーション用のマシンで,6か月のShake down期間は一般の科学技術の研究者に解放されますが,その期間を過ぎると,一般の計算には使えなくなってしまいます。

  このため,Vulcanと呼ぶ24ラックのBG/Qを一般的な科学技術の研究に使用するマシンとして,この夏に設置するとのことです。Sequoiaは96ラックのシステムなので,このVulcanは1/4の規模であり,ピーク演算性能では5PFlopsですから,かなりの規模のスパコンです。なお,このシステムは今回のTop500では2ラックで48位にランクインしており,夏には16ラックまで拡張されると思われます。

  PromeHPC FX10の受注は6システムで社内システムを含めて7システムですが,BG/Qは社内システム4システムを含んで20システムがTop500にランキングされ,総ノード数は206,848ノードに達しています。システム数で3倍,ノード数では20倍かそれ以上 ,京のノード数を入れてもBG/Qは2倍以上のノード数で,この売れ行きの違いは大きいですね。

4.LBNLが2PFlops超のCRAYのCascadeを導入

  2012年6月27日のHPC Wireが,CRAYがローレンスバークレイ国立研究所に2PFlops超のCascadeスパコンを納入すると報じています。このシステムはNERSC-7と呼ばれ,LBNLのNational Energy Research Scientific Computing Center (NERSC)に設置されます。このシステムは2013年には本格稼働の予定となっています。

  CascadeはDARPAのHPCSプログラムで開発された技術を使うスパコンで,インタコネクトが,これまでのGeminiからAriesに変わります。また,これまでのXE6などはAMDのOpteronを使っていましたが,CascadeではIntel CPUが載るようになります。そして,NVIDIAのGK110やIntelのXeon Phiも載るとのことですが,今回のNERSCのシステムでは触れられていないので, これらのアクセラレータは搭載されないようです。

  ピーク演算性能は2PFlops超で,6PB以上のCRAYのSonexionストレージが付き,ストレージは140GB/s以上のI/O性能を持つとのことです。契約は複数年にわたり,複数のフェーズで調達が行われますが,総額は$40Mを上回ると書かれています。

  また,ベイエリアの気候を利用して冷却はクーリングタワーだけで行い,冷凍機は使用しない。これにより,冷却に使うエネルギーをコンピュータの消費電力の10%以下に抑えるとのことです。 これまでのCRAYのシステムは,エアコンのような冷媒を使い,コンプレッサーを必要としていたのですが,Cascadeでは冷却方式を変えたのでしょうかね。

5.D-Wavwの量子コンピュータがクラウドで使用可能に

  2012年6月28日のHPCWireがD-WaveとPiCloud社の提携を報じています。D-waveについては昨年12月10日の話題などで紹介していますが,唯一,商用の量子コンピュータを作っている会社です。ただし,エンタングルメントを使う主流の量子コンピュータではなく,カンタムアニーリングという量子現象を使う量子コンピュータで, 主流の量子コンピュータと同じことができるのかどうか,筆者には分かりません。

  それはともかく,PiCloudはクラウドでスパコンの能力を提供する会社で,今回の提携で,ユーザはPiCloud社のクラウドでD-Waveの量子コンピュータが使えるようになるとのことです。また,PiCloudの通常のスパコンと連携し ており,一つのプログラムの中で,通常スパコンに適した処理は従来のクラウドスパコンでやらせ,量子コンピューティングが必要な処理はD-Wave Oneにやらせるという分担も可能になります。

  うまく行けば,PiCloudは量子コンピューティングという新たな目玉で顧客を引き付けられ,D-Waveは,潜在ユーザが量子コンピューティングを試してみるということが容易に出来るようになり,購入,あるいは,クラウド使用の量子コンピュータ顧客の獲得に弾みをつけることができます。

   なお,D-Waveは高温超電導のメカニズムで,同社も当初は高温超電導での量子コンピューティングを目指したようですが,途中で方針を切り替え,(しかし,社名はそのままで ,)現在は20/1000°Kという超低温でのカンタムアニーリングで量子計算を行っています。

6.CMOSの将来はモバイルに掛っている

  2012年6月20日のEE Timesが,「CMOSの将来はモバイルに掛っている」という記事を載せています。この記事の著者は,昨年6月11日の話題で紹介したSuVolta社のDeep Depleted Channelトランジスタの発明者,同社のCTOで,フロリダ大教授のScott Thompson氏で,先端CMOSデバイスの分野ではトップクラスの研究者です。

  CMOSプロセス関係での今年の最大のニュースは,先週の話題でも紹介した,6月にハワイで開催されたVLSIシンポジウムでIntelの22nm FinFETが発表されたことです。IntelのFinは上の方では6〜9nmの厚みしかなく,これは原子12〜18個分に相当します。これを300oのウエファ全体では1兆Finくらい作っています。そして,1つでもFinが欠けると,そのチップは不良になってしまいます。これまで一番微細であったゲート 電極でも20nm程の幅があったのですが,その半分以下のサイズのものを,量産品で,これだけ大量に作るというのも驚異的で,Thompson先生は,Tri-gateのテクノロジに関しては,Intelは他社より5年は進んでいると評価しています。

  IntelのFin断面が三角形であることに皆が驚きました。理論上,Fin形状は断面が長方形の板状が良いのは一致した意見で,何故,Intelは三角形にしたのかという点 に関して,大方の推測は,歩留りなどの製造上の問題で変えたというものでした。しかし,学会発表の後のQAでIntelの発表者は,性能がその理由と答えて聴衆を驚かせたとのことです。Finの底の方を厚くしてソース,ドレインの直列抵抗を下げ,性能を上げるという選択をしたとのことです。

  しかし,底部の厚いFinの部分ではFinが完全に空乏化せず,リーク電流が発生する懸念があります。Intelは1nA/umのリーク電流を発表しており,この値はCPU用としては十分ですが,モバイル用ではこの1/100程度までリークを減らす必要があり,これが可能かどうかに疑問があるとのことです。通常の高性能トランジスタとは,ゲート金属を変えて,Vtの高い,低リークトランジスタを作るという方法は,技術的に非常に難しく,コストアップも大きく,現実的ではないと思われますので,FinFETでモバイル用チップをどう作るかは未解決の問題という意見です。

 また,モバイル用のSoCチップではプロセサに加えて,RFやアナログ回路まで集積してワンチップ化してコストを下げるというアプローチが一般的ですが,FinFETでこれらの回路が作れるのかどうかも懸念され,FinFETをモバイルSoCに適用するのは容易ではありません。

  Intelが発表したデータではFinの上部のVtが低く,低電流の領域ではこの上部の部分しか動作していません。この状態では短チャネル効果は低く抑えられており,理想的な特性を示しています。しかし, 下側の方を動作させた場合の特性については,まだ,あまり明らかにされていません。Intelの発表データは素晴らしいのですが,実際にFinを作るとなると,ドーピング,Finの高さなどの形状のコントロールが難しく,理想的なFinFETのメリットの一部,あるいは全部が失われてしまうということがあり得るとThompson先生は見ています。

  また,FinFETを作る工程は難しくコストが高い。このため,$200程度のPCプロセサや$1000かそれ以上もするサーバ用プロセサを作る場合は良いのですが,モバイル用のチップはハイエンドでも$20,安いものでは$1〜$5という値段で, ウエファコストが高くてFinFETは使えないということです。

  CMOSの将来像という点では,EUV露光の実用化は遅れており,14nm世代にも間に合わないという見方が出てきています。そうなると20nmはダブル,14nmはトリプル露光となるのですが,露光コストが上がるので,28nmから20nmにシュリンクしても,性能/コストは僅かしか改良されず,20nmから14nmでは,逆に悪化するということです。そうなると,より微細なプロセスが開発されても,コストの点で,モバイル用チップは28nm〜20nmプロセスに留まることになってしまいます。

  現に,新iPadのA5Xプロセサは,高性能プロセサでは標準的な歪プロセスも,High-K/Metal Gateも使っていないとのことです。最高性能は抑えられますが,チップのコストは安くなります。また,SamsungのGalaxy S3に使われているQualcommのSnapdragonもHigh-Kゲートは使っていないそうです。ということで,既にモバイル用チップではコスト優先のプロセス選択が行われ始めています。

  プロセサチップの出荷量から行くと,既にスマートフォンなどのモバイル用がPC用を超えており,コストやリーク電流などでモバイル用に使えるテクノロジであるかどうかがCMOSのプロセス開発の方向を決めるというのは正しいと思います。

  FinFETと同様なメリットをプレナーで実現するというSuVoltaのCTOのThompson先生の書いたものですから,FinFETには厳しめというバイアスがあるかも知れませんが,参考になる見方です。

@1014501

  

inserted by FC2 system