最近の話題 2011年8月13日

1.IBMがBlue Watersから撤退

  2011年8月6日にNCSAは,IBMがBlue Watersスパコンを供給するという契約を打ち切ったと発表しました。2011年8月8日のThe Registerが報じています。また,2011年8月10日のマイコミジャーナルにも私の記事があります。

  これは「京」の開発からNECと日立が撤退したよりも驚愕するニュースです。「京」の場合は,詳細設計に入るという段階で,かつ,富士通は残って開発を続けたため,今年6月のTop500の1位を取ることが出来,結果的にプロジェクトは予定通りに進捗したわけですが,Blue Watersの場合は,既に納入が開始されており,予定通りならば,もう,フルシステムが稼働しても良いくらいの時期で,ここでIBMが撤退すると替わりがありません。

  IBMの撤退の理由は経済的なもので,POWER7ベースの計算ノードは予定より複雑で高価になり契約した価格ではIBMの経済的損失が大きいということのようです。NCSAとIBMの間で,打開策を検討したのですが,結局,折り合いが着かなかったとのことです。7月16日の話題で紹介した(番号が755になってました。訂正しました。)POWER 775サーバの正価ではピーク10PFlopsのBlue Watersシステムは$1.5Bで,さすがのIBMも赤字を背負いきれないと判断したようです。

  なお,IBMはPOWER7 775サーバは正式発表した製品であり,既に受注が入っているとのことで,販売を続けるようです。ということで,技術的には問題ないのだと思われます。

  この契約の打ち切りに伴い,NCSAは納入された機器を返し,IBMは受け取った$30Mを返すことになるそうです。

  NCSAの声明では,実アプリで1PFlopsの性能の予定通りの実現は可能としており,別のベンダーのシステムを検討していると思われますが,それにしても前代未聞の事態で,大打撃だと思われます。

  なお,IBMはBlue Gene/Q系のSequoiaやMilaといったスパコンも開発しており,これらのプロジェクトには影響ないとおもいます。

  スパコンの規模が膨大になるにつれてメーカーの持ち出しで賄えるような額では無くなってきており,次の話題で紹介するPost「京」も必要な費用の見積もりと予算の確保をしっかりしないと,Blue Watersのように途中で暗礁に乗り上げかねません。

2.文科省が「京」の100倍のスパコン開発へ

  2011年8月8日の日本経済新聞が,文科省が「京」の100倍の性能の次世代スパコンの開発へという記事を掲載しています。「京」の100倍はExaで,要するに米国や中国が計画しているExaFlopsスパコンを日本もやるという旗を掲げたということのようです。

 8月7日の(紙の)新聞には,富士通,NEC,理研などが参加する作業部会を来年度から立ち上げるということで,年内にも具体的な開発計画を作って,来年度予算の概算要求に研究開発費を盛り込むと書かれています。しかし,1000億円以上とみられる開発費を文科省予算からねん出するのは難しいので,開発の初期段階から,「防災」や「医療」など利用目的をあらかじめ設定したうえで,民間企業などの協力を得るとのことです。

 そして,実用化時期は2020年頃が目標とのことです。

 Exaで先頭を走る米国も,2018年は難しいという感触になってきており,ハードの完成が2019年,アプリを含めての実用化が2020年というのは,世界一になれるかどうかは分かりませんが,まあ,妥当なターゲットだと思います。

 6月に世界一になった「京」の部分システムは8PFlopsで約10MWの消費電力であり,この電力効率で1ExaFlopsを作ると1.2GWになります。これは原発や新鋭の火力発電の1基分に相当します。LINPACKの測定データではそれに は使用しないファイルシステムなどの電力は含まれていない可能性があり,実システムとしてはより多くの電力が必要という可能性がありますが,ここでは一応,1.2GWと考えます。

 そして,「京」は45nmテクノロジで作られているのですが,2018年頃に量産可能なテクノロジは11nm程度と予想されます。これにより16倍のトランジスタが集積できますが,チップあたりの消費電力は,Intelの3Dトランジスタのような構造で電源電圧を下げたとしてもトランジスタあたり1/10,チップ全体では1.6倍程度に増えてしまいそうです。各チップが16倍の性能で1.6倍の電力だと性能/電力は10倍改善されるので, (システム全体がこの比率で改善されると)1.2GWが120MWとなります。

 GPUを使えばFlopsは増えますが,LINPACK効率は悪く,天河1AでもFlops/Wでは「京」に及びません。ということで,GPUを使えば大幅に 消費電力が削減できるとは考えにくいところです。BlueGene/Qは小規模システムの結果ですが,「京」の2倍程度の性能/電力を達成していますが,これが現在ではGreen500のトップです。ということは,BG/Qのようなアーキテクチャにしても120MWが60MWという計算で,非常に,荒っぽい見積もりですが,この程度が現状,考えられる手段で実現できる限界ではないかと思います。

 これより電力を下げようとすると,データ移動を減らすコンピューティングなどが必要となり,そんなことが本当に出来るのかどうか分かりません。

 また,各チップの性能が「京」の16倍とすると,100倍の性能にするにはシステム規模を7倍にする必要があります。単純に言うと平均故障間隔は1/7になります。一般にスパコンでは故障に備えて,定期的にメモリの状態をストレージに書き出してチェックポイントを作り,故障時にはチェックポイントを復元して処理を再開するということを行います。しかし,1/7の時間に100倍のデータをチェックポイントとして書き出すには700倍のバンド幅が必要になります。

 そして,「京」のシステム製作費は平成22年度,23年度の合計で458億円であり,7倍の規模とすると製作費だけで3000億円を超えてしまいます。神戸のスパコンセンターの建屋の建設費は193億円で,これを7倍すると1000億円超です。こんな費用を民間から調達できるのでしょうか。GPUを使ったり,クロックを上げたりするとハード量は減るのでこれらの費用は減る 方向ですが,それらのトレードオフも検討して,システムの方向性を決めて具体的な開発計画つくる,なんてことが年内に出来るのでしょうかね。

3.CrayのSteve Scott CTOがnVIDIAのTeslaビジネスユニットのCTOに

 2011年8月8日のThe RegisterがCrayのCTOのSteve Scott氏の辞任を報じています。Scott氏はスパコン業界を代表する顔の一人であり,次世代のCascadeシステムとそれに使われるAriesインタコネクトの開発を主導してきました。辞任の理由は,より良い仕事のオファーがあったからということですが,行き先は,Crayのtechnology partnerというだけで具体的な会社名は明らかにされていません。

 というのが8月8日の状況であったのですが,2011年8月10日のHPCWireが,Scott氏はnVIDIAのTeslaビジネスユニットのCTOに就任すると報じています。そして,Tesla GPUのロードマップとアーキテクチャを決める責任を負うとのことです。

 Bill Dally先生は当初,CTOとしてnVIDIAに入ったのですが,その後,Chief Scientistという肩書になり,CTOポジションは空いていました。これを埋めるスカウトですが,Scott氏とDally先生の関係はどうなるのでしょうかね。Dally先生はStanford大の教授の籍は残っているので,将来,大学に帰るということも起こるかもしれません。

4.ORNLの20PFlops Titanは2012年目標

  2011年8月8日のInsideHPCがオークリッジ国立研究所のTitanの発表スライドの一部を掲載しています。ORNLは8月15日〜17日に掛けてTitan Summitを開催するので,その時のスライドをプレビュー的にリークしているのではないかと思われます。

  それによると,現在のTop500 3位のJaguarを,今年の10月までに96キャビネット分をInterlagos CPU,Geminiインタコネクト,DDR3メモリにアップグレードし,年末までに残りの104キャビネット分を同様にアップグレードし,2012年1月には全200キャビネットのアップグレードが完了し,稼働を開始するとのことです。

  Interlagosのクロックは不明ですが,おおよそ2GHzと見てキャビネットあたり約12TFlopsで,200キャビネットでは2.4PFlopsとなります。そして,665GFlopsのX2090を全ノードに搭載すると合計で17PFlopsとなり,合計は20PFlopsに近い数字になります。ただし,GPUベースの天河-1AやTSUBAME2.0ではLINPACKはピークの50%強しか出ていないので,LINPACK性能ではフルシステムの「京」と良い勝負と思われます。

  そして,2012年には2011年の最初のアップグレードとほぼ同様のスケジュールでTitanにアップグレードする計画です。Titanは,CrayのXK6ベースのシステムで,Gemini 3DトーラスインタコネクトでAMDの12コアIterlagos CPUを結合するシステムで,nVIDIAのGPUが接続されます。このGPUは現在はX2090ですが, 次世代のKeplerへのアップグレードが可能となっており,間に合えばKeplerとなると思われます。

5.富士通がスパコンをクラウドで提供

 2011年8月8日の日本経済新聞が,富士通がクラウドでスパコンを提供すると報じています。大企業,大きな研究所や大学の計算センターでは多くの仕事があるので,スパコンを自前で運用する方が安上がりですが,中小企業などではなかなかスパコンの設置には踏み切れません。

 その意味では,Amazonなどのクラウドも科学技術計算に利用されており,GPUを付けたクラスタの提供も開始されています。また,BlueGeneなどの時間貸しを行う企業もあり,自社のものでないスパコンを使うというのは,それほど珍しいことではなくなってきています。

 しかし,中小企業では,スパコンが手に入ってもシミュレーションの専門家が居らず,使いようがないというところも多く,日本では科学技術向けのコンピュータのコンピュータ全体に占める比率は欧米の半分程度しかありません。富士通の今回のサービスの特徴は,単に,クラウドで解析環境を提供するだけでなく,専門家のいないユーザには解析業務全般を請け負うというサービスが含まれていることです。

 大企業は,コンピュータシミュレーションを駆使して,試作回数を減らして開発を効率化しており,同様のことが中小企業に広がれば,開発の効率化ができ,また,科学技術計算用のコンピュータの需要も増えることになります。

 

inserted by FC2 system