最近の話題 2012年3月24日

.1.囲碁ソフトZenが武宮9段に4子で勝利

 2012年3月17〜19日に電気通信大学(UEC)で開催された第6回E&Cシンポジウムにおいて,特別イベントとして囲碁ソフトのZenとプロ棋士の対局が行われました。17日の午前に行われた大橋拓文5段との対戦は9路という規模の小さい盤での対戦ですが,第1局は大橋5段,第2局はZenが2目勝ちと1勝1敗の結果でした。

 そして,午後に行われた武宮正樹9段との対戦は普通の19路の盤で,第1局は5子の置碁でZenが11目勝ち,第2局は4子置いてZenが20目勝ちという結果で,ハンデ付の置き碁ですが,囲碁ソフトがトッププロに4子で勝つという快挙でした。

 Zenは尾島陽児氏と加藤英樹氏の開発したソフトで,加藤氏のページにZenの並列化の論文などが置かれています。これを見ると,加藤氏の所属は東京大学大学院情報理工学系研究科創造情報学専攻となっています。

 並列化は東大のT2Kスパコンで行っており,2009年のUEC杯では32ノード512コアで戦ったという記録がありますが,今回のプロ棋士との対局では,予定ですが,マスタPCは4.2GHzのXeon5680の2ソケットにRAMが24GB,それに3台のスレーブPCを付けるという構成です。スレーブ1は4GHzのXeon W3680に12GB RAM,スレーブ2は4.2GHzのCore i7 3930K+16GB,スレーブ3は3.4GHzのCore i7 920+6GBをGbit Ethernetで接続するという構成で,T2Kの512コアほどではありませんが,全体では26コア+58GBとかなり強力なマシンです。

 アルゴリズムですが,囲碁ソフトとスーパーコンピュータと題する加藤氏と竹内氏の文書によると,将棋では静的評価関数とαβ探索が一般的であるが,囲碁ではこの方法ではうまく行かず,モンテカルロ探索という方法が開発されて強くなったとのことです。この文書には参考文献のリストもついているので,興味のある方は参照してください。

 このZenは「天頂の囲碁3」という名称でマイナビから市販されています。

2.NVIDIAがKepler GPUを発表

  2012年3月22日にNVIDIAは,新世代GPUであるKeplerを発表しました。NVIDIAのWhite Paperの記述によると,GK104と呼ぶこのチップは1536CUDAコアを搭載し,1.006GHzクロックで動作します。GF104 Fermiと比較すると,CUDAコア数は3倍,シェーダークロックはおおよそ2/3となっており,ピーク演算性能は約2倍で,単精度浮動小数点演算で3.09TFlopsとなっています。

  Fermiでは各SMに32CUDAコアを持ち,チップに16SMという構成であったのですが,それがKeplerのSMXは192CUDAコアと6倍になり,チップに8SMXという構成となっています。命令キャッシュや発行部分はSMごとに置かれるので,命令処理部分のオーバヘッドが半減(CUDAコアあたりでみると1/6に減少)しています。それから,FermiではGPUクロックは772MHzで,シェーダー部だけは2倍のクロックで動かしていたのですが,Keplerでは全部を同一の1006MHzクロックで動かすという構成になっています。

  2倍クロックにするとパイプラインラッチの数が倍増し,クロックも2倍なので,消費電力はほぼ4倍となります。Keplerではこれを止めて性能/電力を改善しています。

  また,Fermiではデータ依存性がある命令はハードウェアのスコアボードでチェックして,必要なデータが揃うまで待っていたのですが,Keplerではロード/ストアのようにキャッシュヒット,ミスでレーテンシの変わる命令の場合はハードウェアでチェックするのですが,レーテンシの一定な演算命令はコンパイラでどれだけ待つ必要があるかを求めて,その情報を機械命令に埋め込み,待ちサイクルが経過しない内は,その命令は発行対象にしないという制御になっています。これにより,ハードウェアでの依存性チェックを減らし,この部分のハードと消費電力を削減しています。

  ロードストアユニットの個数は256個で数は変わりませんが,GK104ではGPUコアのクロックが1.3倍になっているので,バンド幅は1.3倍になっています。また,GDDR5メモリのビット幅は256ビットですが,転送速度を6Gbpsに引き上げたので,メモリバンド幅は192.24GB/sとFermiに比べて微減に収まっています。L2$は4個のメモリユニットごとに128KBで,チップ全体で512KBとなっています。しかし,L2$のR/W幅を384ビットから512ビットに増加し,クロックが1.3倍になったことと合わせて,L2$とLD/STユニットの間のバンド幅は1.7倍になっています。

  ということで,メモリ系もFermiより強化されていますが,演算性能が2倍になったのには追いついていません。

  製造プロセスはTSMCの28nmプロセスで,トランジスタ数は3.54BTrとなっています。このGK104 GPUを搭載したGTX680ボードの消費電力は195Wで,GF104ベースのGTX580の244Wと比較して約20%電力が減っています。ゲームでの性能/電力の比較では,ゲームによって1.2倍から2倍程度までばらつきますが,平均すると1.5倍程度という感じのデータが示されています。

  チップ温度に余裕がある場合は,ターボブーストが掛るのですが,1006MHzが1058MHzと5%程度しか上がらないので,IntelyaAMDのプロセサのターボと比べると効果は大きくありません。

  なお,今回の発表はPC用のチップで,HPC用のTesla系のチップは5月のGTCで発表されるのではないかと見られています。

3.AMDがSeaMicroを買ったわけ

  2012年3月3日の話題でAMDがマイクロサーバメーカーのSeaMicroを買収するという話題を紹介しましたが,2012年3月20日のThe Inquirerが,AMDのエンタプライズ製品のマーケティングディレクタのJohn Fruehe氏に聞いたSeaMicroの買収理由を報じています。

  AMDは3rdパーティーのIPをSoCに積極的に組み込んでいくという戦略を打ち出していますが,このようなチップ間を接続する技術としてSeaMicroのインタコネクト技術を使うというのが主目的と述べています。

  Webでは,AMDがマイクロサーバの分野に参入という見方のあったのですが,Fruehe氏は,AMDはSeaMicroのロードマップを使用する権利は持っているが,AMDは顧客と競合するサーバメーカーになるつもりはないと述べています。「顧客と競合しない」はビジネスの鉄則ですから,これは妥当な戦略です。

  SeaMicroのインタコネクトチップは,CPUからはPCI Expressのポートに見え,ノード間を3Dトーラスで結合し,更に,DIMMDISKやPCI ExpressnoI/Oのカードが接続できます。そしてこれらの共通のメモリやI/Oが,各プロセサからは自分のPCI Expressに繋がっているように使用できるということですが,詳細は公表されていません。

  AMDはHyperTransportというチップ間のインタコネクトを持っているのですが,3rdパーティーのIPとつなぐとなると標準のPCI Expressの方が受け入れられやすいので,このような技術が欲しかったというのはある程度,理解できます。この技術の取得のために$334Mは高いような気もしますが,技術の価値は,今後,これがどのように役立って行くかに掛っており,結論が出るまでにはかなり時間が掛ります。

4.Blue WatersのEarly Science使用を開始

  2012年3月21日のHPC Wireが,Blue Waters全体の約15%にあたる46筐体のCray XE6システムが,Early Scienceシステムとして使用できるようになり,6つの研究チームが利用を開始したと報じています。米国のシステムでは,本格的な共用開始に先立って3〜6か月程度の期間をEarly Scienceとして限定されたユーザに使わせるというのが一般的です。

  その意味では,京も共用の開始は11月で,現在はユーザを限定したEarly Science期間のようなものです。

  15%の規模のシステムとはいえ,既にEarly Scienceが始まったということは,BG/Qだけでなく,Blue Watersも今年11月のTop500にフルシステムで参戦してくる可能性が大です。そうすると京は,一気に3位に転落ということもあり得ます。

5.国立遺伝学研究所と北陸先端大がSGIのUV1000を導入

  日本SGIは,2012年3月1日に国立以前学研究所が10TBのメモリを搭載したUV1000システムを導入したと発表しました。SGIのUV1000は,SGI独自のNUMAlinkを使うccNUMAマシンで, 最大16TBと巨大な共通メモリを持つことできるようになっていることが特徴です。

  国立以前学研究所のシステムは,DNAシーケンサからの大量のデータの解析に使用されるとのことです。

  また,2012年3月21日のHPC Wireが,北陸先端大が192ソケットのXeon E7を使うSGIのUV1000システムを導入すると報じています。メモリ容量は12TBです。

  最近のスパコンはクラスタで分散メモリのシステムが一般的で,データを各ノードのメモリに割り振ることが必要になるのですが,これが難しい問題もあります。巨大な共通メモリを必要とする問題では,UV1000は威力を発揮します。

6.六ヶ所村の核融合の研究スパコンセンターが開所

  国際協力の核融合炉ITERはフランス設置になりましたが,その見返りというか,研究用のスパコンは日本の六ヶ所村に設置されることになりました。この核融合研究スパコンセンターの開所式が2012年3月19日に開催されたと2012年3月20日の読売新聞が報じています。

  「六ちゃん」という名称(国際的な名称はHelios)のこのスパコンはフランスのBull製で,2ソケットのXeon E5-2600を搭載するBull B510ブレードを4410ブレード使用するシステムで,総コア数は70560,ピーク演算性能は1.5PFlopsとなっています。そして,システム全体のメモリ量は280TB,ファイルシステムは5.7PBで,アーカイブは50PBとなっています。

  ピーク演算性能で言うと,京,TSUBAME2.0に次いで,国内では3位の規模のシステムです。

  青森県の六ヶ所村の設置ということで,冷却電力は節約できるのではないかと思われます。

 

  

inserted by FC2 system