最近の話題 2013年11月16日

1.NECがSX-ACEスパコンを発表

  2013年11月15日にNECは,新型ベクトルスパコンSX-ACEの発売を発表しました。来週から始まるSC13にあわせての発表です。昨年のSC12では,新機種登場まで365日と大きく書いていた約束を守ったことになります。

  CPUチップは64GFlopsのベクトルコアを4個集積し256GFlops,それにスカラ部のFlopsを加えて276GFlopsのチップを使っています。これに256GB/sのバンド幅のメモリを繋いでおり,約1B/Flopと,最近のスカラCPUと比較すると,高いB/F比を持っています。このCPUとメモリを11cm×37cmという比較的小型のプリント基板に搭載しています。

  そして1筐体に64ノードを収容し,現在のSX-9と比較すると消費電力は1/10,設置面積は1/5になったとのことです。

  ノード間の接続は4GB/s×2のバンド幅を持つ2段のスイッチからなるFat Treeで,各ノードから1本のリンクで接続する構成と,2本のリンクを使う構成があります。このFat Treeスイッチを収容するインタコネクト筐体は,1リンク接続の場合は,最大構成の512ノードの場合でも1筐体で,2リンクを使用する場合は,256ノードを超えると2筐体必要になります。

  最大構成が512ノード,8筐体で制限されているので,この規模のシステムでも140TFlops強で,スパコンというにはちょっと最大規模が小さいのが難点です。東工大のようにTop of the Rackスイッチを使えば,より大きな規模にできると思うのですが,そんなに大規模のシステムが多数売れるわけでもないので,国プロが取れないなら頑張る必要はないという割り切りでしょうか?

  レンタル価格は月額450万円〜となっており,買い取り価格は50ヶ月分とすると2.25億円となります。多分,最小構成の1筐体でのお値段で,16.4TFlopsでこのお値段とすると,1.37万円/GFlopsとなります。

  京コンピュータの1200億円は開発費や建物などを含んでいるので,スパコンの価格を600億円としても,これでピークは11PFlopsですから,0.54万円/GFlopsです。専用に開発するのではなく,汎用のスパコンなら更に安く,SX-ACEの性能あたりのお値段は10倍くらい高いという感じです。

  実は,この新機種の技術については,今年4月のCool Chips 16で発表されており,マイナビに私のレポートが掲載されています。従来機と比べると,あまり高そうな部品が無いので,もっと安くできそうですが,450万円は1筐体ではないなど,どこかで私の計算の前提が違っているのかも知れません。

  SX-X(ローマ数字の10)ではなく,ACEという命名は意気込みを感じますが,ACEの次の機種はどういう名前にするのでしょうね。

2.NVIDIAが統一メモリを実現するCUDA 6を発表

  2013年6月14日にNVIDIAは,並列プログラムをドラマチックに簡単化したと銘打って,CUDA 6を発表しました。

  CPUとGPUのメモリは独立なので,CPUからGPUに仕事を依頼するには,先ず,CPUメモリにあるデータをGPUメモリにコピーしてやる必要があります。また,GPUでの処理が終わると,GPUメモリからCPUメモリに結果をコピーする必要があります。このコピーがGPUを使うプログラミングを難しくしています。

  CUDA 6の最大の目玉は,このコピーをCUDAコードに書く必要が無くなるUnified Memoryという機能です。そして,BLASやFFTWの新ライブラリが追加され,CPUのBLASやFFTWライブラリを呼び出している部分をCUDAの新ライブラリの呼び出しに置き換えるだけで,最大8倍の性能向上が得られるとしています。また,これらのライブラリは,同一ノードの中の最大8台のGPUまで性能がスケールするとのことで,1ノードで9TFlops以上,最大512GBのメモリが使えるとしています。

  CUDA 6のツールキットの配布は2014年の早い時期とのことです。

3.AMDがHSAをサポートするKaveriとBerlinを発表

  2013年11月11日のEE Timesが,Developer ConferenceでのAMDのKaveriとBerlinチップの発表を報じています。KaveriとBerlinはCPUとGPUを同一チップに集積したAMDがAPUと呼ぶタイプのチップで,CPUとGPUが同じメモリ空間をアクセスするHeterogeneous System Architectureをサポートする初の製品です。

  PC向けのKaveriは来年1月のComputexでお目見えし,1月末までに出荷を開始するそうです。また,サーバ向けのBerlinは7月までに出荷とのことです。

  Kaveriについては,2013年11月13日のPC Watchが後藤さんの記事を掲載しています。それによるとKaveriは2モジュールで合計4コアのSteamrollerコアと8CUのGCNアーキテクチャのGPUを搭載するAPUです。そして,AMDがhUMA(heterogeneous Unified Memory Architecture)と呼ぶHSAの中心となる機能を実装する始めてのAPUです。

  前項で紹介したCUDA 6のUnified Memoryは,CPUとGPUメモリは別個で,コピーを行うコードを自動的に入れてくれるというものと思われますが,HSAでは,GPUも他のCPUコアと同等になり,ページレベルのアドレス変換も同じように行われ,CPUのキャッシュとGPU内部のキャッシュのコヒーレンシもハードウェアでXbox-OneのSoCのようにGPUやその他のI/O側にもMMUがあり,TLBミスをCPUに通知して同じページテーブルを参照するものと思われます。また,キャッシュのコヒーレンシについても,GPUのキャッシュは追加のCPUのキャッシュのように,スヌープなどを行うようになっていると思われます。

4.HSAは長い道のり

  2013年11月13日のEE Timesが,HSAは長い道のりという記事を載せています。

  前項で紹介したように,AMDは,来年1月にはHSAをサポートするハードウェアを持ったAPUを出荷する予定ですが,AMDはLinuxでのサポートを発表したものの,その他のOSでのサポートがどうなるかは明らかではありません。

  AMDのDeveloper Conferenceでのパネルディスカッションでは,HSA FoundationのメンバーであるImaginationの人は,最終的には全てのコアでHSAをサポートすると述べたものの,どのコアが何時という具体的な発言は無かったとのことです。ARMのCTOのMike Muller氏は,更に引いた態度で,HSAはミッドレンジには良いが,小さいシステムに向いているかどうかは分からない。また,何万コアも使うハイエンドシステムまでスケールするとは考えられないと述べ,一つのシステムアーキテクチャが全域をカバーするようにスケールすることはできないと述べたとのことです。これは技術的には非常に理解できる発言ですが,HSAをサポートする熱意は感じられません。

  一方,OS側のApple,Google,Microsoftの人からは,iOS,Android,Chrome OS,そしてWindowsでのHSAサポートの計画については言及が無かったとのことです。

  ということで,CPUとGPUが共通のアドレススペースのメモリをアクセスするというHSAの恩恵が広く実現できるまでには,時間がかかりそうです。

5.SonyのPS4 SoCの解体写真

  2013年11月15日のEE TimesがPS4の解体の記事を載せています。

  PS4はAMD製のカスタムSoCを使っていて,8個のJaguarコアと18CUで1.84TFlopsの演算性能を持つRadeon GPUを集積しています。そして表裏に各8個のGDDR5 DRAMを接続し,8GBのグラフィックス兼メインメモリとしています。プリント板の写真を見ると,これらと電源のほかは,ネットワークプロセサチップなど少数のチップや部品が載っている程度で,すっきりした印象です。

  このSoCのチップサイズは20mm×20mmとのことで,かなり巨大なチップです。早くシュリンクしないとコスト的に大変という感じです。記事からのリンクでチップの上層のメタルをはがしたチップ写真も掲載されていますが,8個のCPUコアよりもGPUのほうが大きな面積を示しています。また,GPUを囲むコの字型にかなりの面積がありますが,この部分には何が入っているのでしょうね。

 

 

inserted by FC2 system