最近の話題 2013年3月30日

1.OracleがT5とM5サーバを発表

  2013年3月26日にOracleは,世界最高速のマイクロプロセサを使うと銘打ったT5とM5サーバを発表しました。

  ミッドレンジのT5は3.6GHzの16コアSPARC T5プロセサを搭載し,8ソケットのT5-8,4ソケットのT5-4,2ソケットのT5-2の3モデルと1ソケットのT5-1Bサーバモジュールという製品からなっています。

  一方,M5シリーズはM5-32という32ソケットのモデルだけで,使用しているCPUはSPARCM5プロセサとなっています。クロックは3.6GHzで,6コア48スレッドとなっています。つまり,コアあたりのスレッド数は8スレッドで,これはSPARC T5と同じであり,同じS3コアを使っていると思われます。しかし,T5プロセサは16コア共通のL3キャッシュが8MBであるのに対して,M5プロセサは6コア,48MBのL3キャッシュとなっており,コア数を減らして大量のキャッシュを積んでいます。製造プロセスは発表されていませんが,TSMCの28nmプロセスと見られます。

  T5-8の総コア数は128であるのに対して,M5-32の総コア数は192で1.5倍でしかありませんが,L3キャッシュが大きいという点で,より高い性能が得られると考えられます。

  これまでTシリーズはOracle(旧Sun)の開発,Mシリーズは富士通の開発で,相互供給してきたのですが,M5はOracleの開発とみられ,富士通からは発表はなく製品ページにも掲載されていません。また,今年1月19日の話題で紹介した16コアのSPARC ]プロセサを搭載する富士通のM10シリーズのサーバはOracleは取り扱っていません。ということで,富士通とSunの相互供給はT4とM8000の世代で終わりで,今年からは相互供給を解消ということになったようです。

  今回のOracleの発表で驚いたのは,どの製品のプロセサもクロックが3.6GHzとなっている点です。半導体の製造にはばらつきが不可避で,チップによって動作するクロック周波数は+/−20%とか30%とかばらつきます。このため,ビニングといって,高速,中速,低速のように動作クロックで分けて,IntelやAMDは値段に差をつけて売りますし,富士通などのサーバメーカーは高速チップは価格も高いハイエンド機に使い,中低速は中小型機に使うというように,ばらつきの分布の大部分のチップを有効に利用するという戦術を取ります。

  今回のOracleのように,全ての製品で3.6GHzのクロックとすると,平均的な動作クロックは4〜4.5GHz程度に設計しておかないと遅めにばらついたチップは3.6GHzで動作できず不良品として捨てることになってしまいます。一方,ゲーム機やスマホなどでは一つのクロック速度しかないので,分布の中心を2〜3割高めに持っていく(あるいは製品のクロックを低めに設定)するというのは一般的ですが,サーバではあまり例が無いと思います。もし,半分のチップが4.5GHzのクロックで動くなら,4.5GHzクロックという製品を作った方が売値も高くでき利益が増えますし,より高い性能が欲しいというユーザにとってもメリットがあると思うのですが,どうなっているのでしょうかね。

2.GDCでソニーがPS4を発表

  2013年3月29日のPC Watchに後藤さんが,GDCにおけるソニーのPS4の発表について記事を載せています。すでに紹介したように,PS4のSoCはAMD製で,Jaguarを8コアと中の上くらくいのAMD GPUを搭載しています。現在のPC用のAPUと比べると豪華と言えますが,毎年性能が上がるPCと違って,5年程度は性能を据え置いた製品を作るゲーム機では,発売時にはできるだけ性能を引き上げて置きたいところで,この頑張りは理解できます。

  後藤さんの記事によると,CPU部は標準のJaguar 4コアに共通L2$のクラスタを2個搭載ですが,GPU側は動作クロックが800MHzで18コアを搭載し,積和演算ユニット(NVIDIAがCUDAコアと呼んでいるもの相当)は1152個,単精度浮動小数点演算性能は1.84TFlopsとなっていますが,AMDのGPUに比べると,色々な機能がSCEI向けにカストマイズされたGPUになっているとのことです。

  後藤さんの記事によると,PS4では,細粒度のキャッシュコントロール,モニタリングのためのパフォーマンスカウンタのサポートが追加され,コンピュートタスクとグラフィックスタスクを同時にGPUコアの中で走らせられることや,ユニファイドアドレスメモリへのフルアクセスなどが追加されているとのことです。

  PS4のSoCではメインメモリの容量を割り切って,メインメモリをGDDR5にしているので,バンド幅の点ではDDR3に比べて4〜5倍のアドバンテージがあり,また,メモリが物理的に一つですから,CPU,GPUから同じようにアクセスできるようにすることができます。これはゲーム機に特化した上手い割り切りで,うまく使えば,NVIDIAに差を付けられる可能性があると思います。

  ユニフィイドシェーダなので,1152個の積和演算器に対してグラフィックス側のVertex,Geometry,Fragmentシェーダが命令を出し,更に計算を行うComputeシェーダも命令を出します。従来はComputeからの命令発行が弱かったのですが,PS4では64タスクのキューを持ち,Compute時にタスクの切り替えを容易にして,表示と計算のタスクを並列に処理することが容易になっているとのことです。

  ゲームでもPhysicsのようにComputeを使ったシミュレーションが必要とされており,計算とレンダリングの高速の切り替えは重要な機能です。ただし,GPUのカーネルで実行中の処理を中断して,別の処理に切り替えるPre-emptionはサポートしていないようなので,GPUで実行するカーネルは比較的短い時間で終了するという使い方ででないと,短時間でのタスクの切り替えは出来ないと思われます。

3.TOTALが民間最大のスパコンを調達

  2013年3月25日のThe Registerが,フランスの石油探索大手のTOTAL(トタール)が民間としては最大規模のスパコンを調達すると報じています。4年間で€60Mを投じ,最初は2.3PFlopsで,2015年にはこれを倍増するとのことです。

  石油探索には地震波の反射を解析して地下の3Dモデルを作り,石油の溜まっていそうな地形を見つけたり,地形から,どこにどれだけ油井を掘れば効率的に石油を汲み出すことができるかなどの解析が必要で,昔から,民間企業としては大規模なスパコンユーザです。

  今回調達のスパコンシステムはPangeaと呼ばれ,SGIのICE Xを使うCPUオンリーのシステムです。筐体あたり72ブレードを収容し,各ブレードには4個の8コアXeon E5-2670(2.6GHzクロック)が搭載されています。そして,4筐体をまとめてクローズドループの冷却を行うユニットをSGIはM-cellと呼んでおり,Pangeaは12M-Cellで構成されます。ということで,総コア数は110,592でピーク演算性能は2.3PFlopsとなります。また,メモリは全体で442TBで,これに7PBの容量で300GB/sのディスクと4PBのテープが付きます。

  M-cellは水冷で,流量は毎時250m3で,流入温度は25℃,排出温度は35℃となっています。なお,システム全体の消費電力は2.8MWとのことです。

  これを2015年には2倍の能力に引き上げる計画ですが,GPUなどのアクセラレータの搭載は行わないようで,TOTALの計算アルゴリズムではアクセラレータは性能が出ないのかも知れません。

@1109277

  

 

  

 

inserted by FC2 system