最近の話題 2012年5月19日

1.Intelが初の22nmプロセスのサーバチップを発表

  2012年5月14日のEE Timesが,IntelのXeon E3-1200 v2ファミリと呼ぶサーバチップの発表を報じています。Intelの22nmプロセスを使うIvy BridgeアーキテクチャのPC用プロセサは既に発売されていますが,サーバチップはこれが初めてです。消費電力は17Wで,1000個ロットのときの単価は$189とマイクロサーバ向けの消費電力になっています。

  また,32nmのSandy BridgeアーキテクチャのE5-4600も発表されました。これまで4ソケット構成を取るには高価なE7を使う必要があったのですが,$551のE5-4600の発表で,より安価に4ソケットサーバが作れることになります。2012年5月17日のThe Registerの報道によると,SGIは次のUV2システムではE7を使わず,E5-4600に切り替えたとのことです。RASやメモリ容量などの点ではE7の方が優れている点もあるが,やはり,価格性能比が圧倒的に良いというのが切り替えの理由です。

2.AMDがTrinity APUを正式発表

  2012年5月15日のEE TimesがAMDのTrinity APUの発表を報じています。

  Global Foundriesの32nm SOIプロセスで作られ,チップサイズは246mm2でトランジスタ数は1.303Bとなっています。これは同じプロセスで,228o2で1.178BトランジスタのLlanoに比べて1割程度大きくなっています。

  CPUコアはBulldozerに替わってPiledriverとなり,性能が29%アップとのことです。また,GPUはRadeon HD7000シリーズのVLIW4コアとなりアーキテクチャが新しくなり,56%性能アップになっています。ダイ写真が載っていますが,2コアのCPU+キャッシュよりもGPUの方が若干面積が大きい感じで,IntelとはCPU−GPUの比率が大きく異なります。

  今回発表されたのは,35W TDPのA10-4600M,A8-4500M,A6-4400Mと25WのA10-4655M,17WのA6-4455Mの5品種で,A10は4コアでシェーダーコアが384,A8はCPU4コアとシェーダーコア256,A6はCPU2コアとシェーダー256コアとなっています。L2キャッシュはA10,A8は4MBで,A6-4400Mは1MB,A6-4455Mは2MBとなっています。

  最上位のA10-4600Mは,CPUクロックは2.3GHzで,ターボで3.2GHzまで上げることができます。また,シェーダーコアのクロックは497MHzで,これもターボで686MHzまで上がります。

  17WのA6-4455Mは,CPUクロックは2.1/2.6GHz,シェーダークロックは327/424MHzとなっています。

3.NVIDIAがKeplerアーキテクチャのTesla製品を発表

  2012年5月15日に,開催中のGPU Technology Conferenceの基調講演で,Jen-Hsun Huang CEOが,Tesla K10とK20という製品を発表しました。

  K10はGTX680と同じGK104チップを2個搭載した製品すが,安定動作のため,クロック周波数は745MHzに落としており,単精度の浮動小数点演算性能が2チップ合計で4577GFlopsとなっています。倍精度は互換性維持のためと申し訳程度の190GFlopsとなっています。そして,2チップ合計で320GB/sのメモリバンド幅をもっています。 デュアルGK104で915MHzクロック のGTX690の消費電力は300Wと書かれており,クロック比例とするとK10の消費電力は244Wとなりますが,従来のM2090の225Wの消費電力には収まっているとのことなので,多少,電源電圧を下げるなどの方法で,この電力を達成していると思われます。

  この製品は信号処理やイメージ処理や石油探査の地震波解析など単精度浮動小数点演算で良いが,Flopsやメモリバンド幅が欲しいという用途むけです。

  一方,K20は現在の多くのスパコンが使っているFermiアーキのGF110の後継となるGK110チップを搭載する科学技術計算の本命のGPUです。K10は即時発売ですが,K20は4Qになるとのことで,今回のGTCでは,GF110のアーキテクチャについてはある程度発表がありましたが,チップサイズ,クロック,消費電力などの物理的な情報は発表されませんでした。 しかし,公開されたボードの写真のヒートシンクのサイズと,M2090からの置き換えという点を考えると,ほぼ,225W程度になっていると思われます。

  GK104は192 CUDAコアを持つSMXを8個搭載したチップですが,GK110は15個のSMXを搭載しています。また,GK104のSMXでは倍精度浮動小数点演算 コアは8個搭載と思われ,K10では95GFlopsしか出ないのですが,GK110はSMXの中に64個の倍精度浮動小数点演算コアを含むという設計になっています。チップ全体では64×15×2演算=1920演算/サイクルになります。クロックは未発表ですが,仮にK10と同じ745MHzとすると1430GFlopsとなります。NVIDIAは665GFlopsのFermiの3倍の演算性能/Wと言っているので, 消費電力が同程度とするともう少し速いクロックになるのかも知れません。

 それからGK110では,Dynamic Parallelismと呼ぶ機能がサポートされます。従来はCPUからGPUに仕事を投げ,終わるとCPUに戻って,また,CPUが仕事を投げるということで,GPUはKernelと呼ぶ一つのCUDAプログラムを実行するだけだったのですが,このDynamic Parallelismでは,GPUのCUDAコードの中から,別のCUDAコードを直接呼び出すことができるようになりました。

 また,FermiではCPUからのコマンドは1本のキューに入り,順に処理されていくのですが,GK110では32本のキューがサポートされ,一つのコマンドを使うCUDAコアのリソースが少ない場合には,別のキゅーの先頭コマンドの処理を解しできるようになりました。これにより,小さい仕事がたくさんあるような場合には,GPUの使用率を大きく改善できます。

4.NVIDIAのKeplerは仮想化をサポート

  そして,Kepler GPUはGK104を含めて,全て,仮想化をサポートしていることが明らかにされました。しかし,どのような機能があるのかなど,その詳細につていは, 最大256個の仮想GPUがサポートできるという以外,アーキテクチャはハードウェアについては全く情報が出てきませんでした。

  一方,Jen-Hsun Huang CEOの基調講演やその他の発表でもどのような使い方をするのか,どういう効果があるのかについては繰り返し説明されました。

  基本的にはクラウドのサーバにこのGPUを含むカード(VGXカードはGK104を4チップ搭載)を入れ,仮想化されたCPUのグラフィックス出力を仮想化したGPUで捌くことにより,グラフィックス処理能力が低い携帯端末などでも高度のグラフィックスやGPU演算を行う処理を実行できるようにするというアイデアです。もちろん,仮想化ですから,GPUを使い倒す車の設計CADなどの処理には向きませんが,普通のPCの画面ならVGXカード1枚で100ユーザ程度 のリモートPCを処理できるというデモが行われました。

  このようにすればGTX680を持っていないユーザでもGTX680のグラフィックスを利用できるというのが売りです。そうすると端末のハードは軽くなり,電池も長持ちするというわけです。画面情報の送信ですが,VDIを使って4Mbps程度で次に述べるゲーム画面でも十分な情報が送るれとのことです。セキュリティーの観点から端末にはデータをストアせず,会社のサーバで仮想PCを提供するという使い方がありますが,これまでは端末の能力で高度なグラフィックスは出来なかったのですが,VDIを受信して表示ができれば,これが可能ということになります。

  この手法をゲームに応用したのがGeForce GR}IDで,クラウドセンターのGPUで描画した画面をVDIで端末に送ります。ゲームではプレイヤーのボタン操作へのレスポンスが重要で,リモートで端末を接続すると不利ですが,KeplerがゲームコンソールのGPUより速いという点と,CPUのストリーミング処理とGPUの描画をオーバラップさせるなどの手法で 処理時間を短縮し,通信時間を含めてもゲームコンソールと同等のレスポンスタイムが実現できるとのことです。展示ホールで実演を行っていましたが,レスポンスの遅れは感じられないというのが大方のコメントでした。ただし,San Joseの会場とNVIDIAの本社は10kmも無いので,インターネットの遅延も短いのですが,アメリカのサーバで日本のユーザをサポートするのは無理だと思われます。

  最初に紹介したTrinityのようにCPUに組み込まれるGPUの性能が上がっていくと,PC用の高性能のディスクリートグラフィックスボードを買う層は減っていくと見られています。このため,NVIDIAはARMコアと組み合わせてスマホなどの携帯分野への進出を図っているのですが,今回,クラウドセンター側にハイエンドGPUを売り込むという動きに出てきたわけです。

 

inserted by FC2 system