最近の話題 2014 年3月1日

1.NVIDIAがMawellアーキテクチャのGPUを発売

  2014年2月18日にNVIDIAはMaxwellアーキテクチャのGTX 750toGTX 750Ti GPUの発売を発表しました。GX 750は$119から,GTX750Tiに2GiBのグラフィックメモリを搭載して$149というメインストリーム向けのGPUです。

  これまで,FermiやKepler GPUを発表したときはハイエンドからの登場で,華々しかったのですが,今回は,最高性能を更新する製品ではなく,中級の製品からの登場です。

  NVIDIAの発表では,詳しいことは分からなかったのですが,2014年2月28日のPC Watchに後藤さんが詳しい記事を書いておられます。それによると,MaxwellではSM構造を変更し,32CUDAコアに1個の命令スケジューラと2個の命令ディスパッチャが設けられ,64KiBのレジスタファイルが付いたものが単位となり,これを4ユニットまとめたものが新SMになったとのことです。

  Keplerでは192CUDAコアに4つの命令スケジューラと8個の命令ディスパッチャがついていたのですが,これを4分割して,CUDAコアの数を48から32に減らしたという感じです。LD/STユニットやSFUも4分割されていて,レジスタファイルもKeplerでは256KiBであったので,これも4分割されています。ただし,命令スケジュールの自由度があがり,プログラムにもよりますが,実行性能はKeplerのSMXと大差ないとのことです。

  GTX750Tiは,5SMを搭載し,クロックはベース1020MHz,ターボ1085MHzで,ベース時の単精度演算性能は1.305TFlopsとなります。メモリは5.4Gbit/sのGDDR5で128bit幅でピークバンド幅は86.4GB/sで,B/Fは0.048B/Flopとなります。演算に対してメモリバンド幅が非常に小さくなっていますが,メモリが速くならないので,やむをえないところです。

  製造プロセスはKeplerと同じ28nmプロセスで,GM107チップのサイズは約148mm2で,KeplerのGK107が118mm2であったのに比べると25%ほど大きくなり,トランジスタ数も1.3Bから1.87Bに増加しています。しかし,L2$が2MiBに増え,CUDAコアも384から640へと増加しています。これで消費電力は60Wとなっています。Keper世代のGK107と比較すると,ピーク演算性能は60%向上し,性能/電力では71%向上しています。

  後藤さんの記事には,倍精度浮動小数点演算の性能については記述がありませんが,GK107の伝でいけば,余り高くはなく,倍精度演算性能についてはTesla向けのハイエンドチップが出るのを待つ必要がありそうです。

2.Intelがスマホ,タブレット向けのMerrifieldとMoorefieldを発表

  2014年2月24日にIntelは,スマホ,タブレット向けのAtomプロセサZ3480 (開発コード名Merrifield)を発表しました。また,上位のMoorestownについても情報を公開しました。Merrifieldは発売開始ですが,Moorefieldの発売は今年後半になる予定です。

  Merrifield/Moorefieldは,現在のMoorestown/Penwellの後継となるSoCで,22nmプロセスを使っています。MerrifieldはSilvermontコアを2コア搭載し,クロックは最高2.13GHzとなっています。また,2014年2月24日のSemiAccurateによると,Moorefieldは4コアで,クロックは最高2.33GHzとのことです。

  2コアが1MiBのL2$を共用しており,メモリは,MerrifieldはLPDDR3-1066,MoorefieldはLPDDR3-1600をサポートしています。グラフィックスはImaginationのPowerVR Series-6 でMerrifieldはG6400,MoorefieldはG6430を搭載します。また,ビデオのエンコード,デコード,VSP(Video Signal Processor)を搭載しています。

 ビデオ信号を処理して品質を改善するVSPと,Integrated Sensor Solutionという機能が,Merrifield/Moorefieldで追加された新しい機能です。Integrated Sensor Solutionは,センサデータを管理してデバイスが低電力状態になっていてもアプリがセンサのデータをスマートに利用できると書かれており,SemiAccurateは,タイマによって必要なときだけセンサをオンにし,CPUが低電力ステートの場合は,読み取ったデータは小容量のバッファに保持して,CPUがアクティブになってから読み取れるようにする機能と推測しています。

3.A3CUBEがRONNIEE Expressを発表

  2014年2月27日のThe Registerが,A3CUBE社のRONNIEE Expressについて報じています。A3CUBE社はステルスモードで開発を行ってきており,これが始めての情報公開です。RONNIEE Expressは,PCI Express 2.0に接続する専用のNICボードを使って,ノード間を接続し,インメモリの高速ネットワークを実現するとのことです。

  PCIバスのメモリウインドウを使って,他のCPUのメモリ空間をPCI空間にマップしてアクセスすることにより,800〜900nsでレーテンシで通信できるとのことです。また,CPU同士だけでなく,IO同士の通信もできるとのことです。

  メモリウインドウは確か32MiBとかサイズに制限があるので,他のCPUの全てのメモリが見えるようにはならないはずですが,それでもマッピングを変えれば,別の領域が見えるので,より広いメモリ領域をアクセスすることが可能です。

  A3CUBAのRonniee 2S PCIe NICボードを搭載したノードは,他の4つのノードに接続できると書かれています。この構成で5ノードを繋ぎ,40TBの低価格SSDを付け,全体で4MIOPSのストレージを実現したと書かれています。

  Ronnieeはデータプレーンだけで,InfiniBandやEthernetと競合するテクノロジではないと述べられていますが,高速で細粒度のアクセスを必要とする場合は,有効な通信手段になると思われます。

  2014年2月25日のEE Timesによると,PCI Express 3.0はバスに接続されたデバイスの発見手順がPCI Express2.0と異なり,互換性がないが,PCI Express4.0ではうまく動作するものを開発するとのことです。

4.富士通がPRIMEQUEST 2000シリーズ基幹IAサーバを発表

  2014年2月28日のHPC Wireが富士通のPRIMEQUEST 2000シリーズの発表を報じています。PRIMEQUESTは,富士通が基幹IAサーバと呼んでいる高信頼のx86サーバ製品で,これまでの1000シリーズの後継として2000シリーズを発表したものです。

  なお,この2000シリーズの発表は海外向けのWebサイトには掲載されていますが,3月1日時点では,日本の富士通本社からの発表は出ていません。

  技術的な内容はほとんど書かれていない発表ですが,8ソケットで12TBのメモリという記述があり,先週の話題で紹介したIvy-Bridge EXベースのサーバと思われます。

  富士通のPRIMEQUESTは東証の株式市場の処理にも使われており,従来は,メモリのミラーリングなどを独自開発のチップセットでサポートして高信頼を実現してきたのですが,Ivy-Bridge EXでは,ミラーリングを始めメモリのプロテクションは強力になっており,その他の故障に対してもMCAが強化されているので,今回は,ハード的には大きな追加は必要でないのではないかと思われます。

  従来,x86サーバは信頼性の点でUNIXサーバ(PRIMEPOWERシリーズ)に及ばなかったのですが,この2000シリーズでは同等の運用継続性を実現したと書かれています。そして,x86ベースのサーバのコスト優位性を持っているとのことです。

@121349

inserted by FC2 system