最近の話題 2015年11月14日

1.Imagination TechnologiesがMIPS64コアを発表

  2015年11月10日にImagination Technologiesは,64bitアーキテクチャのP6600コアを発表しました。Imaginationは,PowerVRというGPUコアをライセンスしているIPメーカーですが,CPUのIPを取得するために,2012年にMIPS Technologiesを買収しました。MIPSは,ヘネパタ本のHennessy教授が,自分が考えたアーキテクチャのプロセサを実用化するために作った会社でCPU業界では老舗です。GPU IPの大手のImaginationと,CPU IPの老舗の力を結集して,ARMに対抗しようという訳です。

  ARMの方は2012年に64bitアーキのA53を発表しているので,3年遅れですが,このたびImaginationも64bitアーキのP6600コアを発表しました。P6600は16段パイプラインで,複数命令イシューのO-o-Oコアを使い,高スループットで面積効率が高いと書かれています。フルアソシアティブのBTBを持ち,洗練された分岐予測を行い,改善されたL2$サブシステムを備えると書かれていますが,効果のほどは分かりません。また,128bitのMIPS SIMD命令をサポートしています。そして,ハードウェアベースの仮想化をサポートし,OmniShieldと呼ぶセキュリティー機構を備えていると書かれています。

  しかし,これらの特徴はARMと同じであり,性能や電力効率,面積効率でARMと比較して,どのような優位性があるかが問題です。また,ARMの64bitコアのライセンス料は非常に高いと言われており,ライセンス料や,ライセンスの条件がどうなるかも,どの程度受け入れられるかに影響すると思われます。

  また,Imaginationは,M6200とM6250というローエンドのIPも同時に発表しました。ARMでは言えば,組込み用のMシリーズに相当するものと思われます。

2.Applied MicroがARMv8アーキのX-Gene3を発表

  2015年11月11日のEETimesが,ARM TechConにおけるAppried MicroのX-Gene3の発表を報じています。サンプルの提供は2016年の遅い時期とのことで,ほぼ1年先です。クロックは,最大3GHzとのことです。

  16nmFinFETプロセスで製造され,32コアを集積し,DDR4-2667を8チャネルサポートします。また,PCIe 3.0を42リンクサポートすると書かれています。これらがx16のリンクとすると,かなりのピン数になります。

  プロセサコアは,4命令以上を並列に実行できるパイプラインを持ち,前世代のX-Geneと比べて,かなり高性能だそうです。

  IntelのQPIのような接続は無く,2Pや4Pの構成は無いと述べています。新開発のPCI Expressをベースにしたインタコネクトで1ノード256コア,あるいはノード間を接続するとのことです。筑波大のTCAのような接続でしょうか?

3.ARMがCortex-A35コアを発表

  2015年11月12日のPC Watchが,ARM TechConでのCortex-A35の発表を報じています。後藤さんが書かれた記事で,これが詳しいと思います。

  A35は64bit ARMアーキテクチャのローエンドのコアで,$50〜200という低価格のスマホに使えるという位置づけです。現在,低価格スマホに使われている,32bitアーキのA5,A7を置き換えることになります。

  A35は64bitのARMv8アーキテクチャをサポートし,A7と比べて電力は10%少なく,性能は6〜40%高いとのことです。またARMv8のA53コアと比較すると,面積は25%小さく,消費電力は32%少なく,電力効率は25%高いと書かれています。これから計算すると,性能は15%低いということになります。

  マイクロアーキは2命令デコードで,インオーダの制限付き2命令実行で,パイプライン段数はA7より多く,A53よりは少ないとのことです。


4.NVIDIAが巨大データセンタ向けのM40,M4アクセラレータを発表

  2015年11月11日のマイナビが,NVIDIAの巨大データセンタでのディープラーニングの性能を改善するM40 GPUとM4 GPUの発表を報じています。M40は3072CUDAコアでピーク演算性能は7.0TFlopsで,12GBのGDDR5メモリを搭載し,消費電力は250Wとなっています。一方,M4は1024CUDAコアで2.2TFlops,4GBのGDDR5メモリで,電力は50〜75Wとなっています。

  ディープラーニングのラーニングは,多数の入力画像を学習してニューラルネットワークの重みを調整するため,計算量が多く,高性能のM40を使ったサーバで処理するのがお勧めです。

  認識は,チューニングされたモデルに,認識すべき画像などを一つ入力して計算するだけなので,計算量は非常に少なくて済みます。しかし,Googleなどの巨大データセンタでは多数のユーザから多数の画像の認識要求が入ってくるので,個々の処理は小さいのですが,やはり多量の処理が必要となります。これに対しては,エネルギー効率の高いM4を勧めています。また,M4はロープロファイルのパッケージとなっており,消費電力が小さいことと合わせてサーバへの搭載密度をあげられます。

  また,イメージの変形やフィルタリング,そして,イメージやビデオのトランスコードも大量の計算を必要とし,多数のユーザが集まる巨大データセンタでは多量の処理が必要になります。M4 GPUは,このような用途にも向いているとのことです。5000のビデオストリームのトランスコードをCPUだけを使うサーバで処理する場合,5万台のサーバのCPUの60%の能力を必要とするのに対して,M4 GPUを付けると,CPUの5%,GPUの20%の能力を使うだけで済み,前者の場合は10.8MWの電力を必要とするのですが,GPUを付けた構成では1.2MWの電力で済むとのことです。

  NVIDIAはGPUの仮想化を行って,多数のユーザがGPUをシェアしてリモートで使用するGRIDというサーバ側でGPUを使うという用途も売り込んでおり,その第2世代のGRID2.0向けにM60とM6というGPUを8月に発表しています。M60の方がM40よりもCUDAコア数やメモリ量が多く,なぜ,M40というハードウェアを作る必要があったのか分かりません。M40,M4は不良コアが多いチップを救済して,安く売るという狙いもあるのかも知れません。

5.NVIDIAのJetson TX1

  2015年11月11日のThe Registerが,NVIDIAのJetson TX1ボードの発売を報じています。これまで,KeplerベースのTK1というボードがあったのですが,TX1はGPUが256CUDAコアのMaxwellベースとなり,単精度のピーク演算性能が1TFlops超えとなりました。ボードのサイズは50mm×87mmで,GPUに加えて,ARMのCortex-A57CPUと4GBのメモリ,EthernetとWiFiを内蔵しています。

 発売は来年の1Qで,お値段は$299となっています。また,$599出すと,すぐに開発キットのソフトが送られてきて,今月中にハードウェアが入手できるそうです。

5.Los Alamos国立研究所がD-Wave 2Xを導入

  2015年11月13日のThe Registerが,Los Alamos国立研究所のD-Wave 2Xの導入を報じています。D-Wave 2Xは,D-Wave社の最新の1000Qubitの量子アニーリングマシンで,Los Alamosには2016年の早い時期に納入の予定です。

 用途は明らかにされていませんが,Weapons Physics DirectorateのMark Anderson氏のコメントが載っているので,兵器開発への適用も視野に入っているようです。

6.Apple A9プロセサ

  最新のiPhone 6Sに使われているA9プロセサですが,2015年11月12日のEE Timesが,解体して撮影した鮮明なチップ写真や,A4からの歴代Aシリーズプロセサのチップサイズ,CPUコア,GPUコアの面積比率などをまとめた記事を載せています。

  データとして,貴重な記事です。

7.アムダールの法則のGene Amdahl博士が逝去

  2015年11月13日のThe Registerが,IBMの画期的なメインフレームであるSystem 360の生みの親で,有名なアムダールの法則を提唱したGene Amdahl博士が92歳で亡くなったと報じています。

  私は,個人的にある程度,Amdahlさんとご子息のCarlton Amdahl氏を存じ上げており,お悔やみを申し上げたいと思います。

inserted by FC2 system