20150829

最近の話題 2015年8月29日

１．Hot InterconnectでIntelがOmni Path Architectureを発表

　　2015年8月26日のEE Timesが，Hot InterconnectにおけるIntelのOmni Path Architectureの発表を報じています。また，Intelのサイトに製品発表が掲載されています。

　　Omni Pathについては，Knights Landingではパッケージ上にインタフェースチップを搭載してサポートされることが発表されていますが，その詳細は不明でした。今回，OpenFabric Allianceのソフトウェアスタックを使い，100Gbit/sのリンクを使うことが発表され，同時に，PCIeカードのHost Facric Interface，1Uサイズで48ポートのOmni Path Edngeスイッチ，そしてこのスイッチを20台使うDirector Class Switchです。Director Class Switchは最大768ポートで，大規模なネットワークを組むことができます。

　　物理的には1レーンは25Gbpsで，これを4本束ねて100Gbit/sのリンクにしていますが，これはEDR IBと同じです。

　　また，伝送エラーの訂正も大きな性能的損失なくできると述べています。そして，×4のリンクの1～2レーンが故障しても残りのレーンで（性能は低下しますが）動作を続けられるDynamic Lane Scalingをサポートしています。

　　100Gbit/sというリンク速度はInfiniBandのEDRと同じですが，Intelは適応ルーティングや分散ルーティングなどを使い，実効性能を改善し，信頼度も向上しているといっています。また，ノードの通過時間も110nsと速いとのことです。また，スイッチLSIが48ポートとMellanoxのスイッチよりポート数が多く，スイッチの台数が少なくて済み，大規模ネットワークを構成した時のスイッチ通過段数を減らせます。このため，コストを25%～40%減らせるとのことです。

　　高速のインタコネクトのビジネスを事実上独占してきたMellanoxにとっては，OPAの登場は大きな脅威になると考えられます。

２．中国の会社が64コアARMサーバチップを発表

　　2015年8月25日のEE Timesが，Hot Chipsにおける，Phytium Technologyという中国の会社のARMサーバチップの発表を報じています。2012年の設立で，広州と天津にオフィスがあるとのことですが，聞いたこともない会社です。Hot Chipsでの発表も，発表者のビザが取れず，中国本土から電話での発表となりました。そして，電話の接続などに時間が取られ，また，発表の時間が伸びたこともあって質問の時間が取れず，聞きたいことが聞けず残念でした。

　　発表によると，Marsと呼ぶ64コアのハイエンドと，もっと小規模なEarthというチップを開発しているとのことですが，今回の発表はMarsに関するものです。驚いたことにARM v8アーキテクチャの4イシューのO-o-Oコアを独自に開発し，これを64コア集積しています。本家のARMのCortex-A72でも3イシューですから，非常に高性能を狙った設計です。28nmテクノロジを使い，640mm²，3000ピンという巨大チップです。これに，8個のCMCと呼ぶL3$とDDR3インタフェースを集積したチップが付きます。全体では128MBのL3$，16チャネルのDDR3インタフェースとなります。

　　現在はチップの設計が終わったところで，まだ，テープアウトはしていないとのことです。

　　興味深いのは，このプロセサコアにXiaomiという名前が付いているという点です。大体，このチップはIBMのPOWER8に似た構成で，大規模サーバ向けの設計です。一方，大規模の基幹サーバを長期的な安定性がない小さな会社から買うというユーザは有りません。つまり，大きな会社（あるいは政府機関）がバックについていないと，成立しないと考えられます。そこで，Xiaomiというコアの名前は，携帯大手のXiaomiがバックについているのではないかという想像に繋がります。とするとXiaomiは携帯だけでなく，サーバにも手を伸ばそうとしているのでしょうか？

３．OracleがInfiniBandインタフェース内蔵のSomomaプロセサを発表

　　2015年8月25日のEE Timesが，Hot ChipsにおけるOracleのSonomaプロセサの発表を報じています。SonomaはM7と同様の第4世代のSPARCコアを8個集積しています。大きな特徴は，56Gbit/sのFDRのInfiniBandのNICを2チャネル分チップに内蔵し，スケールアウト型のシステム向けに最適化されているという点です。各ノードは2チップを直結して共通メモリを実現する128GB/sのCoherent Linkを備えています。

　　チップ写真をみると20%程度の面積がInfiniBandに使われており，3～4コアと同程度のかなりのチップ面積を割いています。また，業界標準のNICを内蔵した初めてのプロセサです。

　　また，DDR DIMMは直結，PCIe3.0も内蔵と，CPUとDIMMを繋げば8コアのノードができるという低コスト，低電力，高密度設計です。

　　そして，プロセサにはDAXと呼ぶデータベース処理のアクセセラレータが搭載されており，T5コアと比較すると，クエリ性能は2.4倍，デコンプレッション性能は8.5倍になっているとのことです。

　　InfiniBandのHCAは仮想化され，vHCAあたり16M Queueペアの通信をサポートしており，ビジネスアプリ向けの小さなメッセージを大量にさばくことができるようになっています。

　　OracleはInfiniBandをクラスタやストレージシステムに使ってきており，これらの用途への適用を広げて行くと考えられます。

４．D-Waveが問題解決速度を測るベンチマークを提案

　　2015年8月27日のThe Registerが，D-WaveのTime-to-Targetと呼ぶ新しいベンチマークでの性能測定について報じています。

　　D-Waveのマシンは，Quantum Annealingという原理で，系のエネルギーが最小になる安定状態に落ち着かせるというやり方で最適解を求めています。Quantum Annealingが起こるということは量子効果が働いているということですが，普通のアニーリングと同じような振舞いをすることもあり，D-Waveのマシンが量子コンピュータであるかどうかには論争が続いています。

　　ということで，D-Waveは量子コンピュータであるかどうかを争うのではなく，最適化問題の解を得る速度を比較して，動作原理はともかく，D-Waveのマシンの方が速いということを示そうという作戦に変更したようです。

　　最新の1000Qubitのマシンでは，このベンチマークで，ベストのソフトウェアと比較して2倍から14倍の性能で，IOの時間を除いた純計算時間では8～600倍と圧倒的な性能差とのことです。

　　このベンチマークでは，理論的な最適解でなくとも，実用的にそれに近い解が得られれば良いというルールになっており，多少，外部ノイズなどで最適解からずれても正解と認められるようで，落ち着いたエネルギーが最小値より少し大きくてもOKで，D-Waveのマシンに向いたルールとなっています。しかし，トラベリングセールスマンのような現実の問題では，移動距離が最短でなくても，それに近い解が得られれば十分なので，実用的なルールと言えます。