最近の話題 2013年9月14日

1.Intelが3重リング接続のIvy Bridge-EPを発表

  2013年9月11日のPC Watchが,IntelのIvy Bridge−EPの発表を報じています。E5-2600 v2と呼ばれる2ソケットサーバ用のXeonチップは,今年6月にTop 500の1位になった中国の天河2号にも使われており,一部,ユーザにはずっと以前から出荷されていました。

  ということで,12コアのXeon E5-2600 v2の発表は,あまりニュース性が無いのですが,PC Watchの記事ではIntelの発表資料を載せて,12コアチップは3重のリング構造のバスで接続と報じています。

  一つのリングで12コアを接続すると,レーテンシが大きくなりすぎるので,リングを分割したとのことです。12コアの場合,CPUコアと2.5MBのL3キャッシュのペア 4個が一つのグループで,これが3グループあります。そして,リング1はグループ1と2の8コアを廻り,リング2はグループ2と3の8コアを廻り,リング3はグループ1とグループ3の8コアを廻るという構造になっています。これだと,どの2つのコア間の通信でも,一つのリングを廻るだけで到達できます。また,12コアチップでは,メモリコントローラが2台に増強されています。

  ただし,2重リングの場合は,互いに逆方向に廻るリングで,右回り,左回りの近いほうを選んでいました。1つのリングだと,リングの回転と逆方向に隣接したノードに行くには,リングをほぼ1周する必要があり,レーテンシが長いのですが,その時は,逆方向のリングを使えば,1ホップで到達でき,近いほうを使えば,リングストップの数の1/2のレーテンシで済みます。

  3重リングの場合,リング1と2は左回り,外側を廻るリング3は右回りにすると各グループの中では逆方向のリングが存在することになります。しかし,グループ間では1方向しかないケースがあり,最大の距離は8になります。これなら12コアを通る2重のリングで最大距離6とした方がレーテンシが小さいと思うのですが,何か誤解しているのでしょうか?

  また,掲載された図では,PCIe,QPI,2台のメモリコントローラともに,CPUコアと同様に,2つのリングが通過している図になっています。この図が正しいとすると,これらのコントローラへの最大距離も8となります。

  そして,12コア以外にも10コア,6コアのダイがあり,コア数の少ない派生製品は,これらのダイを使うとのことです。そして,10コア,6コアのダイでは,メモリコントローラは1台で,リングも2重というSandy Bridge-EPと同じ構造となっています。

2.IDFで14nmのBroadwellをデモ

  IDFのKrzanich CEOの基調講演で,Haswellの後継となる14nmプロセスで製造されるBroadwellのデモが行われました。チップは,今年末までに出荷で,来年にはBroadwellを使用した製品が出ると述べられました。同一の性能で消費電力は30%減というデモでした。

  また,Atom系も22nmのSilvermontの次の14nmのAirmontについても言及されました。

  14nmプロセスの実用化は予定通りのようです。

3.IntelがBay Trailを発表

  2013年9月11日にIDF13でIntelはBay Trailを発表しました。2013年9月12日のPCWatchに後藤さんが書いています。

  Bay Trailと前世代のClover Trailとの最大の違いは,CPUコアが先週の話題で紹介したAvotonと同じSilvermontコアになり22nmプロセスとなっている点です。

  正式名称はZ3000シリーズで,4コア,4スレッド,L2$は2MB,ベースクロックは1.33GHz〜1.5GHzの4品種が発売されました。Scenario Design Powerは2.2Wと2Wとなっています。メモリはDDR3L-RS 1333の品種は1チャネル,LPDDR3-1066の品種は2チャネルとなっています。

  グラフィックスはEUが4個のIntel HD Graphicsです。ベースクロックは,311MHzと313MHzとなっています。HaswellのGT3は40EUですから,それに比べると1/10の規模です。

  IOはPCI Express 2.0がx4,USB2.0と3.0,SATA2.0,デュアルディスプレイ,LPCやSMBusなどを持ち,WiFiとIOデバイスをつければシステムになるというSoCです。

  チップサイズは後藤さんの記事では105〜107mm2となっており,AvotonのC2000とほぼ同じです。

4.IDFでIntel CEOがQuarkに言及

  2013年9月10日のEE Timesが,IDFで,Intel CEOのBrian Krzanich氏がキーノートの中で触れたQuarkについて報じています。

  Internet of Thingsやウエアラブルの分野向けのプロセサとしてQuark(Atomより小さい素粒子のクオーク)を開発してると述べて,サンプルをかざして見せました。Atomと比較してサイズは1/5,電力は1/10と述べただけで,それ以上の詳細は明らかにされませんでした。また,Fully Synthesizableと述べており,他社にコアIPを使わせるということも視野に入っているようです。開発用のボードの写真も示されましたが,それほど小さなボードという感じはありません。

  EE Timesは掘り下げて取材をしており,Krznich氏が示したチップは32nmプロセスで製造したもので,x86互換だそうです。そして,空調メーカーのダイキンが開発ボードを使って空調機のリモートメンテのシステムの開発を行っていると報じています。ダイキンはFreescleやARMと比較した結果,IntelのQuarkを選んだとのことで,理由はセキュリティーだそうです。CPUの性能は問題にならないが,ハックされて空調のコントロールが乗っ取られる危険が小さいことが重要というのは理解できます。組み込み用OSのWind River,セキュリティーのMcAfeeを持ってるIntelのほうが,FreeScaleやARMより評価が高かったというのも,ありそうです。

5.2ソケットXeonサーバでもNUMAチューニングが重要

  2013年9月10日のThe Registerが,HPC on Wall Street conferenceでの60EastTechnologiesという会社のCEOのBirnbaum氏の発表を報じています。

  2ソケットのXeonをQPIでつないだシステムでは,自分のチップに接続されたメモリをアクセスするのは100ns程度で出来るが,もう一方のCPUチップに接続されたメモリをアクセスするには150ns〜300ns掛かるとのことです。これが大きな性能差を生むとのことです。

  Advanced Message Processing(AMP)のメッセージのpublish/subscribeでは,普通に作ると5万メッセージ/秒程度しか処理できない のですが,60EastTechnologies社がNUMAチューニングした版では100万メッセージまで処理できるようになったとのことで,実に20倍の性能向上です。Wall街は情報の伝達速度が命の世界ですから,この性能向上は非常に重要です。

  AMPソフトはログを取ることができるようになっているのですが,メインメモリにログを格納すると記憶容量を圧迫しますし,ディスクに書くには速度が間に合いません。これに対して,60East社のシステムではDiablo社のMCSというDDR3 DIMMソケットに入る200GBのFlashボードを8枚入れ,残りのスロットに128GBのDDR DRAMをつけています。

  50〜150nsのメモリアクセスのオーバヘッドで20倍も性能が違うのは,どうして?という気もしますが,実際にそうなったのなら文句の付けようはありません。ログとして,DIMMソケットに入るFlashメモリを使うのはうまい考えですね。

  

 

 

  

  

inserted by FC2 system