最近の話題 2013年7月27日

1.Tianhe-2の構成と写真の訂正

  先週紹介したTianhe-2の構成に関して,京のTofuインタコネクトのアーキテクトである安島さんからメールを戴きました。Tianhe-2に関してはDongarra先生の報告書があるとのご教示で,あるということは何かで読んで知っていたのですが,チェックを忘れていました。

  訂正ですが,先週の紹介ではThe Registerの記事を鵜呑みにして,Xeon PhiとCPUの接続はPCIe3.0と書いたのですが,Xeon PhiはPCIe2.0しかサポートしておらず,Tianhe-2のNICと同じバンド幅でした。

  それから,Dongarra資料を見て,面白いことに気がつきました。筐体の内部が上下に分割され,上に32ノードのモジュールが裏表に搭載され,下にも32ノードのモジュールが表裏に搭載されているのですが,冷却が,4筐体をセットにして,上で4筐体をつないで横方向に空気が流れ,端で上から下に空気の流れを折り返し,下は上と反対方向に4筐体を貫通して流れ,反対側の端で空気を上に戻すという ループ構造になっている点です。そして,筐体の間には空気を送るファンと水冷のラジエータがあり,基本的には筐体の入りと出の空気温度は同じという設計のようです。CrayのXC30は一方向流しっぱなしですが,Tianhe-2は4筐体内のクローズドループになっています。 これで筐体あたり80kWを冷却します。

  また,安島さんから,Dongarraレポートの中にTianhe-2のインタコネクトに関する記述があり,576ポートのSpine SWは,LSWボード24枚,RSWボード24枚で構成されているとのことです。これはDongarra先生の文章では記述が無く,スイッチのポンチ絵に描かれているボードの枚数を数えられたのではないかと思います。そして,計算ノードのラック内にはこれらとは別の8個のスイッチチップが搭載されたボードが描かれている。また,スイッチチップのスループットは2.56Tbpsと書かれており,これは10Gbit/s×8レーン×16ポートで計算が合うので,,16ポートのスイッチと考えられるというご教示 をいただきました。

  スイッチは短時間のバッファを別とすればデータを溜めないので,10Gbit/s×8レーン×16ポートでデータが入ってきて,10Gbit/s×8レーン×16ポートから出て行くという状態を2.56Tbpsのスループットというとすると,このチップは第1の16ポートの組と,第2の16ポートの組の任意の接続ができるクロスバを持つチップで,各ポートは8レーンの入りと8レーンの出を持つことになります。そうすると端子は16レーン×32ポートで, 信号は差動でしょうから1024ピン必要です。パッケージの端子は2577ピンとなっているので,その他の信号を加えて半分程度が信号ピンというのは妥当な数字です。 なお,第1の16ポートは折り返しを考えると,第1のポートの組のポートにも接続できる必要があります。

  そうすると,4個のチップ×2段で,一方は64計算ノードに接続し,他方からはスパインスイッチ接続用に64本が出ていると思われます。しかし,これでは1筐体128ノードの半分しかカバーしていないので,上下でこのボードが2枚使われているのかも知れません。

  また,コンピュートノードのブロック図を見ると,NICからは2つのポートが出ています。もし,コンピュートノードから2ポート出ているとすると,筐体内のスイッチボードは4枚必要になります。ただし,NICとの接続はPCIe2.0なので10Gbit×8レーンの双方向のポートを2本出してもPCI側のバンド幅ネックになります。

  この16×16のスイッチチップを3個×2段のLSWは48×48のスイッチになり,これが12枚で576ポートを接続できます。そしてLSWからRSW1枚に4ポートずつが接続され,これが12枚で48ポートとなり,RSWは48×48のスイッチが必要となります。しかし,RSWボードには2個のスイッチチップしかないので,2枚のペアでも32×32のスイッチしか作れません。従って,LSWとRSWの接続は間引かれて本数を減らしていると思われます。まあ,Full Bi-Sectionバンド幅を必要とする場合は多くないので,ある程度間引いてFat Treeにするのは普通なので,これは妥当なところです。

  576×576のスイッチ13台で,合計のポート数は7488ポートで,16000計算ノードで割るとノードあたり0.468ポートという計算になります。この7488ポートの中でフロントエンドやストレージも接続しなければならないので,計算ノードに使えるポートはこの値より少なくなります。ということで筐体内のスイッチからLSWへの接続でも間引きが行われていると考えられます。

2.SuVoltaがUMCとARMプロセサ開発で協業を発表

  2013年7月23日のEE Timesが,SuVolta社のDDC(Deeply Depleted Channel)テクノロジをUMCの28nm HKMGプロセスに組み込み,ARMコアを開発する協業を行うと発表したと報じています。SuVoltaのテクノロジに関しては,2011年12月10日の話題で紹介しています。

  SuVoltaは独自のトランジスタ構造を用いて,低リーク,高電流のトランジスタを実現するDDC技術をライセンスしています。SuVoltaの発表スライドによると,65nmプロセスで作るARM Cortex-M0プロセサにDDCを適用すると,同じ1.2Vの電源なら55%速いクロックで動作し,1.1Vで動作させると同じ電力で35%高速,0.9Vで動作させると,同じクロック周波数で,電力は50%になるとのことです。

  この技術をUMCの28nmプロセスに組み込み,顧客に提供できるのは2014年になり,実際にシリコンが出てくるのは2015年になるとのことです。

  DDC技術はFinFETのような低リーク,高電流をバルクプロセスで得られるので,ファウンドリはFin形成などのプロセス開発や装置が不要,顧客側もバルクと同じ設計ルールが使えるので,現在の設計からの移行が容易というメリットがあります。ただし,大手はFinFETに向けて舵を切っているので,最先端プロセスで大きなシェアを確保するのは難しいのではないかとおもいます。しかし,現行のプロセスからの移行が容易という点で,低価格の組み込み用などには普及する可能性はあると思います。

3.NECがハイエンドx86サーバの開発でHPに協力

  2013年7月26日のThe Registerが,NECがハイエンドx86サーバの開発でHPに協力すると報じています。

  HPはItaniumとHP-UXを使うIntegrityやSuperdomeサーバを基幹ビジネスサーバとして販売していますが,IntelのItaniumは,もう,開発終了が迫っており,代替となる製品の開発が不可避です。そこで,Itaniumの代わりにXeon E7を使う新サーバを開発するProject Odysseyを進めています。

  NECはItaiumサーバでは,HPと協力関係にあり,Itaniumを使うExpress 5800サーバを販売していますが,これも代替製品が必要です。ということで,HPに協力して,Xeon E7を使うサーバの開発やテストに参加するとのことです。

  HPはハイエンドItaniumサーバ用に,最大で32ソケットのシステムを作れるsx3000チップセットを開発しており,この技術を使って,Xeon E7で32ソケットというようなハイエンドサーバを開発していると見られます。Krakenと呼ぶこのシステムは最大12TBのメモリを搭載し,SAP社のHANAというインメモリのデータベースを走らせるのに最適化されているとのことです。

4.Intelが低電力のXeonとAtomサーバチップについて発表

  2013年7月23日のThe RegisterがIntelの低電力XeonとAtomサーバチップについての発表を報じています。

  それによると,2013年のXeonは消費電力が最低で13WのXeon E3-1200 V3が既に出荷を開始しており,来年には14nmプロセスを使うBroadwellアーキテクチャのプロセサを投入する予定となっています。また,Broadwellは,IOやアクセラレータ,ネットワークファブリックなどを集積したSoC版も作ることが発表されました。

  Atomの方は,新開発のSilvermontコアを使うAvotonとRangeleyが発表されました。これらのプロセサはAtomとしては初めて22nmプロセスを採用しています。ということで,新アーキテクチャと新プロセスのビッグジャンプの製品です。

  Avotonは8コアで,現在の2コアのCentertonと比較すると,最大7倍の性能,最大4倍の性能/Wの改善とのことです。また,メモリも8倍の64GBまで接続できます。メモリはDDR3-1600をサポートし,PCI Express 2.0を16レーン,1Gb/sのEthernetを4ポート,SATAを6ポート搭載しており,小規模サーバとしては十分な品揃えです。これで,ARMの64bitサーバを迎え撃つ体勢です。

  また,Rangeleyは基本的には同じですが,ストレージサーバ用に最適化された仕様のチップとのことです。

  そして,Atom系は,2014年には14nmプロセスを使うDenvertonを出すというロードマップになっています。

5.AdaptevaがParallellaボードの出荷を開始

  2013年7月25日のThe Registerが,Adapteva社のParallellaボードの出荷開始を報じています。AdaptevaがKickstarterというクラウドファンディングを使って開発資金を集めるという話は,2012年10月27日の話題で紹介していますが,28nmプロセスで64コアのEpiphany Wチップを開発するという目標で,$3Mのストレッチゴールには届かなかったものの基本のゴールの$750Kを超える約$900Kが集まり,この資金でEpiphany Wチップのテープアウトが可能になったとのことです。

  $99以上出資した人には,16コアのEpiphany VチップとXilinxのZync 7020というARM Cortex-A9デュアルコアとFPGAが入ったチップを搭載したParallellaボードが提供されますが,その出荷が始まったとのことです。

  また,このボードはAdaptevaのオンラインストアでも$99で売り出され,出資しなかった人も買うことができますが,Zyncが7010となり,FPGAの規模が小さくなります。

  当面の開発は64コアのEpihany Wですが,Adaptevaは,将来は1000コアを集積して,2TFlopsを2Wというチップ。その先は,7nmプロセスで64000コアを集積し,100TFlopsを100Wというチップを開発し,2018年のExaFlopsを目指したいという壮大なプランを持っています。

@1151869

 

 

inserted by FC2 system