最近の話題 200612月9

1.AzulがVega 2プロセサを使う新サーバを発表

  JAVAの実行をオフロードするサーバを作っているAzul Systems社は,2006年12月4日に新しいVega 2プロセサと,それを使う新サーバを発表しました。

  Azul社のVega 2プロセサについては4月1日の話題でも紹介していますが,Vega 1からプロセサコア数を倍増して48コアを集積しています。今回発表されたサーバは,このVega 2を2チップ搭載する3210と,4チップ搭載する3220の2機種ですが,来年前半には,最大16チップを搭載する768コアサーバを発売する予定です。

  チップ内の48コアは,各コアが16KBのL1$を持ち,8コアが1個のL2$を共有する。そしてチップ上には4個のメモリコントローラがあり,チップ全体で12DIMMを接続できる。チップ内の6個のL2$と4個のメモリコントローラユニットはメッシュ(クロスバ?)で接続される。そして,各チップから15本のPCIe2のような高速シリアルリンクが出ており,16個のCPUチップを相互接続すると12月4日のThe Inquirerが書いています。

  今回発表の2機種は5Uのラック搭載型で,3210は48GBのメモリを搭載して$49,995。消費電力は580W。3220は2倍の96GBのメモリ搭載で,1KWとなっていますが,3220のお値段は公表されていません。

  今回発表の製品ではありませんが,16チップ768コアのサーバで,SPECjbb2005の性能を872,972BOPS(Business Operation Per Second)と発表(但し,現在はSPECのWebサイトには登録されていない)しました。この性能は単一JVMのシステムの性能としては富士通のPRIMEPOWER 2500の811,607を上回って世界最高と述べています。複数JVMを使う構成では,デュアルコアItaniumを128個搭載したSGIのAltix 4700システムで,64JVMで4,231,610という性能が登録されており,世界最高ではないのですが,JVMを複数たてるならサーバを並べても似たようなものという言い方も可能なので,難しいところです。

  いずれにしても,チップ当たりにすると,Azulのシステムは約55KBOPS,Altix 4700は約33KBOPSで,Azulの方が高い性能が出ています。並列化の可能なジョブでは,小規模コアを並べる方がItaniumのような大規模コアを少数搭載するより一般に有利で,加えて,Azulのプロセサは(構造に関する情報は,上記のThe Inquirerの記事以外には,公表されていませんが),ガーベッジコレクションのハードサポートやOptimistic Thread(ロック競合が無いと見做してスレッドを実行し,競合が検出されると,通常の処理を行って回復する)をサポートするなどの機能を搭載し,Javaの実行に最適化されているといわれるので,当然ともいえます。

  Javaのオフロードエンジンとして,ビジネスソフトの大手のBEAがその製品群でAzulのサーバをサポートしているのが強みですが,もう一方の大手であるIBMのWeb sphereや,Microsoftの.NETのサポートが得られていないのが弱みです。世界最大のB2Bポータルを運営するBritish Telecomが顧客となっていることが金看板ですが,HotChipsの時に,AzulでCPUを設計している筆者の友人と話したら,「企業は,3年後に会社があるかどうか分からないようなところから,なかなか,サーバを買ってくれない」とぼやいてましたから,製品は良いとしても,商売としては,やはり大変なようです。

2.SunのRockは16コア,O-o-OとScout Threadで高性能を実現

  2006年12月8日のCNETが,SunのCPUとサーバ部門の責任者であるJohn Fowler EVPとチーフアーキテクトのMarc Tremblay氏のインタビューに基づく報道として,Sunの次世代ハイエンドCPUであるRockは16コアを集積し,年内にテープアウトと報じています。

  Marcの言として,今年の12月31日までにテープアウト出来なければ,エンジニアはスーツとネクタイで出勤しなければならない。しかし,大部分のエンジニアはスーツなんて持ってないんじゃないかと書いています。

  Rockですが,実行スレッドの250命令程度前を走るScout Threadingで性能を上げると述べています。現代のプロセサはクロックが速くなり,メモリまでデータを取りに行く必要が出ると大きな待ち時間が生じます。これを前を走る斥候のScout Threadが検出すると,実行スレッドが必要とするデータを先にメモリから持ってきておくことにより,実行スレッドは待ち時間なしに実行を継続することが出来るというのが基本的なアイデアで,一般的にはHelper Threadと呼ばれており,Intelも研究論文を出しています。

  但し,いつもScoutを走らせておくと電気を喰うので,キャッシュミスが発生し,待ちが生じそうなときだけ走らせるようです。Marcは,Scout Threadによる性能向上に満足していると述べており,かなりの性能向上が得られているようです。斥候は実行時間の掛かる処理はサボって本隊よりは速く走って,しかもメモリアクセスする番地は正確に予測する必要があり,この辺りは,多分,ノウハウの塊であり,早く経験を積んだ会社が有利になるのではないかと思われます。

  もうひとつの高性能の仕掛けとしてOut-of-Order Retirementが挙げられています。しかし,CNETの記事を読む限りでは,分岐予測などを間違った方向の命令はRetireしたものもチェックポイントリペアで訂正する ように書いてあり,Retireの定義の違いのような気がします。リオーダバッファを使うマイクロアーキでは,アーキテクチャレジスタへの書き戻しをRetireで行いますが,HALが開発した初期のSPARC64やIBMのPOWERなどはアーキテクチャレジスタとリオーダバッファを一体化したレジスタを持ち,時系列的に,どのエントリが活きているかの状態を示すチェックポイントを作っています。CNETの記述からは,Rockは後者のマイクロアーキに 近い形になっているのではないかと思われます。

  また,8コアのNiagaraは1.2GHzとクロックが低く,スレッド1本の性能が低いが,Rockは単一スレッドの性能に重点を置いていると書かれており,単一スレッド性能向上の一部は,上記のScout ThreadやOut-of-Order Retireですが,クロックも高そうです。

  なお,ハイエンドのマルチプロセササーバは試験などに時間がかかるので,Rockプロセサが製品として登場するのは2008年の予定です。

3.AMDが65nmプロセスのCPUを発表

  2006年12月5日にAMDは65nmプロセスで製造するAthlon64 X2デュアルコアプロセサを発表しました。発表された製品は,5000+,4800+,4400+,4000+の4モデルで,クロックは,5000+が2.60GHz,4800+が2.50GHz,4400+が2.30GHz,4000+が2.10GHzとなっています。1000個ロットの場合のチップのお値段は,それぞれ$301,$271,$214,$169です。

  各コアは64KBの1次命令キャッシュと1次データキャッシュ,そして512KBの2次キャッシュをもっており,TDPは65Wとなっています。65nmプロセスの採用などで,従来の90nmの製品の89Wと比べて減少しています。

  2007年前半には,ドレスデンのFabを65nmに切り替えると述べていますので,Opteronなどもこの時期までには65nmになりそうです。

 

inserted by FC2 system