最近の話題 2010年9月25日

1.Oracle Open WorldでRainbow Fallsベースの製品を発表

  2010年9月20日のThe RegisterがOracle Open WorldにおけるRainbow Fallsベースのサーバの発表について報じています。Rainbow Fallsプロセサに関しては,2009年8月29日の話題でHot Chipsでのアーキテクチャレベルの発表,2月13日の話題でISSCCにおけるチップレベルの発表を紹介していますので,興味のある方は参照ください。

  要するにRainbow Fallsは16コア×8スレッドで,128スレッドをハードウェアとして並列に実行できるプロセッサで,予想された通り,UltraSPARC T3という名称になりました。それぞれのコアは8KBのL1D$と16KBのL1I$を持ち,更に384KBのL2$のスライスをもっています。L2$は全体で6MBの共通L2$となっています。そして,今回の製品発表では,CPUのクロックは全て1.65GHz(1.6GHzと書かれている場合もある),メモリはDDR3-1066となっています。但し,Rainbow Fallsは4チャネルの6.8GbpsのFBDIMMインタフェースなので,IntelのNehalemと同様に,バッファチップ経由でDDR3メモリを接続してるものと思われます。

  今回の発表のCPUチップを1個搭載するSPARC T3-1サーバは,サイズは2Uで,16DIMMスロットを持ち,8GB DIMMで128GBのメモリを搭載できます。そして,8台または16台の2.5インチSASディスクを搭載できるます。ネットワークは4チャネルのGbEとオプションで2チャネルの10GbEた付きます。I/O接続は4チャネルのx8 PCIeと2チャネルのx8 PCIeがあり,後者はXAUIにすることもできるようになっています。

  そして,T3-2は2個のCPUチップを搭載し,3Uサイズで,合計32枚のDIMMを搭載できます。しかし,ディスクは6台しか搭載できません。最上位のT3-4は4個のCPUを搭載し,5Uサイズで,64枚のDIMMと8台のディスクを搭載できます。

  更に,T3-1とほぼ同じ構成で,SunのSun Blade 6000ブレードシャシーに入るT3-1Bというモデルがあります。

  T3-1からT3-4とCPUは増えて行くのですが,ディスクの搭載はT3-1が一番多くなっています。これは,ExaDataやExaLogicのような製品で,T3-1はCPU付のディスクノード,T3-2やT3-4は多数のスレッドを使う処理ノードとして使うという明確なイメージがあるからだと思われます。Oracleの作戦は,ハードとソフトを一体化して最適化した製品で差別化というもので,iPhoneやiPadでインテグレートされた製品を売るAppleと似た面があります。統合製品と,ユーザが標準製品の中から最高のコストパフォーマンスの製品を組み合わせてシステムを作るという両極のアプローチの間で,時代とともに,振り子のように揺れるのですが,どうも,最近では統合化の方に振り子が振れてきているようです。

2.OracleのSPARCプロセサロードマップ

  また,2010年9月22日のマイコミジャーナルの記事にSPARCサーバのロードマップのスライドが載っています 。Tシリーズは2011年後半にシングルスレッド性能を3倍に向上し,21023年には8ソケットまで規模を拡大し,スループットを3倍にする計画です。

  一方,富士通製のMシリーズは,2011年前半に現状と同じ1〜64ソケットで20%の性能アップ,2012年にはシングルスレッド性能を1.5倍に改善し,スループットは6倍,さらに2014年にはスループットを2倍に引き上げるという計画になっています。2011年前半はクロックアップとマイナーチェンジ程度で,2012年には28nm程度のプロセスでコア数4倍,シングルスレッド性能1.5倍のコアを投入すると思われます。そして,2014年は半導体のシュリンクで2倍のコア数にしてスループット2倍という感じではないかと思われます。

  そして,2015年のロードマップはシリーズ名が無く,単にSPARCとなっており,1〜64ソケットでシングルスレッド1.5倍,スループット2倍となっています。順番から行くと ここはTシリーズの筈ですが,それを明記していないのは,ここで富士通からのMシリーズ供給の契約が切れるからではないかと推測されます。昨年から富士通とOracleが契約の延長について話し合っていることは報道されており,標準的な5ヶ年契約とすれば辻褄が合います。

3.NVIDIAがGPUロードマップを発表

  2010年9月21日のThe RegisterなどがNVIDIAのGPU Technical Conferenceに於けるGPUロードマップの発表を報じています。それによると,現在のFermiに続いて,来年には,28nmプロセスで製造するKeplerを出し,2013年にはMaxwellを出すとのことです。開発コードネームは高名な物理学者シリーズです。

  CEOのHuang氏によると,Keplerは現在のFermiに比べてPerf/Wは4倍,チップの電力は同じなので,結果としてチップ当たりの性能は4倍とのことです。そして,Maxwellは更に,その4倍とのことです。また,単純にFlops値を上げるだけでなく,プリエンプションや仮想メモリサポートなどを加えて,CPUと緊密に連携できるようにしていくと述べています。

  9月23日のEE Timesの記事は,タブレッドやスマートフォン市場ではx86ベースでなくARMベースになるので,NVIDIAのTegraが勝つというHuang氏の話を報じる記事ですが,その中で,John Peddie Researchの2010年のハイエンドグラフィックスチップのコンピューティング向けの出荷量の推定が15万個と述べられています。また,NVIDAの4半期のGPU出荷量が1200万個と書かれています。HPC向けの個数の大部分がNVIDIAのものとしても,年間の出荷量の1/400で,単価は高いとしても,現状の売り上げとしてはごくわずかという感じです。

4.Sandy Bridge補遺

  2010年9月22日のPC Watchに後藤さんがSandy Bridgeについて書いておられます。それによるとNehlemではレジスタからの2本の128ビットのオペランドの読み出しが,一方はSIMD FP演算ユニット,もう一方がSIMD INT演算ユニットに繋がっていたのを,Sandy Brideでは256ビットのAVXのHigh側とAVXのLow側に使うことによりハードを節約しているという説明になっています。

  しかし,これだけでは1サイクルで256ビットのFP乗算,256ビットのFP加算と256ビットのロードができるというスライドに書かれている性能は出せません。FP乗算用の256ビットのオペランドとFP加算用の256ビットのオペランドを並列に読み出す必要があるので,もし,従来の128ビット幅の2つのポートをAVX FP乗算の上位,下位に使ったとすると,AVX FP加算用には別のポートペアが必要になってしまいます。ポート数を増やすより,ビット幅を増やす方がコストが少ないので,これは考えにくい選択です。レイアウト的にはこのような感じもあるのかも知れませんが,私は眉唾な発表だと思います。

 はっきりしたのは,AVXを実装したSandy Bridgeのコアは256ビットのSIMD乗算とSIMD加算を毎サイクル1回実行できるという点で,これは64ビットの倍精度浮動小数点演算のピーク性能としては8Flopとなります。これに対してAMDのBulldozerは,128ビットの積和演算パイプ2本が2個の整数コアで共有されているので,整数コアあたりでは倍精度のピーク演算性能は4Flopと半分の性能しかありません。もちろん,コアの面積やクロック周波数がどうなるかによるのですが, 同一コア数なら,スパコンではSandy Bridgeの方がBulldozerより有利なようです。

5.バッファローのNASは真面目にやって欲しい

  私事で恐縮ですが,バッファローのリンクステーションというNAS(Network Attached Storage)を何世代か使っています。数か月前に4本のディスクを搭載してRAID5の組めるモデルを買ったのですが,この夏の猛暑に耐えきれなかったのか,故障してしまい修理に出しました。

  まあ,修理にあたってデータは保証しないというのは常套句ですが,結局,コントローラのハード故障ということで,新品が送り返されてきました。ハード故障に対してもデータを守るというコンセプトの製品と思って買ったのですが,そういう姿勢は微塵も感じられませんでした。

  NASにUSBディスクを付けてローカルにバックアップしているのですが,それほど頻度が高くない設定だったので,最近のデータが失われてしまいました。そして,NASからUSBディスクへのバックアップはできるのですが,今回のようなケースでのUSBからNASへの復元機能が全くありません。従って,普通のファイルコピーで転送するしかありません。USBディスクから読んでNASにデータを送り,それをGbE経由でCPUに送り,それを,また,GbE経由でNASに書き込むという動作で,これでテラバイトをコピーするとえらく時間が掛かります。

  我が家のネットワーク構成のせいもあるのかも知れませんが,PCからNASが見えなくなるケースも頻発するし,ほぼ1日かかるディスクチェックの途中では電源ボタンの長押しでも電源がオフできません。その他色々,バッファローのファームには信頼が置けませんし,マニュアルにもこうしたことは書いて無くて不親切です。

  読者の皆様で,他社のNASは,ここで書いたような問題は無く,信頼して使えるというような情報をお持ちの方は andosprocinfo@yahoo.co.jp までメールを戴けると,誠にありがたく存じます。個人使用ですが,取材データや原稿などもあり,データ保全はお仕事に関わる重要問題です。

6.ENIACの乗算速度は?

  世界初の電子式コンピュータというタイトルはABCに奪われましたが,電子式コンピュータ初期の超大型機であるENIACですが,Wikipediaでは,10進10桁の整数の加算は毎秒5000回,乗算は14回となっています。また,Unisys社の”ENIAC誕生50周年物語”というページにも同じ数字が あります。

 しかし,スミソニアン博物館にあるENIACのプレスリリース文によると,加算は1/5000秒となっており,一致していますが,乗算は1/360秒と大幅に違います。また,プレスリリースでは9桁の商を求める除算や開平演算は1/38秒となっています。また,Wikipediaにもリンクが掲載されているThe ENIAC Storyには元のタイミングパルスは100KHzで,20パルスで1回の加算と書かれています。10進10桁なので,各桁の加算と10進補正に1パルスづつ使うとすると計算が合います。そして,この20パルスを周期として,200usをクロックサイクルとしています。

 掛け算ですが,乗算器は九九表を備えており,被乗数と乗数の1ケタの掛け算を加算1回の時間で求められると書かれています。但し,九九の10の桁と1の桁は別々に並列に加算し,最後に10の桁の和と1の桁の和を足して,積を求めるとなっています。そして乗算時間は2.6ミリ秒となっています。これは約1/385でプレスリリースよりも若干速いのですが, ほぼあっています。この2.6msは13クロックですが,14クロックと書かれた文献もあり,この場合は1/357秒でこちらの方がプレスリリースに近い数字になります。

 この2つの資料は13クロックと14クロックと少し異なっていますが,どちらも詳細なメカニズムが書かれており,技術的に信頼できる感じの資料です。

  私の調べた限りでは,Wikipedaiでも英文のページには毎秒最大385回となっており,こちらは13クロックに対応します。その他のページでも約3msとか毎秒300回とかいう数字を上げているものが多いという状況です。

  ということで,日本のページの14回という数字はどこから出てきたのでしょうね。しかし,ENIACを作ったMauckleyとEckertの設立した会社の流れを引くUnisysの資料が違っているというのはショックです。それとも社内資料として,実は毎秒14回しか掛け算は出来なかったというものがあるのでしょうかね。

 

inserted by FC2 system