最近の話題 2011年6月18日

1.AMDがAシリーズAPUを発表

  2011年6月14日のAMDはLlanonoコードネームで開発していFusion APUをAシリーズという正式名称で発表しました。AシリーズはA8,A6,A4のサブシリーズがあり,A8はIntelのi7,A6はi5,A4はi3対抗という位置づけの命名です。

  最上位のA8-3530MXは,プロセサコアは4個,GPUのSP数は400で,CPUクロックは1.9GHz(ターボ時最大2.6GHz),GPUクロックは444MHzで,消費電力は45Wとなっています。そして,A8-3510MXが1.8GHzクロックで45W,A8-3500Mが1.5GHzクロックでで35Wとなっています。

  そしてA6は3410MXが4コア1.6GHz,GPUは320SPで400MHzクロックとなり,消費電力は45W,A6-3400Mはクロックが1.4GHzで35Wとなっています。A4-3310MXはCPUコアが2コアとなりますが,クロックは2.1GHzとなり,GPUも240SPに減りますが,クロックは444MHzとなります。しかし,電力は45Wです。最後のA4-3300Mは同じく2コアでクロックが1.9GHzで35Wというラインアップです。

  今年1月8日の話題で紹介したEシリーズの上位にあたるAPUで,EシリーズはBobcat 2コアで80SPであるのと比べると,かなr,ハードが潤沢になっています。プロセサコアはMDがStarsコアと呼ぶK10系のコアで,アーキテクチャ的には古いのですが,半導体プロセスは32nm SOIとなり,Intelが22nmを出すまでの半年程度ですが,微細化の程度ではIntelと並ぶことになりました。

  Aシリーズの中身については2011年6月14日のPCWatchの後藤さんの記事が詳しいと思います。CPUは前述のように前世代のコアのテクノロジマップですが,リオーダバッファのエントリ数の増加,除算のハードウェア化やFP演算のレーテンシの短縮などの性能向上や消費電力の低減が図られているとのことです。

  AシリーズAPUでは最大400SPとかなり大きなGPUを搭載し,444MHzのクロックの場合の,単精度浮動小数点のピーク演算能力は355GFlopsに達します。ただし,メモリはDDR3-1333が2チャネルで,ピークで25.6GB/sです。

  IntelのSandy Bridgeはリングバスでコア間を接続していますが,Llanoはクロスバを使っています。そして,GPUは2つのメモリバスを持ち,一方はGPUからメモリコントローラに直結するRadeon Memory Busで,実効帯域はReadが17GB/s,Writeが12GB/sとのことです。そして,もう一つがCPUとのキャッシュコヒーレンシを維持するFusion Compute Linkだそうです。CPUと緊密に連携したOpenCLなどn計算処理には便利そうです。しかし,こちらはバンド幅が制約されます。

  チップ面積の半分程度を占める大型のGPUを搭載し,キャッシュコヒーレンシをとるなど計算向けにGPUを使うという面で配慮がなされたAPUであることは評価できますが,一般にGPUが高性能なのは演算器が多いことに加えてGDDRメモリを使うメモリバンド幅が高いことが効いているのですが,Llanoではメモリバンド幅は普通のCPU並みなので,高性能が得られるのはメモリアクセスが少なく演算が多いという処理に限られます。

2.ConveyがGraph 500ベンチマークで773MTEPSを達成

  Convey社のHC-1はx86プロセサとFSBで結合されたFPGAを持ち,FPGAの機能を用途むきに構成することにより高性能を達成するアクセラレータですが,2011年6月16日のHPC Wireが,改良版のHC-1exを使ってScale 27の問題規模で773MTEPSを達成したと報じています。

  当初のHC-1はXilinxのVertex5を4個搭載していたのですが,HC-1exではVertex6を4個になっています。これらのFPGAには各2個のメモリコントローラを内蔵し,DIMMを4ストリングサポートしています。従って,FPGAアクセラレータ全体では16DIMMチャネルを並列にアクセスできるので,Graph 500のようにメモリのあちこちをランダムにアクセスするような用途では性能を発揮します。

  昨年11月のGraph500の発表には9システムしかランクされていないのですが,その中でScale27(Toy+)の問題の性能を登録しているのはJaguarの512ノードシステムで,性能は800MTEPSです。ということは,Conveyの1ノード(4コアXeon1個とVertex6 4個)で同程度の性能を出しているということで,かなり効率が良いと言えます。しかし,Toy+クラスの小規模な問題で良い性能が得られたからといっても,これでどれだけ意味があるのかは分かりません。

3.ロシアのLomonosovシステムが1.3PFlopsに

  2011年6月15日のThe Registerが,ロシアのモスクワ州立大のLomonosovシステムに1554台のNVIDIAのX2070と同数の4コアXeonを搭載すると報じています。今回の増設分の性能は850TFlopsで,既設の分を含めると,全体でのピーク演算性能は1.3PFlopsとなります。

  製造はロシアのスパコンメーカーのT Systems社です。既設分のブレードは6コアのXeon 5670を使っているのですが,GPUを搭載するT-Blade 2 TLブレードではCPUは4コアのXeon L5630が2個となっており,クロックは2.93GHzから2.13GHz,コア数は6から4にダウングレードしています。しかし,この手のシステムではCPUはGPUのお守りが仕事ですから,この程度の性能で電力が少ない方が望ましいのでしょう。

  1枚のブレードの2個のL5630とX2070を搭載しており,7Uのブレードシャシーに16枚のブレードが収容できるので16.5TFlopsのピーク演算性能となります。消費電力は12kWだそうです。

4.SuVoltaのPowerShrink(続)

  先週の話題で紹介したSuVoltaのPowerShrinkですが,2011年6月16日のマイコミに詳しい記事が掲載されています。

  調査したところ日本の特許公開広報にあたる米国特許庁の公開情報があることが分かりました。ということで,調査記事を書きました。やはり,空乏層の伸びる低ドープのウェルを使っているのですが,その下にVt調整層とスクリーニング層というのがあるところがミソで,これらの層の厚みとドーピング量を正確にコントロールすることでVtのばらつきを抑えているようです。

  高ドープのスクリーニング層で空乏層の伸びが止まるのは当然ですが,スクリーニング層の不純物の原子数がばらついてVtがばらつくと思うのですが,非常に高ドープで不純物原子の個数が多いので,相対的にばらつきが抑えられているということなのでしょうかね。

inserted by FC2 system