最近の話題 2012年3月3日

.1.ISSCC2012での3D実装プロセサの発表

1.1. Georgia工科大が3D実装64コアプロセサを発表

  2012年のISSCCにおいてGeorgia工科大は,論文10.6の"3D-MAPS: 3D Massively Parallel Processor With Stacked Memory"というメモリチップとCPUチップを3D積層するプロセサを発表しまた。この論文は,韓国のKAISTとLSIの テストやパッケージングなどを行うAmkor社との共著となっています。この発表を2012年2月23日のTech On!が報じています。

  それによると,765umの厚みのメモリチップの上に12umという薄いプロセサチップを載せるという構造で,メモリチップとプロセサチップはTezzaron社の技術を使ってFace-to-Faceボンディングで接続されています。接続を行うCuピラーは直径が3.4um,ピッチは5umと微細で,接続点数は約5万点とのことです。そしてプロセサチップの上にヒートシンクが付いています。

  そして薄いプロセサチップはTSVで裏側にIO端子を出し,ワイヤーボンドでメモリチップの下のパッケージに接続されています。記事ではTSVの直径は1.2um,ピッチは5umとなっていますが,IOの引き出しだけであれば,これほどの微細なTSVは不要で,第2版のチップにむけての準備と思われます。

  メモリチップは256KBのSRAMで,プロセサは5段パイプラインで2命令並列のLIWで,Global Foundries社の130nmプロセスで製造され,64コアのチップの面積は25mm2,トランジスタ数は約33Mとなっています。電源電圧1.5Vで277MHzで動作し,最大消費電力は6.3Wと書かれています。

  今回は2チップをF2Fで接続し,TSVはIOの引き出しに使っているだけですが,CPU 2チップとメモリ 3チップをTSVで接続する第2版の開発を進めているとのことです。

1.2 ミシガン大が3D実装で,低電圧動作の64コアプロセサを発表

  2012年2月24日のThe Registerが,ISSCC2012の10.7で発表されたミシガン大の3D実装プロセサCentip3Deについて報じています。

  プロセサ層のチップはARMの組み込み用のCortex-M3コアを32個集積し,これらのプロセサコアはNear Threshold Voltageの低電圧で動作します。そしてキャッシュ層のチップは,SRAMを安定に動作させるためにプロセサより高い電源電圧で動作させ,プロセサの4倍のクロックで動作し,4個のプロセサコアをサポートする構造になっています。

  Centip3De全体では,2つのキャッシュ層の上下にプロセサ層を配置し,下側のプロセサ層の下に,DRAMコントローラ層と2層のDRAMメモリ層を接続する7層構造になっています。この接続ですが,プロセサ層とキャッシュ層はFace-to-Faceで接続し,キャシュ層同士はBack-to-Backで接続となっています。F2F接続もB2B接続もピッチは5umですが,DRAMとの接続は25umピッチとなっています。

  プロセサ層のテクノロジは130nmで,28.4MTrを12.66×5mmのチップに収容しています。また,プロセサ層チップの厚みは12umとなっています。Near Thresholdの低い電圧なので,コアのクロックは10MHz,キャッシュのクロックは40MHzとなっています。

2.ISSC2012でのその他のプロセサの発表

2.1 復旦大学の16コアプロセサ

  2012年のISSCCにおいて,上海の復旦大学は3.5の"An 800MHz 320mW 16-Core Processor with Message-Passing and Shared-Memory Inter-Core Communication Mechanism"という発表を行いました。2012年2月21日のSemiAccurateが報じています。

  PCoreとよぶ16個のプロセサコアとMCoreと呼ぶ2個のシェアードメモリのコアがメッシュインタコネクトで接続されているという構造になっています。そして,メールボックスを用いたメッセージパッシングで通信を行います。MCoreのシェアードメモリがどのように動くのかは,SemiAccurateの記事からは,良くわかりません。

  各プロセサコアはキャッシュは持たず,レジスタファイルを強化した作りになっているとのことです。

  TSMCの65nmのLプロセスで製造されており,最大動作クロックは800MHzとなっています。電源電圧1.2Vで750MHzクロックで動かした場合,コアの消費電力は34mWとなっています。これが16コアあると500mWを超えますが,論文のタイトルの320mWはどういう条件の電力なのでしょうね。

2.2 Intelは無線トランシーバとAtomをワンチップに集積

  論文3.4でIntelはデュアルコアのAtomプロセサとWifi用の2.4GHzの無線トランシーバを集積したチップを発表しました。無線受信側の最初のLNA(Low Noise Amplifier)はアナログですが,それ以外は,送信機の終段を含めてディジタルというトランシーバは注目されます。

  しかし,このチップはIntel Labの実験チップで,無線LANとCPUを同一チップに集積した製品の登場時期は不明とのことです。

2.3 OracleがT4プロセサを発表

  Oracle(旧Sun)はUltraSPARC T4プロセサを論文3.3で発表しました。2012年2月22日のPC Watchの後藤さんの記事同日のTech On!などがカバーしていますが,今回のISSCC20112での発表はCAMやレジスタファイルの省電力設計が中心で,チップ全体の構成については昨年8月のHot Chipsでの発表から新しい情報は無かったようです。

  ISSCCのCCはCircuit Conferenceで回路の話をするのは至極まっとうなのですが,マスコミの受けはあまり良くないようです。

2.4 Caviumの32コアMIPSプロセサ

  Cavium社は論文3.2で32コアのMIPSプロセサを発表しました。2012年2月22日のPC Watchの後藤さんの記事が少しカバーしています。

  65nmプロセスで製造され,2命令発行のMIPS64コアを32コアと4MBの共有L2キャッシュを集積しています。クロックは1.6GHzで消費電力は40〜65Wとなっています。チップ写真の左側の1/4はアクセラレータと書かれていますが,どのような機能かについては書かれていません。

2.5 富士通,理研の京のSPARC64 [fxの発表

  富士通と理研は論文10.8で京コンピュータのSPARC64 [fxプロセサを発表しました。2012年2月22日のTech On!が報じています。リーク電流に応じて電源電圧を調整していると書かれていますが,これはIntelなどのプロセサでも既にやられていることで,新味はありません。

  また,水冷でチップ温度を30℃に下げ,空冷の場合の85℃に比べて消費電力を7W低減し,システム全体で1MW削減したとのことです。これで年間の電気代は約$1Mの節減できるとのことで,水冷のコストの元が取れる感じです。

  LINPACKの実行に33.3時間を要するので各ノードの故障率は36fit以下にする必要があると書かれており,これから計算すると,33.3時間の内に故障が発生する確率を0.1にすることが目安とされているようです。まあ,これなら1回目のランで故障が発生し,次の回にも故障で失敗する確率は1%で,99%の場合,2回 以下のランで結果が得られます。

  この故障率を達成するため,ECCやエラー検出によるリトライに加えて,浮動小数点レジスタにShallow Trench Isolationを適用することで20fit分の改善を行ったと書かれています。PN接合によるアイソレーションと比較してSTIの方が,中性子ヒットにともなう発生電荷の収集効率を減らすということは考えられますが,STIはいまや普通に使われている技術で,レジスタファイルに特別に導入というのは良くわかりません。

  また,京ではインタコネクトに光を採用しなかったのは信頼度の考慮からと書かれています。GaAs光素子は突然死という不良があり,あまり,信頼度が良くないというのは事実ですが,昨年のSC11でIBMのBlueGene/Q の説明員に聞いたところでは,かなり,良くなってきているという話でした。また,京の商用版であるFX10では計算ノードとローカルファイルシステムとの接続を光に切り替えており, 光の信頼度が問題とすると,FX10は良いのかと疑問になります。

3.AMDがマイクロサーバメーカのSeaMicroを買収

  2012年2月29日のEE Timesが,低電力,高密度サーバのメーカーであるSeaMicroをAMDが買収すると報じています。買収総額は$334Mで,そのうちの$284Mは現金(残りは多分,AMDの株)で支払われるそうです。SeaMicroには私の知り合いも何人かいますが,大金が転がり込むのでしょうね。

  SeaMicro社は2011年7月23日の話題で紹介した10Uの筐体に768コアのAtomを収容するサーバや,今年2月11日の話題で紹介したXeonで256コアを収容するサーバを発売している高密度 マイクロサーバのメーカです。従来,Intelのプロセサを使っているので,AMDが買収というのは驚きですが,SeaMicroのカスタムのインタコネクトLSIはPCI Expressインタフェースなので,AMDのプロセサでも問題なく接続できる筈です。

  これまでのIntelプロセサベースのサーバもサポートするとのことですが,今後はAMDプロセサを使う製品に重点を置き,年末までにAMDプロセサベースの製品を出す予定とのことです。AMDはData Center Server Solutionsビジネスグループ新設して,このビジネスを推進することになります。そして,このビジネスグループのGeneral Managerは,SeaMicroのCEOのFeldman氏が就任するとのことです。

4.Intelが携帯向けのMedfield 2品種を発表

  2012年2月27日にIntelはプレスコンファレンスの中でOtellini CEOが,携帯向けの2種のMdefieldプロセサ,Z2580とZ2000を発表し,既発表のZ2460のAtomプロセサのクロックを1.6GHzから2GHzに引き上げると述べています。

  Z2580はハイエンド向けで,Z2460の2倍の性能を持ち,LTE/2G/3Gのマルチモードに対応しています。一方,Z2000は1GHzのAtomプロセサを搭載する低価格向けで,LTEには対応していません。

  Z2000搭載製品は2013年初め,Z2580搭載製品は2013年前半に出荷の予定です。

  これらの製品は32nmプロセスを使っていますが,2013年には22nmプロセスを使う携帯用のSoCを投入する予定であり,既にその次の14nmのSoCの開発に着手していることを明らかにしました。

5.IntelのIvy Bridgeは6月に遅延か

  2012年2月27日のThe Inquirerが,Ivy Bridgeは,従来の4月出荷の予定が遅延し,多分,6月になるとSean Maloney EVPが述べたと報じています。遅延の理由は,22nmプロセスでの製造の問題だそうです。Intelの22nmプロセスは,従来のプレナー構造のトランジスタから,3次元構造のFinFET(Intelの呼称ではTri-Gate)とトランジスタの製造法を大きく変更しており,これが製造問題の原因と見られています。

  しかし,現在のSandy BridgeでもAMDのBulldozerに対して十分競争力があり,Ivy Bridgeの投入が遅れたからAMDに市場を奪われるという状況ではなく,Intelとしては楽勝です。

6.OakridgeのJaguarが3.3PFlopsにアップグレード完了

  2011年8月13日の話題で紹介したように,Oakridge国立研究所のJaguarは,最終的に10〜20PFlopsのピーク演算性能を持つTitanにアップグレードされる計画ですが,2012年2月29日のHPC Wireが,その第1ステップのアップグレードが完了したと報じています。

  昨年11月のTop500 3位のJaguarはピーク性能2.33PFlopsでしたが,18688ノード全てを,従来の6コアのOpteron×2ソケットのノードを16コアのOpteronにi置き換え,そのうちの960ノードにはNVIDIAのX2090 GPUを接続するというアップグレードを行い,ピーク演算性能を3.3PFlopsに引き上げています。また,インタコネクトがGeminiになって性能が上がり,メモリ容量が600TBとほぼ倍増しているとのことです。

  そして,今年の秋には,全ノードにNVIDIAの新GPUであるKeplerを接続して,10〜20PFlopsに性能を引き上げ,名称もJaguarからTitanに変更する予定です。

7.CrayのYarData部門がuRiKAを発表

  2月11日の話題で紹介したビッグデータ対応の製品開発を行うCrayのYarcData部門が,その最初の製品であるuRiKAグラフアプライアンスを発表したと2012年2月29日のHPC Wireが報じています。

  この製品はグラフ処理向けのハードウェアにSuSE Linuxを始めとして,業界標準の各種ソフトを載せて使いやすくしたものです。ハードウェアとしては,最大512TBのメモリを持ち,128スレッドのプロセサを複数個持つシステムで,CrayのXMTと考えられます。 発表の写真に写っている筐体は1個ですが,複数筐体を使えば,XMTは最大8000チップ,100万スレッドまで拡張できる構成になっています。

  既にいくつかのユーザで,このシステムは稼働しているとのことで,1000万人の患者の医療データから,類似の症例を見つけ出して関連を調べるという使い方が書かれています。このような処理で,今まで分かっていなかった関係が見つかり, 「ユーレカ!」と叫ぶというのが,この製品名の由来と思われます。

  巨大なグラフデータは,新たなデータを追加すると繋がり方が変わるというダイナミックな性質を持ち,また,どのように繋がっているかが分からないので,クラスタのノードに分割してデータを持つということはうまく行きません。そのため,巨大なメモリを共有して多数のスレッドが走るというXMTのアーキテクチャが効いてきます。512TBの共通メインメモリに全データを格納し,100万スレッドで並列にグラフ処理を行えば,これに勝てるシステムはありません。また,最大,毎時350TBのデータをディスクからIngest(読み込み)できると書かれており,メインメモリに入りきらない大規模データでも高い効率を発揮できるようになってい るようです。

8.IBMが量子コンピューティングで大きな進歩を発表

  2012年2月28日のEE TimesなどがIBMの量子コンピューティングに関する発表を報じています。量子のEntanglementを使う量子コンピューティングでは,この2つの離れた位置にある量子の間で同じ状態が保たれるCoherence状態を,実用的な計算を行うには,1ms以上にわたって維持する必要があるとのことです。

  これに対して,IBMは3次元構造のQubitでCoherence状態を95us維持するのに成功し,1msまでほぼ1ケタに迫る成果をあげたとのことです。また,2次元のQubitでも10usのCoherence維持に成功しています。しかし,チップ上に多数のQubitを使る場合は2次元のQubitが必要で,この場合は,1msまで,まだ,2ケタの 改善が必要です。

  もう一つの成果は,Qubitの論理演算が95〜98%成功するControlled NOTゲートを作ったというものです。このくらいの確率で正しい動作をするゲートが作れると,誤り訂正を組み込むことで,正しい動作をする量子コンピュータが作れる可能性が見えてきたとのことです。

  なお,2011年12月10日の話題で紹介したD-wave社の量子コンピュータは,Entanglementや量子ゲートを使わず,Quantum Annealingという全く違う原理で量子コンピューティングを行っています。両者で同じ問題が解けるのかどうか,私にはわかりません。 

inserted by FC2 system