最近の話題 2011年10月22日

最近の話題 2011年10月22日

１．牧野先生のExaFlopsスパコン検討資料

　　東工大の牧野先生が，ExaFlopsスパコンのアプリケーション作業部会のスペック検討サブWGでの発表資料を公開されています。

　　興味深いのは，考えられる4タイプの仕様が次のように書かれている点です。

　　ベースラインは京のような一般的なスパコン，SoCは計算部と少容量のメモリをワンチップにしたようなアプローチ，アクセラレータはSoCをベースラインシステムに接続，そしてバンド幅重視はベクトルスパコン派の人がいうような高メモリバンド幅マシンです。

　　そして，アプリケーションの分析では，それぞれのタイプが最適というものが3:1:2:4程度の比率となったと書かれています。ただし，アルゴリズムの検討が不十分な場合はバンド幅要求は高くなる傾向にあると書かれています。

　　また，20MWの消費電力という条件で考えると，バンド幅重視のマシンはベースラインと比べると，メモリバンド幅は1.5倍ですが，演算性能は0.15倍ということになります。もちろん，メモリバンド幅が律速という部分に対しては1.5倍速いのですが，演算性能が問題という部分では6～7倍の時間が掛るので，アプリの中で演算性能が律速になる部分がベースラインマシンで1/7かそれ以下の比率の問題でないと速くなりません。このような考慮をした場合でもバンド幅重視マシンが最適というアプリが40%あるのかどうかは，私はちょっと疑問ではないかと思います。

　　ただし，グラフ問題のようにメモリのランダムアクセス性能が効くという問題も重要になってきており，こういうタイプのスパコンも考える必要がありそうです。しかし，スパコンも規模の増大から開発，建造コストも膨大になってきており，LHCやALMA電波望遠鏡のように世界各国で分担や協力して作るということにならざるを得なくなるのではないでしょうか。

２．ARMとTSMCが20nmプロセスのCortex-A15MPをテープアウト

　　2011年10月18日にARMとTSMCは，TSMCの20nmプロセスで設計されたCortex-A15プロセサをテープアウトしたと発表しました。つまり，TSMCの20nmプロセスCortex-A15の実装に必要なIPが設計され，TSMCの20nmプロセスのLSIの設計環境が一応はできたということを示しています。そして，このチップがちゃんと動くことが実証されると，他の会社がCortex-A15を含むASICをTSMCの20nmプロセスで作ることが可能になります。

　　20nmプロセスの使用により，以前の世代のプロセスのものと比べて2倍以上の性能が得られると書かれていますが，具体的な話は書かれていません。

３．ARMがCortex-A7MPCoreとbig.LITTLE処理を発表

　　2011年10月19日にARMはCortex-A7と呼ぶ小型の省電力コアと，このCortex-A7とハイエンドのCortex-A15を組み合わせて高い性能と低い消費電力を可能とするbig.LITTLEと呼ぶ構成を発表しました。

　　発表文では，Cortex-A7は現在のスマートフォンなどに使われているCortex-A8と比較すると，エネルギー効率は5倍，チップサイズは1/5（28nmプロセスで0.5平方mm以下）であるが，大幅に高い性能を提供すると書かれています。

　　このA7とA15をメモリ共用のヘテロジニアスMP構成とし，負荷の軽い処理をやっているときはA7を動かし消費電力を低減し，負荷の高いビデオ処理やゲームなどを実行する時は高性能のA15を動かすというようにすることで，高性能と低消費電力を実現するというものです。このA7とA15の切り替えは，ソフトウェアからみると殆どトランスペアレントで，必要時間は20マイクロ秒とのことです。

　　2011年10月20日のThe Registerが，より詳しい記事を載せており，それによるとA7はインオーダ処理で整数演算の場合8段のパイプラインとなっています。一方，A15はOut-of-Orderで最大3命令を並列処理し，整数演算の場合は15段のパイプラインとなっています。そして両プロセサの電力，性能のグラフが示されています。グラフの両方の軸の数値が書かれていないのですが，原点は(0,0)で，目盛はリニアと思うと，A15は1.3目盛から3.3目盛の性能を1.2目盛から4.8目盛程度の電力で実現しています。一方，A7は0.7目盛から1.6目盛程度の性能を0.2目盛から0.7目盛程度の電力で実現しています。

　　つまり，1.6目盛以下の性能で良い場合は，A7に切り替えると消費電力は半減以下になることになります。そして，負荷の高い場合は，A15を動かせば，A7の最高性能の2倍程度の性能までカバーできるということになります。しかし，この2倍の性能を出すためには6～7倍の電力が必要です。

　　ブロードコム，Compal，フリースケール，HiSilicon，LGエレクトロニクス，Linaro，OK Lab，QNX，レッドベンド，サムスン，Sprint，ST-エリクソン，テキサス・インスツルメンツなどのARMパートナがこのbig.LITTLE処理を支持していると書かれています。

　　nVIDIAの次世代のTegraプロセサであるKal-Elは高性能のA9　4コアに低クロック，低電力のA9コアをもう一つ加えることで，低負荷時の電力低減を行うことになっていますが，のbig.LITTLEはそれを一歩押し進めて省電力用のA7コアで電力を削減しています。