最近の話題 2013年9月21日
1.AppleのA7 SoCはSamsung製
2013年9月11日にAppleはiPhone5Sと5Cを発表しました。廉価版の5CはiPhone5のケースをカラフルにした感じですが,5Sは新SoCであるA7が搭載されています。A7はARMv8の64ビットアーキテクチャのプロセサで,モバイルでは初のARMv8チップですし,ARMv8の初めての量産チップと言えます。
ただし,現在のiPhoneなどの搭載メモリからいうと32ビットで間に合うので,64ビットにしたから性能的に得することは殆ど無く,搭載メモリが4GBを超える数年後をにらんだ先行投資と思われます。
A7はチップサイズが102mm2で,トランジスタ数は1B以上と発表されています。Appleがこのような情報を出すのは初めてです。
そして,9月20日にChipworksが待望の解体結果を発表しました。それによるとチップはSamsung製で,TSMCには移っていないようです。A6は32nmプロセスで,コンタクト付きのゲートピッチが123nmであったのに対して,A7は114nmになっている。これはExynos 5410と同じであり,製造プロセスはSamsungの28nmのHKMGプロセスと結論付けています。
A6のチップサイズは97mm2で,チップサイズの多少の増加と32→28nmの違いを考慮すると,約37%多くのトランジスタを載せられる計算です。これでARMv8の64ビットアーキテクチャを実装していると考えられます。A6からAppleは自社設計のコアを使っており,A7もARMのCortex-A57ではなく,A6コアベースの設計ではないかと思われます。
Chipworksの公開した写真をみると,A7はA6と同じデュアルコアと思われます。クロックは,Anandtechの測定では1.3GHzとなっています。
そして,5SはM7というコプロセサを積んでいます。M7はモーションセンサーの情報を連続的に処理し,新しい世代の健康やフィットネス関係のアプリを実現を可能にすると発表されています。
このM7はARMのCortex-M3ベースのNXP製のチップです。そして,3軸のMEMS加速度計はBosh Sensortech,3軸ジャイロはSTMicro,地磁気をセンスする3軸コンパスはAsahi Kasei Microdevices製とのことです。
2.TSMCが16nm FinFETプロセスの設計フローを発表
2013年9月18日のマイナビが,TSMの16nm FinFETプロセスのリファレンスフローの発表を報じています。基本的に16nm FinFETプロセスのライブラリや設計ツールなどが一通り揃い,ユーザが設計を開始できる状態になったことを示すものです。
TSMCの16nmは,トランジスタをFinFETに変え,トランジスタは16nmにするのですが,配線は20nmのままと言われており,全体的な配置配線などメタル層より上は,20nm世代のものがそのまま使えます。一方,FinFETになることによるトランジスタサイズの量子化,低Vdd動作,エレクトロマイグレーション,パワーマネジメントなどでは変更が必要であり,これらの対応を行っているとのことです。
そして,ARM Cortex-A15チップを使って,設計フローの検証が行われているとのことです。
また,TSVを使う3Dスタック対応のリファレンスフローも発表されました。
3.HaswellのIris GPU
2013年9月17日と18日のマイナビが,HaswellのIris Graphicsに関する記事を掲載しています。Iris Graphicsのブロックダイヤは昨年のIDFでも発表されていましたが,その中身は詳しくは発表されていませんでした。
しかし,今年のIDF13では,Iris GrphicsでのOpenCLサポートが発表され,プログラムの最適化に関する発表がありました。この情報が出てくると内部構造や動きが分かってきます。
全体としての動きは,NVIDIAのGPUやAMDのGCNアーキテクチャと同じで,SIMTになっていて,Xeon PhiのようなSIMDベクタではありませんでした。
最上位のGT3の場合は,サブスライスと呼ぶ単位が4個搭載されており,各サブスライスに10個のEUが入っています。そしてEUは4並列の積和演算器を2組持っています。8積和演算×2演算(積と和)×10EU×4=640演算/サイクル,そしてIris Pro 5200のクロックは1.3GHzなので,ピーク演算性能は832GFlopsとなります。これはAMDのRichland APUを超える性能でCPUチップに搭載されたGPUとしては,業界,最高性能です。
なお,この性能は単精度と思われ,倍精度のサポートの有無については言及がありませんでした。
各EUは4並列の演算器で2サイクル同じ演算を行い,論理的に8SIMD,4命令同じ演算の16SIMD,8命令連続の32SIMDの3つの動作モードを持ち,それぞれのSIMDレーンがSIMTで1ワークアイテムを実行します。従って,40EUで7スレッド,最大で32レーンの動作モードの場合,8960ワークアイテムを並列に実行できます。
そして,GT3eでは128MBのeDRAMの4次キャッシュが付きます。このキャッシュはVictim CacheとしてLLCに付き,CPU,GPUで共通に使用されます。
4.Hot Chips 25のレポート
宣伝ですが,マイナビでは私のHot Chipsのレポートを掲載しています。現在,12回分が公開されており,もうしばらく続く予定です。こちらもよろしくお願いします。