最近の話題 2013年8月24日

最近の話題 2013年8月24日

１．Samsungの3次元NAND　（追加）

　　8月10日の話題でSamsungの3D NANDを紹介し，24層の露光はコストが高いのではないかと書いたのですが，2013年8月19日のPC Watchの後藤さんの記事を見て，分かりました。

　　NANDは記憶セルのトランジスタを数多く，直列に接続して記憶密度を高めています。通常のトランジスタではソース，ドレインは拡散で作りますが，NANDの場合は，固定バイアスをかけたゲートでP-の基板表面をN型に反転させてソース，ドレインを作っています。

　　つまり，3D積層した場合，ソース，ドレインとなる層の部分は，全部のトランジスタのソース，ドレイン部にシリコン表面を反転させるバイアスをかけられば良く，特別なパターニングは必要ありません。このため，3Dトランジスタは，ソース，ドレインになる層は，一面の導電層とし，記憶トランジスタとなる層のコントロールゲートは，チップ全体とはいかないにしてもかなりのワード数（穴の数）まとめて繋がっており，かなり粗いパターニングで済みそうなので，露光コストを抑えられます。

　　そして，24層を通す穴を開け，穴の内壁にチャージをトラップして情報を記憶する，多分，多層構成のゲート絶縁物，中心にシリコンチャネルを形成すれば，3Dのトランジスタスタックが作れます。

　　3DのNAND Flashは東芝が最初に発表したのですが，商品化ではSamsungが一歩先となりました。また，Hynix，Micronも開発を進めており，Flashは3D時代に突入しそうです。

　　しかし，後藤さんの記事のSamsungのロードマップでは，3xnmのプロセスに留まって層数を増やすことになっており，2013年は24層で128Gbit，2017年は1Tbitとなっています。微細化を同じとすると192層ですが，本当でしょうかね。まあ，今回の2bit/cellから3bit/cellにすれば128層ですが，やはり層数を増やすのは，層数比例でコストアップになる加工があり，微細化に比べて安くならないという気がします。今後，Flashのビット単価のカーブは変わってくるのでしょうか？

また，8月23日のPCWatchに後藤さんの続編が掲載されていますが，やはり，アスペクトレシオの高い穴あけと内壁への均一性の高い成膜は大変のようです。そして，階段型にエッチするには，各層でLitho-Etchを必要とするので手間もかかりそうです。面白かったのはAMATの資料で，従来は微細化の先頭を走るNANDはASMLの先端露光機のビッグカストマだったのが，3Dになると，微細化の必要度が落ちる一方，エッチや階段コンタクトの形成が重要になり，AMATの方に売り上げが移るというスライドです。

２．Xeon PhiはGPUより使い易い

　　2013年8月20日のHPC Wireが，HPC500のメンバーの意見調査の結果を報じています。メンバーは学会，政府，企業などのHPCのプロで，今回の調査はプロセサアーキテクチャに関するものです。

　　回答者の大部分はGPUやXeon Phiを使った経験があり，CPUのアプリケーションを移植する手間を比較すると，やはり，Xeon Phiのほうが簡単という意見が大部分で，GPUは人月の単位なのに対してXeon Phiは人週の単位という意見もあります。

　　Xeon Phiは最初の移植は簡単でも，チューニングする手間を含めるとGPUと変わらないという意見もありますが，Xeon Phiは徐々にチューニングして性能を上げていけるのに対して，GPUへのアプリ移植は，動かすだけでかなりの手間が掛かるAll-or-Nothingで，Xeon Phiの方が将来が期待できるという意見が多いようです。

　　ARMベースのサーバに関しては，エンバラッシングリーパラレルのアプリケーションを持つ一つのユーザは，消費電力が小さい点とコストが安い点でARMベースのサーバに期待を持っています。しかし，HPC Wireの記事では，広汎なサポートは感じられず，大部分のメンバーの態度は様子見と言う感じです。

　　そして，AMDに関しては，大部分の回答者は，AMDはHPCマーケットから離脱したと考えているとのことです。

　　つまり，汎用品を使うHPCでは，当面はIntelのXeonとXeon Phi，そしてNVIDIAのTesla系列のGPUを見ていれば良いようです。

３．九大情報基盤センターがKepler GPUを増設

　　2013年8月22日に九大は富士通，NVIDIAと共同で，情報基盤センターのスパコンにNVIDIAのKepler GPUを増設して性能を大幅にアップしたと発表しました。

　　富士通のPRIMERGY CX400　1476ノードノードからなる345.6TFlopsのクラスタに，NVIDIAのK20を240台，K20Xを16台増設し，ピーク演算性能を812TFlopsまで引き上げています。

　　しかし，このシステムはLinpackで621TFlopsを出し，今年6月のTop500で43位にランクされています。つまり，5月頃にはLinpackが計れる程度には動いていた筈で，8月も終わりになって発表したということは，やっと検収が終わって，売り上げが立つようになったということでしょうか？

　　1476ノードの内の256ノードだけのGPU増設というは，やはり，共同利用センターでは，GPUを使う人は，急には増えないということでしょうか。