20180811

最近の話題 2018年8月11日

１．IntelがData－Centric Innovation Summitでロードマップを説明

　　2018年8月8日のThe Registerが，Intelのデータセンターロードマップの発表を報じています。

　　まず，2018年の終わりには14nmプロセスのCascade Lakeを出します。売りは不揮発性メモリのOptane DC DIMMのサポート，そしてAI性能を引き上げるDL Boostです。DL BoostはAVX512を拡張するもので，INT8の畳み込み命令を従来よりも高速で実行できるようになり，ResNet-50での画像認識の性能を最大11倍に引き上げるとのことです。

　　そして，2019年にはCooper Lakeを出します。これも14nmプロセスです。売りはIOの改良，Optane DCサポートのエンハンス，DL Boostでbfloat16のサポートして学習にも使えるようにするなどです。しかし，2019年にはAMDの次世代のRome EPYCサーバCPUが出てきます。

　　2020年になるとやっと10nmのIce Lakeが出てきます。Ice Lakeの中身については情報がありませんが，The Registerは新アーキテクチャと書いています。

　　なお，2018年8月9日のHPC Wireにはロードマップも載っており，2019年前半にEOLになるXeon Phiの後継はCascade Lake APと書かれていますが，これも詳細は不明です。

　　また，IntelのグラフはTAM（Total Accessible Market)で書かれており，この内の何パーセントがIntelの売り上げになると見込まれるのかは書かれていません。

２．IntelはサーバCPU市場でAMDに勝てない

　　これだけを見ると，何とか毎年，新製品を出しているように見えますが，2018年8月7日のSemiAccurateは，Intelの製品はAMDのEPYCには全く太刀打ちできず，勝てないと分析しています。

　　最大の問題は10nm（他社の7nmと同等程度）プロセスの遅れで，当初は2015年に量産の予定だったのですが，それが今回の発表では，2020年に遅れています。かつては，他社を3年リードしていたIntelですが，現在では7nmの量産を開始したTSMCやSamsungに抜かれています。

　　そして，一応，2020年には10nm（他社の7nm)プロセスの量産という予定ですが，SemiAccurateは，2015年に言っていた10nmではなく，10/12nmともいうべきプロセスだと言っています。

　　プロセス開発の遅れから，現在のSkylake-SPは，TCOでは前世代のBroadwell-EPと比べて高くなっており，そのため売り上げが下がっていると書いています。そして，Cascade Lakeは（Optane DCサポートとかDL Boostは別と思いますが）新しい点は何もなく，性能の向上も160Wから200WにTDPが増えたことで実現されていると書いています。そして，Skylakeが$13,000であったのに対して，Cascade Lakeは$20,000で，6-8%の性能向上しかないのはジョークと言っています。

　　これに対して，AMDのEPYCはシングルスレッド性能は15%位低いのですが，チップ当たりのコア数が多いのでスループットが高く，PCIeのレーン数やDIMMポート数も多く，お値段は25%安いと書いています。

　それに続くのはCooper Lakeで，Cooper Lakeが出るとAMDとの性能ギャップは若干小さくなります。しかし，Cooper Lakeが出るのはAMDの次世代のRomeより1年程度後になると見られています。また，Cooper Lakeは3ダイ構成でTDPは300Wなので水冷のインフラコストも高くなり，TCOは高くなってしまうと書いています。

そして2020年には10/12nmプロセスのIce Lakeが出てきますが，この頃にはAMDはRomeの次のMilanを出してきます。この結果，少なくとも今後，3～4年はIntelのサーバCPUはAMDに勝てないとSemiAccurateは分析しています。

３．インドのスタートアップがRISC-VやAIコアを開発

　　2018年8月7日のEE Timesが，インドのInCoreというスタートアップが，2種のRISC-VプロセサコアとAIなどのアクセラレータを開発する計画であると報じています。InCore社は，IIT（インド工科大学）Madras校のShaktiプロセサの研究チームがスピンアウトして作られたとのことです。

　　E-シリーズのRISC-Vコアはローエンド製品で，3段のパイプラインで，クロックは200MHz以下とのことです。OSは，FreeRTOSがサポートされているとのことです。C-シリーズは5段のパイプラインで，最大800MHz動作が目標ですが，カストマイズすればクロックを2GHzまで引き上げ，ディアルイシューにもできるそうです。

　　このE-シリーズとC-シリーズのコアは，今年末までには提供される予定です。また，スーパースカラのデュアルイシューコアは来年4月までに提供の予定です。

　　また，Axonシリーズと呼ぶ，AI処理向けのシストリックアレイの積和演算器マトリクスを持つアクセアレータや疎な行列の無効な要素をスキップしてキャッシュアクセスの最適化を行うIPブロックも開発する予定です。

　　また，Aegisシリーズというハードウェアベースのセキュリティー機能のIPブロックも開発するとのことです。

　　そして，これらのIPコアに加えて，コアの組み込みやテストを容易にするツールもリリースする予定とのことです。

　　InCoreは会社としては，これらのIPのライセンスと顧客に変わって設計を行うデザインサービスを収入源とするとのことです。

４．NAND Flash各社がFlash Memory Summitで発表

　　2018年8月8日のEETimesが，Flash Memory Summitでの（不参加のSamsungを除く）NAND各社の発表を報じています。

　　注目は新参の中国のYMTCで，64層のTLCで，100mm²程度のチップサイズで256Gbitとのことです。7月から量産とのことですが，これではSamsungなどに比べて競争力が無く，このチップを本格的に販売するつもりはなさそうです。しかし，18か月以内に128層QLCに増やし，チップ当たり512GbitあるいはTbitに容量を増やし，価格競争力をつける考えです。

　　そして，現在の武漢のファブは10万ウェファ/月の製造能力ですが，第2フェーズでは30万枚/月に拡張するとのことです。この規模になると，NAND Flashメモリの世界の10%～20%のシェアを持つことになります。

　　YMTCのXtackingという方式は，NANDメモリダイとI/Oダイは別個に作り，その2つのウエファの表面側を合わせてメタルコンタクトをボンディングするのだそうです。この方式自体はイメージセンサではかなり前から実用化されています。ただし，イメージセンサの場合は数umとかのピッチですが，Xtackingでは0.1umのピッチとのことです。しかし，記事に断面の電子顕微鏡写真が載っていますが，非常に綺麗にできている感じです。

　　SK Hynixは年内に96層の512Gbitチップを出すと発表しました。また，7月までにTbitのサンプルを出すそうです。これらのチップはチャージトラップ方式で，最大1.2Gbit/s/pinのデータレータをサポートするとのことです。これらのパーツはV5と呼ばれ，V5チップは72層の製品と比べて30%小さいとのことです。そして，Readは25%，Writeは30%高速になり，電力効率は150%になっているそうです。

　　SK Hynixは128層の開発を行っており，将来的には500層を超えるものが作れるとNANDの開発のVPは述べています。

　　東芝は，来年の早い時期に，BiCS Gen 4プロセスを使い96層のQLCで1.33Tbitのチップを出すとのことです。また，東芝はXL-FlashというFlashを発表しました。XL-Flashのランダムアクセス時間は現在のTLCの1/10に高速化されるとのことです。XL-Flashではワード線を短くし，プレーンも増やしているとのことです。

　　Micronは次世代のNAND FlashではWriteバンド幅を30%引き上げ，ビットコストを40%引き上げるとのことです。また，QLC化することでTbitチップを出すとのことです。MicronはHynixと同様，層数の増加には強気で，200層以上まで拡張できると見ています。

　　データセンターのストレージは，容量では，まだまだ，ハードディスクですが，高性能のストレージは既にFlashに替わっています。この調子では，大容量の方にも予想より早くFlashが進出しそうな勢いです。

５．IBMが16ソケットのE980サーバを発表

　　2018年8月8日のThe Registerが，IBMの16ソケットのE980サーバの発表を報じています。E980は2UのSystem Control Unitに最大4台の5Uのシステムノードを接続できるという構造になっています。そして，1個のシステムノードは4個のシングルチップモジュール（SCM)を含んでいます。SCMにはPOWER9 CPUが載っており，8コア，10コア，11コア，12コアのバリエーションがあります。各コアはSMTで8スレッドを並列実行することができます。クロックは3.55GHzから4GHzとなっています。

　　E980はカスタムDIMMを使い，1台のシステムノードに16TBのDDR4メモリを搭載できます。フルシステムでは4システムノードですから，合計64TBのメモリを搭載することが出来ます。

　　IO接続は，一つのシステムノードから32チャネルのx16のPCIe4.0が出せます。これはPCIe3.0に換算すると，1024レーン分のIO接続ができることになります。

　　競合製品としては，最大28コアのXeon SPを使うサーバですが，最大で112コアです。E980は192コアですから1.7倍のコア数です。それに加えてクロックが高いこと，メモリバンド幅が大きいことなどを合わせるとE980はHPE DL580やDellのR940xaの3.4台分に相当する性能とのことです。

６．AMDが第2世代のThreadripperを発表

　　2018年8月6日のPC Watchが，AMDのThreadripper2の発表を報じています。第1世代のThreadripperは最大16コアだったのですが，第2世代ではサーバ用のEPYCと同様に32コアの製品が追加されました。24コアの2970WXは$1299，32コアの2990WXは$1799となっておりクリエーター向けで，12コア，16コアの2920Xと2950X製品は$649と$899となっておりエンスジアスト向けという位置付けになっています。

　　Threadripper1では，8コアのZeppelinチップを2個搭載し，残りの2個のスペースにはダミーチップを載せていたのですが，Threadripper2では，EPYCと同様に4個ともZeppelinチップを載せています。

　　最上位の2990WXは8月13日発売ですが，2950Xは8月31日，2970WXと2920Xは10月の発売となっています。

　　アーキテクチャは12nm ZEN+と書かれており，プロセスが12nmになり，24/32コアのチップはベースクロックが3.0GHz，ブーストが4.2GHzとなっています。12/16コアのチップはベースクロックが3.5GHzでブースとクロックは12コアが4.3GHz，16コアが4.4GHzとなっています。Zen+の＋が何であるかは，後藤さんの記事を読んでも，よくわかりません。