20190223

最近の話題 2019年2月23日

１．armがサーバ用と通信用のNeoverseコアを発表

　　2019年２月20日のEE Timesが，armのサーバ用と通信用のNeoverseコアについて報じています。サーバ用のコアはN1，通信用のコアはE1という名前です。これらのコアは，armが約束した年率30%の性能向上は満たすものの，IntelのXeonと比較すると30～40%の性能ギャップがあると見られています。

　　これらのコアは7nmノードのプロセス向けで，N1とE1の設計には大きな違いがあります。armは７nm＋ノード，5nmノードに移行すれば，2020年，2021年の年率30%の性能向上は実現できると主張しています。

　　N1コアは，RTLベースのシミュレーションですが，SprvInt2006で，シングルコアで37，64コアで1310を出せるとのことです。この時の消費電力は105Wです。

　　Cortex A72コアと比較すると，N1コアはJava性能が1.7倍，memcacheD性能が2.5倍になっているとのことです。また，メモリレーテンシが110nsから83nsに短縮し，メモリバンド幅は64GB/sから175GB/sに改善されています。また，N1はA72と比べて，ベクタ性能は2.2倍，BaiduのDeepBenchでは4.7倍の性能とのことです。

　　N1コアは1MBのL2キャッシュを持ち，最大3.1GHzクロックで動作し，消費電力は1.8Wとなっています。コアのサイズは1.4mm²で，64コアのチップは400mm²程度になるとのことです。

　　pipelineは，整数演算の場合で11段，ベクタ演算の場合で15段となっています。

　　E1コアは，A53と比べて。スループットが2.7倍，効率が2.4倍，演算性能が2.1倍で，デュアルスレッドのコアが0.46mm²だそうです。クロックは最大2.5GHzで，消費電力は183mWとなっています。Pipelineは整数などの演算では１０段，浮動小数点演算などでは12段となっています。

２．ISSCCでSamsungと東芝がAIチップを発表

　　2019年２月20日のEE Timesが，ISSCCでのSamsungと東芝のAIチップの発表を報じています。SamsungのExynosチップに搭載された5.5mm2のAIブロックは8bit精度で933MHzクロックで動作し，1.9TOpsを実現しています。この性能はHuaweiの最新のKirinプロセサのAIユニットとほぼ同じ性能です。ただし，Samsungのユニットは0が多い疎なデータのの場合は実行性能は上がり，5×5のカーネルで，データの3/4が0の場合は6.937TOps（相当？）になるとのことで，電源0.5Vで39mW消費の場合は11.5TOps/Wの効率となるとのことです。

　　Samsungのユニットは性能を上げるため2コア構成になっており，各コアが512KBのスクラッチパッドメモリを持ち，スクラッチパッドメモリに2系統の演算データのディスパッチャが付いています。ディスパッチャは2個のMACアレイにデータを供給し演算結果をデータリターンユニットに書き込みます。ただし，この記事だけでは，2つのディスパッチャやMACアレイは奥行き方向に4枚重なっているように描かれており，どのような動作になっているのかよくわかりません。

　　まあ，密行列の場合は2TOps程度の性能です，一つのMACアレイは500GOps程度の性能で，クロックは933MHzですから，MACアレイの幅は256演算程度と思われます。

　　東芝のチップはADAS用で，制御用にCortex-R4コアを2個，画像認識側にはCortex-A53を合計8コア搭載しています。Video In I/Fの部分ですが，Video入力だけなのか，LiDARやLADARもサポートしているのかは不明です。

　　東芝のチップは演算性能20TOpsで，効率は2TOps/Wで，これは2015年に発表したチップの性能1.9TOps，効率564GOps/wと比べると，性能は10倍以上，効率は4倍弱に改善されています。

３．東芝がISSCCで世界最大容量のFlashメモリを発表

　　2019年2月20日のEE Timesが，ISSCCでの東芝の世界最大容量のFlashメモリの発表を報じています。96層のBiCS構造で，各セルは4bitを記憶するQLCとなっています。これで容量は1.33Tbitです。チップサイズは158.4mm²で8.5Gbit/mm²の密度です。

　　読み出しは160us，プログラムは9.7MB/sとなっています。

　　また，ISSCCでは東芝とパートナーのWestern Digitalの共著の発表で，3bit/Cellで128層，66mm2のチップも発表されました。こちらは7.8Gbit/mm²の密度です。このチップは４Planeを並列に書き込むと132MB/sの書き込み速度となるとのことです。Vthの分布の図が載っていますが，非常にきれいな分布となっています。最高速度の書き込みでも，このようなきれいな書き込みはできるのは大したものです。

４．Intelが22nm FinFETプロセスのSTT-MRAMを発表

　　2019年2月20日のEE Timesが，ISSCCにおけるIntelの組み込みMRAMの発表を報じています。Intelは昨年末のIEDMで22nmFinFETのMRAMを発表しているのですが，今回は7MbitのMRAMマクロを4個搭載したチップを発表しました。

　　１T1MTJのセルで，面積は0.0486um²で10.6Mbit/mm₂の密度です。読み出し速度は0.9V動作では4ns，0.6Vでは8nsとなっています。書き込みは最悪の条件で10usとのことです。セルの歩留まりは99.998%以上とのことで，20万bitあたり不良bitは1bit以下ですから，交代ビットなどの手法で救済できます。

　　書き込み耐性は100万回以上で，Read Disturbは1E12以上とのことです。

　　発表では明確には示されませんでしたが，アナリストの間では，このMRAMは既にIntelのファウンドリ顧客に提供されていると見られています。

　　また，今回のISSCCでは，Intelは廉価版の不揮発性メモリであるReRAMも発表しました。プロセスは22nmFinFETで，こちらは10.1Mbit/mm²の密度で0.7Vの電源で5nsで読めるとのことです。

５．東大情報基盤センターが6.6PFlopsのOakbridge-CXを導入

　　2019年2月18日に富士通は，東大の情報基盤センターからピーク6.6PFlopsのOakbridge-CXスパコンを受注したと発表しました。富士通のPrimergyサーバの次期モデルを1368台使用するとのことです。また，ファイルシステムは12.4PBと書かれています。

　　ピーク演算性能と台数から，1台当たり約4.8TFlopsと計算されますが，Volta V100 SMX GPUは7.8TFlopsなので，Voltaを使っているとすれば性能が低すぎ，XeonのAVX-2だけではこの性能には達しません。従って，XeonだけのノードとV100付きのノードがる構成ではないかと思われます。

　　2019年7月の稼働開始の予定です。

6．AppleはIntel CPUを止めて自社開発のarmチップに集約か

　　2019年2月22日のThe Inquirerが，Axiosの記事を引いて，来年にもAppleがMacのIntel CPUを自社開発のAシリーズのarm CPUに切り替えると報じています。現在はMac用にはx86用のアプリを供給しているわけですが，全てのプロセサをAシリーズに統一してしまえば，アプリの開発の手間が減り，配布のオペレーションも簡単になります。

　　さらに，Intelのプロセサ供給に影響されることもなくなります。問題は，Aシリーズの後継プロセサが同時代のCore iシリーズプロセサに対抗できる性能が出せるかですが，それについては，Appleは何とかなると考えているのだと思われます。

　　AppleはIntelのCore CPUの5%を購入しているビッグユーザですから，この注文がなくなるのは，Intelにとっては大きな打撃です。