20180825

最近の話題 2018年8月25日

１．富士通がPost-K用のARMアーキテクチャのA64FXプロセサを発表

　　2018年8月24日のNextplatformが，Hot Chips 30での富士通のA64FXプロセサの発表を報じています。現在の京コンピュータはSPARCアーキテクチャですが，OracleもSPARCに見切りを付けており，SPARCではソフト開発の仲間を得られないので，次期Post-KスパコンとしてはARMアーキテクチャを採用することになりました。このプロトタイプチップの完成は，今年6月のISCの直前に発表され，2018年6月23日の話題で紹介しています。

　　しかし，この時の発表は簡単なもので，技術的な内容は殆ど分からなかったのですが，今回のHot Chipsではかなりの程度，中身が発表されました。

　　A64FXは，7nmプロセスを使い，48個の計算コアと4個のマネジメントコアを集積しています。マネジメントコアはLinux OSを動かし，I/Oなどを行うコアで，このような作業を計算コアとは独立のマネジメントコアに行わせることにより，OS jitterによる計算時間のばらつきを抑える設計になっています。しかし，物理的にはマネジメントコアと計算コアは同じものでOSジッタを許容すれば52コア全部で計算を行わせることも可能と思われます。ピーク演算性能は2.7TFlops以上と書かれていますが，これが48コア分なのか52コア分なのかは不明です。一応，48コアとすると，クロックは2.21.76GHz程度という計算になります。

　　Podt-KスパコンはGPUのようなアクセラレータは搭載していないのですが，A64FXはARMと共同で開発したSVE（Scalable Vector Extension）というベクタ演算機構を搭載しています。ノード当たり2.7TFlopsはSummitなどと比べると低いのですが，メモリは4個のHBM2で，1024GB/sという高いメモリバンド幅を持ちます。

　　Post-Kは京コンピュータで採用した6次元メッシュトーラスのTofuネットワークの改良型のインタコネクトを使い，A64FXチップはTofuインタコネクトのルーターを内蔵しています。

　　半導体プロセスは7nmで，8.786Bトランジスタを集積しています。

　　Post-K開発の元締めの理研のR-CCSの所長の松岡先生は，Flopsだけが沢山あっても使いきれない。メモリバンド幅が重要とおっしゃっていました。なお，この発表には，松岡所長の他に，Fragship 2020プロジェクトのリーダ兼システムソフトウェア開発チームの石川リーダやアーキテクチャ開発チームの佐藤チームリーダなどの理研の幹部が顔を揃えていました。

　　ということで，Flops重視でメモリバンド幅は二の次の中国のスパコンとは対照的なアプローチで，中国ほどではないが演算性能重視の米国とも異なるアプローチで，実アプリでの性能競争がどうなるかが見ものです。

　　それから，今回の発表では，システム全体の規模や，消費電力は発表されなかったのですが，プレゼンの発表者の富士通の吉田氏は，かなり消費電力の低いグリーンスパコンと言っていました。吉田氏にARMアーキテクチャであることが低電力化に効いているのかと質問したら，全く関係ない，マイクロアーキテクチャ的な工夫で消費電力を抑えたという回答でした。

　　そして，6月のISCでの発表では，このチップはプロトタイプと言っていましたが，今回のHot Chipsではプロトタイプという表現は聞かれず，このチップで，本番に臨むという方向に舵を切ったのかも知れません。

２．NECが新型スパコンAurora Tsubasaを発表

　　Hot Chips 30でNECがAurora Tsubasaを発表しました。Aurora Tsubasaは6月のISCでも展示されており，ある程度の技術的内容も発表されていたのですが，Hot ChipsはIEEEが主催する学会であり，より技術的にしっかりした発表が行われました。

　　Auroraの計算ノードはx86 CPUとベクタエンジン(VE)からなり，6個のHBM2メモリとPCIe3.0のx16リンクが付いています。計算ノードカードは標準のフルレングス，フルハイトのPCIカードで，冷却機構などが付くので，デュアルスロットを使います。消費電力は<300Wと書かれています。

　　ベクタエンジンのコアのクロックは1.6GHzで，コアのDP演算性能は306GFlopsとなっています。ベクタエンジンチップは8個のベクタ演算器を持ち，チップのピーク演算性能は2.45TFlops，メモリバンド幅は1.2TB/sとなっています。製造プロセスは16nmです。

　　ちょっと面白いのは，16MBのMemory side cacheを持っているのですが，これが2MBのスライスになっています。8個のスライスが6個のHBM2メモリに繋がっており，各スライスからHBM2メモリに6本ずつのリンクで接続されるという構造になっています。

　　性能ですが，DGEMMの場合，性能はXeon Gold 6142 2Pより僅かに高い程度ですが，Perf/Wでは2.5倍の性能になっています。しかし，NVIDIAのV100 GPUと比較すると，性能は1/3程度で，Perf/Wは60%程度です。ただし，ベクタエンジンチップの面積はV100の半分程度で，コストはV100よりずっと安いとのことです。

　　また，NECのFrovedisというフレームワークでAIやBigData処理を行った場合の性能を，Xeon Gold 6142 2PでSparkを使った場合と比較して，40倍から110倍の性能と書かれていますが，DGEMMに比べて，なぜ，これだけ大きな性能差になるのかはよく分かりません。

　　製品としては，VE1個のA100という小型製品から，2～8VEのA300，64VE以上のスパコンのA500が提供されます。A100とA300ではVEは空冷ですが，A500では40℃の水を使った冷却を行っています。

３．Hot ChipsでNantroがカーボンナノチューブメモリを発表

　　Nanteroのメモリは，カーボンナノチューブで半導体トランジスタを作るのではなく，短いナノチューブを混ぜた液（スラリー）を薄く広げて乾かし，上下に金属の電極を付けたものでメモリ素子を作っています。このNanteroのメモリについて，2018年8月22日のEE Timesが報じています。

　　この状態では記憶素子の抵抗は数MΩとなります。一方，電極に電圧を与えてカーボンナノチューブを下の電極から遠ざけると電極の近傍はナノチューブがない状態になり，抵抗は数100MΩとなります。この２つの状態はファンデルワールス力で維持され，300℃でも300年以上記憶されるとのことです。

　　また，書き込みで劣化する誘電体がなく，書き込みを繰り返しても劣化することはなく，書き込みの時間は5ns程度のパルスで行え，DRAMを置き換えることが出来るとのことです。

　　現状の設計では100mm²程度のチップで，28nmのロジックと4層のCNTメモリセルで，16Gbitの密度ですが，14nmプロセスを使えば64Gbitチップが作れます。そして，CNTの層数を増やせば，さらにビット密度を高められます。

　　そして，リフレッシュの必要が無いので，その分，メモリバンド幅を上げることができます。

　　メモリの作り方も簡単で値段も下げられ，アクセス速度が速い不揮発性メモリということで，Hot Chipsの会場での質問では，本当に作れるのかという質問も出ていました。Nanteroでは量産には成功していないようですが，Nanteroはこのメモリを富士通にライセンスしており，富士通では歩留まりが改善されているという発言がありました。

　　松岡先生は，このメモリが実用化されれば，Post-Post-Kコンピュータに必要なメモリバンド幅が実現できると期待しておられました。

４．Hot ChipsでMythicがアナログ演算を使うインファレンスチップを発表

　　今回のHot Chipsは2つのマシンラーニングのセッションがあり，それ以外の発表でもAIやマシンラーニングに関係のない発表の方が少ないという状況でしたが，その中でもMythicの発表は毛色の変わったものです。この発表について，2018年8月23日のNext Platformが報じています。

　　抵抗を流れる電流は，抵抗に掛ける電圧とコンダクタンス（抵抗値の逆数）に比例します。MOSトランジスタで抵抗を作り，フローティングゲートの電位でコンダクタンスを決めます。そして，入力信号に比例する電圧をMOSトランジスタ抵抗に掛ければ，流れる電流は2つの信号の積に比例します。そして抵抗の一方の側をまとめて接続すれば，電流の合計は積項の和になります。

　　多値のFlashメモリのように，書き込んだ値を読み出して微調整の追加の書き込みを行えば，コンダクタンスの精度は高められるので，8ビットの整数精度を実現することが出来るとのことです。

　　このようにすれば，重みを格納するメモリはFlashのビットで実現でき，演算のために読み出しを行う必要もありません。このため，演算に必要なエネルギーも非常に小さく，40nmという古いプロセスを使っているのですが，0.5pJで1演算を行えるとのことです。この0.5pJの内の半分がアナログ演算の消費エネルギーで，残りの半分がPCIeポートまでを含んだロジック部分の消費エネルギーです。

　　Mythicの最初の製品は，積和演算セルが50M個で，この中に納まるInferenceでなければ処理できませんが，それほど大規模ではないエッジデバイスではこれで足ります。また，最大250Mセルまで拡張することも可能とのことです。

　　ResNet-50での画像認識では，高性能GPUの場合，892フレーム/秒，高性能SoCは7.6フレーム/秒，に対してMythicのチップ（シミュレーション）では900フレーム/秒とハイエンドGPUとほぼ同等の性能です。一方，消費電力ではハイエンドGPUでは167Wに対して，SoCは0.5W，Mythicは2Wとなっています。つまり，Mythicを使えば，ハイエンドGPU並みの画像認識性能をエッジデバイスの電力バジェットで実現できるという訳です。

　　MythicのIPUを1個，あるいは4個搭載した開発ボードは2019年の中頃に発売され，その後，チップ単体や最大16IPUを搭載するボードの販売も予定しているとのことです。