20210529

最近の話題 2021年5月29日

1．armがv9アーキテクチャのCortex-X2，Cortex-A710とCortex-A510CPUを発表

　　2021年5月25日のAnandtechが，armのv9アーキテクチャのCPU群の発表を報じています。今回発表されたのは，arm Cortex-X2，Cortex-A10，Cortex-A510の3種です。A710は現在のA-78の後継となるbigのCPUで，A510ha低電力のLITTLE CPUです。そして，X2は高性能のExtra bigのコアです。

　　ついにarmもAarch32の古いarmアーキテクチャのサポート打ち切りに動き出し，2023年にはAarch64だけのサポートになるとのことです。それに関連して，今回発表のX2とA510ではAarch32がサポートされていません。しかし，A710だけはAarch64とAarch32の両サポートが継続されています。これは中国のメーカーではAarch64への移行に時間が掛るためと言われています。しかし，Aarch32のバイナリはA710だけでしか実行できないので，3種全部のコアが使えるスマホなどと比較すると，ある程度，無駄に電力を消費しそうです。

　　X2は現在のトップエンドのX1と比較して16%性能が高く，MLに限れば2倍の性能と言っています。当然。X2ではAarch64だけに最適化された設計になっています。X2のコアはOut-of-Orderで10サイクルのパイプラインとなっています。そして，Out-of-Orderで実行できる命令数を決めるROBのエントリ数は240から288に増えています。また，命令フュージョンができるケースが増加しているとのことです。そして，新設の128bitのSVE v2ベクトル演算器を使いML性能を2倍に引き上げています。

　　さらに，load-storeのウインドウサイズを33%増加し，d-TLBも20%エントリを増やし48エントリにしています。そして，データのプリフェッチも強化し，ストールの時間を減らしています。この結果，整数演算のIPCは16%向上し，ML性能は2倍となりました。そして，SPECINT２００６の電力―性能カーブを見ると，低電力の領域ではX1とX2の性能はほぼ同じですが，X2は電力をつぎ込めば，より高い性能がだせるという形になっています。

　　しかし，Xシリーズコアでは性能対電力が1:1になるように設計を行っているそうです。

　　A710は継続的に動作し，高性能を必要とされる用途，A510はバックグラウンドで時々動作と低負荷の動作用ので，これらのコアはインオーダ実行で，非常に電力効率の高い設計になっています。A510は2017年のビッグコアと比較して，IPCは10%以下の低下，クロックは15%以下の低下で消費電力は35%低いということになっているとのことです。（しかし，性能低下は最大で23.5%で，電力が35%低減だったら，半導体の微細化を考えると，あまり，チャレンジングという感じでもないかとも思います。）それから，A-510は2コアずつまとめ，NEON/SVE2の部分は2コアで共用と言う作りになっています。この部分のFP演算器はそれほど負荷が高くはないので，A-510　2コアで共有しても間に合うという判断でしょう。

　　A700シリーズはパイプラインのエネルギー効率と性能尾最適化した設計で，消費電力-性能カーブの肩（電力を増やしても性能がさほど上がらない点）を狙う。回路的にもクリティカルパスのRTLや物理IPを安定動作電源電圧の観点から最適化すると述べています。回路れネルの設計で電源電圧の動作範囲を下げて，かつ，各種のIPで揃ったで夏にすることは消費電力を減らす上で重要です。長年，低電力IPを開発してきた実績を持つarmならではの設計です。

　　高性能の実装例では，X-2コアが1個，A-710コアが3個，A-510コアが4個という構成が書かれています。そして，armはDSU-110というL3キャッシュとオンチップネットワークのブロックを発表しました。このDSU-110は前世代に比べるとL3キャッシュの容量は16MBと4倍になり，バンド幅は5倍になっています。

２．armがMaliG710，G-610，G-510，G-310の4種のGPUを発表

　　2021年5月25日のAnandtechが，armのValhallアーキテクチャの新GPUの発表を報じています。

　　トップエンドのG-780は性能は20%アップで，でんりょくこうりつは20%の改善，そしてML性能は35%アップとのことです。G-610はG-710と機能的には同等のGPUで，廉価版とのことです。シェーダーコアなど性能に低下するのは当然でしょうが，論理的には同じプログラムが動くようです。

　　G-510はミッドレンジのスマホなどをターゲットとしたGPUコアのようです。そして，G-310は廉価版のスマホなどをターゲットにしたGPUのようです。

３．NERSCのPerlmutterスパコンの運転開始のテープカット

　　2021年5月27日にNERSCはPerlmutterスパコンの運転開始を発表しました。カリフォルニア大学バークレイ校にあるNational Energy Research Scientific Computing Center (NERSC)は核兵器研究などに使われるトップレベルのスパコンに次ぐ，Pre Exaの科学技術計算ではトップレベルのスパコンが設置される研究所です。

　　PerlmutterはAMDのMilan CPUにNVIDIAのA100 GPU　4台を接続した計算ノードを用い，Phase-1では1536ノードを搭載します。

　　FP64の演算性能は約60PFlopsで，富岳に及ばないが，A100 GPUのTensor Coreを使うFP16 での演算性能は4EFlopsに近く，富岳の2倍程度の高い性能を持っています。

　　そして，今年後半には2個のMilan CPUと512GBのメモリを搭載するFatノードを3072ノード追加するPhase-2が予定されています。

４．LightmatterがシリーズBファンディングで$80Mを調達

　　2021年5月27日のEE Timesが，光で積和計算を行うAIアクセラレータを開発しているLight MatterがシリーズBファンディングで$80Mの調達に成功したと報じています。

　　Light Matterは，レーザ光のウエーブガイドをMEMSで歪ませて遅延を変えることで位相の変化を作り出し，Mach Zhender変調器で，掛け算を行うというやり方で積和演算器を作っています。現在は，1つの波長しか使っていませんが，原理的には，複数の波長を使えば，波長の数だけの並列演算ができるので，安価に高い演算性能を実現できるという点で，トランジスタで演算器を作るより有利です。

　　また，光による積和計算は，トランジスタを使った電子回路より高速で，多分，20GHz程度のクロックで動くと考えているそうです。

　　LightmatterはENVISEと呼ぶ光演算チップを開発し，このチップとペアになるオプティカルファブリックのチップを16ペア使うEnvise 4Uサーバを作っています。Resnet-50の推論で，1.2M推論/Wの性能を得ているとのことです。このEnviseチップはGlobal Foundriesの12nmプロセスで作っているそうです。Enviseチップは500MBのオンチップSRAMを搭載していて，推論には十分なのですが，本格的な学習をやるにはメモリ不足で，HBMメモリなどを外付けする必要があるとのことです。

５．Apple M1チップに修正不能なセキュリティーバグ

　　2021年5月27日のThe Registerが，Apple M1チップに修正不能なセキュリティーバグが発見されたと報じています。システムレジスタの内の2bitがアプリケーションレベルのプロセスでも読み書きできるようになっており，複数のプロセスがこのレジスタを使って，OSの許可なく通信ができてしまうという問題が判明したとのことです。この問題を修正するためにはチップを作り直す必要があるとのことです。

　　このバグがあると，例えば，2つのプロセスの一方がキーストロークの情報をこのセキュリティー欠陥で可能になった通路を使って第2のプロセスに送り，第2のプロセスが，通信を使って外部にキーストロークの情報を送るというようなことができてしまいます。

　　AppleはMacOSに対しては，マルウェアが秘密裏にスクリーンショットを取ることを失敗させるパッチを当てているそうです。

　　また，Hypervisorを使えば，問題のレジスタのアクセスを禁止してしまうので，セキュリティー上の問題は解決します。ということで，解決方法はなくはないようですが，この報道ではオーバヘッドがどの程度あるのかは書かれていません。

　　このバグはCVE-2021-30747として登録されたとのことです。