20210703

最近の話題 2021年７月３日

１．Level2～5 ADAS車の衝突事故は1日以内に届け出が必要

　　2021年7月1日のEE Timesが，NHTSA（National Highway Transportation Safety Administration）がLevel 2以上の自動運転車の管理を強化し，衝突事故が発生した場合は，1日以内に届け出を行う必要があるという規則を発布すると報じています。

　　Level ２自動運転システムを使っているときは，アクセルとハンドルは自動で制御され，従来の車とは運転の責任の分担が異なることから，Level ２～5のシステムがどのように使われているかをNHTSAが把握する必要があると述べています。

　　15ページの命令書にはAppleからZooxまでの届け出を必要とする会社の名前が並んでおり，誰が，どんな届を出すのかだけでも大変そうです。しかし，届け出が遅れると，最大では$22,992/日で，。最大$114,954,525/事故の罰金が科されるので，うかうかしていられません。

２．富岳がTop500，HPCG，HPL-AIの3冠を防衛

　　2021年6月28日にバーチャルで開催されたISC 2021で，Top500の発表が行われました。HPL性能でトップとなったのは，日本の富岳です。富岳は，これで3連勝です。しかし，今年の11月の次回のTop500に，米国のExa機が出てくると逆転される可能性が大きいと思われます。そして，中国も少なくとも3種のエクサ機を開発していると言われていますが，今回のISC 2021では状況の報告は有りませんでした。

　　米国の先端半導体の禁輸で，それどころでは無い状態ではないかと思われます。

そして，Top500には，連立方程式を解析的に解くHPLに加えて，初期値から繰り返し計算を行って誤差を減らしていくHPCGというベンチマークがあります。

　　HPLは解くべき連立1次方程式の未知数のサイズが非現実的でないという非難があり，より未知数の数は多いのですが行列の非ゼロ要素の数が少ないHPCGの性能の方が現実の問題に近いという点で，HPCGの性能測定も増えてきています。

　　Top500 HPLとHPCGでは富岳が1位，Summitは2位となりましたが，HPCGでは新たにTop500の5位になったPerlmutterが3位となりました。

　　そして，最近，重要性を増しているのがHPL AIです。HPL AIはオリジナルのHPLと同様に密行列の係数行列を解くのですが，HPLのように直接，LU分解で解析的に解くのではなく16bitの低精度の計算で，低精度の解を求め，反復解法で，繰り返しごとに誤差を低減していくという方法をとります。そして，最終的には64bitで解析的に求めた解と同程度の精度の結果を出します。HPL-AIの説明には書かれていませんが，HPLと同じ問題を解いていると思われます。

　　富岳はHPLでは442.01PFlopsという性能ですが，HPL-AIでは2.0Exa Flopsの性能が得られています。HPLの4.52倍の性能ですが，16bit浮動小数点の演算を高速に実行するハードウェアを持たせたことと反復法の方が少ない計算量で最終結果が得られることで実現されていると考えられます。

　　なお，HPCGベンチマークでは富岳は16PFlopsで，これも1位になっています。2位のSummitはHPCGでは2.9PFlopsですから，これと比べると富岳は5.5倍の性能と言うことになります。

３．Preferred NetworksのMN-3がGreen500の首位を奪還

　　Green500ではPreferred NetworksのMN-3が1位になりました。2位になったのはNVIDIAのDGX A100 GPUとAMDのEPYC CPUを使うフロリダ大のHiPerGator AIです。このスパコンはたしかNVIDIAが寄付したものです。

　　MN-3のスコアが29.7GFlops/Wに対してHiPerGator AIは29.521GFlops/Wと，MN-3が僅か0.6%効率が高いという接戦です。しかし，MN-3は消費電力61kWでTop500で335位という規模の小さいスパコンであるのに対して，HiPerGator AIは583kWで，Top500で22位と言うかなり規模の大きいスパコンです。このような規模の違いがあるので，ネットワークやストレージの規模や冷却電力の測り方で消費電力は変わり，ランキングは変動する可能性があります。

　　とはいえ，Green500の委員会が正式に認めた結果ですから，MN-3のGreen500 1位は動きません。

　　MN-3は2020年6月には，消費電力77kW，電力効率21.108GFlops/Wでしたが，今回は使っているコア数は変わらないのですが，消費電力は61kWに低減しています。MN-3は巨大なSIMDのマシンであり，どの演算器からどの演算器に演算結果を送るかでデータをフォワードするのに必要な配線の長さが変わり，電力が変わります。

　　今回は，コンパイラを改善して，データフォワードの消費電力を約20%低減したと思われます。

４．MLCommonsがv1.0のベンチマーク結果を発表

　　2021年6月30日のEE Timesが，MLPerf Training v1.0の結果を発表しました。

　　前の版では，NVIDIAのGPUを使うシステムが大部分で，それに高性能のデータセンター向きではGoogleのTPUを使うシステム，それからx86 CPUを使うシステムといった顔触れでしたが，今回はGraphCoreとHabana Labs，それから中国のKungpeng 920チップを使うPeng Cheng Laboratory (PCL)と北京大のシステムが結果を登録しています。

　　それから，これまでは全てClosed Divisionの測定だったのですが，今回は，Graphcoreが２つのOpen Division，Intelも2つのOpen Division測定，GoogleがTpu-v4-256のOpen Divisionの測定を登録しています。Closedは基本的にベンチマークと同じ計算をやらせるのですが，Open Divisionの場合は同じ結果が得られる処理であれば，ベンチマークの実装は自由に変更することができます。

　　さらに，今回のTraining v1.0 ではRNN-Tというスピーチからテキストへの変換とメディカルイメージングのUNnet-3Dという2つのベンチマークが追加されました。一方，翻訳のNMTとTransformerは最新でないということから削除されています。

　　測定結果を詳しく見たい方は，MLCommonsのリンク先を見てください。