最近の話題 2021年6月19日

1.MLCommonsがMLPerfのTiny Inferenceベンチマークを発表

  2021年6月16日にマシンラーニングのベンチマークの元締めを務めているMLCommonsがMLPerf Tiny v0.5 Bentimarkスイートと,最初の結果を発表しました。

  これまで多数のGPUを使うNVIDIAのシステムや多数のTPUを使うGoogleのシステムのような最高性能の大規模システムのベンチマークなどを作ってきたのですが,小規模なAIシステムを使うというケースも多く,小規模なAIシステムのベンチマークが必要になっています。これに応えるのがTiny MLPerfです。

  大きなAIシステムでは,標準的なフレームワークでプログラムされたモデルを標準的なツールを使って動作させるのが一般的ですが,小規模なシステムでは,それぞれのシステムに特化した独自のソフトウェアを使うものが多く,統一的なベンチマーク環境を作るのが難しいく,手間がかかったそうです。

  v0.5ベンチマークでは,Keyword Spotting(KWS),Visual Wake Words(VWW),Tiny Image Classification(IC),Anomaly Detection(AD)の4つのベンチマークが作られています。KWSは補聴器などのデバイスで特定のキーワードが聞こえたことなどを検出する機能です。VWWはイメージの中に人間が写っているのを検出する機能で,セキュリティー機器などに使えます。ICはイメージに移っているものが何であるかを判別する機能で,これも監視カメラなどに使えます。ADは機器の動作音などから,不良を検出するような機能です。

  v0.5の測定結果としては,Cortex-M4を使うReferenceが1つと,各社が提出した4つの測定結果が登録されています。使われているAIエンジンは,RV32IMAC,BroadcomのBCM2711,Cortex-M0などです。

2.PFNがMN-3チップ用のコンパイラを開発

  2020年6月のGreen500で1位を取ったPFNのMN-3ですが,2021年6月15日のSymposium on VLSICircuitsにおいて,PythonコードからMN-3バイナリを生成するコンパイラについて発表しました。従来のGPUを使ったMN-2と比較すると画像のセグメンテーションでは6倍以上,グラフ処理では約3倍の性能を達成したとのことです。

  MN-2の計算エンジンはNVIDIAのV100 GPUですから,最新のA100 GPUと比較すると性能優位は目減りします。

  MN-3はPFNが開発した独自アーキテクチャのDLアクセラレータでMABと呼ぶ16要素のマトリクスと4要素のベクトルの積和の計算を行う演算器を16個纏めたL1Bというブロックを8個グループ化したL2Bというブロックを4個集積しています。従って,16×32=512の演算器を持ち,各演算器はFP64の積和演算とFP32,FP16の積和演算をおこなうことができます。

  そして,MN Coreチップは,16bitの半精度(FP16)での演算では524TFlops,32bitの単精度では131TFlops,64bitの倍精度では32.8TFlopsという性能になっています。なお,PFNの言うMN Coreチップは4個のGF01-Z001チップを樹脂基板に搭載したマルチチップモジュールを指し,一般的にいえば4チップのMCMです。

  従って,一つのシリコン片はL2Bが1個搭載で,L2Bには8個のL1Bが含まれ,L1Bには16個のMABが入っています。つまり,L2Bチップには128個のMABが入っていると思われます。そして,MABには4×4のマトリクスと4要素のベクトルの積を計算する絵が描かれているので,16回の積和計算を行うと考えられます。結果として,L2Bは16×16×8=2048積和演算/サイクルの演算を行うことができる思われます。

  ただし,これは64bitの倍精度での計算の場合で,16bitの半精度の場合は,レジスタが4分割で使用されるので,さらに16倍の並列実行を行っているのではないかと思われます。

  それはともかく,MN-3は全部のMABが同じ命令で動作するSIMDであると書かれています。命令列が一つしかないと,そのスレッドで全部の命令を実行する必要があります。この製薬から,命令の詰め込みが難しい,あるいは効率が下がるのが一般的ですが,それをコンパイラで解決したということと思われます。また,演算器へのデータ供給も問題で,レジスタファイルのポート数や接続ネットワークの自由度も問題となり,GraphCore社は演算単位を小さなMIMDに分けているのですが,PFNは一つの巨大MIMDスレッドに高密度に演算を詰め込むことに成功したようです。

3.IonQが同社の高精度量子コンピュータをGoogle Cloudで提供を開始

  2020年6月17日のHPC Wireが,IonQがイオントラップ型の量子ビットを使う11qubitの量子コンピュータをGoogle Cloud Marketplaceで提供すると報じています。IBMやGoogleの量子ビットは超電導素子を用いるものですが,IonQはイオントラップ型の量子ビットを使っています。イオントラップ型の量子ビットの方がノイズが少なく,高精度の計算ができるとのことです。

  また,最初に提供されるのは11qubitの量子コンピュータですが,今年の遅い時期には32qubitのシステムが使えるようにする計画です。

4.Element Six社がダイアモンド薄膜の量子素子を提案

  2021年6月18日のEE Timesが,Element Sixという会社がダイアモンドの量子素子を提案し,高感度の磁界センサやイオントラップ型の量子ビットの作成に最適とのことです。Element Six社はダイアモンドの大手のDe Beers Groupの会社で,CVDで高品質のダイアモンド膜の生成を行っているそうです。

  このダイアモンド薄膜にNitrogen vacancyを作ると,常温でも1秒程度状態を保持する量子ビットが作れるとのことです。また,小さくて好感度の磁気センサを作ることができ,心筋の発生する磁界を直接検出することができるとのことです。


inserted by FC2 system