最近の話題 2021年2月27日

1.カナダスタートアップがPetaOPSの推論カードを発表

 2021年2月25日のEE Timesが,Untether AIというカナダのスタートアップの,8bit整数演算ですが,2 PetaOPSの推論アクセラレータの発表を報じています。アクセラレータカードはtsunAImiという名前で,RunAI200と呼ぶチップは16nmプロセスを使っていますが,8TOPS/Wと非常に高いエネルギー効率を持っています。

 Untether AIは2018年の創立で,これまでに総額$27Mの出資を集め,現在の従業員は60人とのことです。オフィスはTrontoとWaterlooにあるとのことです。

 SRAMとComputeを近づけ,データの移動にかかるエネルギーを減らすということで,385KのSRAMと512個のPE,RISCコントローラを含むメモリバンクを格子状に配置し,隣接するバンクを接続する行方向の接続バスと,列方向にデータを動かすDirect Row Transferでデータを移動します。Direct Row TransferDirect Row Transferは,バンク間の転送バンド幅は32GB/sで,チップ全体では15TB/sのバンド幅を持っています。一方,行方向にデータを動かすRotator Cuffはバンク間では16GB/s,チップ全体では8TB/sのバンド幅を持っています。

  隣接PE間のデータ移動はこれらのバンク間のバスで行えますが,遠い所へのデータ転送を行うため,8GB/sでデータ転送が行なえるリングバスを10本備えています。

  チップ全体では約200MBのSRAMを持ち,ここにニューロンの重みやアクティベーションの計算データを格納します。

  ソフトウェアツールによる枝刈りなどに加えて,ハードウェアでもオペランドがゼロであることを検出して演算器を止める仕組みを組み込んでおり,これで,演算器の消費電力は1/2になっているとのことです。

  4個のRunAI200チップを搭載したTsunAImiカードは,ResNet-50での画像認識を8000fpsで処理できます。そして,通常,960MHzのクロックを720MHzに落とした低電力モードでは638fps/Wのエネルギー効率とのことです。そして,BERT baseでは12,000クエリ/s,あるいは96クエリ/Wとのことです。

  TsunAImiカードのサンプル提供は既に開始しており,量産はQ3の予定です。また,4カードと8カードのサーバがColfax Internationalから販売される予定です。また,Untether AIはRunAI200チップ単体も外販する予定です。

2.ハーバード大のスピンアウトのMetalenzの平面レンズ

 2021年2月22日のEE Timesが,ハーバード大のスピンアウトのMetalenzの平面レンズについて報じています。

 スマホなどではプラスチックレンズが使われますが,1枚のレンズでは収差を吸収しきれないので,複数枚のレンズが使われます。しかし,複数枚のレンズを重ねると厚みが増えてしまいますし,レンズの組み立てコストも高くつきます。

 Metalenz社は,ハーバード大のJohn A. Paulson School of Engineering and Applied SciencesのFederico Capasso教授が考案したメタレンズを使う光学系を実用化するために設立された企業です。

  このメタレンズは,ガラスの上に二酸化チタンのナノフィンを並べて光の速度を変えてレンズ効果を出すのだそうです。波長によって速度が変わるので,可視光のすべての波長にわたって一点にフォーカスさせるのは難しいのですが,193nmのドライArFで,ナノフィンを露光し,配置を工夫して所望の特性を1枚の平面レンズで実現したとのことです。

  1枚の平面レンズの大きさは,1mm角,あるいは3mm角なので,1枚の300mmウエファで5000個(1mm角レンズの場合)が作れます。プラスティックレンズは温度の影響が大きいので,自動車などでは使えない場合もありますが,半導体プロセスで作られるMeta-lenzは広い温度範囲で使えます。プラスティックレンズは非常に安価ですが,収差の吸収のために複数枚を組み合わせて使う必要があるので,組み立てコストが掛かります。ということで,Metalenzは,競争力があると考えています。

  Metalenzは,2021年末までに最初の製品を出せると考えているとのことです。


3.4.東大情報基盤センターのWisteria/BDEC-01スパコン

 2021年2月25日のHPC Wireが,東大の情報基盤センターに設置されるWisteria/BDEC-01スパコンの発表の記事を掲載しています。Wisteriaは紫藤で,柏市の手賀沼に伝わる「藤姫伝説」にちなんでつけられた名称とのことです。

  このスパコンはシミュレーション用のOdysseyとAI/Data処理用のAquariusという部分があり,Odysseyは富岳と同じA64FXを7680個使うマシンで,AquariusはIntelのIce Lakeを2個とNVIDIAのA100を8個使用するノードを45ノード使うAI,Data処理用の部分です。OdysseyとAquariusはApollo 13宇宙船の2つのモジュールの名前にちなんだ命名です。

  FP64でのピーク演算性能は,Odysseyは25.9PFlops,Aquariusは7.2PFlopsとなっています。Odyssey側はTofu-Dインタコネクトでノード間の接続を行い,Aquarius側はMellanoxのHDR 200GbpsのInfinibandで接続されます。ストレージは1TB/sのバンド幅を持つ容量1PBの高速ファイルシステムと,0.5TB/sのバンド幅で25.8PBの容量のファイルシステムがあり,どちらもOdysseyとAquariusの両方に接続されます。このシステムは「計算・データ・学習」融合スーパーコンピュータシステム(通称「BDEC(Big Data & Extreme Computing)システム」)の構築を目指しています。

  このシステムは2021年5月14日から稼働を開始し,数ヶ月の実験的運用と特別プログラムによる利用を行い,2021 年 10 月より正式運用を行う予定です。

4.ISSCCでIBMが8bitで学習ができチップを発表るテストチップを発表

  2021年2月26日のEE Timesが,ISSCCでのIBM researchの8bitで学習ができるAIテストチップの発表を報じています。7nmプロセスで作られたこのチップは16bitと8bitの学習と4bitと2bitでの推論ができるとのことです。

  2019年に設立されたIBMのAI Hardware Centerは,AI演算性能を毎年2.5倍に引き上げ,2029年までにFlops/Wを1000倍にするという目標を掲げています。

  今回発表された4コアのテストチップは,8bit学習の場合25.6TFlops,4bit整数での推論の場合は102.4TOPSの性能を持っています。動作条件は,クロックは1.6GHzで電源電圧は0.75Vとのことです。クロックが1GHzの場合は電圧は0.55Vで動作し,FP8での演算の場合は3.5TFlops/W,INT4での演算の場合は16.5TOPS/Wとのことです。

  低精度の学習は8bit Hybrid floating FormatというIBMの研究成果のフォーマットを使っています。これについては2019年のNeurIPSで発表したとのことです。Hybrid FP8は2つのフォーマットがあり,学習のフォワードパスとバックワードパスでフォーマットを使い分けるのだそうです。フォワードの計算では精度が重要ですが,バックワードの計算では値の範囲が広いので,数値範囲が広いフォーマットを使うのだそうです。具体的には,フォワードでは4bit Exponent,3bit mantissaを使い,バックワードではExponentに5bit,Mantissaは2bitを使うのだそうです。

  アキュムレーションをFP32で行うハードウェアが多いのですが,それではFP8を使って計算エネルギーを減らそうという努力に反するので,精度の減少が少なくなるよう足し算の順序を替えてFP16でアキュムレーションを行っています。足し算する項をチャンクと呼ぶグループに分け,まず,チャンクごとに足し算を行い,その後,チャンク間の足し算をおこなうという階層的な足し算を行うのだそうです。このようなアキュムレーションのやり方でFP16でもアキュムレーションの精度が維持できるとのことです。

  そして,IBMの研究では,Inferenceを行うのには4bitが必要としています。学習した重みを量子化した後に,量子化対応の学習を行う必要があるとしています。これにより4bitでも推論の精度低下は0.5ポイント以下にできるとのことです。

  ハードウェアとしては,ディープラーニングに最適化したマルチキャスト通信ができるリングを持つことが重要としています。ています。複数のコアに同じデータを並列に送ることで,メモリの読み出し回数が減り,必要なメモリバンド幅減り,消費電力も減ります。

  ディープラーニングの処理では,処理フェーズで消費電力は大きく変わります。IBMは,初期に設定する電源電圧や変動させるクロック周波数を一番性能が高い値にします。そして,消費電力が制限をオーバーする場合はクロックを下げて電力を調整します。

  このような使い方をすることにより,消費電力に余裕を残してゆっくり計算する期間が最小になり,効率があげられるとのことです。

3.ISSCCでSamsungが3nm SRAMを発表

 2021年2月21日のEE Times


inserted by FC2 system