20190824

最近の話題 2019年8月24日

１．Wave Computingが大量レイオフか？

　　Hot Chipsに出席して，その後で，昔の友達が集まって食事をしたのであるが，そこでWave Computingが半数の従業員をレイオフするという噂を聞きました。裏が取れている情報ではないので，全くのデマであるかも知れません。

　　Wave Computingは多くの出資を集めて，RISC CPUのMIPSを買収するという勢いのある会社ですが，Hot Chipsで予定されていたTritonと呼ぶAI処理エンジンの発表を取りやめており，何かがうまく行っていないという可能性は否定できないと思います。単なる開発の若干の遅れからHot Chipsに間に合わなかっただけかもしれないのですが，経営上の問題による半数の従業員のレイオフもあながち噂だけではないかもしれないと思います。

２．215mm角の巨大マシンラーニングLSIを発表したCerebras

　　今回のHot Chipsで最大のビックリは，これまで中身の分からなかったCerebrasの発表です。Cerebrasが発表したのは，ウエファ1枚をフルに使った215mm角の学習エンジンです。使用プロセスはTSMCの16nmプロセスです。なお，丸いウエファ全部ではなく，その中に入る最大の四角形の部分を使っています。その理由は，取り扱いのやり易さと端の部分は記念品を作って配るのに使うから（もちろん冗談）と言っていました。

　　215mm角という大きな面積は一度には露光できないので，7×12のタイルに分割されています。普通はタイルの間にはスクライブラインがあるのですが，この部分も露光してタイル間を接続する配線を作っています。これはTSMCに特注のプロセスだそうです。

　　それから，215ｍｍ角の最大の問題は，基板とウエファの熱膨張率が違うことで，温度が上がると基板の伸びが大きくコネクタピンの位置がずれてしまうことです。これに対しては，基本的には伸縮性のある材料に接続ピンを埋め込んだコネクタを開発し，温度が上がると基板側の接点は広がり，ウエファ側の接点はほとんど広がらず，温度が変わっても接続が維持できるようになっています。

　　2019年8月19日のEE Timesの記事にウエファの写真が載っていますが，タイルの境に黒い丸が見えますが，ここは穴になっていて，ねじを通して締め付けることにより，コネクタのウエファ側はウエファの伸び，コネクタの基板側は基盤の伸びに合わせるようになっています。

　　もう一つの問題は製造欠陥で，このサイズのウェファには相当数の不良チップが含まれます。完全良品のウェファはほぼゼロです。そのため，メモリチップの不良カラムの救済のように，不良チップを飛ばして良品カラムだけを使えるようになっています。また，不良チップの故障は信号とグランドのショートなど無駄に電気を食うものもあるので，チップごとに電源をオフにできるようになっています。

　　また，EE Timesの記事では消費電力は15kWとなっており，電源電圧を0.75Vと考えると，ウエファLSIの電源電流は2万アンペアとなります。仮に100Aの電源LSIを使うと200個の電源LSIが必要です。また，15kWの発熱を冷やす必要があり，水冷になっています。

　　この巨大LSIには40万個のAIに最適化されたコアが搭載され，各コアには45kBのメモリを持っています。そして，入力がゼロの場合は演算せず，以降の計算も行わないという疎行列対応の機能などを持っています。

　　巨大LSIであるので，かなりの規模の学習がこのLSIに収まり，多数のGPUを使う場合のようにチップ間の通信が不要になるので処理が速い，また，装置が小さい，消費電力も小さいというメリットがあります。

　　既に実験室では稼働しており，数社のデータを学習させているそうです。その中には，日本の会社も1社あるとのことです。

３．HabanaのGoyaとGaudi

　　Hot Chipsにおいて，Habana LabsはGoyaとGaudiという2種のAIエンジンを発表しました。Goyaは推論用のLSIで，Gaudiは学習用のエンジンです。

　　ResNet-50を使った画像認識では，Goyaは15,393イメージ/秒に対してNVIDIAのT4 GPUでは4,944イメージ/秒と，GoyaはT4の3倍の性能です。レーテンシも，T4は26msに対してGoyaは1.01msと圧倒的に高速です。

　　また言語理解のBERTでもBatch=12の場合，Goyaは1,273センテンス/秒に対してT4は736センテンス/秒とGoyaが有利です。

　　Gaudiの方はVLSI SIMDのTPCエンジンはアップグレードされた2.0版のものに置き換わっています。また，HBMを4個搭載し，メモリバンド幅を高めています。さらに，スケールアウトのため，RDMA over Converged Etehrnet(RoCE v2)を搭載しています。NVIDIAのDGX-2は16個のGPUを使っていますが，これ以上のGPUを必要とする場合はInfiniBandを経由することになり，大きなロスが発生します。これに対して，8個のGaudiを使うHabanaのHLS-1サーバを8台使い，これをEthenet Switchで接続すれば。1ホップで64Gaudiの接続が出来ます。また，10台のEthernet Switchを使えば16台のHLS-1を繋いで128Gaudiのシステムを作ることができます。

　　Hot Chipsでは各社のAIエンジンが発表されたのですが，MLPerfなどの各社の製品の性能を比較できるような性能値は発表されませんでした。MLPerf値を発表して，その後，他社がそれを上回る数値を出すとまずいという考慮があり，社内でMLPerfの測定は出来ていても，発表は様子見という所が多い感じです。