20210821

最近の話題 2021年8月21日

１．Foxconnが電気自動車用半導体の製造に参入

　　2021年8月19日のEE Timesが，台湾の電子機器組み立て大手のFoxconnが電気自動車の半導体製造に乗り出すと報じています。

　　Foxconnは，台湾のMacronixの6インチウエファファブの買収を最近発表しており，当初はこのファブを利用すると見られています。FoxconnはMIH Allianceという電気自動車やヘルスケアの半導体を製造する立ち上げており，1200社のパートナーが集まっているとのことです。

　　ただし，EVの製造に乗り出すのは2023年の4Qの予定とのことです。

　　Macrnixファブの買収は約$90Mとのことで，それほど大規模なものではなく，順調に行けば追加の投資を行って生産規模を拡大すると思われます。

２．Sapphire RapidはEMIBで４ダイ構成

　　2021年8月19日のEE Timesが，IntelのSapphire Rapids CPUは4つのダイをEMIBで接続すると報じています。IntelはStratix FPGAではEMIBを実用化していますが，データセンターCPUでの採用はこれが初めてです。

　　EMIBは対向するシリコンダイの辺をの間に接続用の細長いシリコンチップを置きます。このシリコンチップに対抗する辺の接続バンプを繋ぐ配線を作ります。EMIBは複数ダイの対抗する辺の電極しか繋げませんが，接続する細長いダイの面積は小さくて済むので，シリコンダイ全体を載せるインタポーザと比べるとコスト的には大幅に安くできます。

　　Sapphire Rapidsは4個のダイを使います。4つのダイは全く同じ機能ですが，鏡像対称になっていますので，4種のチップは搭載位置にマッチしたものを載せる必要があります。各ダイにCores Meshというブロックがありますから，4チップのCPUのように見え，搭載コア数が4倍になると思います。

　　そして，各ダイがメモリコントローラと2つのメモリチャネルを持っています。また，各ダイはUPIとPCIeとアクセラレータを持っていますが，このアクセラレータは4ダイとも同じものなのでしょうか？

　　Sapphire RapidsはGolden Coveという新アーキテクチャのコアを搭載し，Golden Coveは性能に最適化したP版と電力に最適化したE版が作られるとのことですが，将来のSapphire RapidsではE版は使われないとのことです。

　　そして，AMX（Advanced Matrix Extentions）という新命令が追加されました。AMXはタイルを保持するレジスタとマトリクス演算器を持ち，AMXを使うと2000 int8演算/s/core，1000BF16演算/s/coreの演算性能が得られるとのことです。

３．BaiduがKunlun IIチップを発表

　　2021年8月18日のHPCWireが，BaiduのKunlun II AIチップの発表を報じています。Kunlun IIはBaiduの第二世代のXPUで，7nmプロセスで製造されます。性能はint8で256TOPS，FP16で128TFlopsとなっており，消費電力は120Wとのことです。

　　チップはarm CPU，高速インタコネクト，セキュリティー，仮想化の機能を持っています。

　　Reuterの報道によると，3月にKunlunチップの開発部門は$2Bの開発資金を獲得し，Kunlunの開発部門はスピンオフされて，独立の会社となるそうです。

４．TeslaがD1チップとそれを使うDojoスパコンを発表

　　2021年8月20日のHPCWireが，TeslaのDojoシステムについて発表しました。DojoのコンピュートエンジンはD1と呼ぶチップで，7nmテクノロジで作られ，645mm2のチップで50Bトランジスタと11マイルを超える配線を集積しているとのことです。

　　D1はFP32とBFP16（Bfloat16）とCFP8(8bit Float）をサポートしています。D1チップには354個のTraining Node集積されています。このチップはGPUレベルの演算性能とCPUレベルの柔軟性を備えているとのことです。

　　D1チップの上の階層は25個のD1チップを持つトレーニングタイルです。タイルの4辺は合計16TBpsの通信バンド幅を持っています。タイルの電源接続と冷却はタイルのタイルの上面から行われます。（HPC Wireの記事ではタイルからの通信バンド幅は36TB/sと書かれているが，どういう計算化は不明。）

　　そして，トレーニングタイル6個を敷き詰めたものがトレーニングマトリクスのトレイで，2個のトレイをキャビネットに収容します。キャビネットはBF16では1.1EFlopsの性能を持つのでExaPODと呼んでいます。

　　D1チップはFP32で22.6TFlops，トレーニングタイルは565TFlops，12タイルを含むキャビネットが6.78PFlopsですから一つのExaPODは67.8FP32 TFlopsで，BFP16での演算性能は1.1ExaFlopsという計算になります。

　　Dojoは最初のトレーニングタイルができたという段階で，次の仕事はキャビネットを組み立てることだそうです。

５．Global FoundriesはIntelを蹴ってIPOに向かう？

　　2021年8月19日のHPCWireが，Wall Streat Jounalの記事をひいて，Global Foundriesは，Intelからのファブの買収提案を蹴って，IPOを行う準備を進めていると報じています。IPOを行う場合の売り出し価格は$25B程度とのことです。

　　一方，IntelにFabを売却する場合は，米国の主要な半導体ファブが同じ会社になってしまうので，独禁法上認められるのかという点でも問題がありそうです。