最近の話題 2018年9月15日

1.Appleが7nmのA12プロセサを使うiPhoneを発売

  2018年9月12日のEE Timesが,AppleのA12チップを使うiPhoneの発売を報じています。A12 SoCを使う製品としては3種のiPhoneと2種のスマートウオッチが発表され,今後,2~6週間で出荷が始まるとのことです。

  A12 Bionicと呼ばれるチップは7nmプロセスで製造され,6.9B Transistorを集積しています。A12は2個のハイエンドコアと4個の低電力コアを集積しています。ハイエンドコアは,前世代のA11と比較すると,15%速度が向上し,電力効率は40%改善されていますが,A10からA11の場合は,25%の速度向上と70%の電力効率の向上であったので,微細化による性能改善は明らかに飽和してきています。

  一方,低電力コアの方は50%の電力効率の改善だそうです。

  A12は,Appleが設計した6コアGPUを搭載しており,A11のGPUと比較して50%性能が向上しているとのことです。また,マシンラーニング処理性能は5Topsとなり,これはA11の0.6Topsと比べると9倍の性能ですが,消費電力は1/10になっているとのことです。マシンラーニング処理の性能が上がったことで,顔認識によるiPhoneの使用者認証や,その他のSiri機能の高速化が期待されます。

  ディスプレイは6.5インチ×5.8インチのOLEDで458Pixel/inchの解像度です。ローエンドモデルは6.1インチのLCDを使っています。カメラは,iPhone XSとiPhone XS Maxは2台の12MPixelカメラを搭載し,HDR10処理,焦点深度の可変機能などを備えています。

  スマートウォッチは加速度計を備え,落下が検出されて,その後,1秒間動きが無いことを検出する機能があるとのことですが,救急車を呼んでくれるのでしょうか?でも,テーブルから時計を落としただけで,救急車を呼ばれても困りますね。

2.TSMCのLiu会長が,半導体の集積度は年率2倍で伸びられる

  2018年9月12日のEE Timesが,TSMCのMark Liu会長がSemicon Taiwanで講演し,業界がいくつかの新しいテクノロジ開発の最前線を進歩させれば,半導体の集積度はMooreの法則を上回る年率2倍の向上を達成できると述べたと報じています。

  微細化自体はEUVの実用化や新しいマテリアル,デバイス構造などで3nmから2nmあたりまで行ける。問題になるのは電力密度で,プロセサとメモリを近づけて消費電力を減らす真の3D構造などを開発する必要があると述べています。

  また,TSMCの前会長のMorris Chang氏も半導体業界の売り上げは世界のGDPの伸びを上回る年率5%~6%で成長を続けるとSemicon Taiwanでの講演で述べています。

3.FacebookのTaylor VPが,自前のASICの開発を認めた

  2018年9月14日のEE Timesが,Facebookの@Scaleというイベントで講演したFacebookのインフラ開発を担当するJason Taylor VPが,自前のチップエンジニアを雇っており,少なくとも1種のASICを開発していることを認めたと報じています。

  FacebookはGlowというマシンラーニングのコンパイラ開発プロジェクトを推進しています。Glowは,TensorFlowやCaffe2などのフレームワークで記述されたグラフをハードウェアアクセラレータが処理するバイトコードに変換するもので,命令のスケジュール,線形代数計算のオプティマイズ,メモリの割り付けなどを行うツールで,CPUで実行するリファレンス実装も生成するとのことです。このリファレンス実装での実行と比較することで,開発するLSIやツールの正しさを確認することができます。

  Facebookの開発するチップはAI用のアクセラレータですが,GoogleのTPUとは異なるということ以外は,その詳細は明らかにされていません。

4.NVIDIAのJensen Huang CEOがプレスリーの振り付けで踊る

  2018年9月13日のGTC Japanの基調講演で,NVIDIAの創業者兼CEOのJensen Huang氏がエルビスプレスリーの振り付けでダンスを踊るビデオが上映されました。また,ブルースリーの振り付けでヌンチャクを振り回すビデオも上映されました。ビデオに別人の顔を貼り付けるDeepFakeは,これまでにもありますが,このビデオでは,顔の表情の変化だけではなく,プレスリーやブルースリーの体の動きを検出して,Huang氏の体を同じように動かすという処理を行っていて,より迫真性が増しています。

  Huang氏がブルースリーの速度でヌンチャクを扱えるというのはウソっぽい気はしますが,ビデオをみた感じでは偽物感はありません。このような技術が出てくると,自分の目でみたものでも,真実かどうか確信が持てなくなってしまいます。

  この問題についてPress Q&Aの席でHuang氏に質問したところ,これは問題であり,真偽を検査するAIを開発するのが解ではないかという回答でした。

  続けて,基調講演で示されたXavierのチップの写真はリアルかフェイクかと質問したら,あの写真は見やすくするためにEnhanceされているという答えでした。エンハンスの例としては,上層のアルミはUglyであるので,Auを付けて見やすくしていると述べましたが,その他にどのようなエンハンスを行っているのかは明らかではありませんでした。

  なお,基調講演の中で出てきたDGX-1を並べたSaturnスパコンの写真は明らかにフェイクです。

5.NVIDIAが推論用アクセラレータのTesla T4 GPUを発表

  2018年9月14日のHPCWireが,GTC JapanでのNVIDIAのT4 GPUの発表を報じています。T4は2年前に出たPascalベースのP4の後継となる製品で,2560個のCUDAコアと320個のTensorコアを集積しています。推論用ですから,FP64の計算機能は持っていません(多分,1個だけはある)が,FP32では8.1TFlops,FP16を使うMixed Precisionでは65TFlops,Int8でのTensor演算では130TOps,Int4なら260TOpsの演算能力を持っています。そして,消費電力は75Wと低いところが売りです。

  また,Quantaが16台のTesla T4を搭載するQuantaGRIDを発売する予定で,このサーバは4Uサイズで,2kWの消費電力でFP16の混合精度演算では1PFlopsの演算性能を持つことになります。

6.NVIDIAのTuring GPUのリアルタイムレイトレーシング

  2018年9月14日のPCWatchが,NVIDIAのTuring GPUについて報じています。TuringにはTU102,TU104,TU106 の3種類のダイがあるのですが,ここでは最上位のTU102について,PC Watchの後藤さんの記事を引いて紹介します。

  TU102のComputing Capabilityは7.5となっていて,Voltaとは異なる新アーキテクチャではなく,Computing Capability 7.0のVT100の延長であることを示しています。Turingの大きな拡張はRTコアというレイトレーシング用のアクセラレータを追加したことと,TensorコアでFP16の積和演算だけでなく,INT8やINT4での積和演算をサポートした点です。

  これはマシンラーニングの推論では,かなり低い精度でも使えるケースもあり,その場合はFP16より低い精度の演算を使って,より高い演算性能を得られるようにしようという意図です。正式にはサポートされていませんが,整数1bit精度の積和演算もできるようになっているとのことです。

  レイトレースですが,今のラスターグラフィックスは面に当たった光の反射だけを考えていて,2次,3次の反射は取り扱えません。また,ガラスのように屈折率が異なり,光が曲がって通り抜けるようなケースも取り扱えません。これを光のレイを一本一本計算して反射や屈折の影響を考慮して画面の各点の色や明るさを求めるのがレイトレースという方法です。

  しかし,この方法では非常に計算量が多く,映画のように時間を掛けてコマ撮りをする場合はともかく,リアルタイムでレイトレースの画像は作れません。Turingでは,これを高速化するハードウェアを搭載しました。

  NVIDIAのレイトレースソフトでは,Bounding Volume Hierarchyという方法を使っています。この方法は,描画するモデルを囲む直方体の箱を作り,最初は1個の大きい箱,次にその箱を細分化して,よりモデルの細部に近い多くの箱を作ります。これがBVHです。あるレイが物体に当たるかどうかは,まず,一番外側に箱に当たるかどうかを調べ,当たっていれば,その中の次に大きい箱のどれに当たるかを調べるというようにBVHを階層的にたどり,最小単位の箱に行きつくと,その中に入っている三角形のポリゴンのどのポリゴンのどこに当たるかを求めて,反射や屈折を計算し,その方向にレイを発生して計算を繰り返していきます。

  ここで,BVHの階層を辿って,どの箱にレイがぶつかるか,どのポリゴンにぶつかるかを求める部分が計算量が多く,Turingはこの部分の探索をハードウェアでサポートしています。しかし,この部分がどのように作られているのかについては書かれておらず,NVIDIAが発表していないと思われます。

  TU102チップのレイトレースを行う速度ですが,大体,10GigaRay/sと書かれています。

  なお,Tensorコアはレイトレース自体の処理には出番が無いのですが,縁のギザギザを無くすアンチエーリアス処理は1:64 MSAAよりも,ディープラーニングを使う方が品質の割には演算が少なくて済むので,アンチエーリアスを行うという役割を担うとのことです。

  また,画面全体をレイトレースで描くのは時間もかかるので,Turingでは基本的に従来のラスタグラフィックスで絵を作り,多重反射や屈折などが問題になる部分だけ,レイトレースを使って画像の品質を高めるというハイブリッドレンダリングが使われています。



  



inserted by FC2 system