2020年5月文献/技術記事解説

画像から物体の反射率・形状・照明条件を推定する。教師ありでまず分解を学習しておいて、元画像に戻すように自己教師あり転移学習で再合成誤差を最小化する、転移学習中は元のラベルつきのデータをミニバッチの半分だけ混ぜることで解が単純化されるのを防ぐ。NeurIPS2017。https://t.co/g82gVQoZkg pic.twitter.com/IrLRvDc9ol
— Teppei Kurita (@kuritateppei) 2020年6月1日

ステレオ画像から、シーン内の任意の位置の照明マップを推定する。以前は単一画像からのDepth推定をしていたが、これをステレオを使った高精度なMPI推定にすることで基本性能を向上させ、更にボリュームレンダリングの概念を利用し矛盾のない環境マップを計算する。CVPR2020。https://t.co/rOgpj5e2xF pic.twitter.com/JHtWjmImtP
— Teppei Kurita (@kuritateppei) 2020年5月31日

フォトリアルな画像と反射率からなる2万枚以上の大規模なデータセット。SunCGをベースとしており、Mitsubaでシーンを反射率マップと共に10台のPCで約6か月レンダリング。論文中ではIntrinsic画像分解への有用性を提示。既存データセットと組み合わせることで精度向上。https://t.co/3tR9pGHqKC pic.twitter.com/lfeAe9BwOE
— Teppei Kurita (@kuritateppei) 2020年5月29日

Attollo EngineeringっていうカリフォルニアのベンチャーがSWIR(短波赤外 )カメラを発表。ソニーに続く形。InGaAs 5um、640 x 512 。価格不明。https://t.co/DWqMmn8uWr
— Teppei Kurita (@kuritateppei) 2020年5月29日

RGB画像中の選択された画素について全方向からの光の到達量を推定する。従来は画像から直接環境照明マップを推定していたが、タスクを細かいサブモジュールに分解してそれぞれ教師ありで直接監視しEnd2Endで学習したのがポイント。従来では困難だった高周波照明を推定可能に。https://t.co/jaUrhnUwAf pic.twitter.com/6Gbgqgj6ip
— Teppei Kurita (@kuritateppei) 2020年5月28日

（1年前位の少し古めの情報）
実世界から取得した屋内のデータセット。18の室内シーン。高密度メッシュ、高解像度HDRテクスチャ、セマセグ情報など。鏡などの完全鏡面反射の物体も配置しているのがポイント。最小構成でレンダリングをするためのC++SDKも公開。Facebook。https://t.co/6xFZi6x1Q4 pic.twitter.com/H6Es6DHm9B
— Teppei Kurita (@kuritateppei) 2020年5月28日

オブジェクトの画像と形状から室内の環境光源マップを推定する。まず環境光源マップ自身をAEにかけて、潜在表現zを学習する。そして入力オブジェクトから環境光源マップへのNNを潜在表現zへのマッピングを通して学習する。オブジェクトの反射率は既知前提。3DV 2018。https://t.co/hKncgNpw6g pic.twitter.com/IlJ4z6h0pE
— Teppei Kurita (@kuritateppei) 2020年5月27日

画像から、屋外の環境光源マップを推定する。ただ存在するパノラマデータセットはダイナミックレンジが低いのでそのままは使えない。そこでパラメトリックなHDRの空モデルにフィッティングして疑似HDRデータセットを作ったのがポイント。CNNでその各パラメータを回帰する。https://t.co/aeGZ6BgKzc pic.twitter.com/4uBUVQwygO
— Teppei Kurita (@kuritateppei) 2020年5月26日

1枚画像を入力して環境照明マップを出力する。照明情報が得られれば画像中に仮想オブジェクトを挿入して、リライティングすることが可能。既存の大規模なパノラマデータセットを使い倒しながら、自身たちで中規模のデータセットを作って調整するようにしたのがポイント。https://t.co/KwzcPJ428b pic.twitter.com/8TEivP1Rxj
— Teppei Kurita (@kuritateppei) 2020年5月25日

NNでの白黒画像のカラー化は、細かいオブジェクトが多くあると失敗することが多かった。そこで物体検出器と組み合わせて、オブジェクトレベルの正確な色付けも同時に学習し、背景との混色を回避することで性能向上を実現。CVPR2020。https://t.co/nNMA8Xx6vz
コードhttps://t.co/pIQWNDnLUe pic.twitter.com/S6g1Shk3qh
— Teppei Kurita (@kuritateppei) 2020年5月24日

未知のデータセットに対するハイパーパラメータ（学習率、Optimizer、Augmentation…）の推薦、ランク付けを行う。特定のデータセットとハイパラ構成を入力したときに、そのパフォーマンス予測器をEnd2Endで学習したのがキモ。いわゆるメタ学習。
CVPR2020オーラル。https://t.co/8acR7h6pNQ pic.twitter.com/a6njADKW3K
— Teppei Kurita (@kuritateppei) 2020年5月23日

3次元点群を、プリミティブ（球、円柱、円錐）のどれかに高速に分類してコンパクトな表現を実現する。機械学習ではなく、ハフ変換での投票をベースとしており低次元空間での操作となるのでGPUがいらない。なのにRANSACを利用した従来手法と比較しても性能が高い。ICRA2020。https://t.co/rvWZpQ5EP6 pic.twitter.com/UB8XbjOHiG
— Teppei Kurita (@kuritateppei) 2020年5月22日

Focal Stack(ピントをずらして何枚も撮影した画像)を入力としてDepthを推定する。学習データは全てCG。ドメインギャップを吸収するために、まず中間表現としてデフォーカス量マップを生成するネットワークを挟んだのがキモ。その後にDepthを別ネットで生成する。CVPR2020。https://t.co/SJlsiKSSwE pic.twitter.com/S7EO8yu7RN
— Teppei Kurita (@kuritateppei) 2020年5月21日

Open Imagesなどのマルチラベルが多い大規模データセットに対して効果的な改良型Softmax Lossの提案。マルチラベルの場合、Softmax Lossに直接複数の正解ラベルを割り当てると各ラベルのスコアが互いに抑制されてしまうのを防ぐように自然な拡張を実現。CVPR2020オーラル。https://t.co/NnyTNHICPL pic.twitter.com/sLv8rSODA6
— Teppei Kurita (@kuritateppei) 2020年5月20日

離れた場所からカメラに念写をする。カメラは光が入らないようにキャップをしてシャッターを閉じて箱に入れる。参加者（その道のプロ）はその間、指定された画像を思い浮かべたり見たりする。その間何枚も撮影する。SSIM値を解析したところ、念写が実現出来た可能性が高い。https://t.co/FTbGkMVNUz pic.twitter.com/0fomGxUxvi
— Teppei Kurita (@kuritateppei) 2020年5月19日

MobileNetをバイナリ化する。ただそのままバイナリ化するとDepth-wise convでの表現能力に限界があるので性能が出ない。なので代わりにGroup Convを採用し、そのGroup数を進化的に探索したのがキモ。最大FLOP数の制約を加え計算量とのトレードオフも制御可能。CVPR2020。https://t.co/Q9iVa6LDZZ pic.twitter.com/6ZkvlZeLhO
— Teppei Kurita (@kuritateppei) 2020年5月19日

DA(Domain Adaptation)は今までの研究では畳み込み層を完全に共有して、ドメイン間で特徴をアラインすることに焦点を当ててきたが、それだとドメイン独自の特徴を有効活用できていないことを指摘。ドメインごとに一部異なる畳み込みを使うことで性能向上を示した。AAAI2020。https://t.co/71mFCxRDQZ pic.twitter.com/a5dnAJfTsO
— Teppei Kurita (@kuritateppei) 2020年5月18日

マルチビューのRGB画像を入力として、オブジェクトの位置・ポーズ・正確な形状を推定する。軽い疎点群表現と密なSigned Distance Functions表現の両方に形状をデコードすることができる潜在表現を獲得するアーキにしたところがキモ。より高速な形状最適化が可能に。CVPR2020。https://t.co/PdXBCD3tX8 pic.twitter.com/L1uqZNUBU8
— Teppei Kurita (@kuritateppei) 2020年5月17日

ロボットの持ち替え動作などのためのCGベースの学習データ構築方法。メッシュを入力して、平面上（机を想定）に積み上げるようランダムに配置してPBレンダリング。カメラセンサのノイズ等もエミュレート。データは画像・セマセグマップ・Depth・法線・ポーズ等。ICRA2020。https://t.co/rxBPvH3BZI pic.twitter.com/EIRQB8s10F
— Teppei Kurita (@kuritateppei) 2020年5月16日

3D形状の特徴的な領域を教師なしで検出する。画像の飛行機はクラス間で重要な特徴(a)とクラス(飛行機)内で重要な特徴(b)を示している。有効な特徴を算出するための教師なし形状クラスタリングをするDNNを定式化したのがキモ。ノンパラメトリックなのもすごい。SIGGRAPH2020。https://t.co/sTRkWF3rqy pic.twitter.com/1nqyUfXjeL
— Teppei Kurita (@kuritateppei) 2020年5月15日

単眼Depth推定（自己教師）での信頼度マップ推定を行うため、新規手法を含む11の手法の長所短所を様々な条件で徹底的に比較した論文。スケールやカメラポーズ推定の既知/未知によって、それぞれの手法の精度は激しく上下し、最良戦略も変わることがわかった。CVPR2020採択。https://t.co/NvFi5ayksY pic.twitter.com/2FvW18hxol
— Teppei Kurita (@kuritateppei) 2020年5月14日

自動運転のシミュレータはUEやUnityなどのゲームエンジンを主に使用しており、カメラやLIDARの設定が大変で現実データとのドメインギャップも激しい。そこで現実の走行で収集した少量の画像やLIDARデータから任意の軌跡におけるリアルなカメラ画像をシミュレート可能にした。https://t.co/NOeBN2T9ra pic.twitter.com/CoOFTA7KWh
— Teppei Kurita (@kuritateppei) 2020年5月13日

地上画像から、航空画像のデータベースと一致する場所を特定するいわゆるクロスビュー検索問題。そもそも地上画像の撮影方向もわからないので、航空画像をpolar変換して最も特徴が類似する方位角を求めるのがキモ。
最近毎年CVPR採択されてるけど、この分野何となく大変そう。https://t.co/VWziKTMw3A pic.twitter.com/XJu2whyPF8
— Teppei Kurita (@kuritateppei) 2020年5月12日

バーチャル環境での触覚を現実で再現する。いわゆる皮膚刺激の逆マッピング問題にとどまらず、様々な課題（バーチャルシム上の触覚計算、デバイス構成の最適化、摩擦状態の推定、計算時間）を解決しているのがキモ。触覚デバイスも3自由度でシンプル。SIGGRAPH2020採択。https://t.co/mX93MxZkAV‘ pic.twitter.com/KfDAS2vAww
— Teppei Kurita (@kuritateppei) 2020年5月11日

CNNのMaxPoolingとConvolutionを離散ウェーブレット変換に置換することで性能を向上させる。Poolingでのダウンサンプリングの際に高周波と低周波に分解して、推論時に高周波のノイズを除去することでノイズ耐性が上がる。ウェーブレットの基底はなんでもおｋ。CVPR2020採択。https://t.co/FSKJB3kdPM pic.twitter.com/NAdRbrAmwu
— Teppei Kurita (@kuritateppei) 2020年5月10日

様々なGANのモデルと評価の実装を提供する軽量なPyTorchライブラリ。元文献で報告されているスコアを7データセットで忠実に再現可能なので信頼性が高い。研究等でフェアなベンチマークに悩まされている人にとって、各種実装依存の問題が一気に解決するので大変有用なのでは。https://t.co/MCW0Jrp6ba pic.twitter.com/wOf2htOWyp
— Teppei Kurita (@kuritateppei) 2020年5月8日

ワイヤーや木の枝など「細く薄い」オブジェクトの３D再構成は非常に難しい（特徴が少ない＆点群も疎）が、複数の画像からカメラ動きを推定をすることで可能にした。キモはテクスチャ特徴がいらないカメラポーズを正確に計算するための新しい曲線ベースの手法。SIGGRAPH2020。https://t.co/Dr7ofRUTRB pic.twitter.com/MGeLElvmAf
— Teppei Kurita (@kuritateppei) 2020年5月8日

生成モデルの高次元潜在空間での変化を効率的に可視化して探索する方法。ユーザはスライダを操作して、一次元部分空間を反復的に探索できる。特別な学習は必要がなく、事前学習された生成モデルを入力とするだけで良い。動画を見るとイメージしやすい。SIGGRAPH 2020採択。https://t.co/mMfi8ZAQmB pic.twitter.com/hsjzQOGWDj
— Teppei Kurita (@kuritateppei) 2020年5月7日

ステレオDepthは実写データとCGデータ(真値あり)の間にドメインギャップが存在するのが課題であった。そこでドメイン変換とステレオマッチングをEnd2Endで学習する方法を提案。従来のドメイン変換では無視されてきたエピポーラ制約を維持するようにロスを定式化したのがキモ。https://t.co/nsiKSMq6UR pic.twitter.com/1asr4GXWIx
— Teppei Kurita (@kuritateppei) 2020年5月6日

光の強度に加え光の位相を取得できる波面センサは解像度が課題だったが、マイクロレンズを空間光変調器(SLM)で置き換え、位相検索アルゴリズムを使用することで1000万画素でのセンシングを達成。長距離で回折限界のためボケてしまった画像の再構成など。https://t.co/DUQ2Aj78p3 pic.twitter.com/uqntOVjEy3
— Teppei Kurita (@kuritateppei) 2020年5月5日

偏光カメラと3台のKinectを同期させ、偏光画像と人体形状・ポーズの大規模データセットを構築。12人に18の異なるアクションをさせ15fps、28万フレームからなる。各フレームで1つの偏光画像、3RGB、3Depthを含む。更にそこから人体形状・ポーズを自動的にアノテーションする。https://t.co/M8vXvCZIwi pic.twitter.com/aaLiH7b8A8
— Teppei Kurita (@kuritateppei) 2020年5月4日

災害時のTwitterのテキストと画像から、そのツイートが有益かどうかを分類する（人道支援的な観点から）。いわゆるテキストと画像を入力としたマルチモーダル問題で、各モダリティから各NNで得られた２つの特徴ベクトルを、FC層前で結合してSoftmaxをかける。ISCRAM 2020。https://t.co/HEfu8MlX4U pic.twitter.com/Ltv9pIVC9O
— Teppei Kurita (@kuritateppei) 2020年5月3日

CVPR2020の超解像チャレンジの1手法の解説。教師なしでノイズ除去&超解像を行う。ConditionalなVAEを使いNRをした後、超解像ネットワークをAdversarialに学習する。教師なしとは言ってもVAEのエンコーダは事前学習済。超解像やる前に画像は綺麗にした方が良いということ。https://t.co/r7SnUjeVP9 pic.twitter.com/pHQRLcBL2p
— Teppei Kurita (@kuritateppei) 2020年5月2日