2020年3月文献/技術記事解説

影画像と影なし画像のペアじゃないデータから学習し、影除去する初の試み。基本CycleGANなのだが、入力の影画像から影マスクの生成を学習し、そのマスクを利用し影なし画像から影画像を生成することでCycle-Consistencyを維持する。結構、汎用的な考え方なので有用だと思う。https://t.co/yQGiRJal9b pic.twitter.com/D0fg0AkCNM
— Teppei Kurita (@kuritateppei) 2020年4月1日

HuaweiのCEOによると新しいスマホP40 Pro+の背面カメラには人体の体温を正確に測定する機能がついているとのこと。方式は不明だがシリコンなので少なくともサーモではない。
AIベースなのかな、わからん。https://t.co/VB9LEVTeJS
— Teppei Kurita (@kuritateppei) 2020年3月31日

画像の反射率と陰影を分離するには、RGB画像単体で行うよりもNIR(近赤外)画像を併用すると良いという提言。近赤外画像はRGB画像よりテクスチャの振幅が小さいため陰影との誤分類を防ぎやすい。CNN等を用いずエネルギー最小化問題として定式化して解いていて硬派。ICCV2019。https://t.co/c8iJwG9C8m pic.twitter.com/Ql7kItG81D
— Teppei Kurita (@kuritateppei) 2020年3月30日

低解像度・低ダイナミックレンジ(DL)画像から高解像度・高DL画像に変換するNNの提案。超解像のために低周波と高周波に分解し固有のネットワークに通す、またトーンマッピング時に局所コントラストを向上させるために位置依存性のある演算を適用しているのがキモ。ICCV2019。https://t.co/uaXjuZkPKJ pic.twitter.com/USTBeR8fiZ
— Teppei Kurita (@kuritateppei) 2020年3月30日

超低照度動画(dBがマイナス)の視認性向上手法の提案。そもそも真値の長時間露光動画を得ることが出来ないので、静止画像を１枚だけ真値として、動画シーケンスから２枚ピックアップして重み共有してネットワーク学習をさせる。また信号値がわずかなので、RAW(Bayer)処理する。https://t.co/2am4a4tO6C pic.twitter.com/cMZmfoMSi5
— Teppei Kurita (@kuritateppei) 2020年3月29日

２枚の偏光画像（中の２点対応）から相対的なカメラポーズ推定を行う手法の提案。屈折率の影響に対応するために、ポーズと屈折率の同時最適化を行う。CG、実写共に従来の5点アルゴリズムよりも性能向上を確認。現状拡散反射前提だが鏡面反射にも拡張可能とのこと。ICCV2019。https://t.co/PLEsplgSvG pic.twitter.com/Ewq2Pmzla2
— Teppei Kurita (@kuritateppei) 2020年3月27日

画像中のガラス面に付着した水滴を除去する手法の提案。水滴の物理的な形状(凸性)や輪郭の閉塞性を利用しCNNにその特性を入れ込む。定量定性共にSOTAを達成。ただ結果を見ると繰り返しパターン以外はpix2pixと大差ないので逆にpix2pixの安定性・汎用性を示す事になっている。https://t.co/KDbHfoSMKP pic.twitter.com/hGHkJzvc4n
— Teppei Kurita (@kuritateppei) 2020年3月27日

RGBD画像から「物体の厚さ」を予測する新しいタスクに取り組んだ報告。厚さがわかると、ボリュームを推定するよりも軽量に3D再構成ができるとのこと。従来のKinect Fusionのアルゴリズムを少し拡張しただけでできる。他にもアプリケーションがありそうで面白い。ICCV2019。https://t.co/scOQk22wmD pic.twitter.com/lHPeIk4lTy
— Teppei Kurita (@kuritateppei) 2020年3月26日

霧除去の最新手法。大気散乱モデルを含む複数の霧モデルを同時に探索し、それらを組み合わせるNNアーキテクチャでSOTAを達成。
言ってしまえば複数の伝統的なモデルのパラメータをNNで学習して、その結果をAttention Mapで重みづけただけなのだが、シンプルで良い。https://t.co/TYifsmBAtM pic.twitter.com/ya4tZHjNro
— Teppei Kurita (@kuritateppei) 2020年3月25日

RGBD画像を用いた水中画像の色の復元手法。従来の大気ベースのモデルの問題点（減衰はシーン全体で一様ではなく物体の反射率に依存する）を抽出し、より物理的に正確なモデルを提案。水中画像のデータセットも公開。CVPR2019。https://t.co/0BroXqdkOm pic.twitter.com/DPKYZST723
— Teppei Kurita (@kuritateppei) 2020年3月24日

映画などの撮影・流出を防ぐためにカメラでの撮影画像に強制的にマーカーを埋め込む技術。スクリーン上のマーカーを高速で反転させ人間の目では積分されるが撮影画像には残る方法と、スクリーン側から複数プロジェクタでカメラ側にマーカーを投影させる方法のハイブリッド。https://t.co/fMqjNXKmhy pic.twitter.com/6qUDTd58Fw
— Teppei Kurita (@kuritateppei) 2020年3月23日

写真や高品質マネキンなどRGB画像では顔のなりすましが防ぐのが難しい対象でも偏光度+NN(+SVM)を使えば判別できるという報告。オンチップの偏光イメージセンサを用いてシステムを試作。なりすまし防止用途の偏光画像データセット(Face-DOLP)も公開。https://t.co/4d6aRIZ3Mt pic.twitter.com/r9B9pXQ9Gx
— Teppei Kurita (@kuritateppei) 2020年3月22日

PSNRやSSIMなどの画像評価指標は浅い関数であり人間の直観と違う結果を出すことがある。そこで人間の知覚との類似度判定のための新しいデータセットを導入。またDeepな特徴を使った従来手法よりも人間により近い画像評価指標を提示(LPIPS)。コードすぐ使える。CVPR2018。https://t.co/jIUKtYt9Os pic.twitter.com/PxvL3PXgkg
— Teppei Kurita (@kuritateppei) 2020年3月21日

教師なしで平面ホモグラフィを推定するためのDNNアーキを提案。入力はある程度オーバーラップした２画像内のパッチペアでホモグラフィを推定し、画像全体を変形させ画素単位ロスを取り学習させていく。従来手法と比較して性能保ちつつ高速、照明変動に対してロバスト性持つ。https://t.co/o3dmLizsby pic.twitter.com/bCWDQFyMfO
— Teppei Kurita (@kuritateppei) 2020年3月20日

画像間の相対的なホモグラフィを推定するためのCNNを提案。2画像のStackを入力とし、VGGで8自由度のホモグラフィをEnd-to-Endで生成する。4pt Parameterizationの変換を使用。回帰・分類両方のネットワークで実験、回帰の方が良かった、2016年発表時点でSOTA（なので古め）。https://t.co/DqJInITuYt pic.twitter.com/UnPWPflXKW
— Teppei Kurita (@kuritateppei) 2020年3月19日

正面図から鳥瞰図を生成するBridgeGANを提案。２つのビューのギャップを埋めるために１回ホモグラフィー変換をして中間表現を得る。正面図とホモグラフィ図からそれぞれGANで鳥瞰図を生成する際に高次元特徴を生成するレイヤーを共通化し、特徴の一貫性を維持したのがキモ。https://t.co/QtLoZUzskJ pic.twitter.com/ky1rk7JV7e
— Teppei Kurita (@kuritateppei) 2020年3月18日

ビュー変換タスクで、既存研究は変換後のセマセグマップ真値をロスとしてだけ使ってたが、Concatして入力として使うと良い事がわかった。またRGB出力ではなくマルチチャンネル+アテンションマップ出力にして積和することが性能向上に一役買うことを示した。CVPR2019 Oral.https://t.co/58bNYg5z4q pic.twitter.com/gO2EMaicag
— Teppei Kurita (@kuritateppei) 2020年3月17日

異なるビューの画像変換タスクで、Pix2Pixのgeneratorをセマセグマップも同時に出力するように変更するだけで、性能がそこそこ上がることを示した。画像中のオブジェクトの意味的な解釈を補足することが有用だという事。シンプルな話だけどかなり使いやすいと思う。CVPR2018。https://t.co/NlRBetbi0Y pic.twitter.com/kXfpHnVyZt
— Teppei Kurita (@kuritateppei) 2020年3月16日

航空画像から地上視点のセマセグマップを得るFirst Effort。CNNで特徴を抽出し適応変換して地上の視点にマッピングをする。地上視点のGT画像から得られるセマセグマップと航空画像から予測されたセマセグマップの誤差を最小化するように変換処理含めEnd2Endで学習。CVPR2017。https://t.co/M3XuQ9NdjA pic.twitter.com/Vb9N2VjdJV
— Teppei Kurita (@kuritateppei) 2020年3月15日

無線周波数(RF)信号を入力とし、壁や障害物などのオクルージョンがあったり暗すぎるときでも、人の行動を検出できるNNアーキテクチャを提案したFirst Effort。行動認識に関連する知識を伝達するための中間表現としての"skeltons"を提案し、性能向上を示した。ICCV2019。https://t.co/dbm8LbzzOt pic.twitter.com/b4QzpaSC0p
— Teppei Kurita (@kuritateppei) 2020年3月14日

Deep Solarと呼ばれる衛星画像を分析し太陽光パネルの位置とサイズを特定するシステムを開発。太陽光パネルの設置密度は1000人/mile^2でピーク、$150Kまで世帯年収と相関、ジニ係数とは逆相関。日射量の閾値が4.5kWh/m2を超えると太陽光パネルの導入が一気に進むとのこと。https://t.co/jTdoEvdnQo pic.twitter.com/6VofYqJ9Yt
— Teppei Kurita (@kuritateppei) 2020年3月13日

フラットな回折レンズ(MDL)を上手く設計することで、被写界深度を4桁以上向上することができる（6Mまでの距離でオブジェクトへの焦点を合わせることができる）という報告。10年以上、盛り上がっても結局実用化には至らないEDOFが復活したかというセンセーショナルな見出し。https://t.co/uNtrRAo01C
— Teppei Kurita (@kuritateppei) 2020年3月12日

シンボリック回帰は、特定のデータに適合する式の検索を行う離散最適化問題の一種であるが探索空間の広さが課題である。本論文ではx→∞,0時の漸近的制約を入れることで探索空間をより効果的に制限し、よりよい式表現を得られることを示している。
NeurIPS 2019 (Talk)。https://t.co/QSpfyGqrIQ pic.twitter.com/qCMSKVbtzG
— Teppei Kurita (@kuritateppei) 2020年3月12日

自然科学では結果の理解と一般化をしたいので、現象の解釈可能な関数を見つけることが目標の１つである。筆者らは方程式学習器(EQL)と呼ばれる関数学習ネットワークを提案。E2Eのスパース正則化学習により簡潔で解釈可能な表現を得られる。主に物理系や機械系の方程式を対象。https://t.co/MWdL3RAcR0 pic.twitter.com/K0Ajht0oSK
— Teppei Kurita (@kuritateppei) 2020年3月11日

壁に投影された2次元の影から、直接見えない場所の4D Light Fieldを推測する。隠れたシーンと壁の間にオクルーダ（観葉植物など）がある前提。キモはLight Transportを線形演算としてモデリングし、Light Fieldに関するPriorを組み込み、逆問題を解いたところ。CVPR2018。https://t.co/12uD62GSBv pic.twitter.com/HPTCVSjxTu
— Teppei Kurita (@kuritateppei) 2020年3月10日

Spatial Transformer Networksは画像変形操作を微分可能な表現に落とし込むことで様々なタスクに応用されてきたが、大きく画像のスケールが変わると性能が低下し勾配伝搬も不十分になる。そこでバイリニア補間の代わりにランダム補助サンプリングをする事で性能向上を示した。https://t.co/p9ht4bbu6x pic.twitter.com/9fXZCvXKoD
— Teppei Kurita (@kuritateppei) 2020年3月9日

位置合わせされていない複数のカメラの画像を１つの写真にFusionする様々なタスクを統一的に扱えるEnd-to-Endのネットワーク(Pixel Fusion Net)を提案。カメラキャリブレーションに依存せず、エピポーラ制約も利用しない。画像ワーピングタスクでSOTA。ICCV2019、Google。https://t.co/aJRUfJCrKL pic.twitter.com/zDIgunaE1o
— Teppei Kurita (@kuritateppei) 2020年3月8日

イメージセンサそのものに、画像表示と同時に分類処理できるニューラルネットを構成できることを示した。各画素がニューロンを表し、それぞれシナプスを表す複数のサブピクセルからなり、2D半導体(後述)のPDをベースに構成され、ネットワークの重みが格納される。Nature掲載。https://t.co/ZL7qIu5EhW
— Teppei Kurita (@kuritateppei) 2020年3月5日

単一のRGB画像から多層レイヤー構造のDepthを推定するCNNを構築、更に他の仮想カメラビューに特徴を転送するEpipolar Feature Transformerを導入。既存手法ではボクセル表現を使うのでメモリを大きく食うが、本手法はEndtoEndで微分可能でありメモリを抑えることができる。https://t.co/WmPTy64rw0 pic.twitter.com/EGYpYNPGsg
— Teppei Kurita (@kuritateppei) 2020年3月5日

イメージセンサの解像度と実際にユーザが感じる品質の関係性を研究した論文。「画像のズームは考慮しない」という前提だが（画像全体を表示して評価）1.34MP以上あればユーザは満足するという衝撃の結果。100MPと6MPでもほぼ変わらないとのこと。2560x1440のEIZOのLCDで評価。https://t.co/4STOITURJg pic.twitter.com/oAPTYo3j9N
— Teppei Kurita (@kuritateppei) 2020年3月5日

イメージセンサの各画素の上部に3次元のナノ微細加工されたポリマーキューブを配置することで、色や偏光を分離して取得する。通常のカラーフィルタや偏光フィルタを配置するよりも大幅に高効率とのこと。
特定のターゲットを目的とした反復勾配最適化でキューブを設計。https://t.co/MOpDUgI722 pic.twitter.com/FJHvIboA37
— Teppei Kurita (@kuritateppei) 2020年3月4日

単一のDepthマップから、シーンの3Dボクセル表現およびセマンティックラベルを生成する。キモはボクセル占有率とオブジェクトのクラスという２つの密接関係を利用するネットワークSSCNetを導入したところ。各タスクを別個で学習した手法よりも高精度を達成。https://t.co/RTszQYvhCp pic.twitter.com/iS6PGuauz2
— Teppei Kurita (@kuritateppei) 2020年3月4日

Photonisが単一の光子をナノ秒精度で検出可能なイベント駆動型のカメラを発表。
解像度は256x256で検出された光子は0,1のバイナリでタイムスタンプが付与。アプリケーションは生体・宇宙関係を想定、特に蛍光解析に有効とのこと。CERNら欧州のアカデミアが設計を担当した。https://t.co/M5iVu0i0UN pic.twitter.com/ctAtWm791T
— Teppei Kurita (@kuritateppei) 2020年3月2日