2020年4月文献/技術記事解説

機械学習ベースのオートフォーカスの最新手法。スマホを同期させMVSで得られたDepthとフォーカルスタック49枚を対応させた大規模なデータセットを作ったのがキモ。MobileNetV2でスマホ上で32.5msで動作、単一画像入力、フォーカルスタック入力どちらでも動作する。CVPR2020。https://t.co/c6NDTZjM3X pic.twitter.com/ZD9dQRBRoj
— Teppei Kurita (@kuritateppei) 2020年5月1日

今までのDNNでの超解像やNRなどの失敗要因は手法の良し悪しじゃなくて結局「データが少ないから」ではないかという問題提起から、低解像度と高解像度のペアの大規模データセット(11421枚)をビームスプリッターを利用した治具で構築した。Microsoft。6/15に公開予定、楽しみ。https://t.co/qVcZbdcynx pic.twitter.com/0npqZLMDcL
— Teppei Kurita (@kuritateppei) 2020年4月30日

Panopticマップをベースとした画像合成手法の提案。Panopticマップはセマセグマップにインスタンス情報（個々の動物など）が追加されたもので、インスタンスが絡み合う画像合成には有効に働く。技術的な貢献はPanoptic情報を考慮したConvとUpsamplingの提案。CVPR2020採択。https://t.co/xHNo7ky5jT pic.twitter.com/gHoEs1oyFG
— Teppei Kurita (@kuritateppei) 2020年4月29日

OmniVisionが0.7umの画素ピッチの64MPイメージセンサーを発表。リアルタイムで64MPのBayer出力が可能。暗所では加算出力して16MP、1.4um相当。240 fpsで1080p、30fpsで8K出力できる。2x2のOCLで位相差AF。
5月よりサンプル提供開始。https://t.co/CgEhVKFqF8
— Teppei Kurita (@kuritateppei) 2020年4月29日

損傷の激しい古い写真を復元する。写真の劣化モデルは様々な要因があり複雑であるため、教師あり学習での対応が困難。そこで古い写真と「綺麗な写真およびそれを劣化させた写真」の3データ群についてそれぞれVAEで潜在空間を学習し、その潜在空間間での変換を更に学習する。https://t.co/pkNcB2X1Z2 pic.twitter.com/XSUNO13mkh
— Teppei Kurita (@kuritateppei) 2020年4月28日

今年初旬に開催された第一回農業ビジョンチャレンジについての総括。セマセグタスクなのだが、農地画像は基本マルチスペクトルで、更に分類する農地のパターンは普通の物体とはことなり不規則な形状やスケールを持つ。雲の影や雑草、水路などを識別しなければならない。https://t.co/YIXtxaiTXq pic.twitter.com/FWt0svAqvd
— Teppei Kurita (@kuritateppei) 2020年4月27日

透明物体の3D形状を、スマホカメラ数枚から復元する。光源マップは既知前提。キモは物体の前後の法線マップ画像２つを推定するCNNアーキにし、初期値のVisual Hullラフ法線を入力としたフレネル式での画像再構成誤差を制約項としているところ。CVPR2020オーラル採択。https://t.co/z9LpCXW1Ve pic.twitter.com/wYu3SLL7bk
— Teppei Kurita (@kuritateppei) 2020年4月26日

複雑なレイアウトの日本語文書の大規模データセット「HJDataset」。テキスト領域などの7つのアノテーションが25万以上付与。Bounding Boxに加え、階層構造や読み順も含まれている。開発者は日本の大学ではなくハーバード大。DLはフォームにリクエスト。CVPR2020 Workshop。https://t.co/YDa0QtbvB3 pic.twitter.com/v5ZuP2B4Dc
— Teppei Kurita (@kuritateppei) 2020年4月24日

機械学習とステレオ測量の相乗効果をまとめたサーベイ。DNNを活用する事でステレオDepth推定の精度が一気に向上した一方、ステレオがself-supervisedな単眼Depth推定などの方法を発展させてきた。精度面での最大の転換点はEnd2Endへのアーキの変更。CVPR2019チュートリアル。https://t.co/L1gEyKiGIQ pic.twitter.com/GZGgX3Sium
— Teppei Kurita (@kuritateppei) 2020年4月24日

ハイパースペクトル画像(HSI)を使い画素単位の材料の分類をするには、高次元の信号をサンプリングする必要があり、更にS/Nも低くなるので難しい。そこで、HSIでの材料分類時にNNの第一層相当の情報を光学的に直接取得することで、リアルタイムの分類を実現した。ICCP2020。https://t.co/krNPAVv7Uh pic.twitter.com/tGaNORghxK
— Teppei Kurita (@kuritateppei) 2020年4月23日

材料のBTF(双方向テクスチャ関数)の超解像の提案。BTFはBRDFを空間方向に拡張したもの。実測のデータをダウンサンプリングすることで、真値を得ながら超解像をCNNで学習。大きな新規性はないけど、超解像をBTFに拡張したときに自然と生じる検討を丁寧に行っている。ICCP2020。https://t.co/PfojNO0i2v pic.twitter.com/WDfAiyf1dW
— Teppei Kurita (@kuritateppei) 2020年4月22日

半透明の物体のSubsurface Scatteringのパラメータを画像から推定する。NNのDecoderを微分可能なレンダラーにし、Encoderで推定した散乱パラメータでレンダリングした際の入力画像との誤差を正則化項としている。
微分可能レンダラーを使った話が出始めてきた。ICCP2020。https://t.co/y8BxgsoZTl pic.twitter.com/YguPFGeMEW
— Teppei Kurita (@kuritateppei) 2020年4月21日

IoT時代のエッジコンピューティングにおける物体検出DNNモデル配分の提案。ユーザ機器側に「浅い」NNを配置し物体検出をしつつ、キーフレームごとにパラメータをエッジデバイスで「深い」最適化をした結果を伝達して更新する。78%のエネルギー消費削減。CVPR2020 Workshop。https://t.co/v1suPdOqJ6 pic.twitter.com/4SV2LXeLGK
— Teppei Kurita (@kuritateppei) 2020年4月20日

オクルージョンと表面法線を考慮したNLOS（Non-line-of-sight）の手法。既存手法よりも正確にLight Transportをモデル化しており、逆問題を解くことで大幅な品質の向上を実現。多重錯乱光の微小な信号を検出するためにSPAD＋ピコ秒レーザで構成。SIGGRAPH 2019。https://t.co/c91cjWRAAP pic.twitter.com/q60kVvHCMc
— Teppei Kurita (@kuritateppei) 2020年4月19日

映像中の物体の「速さ」（正確には動画自体が高速化されているか）を予測する手法の提案。速さを予測するのは実は難しい、なぜなら動きの大きさが同じでもカメラからの距離によって速さは異なるからである。アノテーションを必要としない自己教師学習。CVPR2020オーラル。https://t.co/1EIpO28JZb pic.twitter.com/zvuCtXOZL5
— Teppei Kurita (@kuritateppei) 2020年4月17日

イベントベースカメラ（マイクロ秒精度・低消費電力で画素値の変化を記録する）におけるデブラーの提案。End2EndのCNNでグローバル・ローカル双方の時間的・空間的情報を統合しつつシャープなイベントを抽出するフィルタリングがキモ。独自データセットでSOTA。CVPR2020採択。https://t.co/gxePjrFfRR pic.twitter.com/Hk45UjOBKT
— Teppei Kurita (@kuritateppei) 2020年4月17日

IRステレオ+IRパターン照射+CNN (真値：Light Stage)。
Google AI Blog:uDepth: Real-time 3D Depth Sensing on the Pixel 4 https://t.co/2bFdkqDgzN via @googleai
— Teppei Kurita (@kuritateppei) 2020年4月17日

全天球カメラで撮影した空(雲)の画像から日射量を予測する試み。衛星画像等を使う従来手法では困難だった日射量の短時間の急激な変動を推定することが可能となった。変動を正確に予測することが出来ると、効率性・信頼性の高い太陽光発電システムを構築することが可能になる。https://t.co/98Os1cPx7C pic.twitter.com/eVa5GCTKnX
— Teppei Kurita (@kuritateppei) 2020年4月16日

Spatial Transformer Networks (STN)を使ったFew-Shot Learningのための新しいData Augmentationの提案。ピンホールカメラモデルにおける射影変換から着想を得て、様々な視点から物体を見るようにAugmentation用のアフィン変換のパラメータをEnd2Endで敵対的に学習する。https://t.co/XtI8dbwNLm pic.twitter.com/yHSpT48muD
— Teppei Kurita (@kuritateppei) 2020年4月15日

アフリカで莫大な被害をもたらしているトマトに発生する害虫Tuta absoluta(トマトキバガ) の影響を、画像からCNNで判定する。Inception-V3が一番良かったとのこと。成長初期段階で判断できるようになることで、害虫駆除を早期に実行でき生産性が上がる。
ICLR2020 Workshop。https://t.co/nonCm1pu3b pic.twitter.com/kpWZ9TZgOr
— Teppei Kurita (@kuritateppei) 2020年4月14日

RGBD画像を3D化する際の視差依存オクルージョンを解決する手法。Depthを可変的なレイヤー(LDI)で効率的に表現。ただCNNをそのまま適用するのは困難なので、オクルージョン箇所をCNNでインペインティングするようにし細かい粒度のタスクに落とし込んだのがキモ。CVPR2020採択。https://t.co/6cPizZIQfe pic.twitter.com/XJHNUjB0SI
— Teppei Kurita (@kuritateppei) 2020年4月13日

4D Light Field画像の超解像。LFのすべてのビューの画像を利用して、個別のビューをCNNで超解像する。全てのビューが超解像されたら、ビュー間の視差構造を正確に保つように正則化をかける。性能SOTA＆計算量も軽い。多眼等のタスクでアーキが参考になるかも。CVPR2020採択。https://t.co/hAe3G5W99P pic.twitter.com/0Xdo8SlYSQ
— Teppei Kurita (@kuritateppei) 2020年4月12日

560x560 1fpsのイメージセンサーが、3mWの低消費電力で動作するとの記事。
ただCMOSの権威Eric R Fossumが、全然進歩していないじゃないかと嫌疑。誤字を疑っている。
Image Sensors World: ON Semi Video on Low Power Sensor https://t.co/w05Ek0yHB4
— Teppei Kurita (@kuritateppei) 2020年4月11日

映像のデブラーの最新手法。まずオプティカルフローをCNNで求めフレームの位置合わせをする。それを使い時間的シャープさのPriorを求め、隣接フレームからシャープなPixelを選択するように学習させるのがキモ。モデルベースでの既存手法の成功要因を分析しNNを適用している。https://t.co/0hLeMsAXwy pic.twitter.com/cTxcciBcwW
— Teppei Kurita (@kuritateppei) 2020年4月11日

RGBDカメラで3Dの詳細なセルフポートレートを取得する効率的な手法の提案。計算時間は数秒。学習、Fusion、Bundle-Adjustmentの手法の長所を活用。特に学習から得た形状のPriorと非剛体Volumeの融合、および観測との整合性を保証する軽量なBAがキモ。CVPR2020オーラル採択。https://t.co/u1PD1J6kAP pic.twitter.com/Mdg4NTn9T3
— Teppei Kurita (@kuritateppei) 2020年4月10日

今更ながらPixel4 Night Sightのやつを読んだ。0.3ルクス未満の低照度でも画像品質を向上させる。事前にカメラ動きと被写体動きを推定し、ボケとS/Nが双方最適になるように露出とフレーム数を制御する。学習ベースのオートホワバラとトーンマッピングも独自性があり面白い。https://t.co/AZqcRNVcHX pic.twitter.com/tsi88dajhv
— Teppei Kurita (@kuritateppei) 2020年4月9日

Natureにスマートトイレの論文が掲載。圧力センサとモーションセンサで自律的な動作。CVの技術で尿の流量を計算し、DNNで尿から健康状態を分類。利用者は指紋と肛門形状から識別。プロトタイプはGoPro Heroの７つのカメラを利用して３D画像を作成する（マジか）。色々面白い。https://t.co/UVCxiykcpn
— Teppei Kurita (@kuritateppei) 2020年4月8日

セマセグタスクの新しいアプローチ。まず入力画像(WxH)の対象画素と同じクラスの画素と違うクラスの画素のバイナリマップ(WxHxWxH)を推定し、真値でロス取って監視させながらセマセグマップを学習する。Context Priorと呼ぶ。色々な応用ができそうで超面白い。CVPR2020採択。https://t.co/vsQE3DMOAe pic.twitter.com/HXBKCO2Ac0
— Teppei Kurita (@kuritateppei) 2020年4月6日

グリーンバックいらずで前景とαマットを算出する。2枚の画像は必要。前景とαマップが既知の合成データを作成し教師ありでガチガチのネットを学習させて、それを真値として敵対的学習をすることで自己教師学習をさせ未知データへの耐性を上げた。なるほど。CVPR2020採択。https://t.co/I7pglcdlBI pic.twitter.com/4IcZzJLveB
— Teppei Kurita (@kuritateppei) 2020年4月5日

Batch Normalizationはバッチ毎の統計量でまとめて正規化するが、画像毎に正規化するようにするだけで、スタイル転送などのタスクの性能が向上する。Instance Normalizationと呼ばれpix2pixでも使われている。ただし最近はBNに劣る事例も多く報告され主流にはなってはいない。https://t.co/t8Pf0nEyO6 pic.twitter.com/wGEdlzx9in
— Teppei Kurita (@kuritateppei) 2020年4月5日

鏡面反射と拡散反射の混合した偏光を表現することができる偏光BRDF(pBRDF)モデルの提案。およびStructured Lightのラフな法線を手掛かりにpBRDFと法線の同時最適化を用いたインバースレンダリング手法の提案。基礎的な話も充実しており近年の偏光研究の動向追うなら読むべき。https://t.co/OBlQlg3bTc pic.twitter.com/c4yDRDHcDR
— Teppei Kurita (@kuritateppei) 2020年4月4日

単眼ビデオやステレオ入力から教師なしでDepthを推定するタスクでSOTA。オクルージョンの影響を受けないよう最小値を取る再投影Loss、相対動きが求められない画素を無視するオートマスキングがキモ。特に難しいことはやっていないが汎用性がありつつ高性能で良い。ICCV2019。https://t.co/oxBiZCsqUo pic.twitter.com/ubYAKab1eB
— Teppei Kurita (@kuritateppei) 2020年4月2日

「若い虎」「古い車」のような学習データから「老いた虎」「新しい車」などの、学習データ中には存在しないオブジェクトと属性のペアを認識するタスク。マルチスケールの特徴を利用かつ、より属性・オブジェクトの相関を表現するためにquintuplet lossを提案。ICCV2019。https://t.co/WT1oL9Fd5N pic.twitter.com/ixglE0JbnC
— Teppei Kurita (@kuritateppei) 2020年4月1日