2020年8月文献/技術記事解説

透明物体(窓、瓶…)のセグメンテーションは難しいが、既存のデータセットのデータサイズは小さかった。そこで1万枚以上からなる大規模な透明物体のデータセットを提案。更に最先端の手法(DeepLabV3+)でも困難なセグメンテーションを可能にする境界を意識した手法を提案。https://t.co/Kw2yjQbBRv pic.twitter.com/YIBAuixXMf
— Teppei Kurita (@kuritateppei) 2020年9月1日

単眼RGB画像からCNNベースでDepth推定をするによって透視投影の歪みを解消することでSIFTやBRISK等の特徴量を利用した画像間のマッチングが劇的に改善することを示した。非常にシンプルな考えだが幅広く有用なのでは。Limitationは平面構造が画像の十分な割合を占めている事。https://t.co/iDFvXpllag pic.twitter.com/XEHCaD2mMp
— Teppei Kurita (@kuritateppei) 2020年8月31日

自動運転等で物体検出などの評価をする際、アルゴリズムが特定フレームの処理を終えた時には既に周囲の世界の状況は変化している。そこでアルゴリズムのレイテンシを反映して予測フレームと真値フレームを比較するという新しいストリーミングにおける知覚評価手法を提案。https://t.co/xYERleSCxr pic.twitter.com/xfec6TJQJ2
— Teppei Kurita (@kuritateppei) 2020年8月30日

Instagram等のアプリでフィルタがかかった画像から、どのようなフィルタがかかっているかを推定し他の画像に同じフィルタをかけるスタイル転送技術。従来手法は画像間の色や質感の伝達しかできなかった。1回スタイル情報を抽出すればモバイルデバイス上で2ms以下で動作可能。https://t.co/nUVwCJJdPR pic.twitter.com/i9zFsYjmu0
— Teppei Kurita (@kuritateppei) 2020年8月29日

人物写真の年齢を変換する。1枚の写真から0歳～70歳までの頭部画像を予測可能。既存手法やFaceAppでは主にテクスチャの変化に焦点を当てているが、提案手法では頭部の形状の変化も再現するように連続的な幼児化・老化双方向の過程をモデル化するように潜在空間を学習させる。https://t.co/KZxmdxlHiT pic.twitter.com/8ZBw6opGm8
— Teppei Kurita (@kuritateppei) 2020年8月27日

歴史的な絵画の多くは損傷しており、そのデジタル複製は低解像度で低品質となっている。なので絵画の超解像は重要だが、高周波がほぼ失われているので大きな拡大率だとアーティファクトが発生する。そこでウェーブレットベースのテクスチャ損失を提案し高品質の拡大を実現。https://t.co/5z5r8gwS5t pic.twitter.com/ozsup41DyY
— Teppei Kurita (@kuritateppei) 2020年8月26日

商用監視カメラでは一般的に昼間はNIR(近赤外)カットフィルターで混色を回避して夜はNIR LED光源で信号を増幅させることが多いが、メカ的な機構が必要になり更に夜間のNIR画像は色が不足している。そこで可視光+NIR画像から昼夜問わず尤もらしい色画像を生成する方法の提案。https://t.co/H7ztssYHgN pic.twitter.com/w6l9Pzyx2i
— Teppei Kurita (@kuritateppei) 2020年8月26日

画像の超解像をBNNで行う。そのままバイナリ化すると精度が出ないので、推論の方向に沿って量子化の精度を段階的に向上できるビット蓄積機構を提案しFull精度時の畳み込みを効率的に近似したのがキモ。通常の単精度のモデルと比較し58倍の高速化。モデルサイズも32倍軽量化。https://t.co/upUPnTlJv5 pic.twitter.com/ZfJ0aHsjGV
— Teppei Kurita (@kuritateppei) 2020年8月24日

Tiltされた画像から表面法線を推定する。空間的なrectifierを用いて、学習データの法線の事前分布と一致するように画像をrectificationするように学習させるのがポイント。表面法線推定器と共同でEnd2Endで学習させる。GTの外れ値を扱うためのロス関数の提案もしている。https://t.co/r1AqtnKmO2 pic.twitter.com/HTeEMpXiKZ
— Teppei Kurita (@kuritateppei) 2020年8月23日

通常のカメラは撮影環境の照度が低くなると視認性能が悪くなる。Active(IR)のDepthカメラは低照度下でも安定してDepthが取得できる。そこで低照度化で得られたDepthをRGB参照画像を用いてColorizationすることで視認性を上げる試み。IRセンサ使う方法との性能差が気になった。https://t.co/JbBGqJkTMV pic.twitter.com/A9Opq9Bf0O
— Teppei Kurita (@kuritateppei) 2020年8月23日

映画理解のための総合的なデータセットMovieNet。映画本編(1時間x3000本)・予告編・写真(390万枚)・字幕(1000万文)・脚本などの他に、ジャンル・キャスト・監督・レーティングなどのメタ情報(700万項目)を含み、更にキャラクターのBounding Box等もアノテーションされている。https://t.co/MmPdZ1chF8 pic.twitter.com/UAdWKXitXL
— Teppei Kurita (@kuritateppei) 2020年8月21日

衛星画像と3次元点群を入力として高品質な建物の外観を復元する。衛星画像で建物のすべての面を高品質で観測できるわけではなくオクルージョンも多いので、一般的な都市部の建物の外観が規則的なグリッド状の構造をしているという事前知識を利用して補間する。ECCV2020。https://t.co/mvr1mqLdoQ pic.twitter.com/zgHGDkJtHS
— Teppei Kurita (@kuritateppei) 2020年8月21日

既存のものと比較し桁違いに大規模なDepthデータセット。Mapillaryから世界中の約75万枚の画像を取得しSfMとMVSでDepthを取得。多種多様な気象条件、季節、時間帯、視点やノイズのパターンを持つ。様々なカメラの特性(異なる焦点距離、歪み)を吸収するようにしたことがキモ。https://t.co/2cSdLMuZSn pic.twitter.com/mqpLP5AktQ
— Teppei Kurita (@kuritateppei) 2020年8月20日

回折格子と1D(ライン)センサを組み合わせることで非常に高速に(エネルギー効率が高く)パッシブ光源位置検出を可能にする。またライン照明を使用することで3次元形状の推定も可能。プロトタイプでは2220fps、現存高速ラインセンサを使えば45000fps達成可能。ECCV2020オーラル。https://t.co/tFLBvCg3HF pic.twitter.com/s28mbIhClt
— Teppei Kurita (@kuritateppei) 2020年8月18日

CGレンダリングにおけるPhong BRDFにヒントを得て、新しいサーフェスモデル「Phong Surface」の提案。トラッキングシステムにおいてはモデル表面の滑らかさと方位特性が重要なのでそれらを持ちつつ最小構成なモデル。モデルフィットオプティマイザの収束速度の向上を確認。https://t.co/uBR3wqGSTh pic.twitter.com/8bTosI9aH6
— Teppei Kurita (@kuritateppei) 2020年8月18日

遠赤外偏光カメラを使うことで、昼夜を問わず、照明条件にも関係なく自動運転のための道路検知が可能になる。道路の方位角(AoP)の事前分布が0平均分布になることを利用したのがキモ。AoPと偏光度、そしてエッジ情報を組み合わせてNNを使わずにセグメンテーションする。https://t.co/WXcpOj9TJX pic.twitter.com/yR8U2Jrveg
— Teppei Kurita (@kuritateppei) 2020年8月17日

偏光を考慮したOptical Flowの一般化。カメラに単純に偏光フィルタをつけるだけで、軸方向の回転に従い物体方位角の変化があることを利用しテクスチャがない領域でもOptical Flowを精度よく算出できる場合がある。カメラを回転させないと従来のOptical Flow式に縮退化される。https://t.co/qY2FxAvNGo pic.twitter.com/QJTlbatsPi
— Teppei Kurita (@kuritateppei) 2020年8月16日

超低照度撮影において光子をカウントできるQuantaイメージセンサはリードノイズが少ないのが強みだがショットノイズで性能限界がありフレーム加算しノイズ除去をしても動きブレの課題がある。そこで知識蒸留をベースとし動きとノイズ除去を別々の教師から学習する手法を提案。https://t.co/3V3BlBqoV2 pic.twitter.com/5mVGmq2l0R
— Teppei Kurita (@kuritateppei) 2020年8月14日

Google ストリートビュー(GSV)の画像を任意の空状態と太陽の位置でリライティングできる。GSVの時間的に変化のあるデータセットから、恒久的に変わらない幾何情報と、シーン毎に変化する照明情報を分離するように上手くモデル化したのがポイント。ECCV2020 Spotlight。https://t.co/582TjSIY3F pic.twitter.com/vC7BVfJIM4
— Teppei Kurita (@kuritateppei) 2020年8月14日

複雑な形状と外観(透明性がある、反射率が高い、薄い構造…)のコンパクトで効率的な表現の提案。低周波の粗い形状とニューラルテクスチャを組み合わせている。疎な複数ビューが与えられると、任意視点でのオブジェクトを再構成できる(従来技術よりも1/3のビューで同精度)。https://t.co/KzX1CQENf9 pic.twitter.com/ooLdQp0RUl
— Teppei Kurita (@kuritateppei) 2020年8月12日

超低照度条件下での偏光取得について、RGB(可視)とLWIR(遠赤外)のどちらの方が可能性がありそうかのトライアル。結局、RGBでNR頑張った方が良さそうだという結論（センサアレイでのIntegral Imagingで偏光成分を求めている特殊な実験条件ではある）。Optics Express 2020。https://t.co/9LI4u46amX pic.twitter.com/0rBaGB62HK
— Teppei Kurita (@kuritateppei) 2020年8月12日

OCRの高精度化に伴い、スマホのアプリとカメラで気軽に文書をスキャンできるようになってきたが、依然折り畳まれていたりクシャクシャな文書を正しく認識するのは難しい。そこで文書の向きや単語の位置、文書自体の形状を認識してRectificationする学習ベースの手法を提案。https://t.co/AXtT1iPGLT pic.twitter.com/Wizp2fqE5w
— Teppei Kurita (@kuritateppei) 2020年8月10日

単一画像から学習用のステレオ画像のデータを生成する。様々なステレオDepthアルゴリズムを用いて網羅的に評価し、未知のシーンへの一般化性能を大幅に向上できることを確認。既存の一般的な画像データの資源をステレオDepthアルゴリズム開発に活用できる。ECCV2020オーラル。https://t.co/8wUhhebman pic.twitter.com/lw1gehHp5g
— Teppei Kurita (@kuritateppei) 2020年8月10日

画像から影を除去するパッチベースの手法。必要な教師信号は影マスクのみ。影の物理的生成モデルを考慮して線形パラメータとマスクをNNで回帰させる。パラメータとマスクの値幅に制約を入れることで探索空間を適度に制限して教師なし学習の難易度を下げたのがキモ。ECCV2020。https://t.co/5qpGHWrdXD pic.twitter.com/5tjn66wTEZ
— Teppei Kurita (@kuritateppei) 2020年8月9日

雨の画像から雨を除去する。雨筋がはっきり見えるような大雨の場合は、雨筋の一部が空気上に蓄積して水蒸気になるベーリング効果が発生しコントラストが低下する。そこで雨筋と水蒸気を透過マップとして明示的にモデル化しNNで学習させ、高性能な雨除去が出来ることを示した。https://t.co/mMFBlxgVPS pic.twitter.com/4NzrCDylZF
— Teppei Kurita (@kuritateppei) 2020年8月8日

画像のテクスチャについての詳細な説明（色、形状、知覚特性）が記述されたデータセット。5369枚の画像と24697のアノテーションからなり、従来のものよりも大幅に拡張されている。既存の学習されたDNNでの分類の手がかりとなっているテクスチャ特性を可視化することができる。https://t.co/xG54UpAaDx pic.twitter.com/ZHXdFj9TxD
— Teppei Kurita (@kuritateppei) 2020年8月7日

低照度動画のRAWからRGBの変換は学習ペア(短時間・長時間露光)の生成が大変であり、ネット上の一般的な動画を収集しCycleGAN等で短露光画像にマッピングするのもドメインギャップが大きい。そこで一旦長時間露光にマッピングした後に短時間露光に変換をするように学習させた。https://t.co/Xq9d3Vp0PY pic.twitter.com/TkzbQnFtDO
— Teppei Kurita (@kuritateppei) 2020年8月5日

教師なし画像変換タスクにおいてContrastive(対照)学習を有効に使う方法を示している。ポイントはパッチ単位かつ多層で学習を行う事。またパッチのNegativeサンプルは他の画像から得るのではなく、入力画像内からサンプリングすることでパッチ間の相互情報量が最大化される。https://t.co/Ziz3w6EZGI pic.twitter.com/7a58siiC0q
— Teppei Kurita (@kuritateppei) 2020年8月5日

自動運転においてRadarは気象条件にロバストで速度推定も可能なので有用だが、解像度・ノイズと速度不定性が課題であった。そこで物体検出・速度推定タスクにおいてLiDARと相補的に利用しあう解を提案。ボクセルでのEarly FusionとAttentionベースのLate Fusionからなる。https://t.co/1nJhfGBv0K pic.twitter.com/7KUwUufsjU
— Teppei Kurita (@kuritateppei) 2020年8月3日

自撮り写真の不自然なポーズを自然なポーズに変換する。学習ペアが存在しないため自己教師学習を用いる。問題が複雑なため、ポーズ推定、テクスチャマッピング、合成の3段階のタスクに分解、全てでDensePoseを使用。普通に写真アプリの機能として人気が出そう。ECCV2020。https://t.co/nS3lWKB0Yd pic.twitter.com/fXGe5enbye
— Teppei Kurita (@kuritateppei) 2020年8月3日

3次元構造は多くのアノテーションのやり方があるが(平面、ワイヤーフレーム、直方体…)、既存データセットはそれらのどれかに限定されている。そこで3次元構造を統一的に表現する方法を提案し、様々なアノテーションを持つ３D室内大規模データセットを生成した。ECCV2020。https://t.co/agCqpplE2p pic.twitter.com/DDMD48AK2r
— Teppei Kurita (@kuritateppei) 2020年8月1日