2020年7月 文献/技術記事解説
画像から画像に変換するタスクにおいて、教師あり教師なし共に統一的に扱えるシンプルなネットワークの提案。簡単に言うとpix2pixとCycleGANのような操作が同じネットワークとロス関数(Cycle-Consistency不要)で可能になるということ。しかも性能が高い。ECCV2020 Spotlight。https://t.co/uXF4nR6A8G pic.twitter.com/AQErH77tbR
— Teppei Kurita (@kuritateppei) 2020年8月1日
4754本の動画(音声含む)からなる大規模な暴力データセットを公開。ここで言う暴力は「虐待」「交通事故」「爆発」「喧嘩」「暴動」「銃撃」の6種類。動画につきこれらかもしくは非暴力のラベル付けされている。更に弱教師あり問題として、動画内のオンライン暴力検出を提案。https://t.co/CGIM3TDNfJ pic.twitter.com/NJpGIQQPEp
— Teppei Kurita (@kuritateppei) 2020年7月31日
リードノイズ(&暗電流)が従来のCMOSに比べて低いQuantaイメージセンサは低照度センシングへの有効性が期待されているが、光ショットノイズはどうしようもない。そこで知識蒸留をベースとした画像分類を提案、1画素あたり1光子以下での画像分類を始めて実証した。ECCV2020。https://t.co/DuKIU6Z6WV pic.twitter.com/XpgnxRvnu8
— Teppei Kurita (@kuritateppei) 2020年7月30日
透明物体のセグメンテーションは難しく、特に写真に印刷された透明物体と実際の透明物体を区別することは難しい。そこで偏光センサを用いて得られたマルチモーダル偏光情報をNNで学習させることで高精度な透明物体セグメンテーションを実現。シーン条件にロバスト。CVPR2020。https://t.co/wcksxkHqFK pic.twitter.com/vpKEb7SH72
— Teppei Kurita (@kuritateppei) 2020年7月29日
強く偏光する太陽光が水中に入射した際に、スネルの窓の外側の領域では水中での全反射により、高効率(最大53%)で円偏光に変換することができる。また円偏光の程度は水中の物体の反射率に反比例することを観察。https://t.co/WhCV9Q43g9
— Teppei Kurita (@kuritateppei) 2020年7月28日
スネルの窓https://t.co/1PMYSNw9qH pic.twitter.com/VR9vwCnFEI
最近は画質評価基準としてPSNR等よりも優れた知覚基準が提案されてきたが、本当にGAN等で生成された画像の復元品質をちゃんと評価できているのか?という疑問があった。そこでGANで生成された画像等多種多様な歪みを含む画像と人的評価がアノテートされたデータセットを生成。https://t.co/eAfLfeEYZn pic.twitter.com/KVjXswxaAN
— Teppei Kurita (@kuritateppei) 2020年7月27日
シャコは円偏光を見れることで有名だが、そのシャコの特殊な複眼構造を模倣することで、高効率の近赤外円偏光の検出を行うことに成功。既存のイメージセンサへの直接的な統合が可能なサーフェス構造であり、小型化可能であり実用化に期待がされている。Nature (2019)。https://t.co/2P15BFsJ5o pic.twitter.com/oFsjijs4eI
— Teppei Kurita (@kuritateppei) 2020年7月25日
単一の偏光画像から服を着た人間の三次元形状を推定する。偏光画像から不定性ありの法線を算出してNNを通して不定性を解消する。ただそれだけだとノイズやズレが大きいので更に入力画像と合わせて最終法線を推定する。服はほぼ拡散反射となることを仮定しているのがポイント。https://t.co/QicfdKvvBN pic.twitter.com/tSD2cEtRVl
— Teppei Kurita (@kuritateppei) 2020年7月25日
カラー偏光カメラを利用してマルチビュー偏光画像から高精度3Dを再構成する。通常のStMとMVSにより大雑把な形状の初期値を算出してから、photometricレンダリング誤差と偏光誤差を最適化する。偏光方位角の不定性を最適化問題の中に組み込んでいる。東工大奥富研。ECCV2020。https://t.co/PlFD61BTyt pic.twitter.com/gFkxptGU5L
— Teppei Kurita (@kuritateppei) 2020年7月24日
ECCVでQuanta Image Sensorsの再構成アルゴリズムの論文が採択。1フレ1画素あたり1光子のレベルで動的シーンの再構成ができるとのこと、マジか。知識蒸留利用。https://t.co/n7psGigLJg
— Teppei Kurita (@kuritateppei) 2020年7月23日
顔のリライティングを行う。単なるEnd2Endの画像変換ではなく、まずアルベドと法線に分解を行い、入力した照明からShadingを計算し、拡散反射成分を得た後に、差分としての鏡面反射を残差成分として表現して、残差学習させるのがポイント。シンプルで余計な処理をしていない。https://t.co/uTDQmfdyNT pic.twitter.com/1KkPZpvOGc
— Teppei Kurita (@kuritateppei) 2020年7月23日
低レベルビジョンタスクのエネルギー最小化問題の定式化は、データ項と正則化項からなるのが基本であったが、正則化項はヒューリスティックに決められることが多い。そこで正則化項を学習可能な部分空間制約に置き換えることで、モデルに一般化性を持たすことに成功している。https://t.co/KD26S1r1VV pic.twitter.com/BbTCmraW2q
— Teppei Kurita (@kuritateppei) 2020年7月21日
目の見えない人が撮影した写真について、それを説明するキャプションをつける際に、どのような品質欠陥が課題になってくるかを調べた研究。結果、約半数以上の画像が質的欠陥があり、その中で特に画像のボケとフレーミングの不備の割合が高いことがわかった。CVPR2020。https://t.co/3vdnMaMPOS pic.twitter.com/lOk8cJKyGX
— Teppei Kurita (@kuritateppei) 2020年7月20日
画像の見栄えを良くする。従来手法は画素毎またはグローバルな強調に焦点を当てていたが、ここではプロのカメラマン等が使用する編集ソフトで良く使われるフィルタ(楕円フィルタ、階調フィルタ、多項式フィルタ)の3種類に注目し、パラメータをNNで回帰させた。CVPR2020。https://t.co/fuIhSR1rm8 pic.twitter.com/HlvxDX0ErJ
— Teppei Kurita (@kuritateppei) 2020年7月20日
連続した2枚のローリングシャッターの画像を入力として、歪みのないグローバルシャッター相当の画像を予測するEnd2Endのネットワークを提案。2種類のデータセットも提案・公開。先に完全モデルベースの論文があったが、これは完全Deep。ベンチマークのやりがいがありそう。https://t.co/KGqupVghYJ pic.twitter.com/FEs31Y3x5l
— Teppei Kurita (@kuritateppei) 2020年7月19日
偏光BRDFのデータセットを公開する。5つの波長帯域で、25の材料(違い:鏡面具合、金属/誘電体、粗さ、アルベドの色)を画像とSpectroscopic Ellipsometryを組み合わせた方法で取得。物理ベースレンダラーにデータドリブンの偏光BRDFを組み込んでレンダリング。SIGGRAPH2020。https://t.co/ypyCvm3icw pic.twitter.com/6Na9xMLZha
— Teppei Kurita (@kuritateppei) 2020年7月19日
低照度高ノイズ画像の視認性を向上させる。低周波成分は高周波成分よりもノイズが抽出しやすいことを利用して、まず低周波成分を回復してから、高周波のディテールを強調するように学習させる。低周波画像のデータセットも同時に提供。CVPR2020。https://t.co/TsXSWxAWng pic.twitter.com/dZygj29F6g
— Teppei Kurita (@kuritateppei) 2020年7月17日
近年の検眼技術の進歩で、人間は両目の視力が異なっていたり片方だけが乱視だったりしても、ある程度シーンを立体的に捉えることが出来ることがわかっている。ならばカメラの三角測量でのDepth推定も同じような能力を持っているのか?という疑問について取り組んだ研究。https://t.co/IY54skL2FP pic.twitter.com/kcxQZJ9Mol
— Teppei Kurita (@kuritateppei) 2020年7月16日
マルチビューでのDepth推定はノイズが多いが、同時に表面法線を推定し、結果を融合することで改善ができる。人間にとっては壁が平らかどうか見分けるのは絶対的な深度を推定するよりもはるかに容易い。3次元コストボリュームドメインでの処理なのもポイント。CVPR2020。https://t.co/oSGOUnZptT pic.twitter.com/Nypb4AuGf0
— Teppei Kurita (@kuritateppei) 2020年7月15日
ノイズ除去を1枚の画像のみで行う自己教師学習Self2Selfの提案。各画素をベルヌーイサンプリングでDropoutした画像を入力として、その反対のパターンでDropした画像を真値として、誤差を最小化するようにNetworkの学習をしていく。シンプルな発想で綺麗な論理展開だった。https://t.co/OOVJD88Z7Y pic.twitter.com/v7ftQLUTkd
— Teppei Kurita (@kuritateppei) 2020年7月14日
PSNRとかの客観的画質ではなくて「主観的な」スマホ写真の画質の良さについての研究が面白かった。一般の人にとっては良い写真であるためには「シャープさ」と「ノイズのなさ」が明るさや色彩よりも重要。また、夜の撮影シーンは主観的にあまり良くない写真になる場合が多い。https://t.co/chhyXnqYB3 pic.twitter.com/xj2NIY34bU
— Teppei Kurita (@kuritateppei) 2020年7月13日
HDR生成のための露出ブラケット画像を強化学習のスキームで自動的に最適な選択と合成を可能にした。
— Teppei Kurita (@kuritateppei) 2020年7月12日
プレビュー画像を入力としブラケット画像の中から候補を選択するモジュールを設け、選択された複数の画像からHDR画像を合成して良い結果ならば報酬を選択モジュールに返す。https://t.co/Jqt5nvfrBF pic.twitter.com/WHpW90GbJz
Bayer配列のデモザイクとNRを同時に行う。従来の機械学習ベースの方法は4chのRGGBに分解してNNに放り込んでいたが、まず高密度のGを先に推定して、周波数帯域ごとに適切な畳み込みで補間を可能にしている。古典的なモデルベースのデモザイクの知見を有効活用している。https://t.co/YnESsNwags pic.twitter.com/lzzUmHs8wo
— Teppei Kurita (@kuritateppei) 2020年7月12日
人間の視覚のメカニズムを再現するニューロモーフィックカメラ(DVS. FSM等)で再構成される画像は高いダイナミックレンジを持つが、輝度しか取得できず空間解像度が低い。そこで通常のRGBカメラと融合させて、HDRかつ高解像度&カラーの画像を取得できるアプローチを提案。https://t.co/mwErmLEVbl pic.twitter.com/C9Q1LNXUMC
— Teppei Kurita (@kuritateppei) 2020年7月10日
従来の機械学習ベースの反射除去ではデータセットとして反射画像と透過成分を取得していたが、ガラスの屈折により位置ずれが生じることを指摘。逆に反射成分を取得して透過成分は引き算で求めることで完璧にアラインされた反射除去用データセットが作れることを提案している。https://t.co/nFv3TS962U pic.twitter.com/xoBrO8lGsf
— Teppei Kurita (@kuritateppei) 2020年7月9日
CMOSイメージセンサは1行ごとに異なる時間で読み出しされるので、撮影中にカメラが動くと歪みが生じる(ローリングシャッター歪み)。そこで2台のカメラをローリングシャッターの方向が異なるように取り付け補正を行う方法を提案。全てのタイプの歪みを除去できることを実証。https://t.co/20Uu0yTitH pic.twitter.com/52UrbyA39F
— Teppei Kurita (@kuritateppei) 2020年7月8日
強化学習の式とレイトレーシングにおける光輸送(Light Transport)の方程式が、実は深く関連した積分方程式であることが示されている。
— Teppei Kurita (@kuritateppei) 2020年7月8日
次いで、経路空間をサンプリングしつつ重要度を強化学習するアプローチを提案。
SIGGRAPH2017 Talk。https://t.co/Q2XpVSTofV pic.twitter.com/LRScmKo1TJ
カメラ撮影で出るモアレはイメージセンサのBayer配列とテクスチャが干渉する際に発生し、従来の信号処理では太刀打ちできなかったアーティファクト。そこで学習可能なバンドパスフィルタで対処する方法を提案。
— Teppei Kurita (@kuritateppei) 2020年7月7日
色モアレがここまで綺麗に除去できる時代になったかと感動する。https://t.co/a7JkioCxxe pic.twitter.com/8e8c0eaCny
ピース間の境界線が太いジグソーパズルを解く。従来手法は境界に隣接する画素だけを利用していたので境界線が太いと解けない。そこで境界線部分をInpaintingして、ピースのペアが隣接しているかどうかを識別する。Inpaintingと分類の両方に同じ識別器を使用しているのがキモ。https://t.co/pnUVku1gDy pic.twitter.com/sqJS6gRUd9
— Teppei Kurita (@kuritateppei) 2020年7月6日
ガラスを通して撮影された画像について、今まではガラスへの反射を除去しようとする試みが多かったが、逆にその映り込みを復元することに注力した研究。ガラスの外側に鏡を配置して真値を得ているのがポイント。面白いが、悪用されるとプライバシー面で少し怖いところもある。https://t.co/PLf2E5pw1y pic.twitter.com/blRo93Ldhp
— Teppei Kurita (@kuritateppei) 2020年7月5日
「物体とその影」のペアを見つける新しいタスクの提案とデータセットの提供をする。写真から物体を削除するときに影もまとめて削除できるようになる。検出ネットワークの提案もしていて、同時に光源方向の推定をすることでより検出を高精度にできることを示している。https://t.co/GAPJMpxNPb pic.twitter.com/x68RvTZsoD
— Teppei Kurita (@kuritateppei) 2020年7月4日
3D Convolutionを周波数領域に変換することで冗長性を排除する手法。NN中の特徴量の演算が周波数領域で完結するので、大幅に高速化が可能。ただ単に入力とフィルタ係数にDCTをかけているわけではなく、最適な周波数領域への変換自体も学習しているのがキモ。CVPR2020。https://t.co/kOB6kD6oq3 pic.twitter.com/vpebUPQyQ9
— Teppei Kurita (@kuritateppei) 2020年7月3日
高性能のNNの特徴マップを観察すると、実は似たようなペアが多数存在し、その冗長性が性能を高めている一因である。そこで愚直に全部畳み込まなくても、ある程度特徴数をサボって畳み込んで後は線形演算とコピーで同じような特徴を作ることで軽量化できることを示した。https://t.co/H8X1Jh4RnQ pic.twitter.com/rc6Zshvyxz
— Teppei Kurita (@kuritateppei) 2020年7月2日
人間の視覚におけるサンプリングは現在のデジタルカメラの仕組みとは全く異なっていて、フレームという概念がない。そこで人間の網膜を模倣しフレームベースではなく連続時間のスパイク(バイナリ)信号で画像を記録するカメラを用い、自然画像を再構成する手法を提案している。https://t.co/LCzqXOFJtg pic.twitter.com/Nf9exMjQXe
— Teppei Kurita (@kuritateppei) 2020年7月1日