2020年9月 文献/技術記事解説
非常に高速な処理が要求される場合、Depthの境界や急伸な変化がある画素のみにバイラテラルフィルタをかけることがDepth Refinementとしてコスパ良いですよという話。https://t.co/ygWEEPxdkl
— Teppei Kurita (@kuritateppei) 2020年9月30日
単一画像のBlind Deconvolutionは画像とBlur KernelのPriorの設計・学習に力が注がれてきたがそれだけでは十分ではなく、ボケ・シャープ画像間のスケールの曖昧さについて慎重に扱わないといけない事を示した。Blur正規化を丁寧に設計することで精度とロバスト性が向上する。https://t.co/A5P0IOGKA2 pic.twitter.com/CtfHGK66nl
— Teppei Kurita (@kuritateppei) 2020年9月29日
RGBD画像から3Dの精細な人体形状を再構成する。前から見た法線と後ろから見た表面法線を条件としてcGANを学習させたのがキモ。法線を使うことで詳細な形状を捉えつつノイズの影響に対してロバストになる。最近形状系で法線を使う事の利益が盛んに言及されるようになってきた。https://t.co/DsgDMxpl4i pic.twitter.com/cHEc27dupR
— Teppei Kurita (@kuritateppei) 2020年9月28日
複数枚撮影からのHDR画像合成はカメラやオブジェクトの動きに弱く、ゴーストアーティファクトが発生する。従来は大規模なネットワークでこれに対処していたが計算量が大きかった。そこで低解像度処理をしてからアップスケールする事で大幅な高速化(16Mを約10秒で処理)を実現。https://t.co/atWZSLHyOm pic.twitter.com/oC6Ta0tJ8P
— Teppei Kurita (@kuritateppei) 2020年9月27日
画像中の霧を除去する。従来は手動のPriorを使って解を制約していたがモデリングに限界があった。そこで霧の生成過程の物理モデルをネットワークのモジュール内で明示的に考慮することで、霧除去に有用な特徴を自動で探索しやすくでき、高性能な霧除去が出来ることを示した。https://t.co/0fUNQKu3sK pic.twitter.com/tVJycf6y46
— Teppei Kurita (@kuritateppei) 2020年9月26日
料理画像と食材を入力として、料理のレシピを自動生成する。そもそも料理画像にはセマセグや物体検出のように画像中にアノテーションがつけられないので、問題設定として難しい。ここでは直接推定するのではなく、一旦レシピの木構造を推定すると精度が上がるとのこと。https://t.co/lDipLDd9EF pic.twitter.com/DbNjMICifm
— Teppei Kurita (@kuritateppei) 2020年9月25日
偏光センサで取得可能な4偏光画像から高精度な表面法線を取得する。偏光物理モデルに従って算出したいくつかの鏡面反射・拡散反射支配のパターンの法線をPriorとして算出しておいてネットワークにぶちこむ。法線ドメインなので損失は角度差を評価可能なコサインロスを使用。https://t.co/iOgN0lgZSi pic.twitter.com/wzbZBWEjFu
— Teppei Kurita (@kuritateppei) 2020年9月23日
イメージセンサのノイズモデルは従来、統計的なモデルを採用していたが、実世界のノイズは遥かに複雑な挙動をしておりモデルだけで記述するのが困難。そこで実世界のノイズからデータドリブンでノイズモデルを学習し、カメラ毎に異なる特性のノイズを生成できることを示した。https://t.co/uUuI69x6q7 pic.twitter.com/gGeB57SwBc
— Teppei Kurita (@kuritateppei) 2020年9月23日
従来CNNベースの線分検出は完全なデータドリブンのものが主であった。そこでHough変換による大局的な線分検出結果をPriorとしてCNNに組み入れることでデータ効率が向上することを確認。Hough変換を汎用的な構成で学習可能なモジュールとして組み入れることができる。https://t.co/I15oM1s87t pic.twitter.com/jnCmA1nCLW
— Teppei Kurita (@kuritateppei) 2020年9月21日
映像中の音声が人間の注意力に影響を与えることを明らかにした研究。大規模な音声付アイトラッキング映像データベース(34名被験者が300の動画を視聴)を取得して傾向を分析、基本的に人の顔に注意が行くことを確認。映像中のSaliencyを予測するためのマルチモーダルNNを提案。https://t.co/x4uuKBP0en pic.twitter.com/Dq7JWKGazn
— Teppei Kurita (@kuritateppei) 2020年9月21日
緑内障診断の支援に機械学習は大きく貢献しているが、緑内障の学習画像の収集時は健常例が大多数を占めるので正常/異常間の不均衡バイアスがあり、更にその中の困難な異常例を特にロバストに認識しなければならない。そこで学習データの偏りを徐々に調整する学習基準を提案。https://t.co/KCjF2JmqTy pic.twitter.com/wJIncQT3Oa
— Teppei Kurita (@kuritateppei) 2020年9月20日
単一フレームではなく複数の連続下フレームの圧縮性能を考慮した映像圧縮手法の提案。複数フレームを見ることにより発生してしまう誤差伝搬を効果的に軽減することができる。更にオンラインのエンコーダ更新スキームを提案し、コンテンツ毎に異なるパラメータで圧縮可能に。https://t.co/gn3PmhI54Q pic.twitter.com/6UXmr2qaUO
— Teppei Kurita (@kuritateppei) 2020年9月19日
1枚のRGB画像から衣服と体形のモデルを再構成する。SMPLという既存の統計的身体モデルの上に、レイヤー化した衣服表現を提案。これにより衣服の重量をボディメッシュに依存しないようにでき、様々な衣服を表現できるようになる。学習のため2つの大規模データセットも構築。https://t.co/GdNOXW8YxU pic.twitter.com/zQ4UqGzvqA
— Teppei Kurita (@kuritateppei) 2020年9月17日
一般的な物体検出用CNNを水中シーンで適用すると様々な要因(ブレ・テクスチャの歪み・照明の不均衡)によって上手くいかないことが多い。そこで特徴表現を強化させつつ、コンテキスト特徴を利用するための受容野Augmentationモジュールを提案し精度とロバスト性を改善。https://t.co/ujfWGHT7cD pic.twitter.com/8B9juci3Yq
— Teppei Kurita (@kuritateppei) 2020年9月17日
JPEG画像圧縮のためのDNNの提案。とはいってもDCT Encoder/Decoderを学習するわけではなく、画像固有の最適な量子化テーブルを予測する。つまり標準的なJPEG符号化と完全に互換性がある。ビットレートを近似する微分可能なロスを使うことで、量子化画像の確率分布予測に成功。https://t.co/pJLoVGiarW pic.twitter.com/PKvGXyPi9B
— Teppei Kurita (@kuritateppei) 2020年9月16日
1枚のパノラマ画像からレイアウトとDepthを予測する。レイアウトとDepthには高い相関関係があり、共同学習をすることで両者共性能向上することを提示。粗いDepthとLayout DepthというDepthの中間表現を適切に設けることでオブジェクトやオクルージョンにロバストになる。https://t.co/CXMntWC23u pic.twitter.com/N8vZLoqdh6
— Teppei Kurita (@kuritateppei) 2020年9月15日
Coded Apertureは光線の4Dデータを2Dの画像データに変調することでLight Fieldカメラの空間/角度解像度のトレードオフを解決する有望な技術であるが、再構成アルゴリズムがまだ完全ではない。そこでAperture部もシムで学習し、データドリブンのPriorに依存しない手法を提案。https://t.co/NKyhd5seH9 pic.twitter.com/ojBaBfV7a1
— Teppei Kurita (@kuritateppei) 2020年9月14日
分類タスクに比べ検索タスクにおける注目領域の可視化はあまり研究されていない。そこで注目領域の可視化について制約付き最適化問題として定式化して、検索用ネットワークにおいても注目度をローカライズする。既存のネットワークのアーキテクチャの変更や微調整は必要ない。https://t.co/YKhaC112p8 pic.twitter.com/LSH7Esgzkh
— Teppei Kurita (@kuritateppei) 2020年9月12日
スマホカメラでフラッシュで撮影した画像から、新しい照明下でのRelightingや形状・材料の推定を行う。従来手法はDeepでSVBRDF再構成→Renderingか直接画像変換してRelightingしていたが、SVBRDF再構成と画像変換Relightingを共同学習(Skipで接続)するようにしたのがキモ。https://t.co/2hh0V6e3ek pic.twitter.com/FqTU2hV0XK
— Teppei Kurita (@kuritateppei) 2020年9月12日
セマセグの特徴量をBody部とEdge部に分離して監視することで物体内部の整合性を保ちつつ高周波の境界を取り扱うことができ、性能向上することを確認。特徴量を物体内部にワーピングさせ元から減算することで特徴量空間でのエッジを得ることができるモジュールがキモ。https://t.co/whEFsjxGRY pic.twitter.com/TQPr4glfU0
— Teppei Kurita (@kuritateppei) 2020年9月11日
特徴の正規化(BN等)とAttentionモジュールは別々に研究されていることが多いが、これらを軽量に統合したAttentive Normalizationを提案。正規化のアフィン変換とAttentionの再スケーリング部は同じ役割を果たすことに注目して統合したのがキモ。代表的なCNNで性能向上を確認。https://t.co/zUAaH9AmHb pic.twitter.com/GiSj7WVoGi
— Teppei Kurita (@kuritateppei) 2020年9月10日
強度変化を記録するイベントカメラ(DVS)を使い、低照度化におけるHDRシーンを十分光量があるシャープな画像に変換する。ペアの学習データを収集するのは困難なので教師なしのDomain Adaptationを利用し、表現学習を容易にするためにドメイン固有/不変特徴を明示的に分離する。https://t.co/NNQDokc2D8 pic.twitter.com/jbTLJz5DUr
— Teppei Kurita (@kuritateppei) 2020年9月9日
夜間の霧除去は低SNR・複数光源色・不均一光量などの要因で非常に難しく、昼間の霧除去手法では太刀打ちできない。そこでグレースケールで周波数分離し高周波でテクスチャの視認性を上げ低周波で霧除去し、更にカラーで同等の処理をしてconsistencyを取る霧除去手法を提案。https://t.co/0mjeWGLjgB pic.twitter.com/C7D8cvE80D
— Teppei Kurita (@kuritateppei) 2020年9月8日
顔画像の表情変化は大きな幾何変換を伴うことが多く、教師ありによるGANが最も良いとされていたが、大量の表情のラベル付けには多くの労力を伴う。そこで教師ラベルなしで顔画像の表情を所望のものに変化させるフレームワークを提案。教師あり従来手法よりも高性能になった。https://t.co/J0zk0chBmc pic.twitter.com/W2Rl4fs3kD
— Teppei Kurita (@kuritateppei) 2020年9月7日
短時間露光を複数毎撮影して合成するバースト撮影はノイズが少なくなり動被写体にも強いが、NNを用いた従来手法は基本的には高い計算コストが必要。そこでウェーブレット変換で得られる高解像かつ高周波のDeepな特徴を補足することで大幅に高速化できる合成手法を提案。https://t.co/yU68pKbx6U pic.twitter.com/1xzpKexqao
— Teppei Kurita (@kuritateppei) 2020年9月6日
最適化ベースの画像平滑化は通常、平滑化項と外観保存項からなるエネルギー最小化問題として定式化されるが「部分的な画素で外観保存項を消去する」事で画像平滑化が容易になることをユーザスタディによって示し、消去画素位置を求めるため0-1ナップサップ問題に定式化した。https://t.co/4mhlidlF35 pic.twitter.com/cZ7KJJnWuX
— Teppei Kurita (@kuritateppei) 2020年9月4日
撮影した画像におけるガラスでの反射成分と透過成分を分離するためのマルチバウンス反射モデルを提案し、偏光カメラを利用して分離を効率的に行うNNアーキテクチャを構築。様々な複数回の反射シーン(反射あり・なし)を含んだ実世界の偏光画像のデータセットを公開する予定。https://t.co/tj3JlVCExC pic.twitter.com/JigU8SEXcf
— Teppei Kurita (@kuritateppei) 2020年9月3日
センサのBayer配列が原因で写真に発生するモアレは形状や色が不規則かつ、周波数の範囲が広いので適切に除去するのが困難。そこでウェーブレット変換を用いて様々な周波数帯に分解し周波数領域内で処理をするNNを構築することでより効果的にモアレを除去できることを示した。https://t.co/jmHlfXX9sJ pic.twitter.com/rW9xGnFRFU
— Teppei Kurita (@kuritateppei) 2020年9月2日
デフォーカスブラー検出(画像からピントの合っている・合っていない領域を分離する)は、複数の物体を含むことが多くNNの力をもってしても未だ困難な問題設定である。そこで、相対Depth情報をPriorとして知識蒸留し正則化に使うことで、性能が向上することを示した。https://t.co/YSwhU8IDzy pic.twitter.com/6cuAKay6in
— Teppei Kurita (@kuritateppei) 2020年9月2日