2021-12-31

2021年12月文献/技術記事解説

真っ白な部屋の壁を観察するだけで、人の数や行動(歩く、飛ぶ、手を振る、しゃがむ、静止)を分類する。事前のキャリブレション不要。壁の観測映像は信号レベルが極めて低くノイズにまみれているので映像を二次元表現に投影しシーンの本質的な動きをまとめた信号を抽出する。https://t.co/549CHzyUNN pic.twitter.com/rvX4VhlaOq
— Teppei Kurita (@kuritateppei) 2021年12月31日

単眼画像からSVBRDFを推定する。当問題には珍しくパッチベースのGANを採用。理由としては(1)ディテールの回復 (2)反射率マップが存在しない実世界データも学習に利用可能で教師なしで合成・実世界データ間のドメインシフトを低減可能である事。特に実世界データに対して有効。https://t.co/YMqPA3cAka pic.twitter.com/z6LlE1x4CY
— Teppei Kurita (@kuritateppei) 2021年12月29日

航空画像から道路地図をゼロから推定する道路抽出が従来主に研究されてきたが、世界の多くの地域では質の高い地図が存在するので「既存の地図を更新する」需要の方が高い。そこで地図更新タスクのための大規模データセットを開発。8年間の全米21都市の航空画像とOSMからなる。https://t.co/WMaQAAUxF1 pic.twitter.com/SKwg6rvqYS
— Teppei Kurita (@kuritateppei) 2021年12月29日

DeepなRaw→sRGB変換は学習データペアを異なるカメラで撮影し位置ずれしているのでそのまま学習させるとボケる。そこで画像アライメントとRaw→sRGBマッピングの共同学習モデルを提示。色の不一致がアライメントを困難にしていると主張しその影響を軽減するモジュールを提案。https://t.co/FcmSqrgO4E pic.twitter.com/DgknLI7Mp8
— Teppei Kurita (@kuritateppei) 2021年12月28日

小さな画像パッチは画像のスケールに関わらず似た統計量を持つが深層特徴の内部分布はスケール間で明確に異なる事を指摘。この深層自己非類似性(DSD)の特性は強力な視覚的指紋として利用できる。画像復元NNの損失としてDSDを組み込む事で敵対学習をせずGAN相当の性能が出る。https://t.co/lu6sTU6Kq6 pic.twitter.com/edd7xFM1R1
— Teppei Kurita (@kuritateppei) 2021年12月22日

大規模データセットを大幅に小さく圧縮するデータセット蒸留でのSOTA。CIFAR10ではわずか10データでTest Accuracy64%以上。リンゴの蒸留画像は大きなリンゴの中に沢山のリンゴが入っているように見えたり自転車の蒸留画像は典型的な自転車の輪郭が抽出されていたり興味深い。https://t.co/UD7IWgTnVW pic.twitter.com/BWcd9325s0
— Teppei Kurita (@kuritateppei) 2021年12月20日

OpenGL等の低品質CG画像の質を向上させる。まずペアデータの学習でOpenGL CG→PBL CGに変換し、次いで教師なし(CycleGAN)でPBL CG→Realに変換。その際Intrinsics分解でAlbedoとShadingに分解し、各要素に対してそれぞれPBR→Realへのマッピングを学習する事で性能向上。https://t.co/kTUvTlPlqa pic.twitter.com/I8cHK0UAzR
— Teppei Kurita (@kuritateppei) 2021年12月15日

ヘルムホルツステレオを偏光状態を考慮したものに拡張。偏光による位相情報が追加されているので画像ペアの最小数を1つに減らすことが可能（最小構成では1画像ペアしか必要としない）。材料表面の屈折率が未知で良い。Limitationとして相互反射や透明なシーンは限界がある。https://t.co/eMZg3OJeRC pic.twitter.com/w2szXaRSLO
— Teppei Kurita (@kuritateppei) 2021年12月8日

K個の中間ドメインを経由しアンサンブルして1つの強力な最終ドメインの予測を学習することで、学習データの分布の変化にロバストになる方法を提案。統合は各予測に関連する不確実性に基づきシンプルな方法で行われる。中間ドメインが変更されても修正や再設計は必要ない。https://t.co/OIqEjvJ6lx pic.twitter.com/1CqpVhbGQ9
— Teppei Kurita (@kuritateppei) 2021年12月8日

平坦な最小値(Flat minima)を求めることでドメイン一般化におけるギャップが小さくなることを理論的に示しFlat minimaを求めるためのシンプルで効率的なSWADを提案。またフラット性を考慮しないMixupやCutMixはドメイン外の汎化性能を保証できない事を理論・実践的に示した。https://t.co/7wHkNNQUfB pic.twitter.com/oL2XgMUWA2
— Teppei Kurita (@kuritateppei) 2021年12月7日

「物体の影」から符号化された高周波照明の推定を行う。シーンの形状と影領域のアルベドは既知前提。単一方向から入射している場合は単純だが多数の方向から同時に入射する照明を推定するのは線形だが不良設定問題になる。そこで光輸送を近似し最適化する実用的な手法を提案。https://t.co/eoHhdc7Zb9 pic.twitter.com/ZZOWaG0i0l
— Teppei Kurita (@kuritateppei) 2021年12月2日

2021-11-30

2021年11月文献/技術記事解説

文献/技術記事解説

Dual Pixel+DL-Based Depth推定の初出。Dual Pixelから推定されるDepthに固有の曖昧さがあることを特定し、既存の単眼Depth推定ベースの手法をDual Pixelに効果的に適用することを提案、従来手法より30%の精度向上。また実写かつ5視点からなる大規模なデータセットを構築。https://t.co/yMCnok78wC pic.twitter.com/W6nPQI9vVE
— Teppei Kurita (@kuritateppei) 2021年11月27日

Dual Pixelを利用した反射除去。発想はシンプルで、背景面は焦点が合っているので左右のビューでズレがないのに対し反射面は焦点面から距離があるのでビュー間にズレが生じる。背景領域に属する画像のグラディエーションマップを計算し最適化に組み込むことで反射除去が可能。https://t.co/1hFyUW14Rv pic.twitter.com/osEbr5nxef
— Teppei Kurita (@kuritateppei) 2021年11月25日

Dual Pixelセンサーとステレオを組み合わせた、オクルージョンの影響を排除した高精度Depth推定。Dual Pixelから計算される視差の固有の不定性が２つのモダリティの単純な統合を妨げていることを指摘。そこで信頼度ボリュームをリサンプリングし連結するアプローチを提案。https://t.co/rAHApLNVDT pic.twitter.com/q1Qn8Kcypy
— Teppei Kurita (@kuritateppei) 2021年11月24日

Dual Pixel(DP)のRawデータにアクセスできるカメラは限られており、また学習用の全焦点画像を取得するには労力を要する。そこでDPセンサの光学的な画像形成を模倣し、DPのデータをCGデータから生成する方法を提案。DPデータのデブラーの学習に有効であることを提示。https://t.co/DgeM6dT4Tn pic.twitter.com/vPZuNHqDTN
— Teppei Kurita (@kuritateppei) 2021年11月23日

Dual Pixel画像からデフォーカスマップと全焦点画像の復元を同時に行う。従来は２つの復元問題を大規模な学習で独立に解いていたが、これら２つをMultiplane Image(MPI)を用いて同時に解決する最適化問題を設計し、教師なしにも関わらず従来手法を改善可能であることを提示。https://t.co/Q8P3qS66uO pic.twitter.com/sC1iYkB35L
— Teppei Kurita (@kuritateppei) 2021年11月21日

Dual Pixelの視差はデフォーカスブラーのある領域でのみ発生するが、ブラーが大きいとマッチングの性能に悪影響を与えてしまう。そこでDepth/ブラー/全焦点画像の関係を明示的に表す理論的なDPモデルを提案。Depthの推定とシャープな画像の復元を共同で行うアーキテクチャ。https://t.co/Eg41AZBdTg pic.twitter.com/wNqSn9FWYf
— Teppei Kurita (@kuritateppei) 2021年11月19日

通常、単眼Depth推定(SIDE)はシーンの内容を考慮しない普通の画像を使ってなされるが、動物の目のサッカードのようにシーン中の特定ROIに解像度を適応的に配分することで、同じ帯域幅でSIDEの精度を向上可能であることを提示。広角+望遠(MEMSミラー)のプロトタイプで実証。https://t.co/fcSsoTjRQU pic.twitter.com/BW9EicwsAJ
— Teppei Kurita (@kuritateppei) 2021年11月14日

DLベースのステレオでDepth精度と計算量のトレードオフ可能なモデル。最小要求であれば例えば仮想的なDepth位置から遠いか近いかを数ミリ秒で分類することが可能。量子化の程度を変えることで任意のDepth解像度での推定ができ、全範囲での連続的なDepth推定精度もSOTAに迫る。https://t.co/WWbHXv8FwE pic.twitter.com/xc4R9XNikM
— Teppei Kurita (@kuritateppei) 2021年11月12日