2021年4月文献/技術記事解説

疎なDepthを補完する場合、オクルージョン境界においてDepthが不鮮明になる。そこでオクルージョン境界付近において前景と背景を明示的にモデル化し外挿でDepthを求めることを提案。またGTに外れ値が存在するとき、RMSEよりもMAEが優れた指標であることを指摘し検証している。https://t.co/OehG4LItoR pic.twitter.com/YQ4lJRCMrV
— Teppei Kurita (@kuritateppei) 2021年4月30日

画像内で指定された物体と同じカテゴリの全ての物体の数をカウントする。従来手法は１つのカテゴリのカウントに焦点を当てていたが複数カテゴリを扱えるようにしている。また147のカテゴリ、6000枚以上の画像からなる物体カウント用の中規模データセットを提供。https://t.co/7E4DcIL9Tk pic.twitter.com/WkgGqB7ioK
— Teppei Kurita (@kuritateppei) 2021年4月29日

従来の知識蒸留は同一レベルの特徴間での特徴変化や損失を利用していたが、この直感的な手順がフレームワークのボトルネックになっていると指摘。教師ネットワークの低レベルの特徴を利用して生徒の深い特徴を監督することにより全体的な性能が「大幅」に向上することを提示。https://t.co/8eDMCW8NhO pic.twitter.com/YwCWOU3JcR
— Teppei Kurita (@kuritateppei) 2021年4月28日

コントラスト正則化を利用した非常にコンパクトなサイズで性能の良い霧除去。従来手法は学習にポジティブなサンプルを利用しているだけだったが、ネガティブサンプルも利用し、表現空間において復元画像が鮮明な画像に近づきつつ霞んだ画像から遠ざかるように学習される。https://t.co/lZQDoQtwqt pic.twitter.com/36OwGNbOZ6
— Teppei Kurita (@kuritateppei) 2021年4月27日

従来の超解像NNはx2/x4等予め決められた倍数にしか拡大できなかった。そこで超解像タスクを画像変換の下で一般化することを提案。出力画像に任意の解像度と形状が要求される場合でも適用できる。適応型Warpingとマルチスケールブレンドにより高品質なDetailとEdgeを復元。https://t.co/intMilkzEw pic.twitter.com/06V074FPqb
— Teppei Kurita (@kuritateppei) 2021年4月26日

汎化における最悪のシナリオ、単一ソースからのドメイン外汎化に取り組んだ研究。入力空間とラベル空間の両方で不確実性を推定することでソースのCapacityを増やす。具体的には生データを直接Augmentationするのではなく、潜在的な特徴に不確実性を考慮した摂動を加える。https://t.co/uEqvl995fL pic.twitter.com/52Mj25DjPP
— Teppei Kurita (@kuritateppei) 2021年4月24日

通常の実写RGB画像から正確なGTとしての高密度なOptical Flowを迅速かつ大量に生成するフレームワークの提案。単眼のDepth推定を使い点群を形成しカメラを仮想的に動かすことで、新しい視点と入力画像の各画素を結ぶOptical Flow Fieldを合成する。NNの汎化性能向上に有用。https://t.co/2COuPXXqi1 pic.twitter.com/VjGtt699Ux
— Teppei Kurita (@kuritateppei) 2021年4月23日

ステレオDepthの物体境界付近の精度を向上させる。出力表現として二峰性の混合密度を利用し、任意の空間分解能で境界にシャープな視差値を予測することができる。様々なステレオNNのバックボーンに対応可能。また高解像(3840x2160)のGT視差を持つ新しいデータセットを提供。https://t.co/6sBSA2dXWW pic.twitter.com/L9hVZRG6Gz
— Teppei Kurita (@kuritateppei) 2021年4月22日

モバイルVRヘッドセットのような計算量に制約のあるデバイスでも高精度の顔再現で多人数のテレプレゼンスを実現する。アバターの顔上の可視ピクセルのみをデコードする軽量表現がキモ。小さなモデルで高品質なデコードを実現するために学習された位置符号化関数を採用。https://t.co/8wp28WvgnA pic.twitter.com/P5eVApldKj
— Teppei Kurita (@kuritateppei) 2021年4月21日

カメラと懐中電灯(+三脚)だけを使い自宅で簡単に物体の形状と材質(法線/アルベド/粗さ)を取得できるシステムの提案。画像は１枚～６枚必要で枚数が増加すると精度が上がる。再帰的な多重解像度アーキを提案し、任意の解像度で様々な数の入力を扱えるようにしたことがキモ。https://t.co/ws18i5k9e7 pic.twitter.com/bfOikPnv20
— Teppei Kurita (@kuritateppei) 2021年4月20日

手話動画から指文字(単語を1文字ずつ符号化したもの)を検出・認識するという新しい試み。多くの指文字のハンドシェイプは非指文字(通常手話)でも使用されていて区別が難しい。そこで指文字は多関節のポーズが重要な役割を果たしていることに注目しモデルを設計、良好な結果。https://t.co/UBevMtJ9TZ pic.twitter.com/NsGHJbiR63
— Teppei Kurita (@kuritateppei) 2021年4月17日

ステレオカメラのS/Nを上げるために絞りを開くと被写界深度が狭くなり露光時間を上げるとブレる。そこで各カメラの開口部に位相マスクを入れることで低光量でも高解像の3D情報を復元できるシステムを提案。E2Eでの学習で位相マスクとDisparity・RGB再構成を共同で最適化する。https://t.co/PnlOwlgt19 pic.twitter.com/kHo8V0KGLI
— Teppei Kurita (@kuritateppei) 2021年4月17日

高解像度画像に適用できる軽量かつ高性能なネットワーク構造の提案。ShuffleNetのShuffleBlockをHRNetに適用するだけでMobileNetを超える。またボトルネックである1x1convを条件付きチャネル重みづけに変更することで更にパフォーマンスが改善。ポーズ推定やセマセグに有用。https://t.co/bYNu5Jr7Od pic.twitter.com/JrLH0hih87
— Teppei Kurita (@kuritateppei) 2021年4月16日

ある1枚の画像から、カメラの露光設定(シャッター速度、絞り、ISO)を変えた画像を生成する。露出・ノイズ・ボケの変化を段階的に学習するアーキがキモ。さらに同じシーンを様々なカメラの露光設定で撮影した1万枚からなるRAWデータのデータセットを収集（公開するかは不明）。https://t.co/RTNz9Q41Ev pic.twitter.com/rBMnDtbeK9
— Teppei Kurita (@kuritateppei) 2021年4月15日

高解像度の画像をNNで適切に処理することは困難。細かい情報を認識できつつ、計算量を削減することが望まれている。そこで画像中から重要なパッチのみを抽出する微分可能な手法を提案。ただし本質的に鶏卵問題であり依然として難しいケースが多いことを指摘している。https://t.co/1ToXsprS9k pic.twitter.com/mGIrnYOchq
— Teppei Kurita (@kuritateppei) 2021年4月13日

人間は壁の模様などに実際には存在しない幻の顔（パレイドリア）を知覚してしまう。そのパレイドリアの顔を、実際の人間の顔と連動して動かすという新しい試み。通常の人間の顔とは大きく異なり、更にデータセットが存在しないため難しい。3つの処理に分解し対応している。https://t.co/wauMnIDqgN pic.twitter.com/sCGCDVzP31
— Teppei Kurita (@kuritateppei) 2021年4月11日

ブラー演算子をブラーカーネル空間にエンコードする手法の提案。ブラー演算子・カーネルを各々明示的に表現したNNを用いる。未知のブラー演算子を符号化空間のカーネルで近似して対応するシャープな画像を検索するため、未知のブラーカーネルも取り扱うことができる。https://t.co/OZVbc3eRoC pic.twitter.com/nhyjuDFObm
— Teppei Kurita (@kuritateppei) 2021年4月9日

従来のイメージセンサの画素は光子数をカウントすることで明るさを測定しているが、ダイナミックレンジに限界がある。そこで各光子間のタイミング(間隔)から明るさを測定する新しい方法を提案。輝度が高いほど光子間の間隔が短くなり、光子ヒストグラムの減衰速度が速くなる。https://t.co/LHeI659r9u pic.twitter.com/N1Vjq6AWRc
— Teppei Kurita (@kuritateppei) 2021年4月8日

知識蒸留は通常Pre学習された複雑な教師モデルから学生モデルに知識を伝達するが、最近は学生のみで自身の知識を蒸留する「自己知識蒸留」が注目されている。そこで補助的な自己教師ネットワークを利用し分類器に洗練された知識を転送する方法を提案。セマセグ等に利用可能。https://t.co/LziucJsfvQ pic.twitter.com/VtgwnlEvlP
— Teppei Kurita (@kuritateppei) 2021年4月7日

雨の層に合わせた動的な雨画像生成器とその生成器を利用した雨の特性をより正確に表現可能な半教師の雨除去手法の提案。雨画像生成器はemissionモデル（観測された雨の筋に状態空間をマッピング）とtransition（隣接するフレーム間での雨の連続的な変化を符号化）からなる。https://t.co/zYTb1SEi6h pic.twitter.com/UOgRgnbrl2
— Teppei Kurita (@kuritateppei) 2021年4月1日