2021年3月文献/技術記事解説

360°パノラマ画像から部屋のレイアウトを推定する。ラベルなしデータと少量のラベル付きデータを必要とする半教師あり学習。HorizonNetとMean Teacherの長所を組み合わせ両者を拡張することで、わずか12%のラベルで完全な教師あり学習に匹敵する性能を得ることができる。https://t.co/LEY7SzxRJE pic.twitter.com/y8m5cC7JXT
— Teppei Kurita (@kuritateppei) 2021年3月30日

3D点群から教師なしでキーポイントを検出する。候補キーポイントからSkeletonを生成し、各エッジに対して一様なサンプリングを行い明確な活性化強度とオフセットを加えて形状を精緻化するのがキモ。提案手法は意味的に豊かなキーポイントを良好なアライメントで検出可能。https://t.co/CVGyrUVlFs pic.twitter.com/6Zcgg9SLLt
— Teppei Kurita (@kuritateppei) 2021年3月29日

教師なしで画像のSuperpixelセグメンテーション（数百のコンパクトな領域へのクラスタリング）を求めるLNS-Netの提案。LNS-Netは手動のラベルを必要とせずに非反復でSuperpixelを学習することができる。教師ありの手法と比較しても遜色ない性能であるとのこと。https://t.co/mzBB8pzZuB pic.twitter.com/y16eCXAbYq
— Teppei Kurita (@kuritateppei) 2021年3月27日

Student-Teacher学習いわゆる知識蒸留が「いつ」「なぜ」成功するかを理論的・実験的に洞察した論文。結果以下3つの結論を得ている。1. 生徒側はTrainingロスを0にしてはいけない。2. 知識が豊富な教師を利用するのが望ましいが限界もある。3.知識は分解されていた方が良い。https://t.co/z8UNFGCqAE pic.twitter.com/VKx0Ir7lg8
— Teppei Kurita (@kuritateppei) 2021年3月26日

偽造された顔画像を検出するために空間周波数が重要であることを指摘し、周波数特徴を適用的に抽出するモジュールおよび独自の周波数特徴の損失を提案。提案した損失は自然な顔のクラス内変動には鈍感で、クラス間変動には敏感であるため学習の難易度が下がるとのこと。https://t.co/E8MaFPS1VH pic.twitter.com/lqpuvyrETE
— Teppei Kurita (@kuritateppei) 2021年3月24日

下水道は欠陥検査が手作業で行われるため、現代で最もコストのかかるインフラの一つである。
そこで欠陥分類のための新しい大規模データセットを生成・提供。デンマークの3つの電力会社のプロの下水道検査員が9年間で撮影した130万枚のアノテーションつき画像から構成。https://t.co/axZVlJYbGW pic.twitter.com/Gu59cxNUW7
— Teppei Kurita (@kuritateppei) 2021年3月24日

エコーと単眼画像からDepthを推定する。素材の特性が重要であるという仮説から、素材の特性を自動的に推定し、エコーと画像から推定されるDepth出力を調整し組み合わせる空間的なAttention Moduleがキモ。従来手法よりも入力解像度の低下にロバストであるとのこと。https://t.co/t7FFolStkR pic.twitter.com/iO6BmIHMoZ
— Teppei Kurita (@kuritateppei) 2021年3月23日

画像構造の知識を画像のInpaintingに利用するフレームワークの提案。マルチタスク学習戦略や明示的な構造のEmbeddingやAttentionを利用、また構造の学習に特化した新しいピラミッド型の損失を提案。https://t.co/GzXYNSwzmp pic.twitter.com/hpuUH0Cxeu
— Teppei Kurita (@kuritateppei) 2021年3月22日

柔軟で強力なCNN Denoiser。たんなるDenoiserだけでなく、画像再構成における最適化問題を解くためのPriorとして使える。デブラーや超解像、デモザイクなどの各種lowlevel画像処理タスクに応用でき、その優位性を確認。入力画像のノイズがガウス分布である必要はない。https://t.co/PtsgTAsnGc pic.twitter.com/bTnY16UFh8
— Teppei Kurita (@kuritateppei) 2021年3月19日

学習ベースのノイズ除去はノイズレベルが異なる画像に対応するには複数のモデルが必要になるものが多い。そこで単一のモデルで広範囲のノイズレベルを扱うことができるNNアーキを提案。入力画像からノイズマップを算出し入力とすることで空間的に変化するノイズにも対応可能。https://t.co/x9Bo2VEOog pic.twitter.com/FdvDczdcJJ
— Teppei Kurita (@kuritateppei) 2021年3月18日

画像再構成におけるモデルベース最適化は様々な逆問題に柔軟に対応できるが洗練された事前処理が必要で計算量が基本多い。学習ベースは高速であるが適用範囲が制限される。そこで高速で効果的なCNN Denoiserを学習しPriorとして他の逆問題のモデルベースの最適化に統合する。https://t.co/rv7VnmD6TX pic.twitter.com/ELasOYRZ9J
— Teppei Kurita (@kuritateppei) 2021年3月17日

ビデオフレームの補間をする際、Optical Flowの推定をせずにPixelShuffleというアテンションベースの単純な特徴量マップ変換に置き換える提案。大きな動きやオクルージョンも効果的に扱うことができる。フレーム補間において動きを明示的に推定しなくてもSOTAとれる時代。https://t.co/lnGcsn4xn7 pic.twitter.com/GfdZjBRdBW
— Teppei Kurita (@kuritateppei) 2021年3月16日

既存のセマセグNNアーキの多くは通常のグリッドサンプリングをEnc/DecのUp/Downサンプリングに用いているが、物体の形状やばらつきが大きいため最適ではないと指摘。そこで空間的な有用なセグメンテーション情報を適応的にサンプリング可能なモジュールを提案。SOTA(2020)。https://t.co/s4CacOIHki pic.twitter.com/90G3PUC0Tw
— Teppei Kurita (@kuritateppei) 2021年3月15日

既存の顔画像の超解像は入力画像にノイズがないことを前提としているためノイズが多い画像に適用すると性能が大幅に低下する。その問題に対処するためにカプセルベースの表現モデルを用いて高解像度画像を再構成する手法を提案。曖昧さを効果的に軽減することで性能向上する。https://t.co/RuCoASeJuY pic.twitter.com/9vA8d4SJWX
— Teppei Kurita (@kuritateppei) 2021年3月11日

可視光画像を用いたサーマル画像のガイドつき超解像。可視とサーマルは画像間のテクスチャが一致しないことが多く従来手法だとアーティファクトが発生。そこで可視画像からピラミッド型エッジマップを抽出しAttentionモジュールを使い適応的にエッジを超解像NNに結合する。https://t.co/EYxAAdkHHn pic.twitter.com/c2plZZwuB1
— Teppei Kurita (@kuritateppei) 2021年3月10日

可視光(RGB)と近赤外(NIR)画像がアラインされた車両再識別用のデータセットを公開。暗い環境や悪天候下ではRGB画像のみを使うと性能が制限される。そこでNIR画像も同時に使い特徴を融合させ車両再識別をするベースラインアルゴリズムを提案。モデルの優れた性能を実証。https://t.co/sFrVsPrn8L pic.twitter.com/0YCrtjL24L
— Teppei Kurita (@kuritateppei) 2021年3月8日

LiDARの疎なDepthの補間を学習するための密なDepthの真値を取得すことは困難。そこで合成データを使いDepth補間を学習する。実際のLiDARのノイズをシミュレートし、更にRGBはCycle GANでドメイン適合させることがキモ。RGBの適合はDepthのシミュレートよりは重要度が低い。https://t.co/0KwnYpi5Hi pic.twitter.com/2Evf1BuYra
— Teppei Kurita (@kuritateppei) 2021年3月7日

物体検出用のデータを多様なドメイン(昼→夜等)に変換することで物体検出の精度を上げるMultimodal AugGANを提案。既存手法よりアーティファクトを少なく変換を行う。周囲の光量や車両の後部ランプの明るさ等の違いに適応するよう学習するので検出器のロバスト性が上がる。https://t.co/e3YO75Kloi pic.twitter.com/pqbOtrr2P0
— Teppei Kurita (@kuritateppei) 2021年3月6日

Depth画像の超解像。高解像度(HR)から低解像度(LR)への劣化をノイズを含む非線形ダウンサンプリング・インターバルダウンサンプリングの2種類に分類し、それぞれに別個にモデルを学習することが性能向上に寄与すると指摘。またTGV 正則化をしてDepthのエッジをはっきりさせる。https://t.co/X7d5ORzxeF pic.twitter.com/E84SFIyNyK
— Teppei Kurita (@kuritateppei) 2021年3月5日

時間的に疎な入力を扱うSpiking Neural Networkの実施は電力効率が並外れているが、現状画像分類等の単純なタスクに限定されている。そこで物体検出が可能になるSpiking-Yoloを提案。Tiny Yoloの約280倍のエネルギー効率かつ従来のDNN→SNN変換手法と比較し2.3~4倍で収束。https://t.co/3egcoI2jPj pic.twitter.com/ADgPex1jfe
— Teppei Kurita (@kuritateppei) 2021年3月4日

疎なDepthから密なDepthを復元する。ノイズに対するロバスト性を向上させるために、3次元シーンが部分的に平面で構成されていると仮定しDepthと表面法線を同時に予測してその幾何的制約を強制する。疎なLiDAR測定値の信頼度も予測する統一された2段階のフレームワーク。https://t.co/oaIVjlgr05 pic.twitter.com/vKxGlYFaOr
— Teppei Kurita (@kuritateppei) 2021年3月3日

異なるタイプの画像の融合タスクを教師なしNNで行う。異なるソース画像における特徴をいかに保持するかについて、データドリブンで得るためにWeight Blockを使用。また複数の融合タスクに適用可能な単一モデルを得ることで致命的な忘却を避けることができるとのこと。https://t.co/xHGsMsy43R pic.twitter.com/BJs2y9SKPC
— Teppei Kurita (@kuritateppei) 2021年3月2日