2020年12月文献/技術記事解説

DNNの新しいモデル圧縮手法。フィルタの冗長性を排除するために、個々のフィルタ重みの重要度を見るのではなく、重みの相関が大きいペアを反復的に同定して各ペアから１つずつ削除していく。削除の前に各ペアの相関を高めるような最適化をし情報の損失を抑えているのがキモ。https://t.co/ZCzHegMEnK pic.twitter.com/tAnd5O0uYb
— Teppei Kurita (@kuritateppei) 2020年12月30日

物体検出において学習セット中にまれにしか出ないクラスの精度を改善するためにSim(CG)データを使い色々する試み。一般的な方法論として、レアクラスSimデータの小さな可変セットを生成し、学習セットに追加して性能を分析して理想的な比率とVariationを決定していくと良い。https://t.co/nKzzXxfAL4 pic.twitter.com/cniMc4wGgJ
— Teppei Kurita (@kuritateppei) 2020年12月29日

360°カメラで撮影されたこれまでで最大規模の物体検出・分類データセット。画像数3K、BFoVアノテーション90K、物体カテゴリ37からなる。このデータセットを用いて3つの異なる物体検出モデルを評価。NFoVsを用いた手法が最も性能が高かったが改善の余地はまだありそうとの事。https://t.co/afamhyn6O4 pic.twitter.com/bRW34HqcHP
— Teppei Kurita (@kuritateppei) 2020年12月28日

Bit演算をベースに畳み込み演算を完全に排除し文字認識タスクで性能を維持したままモデルサイズをSOTA CNNの1/1000(数Kbyte)にする。従来はLocal Binary Patternのサンプリングパターンは固定されていたが、サンプリングも学習可能にする微分可能な定式化をした事がキモ。https://t.co/RCrvDCUTxM pic.twitter.com/2VD6gPNC8F
— Teppei Kurita (@kuritateppei) 2020年12月26日

従来IoT機器の発見には予め決められたチャネル周波数の監視をしなければならなかった。そこで人間が解釈できるスペクトログラム(周波数-時間)画像に対して、特徴的な信号をオブジェクトと見なしてYoloを使い機器を検出する手法を提案。少し強引だけど面白いなと思った。https://t.co/CSaEmQVeAu pic.twitter.com/NljeyjKz8b
— Teppei Kurita (@kuritateppei) 2020年12月25日

追跡された物体(人間)の将来のバウンディングボックスを予測する新しい問題設定の提案。更にこの課題に取り組むための新しいデータセットCitywalksを導入。350万以上の歩行者の軌跡を持ち、欧州10ヶ国で様々な気候条件で撮影され、20万フレーム以上の動画で構成される。https://t.co/eQ0nuywtHp pic.twitter.com/ykx9b2Sgf7
— Teppei Kurita (@kuritateppei) 2020年12月24日

ソース画像をImage2Imageで変換してターゲット画像と類似した外観を持つようにする、これを中間ドメイン画像と呼ぶ。ソース画像と位置合わせされた中間ドメイン画像を橋渡しとして、ターゲットドメイン画像とのドメインギャップを解消する。
— Teppei Kurita (@kuritateppei) 2020年12月23日

物体検出の際、ソースとターゲットのドメインギャップが大きい場合でも適切な学習を可能にする。ソースとターゲットの間の中間ドメインを経由することで大きなギャップを持つ2つの分布を直接マッピングすることを避けて、より簡単なサブタスクに分割したことがキモ。https://t.co/Odoxx5rJ5F pic.twitter.com/9UtAJuj2fP
— Teppei Kurita (@kuritateppei) 2020年12月23日

ソナー画像に対して物体検出(地雷、魚影)をするために従来手法(FasterR-CNN等)を適用すると、光学系画像とは異なる種類のノイズの影響を受け性能が劣化する。そこで畳み込み特徴空間に直接ソナー特有のノイズを模した摂動を生成することでロバスト性を効果的・効率的に向上。https://t.co/QLDNHbQ5km pic.twitter.com/jFupQU7TIi
— Teppei Kurita (@kuritateppei) 2020年12月21日

動画中の見えない活動を認識するためのマルチモーダル表現(映像・テキスト)を学習する。敵対学習を使い非ペアのデータを効果的に利用できるようにしたり、更にゼロショット学習等も行っており、準教師マルチモーダル学習についてやれることは大方やっている印象。https://t.co/BQQwd597Du pic.twitter.com/gXtp5E7Pud
— Teppei Kurita (@kuritateppei) 2020年12月20日

詳細画像識別にとってデータの多様性が重要である。しかしデータセットの偏りは解決が難しく例えばiNaturalistの鳥類データセットは生物多様性のあるアマゾン熱帯雨林のデータはほとんどない。そこで初期のデータを収集した後の最適なデータ追加戦略について提案をしている。https://t.co/dMdi5M6dOp pic.twitter.com/hH3KUMP3rq
— Teppei Kurita (@kuritateppei) 2020年12月19日

RGB画像のみからハンドポーズの推定を行う。まずRGBからDepth画像を推定するように回帰させる、この時UnpairedなRGB-Depthで学習させることで、データセット不足を解決。推定したDepth画像を用いてポーズ推定結果に対して正則化をかけることで性能向上するとのこと。https://t.co/Fnzs01bCer pic.twitter.com/VMOKcc9uiS
— Teppei Kurita (@kuritateppei) 2020年12月18日

映像からアクション(持ち上げる、掴む、手を開くetc…)の始まりなどのキーフレームを検出し分類するRNN。マウスの一連のアクションのアノテーションがされた大規模データセットを生成して検証をしている。Wasserstein lossが最適しやすいとのこと。https://t.co/6crknpF3F1 pic.twitter.com/R6b5LAF1uz
— Teppei Kurita (@kuritateppei) 2020年12月17日

日常生活動作の認識をする場合、微小で動きが似ている動作(靴を履く/脱ぐetc..)は識別が難しい。そこで時間情報を効率的に利用し微小な動きを失わずに取り込むためのNNアーキテクチャを提案。異なる粒度で時間構造を表現しつつ相対的な重要度を考慮するAtttention機構がキモ。https://t.co/QLO2XMaKF3 pic.twitter.com/1PnakqeBWH
— Teppei Kurita (@kuritateppei) 2020年12月16日

風刺画でよく使われるカリカチュア（顔の特徴的な部分を誇張した人物画）を自動生成する。スタイルの変換とは完全に独立して顔のワープのみを学習させることでより品質の高い画像を生成できるとのこと。様々なスタイル変換手法と組み合わせることもできる。https://t.co/zwdvL5wJRd pic.twitter.com/PZOpGkgqgw
— Teppei Kurita (@kuritateppei) 2020年12月15日

指紋認証は一般的にマニューシャ特徴を利用して行われており、その有効性は膨大な研究により確認されている。そこで筆者らは何の事前知識もない場合CNNが指紋認証のためのマニューシャ特徴を自動学習できるのか？という問題提起をしている。結論としては「できる」。https://t.co/UcOF2bxOlb pic.twitter.com/ySQ0zCqhOl
— Teppei Kurita (@kuritateppei) 2020年12月14日

かなり高速でそこそこ性能が高い
DeepなStereo Depth手法。キモは軽量なTraditionalな方法(Census等)で複数のCost Volumeを計算してそれらをコンカチしてから1x1Convで特徴量マップに変換していること。そうすることで後段が2D ConvのみのForwardで良くなり計算量が削減可能。https://t.co/U2r3mBI6EB pic.twitter.com/44e8mA9tpg
— Teppei Kurita (@kuritateppei) 2020年12月12日

CGデータからリアルな視線画像を生成する。視線方向に関する重要な情報は、眼球画像のセグメンテーションマスクで十分内包されているという経験則から、3値マスクを生成してドメインに依存しないプロキシとして活用するのがキモ。学習時に視線方向などのメタ情報は必要ない。https://t.co/SnxPshYgcT pic.twitter.com/6m11DLmMlO
— Teppei Kurita (@kuritateppei) 2020年12月12日

ポーズ推定モデルから検出された顔のキーポイントのみを使いシンプルなNN回帰で視線推定を行う試み。信頼度も同時に出力する。最終的なGoalは介助付き生活環境において、臨床医が個人の健康状態を評価することを補助すること。そのために人と物の相互作用を認識したい。https://t.co/sMU7nfVqgC pic.twitter.com/o4cXiQWiDW
— Teppei Kurita (@kuritateppei) 2020年12月11日

２つの画像の合成をポワソンブレンディングを組み込んだ2段階のNNで行う。元の領域に対してシームレスな境界を生成し、ターゲット画像を更にRefineする。ポワソン方程式の目的関数を強制する微分可能な損失を提案したのがキモ、他の再構成手法との組み合わせも可能。https://t.co/cGhx0SyCqR pic.twitter.com/buT9XazV0d
— Teppei Kurita (@kuritateppei) 2020年12月10日

マイクロ秒の時間分解能で高ダイナミックレンジ撮影ができるイベントカメラは明るさの変化(イベント)のみを記録する。そのイベントから自然画像を再構成する高速で軽量なCNNを提案。従来よりも3倍の高速化、1/280のパラメータ。最新のGPU上で640x480解像度を10msで計算可能。https://t.co/RwLsycdQJK pic.twitter.com/Ds2naYPUVr
— Teppei Kurita (@kuritateppei) 2020年12月9日

水中のシーン等大きな歪みが発生しているシーンを補正するための前処理アルゴリズムの提案。物理学と幾何学の単純な原理を用いて、水波固有の時空間冗長性を利用したのがキモ、非剛体変形を非常に大きく補正することができるとのこと。https://t.co/8vRw1jbP1P pic.twitter.com/nbGL375Xix
— Teppei Kurita (@kuritateppei) 2020年12月8日

Light Field画像にNNスタイル転送をする試み。Light Field画像をそのままネットワークに通しても各画像間での一貫性が保たれない。そこで異なる角度ビュー間の一貫性を強制する。ただしLight Fieldはビューが多すぎるためそのまま学習するのが困難なので反復最適化をする。https://t.co/sQhySdLbEH pic.twitter.com/KImuCuxDpF
— Teppei Kurita (@kuritateppei) 2020年12月7日

Multi-View Stereo(MVS)はエピポーラ制約の下で特徴の対応を見つけることに依存しており、特徴のない物体は扱えないという課題がある。そこで偏光カメラを使って取得された画素単位の偏光情報を利用して密な3D再構成を行う偏光MVSを提案。完全にパッシブでDepth取得が可能。https://t.co/5DITY3sOaZ pic.twitter.com/kOkL8tyzGP
— Teppei Kurita (@kuritateppei) 2020年12月6日

レーザー光を放射し材料を識別する近赤外分光法。スマホに搭載されるかも。
Image Sensors World: Trinamix Molecular Sensing for Smartphones https://t.co/8H3jQpwSUF
— Teppei Kurita (@kuritateppei) 2020年12月6日

ガラスの反射を除去(透過層と反射層を分離)するために、偏光画像と非偏光画像のペアを利用する。従来は3枚以上の(偏光)画像を必要としていたがシステムがより簡略化可能になる。半反射体(ガラス等)の方位推定をまず行い、物理的な制約に基づき反射層の分離を行ったのがキモ。https://t.co/iYjgeThHV8 pic.twitter.com/sdGDRZP3Af
— Teppei Kurita (@kuritateppei) 2020年12月5日

偏光情報を利用し3台のカメラの相対的な姿勢を推定する。通常のカメラの3視点の場合と異なり、カメラの回転と投影が直接符号化されるためカメラの移動に依存しない。理論的には6つの拡散偏光点の対応が取れればカメラの回転を決定できるが実用上はノイズの影響を大きく受ける。https://t.co/ZvVHOqp1Bm pic.twitter.com/LUHRuOFFxb
— Teppei Kurita (@kuritateppei) 2020年12月3日

偏光カメラを使いSLAMをする。通常の輝度に加えて偏光情報を同時に利用することで特にテクスチャがない領域や鏡面反射が強い領域において、通常のカメラよりも再構成が容易になる。リアルタイム性を高めるためにアルゴリズム全体がGPU実装可能になるように設計。https://t.co/0PdIpRhLAI pic.twitter.com/OV6twaFKtH
— Teppei Kurita (@kuritateppei) 2020年12月3日

液晶モニタに表示されたチェッカーパターンを観測することで偏光カメラの応答関数と偏光角度を共同でキャリブレーションする。チェッカーパターンから推定されるカメラの外部パラメータと液晶の業界基準を利用することで偏光・ICRFキャリブを大幅に簡略化したのがキモ。https://t.co/WUPlVHrvCR pic.twitter.com/xlVbuALk48
— Teppei Kurita (@kuritateppei) 2020年12月2日