2021年1月文献/技術記事解説

虹彩認証のための新規NNアーキの提案。虹彩の特徴は異なる局所領域で空間的に異なる重要度を持つため、空間的なAttentionと相性が良いことに注目したのがキモ。虹彩認識に有効な異なるレベルの特徴をアンサンブルするためのAttentionモジュールを提案している。https://t.co/gOZ1IGARCZ pic.twitter.com/EonxJvdHah
— Teppei Kurita (@kuritateppei) 2021年1月30日

自動運転における夜間センシングのLIDARの代替として単眼のサーマル画像からDepthを推定をする提案。学習フレームワークが面白く、RGBのステレオペアと同時にサーマル画像をキャプチャし自己教師で学習させる。RGBをサーマル画像に変換し外観の一致を制約させているのもキモ。https://t.co/4lNXv7To1g pic.twitter.com/y17uNlZ0ug
— Teppei Kurita (@kuritateppei) 2021年1月28日

RAW画像からのデモザイクとノイズ除去を行う。Dataset中のGround Truthも画像処理プロセス(ISP)を通っているので劣化しているのでそのまま学習するのは問題であると指摘し真のGTからの劣化過程をモデル化し真のGTらしさ(尤度)を最大化するようにLossを定式化したのがキモ。https://t.co/QxutdlNbVC pic.twitter.com/9Pr13YgJj8
— Teppei Kurita (@kuritateppei) 2021年1月26日

CNNの特徴マップのうち重要なチャネルを強調させ性能を向上させ、かつ従来手法(SENet)よりもシンプルな構造を提案している。キモは各チャンネルの代表的なデータポイントをまず見つけ利用しているところ。ResNet50をBoostしてReset152と同等の性能を発揮できるとのこと。https://t.co/b5vY6LxopJ pic.twitter.com/uySos8557D
— Teppei Kurita (@kuritateppei) 2021年1月24日

（1年前なので古め）Deepな超解像のサーベイ論文。Pre・Post型などの基本形からUpsampling手法、ネットワーク設計、学習戦略、性能評価等のProsConsがわかりやすくまとまっており、現在の超解像におけるSOTA含む各手法の位置づけが把握しやすい構成になっている。https://t.co/WVQxpYjkhd pic.twitter.com/RbTgaYIPhW
— Teppei Kurita (@kuritateppei) 2021年1月22日

軽量でそこそこ性能が高いDeepなセマセグ。異なる抽象度の特徴を集約して、Enc-Dec間の座標を調整するアダプタモジュールがキモであり、境界が洗練されるほか勾配の流れを安定化させる。リアルタイムで動作が可能。
コードがないのが残念。https://t.co/felxDe27XH pic.twitter.com/aK9f2QIdXX
— Teppei Kurita (@kuritateppei) 2021年1月21日

顔のサーマル映像から人間のストレス状態を推定する。時空間のNNを利用しISTIという心臓の交感神経活動の変化を表す指標(ストレスと相関が高いと言われている)を再構成し、得られたISTIを用いてストレス状態を分類する。平均精度0.842でストレスを検出することが可能。https://t.co/bzRh06nrDF pic.twitter.com/ch47vsAkyP
— Teppei Kurita (@kuritateppei) 2021年1月20日

AIの発展に著しく貢献してきたImageNet等の大規模データセットの倫理的な問題点を指摘した論文。データセット中の人物画像は個人の同意や承認なしに取得され多くの論文に使われている。CV分野においては大きな勝利であるが個人のプライバシーを侵食する事を助長したと主張。https://t.co/oIA3LAbb7m pic.twitter.com/KllLJDwICw
— Teppei Kurita (@kuritateppei) 2021年1月15日

既存の公開顔データセットは白人等の肌が薄い顔に強く偏っている。そこで人種（＆年齢・性別）のバランスが取れた新しい顔データセットを生成。YFCC100M Flickrから収集した約10万枚の顔画像を含む。このデータで学習したNNモデルは人種間でバランスの良い精度を示す。https://t.co/NxHFFwlB78 pic.twitter.com/zwXu1aV4o9
— Teppei Kurita (@kuritateppei) 2021年1月13日

ビッグバン・セオリーから作られたユーモアを理解するためのデータセット。観客の笑いが発生した会話がアノテーションされている。ユーモアを正確に予測するためには会話の内容だけでなく驚きの表現等の微妙な合図がある。キャラクター毎のユーモア割合等分析していて面白い。https://t.co/yCvURUKbjP pic.twitter.com/AcounjHAIV
— Teppei Kurita (@kuritateppei) 2021年1月12日

PSFのキャリブレーションを必要としないレンズレスカメラの再構成手法。キモは画像再構成とPSF推定を同時に行い、更に再構成画像と推定PSFの畳み込みと元のレンズレス画像が一致するように強制する自己教師ロスを使い性能を高めているところ。低レイテンシで性能が高いのこと。https://t.co/FSaZBX9ncu pic.twitter.com/i9OzpGteKP
— Teppei Kurita (@kuritateppei) 2021年1月12日

GANは存在しない顔(Fake)画像を高精細に生成できるが、もし学習画像中に自分の顔が使われていたら生成されたFake顔画像からその顔情報が漏れてしまう可能性があるいう問題提起。そのような情報漏洩を避けるような潜在表現からのサンプリング方法等を研究していくべきと主張。https://t.co/yi9TXxrn3F pic.twitter.com/r7Wm2xyuz0
— Teppei Kurita (@kuritateppei) 2021年1月7日

符号化露光を利用することで低フレで撮影しつつ高フレの動画を再構成する圧縮センシングの各種手法を統一して扱えるNNフレームワークの提案。従来使用されていた全結合層を削除。結論として画素毎の露光制御をした方が圧縮性能が高いことがフェアな評価で確かめられた。https://t.co/NMrZUhc0X1 pic.twitter.com/ejaTc48dwD
— Teppei Kurita (@kuritateppei) 2021年1月7日

「城」に特化したとてもニッチだけど執念を感じる凄いデータセット。
90ヵ国以上2400以上の城・宮殿・要塞から約77万枚の画像で構成されている。ジオタグや建設日、Google Mapへのリンクなどのメタ情報も含まれている。廃墟になっているものは除外されている。https://t.co/kydGD5VczW pic.twitter.com/S6tT3GsPJT
— Teppei Kurita (@kuritateppei) 2021年1月5日

単一画像のガラスの反射をNNで除去する。透過光と反射光のエッジが異なる分布を持つというPriorを利用し分離のためにエッジ推定器を事前学習しているのがキモ。また反射画像かを判定する事前学習済みの分類器やメモリ消費を抑えるためのRecurrent構造を導入する工夫などあり。https://t.co/9yoDStE1it pic.twitter.com/NMpgRcSP1v
— Teppei Kurita (@kuritateppei) 2021年1月5日

計算量やメモリ消費をほぼ増加させることなくNN内の活性化関数の数を1桁増やし非線形性を高めるWide Hidden Expansion(WHE)レイヤーの提案。WHEは各チャネルが2つの入力と1つの出力に接続されるシンプルな構成なため様々なNNに柔軟に組み入れることができ、性能を向上できる。https://t.co/BClUPcXnln pic.twitter.com/sA9y0QPCNb
— Teppei Kurita (@kuritateppei) 2021年1月4日