2021年2月文献/技術記事解説

高解像度画像に適したDeepなセマセグ。パッチが重要か否かを適応的に判定し計算コストを削減しつつ性能を向上させるPPNを提案。PPNは汎用性があり様々なパッチベースのネットワークに統合できる。高解像度データセットに対して提案するGRNetは計算/メモリ効率・性能でSOTA。https://t.co/vlfNCWIThA pic.twitter.com/LpXkVWlLvu
— Teppei Kurita (@kuritateppei) 2021年2月28日

様々なタスクに適用可能なエッジを考慮した最適化ソルバー。少ないLandmarkからのColarizationや粗いDepthのUpsampling等に使える。従来手法と比較してぼかしカーネルのサイズに依存せず高速化が可能であるため、高解像度画像の処理に適している。性能も高い。https://t.co/RkmpFfJoz0 pic.twitter.com/GEFfbpKH9X
— Teppei Kurita (@kuritateppei) 2021年2月27日

Binarized Neural Network(BNN)の2値化には符号関数が一般的に用いられているが、その性能は満足いくものでなかった。そこで2値表現にSparsityを導入し、活性度を0または+1に量子化する手法を提案。符号関数を用いるのと同等の効率性を持ち、優れた性能を発揮するとの事。https://t.co/oqCRxmmbl7 pic.twitter.com/GeGNZbl2wH
— Teppei Kurita (@kuritateppei) 2021年2月26日

画像からTextを抽出する。従来は矩形のBounding Boxを検出していたため曲線状に配置されたTextの取り扱いが困難であった。そこで代わりに境界点の集合(boundary points)を予測することで、様々なテキストの配置・形状に対応することを提案。シーン中のText検出＆認識でSOTA。https://t.co/s3ABWHp6Es pic.twitter.com/Q55GnVvS6a
— Teppei Kurita (@kuritateppei) 2021年2月25日

RGBとIR(赤外)画像間の人物再識別。従来手法がグローバルなセットレベルのアライメントをしていたのに対して、インスタンスレベルのアライメントも同時に行っているのがキモ。モダリティ固有の特徴とモダリティ非依存の特徴を分離し、モダリティギャップを大幅に低減可能。https://t.co/N48guSTMby pic.twitter.com/hBV64PVc6O
— Teppei Kurita (@kuritateppei) 2021年2月24日

低照度画像を補正する。通常低照度画像は高コントラスト＆色の偏りが大きい。そこで入力画像から疑似的に露出時間の異なる画像を合成し(ゲイン変えるだけ)融合させることで対処する。更にエッジ強調モジュールを用いることでエッジが不明瞭な場合の画素単位損失の欠点を回避。https://t.co/6BynuZaBe2 pic.twitter.com/0d4qVCEn7S
— Teppei Kurita (@kuritateppei) 2021年2月23日

Light Field画像群からDepthを推定するNN。ビューの冗長性を低減するために、各ビューがどれだけDepth推定に寄与しているかを推定するAttentionモジュールを提案。更にLight Field特性上ビューの対称性があるため、Attention Mapにも対称性を強制することで更に性能を向上。https://t.co/KdWgyIoP0U pic.twitter.com/WVDXQSB91b
— Teppei Kurita (@kuritateppei) 2021年2月22日

人物検出(再識別)、インスタンスセグメンテーションおよびキーポイント検出を共同で最適化する。相関が低い特徴を抽出するための高速なベースモデルに加え特徴マップにおける望ましくない様々な誤差要因を低減するためのモジュールを提案したのがキモ。CUHK-SYSU/PRWでSOTA。https://t.co/KVAkVnFWNP pic.twitter.com/I66siWSjva
— Teppei Kurita (@kuritateppei) 2021年2月21日

カモフラージュ画像(シーン中にオブジェクトが擬態化している画像)を自動で生成する。従来のStyle TransferベースのNNでContentsとStyleの間で絶妙にバランスを取っても上手くいかない。そこでそれらの課題を回避する新しい損失関数を設計。ちなみに研究の動機は面白いから。https://t.co/ztIixlpANK pic.twitter.com/ZnewEry7Ao
— Teppei Kurita (@kuritateppei) 2021年2月19日

上から見た映像と横から見た映像を同時に撮影して複数の人物を追跡するという新しい問題設定。各ビューでのデータの時間的な類似度を外観と運動の特徴量で表現し、制約付き混合整数線形計画法で最適化問題を解いているのがキモ。当問題設定のためのデータセットも新しく提供。https://t.co/a6pUb9toqp pic.twitter.com/8MhS1aL8SP
— Teppei Kurita (@kuritateppei) 2021年2月15日

動画の顕著性予測を超軽量(メモリ0.68MB)かつ超高速(10106fps@GPU)で行う。入力を低解像度にしつつ畳み込みはdepth-wiseベース。ただし単純に学習するとさすがに性能が出ないので、時空間的特徴を抽出できる知識蒸留を提案・利用。従来のモデルよりも206倍高速で性能が同等。https://t.co/xujVACSD5b pic.twitter.com/VaVjliRNKL
— Teppei Kurita (@kuritateppei) 2021年2月13日

星や船、飛行機などの赤外画像の小さいターゲット（定義：256x256で総画素数が80画素以下(9x9未満)）を検出するために、大規模なデータセットを作成。またテクスチャや形状の特徴がないため、小型のターゲットの特徴を強調する新しいチャネル型のAttention Moduleを提案。https://t.co/gUZOscz2ws pic.twitter.com/9DDbfXsIxn
— Teppei Kurita (@kuritateppei) 2021年2月10日

MRI画像から大脳皮質を再構成するNNの提案。ボクセル表現を直接求める代わりに実数点の暗黙の表面表現を予測し連続的な表面近似をすることで、高い解像度での再構成を実現しているのがキモ。既存手法(FastSurfer)と比較し同程度の精度でより高速動作することを確認。https://t.co/drL9Ezz5R9 pic.twitter.com/cKwSgeWipX
— Teppei Kurita (@kuritateppei) 2021年2月8日

Raw画像のデモザイクとRectificationを同時に軽量に行いComputerVIsionの必要ハードウェアリソースを削減する。多項式LUT圧縮によって任意の複雑なレンズモデルを符号化してRectificationをすることができ、誤差を少なくメモリ使用量を削減できる。O(nm)からO(min(n,m))。https://t.co/h42DJ7e90P pic.twitter.com/cZYAHEEGcW
— Teppei Kurita (@kuritateppei) 2021年2月7日

航空画像からのRGB画像の霧除去。キモは一回RGB画像をHyperSpectral画像(HSI)に変換し霧除去をするための触媒として利用すること。HSIのデータセット不足に対応するために、RGB→HSIの変換は教師なしで学習する。大規模な航空霧画像の合成データセットを提供予定。https://t.co/TxmDyxRbVU pic.twitter.com/gLQAAriRud
— Teppei Kurita (@kuritateppei) 2021年2月5日

GelSightのような物体に接触した際のゲルの変形を測定して触覚を測定するセンサのゲルを半透明にして、視覚情報と触覚情報を両方得る。そのマルチモーダル情報をNNで学習することで接触した物体の物理特性をより高精度に認識し、物体の分類や重みの検出等をする。https://t.co/AfdnsU8e8D pic.twitter.com/KBB20fuVyP
— Teppei Kurita (@kuritateppei) 2021年2月4日

SPADを利用した低照度化におけるデブラー（SPADで検出される各光子はブレがない）。光子のタイムスタンプから各画素の動きを推定し、統合窓を動的に変化させて、エッジ高周波を維持したまま動きブレを最小化する。市販のSPADカメラから取得したデータを用いて有効性を検証。https://t.co/BKd35Hj0Su pic.twitter.com/Qo1dwVgekN
— Teppei Kurita (@kuritateppei) 2021年2月3日

車載カメラが泥やほこりで汚れた場合でもセマセグ等の認識性能を落とさないために、カメラが汚れた画像をGAN自動で生成し学習させる提案。対応する汚れマスクも自動で生成することでアノテーションコストを削減。生成したデータセットは公開予定とのこと。https://t.co/drPpMx49Qu pic.twitter.com/I9sWTwbTXy
— Teppei Kurita (@kuritateppei) 2021年2月2日

COVID-19の高リスク患者の同定のために、CTスキャンによる感染領域のセグメント化を行う。従来は画素単位のアノテーションを必要としていたが、この手法では感染領域ごとに1画素のみのアノテーションでよく（弱教師）、ラベル付けのコストが1/5以上削減できる。https://t.co/qNzXFRgqwg pic.twitter.com/J5xDsXmr2X
— Teppei Kurita (@kuritateppei) 2021年2月1日