2020年6月文献/技術記事解説

極端な低解像度の顔の画像と、音声を入力として、高精細な顔の画像を生成する。普通に学習させると、2つの入力信号のモダリティのギャップが大きく、音声情報が上手く使われない。そこで両者委の信号が共通の潜在表現にマッピングされるように個別のエンコーダで学習させる。https://t.co/maByR8DIZh pic.twitter.com/bcNE9CtW2M
— Teppei Kurita (@kuritateppei) 2020年6月30日

間違ったホワイトバランスで撮影されたカメラのsRGB画像を正しく補正し、また屋内や屋外という代表的なホワバラ設定へのマッピングも自由に行えるようにする。ホワバラ調整のためのRAW画像を保存しておかなくても良くなるので実用化されれば非常に便利。CVPR2020オーラル。https://t.co/muzlFsbvKf pic.twitter.com/sBGiXNKdBn
— Teppei Kurita (@kuritateppei) 2020年6月29日

ポテトチップスの袋のようなテカりやすい物体の反射を手掛かりに、室内の照明状況や何があるか(人、モノ…)を推定する。RGBDカメラの映像シーケンスを利用。照明マップを推定するために、マップを材質毎の基底で表現し、セマセグで物体の材料を分割し最適化したのがキモ。https://t.co/wknBXzo1jV pic.twitter.com/QODUvB6jjn
— Teppei Kurita (@kuritateppei) 2020年6月29日

低解像ハイパースペクトル(HSI)画像と高解像マルチスペクトル(MSI)画像をFusionさせ、高解像ハイパースペクトル画像を生成する。2ステージの適応学習の形を取り、まずラフなHSIを合成データ教師ありで学習させ、その後に教師なしで入力HSIとの矛盾がないように適応させる。https://t.co/Ev5fd786Rq pic.twitter.com/2dz7YkyKTV
— Teppei Kurita (@kuritateppei) 2020年6月28日

ガイド画像を使い低品質な顔画像を綺麗にする。同一人物の高品質な顔画像のうち最もガイド画像として適切な画像を選択するのがキモ。通常は顔ポーズの違いを吸収するためにアライメントを取る必要があるがガイド画像として似たポーズが選択されるのでワープ用NNが不要になる。https://t.co/EIr8LtlIvi pic.twitter.com/Hw4Bq47Izl
— Teppei Kurita (@kuritateppei) 2020年6月26日

「イベントカメラはモーションブラーがない」というようなキャッチーな宣伝も多いが、実際は光子をカウントする必要があり、低照明条件下では光子が不足するため、イベントカウントの際にノイズが多くなり実質遅くなる。
Image Sensors World: v2e and Event-Driven Camera https://t.co/n59QCzHbF4
— Teppei Kurita (@kuritateppei) 2020年6月26日

画素毎に輝度の変化量をバイナリで出力するイベントカメラは高速・低消費電力が強みだが解像度が低いのが課題であった。そこでイベントストリームから高解像度・HDRの画像を直接生成するためのEnd2Endのネットワークを提案。パイプライン型の従来手法よりも高精度に生成可能。https://t.co/6P1JKcJxB9 pic.twitter.com/O1MpjnWVWm
— Teppei Kurita (@kuritateppei) 2020年6月26日

CMOSイメージセンサの特性に基づき、高精度なノイズモデルを提案。ノイズパラメータをマッチングさせることで高精度なノイズ画像の合成データが生成可能になり、NNでのNR性能を向上させられる。普通はデバイス関連の論文読まないといけないノイズモデルが詳しくて参考になる。https://t.co/1WE27rRWjH pic.twitter.com/4Pt0qnpI5m
— Teppei Kurita (@kuritateppei) 2020年6月25日

今まで機械学習で画像のデブラー(ボケ・ブレ除去)のためのボケ(ブレ)画像の真値生成は時間方向に離散サンプリングして平均して得ていたが、それは実世界のボケモデルを正確に反映していない。そこでよりリアルなボケ画像を生成するためにSinGANライクなモデルを提案。https://t.co/jFv5Kww9ck pic.twitter.com/7YMkx546H9
— Teppei Kurita (@kuritateppei) 2020年6月24日

従来のNNでのノイズ除去の多くは白色ガウスノイズを仮定しているが、実際の画像ノイズは途中のカメラ信号処理によって正規分布から歪められている。そこでsRGB⇔RAWを相互に変換可能なネットワークを学習しカメラパラメータ不要でRAW/sRGBの現実的なノイズデータを生成した。https://t.co/pXLL9Iy1bd pic.twitter.com/wLyPo67eGS
— Teppei Kurita (@kuritateppei) 2020年6月22日

農地を対象とした画像認識は経済的価値は高いがデータセットが不足しており、また農地の状態を分類するのは非常に難しい。そこで大規模な農地セマセグ用の航空画像データセットを生成。従来のものと比較しデータ数の多さと、NIR(近赤外)情報も同時に取得しているのがキモ。https://t.co/SCXt6J4dMh pic.twitter.com/XNa1Zl37i1
— Teppei Kurita (@kuritateppei) 2020年6月21日

ガラス等に映りこんだ反射を除去する。ネットワークは透過光と反射光に分解するのだが、その予測された各要素をまた更に入力としてカスケード型で学習させていく。ただしネットワークが深くなり勾配消失してしまうので、中間にLSTM層を設けて勾配消失を回避しているのがキモ。https://t.co/oeiVhEhZJv pic.twitter.com/HtbZQj6jVG
— Teppei Kurita (@kuritateppei) 2020年6月20日

1枚画像から反射率とShadingを教師なしで推定する。画像と反射率、Shadingは共通特徴量を持っている一方、反射率は照明と方位に不変なのに対し、Shadingはその両方に依存しておりそれぞれのPriorは独立しているので、個々の潜在表現を明示的に算出して学習するアーキにした。https://t.co/fktNH8Pdl2 pic.twitter.com/5ha4w7VCS7
— Teppei Kurita (@kuritateppei) 2020年6月20日

イメージセンサのカラーフィルタに白画素を配置すると、低照度化でのデモザイクの性能が上がるが（これは当たりまえ）、白画素を配置しすぎると、逆に性能が下がってしまうとの報告。https://t.co/ldn1tRPRkG pic.twitter.com/FPG0SEgtx7
— Teppei Kurita (@kuritateppei) 2020年6月19日

画像から鏡を検出する。鏡の検出は大局的なシーンの理解が必要不可欠なので非常に難しいが、鏡の存在は物体認識等様々なタスクに悪影響を及ぼすので重要な課題である。本手法では鏡のエッジを明示的に検出しながら、鏡の内側と外側の類似度を学習して検出を高精度化している。https://t.co/WosKHQAl45 pic.twitter.com/MpP6UJ9oDB
— Teppei Kurita (@kuritateppei) 2020年6月19日

画像から照明色を推定する。照明が同じシーンならば同じ特徴量になるように正則化(Triplet loss)をかけ学習させたのがキモ。特徴量として色特徴量が重要なので、学習可能な色ヒストグラムを用いて特徴量を算出している。色恒常性の知見を上手く手法に組み込んでいる。https://t.co/TFRszbtfbh pic.twitter.com/A2vSWZ8d3z
— Teppei Kurita (@kuritateppei) 2020年6月17日

擬態動物などの、周囲背景にカモフラージュされた物体の検出という、従来の物体検出と比較しはるかに難しい新しいタスクの提案。10000枚の擬態シーンを含む大規模データセットを収集、厳密にアノテーションを行っている。人間でも困難なタスクであり問題設定がハマっている。https://t.co/PTjFBJcYLH pic.twitter.com/HHs6TIUcTv
— Teppei Kurita (@kuritateppei) 2020年6月17日

屋内シーンを様々な照明下で撮影したHDRのデータセット（1000以上のシーンを1シーンあたり25種の照明）。カメラのストロボをメカ的に自動回転させ光を壁に当ててバウンスさせる。1シーン5分程度で取得。同時にLight Probeも撮影することで光源マップの真値も取得。ICCV2019。https://t.co/nxJfHqZkEG pic.twitter.com/FadPP1Iogh
— Teppei Kurita (@kuritateppei) 2020年6月16日

屋内シーンの画像から、形状・照明マップ・反射率および表面粗さを推定する。従来はPhong BRDF仮定だったSUNCGの材料にマイクロファセットSVBRDFを違和感のないように反映させてレンダリングし、真値が得られるフォトリアルなデータセットを生成したのがキモ。CVPR2020。https://t.co/VEBuCNJwIT pic.twitter.com/Lj7QtoOd6E
— Teppei Kurita (@kuritateppei) 2020年6月15日

(情報としては古い)室内シーンの大量の画像に、反射率比較を人手で疎にアノテーションしたデータセット。各ペアの画素が同じ反射率か違う反射率か(実際はもう少し細かい)をラベル付けしている。これ以降、反射率推定の評価でこの評価指標とデータセットが使われることが多い。https://t.co/Cqi5D7u3Ym pic.twitter.com/SwwQUz6gIU
— Teppei Kurita (@kuritateppei) 2020年6月14日

マルチビュー画像から、任意視点の画像とリライティングを同時に行う。ポイントは、各画素での」「BRDFと照明方向」を予測する代わりに、「光輸送関数と全体の照明方向およびアルベド」を予測するように式を定式化して、各項を独立してNNで求めたこと。CVPR2020。https://t.co/8H6hVwEIPy pic.twitter.com/LC0BwpnpVR
— Teppei Kurita (@kuritateppei) 2020年6月13日

(教えて頂いた有名論文)物体認識タスクにおいて各画素でBounding Boxを予測するのではなく、物体の中心点位置(Heatmap)とオブジェクトサイズを回帰する。重複領域の抑制を行わなくてよいのでEnd2Endで学習可能。プロパティ(サイズ等)を追加することで様々なタスクに応用可能。https://t.co/mIWXzzxdc9 pic.twitter.com/qTPa3Zs544
— Teppei Kurita (@kuritateppei) 2020年6月12日

古典だがDANN/RevGradをちゃんと読んだ。ソース/ターゲット間のドメインのアラインを教師なしで行う。ポイントは潜在表現をどちらのドメインか判定する分類器を設け、そのロスを最大化させるように学習させたこと。既存のネットワークの大きな変更をせず追加できるのが便利。https://t.co/MYK1PGkxyt pic.twitter.com/9fQsGv56Br
— Teppei Kurita (@kuritateppei) 2020年6月11日

DRNちゃんと読んだ。ResNet等で失われがちな画像の解像度を保持しつつ受容野数を犠牲にしないネットワーク。ResNetの最終4,5グループの最後のStrideによる間引き部分をDilatedConvに置換。ただDilatedConvは原理的に高周波アーティファクトが発生するので除去ブロックを追加。https://t.co/lq9nf5ZpJx pic.twitter.com/pX1X1ee5Cp
— Teppei Kurita (@kuritateppei) 2020年6月10日

緑内障の診断をCNNで行う。ポイントは、医者から診断結果と共に、画像のどこに注目しているかのAttentionマップの収集をしたところ。そのやり方も工夫していて面白い。Attentionマップの真値があるので、Atteitonを教師ありで監視しながらCNNの冗長性を削減できる。CVPR2019。https://t.co/weRu1wp9Xy pic.twitter.com/T03WFQ2dpm
— Teppei Kurita (@kuritateppei) 2020年6月8日

(以前話題になってたのをちゃんと読んだ)
Photoshopによって画像が修正されているかどうか、またその修正されている領域を推測する。アーキはどちらのタスクもDRN。判定率は驚異の97%越え（別個でプロがレタッチをした画像で）。ちなみに人間の判定率は53.5%。ICCV2019。https://t.co/8Nf41p6r5a pic.twitter.com/uXbTi2jIoa
— Teppei Kurita (@kuritateppei) 2020年6月8日

1枚の画像から任意の場所の室内照明をリアルタイム(20ms以下)で推定する。CGでLight Probe(ミラーボール)を複数の位置に配置してデータセット(2800シーン、9900Probe)を生成。照明マップだけでなく反射率分離などの他のサブタスクと共同で学習することで精度向上。CVPR2019。https://t.co/MeeLvM4Zlk pic.twitter.com/7MD8HP3dGM
— Teppei Kurita (@kuritateppei) 2020年6月7日

照明が変化する画像シーケンスから教師なしで反射率とShadingを推定する。ポイントは反射率は照明の変化に依存しないことを正則化に組み込んだことと、バイラテラルフィルタ的な類似度平滑化項を入れ込んだこと。テスト時には1枚画像で良い。アーキはUNetの2Decoder分岐版。https://t.co/BkVTXZ3A8L pic.twitter.com/B8TKWDzO5R
— Teppei Kurita (@kuritateppei) 2020年6月6日

環境光画像とフラッシュ成分のみ画像のペアになった2700枚ほどのデータセット。専用アプリを開発し、クラウドソーシングで多様なシーンを収集。フラッシュ成分のみは、フラッシュを炊く炊かないで2枚撮影し差分で生成するのだが位置ずれがどうしても発生するので補正をする。https://t.co/hMH2lu6sw0 pic.twitter.com/cqo5qOwpmn
— Teppei Kurita (@kuritateppei) 2020年6月5日

(教えていただいた論文)
CGで生成したデータと実世界のデータのドメインギャップを吸収するために、レンダラーのパラメータを思いっきりバラつかせてシーンを生成する。Domain Adaptationなどによくある追加の学習なしに実世界シーンに一般化させることができる。IROS2017。https://t.co/Nj1nBDxVA4 pic.twitter.com/LKTPbpeFhU
— Teppei Kurita (@kuritateppei) 2020年6月4日

2000万枚のフォトリアルな室内の画像とDepthなど各種情報を提供する超大規模なデータセット。1000人のプロのデザイナーが100万のCADモデルから生成。同時に提供する真値情報も非常に幅広い。ただあまりにも規模が大きいため、個人レベルで全体を有効活用するのは至難の業。https://t.co/vW5HeDaKpE pic.twitter.com/eVnhZqqrFe
— Teppei Kurita (@kuritateppei) 2020年6月3日

実世界のShading情報がアノテーションされた大規模なデータセット。滑らかな一定のShadingと不連続なShadingをクラウドソーシングで人力でラベル付け。コストは1ラベルあたり1~5セント。6677枚の画像に15000のShadingの境界と、24000の一定のShadingを取得。CVPR2017。https://t.co/QG50XCV71M pic.twitter.com/TUNEUJSu7h
— Teppei Kurita (@kuritateppei) 2020年6月1日