如何找研究題目?
(How to come up with new research ideas?)
Jia-Bin Huang
jbhuang0604@gmail.com
Latest update: April 1st, 2010
The only difference between a rut and a grave is their dimensions. - Ellen Glasgow
一、尋找不一樣的維度 neXt = X^d
這一類找問題的方法在於推廣或是更換原先問題X的維度,這裡所說的維度大致上可以分為兩大類,一種是實際上的維度(e.g., 二維/三維空間、一維時間),另一種則是較抽象的維度。這一類的問題在純數的領域最常看見,舉個懸宕一百年的拓樸學難題當作例子(前兩個禮拜才由CMI正式宣告這問題被Perelman 在 2002 和 2003 年投的三篇論文解決) 龐卡萊猜想:"在三度空間裏,任何封閉的(closed)、單一連結的(simply onnected) 流形(manifold)一定和三度空間的球同胚(homeomorphic)" ,二維和四維以上的推廣都已經被證明出來,奇怪的是唯獨剩下三維的問題,可見問題維度的變化會對於問題本身產生巨大的改變。
A. 實際的維度
這類想法基本上是考慮原先問題X所在的維度空間,是否可以增加或替換維度,進而產生新問題(A.1)或是新解法(A.2)
A.1 增加/替換維度而產生新問題
EX 1. Content-Aware Image Resizing
先從一個最近很熱門的題目開始: Content-aware Image Retargeting,我們將影像做縮放時,若長寬縮放的比例不同,影像內容很容易就會產生扭曲,這個題目主要是在處理在影像縮放時如何能保持影像的內容,Seam Carving [1] 是最近提出來有效的一個方法。就這個例子而言,光從維度這個層面來思考,可以有甚麼樣的新題目呢? 最直覺的想法便是,既然可以處理二維的image,那麼三維的video怎麼處理?將問題的維度從2D->3D便產生了一個新的問題"Video Resizing",而這個問題也並不是那麼容易處理的,原先開發Seam Carving的這個團隊就沿著這個研究方向發表了Video Resizing [2]和其他相關的論文 [3]。
Image到Video已經被完成,還有哪些可能的題目? 也許我們可以考慮變換維度這條方向,若影像並不是在我們熟悉的X, Y座標上表示怎麼辦呢?比如說CD封面圖案是圓形,怎麼處理Image Retargeting?注意當我們轉換維度時(這裡指的是座標系統 Cartesian->Cylindrical or Spherical),新的題目就出現了。
Improved Seam Carving for Video Retargeting
[1] Seam Carving for Content-Aware Image Resizing, SIGGRAPH 2007
[1] Seam Carving for Content-Aware Image Resizing, SIGGRAPH 2007
[2] Improved Seam Carving for Video Retargeting, SIGGRAPH 2008
[3] Seam Carving for Content-Aware Image and Video Retargeting, Project Page
EX 2. Video Stitching
大部分的人都對於環景照片(Panorama)不陌生,沒有特殊儀器的幫助下,只要你用相機照下同一場景不同角度的照片,軟體現在已經可以幫你做出環景圖。和第一個範例一樣,Image沒問題了,Video呢? 這麼一想馬上就可以找到了一個不錯的題目 Video Mosaicing [1] 和之後一連串的延伸 [2]。
[1] Dynamosaics: Video Mosaics with Non-Chronological Time, CVPR 2005
[2] Video Mosaicing for Non-Chronological Time Editing, Google Tech Talk 2007
EX 3. Multi-Image Fusion
上面兩個例子主要是對於問題的本身的維度做延伸,但是我們也可以只對於問題的輸入訊號做變化,比如說一般我們照相時往往只在某一個時間點,若我們將時間考量進來,但輸出仍保持同樣的維度(二維影像),就產生了很有趣的Space-time Photography [1] 或是Photomontage [2]。此時馬上再回頭想想EX 2中的題目,如果我們要產生環景圖的輸入不是幾張影像而是一段Video就是另外一個問題了 [3],這些多張影像的融合便可以產生很多實用且有趣的問題 [4-5]。
[1] Shape-Time Photography, CVPR 2003
EX 4. Computation Photography
在一個新興領域計算攝影學(Computational photography)中,攝影不再只是被動的光學過程,而是將編碼解碼等等計算學的觀念帶進攝影的過程。沿著這個中心思想,考量在攝影過程中的種種維度即產生了不同問題,如 Coding in Time (Exposure) [1-2]、Coding in Space [3-4]、Coded Illumination [5-6]、Coded Wavelength [7] 和Coded Sensing [8]。這些作品幾乎都有附上Demo video,有興趣的可以到他們的Project網頁看一看,不需要特別的知識背景也很容易懂,可以體會一下變化維度對於問題的改變和需要處理的問題。
[1] Coded Exposure Photography: Motion Deblurring using Fluttered Shutter, SIGGRAPH 2006
[2] Invertible Motion Blur in Video, SIGGRAPH 2009
[3] Coded Aperture Refocusing, SIGGRAPH 2007
[4] Image and Depth from a Conventional Camera with a Coded Aperture, SIGGRAPH 2007
[5] Non-photorealistic Camera: Depth Edge Detection and Stylized Rendering using Multi-Flash Imaging, SIGGRAPH 2004
[6] Flash Photography Enhancement via Intrinsic Relighting, SIGGRAPH 2006
[7] Agile Spectrum Imaging: Programmable Wavelength Modulation for Cameras and Projectors, Eurographics 2009
[8] Why I Want A Gradient Camera, CVPR 2005
EX 5. Multi-modal Information Fusion
以上的範例都仍在類似的資料上做處理,像是Image/Video/Light Field等等,但是除了視覺資料我們手邊還有非常多資料如文字和聲音 ,這些資料也和視覺一樣提供了相當多訊息,將問題的維度延伸到不同的資料上使得問題更豐富。舉文字標題和影像的關聯做為例子,人臉偵測便可以搭配影像標題來自動辨認新聞中的人臉 [1]。另一個例子則是結合字幕(文字)和手語影像來學習手語動作辨認 [2]。聲音和影像(Audio-Visual)常常扮演著互補的角色,互相可以幫助解決先天的一些Ambiguity [3],應用層面很廣,比如說情緒的辨識可以同時從人的表情和聲音得到訊息,在多媒體的領域中,了解Video中不尋常事件也常可以同時使用影像和聲音的資訊同時辨認。
[1] Names and Faces in the News, CVPR 2004
A.2 增加/替換維度而產生新解法
這個類別主要是在處理一個困難的問題(e.g., Inverse Problem),如果拓展/更換原先問題X的維度可以使得問題較容易解決,那麼也是一個值得探討的研究方向。(注意A-1和A-2的分類是相當模糊的,你也可以自行將許多例子按照你喜歡的方式分類。)
EX 1. Flash/non-Flash Photography
攝影的時候(尤其是在室內光線不足時)常常會面對一種兩難的情況,開閃光燈時照片比較沒有雜訊,但是會產生討人厭的光線反射和不正確的顏色,另一方面,不開閃光燈雖可以得到正確顏色,但是雜訊會相當嚴重。在處理這個問題的時候如果思考增加輸入的維度,也就是同時處理兩種影像時,便使得原先問題(拍一張清楚又沒雜訊的照片)變得簡單許多 [1]。
[1] Digital Photography with Flash and No-Flash Image Pairs, SIGGRAPH 2004
EX 2. Image Deblurring
影像模糊一向是攝影時很嚴重而且難以修正的影像缺陷,常常發生在室內光線不足的情況,當相機的光圈不夠大時,便需要較長時間的曝光時間以取得足夠的進光量,沒有三角架在身邊時,手持相機無可避免地會手振而產生模糊影像。另一方面,如果我們將快門提升到不會產生模糊的速度,相機沒有足夠的曝光,所產生的影像會有相當多的雜訊。一個很聰明的方法便是把這兩種缺陷的影像一起處理,有雜訊的影像可以提供模糊影像很清楚的邊界資訊,來幫助原先這個去模糊化的難題 [1-2]。這個例子便是增加輸入的維度(Noisy image)來幫助解決原先的難題(Image deblurring)。
[1] Image Deblurring with Blurred/Noisy Image Pairs, SIGGRAPH 2007
[2] Image Deblurring with Blurred/Noisy Image Pairs, Demo Video
EX 3. Dark Flash Photography
最近有人提出一種新的閃光相機(Dark Flash)也屬於這類方法。我們都曉得使用傳統相機閃光燈常會產生很不自然的顏色和慘白的人臉,既然可見光會產生這個問題,那麼不可見光(e.g. 紅外線和紫外線)呢?(在同個維度, i.e. spectrum, 尋找不同區段!),但是不可見光打的閃光強度太低,所以必須要另外拍一張有雜訊的影像,有這兩張影像(一張有雜訊但是有正確色彩,另一張則是Dark Flash所產生的影像,較無雜訊但是沒有正確色彩)便可以計算出一張清楚且又較無雜訊的影像 [1]。
[1] Dark Flash Photography, SIGGRAPH 2009
EX 4. Brute-Force Vision
上面三個例子都僅將問題輸入的維度提升兩倍(i.e. 多一張影像),如果我們非常多影像時,可以做些甚麼事情呢?首先先介紹Scene Completion這個例子,這個問題是,如果挖掉影像中的一大部分,要怎麼把空洞的部分填進去而不被察覺呢? 比如說在旅遊景點照相總會變成和一堆路人大合照,回去之後怎麼把這些不相干的路人刪掉而不改變整張照片的風景? 這個領域在過去往往只假設只有一張原影像,填補空洞的方法就變得相當困難,若沒有人為的介入常沒辦法得到正確的結果。然而現在網路相簿呈現爆炸性的成長,我們往往可以找到很多類似的影像,而這些結構類似的影像便可以很有效地幫助原先極度困難的Scene Completion問題 [1]。演算法非常簡單,基本上就是建立一個很大的影像資料庫,然後比對資料庫裡的影像和要處理的影像,找出結構最相近的圖,接著用剪下貼上的做法(實際上做會需要些其他技巧,但不是重點)把空洞填上去。
這個範例便是提升輸入資料的維度(從一張影像到幾百萬張影像),大幅簡化了原先問題的難度。同樣的想法也可在各式各樣的問題上應用,如物件辨識 [2]、建立室內模型 [3]、大規模三維建模 [4-5]、整合網路相片 [6] 和修正影像 [7]。
[2] 80 Million Tiny Images: A Large Dataset for Non-Parametric Object and Scene Recognition, PAMI 2008
[3] Reconstructing Building Interiors from Images, ICCV 2009
[4] Building Rome in a Day, ICCV 2009
[5] Towards Internet-scale Multi-view Stereo, CVPR 2010
No comments :
Post a Comment