如何找研究題目?
(How to come up with new research ideas?)
Jia-Bin Huang
jbhuang0604@gmail.com
Latest update: April 7th, 2010
If at first, the idea is not absurd, then there is no hope for it-Albert Einstein
三、重新思考問題方向 neXt = ~X
B. 分析問題的本質以提供新想法
這一類作品有時並不提出任何新的演算法來解決問題,而是藉由對該問題做根本的分析,來提供之後的讀者對該問題的瞭解,有時也會有為導正該領域研究方向的作用。
EX .1 Discriminative vs. Generative
就像事情總是一體兩面一樣,Machine Learning裡頭也有看事情的方法兩面,這兩面分別為Generative Model和Discriminative Model [1],假設我們的任務是學習X->Y,Generative Model所model的便是joint probability P(X,Y)Discriminative Model則只在乎conditional probability P(Y|X),這兩種息息相關的modeling可以用Bayes' Rule來連結:P(Y|X)=P(X,Y)/P(X)。
至於Generative和Discriminative的表式方式哪一種比較好,這個爭論存在Machine Learning這個領域好一段時間,也因此相關的討論和分析對於之後的研究人員都相當有代表性和指引的作用[2-4]。
[1] GENERATIVE AND DISCRIMINATIVE CLASSIFIERS: NAIVE BAYES AND LOGISTIC REGRESSION, Machine Learning Textbook Chap One
[2] On Discriminative vs. Generative Classifiers: A comparison of logistic regression and Naive Bayes, 2002
EX 2. In Defense of ...
這類作品主要的貢獻在於點出一些受到批評的簡單方法,有時僅僅只是因為用法不恰當而產生的誤解,也提醒後續研究者不要只一昧追求困難又複雜的方法。
EX 2.1 Nearest neighbor approach
k-nearest neighbor 演算法應該是Machine Learning中最簡單的一種方法,而這類方法應用在Image Classification的問題上時,常常會被視為效果很差。[1] 這篇論文便提出NN-based方法效果不好的兩個根本因素:1. 區域特徵的量化(Quantization of local image descriptors)和 2. 計算影像-影像之間的距離而非影像到類別的距離 (Computation of ‘Image-to-Image’ distance, instead of ‘Image-to-Class’ distance) ,這兩項是過去研究在比較NN-based和其他方法不公平的主要原因,實驗結果也顯示儘管NN-based方法不需要訓練階段(training-free),在影像分類的效果依然和SVM、Boosting等等較複雜的方法不相上下。
EX 2.2 Eight-Point Algorithm
在分析兩個沒有校正(uncalibrated)過的相機所拍攝的場景時,fundamental matrix 是一個非常有用的工具,而傳統的Eight-point algorithm [1] 在估計fundamental matrix時常被批評為對於雜訊太過於sensitive,在這篇論文中作者提出不一樣的看法,他發現只要將8個或是更多的match point座標做簡單的normalization (translation and scaling),便可產生相當好的效果。
[1] A computer algorithm for reconstructing a scene from two projections, Nature 1981
EX 3. Understanding blind deconvolution
Image blind deconvolution是影像處理中非常重要的問題,近年來有很多優秀的作品被提出,但是這些方法為什麼會成功的原因還是未知,於是作者在這篇論文 [1]中由問題的根本來分析,一般影像模糊都會以B= I conv K + n來表示,其中B表示模糊的影像,是我們唯一所能觀察到的值,I是清晰的影像,K是手晃動所照成的blur kernel,n為雜訊,conv則是convolution的符號。Blind deconvolution的問題便是如何從B而求得I和K,在這個情況下已知B的資料量永遠比未知的I和K來得少,形成困難的Inverse problem,而在解決這類Inverse problem時常有兩種方法,第一種為加上新的觀察值使得整個問題成為well-posed,第二種則是加上適當的Regularization (從Bayesian Inference的角度來看叫做Prior),作者認為若我們要同時解決I和K的maximum a posteriori (MAP)解時,因為未知永遠比已知少,Prior的選擇便太過於重要。因此作者提倡解決blind deconvolution應該先估計Kernel的MAP解,之後再用估計來的K交給non-blind deconvolution的方法來求得最後的清晰影像。選擇只估計Kernel的原因在於Blur kernel的大小相較於影像來說小非常多,因此當影像的解析度足夠高時,儘管只使用非常簡單的影像Prior(e.g., Gaussian),Kernel仍然可以被正確地估計出來(Estimation theory告訴我們觀察值越多,估計值則越接近正確的數值)。
EX 4. Understanding camera trade-offs
自從有照相機以來,各式各樣的相機不斷地推陳出新,從Single lens camera、Stereo、Coded Aperture、Plenoptic cameras、Wavefrond coding,這麼多不同種類的相機,究竟哪一種才是最正確的研究方向?要了解這個問題,首先必須先了解是甚麼因素使得一個相機比另一個相機效能來得高。
傳統上對於相機效能的評估是來自於光學層面,也就是在二維影像上的銳利程度(e.g., Modulation Transfer Function),而作者在此篇論文則提出一種新的評估方法:相機是如何能記錄和重建我們眼中的世界- 四維的光場(Light Field)。有了新的測試目標,便可以藉由分析而了解各類相機的優劣,進而設計更好的下一代相機。
[1] Understanding camera trade-offs through a Bayesian analysis of light field projections, ECCV 2008
EX 5. What is a good image segment?
Image segmentation長久以來是電腦視覺和影像處理中很重要的問題,但是甚麼是一個好的影像區塊? 材質相近的?顏色相近?還是亮度相近? 抑或是對稱非對稱? 作者在這篇文章中提出一種新的看法:一個好的影像區塊很容易被自己區塊裡頭小部分來表示,而很難從其他影像區塊的部分來合成。這樣的概念便驅使他們提出來一種新的影像切割的方法:Segmentation by Composition。
EX 6.Lambertian reflectance and linear subspaces
九零年代初期Linear subspace的方法第一次在人臉辨識得到不錯的效果 [1],這也促使研究人員去思考究竟光線在一個Lambertian的物體上可以有多少變化 [2],Illumination cone模型被提出來model人臉在不同的光線照射底下可能產生的外觀[3-4],然而這些模型仍然是建立在實驗的基礎上,缺乏理論上的證明,於是在之後的研究 [5]提出了完整的證明,證明所有Lambertian物體在任意的光源照射下所能產生的外觀存在於一個九維的Linear subspace下(藉由spherical harmonics 表示lighting和以convolution表示Lambertian物體所產生的影像推導而來),這個結論便清楚地解釋前人使用linear subspace來處理光線問題的理由和正當性。
[3] From Few to Many: Illumination Cone Models for Face Recognition under Variable lighting and Pose, PAMI 2001
No comments :
Post a Comment