1943年:MP模型的提出。
1960~1980年:視覺機制的發現。
1979年:Neocognitron的提出,卷積神經網絡的萌芽。
1986年:反向傳播算法被用于神經網絡的優化并開始流行,同期動量算法提出被用于加速SGD。
1990年:TDNN模型,卷積神經網絡被用于語音識別。
1992年:Max-pooling被提出,此后成為卷積神經網絡標準組件。
1998年:LeNet5和MNIST數據集被提出和整理。
目標檢測任務關注的是圖片中特定目標物體的位置。一個檢測任務包含兩個子任務,其一是輸出這一目標的類別信息,屬于分類任務。其二是輸出目標的具體位置信息,屬于定位任務。
分類的結果是一個類別標簽,對于單分類任務而言,它就是一個數,對于多分類任務,就是一個向量。定位任務的輸出是一個位置,用矩形框表示,包含矩形框左上角或中間位置的x,y坐標和矩形框的寬度高度。
與計算機視覺領域里大部分的算法一樣,目標檢測也經歷了從傳統的人工設計特征和淺層分類器的思路,到大數據時代使用深度神經網絡進行特征學習的思路這一過程。
本文主要是為了介紹R-CNN、fast R-CNN、faster R-CNN系列。
|