本校數據所許志仲副教授帶領數據所研究生曾文海、吳明軒、黃韋晧、李家銘四位同學,參加 ACM Multimedia Asia (MMAsia) 中舉辦的自駕車魚眼影像物件偵測上 (Embedded AI Object Detection Model Design Contest on Fish-eye Around-view Cameras) 獲得世界第二的佳績。MMAsia是電腦視覺的頂尖會議,每年吸引許多學術圈與知名業界研究人員參與,也因此上面的各種學術競賽總是特別競爭,這些競賽不見得參加人非常多,但都是知名學術與研究團隊,因此要從中獲得好成績相對不容易。我們本次由於時間有限,因此在模型選擇與資料處理上面格外小心,但也因為數據所的訓練就是理解資料,因此在正確的分析結論下,加上同學日夜搏鬥,終於獲得國際第二的佳績,實屬不易。
由於自駕車受到極大的重視,而且自駕車有許多需要注意的問題,不論車道辨別、物件偵測、車禍預測、可行駛路徑,都是自駕車必須要考慮的問題。其中自駕車應用最重要的一環就是視覺感知,也就是透過攝影機來偵測或理解道路的資訊,以輔助決策。本次MMAsia舉辦的競賽是道路上即時物件偵測,由於偵測目標分為行人、車輛、腳踏車、摩托車,很多場景其他三類對比車輛來說相對很小,傳統在物件偵測中,單一畫面直接偵測極小物件通常會因為特徵圖過小而產生特徵消失問題 (Feature vanishing),導致最後下游偵測器無法偵測到。我們經過分析之後,發現Parallel Residual Bi-Fusion Feature Pyramid Network (PRB-FPN) 可有效的避免特徵消失的問題,提高物件偵測方法對於小物件的偵測能力,同時能保有Real time (即時) 的效果。然而對於此次競賽,所提供測試和訓練的資料是不相同的,測試的資料是魚眼圖像,但是我們的訓練資料是一般圖像,所以我們利用Knowledge Distillation (知識蒸餾) 以及Pseudo-label (偽標籤),來幫助模型在不同的資料形態下還能保有原本的預測能力。基於巨人肩膀上,我們引入了PRB到Yolov7中,建構了一個新的模型,有效的將成績進一步往上提升,最終獲得第二名的好成績。值得一提的是,大多數遇到這種資料不相同時會使用圖片變換,先將魚眼圖片轉成一般圖片再進行預測,但這樣對於實際應用上並不是理想策略,除了效果僅有些許的改善,更重要這種方法並不通用,需要針對不同的魚眼相機做出不同的轉換,因此我們不採用此策略,也因此,任務變得更加艱難,要從中想出新的應對方法,相對更不容易。此次能獲得佳績,四位同學的努力功不可沒。
相關競賽連結:https://aidea-web.tw/topic/2be7c481-0e16-43b8-8d5d-fb181172144b?focus=intro