成大數據所許志仲副教授指導研究助理蔡其翰(kaggle name : fate)與研究生馬欣蒂(kaggle name : cindy ma)組成的團隊,日前參加全球最大數據科學競賽平台Kaggle舉辦的年度盛事,在眾多選手中脫穎而出,奪得該競賽的最高榮譽金牌。這項極具競爭力的國際賽事,每年吸引來自全球數以萬計的頂尖數據科學家參賽,奪金之險峻可想而知。本次獲勝的競賽是在kaggle上的UBC 舉辦的Ovarian Cancer Subtype Classification and Outlier Detection (UBC-OCEAN)競賽。台灣每年平均能獲得金牌的人數皆於3-5人之間,其翰與欣蒂能獲此殊榮實屬不易。
UBC-OCEAN這個競賽是由UBC主辦的,主要是對卵巢癌不同亞型及異常型做分類。由主辦方的說明影片得知,卵巢癌主要是透過病理組織切片來判斷的,但卵巢癌是一個包括5種主要亞型的癌症,不同亞型有不同的嚴重度與治療方法,目前領域專家對不同亞型判斷的kappa coefficient有0.89,然而普通的病理學家kappa coefficient大概只有0.54-0.67(判斷一致性低),所以主辦方出於這個原因辦了這個競賽。
這個競賽的困難點有幾個:
1.Data來自各大洲的二十幾個醫學中心(training data只有13個醫學中心),這些來自各個醫學中心的病理切片染色方法不盡相同
2.Data包括Whole Slide Imaging(WSI)以及Tissue Microarray(TMA),training data有5百多個WSI以及25個TMA案例,但我們主要預測的TMA佔大多數
3.要預測罕見的亞型Outlier,但training data完全沒有Outlier案例
本團隊研究方法主要是把WSI切成tiles (原始 WSI尺寸很大,此為常見手法),然後用模型預測tiles得到預測值與真實亞型的不一致性當成偽標籤,再把偽標籤當成輔助損失 (aux loss),與真實亞型一起重新訓練;最後用偽標籤當成是否微異常值的判斷標準,如果不是異常值再判斷是屬於何種亞型。
我們是金牌區少數不用External Data (競賽官方之外data)的團隊,也是少數不用Multiple instance learning方法的團隊;我想我們獲勝的關鍵在於預測TMA的Outlier的案例的能力比其他隊伍更好,才能在眾多頂尖隊伍的夾殺下,獲得第9名(金牌)的成績。
Kaggle是一個數據科學競賽平台,舉辦各式各樣的競賽,吸引全球數據科學家和頂尖工程師參與,甚至包括像任職Nvidia、META、Microsoft、Google這樣的頂尖AI公司的工程師,共同挑戰各種數據科學問題。要取得佳績,選手必須在限定的時間內,對給定的大量資料進行處理、特徵工程,並設計出創新且高效的AI模型。每場競賽都會有新難題需要解決。獲獎選手展現了對各種演算法的靈活運用,以及針對實際複雜問題建模與優化的能力。
其翰表示,能夠代表台灣拿下金牌,實現他從事數據科學研究以來的目標。這不僅是團隊的最大榮耀,也展現台灣已經有能力與世界一流高手一決高下的實力。
競賽網址:https://www.kaggle.com/competitions/UBC-OCEAN
排行榜 :https://www.kaggle.com/competitions/UBC-OCEAN/leaderboard