就在幾小時前,斯坦福大學NLP組發推稱,微軟在昨天提交了一次SQuAD的測試成績,重新奪回了該數據集測試榜單第一的位置。

在今年7月份,科大訊飛與哈工大聯合實驗室(HFL)提交的係統模型奪得第一,這也是中國本土研究機構首次取得該比賽的冠軍。當時科大訊飛北京研究院院長王士進博士告訴,SQuAD的成績刷新得很快,基本兩周或者一個月就會被刷新一次(參見文章:《專訪科大訊飛:成為世界第一,隻是閱讀理解係統萬裏長征的第一步》)。
SQuAD(Stanford Question Answering Dataset)是行業內公認的機器閱讀理解領域的頂級水平測試,被譽為機器閱讀理解領域的ImageNet。SQuAD與ImageNet具有諸多共同點:都是各自領域的頂尖測試集,負責人都是斯坦福的新銳青年學者,都得到了工業界和學術界的青睞。
在ImageNet負責人李飛飛的《ImageNet:Where we were,Where we are going》的演講中,李飛飛曾提到這樣一個細節:ImageNet團隊試圖在 2014 年結束競賽的一個子項目,但卻遭到了來自Google、Facebook 等公司的阻力,因為“產業界非常喜歡這個基準”,同樣,SQuAD參賽者包括來自微軟部及微軟亞洲研究院、Salesforce、科大訊飛、穀歌以及卡內基·梅隆大學、複旦大學等知名企業研究機構和高校,而在目前排行榜上,前三名均來自企業界。

SQuAD數據集剛剛進入第二個年頭,目前精確匹配(Exact Match)和模糊匹配(F1-Score)的結果在80%左右,從正確率看大致相當於ImageNet在2012年到2013年的水平,但從難度看,SQuAD要略高於ImageNet:人類在ImageNet測試的錯誤率在4%左右,而SQuAD人類的錯誤率大約在10%左右。此外CNN 對模式分類非常適合,其最初就是為識別二維形狀而特殊設計的,而在閱讀理解領域,雖然大家都在使用深度學習,但始終缺乏像2012年在ImageNet上橫空出世的AlexNet這樣的突破。
科大訊飛北京研究院院長王士進博士告訴,目前成績較好的隊伍基本都采用的是模型融合(ensemble)的方式,即對於問題提出不同的模型,然後對這些模型進行一個融合,而在融合的過程中,對模型的選型,即如何選擇更優秀、魯棒性更好的模型至關重要。
但也注意到,使用好的單一模型取得的成績與模型融合相差不大,微軟AI研究院在這個月提交的一個單模型測試結果就得到了第五名的成績。由於模型融合會增大對應的計算量,最終工業界是否會對正確率和消耗的資源進行平衡,開發一款“經濟實用型”的產品還未為可知。
但工業界會永遠為每一個零點零幾的提升而努力。“我們技術上最近有一些升級,預計近期會更新一次結果。”王士進告訴。
相關資訊
最新熱門應用
lxex藍星交易所app
其它軟件223.89MB
下載
biki交易所app
其它軟件24.76 MB
下載
idax交易所最新版
其它軟件223.89MB
下載
中幣zb交易所app官網最新蘋果版
其它軟件292.97MB
下載
環球交易所app安卓
其它軟件10.9MB
下載
歐意交易所最新app蘋果
其它軟件397.1MB
下載
熱幣全球交易所app蘋果版
其它軟件38.33MB
下載
幣多多交易所官網版
其它軟件223.89MB
下載
biki交易平台app
其它軟件24.76 MB
下載
福音交易所手機版
其它軟件287.27 MB
下載