曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
AI論文,到底該不該強(qiáng)制開(kāi)源代碼?
NeurIPS 2020官方近日發(fā)布了一份開(kāi)源指南。從2019開(kāi)始,NeurIPS就“強(qiáng)烈建議”提交論文代碼,不過(guò)仍非強(qiáng)制。
但無(wú)論如何,官方傳達(dá)出了一種信號(hào):AI學(xué)術(shù)頂會(huì)開(kāi)源代碼已是行業(yè)趨勢(shì)。
NeurIPS此舉也引發(fā)了一場(chǎng)“年經(jīng)”式的討論:如果將來(lái)學(xué)術(shù)會(huì)議要求必須開(kāi)源,投稿人應(yīng)該拒絕嗎?
而讓人始料未及的是,不少網(wǎng)友認(rèn)為:不開(kāi)源,我有理。
反對(duì)一:代碼并沒(méi)有那么重要
首先,開(kāi)源代碼的目的是什么?是為了讓其他研究者可以復(fù)現(xiàn)結(jié)果。
如果一篇論文包含足夠多的細(xì)節(jié),那么別人就可以根據(jù)其中的公式自己寫(xiě)出代碼,對(duì)于這類(lèi)論文,可以不公開(kāi)代碼。不過(guò)前提必須是提供足夠多的細(xì)節(jié)。
比如谷歌的AlphaGo就沒(méi)有開(kāi)源代碼,但是沒(méi)有人懷疑它的正確性,事實(shí)上也有很多人根據(jù)谷歌論文復(fù)現(xiàn)了AlphaGo。
而且作者本人的代碼可能會(huì)出現(xiàn)錯(cuò)誤,不開(kāi)源的一個(gè)好處就是讓其他研究者獨(dú)立復(fù)現(xiàn)。
萬(wàn)一作者在代碼里挖了個(gè)不明顯的“坑”,其他人也可以規(guī)避,防止被帶到溝里。
另外,也不要高估代碼的價(jià)值,經(jīng)典論文可以幾十年長(zhǎng)盛不衰,但是代碼很可能十年后就難以運(yùn)行了。
當(dāng)然,還有一種觀點(diǎn)就是,對(duì)于AI來(lái)說(shuō),數(shù)據(jù)集更重要。沒(méi)有數(shù)據(jù)的代碼是沒(méi)有價(jià)值的,而很多數(shù)據(jù)集沒(méi)法開(kāi)放,這意味著你即使拿到代碼,也無(wú)法復(fù)現(xiàn)SOTA結(jié)果。
反對(duì)二:要為作者考慮
不開(kāi)源同時(shí)也是為了照顧作者的種種特殊情況。
比如一些研究者是從事純理論的研究。有一個(gè)網(wǎng)友就說(shuō),他甚至都不知道怎么構(gòu)建Docker容器,雖然發(fā)表了多篇論文都在GitHub上開(kāi)源了代碼,但它從來(lái)不維護(hù)。
所以,論文是否開(kāi)源應(yīng)該根據(jù)代碼對(duì)于文章的重要性而定,不該一刀切。
還有一些商業(yè)公司的研究者,他們?cè)趯?xiě)論文的時(shí)候用到了公司內(nèi)部專(zhuān)有軟件庫(kù),如果強(qiáng)制開(kāi)源,他們必須從頭再寫(xiě)一遍代碼,費(fèi)時(shí)費(fèi)力,對(duì)這些人也是不公平的。
還有一些作者,本身并不是不想開(kāi)源,而是希望能夠?qū)⒊晒Wo(hù)一段時(shí)間,在論文發(fā)布幾個(gè)月后再開(kāi)源代碼,這對(duì)于從事醫(yī)療、法律領(lǐng)域的學(xué)者很重要。
綜上所述,反方網(wǎng)友認(rèn)為,強(qiáng)制開(kāi)源過(guò)于極端,應(yīng)該對(duì)論文開(kāi)源持鼓勵(lì)態(tài)度,而不是強(qiáng)制。
支持開(kāi)源:不開(kāi)源怎能讓人信服
首先是一名從事石油行業(yè)的網(wǎng)友說(shuō),他們行業(yè)的數(shù)據(jù)都是商業(yè)機(jī)密,所以不會(huì)發(fā)布任何數(shù)據(jù)和代碼,甚至?xí)谖恼轮衼G掉一些公式來(lái)隱藏成果,還聲稱98%的正確率。結(jié)果怎能讓人信服。
他認(rèn)為不公開(kāi)數(shù)據(jù)和代碼,就像把一篇論文中所有的關(guān)鍵要素都刪了,這樣的研究即使發(fā)表出來(lái)也毫無(wú)價(jià)值。
還有一些人認(rèn)為,強(qiáng)制開(kāi)源會(huì)改變其他行業(yè)對(duì)機(jī)器學(xué)習(xí)的偏見(jiàn)。
很多其他學(xué)科的人都把機(jī)器學(xué)習(xí)看成偽科學(xué),這是為什么?因?yàn)锳I領(lǐng)域的論文發(fā)布過(guò)程非常不成熟。
科學(xué)方法的關(guān)鍵是一致性和可重復(fù)性。追逐單一的指標(biāo),每個(gè)人都對(duì)SOTA著迷,這是一個(gè)巨大的問(wèn)題。
而開(kāi)源是解決此問(wèn)題的一種方法。
去年,AI知名女學(xué)者Anima Anandkumar曾在個(gè)人博客里公開(kāi)喊話,強(qiáng)烈反對(duì)發(fā)論文卻不給代碼的行為,呼吁學(xué)術(shù)會(huì)議強(qiáng)制要求投稿同時(shí)必須公開(kāi)代碼。
她認(rèn)為不開(kāi)源代碼不利于評(píng)審論文,不利于對(duì)論文造假的追責(zé),更不利于行業(yè)開(kāi)放競(jìng)爭(zhēng)。
你覺(jué)得公開(kāi)的學(xué)術(shù)論文也應(yīng)該公開(kāi)代碼么?
參考鏈接:
https://www.reddit.com/r/MachineLearning/comments/fzss9t/d_if_a_paper_or_project_doesnt_publicly_release/
https://www.reddit.com/r/MachineLearning/comments/fzp8bu/d_official_neurips_2020_guidelines_for_making/
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。