无码av一区二区三区无码,在线观看老湿视频福利,日韩经典三级片,成 人色 网 站 欧美大片在线观看

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【AI雜談】怎么刷榜最快呢?在測試集上訓練吧?。甓茸罴驯LM論文)

2023-11-09 19:06 作者:花師小哲-中二  | 我要投稿

之前在動態(tài)提了一下,我個人決定將以下論文列入年度最佳LLM相關(guān)論文:

于是這里來簡單雜談一下這篇論文。

其實這一篇論文基本是貼臉嘲諷了,主要嘲諷對象是phi-1.5,畢竟本文的模型名字是“phi-CTNL”也就是phi-虛構(gòu)啦。

那就來介紹下phi:

早些時候,微軟發(fā)布了如上的論文,這就是phi-1,這篇論文是說,如果我們有教科書級別的數(shù)據(jù)的話就能讓小模型獲得很好的能力。這篇文章問題倒不大,畢竟相關(guān)研究也是很多了。

之后,微軟的后續(xù)研究出爐了,也就是phi-1.5:

phi-1.5基本上是延續(xù)了phi的研究,只不過研究領(lǐng)域有所不同(代碼任務(wù)到自然語言推理任務(wù))。然而,這篇論文被爆出沒做好數(shù)據(jù)泄露的處理,也就是說,人們懷疑在phi-1.5的訓練集中存在一些數(shù)據(jù)集的測試集的內(nèi)容。表現(xiàn)有很多,經(jīng)典的就是數(shù)學題換一個數(shù)字phi-1.5就做不對了。


當然,我們不能說phi-1.5就是有意這樣做的,很可能是因為自己沒做數(shù)據(jù)檢查而已。


當然,情況不只是這一個模型有的,實際上,不少刷榜的模型或多或少都面臨著數(shù)據(jù)泄露、用測試集來訓練的情況,基本上也算是業(yè)界的公開的秘密了。

即使是剛?cè)腴T機器學習的朋友也應(yīng)該清楚,我們一般都是在訓練集上訓練模型,然后驗證集是自己測自己的模型性能的,而測試集模擬的是真實的、沒見過的數(shù)據(jù),拿測試集做訓練可是大忌。(不然你學了1+1=2,我再問你1+1等于幾,有什么意義呢)

但是我們看到,大模型時代似乎不是這樣的,因為大模型需要大量的數(shù)據(jù)訓練,但是不需要數(shù)據(jù)標注,所以基本都是互聯(lián)網(wǎng)大量爬取數(shù)據(jù),難免就有測試集,甚至整個數(shù)據(jù)集被爬下來拿去訓練了,并且因為訓練數(shù)據(jù)量過于龐大,幾乎很難一個個排查,所以基本上也就這樣了。所以現(xiàn)在很多大模型的測試數(shù)據(jù)都是想盡辦法找出現(xiàn)在大模型訓練集中概率更小的數(shù)據(jù),例如什么小地方的考試試題、最近的wiki內(nèi)容等。

所以還是提醒大家,不要只盯著榜單分數(shù)看,里面水分還是很大的。

【AI雜談】怎么刷榜最快呢?在測試集上訓練吧!(年度最佳爆笑LLM論文)的評論 (共 條)

分享到微博請遵守國家法律
北票市| 东平县| 白城市| 镇平县| 宁明县| 崇左市| 双鸭山市| 吐鲁番市| 礼泉县| 沁阳市| 固安县| 宁陵县| 滕州市| 商洛市| 东港市| 丰城市| 桂林市| 定兴县| 青田县| 宝丰县| 永福县| 莱州市| 乌海市| 霍林郭勒市| 昂仁县| 台中县| 台南市| 泗阳县| 正镶白旗| 商水县| 新巴尔虎右旗| 金川县| 济阳县| 福州市| 枣强县| 萨嘎县| 黑河市| 德令哈市| 左贡县| 淮北市| 通江县|