這個自然語言處理的模型牛到爆！

2023-04-10 19:43 作者:下班被游戲打- 0人讀過 | 我要投稿

在過去幾個月，OpenAI的ChatGPT可謂是風頭正盛，

不同于過去的機器人助手，它不僅能像真人一樣聊天，回答的內(nèi)容更加隨機，而且可以保證一定的專業(yè)性和參考性，

隨著人們的使用，提供高質(zhì)量信息的獲取方式，人們發(fā)現(xiàn)，它不僅可以編寫出像樣的程序，檢查出代碼的BUG，

還能幫助學生寫出不錯的論文，

甚至能夠通過從醫(yī)資格、律師資格的考試，這些能力讓人驚掉了下巴！

國內(nèi)某廠表示，ChatGPT從回答的邏輯性和完整性上都遠超國內(nèi)大模型，國內(nèi)大模型帶有明顯的拼湊感，

今天我們來看看ChatGPT到底厲害在哪里呢？其背后的技術(shù)原理涉及到什么？

由于ChatGPT的論文還沒有發(fā)布，我們還無法直接了解其背后的方法論，不過在OpenAI的官網(wǎng)，我們還是能找到一些蛛絲馬跡，

比如訓練使用了強化學習，并且加上一些人工反饋，使用的模型和InstructGPT是類似的，而InstructGPT論文去年就發(fā)布了，

縱觀全文，其實其中很重要的一張圖就能說明ChatGPT這個訓練方式，

首先第一步，是OpenAI找了一些人，文章說的是找了40多個外包團隊，他們會寫出各種各樣的問題，有點類似于小孩子看的“十萬個為什么”，然后繼續(xù)讓some people寫出答案，有了問題和答案后會在這上面做一些fine-training，中文叫做監(jiān)督學習下的微調(diào)，調(diào)整的模型叫做SFT；

其次第二步，這里的InstructGPT做了一些什么事情呢？它會根據(jù)具體的問題生成一些隨機答案，比如說A、B、C、D，然后根據(jù)這些答案讓人們來進行排序，排序后的對比數(shù)據(jù)進行RM訓練，也就是獎勵模型的訓練，最終模型會用于人類偏好的輸出；

最后第三步，根據(jù)生成好的標量獎勵，結(jié)合前面生成好的SFT模型，再不斷的更新梯度，SFT+RM->Update，形成迭代；

那么接下來我就不和大家介紹文章中使用的實驗數(shù)據(jù)和損失函數(shù)了，有興趣的同學可以下載論文去學習下