OpenAI發(fā)布ChatGPT!手把手debug代碼!-創(chuàng)新互聯(lián)

卷友們好,我是rumor。

網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)建站!專注于網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開(kāi)發(fā)、成都微信小程序、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了濟(jì)寧免費(fèi)建站歡迎大家使用!

已經(jīng)好久沒(méi)看OpenAI的官網(wǎng)[1]了,但今天冥冥之中感覺(jué)受到了什么召喚,心想GPT4什么時(shí)候發(fā)布,莫名地就打開(kāi)了,果然有料:

d955d740b2a035bebcd8e74725b90ce2.jpeg

試用:https://chat.openai.com/

它把魔抓又伸向?qū)υ捔耍?lái)一起看看官方放出的case吧:

幫人Debug代碼,并進(jìn)行多輪詢問(wèn):

d38ad5a6b7358d950df15e4690fddd52.jpeg

識(shí)別出危險(xiǎn)問(wèn)題并拒絕回答,但用戶說(shuō)明意圖后給出了更好的回復(fù):

015d088c676da3df29e7c5176886c8bf.jpeg

執(zhí)行指令,甚至改很多遍也不生氣:

f738e6fc0d3dad0d203ccc1954c21af1.jpeg

還有個(gè)指代消解的case太長(zhǎng)就不放了,OpenAI在最后還拿InstructGPT做了對(duì)比,可以看到InstructGPT只是冰冷地執(zhí)行指令,而ChatGPT則更有溫度一些。

從上面的例子可以看到,對(duì)比今年其他廠的對(duì)話工作,ChatGPT有幾項(xiàng)明顯的優(yōu)點(diǎn):

  1. 基于GPT3.5,有著更多樣的訓(xùn)練數(shù)據(jù),別的我不知道,反正debug代碼有點(diǎn)東西

  2. 強(qiáng)大的多輪上下文理解能力,從指代消解、寫(xiě)信的例子看出來(lái)的,如果對(duì)歷史消息沒(méi)有很好的記憶理解,可能就新起一個(gè)話題了

  3. 更像人。目前大部分模型都是直接回答,而ChatGPT顯然跟用戶有一個(gè)「Chat」的過(guò)程,比如debug代碼的時(shí)候,上來(lái)先回復(fù)「很難說(shuō),再多給點(diǎn)信息」

更像人的對(duì)話策略,是很難做出來(lái)的,因?yàn)槲覀儾恢涝趺床潘恪赶駛€(gè)人」。谷歌為了解決這個(gè)問(wèn)題,曾經(jīng)拆分出了一堆指標(biāo)。

而這次OpenAI則是采用了和DeepMind Sparrow[2]一樣的策略,既然不知道用哪些維度衡量對(duì)話的好壞,那直接基于用戶的反饋去訓(xùn)練,讓模型自己學(xué)就好了。

基于反饋的訓(xùn)練,那不就是宇宙的終點(diǎn)強(qiáng)化學(xué)習(xí)嗎。

d2468da75af34b5481ce56fb8f60615e.jpeg

ChatGPT的制作分為如下幾步:

  1. 用監(jiān)督數(shù)據(jù)基于GPT3.5訓(xùn)練一個(gè)對(duì)話模型,訓(xùn)練數(shù)據(jù)是標(biāo)注人員手把手寫(xiě)出來(lái)的

  2. 人工標(biāo)注模型生成的多個(gè)結(jié)果,訓(xùn)練一個(gè)給對(duì)話回復(fù)打分的模型

  3. 用打分模型作為反饋,基于PPO算法訓(xùn)練一個(gè)對(duì)話模型

上面的步驟其實(shí)跟DeepMind的工作很像,也很直覺(jué),但DeepMind額外針對(duì)黃賭毒對(duì)話做了些訓(xùn)練,目前還不知道ChatGPT是怎么實(shí)現(xiàn)的,不過(guò)以他們LM一把梭的性格,有可能全是數(shù)據(jù)堆出來(lái)的。。。

當(dāng)然,ChatGPT還是有一些局限的,比如:

  1. 說(shuō)一些不明所以毫無(wú)疑義的話

  2. 重復(fù)問(wèn)相同的問(wèn)題,或者輕微調(diào)整后答案變化很大

  3. 很啰嗦,從case里也看出來(lái)了,這主要是訓(xùn)練數(shù)據(jù)帶來(lái)的偏差,標(biāo)注同學(xué)會(huì)更傾向長(zhǎng)句子

  4. 也不是所有模糊情況都會(huì)反問(wèn)

  5. 有些黃賭毒問(wèn)題還是沒(méi)法識(shí)別,作者們?cè)诖蛩阌肁PI解決

目前,為了讓大家給出更多的反饋,OpenAI順勢(shì)在11.30-12.30之間舉行了一個(gè)反饋比賽[3],感興趣的同學(xué)可以積極參與。

最后,讓我們對(duì)應(yīng)該過(guò)陣子就會(huì)發(fā)布的GPT4拭目以待吧!

參考資料

[1]

OpenAI Blog:https://openai.com/blog/

[2]

Building safer dialogue agents:https://www.deepmind.com/blog/building-safer-dialogue-agents

[3]

Feedback Contest:https://cdn.openai.com/chatgpt/ChatGPT_Feedback_Contest_Rules.pdf

9eb9e01168eb7c2b04cc2c20ea7ff8c6.jpeg


我是朋克又極客的AI算法小姐姐rumor

北航本碩,NLP算法工程師,谷歌開(kāi)發(fā)者專家

歡迎關(guān)注我,帶你學(xué)習(xí)帶你肝

一起在人工智能時(shí)代旋轉(zhuǎn)跳躍眨巴眼

「不會(huì)debug代碼的模型不是好AI」1375eae85757ad9919be1f2cc7481f4a.png

你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級(jí)流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級(jí)服務(wù)器適合批量采購(gòu),新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧

網(wǎng)頁(yè)題目:OpenAI發(fā)布ChatGPT!手把手debug代碼!-創(chuàng)新互聯(lián)
文章起源:http://bm7419.com/article22/diddcc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供搜索引擎優(yōu)化網(wǎng)站設(shè)計(jì)、網(wǎng)站制作關(guān)鍵詞優(yōu)化、外貿(mào)網(wǎng)站建設(shè)、靜態(tài)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)