Anthropic公開Claude 3,像人類一樣特殊性格訓(xùn)練方法
相信很多大家對(duì)Anthropic公開Claude 3,像人類一樣特殊性格訓(xùn)練方法還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
6月9日,著名AI大模型平臺(tái)Anthropic在官網(wǎng)公布了,其最新大模型Claude3的個(gè)性化性格訓(xùn)練方法。
Anthropic認(rèn)為,輸出內(nèi)容的安全、合法性對(duì)于大模型的場(chǎng)景化落地至關(guān)重要,但是一味的打壓它們進(jìn)行超級(jí)安全對(duì)齊,輸出的內(nèi)容也會(huì)千篇一律毫無(wú)新意,會(huì)使大模型失去個(gè)性化,無(wú)法突出“智能”的效果。
所以,Anthropic在訓(xùn)練Claude3時(shí),使用了一種特殊的個(gè)性化訓(xùn)練方法(Constitutional AI: Harmlessness from AI Feedback),在保持安全的前提下,還能輸出一些有趣、更具創(chuàng)新性的內(nèi)容,也是該模型實(shí)現(xiàn)超強(qiáng)性能的關(guān)鍵之一。
論文地址:https://arxiv.org/abs/2212.08073
從Anthropic發(fā)布的論文來(lái)看,主要是通過(guò)Constitutional AI技術(shù)來(lái)幫助大模型進(jìn)行自我監(jiān)督和優(yōu)化改進(jìn),主要分為監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。
首先,讓大模型來(lái)生成對(duì)潛在有害提示的響應(yīng),這些初始的響應(yīng)往往包含了有害或不當(dāng)?shù)膬?nèi)容,例如,如何進(jìn)行有效的偷竊等。大模型被要求根據(jù)Constitutional AI中的原則來(lái)批評(píng)自己的響應(yīng)。
Constitutional AI制定了一組規(guī)則或原則,定義了大模型行為的界限。也就是說(shuō)AI的輸出行為是不能越過(guò)這條紅線。
接著,通過(guò)批評(píng)請(qǐng)求(Critique Request)模塊,要求大模型識(shí)別其先前響應(yīng)中可能存在的問(wèn)題,例如,是否包含有害、不道德、種族歧視、性別歧視、有毒、危險(xiǎn)或非法的內(nèi)容。這一過(guò)程迫使大模型對(duì)自己的行為進(jìn)行反思,并識(shí)別出需要改進(jìn)的地方。
在識(shí)別出問(wèn)題之后,再通過(guò)修訂請(qǐng)求(Revision Request)模塊指導(dǎo)大模型如何改進(jìn)其響應(yīng)的過(guò)程。要求大模型根據(jù)批評(píng)的內(nèi)容,重寫其響應(yīng),以消除所有有害、不道德、種族歧視、性別歧視、有毒、危險(xiǎn)或非法的內(nèi)容。
這個(gè)過(guò)程可以反復(fù)迭代,每次修訂都可以引入新的原則,以增加響應(yīng)的多樣性和深度。
需要注意的是,大模型在進(jìn)行批評(píng)和修訂時(shí),可能會(huì)遇到視角混淆的問(wèn)題。例如,可能在應(yīng)該生成修訂的時(shí)候生成了批評(píng)。為了解決這個(gè)難題,Anthropic會(huì)使用少量示例來(lái)指導(dǎo)大模型的反思行為。
在強(qiáng)化學(xué)習(xí)階段,Anthropic從監(jiān)督學(xué)習(xí)階段微調(diào)后的模型中采樣,生成對(duì)一系列提示的響應(yīng)。然后使用一個(gè)反饋模型來(lái)評(píng)估這些響應(yīng),并決定哪個(gè)響應(yīng)更符合Constitutional AI原則中的無(wú)害性標(biāo)準(zhǔn)。
反饋模型會(huì)接收到一個(gè)提示和一對(duì)由大模型生成的響應(yīng)。再根據(jù)Constitutional AI中的一個(gè)原則,反饋模型需要在這兩個(gè)響應(yīng)中選擇一個(gè)更符合無(wú)害性要求。這個(gè)選擇過(guò)程被構(gòu)建成一個(gè)多項(xiàng)選擇問(wèn)題,反饋模型需要給出其選擇的答案。
例如,如果Constitutional AI原則是“選擇一個(gè)更少有害的回答”,反饋模型就需要在兩個(gè)響應(yīng)中選擇一個(gè)更少包含有害、不道德、種族歧視、性別歧視、有毒、危險(xiǎn)或非法內(nèi)容的響應(yīng)。
然后,Anthropic會(huì)使用生成的偏好標(biāo)簽來(lái)訓(xùn)練一個(gè)偏好模型。這個(gè)模型能夠?yàn)槿魏谓o定的樣本分配一個(gè)分?jǐn)?shù),以評(píng)估其符合Constitutional AI原則的程度。訓(xùn)練完成后,這個(gè)偏好模型就被用作強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)信號(hào),指導(dǎo)AI助手通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化其行為。
在強(qiáng)化學(xué)習(xí)的過(guò)程中,大模型會(huì)根據(jù)偏好模型的反饋來(lái)調(diào)整自己的內(nèi)容輸出策略,以生成更符合無(wú)害性原則的響應(yīng)。
這個(gè)過(guò)程也是反復(fù)迭代的,大模型會(huì)不斷地生成響應(yīng)、接收反饋,并根據(jù)反饋來(lái)改進(jìn)自己,直到其行為達(dá)到一個(gè)穩(wěn)定的輸出原則狀態(tài)。
以上就是關(guān)于【Anthropic公開Claude 3,像人類一樣特殊性格訓(xùn)練方法】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!