日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

<td id="p7kjh"></td>

<td id="p7kjh"></td>

<legend id="pbv1n"></legend>

活久見！誰想的這種辦法讓大模型PK

發(fā)布時間：2024-06-14 09:30:41 編輯：來源：

導(dǎo)讀相信很多大家對活久見！誰想的這種辦法讓大模型PK還不知道吧，今天菲菲就帶你們一起去了解一下~.~！ “每個大模型看起來都差不多，只能誰便...

相信很多大家對活久見！誰想的這種辦法讓大模型PK還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

“每個大模型看起來都差不多，只能誰便宜先用誰的。但用下來之后，不合適再換，又費(fèi)錢又費(fèi)力”，一位AI 招聘公司的創(chuàng)始人對光錐智能抱怨道。

2024年，大模型正在加速走向行業(yè)應(yīng)用。但每一種大模型所擅長的領(lǐng)域都不一樣，如何找到最適合自身業(yè)務(wù)場景的大模型，成為擺在開發(fā)者們眼前的難題之一。

“在之前做大模型應(yīng)用開發(fā)過程中，我們一般會先選擇一到兩個大模型，單獨(dú)對接研發(fā)產(chǎn)品，Demo出來之后，再去評估大模型是否合適。”一位開發(fā)者如此對光錐智能說道。

不難看出，這種大模型應(yīng)用開發(fā)方式，耗時耗力，開發(fā)成本也非常高昂。

基于此，當(dāng)前各大廠商都在AI應(yīng)用開發(fā)平臺中內(nèi)置了模型評估和模型選擇等功能，比如百度智能云千帆大模型平臺、亞馬遜云科技的Amazon Bedrock等。

但這些平臺的模型評估和選擇功能，更適用于企業(yè)級開發(fā)者。于普通的個人開發(fā)者而言，尤其是沒有編程基礎(chǔ)的用戶，很難搞清楚這背后模型評估的邏輯。

那么，有沒有一種更加簡單、清晰、適合個人開發(fā)者的模型評估與選擇方式?

字節(jié)跳動將自身經(jīng)典的A/B測試方法論，帶到了大模型選擇與評估上。

6月12日，由字節(jié)跳動AI應(yīng)用開發(fā)平臺—扣子（coze.cn）推出了「扣子模型廣場」。模型廣場主要包含兩方面能力:

其一，模型集市。模型廣場已經(jīng)接入多個國內(nèi)頭部大語言模型，包括豆包、通義千問、智譜、MiniMax、Moonshot 、Baichuan等，在創(chuàng)建Bot（智能體）、調(diào)試Bot時都可以一鍵切換。

其二，模型競技場。通過類似小游戲的模型對戰(zhàn)，開發(fā)者可以讓兩個隱藏了模型的Bot一鍵PK，并根據(jù)模型的回答進(jìn)行投票，投票結(jié)束后才會揭秘具體的模型。

一鍵PK，傻瓜式的操作，為開發(fā)者提供了一種相當(dāng)簡單便捷地篩選大模型的方式。

這種PK，類似對大模型進(jìn)行“A/B測試”，給予大模型真實(shí)的人類反饋，能夠快速促進(jìn)大模型的升級迭代，從而為Bot應(yīng)用開發(fā)提供更好的底層技術(shù)能力支持。

同時，為了激勵開發(fā)者使用大模型來開發(fā)Bot，扣子聯(lián)合 Intel 推出 AI 工坊活動，重點(diǎn)覆蓋圖文創(chuàng)作賽道、實(shí)用工具賽道、互動創(chuàng)意賽道三大賽道。

為了能夠給開發(fā)者提供“開箱即用”的體驗(yàn)，扣子上線了Bot商店、插件商店，甚至開發(fā)者最關(guān)注的核心工作流也于近期有了商店。

可以看到，2024年已經(jīng)過半，大模型的能力迭代和智能體的應(yīng)用落地都在同步快速進(jìn)展中。

而字節(jié)跳動在推薦算法時代賴以生存的“數(shù)據(jù)驅(qū)動”的底層思維，已經(jīng)悄然在大模型上實(shí)現(xiàn)。用大模型競技場吸引用戶反饋，讓大模型的調(diào)用量提升起來，再帶動Bot的開發(fā)。后續(xù)，再結(jié)合字節(jié)跳動的內(nèi)容生態(tài)特點(diǎn)，完成商業(yè)化閉環(huán)。

字節(jié)跳動，這家在移動互聯(lián)網(wǎng)時代的“App工廠”，已經(jīng)開始進(jìn)化成“大模型工廠”。

模型競技

小游戲測出大模型的效果

A/B測試的思維，深植于字節(jié)跳動的企業(yè)文化與基因中。

對于字節(jié)跳動組織內(nèi)的人員來說，上至中高管理層，下至一線產(chǎn)品、運(yùn)營人員，都有一個普遍共識:A/B測試是一切決策的前提與基礎(chǔ)。上線任何策略之前，先跑一遍A/B測試，用數(shù)據(jù)說話。

比如今日頭條、抖音、西瓜等，這些產(chǎn)品的名字并非產(chǎn)品經(jīng)理或者業(yè)務(wù)負(fù)責(zé)人拍腦袋、經(jīng)驗(yàn)主義的決策結(jié)果，而是將不同名稱的應(yīng)用包上架至應(yīng)用市場之后，通過下載率和分享率來進(jìn)行定奪，本質(zhì)上即通過A/B測試的思想，將產(chǎn)品的決策權(quán)交給了用戶。

產(chǎn)品功能上，抖音彈幕功能上線前，團(tuán)隊(duì)?wèi)?yīng)用A/B測試設(shè)計(jì)一個實(shí)驗(yàn)，將沒有彈幕的頁面設(shè)置為對照組，將有彈幕無其他互動功能的頁面和有彈幕有其他互動功能的頁面分別設(shè)為實(shí)驗(yàn)組1、2。

通過實(shí)驗(yàn)，抖音團(tuán)隊(duì)發(fā)現(xiàn)彈幕功能在疊加其他互動功能的時候，可以提升互動率，但同時，視頻的瀏覽量和用戶留存都有下降。即，彈幕功能不足以轉(zhuǎn)化為長期的比較穩(wěn)定的用戶價值。因此，實(shí)驗(yàn)后抖音團(tuán)隊(duì)作出的決策是不上線此功能。

而此次扣子推出的模型廣場中“模型競技功能”，也同樣延續(xù)了A/B測試機(jī)制。

模型競技主要有三種模式:

指定Bot對戰(zhàn)，即用戶可以選擇一個感興趣的Bot，扣子將隨機(jī)選取兩個匿名模型，基于Bot的Promt、工作流、知識庫等能力配置回答用戶的問題。主要適用于評測模型在指定細(xì)分領(lǐng)域的文本生成、技能和知識調(diào)用等能力。

指定Bot對戰(zhàn)模式

隨機(jī)Bot對戰(zhàn)，即扣子將從上架Bot中隨機(jī)選擇一個Bot，并隨機(jī)選擇兩個匿名模型，基于Bot的Promt、工作流、知識庫等能力配置回答用戶的問題。主要適用于評測模型在任意業(yè)務(wù)場景下的文本生成、技能和知識調(diào)用等能力。

隨機(jī)生成一個Bot對戰(zhàn)模式

純模型對戰(zhàn)，即不指定任何Bot，統(tǒng)隨機(jī)選擇兩個模型展開對決，模型回答不受 Promt、工作流等配置的限制和影響，適用于評測模型本身的文本生成等能力。

純模型對戰(zhàn)模式

不管是哪一種競技方式，都需要用戶對模型進(jìn)行提問，然后基于模型回答問題所生成的內(nèi)容，通過進(jìn)行AB選擇，來評判其生成內(nèi)容的好壞，進(jìn)而來評估大模型的能力。

在光錐智能體驗(yàn)的過程，點(diǎn)擊隨機(jī)開始后，扣子平臺系統(tǒng)會隨機(jī)選擇兩個Bot，比如影視分析Bot，這兩個Bot背后所對應(yīng)的是兩個不同的大模型產(chǎn)品。頁面上會簡單介紹兩個Bot的使用場景，并一般會在Bot下方提供具體的鏈接或者與具體使用場景相關(guān)的問題，比如抖音視頻鏈接、影視內(nèi)容等。

用戶可以直接點(diǎn)擊Bot提供的問題，也可以自主進(jìn)行提問，在提問之后，兩個模型開始作答，回答內(nèi)容完成后，下方會顯示此次回答所用時長，以及會繼續(xù)給出相關(guān)的問題。

如果僅是簡單測試，此時已經(jīng)可以進(jìn)行Bot回答內(nèi)容優(yōu)劣選擇，包括選擇A或B，以及兩個都好和兩個都差。在選擇完成后，會顯示出兩個Bot背后的大模型產(chǎn)品，以及大模型的相關(guān)性能。

這種簡單的“AB選擇”的小游戲，能夠激發(fā)普通人使用大模型競技場的欲望。

用戶可以以極低成本，廣泛參與模型廣場的PK對決，來扣子感受AI的魅力，尤其是沒有編程經(jīng)驗(yàn)的普通人。如果能夠再提供一定的獎勵機(jī)制，就更能帶動更多用戶參與真實(shí)模型反饋。

于開發(fā)者而言，想要在扣子上搭建一款Bot應(yīng)用，在搭建前可通過模型廣場，進(jìn)行大模型PK，從而能夠更簡單、高效、便捷的選出最合適的大模型產(chǎn)品，極大的降低了使用大模型的門檻。

而對大模型廠商而言，模型競技帶來了真實(shí)的人類反饋，這個數(shù)據(jù)超級珍貴。

比如OpenAI自上線ChatGPT后，自身大模型能力進(jìn)化速度非常快。在今年春季發(fā)布會上，OpenAI的GPT-4o已經(jīng)向更自然的人機(jī)交互邁進(jìn)了一步，其可接受文本、音頻和圖像的任意組合作為輸入內(nèi)容，并生成文本、音頻和圖像的任意組合輸出內(nèi)容。

在國內(nèi)，去年百度文心一言也宣布正式向公眾開放服務(wù)，用戶可在App Store（免費(fèi)榜第一）、官網(wǎng)下載/體驗(yàn)，無需申請內(nèi)測資格即可使用，這也就意味著文心一言能夠獲取更多用戶真實(shí)的反饋數(shù)據(jù)。

也因此，在扣子平臺模型廣場上，隨著越來越多用戶進(jìn)行模型PK，就會匯聚更多用戶真實(shí)反饋數(shù)據(jù)，能夠持續(xù)不斷的推動大模型能力的迭代，來為用戶提供更好的體驗(yàn)。

因此，在扣子平臺上，開發(fā)者能夠更好的調(diào)動大模型能力開發(fā)產(chǎn)品，大模型廠商基于真實(shí)數(shù)據(jù)進(jìn)行產(chǎn)品能力的迭代升級，不斷激發(fā)平臺上應(yīng)用的創(chuàng)新，形成完整的大模型應(yīng)用開發(fā)生態(tài)閉環(huán)。

也就是說，扣子平臺的AI應(yīng)用開發(fā)生態(tài)，也形成了良性開發(fā)和競爭環(huán)境。

AI開發(fā)平臺這么多

智能體爆款在哪里?

在大模型應(yīng)用的過程中，Bot（智能體）成為了重點(diǎn)方向之一。

從去年開始，各大廠商也都在積極布局Bot（智能體）開發(fā)平臺。比如 OpenAI的GPT Store、字節(jié)跳動的扣子、騰訊云的騰訊元器、百度智能云的千帆AgentBuilder、阿里云的AgentScope多智能體開發(fā)平臺等。

不可否認(rèn)的是，雖然各家都在做Bot（智能體）開發(fā)，但當(dāng)前并未出現(xiàn)一款真正的爆款應(yīng)用。究其原因，還是現(xiàn)階段大模型應(yīng)用并不能夠讓用戶覺得好用、愛用。

“目前AI應(yīng)用平臺雖然很多，但做出來的應(yīng)用都是浮于表面的，沒有解決行業(yè)的問題?！便y泰百貨零售百貨數(shù)智化產(chǎn)品負(fù)責(zé)人得壹對光錐智能稱。

光錐智能在體驗(yàn)各種Bot時，體驗(yàn)并不是很好。首先是很實(shí)用的Bot并不多，工具效率類如短視頻選題、小紅書爆款文案生成器等相對較好，但其他類似甄嬛傳十級考試的就比較嘗鮮式，體驗(yàn)和小程序差不多，并不能特別突出大模型的優(yōu)勢。

另外，即使是兒童百科這樣的Bot，回答的內(nèi)容不夠深度，需要有更為標(biāo)準(zhǔn)的指令詞，才能獲得更精準(zhǔn)的答案，但這對于沒有編程基礎(chǔ)的普通用戶而言，并不是一件容易的事情。

同時，在企業(yè)級的應(yīng)用中，現(xiàn)階段也很難將人工智能與人工完全分開，都是需要與人工進(jìn)行相互配合，才能夠更好的為客戶提供服務(wù)。

因此，如何開發(fā)一款好用的Bot，能夠讓更多用戶使用它，則成為了大模型應(yīng)用突圍的關(guān)鍵。那么，究竟如何才能夠開發(fā)出一款真正好用的Bot?

極低的大模型使用門檻和成本，是推動用戶不斷開發(fā)各種AI Bot的基礎(chǔ)。不過，一位從業(yè)者表示，Bot（智能體）開發(fā)起來很容易，但對于優(yōu)化很耗費(fèi)時間。也就是說，普通人開發(fā)一款Bot門檻并不高，但想要讓它真正好用，難度卻比較大。

所以除了大模型的基礎(chǔ)能力，各種拓展Bot技能的插件、工作流、圖像流、觸發(fā)器等工具，也是開發(fā)一款好用Bot的關(guān)鍵。

比如，用戶既可以一句話創(chuàng)建個簡單的Bot，也可以像拼圖一樣，把幾個功能組裝成一個Bot，這種組裝的Bot就是工作流。

“一位汽車發(fā)燒友使用工作流功能添加5個節(jié)點(diǎn)，就實(shí)現(xiàn)了根據(jù)用戶需求搜索車型、對比參數(shù)，到最終輸出圖文并茂的購車建議的全部流程，用自己的專業(yè)知識解決了身邊朋友們選車?yán)_?！笨圩赢a(chǎn)品經(jīng)理潘宇揚(yáng)如此說道。

斯坦福大學(xué)教授、人工智能著名學(xué)者吳恩達(dá)指出，AI智能體的工作流程將在今年推動人工智能取得巨大進(jìn)步，甚至可能超過下一代基礎(chǔ)模型。

之所以有如此判斷，原因在于通過Agent工作流，開發(fā)者可以要求LLMs對文檔進(jìn)行多次迭代，對于AI來說，這種迭代工作流產(chǎn)生的結(jié)果則會比一次性寫作要好得多。

吳恩達(dá)根據(jù)數(shù)據(jù)發(fā)現(xiàn)，GPT-3.5（零樣本）的正確率為48.1%，GPT-4(零樣本)的正確率更高，為67.0%，其表現(xiàn)相差并不是很大。但通過引入迭代工作流，GPT-3.5正確率高達(dá)95.1%。

因此，當(dāng)前工作流正在成為Bot（智能體）開發(fā)過程中的關(guān)鍵一環(huán)，也備受開發(fā)者們關(guān)注。

針對圖像素材的處理，扣子平臺還有專門處理素材的圖像流，涵蓋素材獲取、素材編輯、素材導(dǎo)出三大環(huán)節(jié)，讓作圖變得更簡單。

此外，即使同一個Bot，用戶的需求也并不完全一樣。

因此，扣子平臺還提供了長期記憶、數(shù)據(jù)庫、文件盒子等功能?；谶@些功能，Bot會記住用戶說過的關(guān)鍵信息、喜好，甚至連用戶看過的文件、偶然冒出的小想法都會細(xì)心捕捉。

比如在旅游時，如果用戶覺得某個地方的葡萄酒不錯，當(dāng)下次想小酌一杯時，Bot就會根據(jù)其的口味，推薦適合的那一款。

但Bot只了解用戶是遠(yuǎn)遠(yuǎn)不夠的，大模型的知識來源于訓(xùn)練數(shù)據(jù)，它并不了解最新發(fā)生的事情，自然也無法幫用戶觸達(dá)周邊的服務(wù)。

而扣子提供的插件、觸發(fā)器、知識庫等能力，則可以讓Bot不斷獲取新的信息，從而更加了解用戶身邊的世界。比如每天早上，它會幫你查詢天氣，規(guī)劃通勤路線;工作時，它可以幫你分析郵件，提煉要點(diǎn);下班后，它能為你推薦感興趣的視頻，和你聊天解悶。

基于以上能力，普通開發(fā)者也能搭建出很強(qiáng)能力的Bot，把自己的專業(yè)能力用AI發(fā)揮出來。

目前，扣子上已經(jīng)發(fā)布了海量Bot，主要應(yīng)用場景分類為效率工具、商業(yè)服務(wù)、文本創(chuàng)作、學(xué)習(xí)教育、代碼助手、生活方式、游戲、圖像與音視頻、角色等。

據(jù)光錐智能觀察，目前熱度最高的應(yīng)用類型，主要是效率工具，游戲、圖像與音視頻等，畢竟，這些場景天然與生成式AI的落地應(yīng)用適配，并且是人們?nèi)粘Ｉ钪凶畛?yīng)用的領(lǐng)域。

隨著大模型時代的到來，互聯(lián)網(wǎng)時代數(shù)字化的需求（衣食住行），或許都可以用AI 重新做一遍。而真正AI Native的應(yīng)用，或許就誕生其中。

構(gòu)建商業(yè)閉環(huán)

真正走向市場

如果不能夠?qū)㈤_發(fā)出來的Bot實(shí)現(xiàn)商業(yè)化落地，產(chǎn)生商業(yè)價值，也勢必不會真正的走向市場。

近日，據(jù)媒體報道，微軟宣布C opilot GPTs將于7月10日起停服，用戶已經(jīng)創(chuàng)建的GPTs將被清空。C opilot GPT Builder允許C opilot Pro用戶創(chuàng)建和共享定制的特定任務(wù)聊天機(jī)器人，類似于微軟投資OpenAI的定制GPT Builder和GPT Store。

對此，微軟給出的官方解釋是公司戰(zhàn)略調(diào)整——正在將GPT的重點(diǎn)轉(zhuǎn)向商業(yè)和企業(yè)場景，背后原因可能是缺乏商業(yè)回報。C opilot GPTs關(guān)閉引發(fā)了用戶不滿，批評者質(zhì)疑此舉會切斷創(chuàng)新并削減消費(fèi)者對于產(chǎn)品的信任。

“不少智能體目前都是高開低走，用戶都是嘗鮮玩一下，后期都吃灰了。而且，能高開的都是極少數(shù)?！币晃婚_發(fā)者如此對光錐智能說道。

那么，如何讓智能體真正的用起來?必須要在特定的場景、產(chǎn)生真正可用的價值。

業(yè)內(nèi)皆知，字節(jié)跳動擁有強(qiáng)大的圖文、視頻音頻生態(tài)內(nèi)容體系，抖音和頭條也養(yǎng)活了一批依靠其流量轉(zhuǎn)化的企業(yè)和個人用戶。

圖文和音視頻，一定是字節(jié)跳動在大模型賽道的優(yōu)勢領(lǐng)域。

此次由扣子和 Intel 聯(lián)合推出的主題Bot征集活動扣子 AI 工坊（ Coze AI Factory ），主要涵蓋圖文創(chuàng)作賽道、實(shí)用工具賽道、互動創(chuàng)意賽道三大賽道。

而這三大賽道，也將成為字節(jié)跳動幫助開發(fā)者的Bot應(yīng)用實(shí)現(xiàn)商業(yè)價值的試驗(yàn)田。

我們可以試想一下，如果抖音、頭條能夠直接在后臺為開發(fā)者應(yīng)用提供接口，就能夠讓抖音、頭條用戶直接使用Bot應(yīng)用。像類似MBTI性格測試的產(chǎn)品，通過在抖音視頻中添加鏈接，吸引用戶使用該產(chǎn)品，就可以實(shí)現(xiàn)轉(zhuǎn)化和收益。

而實(shí)用工具賽道，則是社會發(fā)展的剛需，比如對于文字工作者來說，類似爆款文案生成器、抖音爆款文案搜集等Bot，能夠?yàn)槠涮峁└嗟哪芰χС帧?/p>

隨著扣子模型廣場的推出，以及AI工坊活動持續(xù)吸引開發(fā)者入駐，字節(jié)跳動在大模型賽道中，從技術(shù)，到產(chǎn)品，再到市場的閉環(huán)，已經(jīng)逐漸完善起來?，F(xiàn)如今，還差的就是一款爆款Bot應(yīng)用，來推動閉環(huán)的完成，我們還需要再給Bot多一些時間。

以上就是關(guān)于【活久見！誰想的這種辦法讓大模型PK】的相關(guān)內(nèi)容，希望對大家有幫助！

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

相關(guān)閱讀

最新文章