日本高清色午夜com,色综合国产精品视频,午夜亚洲在在线观看,国产午夜在线网站

      <td id="p7kjh"></td>
      <td id="p7kjh"></td>

      首頁 > 今日更新 >

      豆包說要「普惠」,于是大模型處理圖片按「厘」計價了

      發(fā)布時間:2024-12-23 14:30:02來源:

      相信很多大家對豆包說要「普惠」,于是大模型處理圖片按「厘」計價了還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

      這段時間,OpenAI 宣告連續(xù)12輪轟炸,讓2024年底的大模型領(lǐng)域熱鬧起來了。

      但堅持每個凌晨看直播的話會發(fā)現(xiàn),越到后面的發(fā)布越平淡,內(nèi)心的波動也越少了。

      今年的大模型就卷到這里了嗎?并沒有,國產(chǎn)大模型又卷起來了,還給 OpenAI 來了一記「重拳」。

      就在前幾天,2024冬季火山引擎 FORCE 原動力大會上,字節(jié)跳動的豆包大模型家族,來了一場爆發(fā)式上新。

      最受關(guān)注的是豆包大模型家族的新成員 ——豆包?視覺理解模型。顧名思義,它讓豆包有了「看懂」世界的能力。更重要的是,這款新模型一千個 token 的輸入價格僅3厘錢,也就是說花一塊錢就能處理284張720P 的圖片,比行業(yè)價格便宜了85%。

      價格官宣的那一刻,或許眾多企業(yè)用戶在心里默念了一句:太好了,是豆包,我們有救了。

      至于這款模型的理解能力有多強,請看 VCR:

      火山引擎,贊4054

      與此同時,三位成員豆包通用模型 Pro、豆包?音樂生成模型、豆包?文生圖模型宣布升級,一起發(fā)布的還有豆包?3D 模型。

      回想年中的時候,豆包還是國產(chǎn)大模型中的「新秀」。短短半年多,竟然已經(jīng)紅透了半邊天,成為了眾多用戶首選的生產(chǎn)力工具。

      七個月的時間,能發(fā)生什么?對于 OpenAI 來說,可能只是一項新功能從「期貨」到「全量上線」的準(zhǔn)備時長。

      但對于豆包大模型,這段時間已經(jīng)足以拿下日均 tokens 使用量超4萬億的優(yōu)秀成績,比最初發(fā)布的那天增長了33倍。

      經(jīng)過此次升級后,豆包大模型家族的實力又壯大了一波。

      據(jù)智源研究院12月19日發(fā)布的國內(nèi)外100余個開源和商業(yè)閉源的大模型綜合及專項評測結(jié)果,「大語言模型評測能力榜單」中,豆包通用模型 pro 在重點考察中文能力的主觀評測中排名第一,「多模態(tài)模型評測榜單」中,豆包·視覺理解模型在視覺語言模型中排名第二,僅次于 GPT-4o,是得分最高的國產(chǎn)大模型。「FlagEval 大模型角斗場榜單」中,豆包通用模型 pro 在大語言模型榜單中位居第一梯隊,評分排名第二,僅次于 OpenAI 的 o1-mini,是得分最高的國產(chǎn)大模型。

      不得不說,國產(chǎn) AI 進(jìn)化的速度是真的驚人。

      會讀論文、看梗圖

      豆包的「秒懂」能力強得可怕

      回望2024年的大模型技術(shù)發(fā)展,除了文本能力的繼續(xù)提升外,從單模態(tài)過渡到多模態(tài)也是基礎(chǔ)模型的演進(jìn)趨勢之一。

      一個關(guān)鍵方向是,增加對視覺模態(tài)輸入的支持。這就像是給 LLM 裝上了「眼睛」和「大腦」,使其能夠理解圖像并進(jìn)行相應(yīng)的自然語言生成。

      在不斷進(jìn)化的豆包大模型中,我們也看到了驚人的「秒懂」能力。

      具體來說,豆包?視覺理解模型具備精準(zhǔn)的指令理解能力,能夠精準(zhǔn)提取圖像文本信息,因此可應(yīng)用于更復(fù)雜、更廣泛的視覺問答任務(wù),比如描述圖片中的內(nèi)容以及對圖片中包含的內(nèi)容進(jìn)行提問。另一方面,該模型可完成深度的圖片理解與推理,在表格圖像、數(shù)學(xué)問題、代碼圖像等復(fù)雜推理場景下都能發(fā)揮所長。

      豆包?視覺理解模型接入豆包 App 和 PC 端產(chǎn)品已經(jīng)有段時間了,機(jī)器之心也測試了一番,實際體驗很不錯。

      在此之前,人們公認(rèn)體驗比較好的是 GPT-4o 模型,但這次測試下來,豆包?視覺理解模型毫不遜色。

      首先能感受到,豆包的內(nèi)容識別能力很強,比如對于視覺內(nèi)容中的知識、文化背景、狀態(tài)、數(shù)量、文字等信息都識別得很準(zhǔn)確,特別是能理解中國傳統(tǒng)文化知識。

      比如問一個生活化的問題。站在超市貨架前,每個人都有過難以抉擇的時刻。但顯然,大模型比我們更懂傳統(tǒng)食物:

      當(dāng)然,它不只是擅長識別現(xiàn)實中的物品,即使圖片只有光影、輪廓、位置這些特征,也能一眼辨別:

      其次,豆包對于視覺內(nèi)容信息的推理能力也很強,包括數(shù)學(xué)、邏輯、代碼等。

      就拿難懂的論文架構(gòu)圖來說吧,在沒有給出任何論文背景信息的前提下,豆包不僅能看懂、講透,特別是針對整體流程的解讀,將階段1和階段2的因果邏輯表達(dá)得非常清楚,還能如數(shù)列出背景知識:

      假如同事交接給你一些代碼,別焦慮,叫上豆包一起看能效率加倍:

      再說到視覺描述能力,它也非常擅長「看圖說話」,完全可以用來編寫社交媒體文案,或者任何你需要啟發(fā)靈感的創(chuàng)作任務(wù):

      還有一個很巧妙的用途 —— 幫助2G 沖浪的「老年人」看懂新梗:

      多模態(tài)能力的突破,讓今年的大模型應(yīng)用給用戶帶來了諸多驚喜。此次視覺理解能力的增強,也將是豆包大模型打開更多落地場景的關(guān)鍵一步。當(dāng)模型能夠?qū)D像和文字信息相結(jié)合,我們就能夠獲得更自然、直觀的交互體驗。例如,在產(chǎn)品推薦、教育輔助或虛擬助手場景中,用戶可以通過圖片與模型互動,獲得更豐富的反饋。此外,結(jié)合視覺和文本信息,模型對輸入的洞察水準(zhǔn)也會更上一層樓。例如,在新聞分析或知識圖譜構(gòu)建中,模型能夠關(guān)聯(lián)文字和圖片,提供更完整的背景和見解。

      加上以「厘」為單位的定價,這些應(yīng)用場景的解鎖速度會比想象中更快。秉承「讓每家企業(yè)都用得起好模型」的原則,豆包一發(fā)力,實實在在是把視覺理解模型的應(yīng)用成本打下來了,將以更低成本推動 AI 技術(shù)普惠和應(yīng)用發(fā)展。

      三大主力模型升級

      視頻模型下月上線

      在新成員誕生的同時,豆包大模型家族的三位重要成員也迎來了本年度的最后一次重大升級。

      首先是大語言模型 ——豆包通用模型 Pro。對比今年5月最初公開發(fā)布的版本,這款模型在綜合能力上已經(jīng)提升了32%,與 GPT-4o 持平,但價格僅是其八分之一。

      此外,豆包通用模型 Pro在指令遵循、代碼、專業(yè)知識、數(shù)學(xué)層面全面對齊了 GPT-4o 水平。其中指令遵循能力提升9%,代碼能力提升58%,GPQA 專業(yè)知識方面能力提升54%,數(shù)學(xué)能力提升43%,推理能力提升13%。

      然后是語音,豆包?音樂模型的生成水平已經(jīng)從「高光片段」躍升到「完整樂章」。

      現(xiàn)在,用戶只需要簡單描述或上傳一張圖片,就能生成一首長達(dá)3分鐘的包含旋律、歌詞和演唱的高質(zhì)量音樂作品,包括前奏、主歌、副歌、間奏、過渡段等復(fù)雜結(jié)構(gòu)。并且,豆包?音樂模型提供了局部修改功能,在針對部分歌詞修改后仍能在原有旋律的節(jié)奏框架內(nèi)適配。

      體驗地址:https://www.haimian.com/create (APP 端:海綿音樂)

      從原來的1分鐘,升級為現(xiàn)在的3分鐘,豆包?音樂模型克服了挑戰(zhàn),在較長的時間跨度內(nèi)容保持了音樂元素的連貫性。

      最后,在視覺層面,豆包?文生圖模型本次也迎來了新一波升級,在通用性、可控性、高質(zhì)量三方面取得了新突破。具體來說,豆包?文生圖模型2.1新增了「一鍵海報」和「一鍵 P 圖」能力,目前已接入即夢 AI 和豆包 App。

      一鍵海報的關(guān)鍵點在于「寫字」。在實際體驗中,我們可以感受到,豆包?文生圖模型對文字細(xì)節(jié)的指令遵循能力很強,特別是非常擅長「寫漢字」:

      Prompt:生成一張卡通土撥鼠的圖片 衣服上的文字圖案是 “機(jī)器之心”

      背后的技術(shù)源自豆包?文生圖模型原生的文字渲染能力,豆包大模型團(tuán)隊通過打通 LLM 和 DiT 架構(gòu)和構(gòu)建高質(zhì)量文字渲染數(shù)據(jù),大幅提升了模型在文字生成方面的準(zhǔn)確率,尤其是結(jié)構(gòu)復(fù)雜、字符數(shù)量較多的漢字場景。

      一鍵 P 圖功能的實現(xiàn),則基于豆包大模型團(tuán)隊近期在圖像編輯技術(shù)上取得的重大突破:SeedEdit。

      近年來,基于擴(kuò)散模型的圖像生成技術(shù)進(jìn)展飛速,然而,圖像編輯技術(shù)還難以滿足人們對于生成內(nèi)容可控性的需求,關(guān)鍵挑戰(zhàn)在于實現(xiàn)「維持原始圖像」和「生成新圖像」之間的最優(yōu)平衡。

      SeedEdit 框架在不引入新參數(shù)的前提下,將圖像生成擴(kuò)散模型轉(zhuǎn)為圖像編輯模型,也是國內(nèi)首個產(chǎn)品化的通用圖像編輯模型。無需描邊涂抹,用戶只需要給出簡單的自然語言指示,就能換背景、轉(zhuǎn)風(fēng)格,或者在指定區(qū)域進(jìn)行元素的增刪和替換。

      Prompt:驢打滾變成拿破侖

      相比于傳統(tǒng)涂抹選中的方法,這種編輯方式更加精準(zhǔn),不會誤傷無關(guān)區(qū)域。還有一點好處是,這種編輯技術(shù)能夠一次性完成多項編輯任務(wù),效率大大提升。

      關(guān)于最近非常火熱的3D 賽道,豆包家族也添加了一位新成員:豆包?3D 生成模型。將這款模型與火山引擎數(shù)字孿生平臺 veOmniverse 結(jié)合使用,可以高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作,成為一套支持 AIGC 創(chuàng)作的物理世界仿真模擬器。

      如視頻所示,通過疊加一句一句的文字 Prompt,就能搭建起一個工廠車間場景:

      后來居上,一飛沖天

      「豆包」憑借的是什么?

      自2024年5月發(fā)布至今,只用了七個月,豆包大模型就成為了國產(chǎn)大模型中當(dāng)之無愧的頂流。

      后來者如何居上?在豆包家族做大做強的道路上,為其提供底層支撐的火山引擎云服務(wù)平臺的價值不可忽視。

      一直以來,字節(jié)跳動的豆包大模型都通過火山引擎對外提供服務(wù),「更強模型、更低價格、更易落地」,這三個關(guān)鍵詞成為了其別于眾多大模型服務(wù)平臺的特質(zhì)。

      除了不斷升級的模型能力之外,火山引擎還解決了「成本太高」和「落地太難」兩項大模型應(yīng)用挑戰(zhàn)。目前,這個平臺提供從云計算、技術(shù)引擎、智能應(yīng)用到行業(yè)解決方案的全棧服務(wù)。

      模型層面,豆包大模型家族已經(jīng)有十幾位成員,覆蓋了常見應(yīng)用場景。

      特別地,火山引擎為大模型落地提供了一系列覆蓋全流程的工具,包括一站式大模型服務(wù)平臺火山方舟、大模型應(yīng)用開發(fā)平臺扣子、企業(yè)專屬 AI 應(yīng)用創(chuàng)新平臺 HiAgent。這些工具,在本次大會上也都同步升級。

      火山引擎這次一口氣推出了Prompt 優(yōu)解、大模型記憶應(yīng)用等產(chǎn)品,持續(xù)保障企業(yè)級 AI 應(yīng)用的落地。Prompt 優(yōu)解是全新一代提示詞工具,通過自動 + 互動的方式,解決了人工編寫 Prompt 難度高、耗時寫、重新適配的問題。大模型記憶應(yīng)用基于知識庫 RAG 技術(shù)和上下文緩存技術(shù),能夠幫助企業(yè)用戶打造靈活的大模型記憶方案,并推出 prefix cache 和 session cache API,降低延遲和成本。

      扣子也在這次大會上升級到了1.5版本,還公布了開發(fā)者生態(tài)方面的亮眼成績:目前平臺已有超過100萬的活躍開發(fā)者,共發(fā)布過200萬個智能體。包括最新發(fā)布的豆包多模態(tài)模型們,用戶們都能第一時間在扣子平臺通過插件的方式體驗。

      在最新發(fā)布的HiAgent1.5版本中,火山引擎提供了100多個行業(yè)應(yīng)用模板,提供給企業(yè)用戶一鍵復(fù)制,實現(xiàn)低代碼構(gòu)建智能體。同步發(fā)布的 GraphRAG 則通過連接知識圖譜為大模型提供知識及關(guān)系信息,以此增強回答質(zhì)量、支持多跳問題回答。再通過 Reranker,進(jìn)一步提升回答的準(zhǔn)確性和完整性。如此一來,企業(yè)就能構(gòu)建專家級別的 AI 應(yīng)用。

      在云服務(wù)層面,基于當(dāng)前企業(yè)使用大模型推理對計算效率的新要求,火山引擎已經(jīng)完成了從 Cloud Native 到 AI Cloud Native 的轉(zhuǎn)型,打造以 AI 負(fù)載為中心的基礎(chǔ)架構(gòu)新范式。

      GPU 在并行處理能力和高吞吐量方面更適合大規(guī)模推理使用,然而,傳統(tǒng) GPU 加 CPU 的異構(gòu)計算中,GPU 從存儲加載數(shù)據(jù)進(jìn)行處理都必須由 CPU 控制。近年來的一個趨勢是計算從 CPU 轉(zhuǎn)移到 GPU,GPU 計算在整個系統(tǒng)的比例越來越大,因此過去的 I/O 流程成為巨大的效率瓶頸,某種程度上造成了 GPU 資源的浪費。

      基于 AI 云原生的理念,火山引擎這次推出了新一代計算、網(wǎng)絡(luò)、存儲和和安全產(chǎn)品。在計算層面,新一代的火山引擎 GPU 實例,通過 vRDMA 網(wǎng)絡(luò),支持大規(guī)模并行計算和 P/D 分離推理架構(gòu),顯著提升訓(xùn)練和推理效率,降低成本。存儲上,新推出的 EIC 彈性極速緩存,能夠?qū)崿F(xiàn) GPU 直連,使大模型推理時延降低至1/50;成本降低20%。安全層面,火山將推出 PCC 私密云服務(wù),構(gòu)建大模型的可信應(yīng)用體系?;?PCC,企業(yè)能夠?qū)崿F(xiàn)用戶數(shù)據(jù)在云上推理的端到端加密,而且性能很好,推理時延比明文模式的差異在5% 以內(nèi)。

      「今年是大模型高速發(fā)展的一年。當(dāng)你看到一列高速行駛的列車,最重要的事就是確保自己要登上這趟列車。通過 AI 云原生和豆包大模型家族,火山引擎希望幫助企業(yè)做好 AI 創(chuàng)新,駛向更美好的未來?!够鹕揭婵偛米T待表示。

      面向2025,我們期待什么?

      這一年,從技術(shù)研發(fā)的角度,豆包大模型團(tuán)隊在研究者和從業(yè)者圈子中影響力的增長是有目共睹的。2024年,團(tuán)隊發(fā)布了一系列「出圈」成果,包括近期的圖像編輯模型 SeedEdit、代碼評估數(shù)據(jù)集 FullStack Bench、新型神經(jīng)網(wǎng)絡(luò)架構(gòu) FAN 等。在突破前沿命題之外,這些成果也對豆包大模型產(chǎn)品層面的進(jìn)化起到了關(guān)鍵的推動作用。

      正是基于技術(shù)驅(qū)動下的產(chǎn)品迅速迭代,讓豆包坐穩(wěn)了國產(chǎn)大模型頂流的寶座。大模型技術(shù)爆發(fā)兩年后,不管是個人用戶還是企業(yè)用戶都能感知到,豆包大模型在應(yīng)用層的優(yōu)勢已經(jīng)非常明顯。

      根據(jù)大會 One More Thing 環(huán)節(jié)的透露,本文開頭 VCR 中所展示的端到端實時語音功能,以及具備更長視頻生成能力的豆包?視頻生成模型1.5也會在不久后上線。

      站在2024年的末尾,無論是相關(guān)從業(yè)者還是大眾都會好奇:2025年的大模型會變成什么樣?

      我們看到、聽到了很多關(guān)于大模型前進(jìn)方向的預(yù)判,比如 Scaling Law 即將撞墻,預(yù)訓(xùn)練已經(jīng)走到盡頭等等。

      但這些并不意味著大模型的能力已經(jīng)到達(dá)天花板,推理 Scaling Law 來了,AI 的智能水平可能會在短時間內(nèi)躍升到一個新的高度。同時在圖像生成、視頻生成等多模態(tài)任務(wù)上,大模型仍有相當(dāng)充足的發(fā)展空間。在未來的12個月,大模型進(jìn)化的曲線可能會非常陡峭。

      新的一年,豆包大模型還有哪些驚喜?值得每一個人期待。

      以上就是關(guān)于【豆包說要「普惠」,于是大模型處理圖片按「厘」計價了】的相關(guān)內(nèi)容,希望對大家有幫助!

      免責(zé)聲明:本文為轉(zhuǎn)載,非本網(wǎng)原創(chuàng)內(nèi)容,不代表本網(wǎng)觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。