騰訊把12億用戶(hù),都變成了免費(fèi)的“標(biāo)注民工”。
相信很多大家對(duì)騰訊把12億用戶(hù),都變成了免費(fèi)的“標(biāo)注民工”。還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
你有沒(méi)有想過(guò),當(dāng)你在網(wǎng)上進(jìn)行簡(jiǎn)單的驗(yàn)證碼操作時(shí),其實(shí)你已經(jīng)無(wú)意間成為了一名“標(biāo)注民工”?
昨天晚上,我在登錄QQ郵箱和LOL官網(wǎng)的時(shí)候。
發(fā)現(xiàn)騰訊的驗(yàn)證碼變了。
不再是之前的驗(yàn)證碼了,而是變成了一段Prompt加六張AI生成的圖。
右下角赫然寫(xiě)著:
圖片由混元AI生成。
騰訊,終于把用驗(yàn)證碼做標(biāo)注的手,伸向了他那12億的用戶(hù)。
拿驗(yàn)證碼當(dāng)標(biāo)注系統(tǒng),讓用戶(hù)免費(fèi)標(biāo)注,其實(shí)在遠(yuǎn)古時(shí)代,就已經(jīng)不是什么新鮮事了,但是用生成式AI來(lái)跟驗(yàn)證碼做結(jié)合,這確實(shí)還是我,所看的頭一回。
先說(shuō)說(shuō)驗(yàn)證碼這個(gè)東西。
這玩意從最開(kāi)始發(fā)明起,其實(shí)只有一個(gè)目的,就是為了區(qū)分機(jī)器和人。
簡(jiǎn)稱(chēng)“CAPTCHA”,全稱(chēng)就賊長(zhǎng)了,“Completely Automated Public Turing Test to Tell Computers and Humans Apart”
翻譯過(guò)來(lái)是,“全自動(dòng)區(qū)分計(jì)算機(jī)和人類(lèi)的圖靈測(cè)試”。
你看看,圖靈測(cè)試。
剛開(kāi)始,有個(gè)斯坦福公益驗(yàn)證碼系統(tǒng),reCAPTCHA。
它最成名的項(xiàng)目,就是用驗(yàn)證碼來(lái)數(shù)字化海量的書(shū)籍和舊報(bào)紙。那時(shí)候的Ocr真的不咋地,而且很多年前的書(shū)和報(bào)紙那糊的真的差強(qiáng)人意。
當(dāng)時(shí),reCAPTCHA系統(tǒng)會(huì)向用戶(hù)在驗(yàn)證碼上,展示兩組扭曲的單詞,其中前面的一組是計(jì)算機(jī)已經(jīng)識(shí)別的,另一個(gè)是計(jì)算機(jī)難以識(shí)別的。
如果用戶(hù)正確輸入前半部分,那么 reCAPTCHA就會(huì)假設(shè)用戶(hù)輸入的后半部分也是正確的,然后把錄入結(jié)果返回至reCAPTCHA的項(xiàng)目主機(jī)。
結(jié)果返回主機(jī)后,主機(jī)還會(huì)把這個(gè)結(jié)果再派發(fā)給多個(gè)用戶(hù)進(jìn)行交叉驗(yàn)證,以確保沒(méi)有不小心或故意輸錯(cuò)單詞的情況。
他們用這個(gè)系統(tǒng),在十幾年里,數(shù)字化了幾千萬(wàn)的書(shū)籍和報(bào)紙。
本來(lái)一切都挺美好的,然后,Google下場(chǎng)了,他們把reCAPTCHA給收了。
沒(méi)過(guò)多久,就讓用戶(hù)開(kāi)始識(shí)別,google街景中,那些難以識(shí)別的門(mén)牌號(hào)了。。。
這其實(shí),就是明晃晃的讓你當(dāng)標(biāo)注民工,無(wú)償來(lái)給google標(biāo)注訓(xùn)模型了。
google那時(shí)候幾億用戶(hù),每天驗(yàn)證碼會(huì)被調(diào)用上千萬(wàn)次。
這大概就好像,讓幾百萬(wàn)個(gè)人每人為給你干5秒鐘活兒,然后一分錢(qián)都不給一樣,你說(shuō)這是不是已經(jīng),把白嫖玩到極致了。
直到后面,離譜的東西越來(lái)越多,你要標(biāo)注的東西,也越來(lái)越多。
比如這些奇奇怪怪非人視角讓你選一個(gè)bus的照片。
當(dāng)然最離譜最好玩的,得數(shù)15年的12306,當(dāng)時(shí)開(kāi)腳本搶票的太多,12306的流量壓力實(shí)在太大,被逼的開(kāi)啟了神跡級(jí)的驗(yàn)證碼,據(jù)說(shuō)人類(lèi)首次正確率僅為8%,得錯(cuò)3次以上的人占比有65%。
這種逆天驗(yàn)證碼的題目是這樣的。
劉慈欣我不敢打包票,但是范偉我是全認(rèn)出來(lái)了。。
時(shí)間走走停停,一眨眼,來(lái)到了2024年。
為了自己家的混元大模型,騰訊也把手,伸向了驗(yàn)證碼。
讓我們開(kāi)始,來(lái)做AI繪圖大模型的標(biāo)注了。
這部分的標(biāo)注,其實(shí)不是啥圖片美學(xué)質(zhì)量的標(biāo)注,而是對(duì)于圖片理解和映射的標(biāo)注。
通俗地講,就是語(yǔ)義理解。
現(xiàn)在做的,還是最基礎(chǔ)最簡(jiǎn)單的分類(lèi),我們標(biāo)起來(lái),還是挺輕松的。畢竟里面都知道,左上角是鴨子,中間是老虎,左下角是蜜蜂,右下角是賽車(chē)。
而那兩張白楊樹(shù)林,其實(shí),你選任意一個(gè),或者選兩個(gè),都能過(guò)。
比如我這個(gè)圖:一簇在懸掛花盆在生長(zhǎng)的多肉。
其實(shí)你會(huì)看到有兩張都跟多肉有關(guān),而根據(jù)定語(yǔ),一簇,更符合左上角第一張圖,右上角那個(gè)其實(shí)不是一簇是一堆,但是我選了他,依然能過(guò)。
而你想把兩個(gè)都選,你也都能過(guò)。
所以這個(gè)標(biāo)注之心啊,一點(diǎn)都不藏著掖著。
但是確實(shí)這個(gè)做法很有用,比如還是這句Prompt,真正核心難點(diǎn)是一簇。
用這種方式,對(duì)整體的語(yǔ)義理解,確實(shí)有非常大的幫助。
而且現(xiàn)在明顯還是初期,給的prompt和圖,都非常的簡(jiǎn)單,標(biāo)注的難度也不高,甚至一些大廠(chǎng)的標(biāo)注模型直接機(jī)標(biāo)可能都應(yīng)付的過(guò)來(lái)。
但是如果下一次,是“一只在清朝宮殿里生長(zhǎng)的杜鵑花”呢?
一只、清朝宮殿、杜鵑花。難度直接拉滿(mǎn)。
甚至另外幾個(gè)選項(xiàng)給你的也不是差異這么大的動(dòng)物汽車(chē)啥的,給你的都是菊花、杜鵑花、喇叭花、玫瑰花,來(lái)吧你就選吧,加油啊標(biāo)注民工。
要知道,標(biāo)注真的很貴的,之前跟國(guó)內(nèi)一家做AI繪圖大模型的公司聊過(guò),才知道他們標(biāo)注分為機(jī)標(biāo)和人標(biāo),而人標(biāo)的成本,大概是數(shù)據(jù)量的十分之一。
也就是你拿出去3000萬(wàn)的數(shù)據(jù),人工標(biāo)一次,就得300萬(wàn)RMB干出去。
而騰訊12億用戶(hù),每天驗(yàn)證碼起碼也是千萬(wàn)的量級(jí),這標(biāo)注費(fèi)用,你可以算算這省了多少錢(qián)吧。
所以說(shuō),大廠(chǎng)在如今還在大數(shù)據(jù)的時(shí)代,優(yōu)勢(shì)是真的大。。。
不過(guò)這種標(biāo)注,目前來(lái)看還是只能解決語(yǔ)義理解的標(biāo)注,但是能把這個(gè)解決也已經(jīng)很牛逼了,雖然美學(xué)一般,但是語(yǔ)義理解能達(dá)到極強(qiáng),這就是妥妥的國(guó)內(nèi)版Dalle3。
而Dalle3的短板大家肯定也清楚,實(shí)在太丑了。
而要標(biāo)美學(xué)表現(xiàn),難度其實(shí)就大很多,真的得找懂設(shè)計(jì)、懂美學(xué)的人來(lái)標(biāo)注。
Midjourney當(dāng)年其實(shí)就是吃了這波紅利。
第一波獲得用戶(hù),而且獲得的還是一大波的有美學(xué)背景的專(zhuān)業(yè)用戶(hù),然后每次你生圖的時(shí)候給你生成4張圖拼一塊的一張整圖,你還必須選一張你覺(jué)得最好的進(jìn)行提取或優(yōu)化。
這就是一種強(qiáng)行的數(shù)據(jù)標(biāo)注。
所以Midjourney在如今的美學(xué)表現(xiàn)上一騎絕塵,是因?yàn)樗麄冊(cè)诿缹W(xué)的標(biāo)注上,做的太好了,而別的家想在這塊趕上,基本不可能,因?yàn)樽罡哔|(zhì)量的那波用戶(hù),基本已經(jīng)全在Midjourney那了。
而騰訊未來(lái)想做這件事,其實(shí)在我看來(lái),還真是有可能的。
因?yàn)槟闫鋵?shí)看Midjourney的路徑,核心點(diǎn)就一個(gè):海量的專(zhuān)業(yè)用戶(hù)。
騰訊缺專(zhuān)業(yè)用戶(hù)嗎,怎么可能會(huì)缺,12億用戶(hù)捏在手上,用戶(hù)畫(huà)像做的那么齊全,我想把有設(shè)計(jì)師背景的用戶(hù)挑出來(lái),難嗎?一點(diǎn)都不難。
我想給挑出來(lái)的這些設(shè)計(jì)師背景的用戶(hù)推送美學(xué)標(biāo)注的驗(yàn)證碼,難嗎?也不難。
所以啊,現(xiàn)在在我看來(lái),騰訊的驗(yàn)證碼標(biāo)注,才剛剛向前邁了半步,后面的模型空間,還很大。
唯一問(wèn)題就是,騰訊內(nèi)部有點(diǎn)封閉,用戶(hù)畫(huà)像數(shù)據(jù)PCG做QQ的那邊肯定有,但是混元跟PCG不是一個(gè)事業(yè)群,也不知道能不能拿得到。。。
能拿到的話(huà),那就是王炸。
但是不管怎樣。
你我都已經(jīng),身在其中了。
10年前,就已經(jīng)是了。
以上就是關(guān)于【騰訊把12億用戶(hù),都變成了免費(fèi)的“標(biāo)注民工”?!康南嚓P(guān)內(nèi)容,希望對(duì)大家有幫助!