小心!AI能「看懂」你的唇語,悄悄話不再安全!
相信很多大家對小心!AI能「看懂」你的唇語,悄悄話不再安全!還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
小心悄悄話被AI聽見!(噓)
最近國外一款可以讀唇語的AI軟件火了!
具體效果如下:
紅毯上布萊克·萊弗利小聲說:“好緊張”,笑著說話時肉眼很難分辨唇語,但AI可以。
乍一看只能看見一排白牙(bushi)的侃爺,唇語也能被輕松破解。
看完后網(wǎng)友們開始紛紛評論,大開腦洞:
求“聯(lián)名”型網(wǎng)友:快把它和Siri結(jié)合一下吧!這樣我就不用像小傻子一樣對著電腦大喊了!
測評型網(wǎng)友:我想用它試試“座機畫質(zhì)”的視頻!
擔(dān)心安全型網(wǎng)友:我有點害怕,我想戴口罩了。(嗚嗚)
實測 Readtheirlips 效果如何
量子位整理了一些視頻,為大家親測了一下Readtheirlips的使用效果。
先試了一下奧特曼在斯坦福的訪談視頻,把生成的文本和原始對話對照了一下,內(nèi)容完美契合~
而面對小表情比較多的老馬,Readtheirlips的發(fā)揮依舊穩(wěn)定。
倍速播放中0.5倍0.75倍1.0倍1.5倍2.0倍超清流暢
不過以上兩個視頻都是人物全程正臉對著鏡頭的。
換成了說話時愛比劃的小扎,Readtheirlips直接顯示錯誤。(視頻中人物不是全程正臉)
而主角換成卡帕西之后,因為他說話太快,生成的文本出現(xiàn)了識別錯誤的情況。(左側(cè)為Readtheirlips生成,右側(cè)為文字處理軟件生成)
最后,我們嘗試著上傳了一個16分鐘的視頻,Readtheirlips直接顯示錯誤,無法識別內(nèi)容。
總結(jié)一下:
Readtheirlips識別視頻的時間在一分鐘左右。
就像他們標(biāo)明的那樣如果人物的正臉不能正對鏡頭,那么模型就很難給出正確答案。
而面對語速過快的視頻內(nèi)容,Readtheirlips只能識別出其中的一些內(nèi)容。
對此,團隊成員回應(yīng)道:
而關(guān)于上傳視頻的時長限制,他們這么說:
AI如何“聽”悄悄話
看完親測視頻,咱們也來嘮一下Readtheirlips的工作原理。
看看它是怎么讀取人類唇語的:
首先,研究團隊用大量的標(biāo)注數(shù)據(jù)(已知的嘴唇運動動作及其對應(yīng)的文本內(nèi)容)來對模型進行訓(xùn)練。
在此基礎(chǔ)上,用戶要上傳一段視頻,這段視頻要包含說話者的面部特寫,尤其是嘴部動作。
然后模型會對視頻進行嘴部運動的分析:先是通過面部檢測識別嘴唇的位置,然后再提取嘴唇的幾何特征,(形狀、開合程度、運動軌跡等),最后分析嘴唇在說話過程中的動態(tài)變化。(速度、方向和形狀變化)
之后,模型會將提取的嘴唇特征與訓(xùn)練數(shù)據(jù)中的特征進行匹配,來識別出視頻中人物所說的內(nèi)容。
將識別出的單詞或短語組合成完整的句子,進行一下上下文理解,確保語法和語義的正確性。
最終將識別出的內(nèi)容輸出為文本形式。
開發(fā)團隊
Readtheirlips的開發(fā)團隊Symphonic Labs是一家初創(chuàng)公司。
領(lǐng)英上顯示它今年4月份才剛剛成立,截至目前,公司人數(shù)不到10人。
他們之前還研發(fā)過一款通過閱讀唇語即可完成實時文本轉(zhuǎn)錄的軟件Symphonic
兩款軟件的試玩鏈接都已附上,感興趣的朋友們可以去嘗試一下~
Readtheirlips 試玩鏈接:
https://www.readtheirlips.com/
Symphonic 試玩鏈接:
https://symphoniclabs.com/
參考鏈接:
https://x.com/crsamra/status/1833494380357013879
— 完 —
以上就是關(guān)于【小心!AI能「看懂」你的唇語,悄悄話不再安全!】的相關(guān)內(nèi)容,希望對大家有幫助!