自動擦除中文字幕改為英文、彈幕翻譯,還能完美還原UP主的聲線、音色、氣口,甚至基于翻譯語言進行口型模擬,海外用戶也可以看到原汁原味的“本地化”翻譯視頻了?在今年的世界人工智能大會上,B站公布了其全新自研的“AI原聲翻譯功能”,這種AI原生翻譯不僅可以讓海外用戶更好體驗游戲、科技、二次元等主推內(nèi)容,也被業(yè)界認為是B站出海的重要落子翻譯。
自今年5月嗶哩嗶哩(B站)宣布將下架原國際版APP,與國內(nèi)版合并為一個統(tǒng)一APP后,B站的出海下一步便引來各方關(guān)注翻譯。在今年的世界人工智能大會上,B站“AI原聲翻譯功能”的亮相,被業(yè)內(nèi)人士視為其在完成了APP合并、海外用戶頁面多語種適配、特別是視頻原聲翻譯功能上線后,正在蓄力開拓海外市場。
海外用戶頁面
在大會上記者看到,“AI原聲翻譯”除了自動擦除中文字幕改為英文、彈幕翻譯及各類按鈕英文適配等基礎(chǔ)的文本互譯之外,還能完美還原UP主的聲線、音色、氣口,而非傳統(tǒng)的機器音翻譯,同時還能基于翻譯語言進行口型模擬翻譯。這意味著在未來中文用戶觀看外語UP主視頻或者海外用戶觀看中文UP主視頻時,能無差別體驗原汁原味的“本地化”翻譯視頻,拜托翻譯不好時的尷尬體驗。據(jù)介紹,后續(xù)B站還將視需求把日語等語言加入“AI原聲翻譯”功能中。
技術(shù)人員介紹說,目前“AI原聲翻譯功能”中,跨語言聲音還原技術(shù)源自內(nèi)部代號為「 IndexTTS2」的語音生成模型翻譯。該模型引入了一種新穎、通用且兼容自回歸架構(gòu)的語音時長及情感控制方法。為攻克“AI原聲翻譯功能”中的核心挑戰(zhàn)——尤其在游戲、二次元等專業(yè)名詞或者流行梗點密集領(lǐng)域——實現(xiàn)原風(fēng)格精準(zhǔn)保留與語音時長完美對應(yīng),技術(shù)團隊基于大語言模型(LLM)構(gòu)建翻譯引擎,獨創(chuàng)性基于語音時長匹配、原聲翻譯標(biāo)準(zhǔn)與UP主獨特風(fēng)格構(gòu)建多目標(biāo)獎勵模型,并采用對抗式強化學(xué)習(xí)(RL)訓(xùn)練驅(qū)動模型持續(xù)進化與精準(zhǔn)適配。同時,引入Deep Research深度挖掘技術(shù),專攻專有名詞與流行梗點的翻譯難點,確保最終譯文準(zhǔn)確、地道、傳神。字幕擦除部分則結(jié)合了先進的多模態(tài)大模型OCR技術(shù)和基于STTN網(wǎng)絡(luò)的視頻重繪技術(shù),實現(xiàn)字幕區(qū)域的精準(zhǔn)檢測與高還原度擦除。
大鵬 小風(fēng)
校對 陶善工