金融界 2025 年 5 月 8 日消息,國(guó)家知識(shí)產(chǎn)權(quán)局信息顯示,北京中科金財(cái)科技股份有限公司申請(qǐng)一項(xiàng)名為“一種基于擴(kuò)散模型的短劇人物視頻翻譯方法”的專(zhuān)利,公開(kāi)號(hào) CN119942398A,申請(qǐng)日期為 2024 年 12 月翻譯。
專(zhuān)利摘要顯示,本發(fā)明公開(kāi)了一種基于擴(kuò)散模型的短劇人物視頻翻譯方法,包括以下步驟:首先將視頻幀中的圖片按固定尺寸進(jìn)行切分,并與原始圖像一起組成一個(gè)批次送入人臉檢測(cè)模型進(jìn)行檢測(cè);通過(guò) GPEN 模型捕捉源人臉的細(xì)節(jié)特征,并對(duì)源人臉的細(xì)節(jié)特征進(jìn)行增強(qiáng);通過(guò) CRNet 增強(qiáng)目標(biāo)圖像的亮度和對(duì)比度;通過(guò)解耦網(wǎng)絡(luò)對(duì)源人臉的細(xì)節(jié)特征進(jìn)行有效分離;將音頻信號(hào)輸入 AudioNet 網(wǎng)絡(luò)轉(zhuǎn)換成降噪后的特征表示;通過(guò)多模態(tài)的融合機(jī)制將換臉與口型對(duì)齊任務(wù)聯(lián)合起來(lái),進(jìn)行端到端的訓(xùn)練翻譯。本發(fā)明提出了一套完整的處理流程,涵蓋從人臉檢測(cè)到圖像增強(qiáng)、身份信息提取、音頻特征處理以及最終的換臉和口型對(duì)齊模型訓(xùn)練,確保在多模態(tài)輸入下生成自然流暢的視頻翻譯效果。
天眼查資料顯示,北京中科金財(cái)科技股份有限公司,成立于2003年,位于北京市,是一家以從事科技推廣和應(yīng)用服務(wù)業(yè)為主的企業(yè)翻譯。企業(yè)注冊(cè)資本34005.1995萬(wàn)人民幣。通過(guò)天眼查大數(shù)據(jù)分析,北京中科金財(cái)科技股份有限公司共對(duì)外投資了21家企業(yè),參與招投標(biāo)項(xiàng)目3788次,財(cái)產(chǎn)線索方面有商標(biāo)信息38條,專(zhuān)利信息111條,此外企業(yè)還擁有行政許可14個(gè)。
來(lái)源:金融界