【消費電子實驗室-2025/8/28】今日午間,騰訊混元宣布開源端到端視頻音效生成模型 Hunyuan-Foley,用戶只需輸入視頻和文字,就能為視頻匹配電影級音效。 根據(jù)官方介紹,HunyuanVideo-Foley 不僅打破了 AI 生成的視頻只能“看”不能“聽” 的局限,讓無聲 AI 視頻成為歷史,更是真正做到了“看懂畫面、讀懂文字、配準(zhǔn)聲音”,帶來沉浸式視聽體驗。這款音效生成工具可廣泛應(yīng)用于短視頻創(chuàng)作、電影制作、廣告創(chuàng)意和游戲開發(fā)等場景。 文本描述:Rustling and crunching of leaves and twigs under the fox kit's paws. 混元團(tuán)隊開發(fā)了一個全面的數(shù)據(jù)處理管道,能夠自動化標(biāo)注和過濾收集的音視頻數(shù)據(jù),構(gòu)建了約 10 萬小時級的高質(zhì)量 TV2A 數(shù)據(jù)集,為模型訓(xùn)練提供了強(qiáng)大支撐,使得模型擁有強(qiáng)大的泛化能力,能夠在各種復(fù)雜的視頻條件下生成音畫一致、語義對齊的高質(zhì)量音頻,包括音效與背景音樂。生成的音頻能夠與無聲視頻相結(jié)合,極大提升了視頻的真實感和沉浸感。 消費電子實驗室附有關(guān)鏈接如下: 體驗入口:https://hunyuan.tencent.com/video/zh?tabIndex=0 項目官網(wǎng):https://szczesnys.github.io/hunyuanvideo-foley/ 代碼:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley 技術(shù)報告:https://arxiv.org/abs/2508.16930 Hugging Face:https://huggingface.co/tencent/HunyuanVideo-Foley |
合作伙伴
網(wǎng)站介紹 廣告業(yè)務(wù) 歡迎投稿 招聘信息 聯(lián)系我們 友情鏈接 法律顧問 網(wǎng)站地圖
CopyRight 2012消費電子實驗室 版權(quán)所有 京ICP備12048044號-4號
電話:13701384402 郵編:100040 郵箱:BICQ6688@QQ.COM