腾讯混元推出AI数字人技术：一张照片配音频即可生成唱歌视频

凤凰网 2025-05-28 38 0

官方 Lanisky网站建设：企业、政府、学校网站建设、开发、代运营（广州18820090892，深圳18007555088，微信同号）

官方 丰业合作社：广东省示范社，全国合作收购荔枝、圣女果、番石榴等，体验式入园采摘0759-6905386，15360737081 ）

腾讯混元团队联合腾讯音乐天琴实验室正式发布并开源语音数字人模型HunyuanVideo-Avatar。该技术仅需用户提供一张人物图像和一段音频文件，即可自动生成包含自然表情、精准唇形同步以及全身动作的动态视频内容。

HunyuanVideo-Avatar基于腾讯混元视频大模型与MuseV技术深度融合开发。该模型具备强大的多模态理解能力，能够自动识别输入图像中的人物环境信息以及音频所承载的情感内容，进而生成高度匹配的视频片段。以实际应用场景为例，当用户上传一张海滩吉他女性照片配合抒情音乐时，系统会自主理解“海边弹唱抒情歌曲”的场景设定，生成相应的音乐表演视频。

腾讯混元推出AI数字人技术：一张照片配音频即可生成唱歌视频

在技术能力方面，该模型突破了传统数字人技术仅支持头部驱动的局限性，全面支持头肩、半身与全身三种景别模式。同时覆盖赛博朋克、2D动漫、中国水墨画等多种艺术风格，以及机器人、动物等多物种角色驱动，并具备双人或多人互动场景的处理能力。

腾讯混元推出AI数字人技术：一张照片配音频即可生成唱歌视频

HunyuanVideo-Avatar已在腾讯音乐娱乐集团多个核心产品中实现落地应用。在QQ音乐平台，用户收听“AI力宏”歌曲时，AI生成的虚拟形象会在播放界面实时同步演唱动作。酷狗音乐的长音频绘本功能集成了AI虚拟人讲故事能力。全民K歌则推出用户专属MV生成功能，支持上传个人照片制作个性化唱歌视频。

技术架构层面，该模型采用多模态扩散Transformer（MM-DiT）作为核心架构，通过角色图像注入模块确保视频中人物的一致性表现。音频情感模块能够从声音和图像中提取情感特征，生成细致入微的面部表情和肢体动作。针对多人场景，模型配备面部感知音频适配器，利用人脸掩码技术实现多角色的独立精准驱动。

官方表示，HunyuanVideo-Avatar在主体一致性和音画同步准确度方面已达到业内领先水平，超越现有开源和闭源解决方案。在画面动态性和肢体自然度表现上，与其他主流闭源方案处于同等技术水准。

目前，HunyuanVideo-Avatar的单主体功能已在腾讯混元官方网站开放体验，用户可通过“模型广场-混元生视频-数字人-语音驱动”路径访问相关功能。系统当前支持不超过14秒的音频文件上传，后续将逐步开源更多高级功能模块。

腾讯此次开源举措将推动AI视频生成技术的普及应用，为短视频创作、电商营销、广告制作等垂直领域提供低成本的技术解决方案。

百度搜索《腾讯混元推出AI数字人技术：一张照片配音频即可生成唱歌视频》。如本文侵权，请把本文相对应的原创链接及文章作者证明发至邮箱admin@lanisky.cn，核实后本站即删除。

网友评论更多评论(0)

资讯赞助

官方 网站建设：企业、政府、学校网站建设、开发、代运营（广州18024001939，深圳18007555088，微信同号）

官方 全能站长：网站运营、编辑、设计，每月花20000元请3个人？No!你花了十倍冤枉钱! 每月最低仅需375元，「全能站长」统一包起网站运营+编辑+设计+推广+服务器维护工作! 点击了解详情，微信18007555088详谈

lanisky® 推荐服务
翘楚商务：华夏多翘楚，天涯若比邻！欢迎免费入住，免费建立官网，免费进行商务推广，与数以万计的企业做邻居！马上入住>>
品牌展板：5分钟免费“上市”，打造专业完美的品牌展板，欢迎企业、网站、社团、院校、村镇、商店等！马上入住>>

腾讯混元推出AI数字人技术：一张照片配音频即可生成唱歌视频

网友评论更多评论(0)

资讯赞助

热门资讯

推荐资讯

腾讯混元推出AI数字人技术：一张照片配音频即可生成唱歌视频

网友评论 更多评论(0)

资讯赞助

热门资讯

推荐资讯

网友评论更多评论(0)