社招｜腾讯混元多模态再度上新，技术团队热招中！_高考志愿填报系统_最专业权威的志愿填报平台_高考志愿填报指南_职业招生_高考志愿_大学排名

今天，混元又双叒上新了！

我们正式推出并开源全新的多模态定制化视频生成工具HunyuanCustom。

融合了文本、图像、音频、视频等多模态输入生视频的能力。能实现单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑等能力，是一款具备高度控制力和生成质量的智能视频创作工具。

腾讯混元技术团队持续热招中！

我们有着充沛的算力资源、丰富的训练数据，以及腾讯业务生态下多元的应用场景。

期待更多热爱AI大模型领域的优秀人才加入腾讯混元，一同探索世界级前沿技术突破，开拓AI领域的无限未来！

社招岗位

混元AIGC算法研究员-多模态生成基模
混元AIGC算法研究员-文生3D
混元AIGC算法研究员-文生图
混元数据算法工程师
视觉多模态理解与生成大模型算法研究员
混元大模型算法工程师-大模型推理能力
混元大模型压缩算法工程师
混元大模型训练框架研发工程师
混元大模型-精调算法工程师-问答&RAG
混元多模态大模型算法工程师
……

校招&实习生招聘岗位

技术研究-计算机视觉方向/自然语言处理方向/机器学习方向/多模态方向/多媒体处理方向/高性能计算方向/数据科学方向
安全技术

今天，我们正式推出并开源全新的多模态定制化视频生成工具HunyuanCustom。

该模型基于混元视频生成大模型（HunyuanVideo）打造，在主体一致性效果超过现有的开源方案。

HunyuanCustom融合了文本、图像、音频、视频等多模态输入生视频的能力，是一款具备高度控制力和生成质量的智能视频创作工具。

HunyuanCustom模型能实现单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑等能力，其生成的视频与用户输入的参考主体能保持高度一致。其中，单主体生成能力已经开源并在混元官网（https://hunyuan.tencent.com/）上线，用户可以在“模型广场-图生视频-参考生视频”中体验，其他能力将于5月内陆续对外开源。

有了HunyuanCustom，用户只需上传一张包含目标人物或物体的图片，并提供一句文本描述（例如“他正在遛狗”），HunyuanCustom 就能识别出图片中的身份信息，并在完全不同的动作、服饰与场景中生成连贯自然的视频内容。

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

除了单主体以外，这个能力同样能实现多主体视频的生成，用户提供一张人物和一张物体的照片（比如一包薯片和一名男子的照片），并输入文字描述（比如“一名男子正在游泳池旁边，手里拿着薯片进行展示”），即可能让这两个主体按要求出现在视频里。

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

此外，HunyuanCustom 不止于图像和文本的配合，还具备强大的扩展能力。在音频驱动（单主体）模式下，用户可以上传人物图像并配上音频语音，模型便可生成人物在任意场景中说话、唱歌或进行其他音视频同步表演的效果，广泛适用于数字人直播、虚拟客服、教育演示等场景。

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

在视频驱动模式下，HunyuanCustom 支持将图片中的人物或物体自然地替换或插入到任意视频片段中，进行创意植入或场景扩展，轻松实现视频重构与内容增强。

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

此前大部分的视频生成模型主要能实现文生视频和图生视频。文生视频每次均根据本文提示词重新生成，很难持续保持人物和场景的一致性。而图像生成视频模型主要实现的是“让图片动起来”。例如，上传一张人物照片，最终生成的视频通常只能在照片的原始服饰、姿态和场景下做出一些固定表情或动作，服装、背景和姿态几乎无法修改。

但在部分场景下，创作者希望保持人物一致的情况下，改变人物所在的环境和动作。此前的视频生成模型无法实现，多模态视频生成模型HunyuanCustom则可以很好地满足创作者的需求，通过引入身份增强机制和多模态融合模块，真正实现了“图像提供身份，文本定义一切”。

HunyuanCustom可以满足视频创作者、短视频博主、电商从业者、广告创意人等不同用户和场景的需求。比如，在广告场景中，可以快捷变换商品背景、模特可以快速换衣服；在电商和客服场景中，可以快速低成本制作出生动的数字人商品介绍视频，或者制作特定穿着的数字人客服视频；在影视场景中，快速制作短剧和小故事短视频。

HunyuanCustom 在“可控性”和“一致性”上表现出色。“可控性”指HunyuanCustom具有较强的控制信号跟随能力，包括遵循来自文本、参考主体图像和语音等多种模态信号的控制，可较好地生成用户需要对象、场景和动作。这主要得益于混元强大的多模态理解与文本驱动机制。通过业内领先的主体一致性建模能力，HunyuanCustom 在单人、非人物体、多主体交互等多种场景，都能保持身份特征在视频全程的一致性与连贯性。人物不会“变脸”，物体不会“漂移”。

同时，HunyuanCustom 具备极高的视频生成质量。得益于腾讯混元视频大模型的强大能力，该模型在人物细节还原、动作流畅性、光影真实度等方面都达到业内领先水平。无论是生成虚拟数字人、打造品牌广告视频，还是进行创意视觉表达，HunyuanCustom都能提供高水准输出。

更多的技术细节，欢迎查阅开源项目官网以及官方技术报告《HunyuanCustom: a multimodal-driven architecture for customized video generation》。

【项目相关链接】

体验入口：https://hunyuan.tencent.com/modelSquare/home/play?modelId=192（或点击文末阅读原文）
项目官网：
https://hunyuancustom.github.io/
代码：
https://github.com/Tencent/HunyuanCustom
技术报告：
https://arxiv.org/pdf/2505.04512
Hugging Face：
https://huggingface.co/tencent/HunyuanCustom
CNB：
https://cnb.cool/tencent/hunyuan/HunyuanCustom

查

测

填

课程

试题

讲堂

社招｜腾讯混元多模态再度上新，技术团队热招中！

简介

新手帮助

官方声明

热门应用

查

测

填

课程

试题

讲堂

社招｜腾讯混元多模态再度上新，技术团队热招中！

简介

新手帮助

官方声明

热门应用

安徽

选择地区