您当前的浏览器版本过低,请您升级浏览器
为了更好的使用优志愿产品,点击下载

谷歌浏览器

360极速浏览器

360安全浏览器

QQ浏览器

火狐浏览器

全国服务热线:400-181-5008
祝广大考生金榜题名
开通VIP

收藏

分享

社招|腾讯混元多模态再度上新,技术团队热招中!

| 来源:腾讯 2237

今天,混元又双叒上新了!

我们正式推出并开源全新的多模态定制化视频生成工具HunyuanCustom。

融合了文本、图像、音频、视频等多模态输入生视频的能力。能实现单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑等能力,是一款具备高度控制力和生成质量的智能视频创作工具。

腾讯混元技术团队持续热招中!

我们有着充沛的算力资源、丰富的训练数据,以及腾讯业务生态下多元的应用场景。

期待更多热爱AI大模型领域的优秀人才加入腾讯混元,一同探索世界级前沿技术突破,开拓AI领域的无限未来!

社招岗位

  • 混元AIGC算法研究员-多模态生成基模

  • 混元AIGC算法研究员-文生3D

  • 混元AIGC算法研究员-文生图

  • 混元数据算法工程师

  • 视觉多模态理解与生成大模型算法研究员

  • 混元大模型算法工程师-大模型推理能力

  • 混元大模型压缩算法工程师

  • 混元大模型训练框架研发工程师

  • 混元大模型-精调算法工程师-问答&RAG

  • 混元多模态大模型算法工程师

  • ……

校招&实习生招聘岗位

  • 技术研究-计算机视觉方向/自然语言处理方向/机器学习方向/多模态方向/多媒体处理方向/高性能计算方向/数据科学方向

  • 安全技术

今天,我们正式推出并开源全新的多模态定制化视频生成工具HunyuanCustom。

该模型基于混元视频生成大模型(HunyuanVideo)打造,在主体一致性效果超过现有的开源方案。

HunyuanCustom融合了文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制力和生成质量的智能视频创作工具

HunyuanCustom模型能实现单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑等能力,其生成的视频与用户输入的参考主体能保持高度一致。其中,单主体生成能力已经开源并在混元官网(https://hunyuan.tencent.com/)上线,用户可以在“模型广场-图生视频-参考生视频”中体验,其他能力将于5月内陆续对外开源。

有了HunyuanCustom,用户只需上传一张包含目标人物或物体的图片,并提供一句文本描述(例如“他正在遛狗”),HunyuanCustom 就能识别出图片中的身份信息,并在完全不同的动作、服饰与场景中生成连贯自然的视频内容。

已关注

关注

重播 分享

关闭

观看更多

更多

    退出全屏

    视频加载失败,请刷新页面再试

    刷新

    视频详情

    除了单主体以外,这个能力同样能实现多主体视频的生成,用户提供一张人物和一张物体的照片(比如一包薯片和一名男子的照片),并输入文字描述(比如“一名男子正在游泳池旁边,手里拿着薯片进行展示”),即可能让这两个主体按要求出现在视频里。

    已关注

    关注

    重播 分享

    关闭

    观看更多

    更多

      退出全屏

      视频加载失败,请刷新页面再试

      刷新

      视频详情

      此外,HunyuanCustom 不止于图像和文本的配合,还具备强大的扩展能力。在音频驱动(单主体)模式下,用户可以上传人物图像并配上音频语音,模型便可生成人物在任意场景中说话、唱歌或进行其他音视频同步表演的效果,广泛适用于数字人直播、虚拟客服、教育演示等场景。

      已关注

      关注

      重播 分享

      关闭

      观看更多

      更多

        退出全屏

        视频加载失败,请刷新页面再试

        刷新

        视频详情

        已关注

        关注

        重播 分享

        关闭

        观看更多

        更多

          退出全屏

          视频加载失败,请刷新页面再试

          刷新

          视频详情

          已关注

          关注

          重播 分享

          关闭

          观看更多

          更多

            退出全屏

            视频加载失败,请刷新页面再试

            刷新

            视频详情

            在视频驱动模式下,HunyuanCustom 支持将图片中的人物或物体自然地替换或插入到任意视频片段中,进行创意植入或场景扩展,轻松实现视频重构与内容增强。

            已关注

            关注

            重播 分享

            关闭

            观看更多

            更多

              退出全屏

              视频加载失败,请刷新页面再试

              刷新

              视频详情

              此前大部分的视频生成模型主要能实现文生视频和图生视频。文生视频每次均根据本文提示词重新生成,很难持续保持人物和场景的一致性。而图像生成视频模型主要实现的是“让图片动起来”。例如,上传一张人物照片,最终生成的视频通常只能在照片的原始服饰、姿态和场景下做出一些固定表情或动作,服装、背景和姿态几乎无法修改。

              但在部分场景下,创作者希望保持人物一致的情况下,改变人物所在的环境和动作。此前的视频生成模型无法实现,多模态视频生成模型HunyuanCustom则可以很好地满足创作者的需求,通过引入身份增强机制和多模态融合模块,真正实现了“图像提供身份,文本定义一切”。

              HunyuanCustom可以满足视频创作者、短视频博主、电商从业者、广告创意人等不同用户和场景的需求。比如,在广告场景中,可以快捷变换商品背景、模特可以快速换衣服;在电商和客服场景中,可以快速低成本制作出生动的数字人商品介绍视频,或者制作特定穿着的数字人客服视频;在影视场景中,快速制作短剧和小故事短视频。

              HunyuanCustom 在可控性一致性上表现出色。“可控性”指HunyuanCustom具有较强的控制信号跟随能力,包括遵循来自文本、参考主体图像和语音等多种模态信号的控制,可较好地生成用户需要对象、场景和动作。这主要得益于混元强大的多模态理解与文本驱动机制。通过业内领先的主体一致性建模能力,HunyuanCustom 在单人、非人物体、多主体交互等多种场景,都能保持身份特征在视频全程的一致性与连贯性。人物不会“变脸”,物体不会“漂移”。

              同时,HunyuanCustom 具备极高的视频生成质量。得益于腾讯混元视频大模型的强大能力,该模型在人物细节还原、动作流畅性、光影真实度等方面都达到业内领先水平。无论是生成虚拟数字人、打造品牌广告视频,还是进行创意视觉表达,HunyuanCustom都能提供高水准输出。

              更多的技术细节,欢迎查阅开源项目官网以及官方技术报告《HunyuanCustom: a multimodal-driven architecture for customized video generation》

              【项目相关链接】

              • 体验入口:https://hunyuan.tencent.com/modelSquare/home/play?modelId=192(或点击文末阅读原文)

              • 项目官网

                https://hunyuancustom.github.io/

              • 代码

                https://github.com/Tencent/HunyuanCustom

              • 技术报告

                https://arxiv.org/pdf/2505.04512

              • Hugging Face:

                https://huggingface.co/tencent/HunyuanCustom

              • CNB:

                https://cnb.cool/tencent/hunyuan/HunyuanCustom

              评论
              说点什么吧
              发布

              手机扫一扫下载APP

              400-181-5008

              优志愿将竭力为您提供帮助

              (免长话费 )

              教APP备3100148号