
今天,腾讯混元再度发布新模型——业内首个毫秒级响应的实时生图大模型腾讯混元图像2.0模型(Hunyuan Image 2.0),实时生图、超写实画质,主打的就是又快又好!
图像生成,第一次真正进入了「所想即所得」的实时时代。
持续创新、飞速迭代的腾讯混元技术团队热招中!
我们有着充沛的算力资源、丰富的训练数据,以及腾讯业务生态下多元的应用场景,给予你不设上限的战场和空间。
期待更多热爱AI大模型的优秀人才加入腾讯混元,共同探索智能上限,一起构建向善的AGI!
社招岗位
混元AIGC算法研究员-文生图
混元AIGC算法研究员-文生3D
混元AIGC算法研究员-多模态生成基模
混元数据算法工程师
视觉多模态理解与生成大模型算法研究员
混元大模型算法工程师-大模型推理能力
混元大模型压缩算法工程师
混元大模型训练框架研发工程师
混元大模型-精调算法工程师-问答&RAG
混元多模态大模型算法工程师
……

校招&实习生招聘岗位
技术研究-计算机视觉方向/自然语言处理方向/机器学习方向/多模态方向/多媒体处理方向/高性能计算方向/数据科学方向
安全技术

输入文字指令后,多久能得到一张图?
目前业内文生图模型推理响应时长一般在5-10秒。
听起来也不长,好像可以等。
但,如果体验过「毫秒级」生图,可能这几秒,真等不了。
今天,腾讯混元发布实时生图模型——腾讯混元图像2.0模型(Hunyuan Image 2.0)。
主打的就是快。它支持文生图和绘画生图。无论输入文字指令、语音指令,或上传本地图、在线绘制图,都能毫秒级获得高质感图像。
提交申请,体验毫秒级生图(目前仅支持电脑端体验)👇🏻
https://hunyuan.tencent.com/
在混元实时生图模型,当你输入第一个字,图片就已经开始生成,且不断跟随指令词的变化而变化。
👆🏻输入「一位女士」时,模型就生成了一张女士证件照片,继续输入「风景照」,图片立即变为一张外景人物照片,继续输入「在沙漠中」,图片中照片背景清晰为沙漠,继续输入「扎着头发」,图片中女士原本的披肩长发立马成为马尾扎发,继续输入「回眸一笑」,图片中女士看向了镜头微笑。最终,得到一张,「一位扎着头发的女士,在沙漠中回眸冲镜头微笑」的人物摄影照片:
如果想对生成的图片做调整,不用开盲盒式「再来一次」,或「重新输入指令」。直接在原有指令词基础上,做任意更改,模型都可以实时响应调整。
比如,用实时模型生成了一张「胖胖橘猫,在温暖灯光下,围着围裙,拿着锅铲炒菜,等我回家」的图片👇🏻

看了看图,想让橘猫换「红色」那条围裙,也把「厨师帽」带上:
又想让「胖胖橘猫」变成「胖胖企鹅」、「胖胖老虎」、「胖胖狮子」:
……
任意想法的任何变动,都能即输(入)即得(到)。
「毫秒级」响应的即时交互,对于创作者和普通用户,都能带来有别于平常的体验。使生图过程中无论是调整、启发、再调整、到最终的交付,都一气呵成。
「文生图」还支持上传参考图,用户可自主设置「图片强度」、选择参考「主体」或「轮廓特征」,结合文本指令生成新的图像。

比如,选择参考图片「主体」,实时生图模型可自动识别提取,保持新图片与参考图主体特征的统一。
👇🏻在赛博朋克的夜景里,戴着非常科技感的眼镜,黄色的环境光,背景有高楼

当然,如果你懒得敲字,也可输入语音。
腾讯混元图像2.0模型可实时将语音转译成文本指令,生图过程和直接输入文本一样丝滑。目前支持中文、英文双语。

「实时绘画板」,提供了画笔画布。在左侧画布绘制线稿草图时,右侧预览板可结合文本指令,同步生成上色效果。
当然,如果你跟小编一样是绘画小白,也有的玩用!
上传任何图片,输入指令,模型都能实时编辑,生成新的图片。
比如,上传一张线稿图,即自动填色,输入指令后,模型就实时响应,生成新图。
👇🏻在左侧画布上传一张小鸡线稿图,输入指令「戴着墨镜,胸前戴着珍珠项链,站在草坪上」。
再如,可以用画笔画布改图。👇🏻上传一张毛绒小猫图片,简单两笔给它画条项圈,输入文本指令「带着条项圈,项圈上有个铃铛,站在家门口」。

即可得到:

还有,在画布上添加多个图片,输入指令「把每张图片中元素融合在一起」,就能自由DIY,生成新图。感兴趣可以上手体验发掘~

Hunyuan Image2.0模型,如何做到实时生图?同时提升图片效果的写实性和质感?
简单讲,我们自研了超高压缩倍率的图像编解码器,可以大幅降低图像编码序列长度,降低生图时耗。
同时,选择适配多模态大语言模型(MLLM)作为文本编码器,有效提升模型的语义遵从和匹配能力,实现快速理解实时生图。
根据GenEval评估基准,Hunyuan Image2.0模型的语义响应能力,远高于同类模型。

在生成效果优化方面,我们自研了对抗蒸馏方案,结合艺术强化学习算法,实现少步、高质量生成更符合现实需求写实图像,降低“AI味”。
另外,HunyuanImage2.0升级了模型架构,相比HunyuanDiT,将参数提升了一个数量级,更大的模型参数保证了更强的模型性能上限。
推理速度一直是影响文生图模型加速应用的关键瓶颈。期待实时生图的全新体验,能进一步推动C端用户和设计行业从业者,提升交互意愿,降低创作成本、发散创意思维。

快来试试,不用「等几秒」,不用「反复输入及调整指令」的实时生图模型。
one more thing:腾讯混元原生多模态图像生成大模型,已经在路上!


✦
学校招生就业处联系方式
✦
联系电话
招生业务咨询
020-87818781020-87818098020-87810097020-87818068020-87818808就业(招聘)业务咨询
020-87818718020-87818012对外交流业务咨询
020-87818235咨询QQ群
专升本咨询群:616275042
普高本科咨询群:20100151
招生网
https://zs.seig.edu.cn/
就业网https://job.seig.edu.cn/
❖
热忱欢迎广大考生及家长联系和咨询
每位老师都会竭诚为您答疑解惑
助力每一个学子实现梦想
亲爱的同学们
请全力以赴去勇敢追梦吧
学IT到广软
梦开始的地方
我们等你来

转自:腾讯招聘
编辑:林嘉怡
责编:吴树锦
审核:吴嘉帆
复审:林青映
终审:夏丹
高招云直播