

编者按

今日白露,深圳理工大学首届本科生的第一个暑假也到了尾声,明天将开启大二学年的学习与生活。
回望这个暑假,除了休整身心外,还有不少深小理或跟着导师泡在实验室里做实验,或进行社会实践、调研产业发展,或走进国际名校开展交流……着实过了一个“高能量”假期。
今天,《深小理的高能量暑假》开栏,首期带大家一起来了解2024级本科生杨晓东和他的团队成员在这个暑假,如何通过泡实验室把兴趣爱好变成看得见的成绩,并获得国赛二等奖。

杨晓东
深圳理工大学2024级本科生
这个夏天,我和团队一起带着“AI 漫画助手”项目,从省赛一等奖冲到了国赛二等奖的领奖台!
最初萌生做这个项目的想法其实很简单:我和队友都是动漫迷,想尝试使用文生图模型来生成连环漫画。
上半年备赛广东省赛时,我们首先着手筛选开发平台,最终选定了容易上手且开源的ComfyUI和Dify,来搭建交互式漫画生成平台。这两个工具都是可视化工作流编排,这一阶段的开发工作难度相对较低。为了冲击省赛一等奖,我提出将核心研发方向从文生图模型转向文生视频模型,放弃Dify智能体平台,转而在原生Python环境下开发新项目,以便最大程度借助Python丰富的社区生态资源。
问题很快出现,如何让文生视频技术落地成有差异化的应用?当时主流的文生视频模型稳定生成视频时长在5到10秒左右,这么短的时长能做什么?因此,延长视频有效时长成了我们的首要目标。
可行方案虽多,但受限于项目经费,像“实时文生视频生成“这种相对高成本的方法无法落地。“既然实时生成不行,能不能提前缓存动画再接入?”这个思路其实并不新鲜,当时已有不少开源项目在尝试,多数聚焦于虚拟主播领域,缓存方式主要是重复利用已生成的视频帧。我们以“缓存视频帧”为切入点,明确了“动漫人物动作控制系统”的整体框架:先为单个动漫角色生成站立、蹲下、坐下、走路等多样化动作的视频素材,再通过控制网将角色行为与指令绑定,让它能 “听懂” 我们的指令并作出对应动作——有点像能互动的虚拟桌宠。
而真正决定比赛胜负的关键正是控制模型的训练和部署。现在回头看,省级比赛更看重创新思路,对演示效果和模型成熟度的要求相对宽松。也正因 “动漫人物动作控制” 的想法足够新颖,我们才获得了晋级国赛的资格。但进入国赛后,我和队友达成了共识:必须把这个 “实验室阶段的雏形产品” 打磨成能落地的成熟应用。

初代虚拟桌宠,没有对话窗口,控制台全是调试信息
于是我们重启了Dify平台,同时恶补Python的UI 编排和Web开发知识,全力推进产品迭代:首先优化控制模型,通过增加训练样本量和神经网络层数,大幅减少了动作 “跳帧” 现象;其次重构交互设计,简化UI界面、新增对话窗口,剔除了控制台的冗余调试信息;最后接入大语言模型替代原先 “写死” 的指令标签,实现了用自然语言与虚拟角色直接对话。

国赛虚拟桌宠,ui优化,接入大语言模型,画面和动作更加连贯
举办国赛的城市长春,给我的第一印象就是热情。一路上,操着爽朗东北话的出租车司机总会主动自豪地介绍当地的景点与美食。
在决赛答辩那天,我本来特别紧张,没想到有一位图像生成领域的专家评委并没有提出刁钻问题,反而从专业角度为项目提供了优化方向与建议,这份来自行业前辈的包容与鼓励,让我既意外又感动。
答辩结束后,我和队友抽了半天时间去看长白山天池,站在山顶,晴空万里。颁奖之际,当听到 “全国二等奖” 的获奖名单念到我们项目时,脑海里瞬间闪过整个暑假的画面:宿舍里彻夜不熄的灯光、反复调试却失败的代码、陪伴我们熬夜的咖啡…… 那些熬到凌晨的日子,终于有了最圆满的答案。
我们的指导老师、计算机科学与控制工程学院助理教授韩瑞泽总说:“兴趣是最大的动力。” 其实这个暑假我更明白,光有兴趣不够,还要有啃硬骨头的坚持。从一开始只会跟着论文复现代码,到如今能自主设计模型架构、标注样本,我不仅摸清了项目开发的全流程,更学会了从容应对问题——预算不够就换思路,模型不行就反复测试,办法总比困难多。
比赛结束了,但 “AI漫画助手” 的开发并没有停下。接下来的半个月时间里,我和团队继续探索通过人体关键点检测技术提升动漫角色的动作精准度。
为了攻克这个难题,我在B站查阅资料、学习相关课程,系统了解了人体关键点Pose模型的训练方法,随后着手准备动漫人体关键点数据集。很快,我就深刻体会到动漫人体关键点数据标注的不易:标注质量一旦过低,模型几乎无法正常工作;而标注质量的好坏,还需要通过反复测试对比来验证。
数据集准备就绪后,我们进入模型框架选型阶段。在MMpose框架下,我们对比了YOLOv11-X和RTMPose-X两款模型,经过多轮调试发现,RTMPose-X的 “热力图定位法” 更适配动漫角色——它并非直接定位单个关键点,而是通过概率分布来识别关键点位置,对动漫中夸张的肢体形态容忍度更高。

人体关键点检测结果和概率分布热力图
为了进一步优化模型精度,我亲手标注了75张动漫人物样本关键点,按6:1划分训练集和验证集,盯着模型训练了100轮。当训练到第80轮时,模型测试精度达到0.9134COCO/AP,这个结果基本能满足后续开发需求了。
虚拟数字产业与数字经济是未来经济发展的重要方向之一,众多动漫爱好者与技术开发者都在为这个领域的创新而努力。回望这个夏天,我已不再是当初那个只懂动漫的大一学生,而是真正以开发者的身份,站在了数字经济的浪潮里。
这个夏天,完结撒花。
各位深小理们
你的暑假又是怎样度过的呢?
欢迎跟我们分享~
投稿邮箱:
wangzhikang@suat-sz.edu.cn
截止日期:
2025年9月21日18:00

来源:党委组织宣传部
文字:杨晓东
责编:王璐
审校:李韵、张吟越、王之康

为SUAT点个赞和在看吧
高招云直播