欢迎光临托普仕留学!
托普仕留学

专注美国前30院校
规划与申请

400 - 686 - 9991

官方客服

托普仕留学 当前位置: 托普仕留学 > 美国院校资讯 > 正文
MIT团队开发AI文生图Agent:模拟人类素描且人机交互创作
上传时间: 2025-06-05 11:34:24           浏览量: 153

当你试图交流或理解某些想法时,语言往往力有不逮。有时更高效的方式是绘制简单的概念草图——比如用电路图来解析系统运作原理。但若人工智能能协助我们探索这种可视化表达呢?当前,多数AI系统虽擅长创作写实油画或卡通插画,却难以把握素描的精髓:那种逐笔勾勒、反复迭代的过程,正是人类借以头脑风暴并修正创意表达的关键。而接下来托普仕留学老师带来了好消息,目前,MIT团队开发AI文生图Agent,有助于更快理解,下面就详细来看看吧!

  近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)与斯坦福大学联合开发的新型绘图系统“SketchAgent”改变了这一现状。该系统采用多模态语言模型,可在数秒内将自然语言指令转化为草图。无论是独立创作还是人机协作,它都能完成绘制,既可以配合人类共同作画,也能根据分段文字描述逐步构建草图。

MIT团队开发AI文生图Agent.png

  该论文第一作者、CSAIL 博士后研究员 Yael Vinker 指出,这一系统开创了人机交互的更自然方式。“人们往往没有意识到自己日常绘制了多少草图。人类会用速写来梳理思路或研讨创意,我们的工具旨在模拟这一过程,让多模态语言模型能更有效地辅助人类实现视觉化表达。”

  虽然像DALL-E 3 这样的文本转图像模型可以创作出引人入胜的绘画,但它们缺少素描的一个关键要素:自发的、富有创意的过程,在这个过程中,每一笔都可能影响整体设计。SketchAgent 的绘画则被建模为一系列笔触,看起来更自然流畅,就像人类的素描一样。

  先前的研究依赖人类绘制数据集进行模型训练,其规模与多样性往往受限。SketchAgent 则另辟蹊径,直接调用预训练语言模型——这些模型虽掌握海量概念,却不懂如何素描。当研究者教会语言模型这种笔触序列创作法后,SketchAgent 开始绘制它从未明确训练过的各种概念。

  SketchAgent 通过独创的“素描语言”教会 AI 模型逐笔作画——无需依赖训练数据,而是将草图转化为网格上带编号的笔触序列。研究人员以房屋为例演示绘制过程:每道笔触都标注对应元素,使模型能够举一反三理解新概念。

  作为一种冻结参数的多模态大语言模型,SketchAgent 接收三类输入:包含素描语言规范的系统提示;带有具体任务指令的用户提示(如“画一条鲨鱼”);空白绘图画布。根据任务要求,该系统会生成代表笔触序列的文本响应。这些笔触数据经处理转化为矢量图形后呈现在画布上。画布可被循环利用于两种场景:配合更新后的提示重新输入模型,用于执行新增任务或修改草图;供人类用户调取以实现协作绘图。

  Vinker 团队也验证了 SketchAgent 究竟是与人类协同创作,还是在独立创作。他们在协作模式下测试了该系统:人类与 AI 需合力完成特定概念的绘制。移除 AI 贡献的笔触后,团队发现这些笔触对最终成图至关重要。例如删除代表桅杆的人工笔触后,整幅帆船草图便难以辨认。

  也就是说,通过研究人员设计的基于 Web 的协作式草图绘制环境,用户可以和 SketchAgent 轮流在共享画布上绘制,根据给定的文本概念创作出可识别的草图。参与者以两种模式绘制概念:单人模式(各自独立绘制)和协作模式(用户和 SketchAgent 协作绘制,每次添加一笔,直到双方都对最终效果满意为止)。绿色表示用户绘制的笔触,粉色表示 SketchAgent 绘制的笔触 。

  用户还可以通过聊天对话反复编辑他们的草图。研究团队演示了该系统创作的各种概念草图:机器人、蝴蝶、DNA双螺旋、流程图,甚至悉尼歌剧院等抽象图案。未来,该工具或可发展为互动艺术游戏,既能辅助教师和研究者图解复杂概念,也能为用户提供快速绘画教学。

  此外,用户还可以使用 SketchAgent 将草图变为动图。

  在另一个实验中,研究者为 SketchAgent 接入不同多模态语言模型进行测评。结果发现,Claude 3.5 Sonnet 生成的矢量图形(可转换为高清图像的文本文件)最具人类特质,表现优于 GPT-4o 和 Claude 3 Opus 等模型。“这一结果暗示该模型处理视觉信息的方式与众不同。”合著者 Tamar Rott Shaham 指出。

  她补充道,SketchAgent 可能成为超越文本交互的新型人机协作界面:“随着模型理解草图等多元模态的能力提升,用户将获得更直觉化、类人的表达方式,这能显著丰富交互体验,提升 AI 的易用性与适应性。”

  尽管SketchAgent 展现出巨大的潜力,目前仍无法完成专业素描。它能用简笔画呈现基础概念,但对徽标、句子、独角兽等复杂生物及特定人物形象的绘制仍力不从心。协作过程中,模型偶现理解偏差——例如画出双头兔。Vinker 解释,这可能源于其“思维链”推理机制:当模型将绘图任务分解为多个步骤时,可能误解人类对哪部分草图做出贡献。研究者考虑通过扩散模型合成数据来优化这些绘图技能。

  此外,该系统常需多轮提示才能生成拟人涂鸦。未来团队计划优化交互界面,简化与多模态语言模型的协作绘图流程。但该工具已证明:通过人机逐步协作,AI 有望以人类思维方式绘制多元概念,最终实现更契合设计意图的成果。

  以上是关于MIT团队开发AI文生图Agent的全部内容,如果还想了解更多关于美国留学申请方面的相关知识的,欢迎随时联系Tops6868或在线咨询,托普仕留学专注美国前30高校申请,多年名校申请经验助力你的留学申请。

托普仕留学