近期来自MIT、谷歌、马普所等机构联手打造DragGAN新模型可谓是惊呆众人,项目研究人员展示了控制GAN进行图像处理的新发放。
通过使用“拖动”图像中的任意点让用户交互式精准控制生产图像的姿态、动作、形状、表情等等。
可能有人要问,什么是GAN?GAN是生成对抗网络,是非监督式学习的一种方法,透过两个神经网路相互博弈的方式进行学习(来自维基百科)。是由一个生产网络与一个判别网络组成。和目前我们比较常接触的diffusion扩散模型,是2个不同的模型。
(若大家对于GAN生产对抗网络感兴趣,可自行搜索相关资料进行学习)
在DragGAN中,仅需要通过红点和蓝点的拖动,即可实现图像内容的修改(可见下方官方内容)。
DragGAN这种简单的交互式操控方案,可以运用到极其广泛的场景中,包括在Stable Diffusion、Midjourney等AI绘图工具中生成的图像也可以使用DragGAN来进行二次编辑和微调细节,从而达到最终满意的效果。
下面给大家展示一下官方介绍中的内容:
DragGAN中用户仅需要设置几个操作点(红点),目标点(蓝点)以及可选的表示可移动区域的mask(亮区)。然后,模型就会自动完成后续的图像生成。其中,动态监控步骤会让操作点(红点)向目标点(蓝点)移动,点追踪步骤则通过更新操作点来追踪图像中的对象。此过程会一直持续,直到操作点达到其相应的目标点。
从演示视频中可以看到,选中狮子鼻尖处并指向需要拖动的区域,即可调整狮子的头部转向。
选中模特裤子后,即可拉长模特裤子的长度
快速调整大象的动作姿态
调整马的步伐姿态
选中狗鼻子后,可以让原本闭口的狗张开嘴巴,也可以让狗的耳朵竖起来
根据官方消息,将在6月份公开代码,大家可以持续关注相关消息,相信这次DragGAN的发布,对于后续AI创作带来更多无限的可能。
官方文档:https://vcai.mpi-inf.mpg.de/projects/DragGAN/
一个非官方的演示模型:https://github.com/Zeqiang-Lai/DragGAN
你不可错过的好内容
《在Stable-Diffusion使用机甲模型|创造属于自己的机甲|大模型&LoRA模型》
https://huke88.com/article/8105.html
《LoRA模型推荐:3个洛丽塔(lolita)服饰LoRA模型|Stable-Diffusion|AI绘画》
https://huke88.com/article/8103.html
《ChatGPT+Stable-Diffusion制作儿童插画图集 | 5分钟轻松上手 | LoRA模型推荐》
https://huke88.com/article/8102.html
《Stable-Diffusion小知识:提示词相关性(CFG Scale)》
https://huke88.com/article/8088.html
《Stable-Diffusion小知识:什么是VAE模型?》
https://huke88.com/article/8085.html
暂无评论
违反法律法规
侵犯个人权益
有害网站环境