外网爆火的「你说我画」自动作画工具,我们测了下,有 1 款真的强
先来欣赏几张美丽的场景图吧。
色彩搭配和谐、构图得当有冲击力,一眼看过去大部分的人也许都会认为它们是出自哪位技艺成熟的画家之手,然而以上图片其实均截取自 YouTuber Quick-Eyed Sky 的 Disco Diffusion 三分钟展示视频。
而 Disco Diffusion 是一个输入关键词就出图的 AI 创作程序,它目前为 GitHub 的开源项目,任何人都可以玩。但由于还没像软件那样封装起来,目前只是在谷歌的 Colaboratory(又称 Colab)中以代码的形式呈现。
近年来,人工智能技术发展迅速,在艺术创作领域,像 AI 写作、AI 绘画、甚至 AI 编曲等早已不是什么新鲜事。随着更加友好的人机交互界面的推广,如今普通大众只要打开开发者提供的网页,轻松几步就能体验 AI 技术的魅力了。
这次我们给出了四款号称用嘴就能画画(输入关键词就能出稿)的人工智能创作工具来告诉大家它们如何使用,顺便做一个使用方法和出图效果上的比拼,看看哪款 AI 最易上手,效果最好。
Disco Diffusion:百依百顺的乙方
Disco Diffusion 由艺术家 Somnai 设计,拥有强大的关键词转图像能力,并且由于代码托管在 Colab 上,所有渲染过程都可以在线上进行,不需要依赖使用者的电脑来运算。
▲ 创作者的推特
▲ Somnai 用 Disco Diffusion 制作的视频
初次打开 Disco Diffusion 的使用界面你可能会被大量的代码吓到,但实际上只要按照如下步骤调试,要使用它还是很简单的。
▲ 满是代码的界面容易让人望而却步
首先往下拖动网页找到第三项「Settings」,在右手边「Basic Settings」中我们可以对生成图像的品质进行设置。
「Step」是指 AI 生成迭代的次数,「Step」数值越多,运算时间越长,不过艺术品某程度上是偶然性和美的碰撞,运算次数多,不代表出来的作品就好看。
下方的「width height」是指成图的图片尺寸,此处只能输入 64 的倍数(比如 1280, 768),尺寸越大渲染时间越长。
在「Settings」中还有一个叫「Init Settings」的部分,在「init_image」中输入图片的地址,可以让程序以某图片为基础参照着进行运算。
点击下图圈选部分将本地图片上传,然后选中列表中的图片,在右键菜单中找到「复制路径」复制地址,再粘贴到「init_image」上即可。
接下来就是最重要的通过关键词描述画作内容部分。下拉找到「Settings」中的「Prompts」项,看到「text_prompts」。
▲ 语句中的方括号和引号不要改动
在「text_prompts」中代码中默认的语句为:
[“A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and Thomas kinkade, Trending on artstation.”, “yellow color scheme”]
翻译过来就是:
「由画家 Greg Rutkowski 和 Thomas kinkade 绘制的关于一座在汹涌的血海中闪耀的奇异灯塔的作品,以 Artstation 为参考库,黄色配色。」
- 「beautiful painting」为画种,你可以将它改为「ink painting(墨水画)」「oil painting(油画)」「comic(漫画)」等等。
- 「a singular lighthouse, shining its light across a tumultuous sea of blood」是内容描述,决定了你的画面中将出现什么,这里自由发挥即可。
- 「greg rutkowski and thomas Kinkade」是成图更接近哪位画家的风格,此处可以输入不止一位画家。
- 「Trending on artstation」是画作的参考平台,即 AI 主要从哪个平台获取参照,可以输入的平台有「Facebook」「Pixiv」「Pixbay」等等。
- 「yellow color scheme」是整个画面的主色调为黄色。
要改变画的内容,只需按照格式调整语句中相应的关键词(注意逗号,双引号等要用英语)。
除了更换关键词,你还可以设定每个关键词的权重,比如当我的画家风格为「Van Gogh and Monet(梵高和莫奈)」时,我可以写成「Van Gogh:3」and「Monet:2」,即作品三分像梵高,两分像莫奈。
有时候如果想让某个元素不要在画面里出现,我们还可以设定数值为负数。
▲ 请给我一张三分像梵高,两分像莫奈的万里无云的天空画
最后我们还可以在第四项「Diffuse!」中的「n_batches」设置一次生成多少张图(变体),也即如果此处输入 5,则最终可以得到 5 张图(图越多需要的时间越长)。
将以上重要参数设置完成以后,在页面的上方点击「代码执行程序」按钮,在菜单中选择「全部运行」后程序即开始运算。
免费用户一般分配到的是 Colaboratory 的 Tesla K80 显卡电脑,线上渲染速度比较慢,一张默认尺寸和迭代次数的图大概需要一个半到两小时才能完成。
如果等不及的也可以选择「连接到本地运行时」用自己电脑的显卡进行渲染,但是需要用到「Jupyter 笔记本服务器」等工具,这里就不作展开了。
接下来便是漫长的等待过程,拉到「Diffuse!」底部时你可以看到自己的图片从一片模糊到逐渐清晰的变化过程。
▲ 程序底部有运算持续时间和目前步骤显示
根据之前程序提供的默认语句,我生成了一张海上灯塔的图片,画面效果一流,用来做桌面背景完全没问题。
接下来我又改动了一些参数,再生成了两张图,描述语句如下:
「A painting of a robot angel, flapping her wings in the night sky by Shirow Masamune, Trending on artstation, blue color scheme(一张机械天使在夜空中挥动翅膀的画,士郎正宗创作,以 Artstation 为参考库,蓝色配色)」
▲ 默认画质,耗时 1.5 小时
「Cyberpunk station(赛博朋克车站)」
▲ 448*448 像素,耗时 45 分钟
首先这两张图片都可以算得上是切题。「机械天使」图虽然没能体现「夜空」这个关键词,但构图有特色,天使也能展示出明显的机械感,至于画有没有士郎正宗的神韵就见仁见智了。
在「车站」图的上方我们能看到列车、电缆等要素,红色、绿色的霓虹灯、屏幕等也是典型的赛博朋克元素,美中不足的就是完成度不高。
NightCafe Creator:风格迁移神器
相比起 Disco Diffusion,NightCafe 用起来就简单多了。
NightCafe 的网页提供了两款智能绘图工具,左边的「Text to Image(文本转图像)」是类似于 Disco Diffusion 的输入关键词生成图工具,右边的「Style Transfer(风格迁移)」可以把用户上传的照片换成名画风格。
先来测试第一个功能。在「Your text prompt」下方的方框中输入关键词,如:A city surrounded by machine(被机械保包围的城市),然后在下方 16 种风格选取一个。
拉到底部选择是纹理优先(Artist)还是构图优先(Coherent)后点击最下面的「CREATE」,等待几分钟,一张方形的图就生成了。
▲ 成图过程
如果不满足于默认图像的尺寸,你还可以在关键词输入界面打开「Show advanced options(显示高级选项)」。在此模式下你不仅能自定义图像的尺寸,还可以设定多张参考的底图。
风格转移工具的使用也很简单。上传一张照片,从 64 种名画风格中挑选一个,再等 1-2 分钟,一张惊艳的图片就诞生了。
将之前灯塔、车站和天使的关键词去掉作者和参照库后输入到 NightCafe Creator ,我们得到了以下三张图片。
▲ 关键词:一座在汹涌的血海中闪耀的奇异灯塔,黄色配色。
▲ 关键词:一张机械天使在夜空中挥动翅膀的画,蓝色配色
▲ 关键词:赛博朋克车站
所有图片里效果最好的个人认为是天使的画,虽然走的是较为抽象的路线,但那一双像卫星的太阳能接收翼的翅膀还是体现出了机械和天使的组合元素,角色的动作也很生动,在 AI 的启发下我忍不住也参照着画了一张。
▲ 自认没有 AI 画得有意思
赛博朋克车站的效果中规中矩,而灯塔图的效果就很一般了,画面中出现了很多相似的灯塔,能看起来是为了铺满画面而多次复制导致的。
Cogview:中文关键词,一次八张图
Cogview 是本次测试中唯一支持中文输入的 AI 工具(字数限制为 2-30 中文字符),由清华大学的唐杰团队研发,出图时间为 1-5 分钟不等,一次可以生成八张图,但尺寸不可调。
从输入英文关键词网页会翻译为中文再运算这一点推断,该程序应该是以汉语为语言进行训练的,在一堆只能用英文输入的同类 AI 中显得难能可贵。
▲ 该团队去年发表的论文
其实这款程序最擅长的是真实的照片生成,而非艺术绘画。比如当我们输入「黄豆组成的字母 b」时,AI 会给我们八张符合描述的真实照片。
▲ 已在各个搜索引擎确认过网上并无现成的类似图片
而之前的 NightCafe Creator 无论怎么切换风格也只能产出类似下图的「艺术作品」。
当关键词是与绘画有关时, Cogview 就略逊一筹了,比如当我们想用「Oil Painting Style(油画风格)」风格生成一座之前描述的塔,八张成图还是更像照片而非画作。
赛博朋克车站的画面效果要好很多,可能是由于本身是建筑物,而且该描述本身也适合写实风格。
在重新生成灯塔的图时为了让它更像画作,我切换成了水墨风格。Cogview 是这么多款 AI 里面唯一真实地还原了「sea of blood(血海)」的,不过有点诡异就是了。
机械天使的油画出图效果就一言难尽了,八张成图都过于抽象,难以评价。
不过据说我们现在习惯了的俊美人形带洁白翅膀的天使形象其实是文艺复兴时期经过美化的。《旧约》中描述的天使的外貌本就是千奇百怪的,毕竟天使是超越人类认知能力的存在,怎么可能和人长得一样呢?
▲ 旧约中描绘的座天使
WOMBO Dream:界面美观,作品重艺术感
WOMBO Dream 这款工具我们曾经在另外一篇介绍 AI 绘画的文章里介绍过,它的界面我认为是本次介绍的几款中最好看的,成图时间也是几款中最短的,约为 30 秒。
操作过程和 NightCafe Creation 很像这里就不赘言了,直接上图。
▲ 关键词:一张机械天使在夜空中挥动翅膀的画,蓝色配色
▲ 关键词:一座在汹涌的血海中闪耀的奇异灯塔,黄色配色。
▲ 关键词:赛博朋克车站
由于该程序只支持最多 100 个英文字母的输入,有些关键词我们不得不进行删减。从三张图片中我们可以看到 WOMBO Dream 的成图十分追求「画感」。
所谓「画感」,简单来说就是让人一看就会认为这一张画出来的作品,而不像摄影或者 3D 模型摆拍。当然,程序自带的塔罗牌式画框对「画感」的形成也许有帮助。
▲ 在画廊中右键另存为可以保存不带画框的图片
总结
现在对四款 AI 作图工具进行一个简单总结,首先所有程序都是网页版,且免费使用。
Disco Diffusion 可以实现最复杂的关键词描述,可自设置的参数很多,是一个待探索的巨大宝库,但是成图时间长,操作界面也相对复杂。
NightCafe Creator 和 WOMBO Dream 都能快速产出作品,前者可以对画面尺寸进行设置,也能容纳更多的关键词,但后者界面更好看,出图自带画框。
Cogview 的好处是支持中文关键词,在现实照片生成这方面有优势,无法自定义图片尺寸。
在多款 AI 设计工具火热以后,有人开始担心画家的工作会不会被取代。在 Disco Diffusion 爆红以后,公众号设计青年实验室请了几位设计大咖探探自己对 AI 作画的感受,其中插画师疯景这样说道:
「如果有一天 AI 取代了更多的价值,那么我会努力去寻求新的价值,船到桥头自然直。」
生产力的发展带来的是生产方式的变革。我们都知道印象派的诞生是源于 19 世纪摄影技术的发明,当人们意识到无论怎么画都不可能比照相机逼真的时候, 朦胧、个性、抽象等反而成为弥足珍贵的东西。
▲ 莫奈的代表作《日出印象》
如今,AI 画手的出现又重新对我们的艺术界发出了挑战,艺术家们为捍卫领土又会以什么样的策略迎战呢?我们不妨拭目以待。
Disco Diffusion: https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb
Cogview:https://agc.platform.baai.ac.cn/CogView/index.html
WOMBO Dream:https://www.wombo.art/
NightCafe Creator:https://creator.nightcafe.studio/