AIGC真实用户体验:来自最会用AI绘画的作家
清流资本 2023.9.25
编者按
2023年,AIGC经历了爆火出圈到逐渐冷静。关于新一轮AI技术的讨论也从盲目推崇到开始客观审视其落地节奏。清流资本始终认为,新AI技术的出现是令人兴奋的,而技术真正落地到实际场景也需要时间,相信技术但不迷信技术。
过去半年我们在【新一轮AI来了】对谈栏目中,和清流Family的AI企业CEO们,就AI实际在企业业务中的应用情况,探讨新一轮AI技术的进展、时间节奏、应用场景。以及,随着我们进入新AI时代,与AI共存的人类会是什么样的。
现在让我们把目光转向AIGC工具的真正使用者们。我们访谈了不同领域的AIGC产品使用者,聊了聊他们在实际工作流程中使用AIGC的一手体验。我们想知道,目前层出不穷五花八门的AI工具们,在用户角度,到底好用不好用?是否真正“智能”?对于“AI会否完全替代人类”这一见仁见智的惊悚命题,他们的真实体感如何?我们陆续访谈了音乐人、文字创作者、资深创业者,等等。
/// 本期访谈嘉宾:
H老师(受访者希望匿名,我们暂且在这里称他为H老师。)
H老师是一位作家、知名网络写手、微博名人,他坚持在网络上写字20余年,从20世纪写到了21世纪,从BBS写到了Blog、微博、公众号,每一个时代的自媒体平台上都留下了他有趣的文字和思考,吸引了无数粉丝follow。至今,他仍然坚持在公众号日更文字。
H老师曾是互联网从业者,他参与并见证了互联网/移动互联网从蓬勃发展到冷静的全过程,对于互联网技术变革带来的机会一直保持关注。由于自身的痛点需求,他一直在积极尝试AIGC产品,曾被邀请为文生图产品Stable Diffusion的内测用户,且坚持每天使用AI绘画一年多,体验过市面上大多数AIGC绘画工具。他对新一代AI产品有毋庸置疑的发言权。
配图是日更作者的痛点
“到了我们这个时代,AI大概是跟普通人或者普通创业者还有点关系的事情吧。”在了解到新一代AI已经进化到可以生成的时候,长期密切关注互联网行业发展的H老师非常兴奋。然而,最开始惊艳到他的AIGC产品并不是大众所熟知的ChatGPT,也不是任何一款AI写作产品,而是AI绘画。
H老师的公众号是日更,每篇文章都需要插入配图,在中国使用网络图片会涉及版权问题,所以他都是去国外的免费图库找一些没有版权问题的图片。之所以如此在乎图片版权,其中一个原因是他的文章阅读量高,每篇文章阅读量没有低于过万数,经常性产出10万+。而这类作者所使用的图片,都是某图片公司律师团队的长期密切关注对象,看多了业内同行不小心就吃上版权官司,H老师对图片的使用就更加谨慎了。“很多公众号作者可能不在乎版权,想贴什么图就贴什么图,但我就怕在版权上惹上麻烦。”
但是,这个解决方案很快就不见效了,免费图库上的图片供给满足不了他日更的消耗量。从一开始很容易就选到一张满意的图,到后面需要分主题、分色彩去筛选,到了一个阶段以后,就很难选出一张看得过去的图片了。“如果你们每天写任何一封email,都要去找一张版权上绝对没有问题的图去做插图。一年之后你就会崩溃,跟我当年一模一样地崩溃。因为太痛苦了,所有的免费图库都已经被你们榨干过不知道多少遍……”
他每天早上写文章,然后找配图,排版发布。随着图片越来越难找,一早上他花在写文章的时间可能只有1小时,选配图就需要2小时。
使用AI绘画后,每天可以省下1-1.5小时的选图时间,这对他来说已经是极大的效率提升(心情也好了很多)。现在,他前一天下午会收集一些有趣的素材,第二天早上起来先做实验——用AI绘画,然后写文章,再把图片和文章排版发布。有时他会根据自己当天特别想写的文章主题先构思prompt,生成图文关联度高的配图;有时也会很纯粹地“炫个技”,让大家看看他可以生成一些很漂亮的图。
相较于AI绘画,AI写作反而不是H老师的需求痛点,他曾尝试用ChatGPT写过两篇文章,然后就果断放弃了。“AI创作的文字你可能得花两个小时逐句调教,还不如自己一个小时就写完了。”AI写作对于普通人来说可能够了,但对于职业作家还是差太远。“一个一直在不断创新、思考的作家,他独特的表达方法和微妙的文字处理,AI是很难学习到的。”
虽然ChatGPT也做了针对个人语料库的训练,可以模仿某一个人的特定文字风格去写文章,但在H老师看来,能被AI模仿的都是三流作家。“因为三流作家的表达里面片汤话太多了,AI很容易能够学会,但AI写东西往往都太顺了。比如‘在领导的xxx’,后面AI肯定是接‘指导下’或‘关怀下’,出现‘指导下’可能有90%的概率,‘关怀下’8%,‘支持下2%’。如果读者都能猜到你要写什么,就没意思了。”他认为,AI写作更适合用于有大量可参考范本的制式文字,例如法律文书、小说的总结、抽取一本书的概要,以及编剧的转场桥段等等。
坎坷的AI绘画学习过程
2022年5月18日,H老师看到好友在公众号上介绍AI当时的新进展——AI可以用作绘画了。那一天,他用AI画了第一张图,贴到自己的公众号文章里。(当时OpenAI的DALL-E还在内测期,有网友根据它的算法模拟了一个小型的DALL-E mini放在Hugging Face上供大家免费使用,直接输入prompt就可以得到一张图。)以现在的眼光来看,当时画出来的图片效果算不上好,像素很低,只能支持生成一张64×64的正方形图画。但这已经让H老师觉得惊喜,因为他看到了自己在图片上的需求痛点有望被这一代AI解决。于是,他非常迅速地去寻找更好的解决方案,5月底,他就全面转向了使用Disco Diffusion。
Disco Diffusion的进入门槛比DALL-E mini高了很多,需要自己先在Colab(Google提供的一个免费GPU的在线共享云平台)上去安装Disco Diffusion,还有一个很复杂的程序调试过程,H老师一边查教程,一边尝试运行程序,一边在跨洋咨询朋友,经过一个下午的调试程序才终于跑顺了。“Disco Diffusion生成图的瞬间就知道我要的是这个,图片画质强了很多,我不需要DALL-E mini了。”于是,他开始用Disco Diffusion绘画。当时,为了更好地使用AI绘画,热心网友们还把可以用到的艺术家绘画风格做了一个越来越长的博客列表作为风格指导/字典。
但是,Disco Diffusion生成图片的速度很慢,一张图需要15-30分钟,看分配到什么样的GPU。而且生成的图片极度怪异,无法用来画人物和物品,只能用来画风景,使用一个月后它才做到了图片可左右/上下对称,这个功能还需要勾选。“后续AI绘画所有的问题它都有,比如生成的手指头、眼睛不行,焦距错误,景深错误等等。而且它是早期产品,问题更严重。诸多这些问题都令我很快转向了下一代产品——Stable Diffusion。”
去年年底,H老师和几个朋友成立了一个AI绘画兴趣小组,有个朋友很慷慨地买了一个GPU服务器放在家里,所以他们在GPU上部署了一整套Stable Diffusion的源代码。“Stable Diffusion迭代速度非常快,模型训练得更好,构图和人物都比Disco Diffusion有一个极大的提升。而且,它可以部署在本地,对我们(有GPU的人)来说生成速度极快,5分钟就可以生成一张图。它还可以支持批处理,输入一组艺术家的名字,再录入不同的组,让他们连续跑,很快就可以得到一系列的结果,甚至人都不需要在。”由于积极尝试各类AI生图产品,H老师也被Stable Diffusion邀请成为内测用户,可以更早体验到最新的版本。Stable Diffusion一度成为他最满意的AI绘画产品。
虽然期间OpenAI也推出了DALL-E 2,但他试过之后发现DALL-E 2对中国用户不太友善:第一,必须要美国IP;第二,得用信用卡去买点数;第三,它生成的是正方形的图,不能指定size;第四,右下角还带水印。而且,生成的风格都极为雷同。第五,也是最重要的一点:Stable Diffusion是开源社区,并没有做商业化。
“Stable Diffusion模型更大,自由度比DALL-E 2强很多,支持的艺术家风格更多,很方便。DALL-E 2画出来的所有东西都有DALL-E味。Stable Diffusion虽然也有AI味,但是它的风格差异很大,风格的多样化能力强很多。”
作为AI绘画early adopter的H老师,一开始并没有成为当时的网红产品Midjourney的早期用户。“一开始我们用Stable Diffusion的人是看不上用Midjourney的人的,Midjourney的风格跟DALL-E 2一样,太一致了。而且,Midjourney最大的问题是刚上线就开始收费,但当时的服务并不是很稳定。在服务未定的时候就开始收费,看起来太过心急,不像是能走很远的样子。”
抓住用户需求是产品核心竞争力
直到今年3月,Midjourney版本发到V5,H老师才开始密集使用。“因为最后用下来,在真正达到工具满足用户需求这方面,Midjourney做得更好。生成速度更快,大概十几秒就能出图,且产品界面和操作对于普通用户而言比Stable Diffusion要友善很多。”由于本地部署的Stable Diffusion是纯命令行,没有图形界面,使用者需要不停在服务器上爬来爬去。“它运行一个命令在一边,最后输出还要再手工跑到另外的文件夹里去找。操作起来相当Geek,不大符合普通人的需求。”虽然后来Stable Diffusion也做了一个Web图形界面的网站Stable AI,但实际使用并不如预期。
H老师认为,Stable Diffusion最致命的一点是把AI绘画工具做成了单机版,用户之间没有交流,自我提升的学习曲线太慢了。
而Midjourney一开始就base在Discord社区,里面有很多聊天室。“对于一个用户来说,有了最初的尝试,画到一定程度之后,想画什么、怎么画才是一个真正的问题。”在Midjourney的聊天室里,用户会分享自己的prompt生成的图,其他人立即就可以学习他们的prompt进行二次创作。“社区是一个彼此鼓励并激发灵感的环境,这对于维系一个AI绘画工具的生命力很重要。相当于是一批志同道合的人,在共同做一件事情,而且可以从别人那里源源不断地得到灵感,比自己去爬坡要轻松很多。”
“而且,对用户需求的把握上Midjourney做得比各家都好。很早之前他们就做了一系列我非常喜欢的功能,比如指定画幅,可以选择3: 4、16: 9等;放大图像、单边延长的功能我也蛮喜欢;它还可以对某一张图片进行多样化重新设计;而且,一个prompt可以生成4张图,这对于我来说相当省时间、相当有效率。”H老师已经从一开始不愿付费到现在成为了Midjourney的包年付费用户,“每个月花9美金就能解决我的图片的问题,很划算。”
“之前用AI生成的图能否满意主要靠撞大运。现在要得到一张满意的图,快的话可能1-2次尝试就够了,慢的话可能也要尝试个10-20次。”最近H老师在研究“AI字典”,他认为AI现在并不能完全理解人类的语言,甚至它可能有一套自己的语言。未来如果要更精准地绘画,可能需要一个翻译人类语言的AI字典。他会用Midjourney的describe功能把图片转成prompt,去分析AI理解的语言是什么样子,再用于自己的prompt中。随着对prompt的研究越来越深入,H老师已经可以通过输入prompt去控制Midjourney生成的图片背景、光线、色调、景深、人物姿态等。他也会将自己的prompt分享在公众号上,供更多AI绘画爱好者去使用交流。
“下一步我可能又要回Stable Diffusion了,因为Stable Diffusion现在可以加另外一个套件叫ControlNet,可以控制人物的姿势和角度。这件事情蛮重要的,文字描述永远没有靠点线控制图形来得精确。”产品的功能已经成为他选择使用哪款AIGC工具产品的核心,虽然Midjourney当前已经能很好地满足H老师的需求,但他仍然希望产品能尽快往前推进:“下一步(需求)是能够对画面进行精调,第二是动作和姿势控制,第三是需要视频尽快再往前推一步。”
他认为视频才是文生图类产品的终点。“文字和图片的消费量已经都很小了,实际上大量需求的是视频。视频在信息的维度和结构上是最高的,AI能超过人类的地方大概率就在这里。”他密切关注着Runway这类文生视频的产品进展,虽然Gen-2已经可以从5-6秒的视频做到16秒了,但还是太早期。“视频最重要的动作的平滑性和人物角色的连续性仍然很难做到,这就不大好叙事,没法讲故事。”
此外,H老师也积极关注文生图不同的亚型,它们针对特定需求做了不同的优化,在他看来这里也存在一些机会。“比如有些专门做亚洲女孩子人像的优化,有一个被称为‘赛博窑子’的地方,它的模型就可以画很多动漫风的美少女。”
工业化AI才是效用最大的场景
这一代AI之所以会被认为是划时代的,核心是因为它非常类似人的思考方式——先糊里糊涂到处尝试探索,然后按照概率分布慢慢圈出一个结果。“这代AI模拟普通人的想法和思路已经够了,大概率是能够做出一些产品去解决日常需求。”
在AI技术的应用领域上,H老师有不一样的看法:“目前我认为需要特别关注的AI落地应用,不在文生文、文生图、文生视频上,我理解这些都只是媒体的部分,媒体的产业规模在整个人类社会里面所占的比重太小了。”
AI应用到媒体领域产生的实际效用很低,且只对少数人有意义。Midjourney大概每隔一个月到一个半月要升级一个版本,生成图片的时间从8秒提升到6秒大概也只花了不到一个月时间,看起来日新月异一般。但是,能像H老师这样连续用它画一年多的人还是极少数。大部分人并没有这样长时间绘画的需求,它隐藏了一个命题:作为媒体工具存在的AI只是给专业人士使用的专业工具,跟大众是没有关系的。一个生产工具生产出来内容性的产品,迭代再多、再快,对社会的影响是有限的。“到现在为止AI还没有出过一本全球流行的小说,也没有什么AI能做出一张影响世界经济的画。AI并不是生产力核心。”
H老师认为工业化AI更值得关注。“AI在工业化上面作出的任何一点进步,所造成的社会财富的增长和生产效能提高是很可怕的,完全不可以同日而语。”比如马斯克一直主张用摄像头替代雷达,因为他认为自动驾驶汽车应该使用与人类司机相同的感官来导航。于是,他通过摄像头在特斯拉车上收集、储存各地路况和真人开车的实际操作数据,今天特斯拉已经通过AI图像识别技术做出了有实用价值的自动驾驶——这是有真正的商业价值、真正影响到人的生活的。这些技术还可以用到更多地方,例如交通、战场等等。现在,新一代AI又促成了机器人的热潮爆发,虽然看起来这里的产品迭代的速度没有那么快,在新闻上看起来也没有那么热闹,但带来的影响将会是巨大的。
除了大家经常讨论的AI生成内容的版权问题、伦理问题、在不同国家的政治合规性问题,H老师对于AI技术广泛应用后带来的潜在风险也表达了一些担忧。“很多AI技术都在让人交出自己的生物特征信息,随着AI技术的进步,AI可以制造出越来越具备个人生物特征的形象,那将来人的指纹、声纹、面部识别、虹膜识别都可能会失效。”这是新AI时代面临的新问题,需要人类调整规则和法律,保护个人生物特征数据。
终局:人和AI最终会结合
H老师认为未来人和AI并不是替代与否的关系,二者最终会结合在一起。首先,人类发展至今几百万年,一直在异化过程中;其次,除了独立拆分人和AI,去设想AI有一天在算力上超过了人以后统治世界。人类还可以在AI改造世界之前先改造自己,以半人/半机械的形式完成进化,那AI就应该是人的一部分。比如未来有了脑机接口,AI绘画如果直接捕捉到人脑的信号并翻译理解,就可以创造出完全跟人的想象一样的画面了。“这个能力不是完全来自于我,但也不完全来自于AI,我们各自负责一部分。AI没有我,做不出这个东西来;但如果我缺了AI,大概也无法那么有效率、那么快做成。我们彼此需要,谁缺谁都不行。”
在H老师看来,人类现在就已经是一个结合体了,只是现在是“软结合”——人类已经异化到使用软件是常识了,人类如今依靠手机和世界交互,这是任何生物都没有的现象。再比如说人类频繁使用电脑于是了解到树状目录结构,而人对知识的理解也结构化形成类似的知识树,这是一个相辅相成的过程。与AI合作只是再往前走了一步。类似地,AI的思维方式也是在人类和它频繁的互动中逐渐培养起来的。人需要提出好问题才能通过AI得到好结果,但大部分人没有能力提出一个精准的问题,所以首要任务是先提升人的思考能力。
相较于小朋友,学习AI更难的是好奇心和想象力不足的成年人。
“一听到AI可以绘画,很多成年人会去想这个能赚钱吗?用AI绘画以后我能成为画师吗?他们的想象力不足以支撑他去想象AI能做成什么东西,这就是想象力不足的体现。”人类的天性如此,只有少部分人对新事物真的感兴趣、愿意花时间。虽然知识、信息都是开放的,但并不就意味着大家就一定愿意去接触和学习。然而,可以预见的未来已经到来了,具有好奇心和想象力的人先去学习和接触AI,未来肯定会占优势。
“小孩子不用特别限制,让他们保持好奇心去用AI就好了,在接触的过程中逐渐学习。当年我们刚接触电脑时,一开始无非也是去打个游戏,后来才开始学习编写程序。”
对于教育体系是否应该改革为培养适合新AI时代的人类,H老师提出了他不同的看法:“不可能每个小孩子都成为达·芬奇和贝多芬,大部分会成为达·芬奇的马夫、贝多芬的厨子。社会要保持稳定,需要大量普通人,即便他们跟AI结合之后,也仍然只能做普通的事情。并不是说AI这个生产力工具发下去之后,每个人手里面就都拿了个核弹。”
所以他认为,寄希望于通过公立教育培养更有创意的小孩子并不现实,让教育系统不再向社会输送大量合格的蓝领和白领更不可能。当前的教育系统是工业革命之后确定下来的,目的是为社会化大生产或者资本主义社会提供大量合格的训练有素的蓝领工人和白领,让社会形成庞大的中产阶级,以确保各个国家的统治稳定。“希望用公立教育的钱获得个性化教育,不愿意承担自己的教育责任还要求个性化定制,这不是耍流氓吗?”
“AI取代人类?AI对教育提出了什么挑战?大可不必那么焦虑!”作为一个坚持使用AI绘画一年多的作者,在他数十万读者中,真正跟着他每天用AI绘画的人可能不超过十个。“如果说AI真的会取代人类,那么我们就是‘人奸’了,而‘人奸’在人类的比例里面可能才10万: 1,大家还担心什么?”而教育问题一直存在,这个话题可以讨论几百年,本质还是人内心长久以来的一个妄想——父母认为子女是可培养的,而且一定存在培养的偏方,还一定是自己能找到的——就是跟自己为难。这个问题解决不了,也没有什么方法能平息这种焦虑。
“AI只是所有的焦虑毒药里面又来一个新的药引子,和过去没有什么不一样,对AI的担忧实际上跟AI没有一毛钱关系。”
清流deal team说:
历史上人类和新技术一直都是共存共生的关系,人类不断异化以利用新技术,新技术也逐步进化以适应人类的使用习惯。新一轮生成式AI的浪潮下也是如此。在过去短短的一年里,文生图工具在技术和用户交互体验两个维度上突飞猛进,并已替代了过去费时费力的「图片搜索」,但目前还无法100%按照人类意图完成「图片绘制」,因为在画面精调、人物动作和姿势控制等方面仍然有提升空间。文字方面,对于职业作家而言,目前AI生成的“片汤话”无法直接使用,后期需要人花大量时间修改,因此使用AI辅助创作反而降低了效率。这些不完美的体验为创业公司开辟了切入机会。此外,生成式AI和硬件的结合将在消费和工业领域带来无限可能。清流长期关注生成式AI在各场景中带来的新机会,欢迎广大创业者与我们交流。