清流资本 Crystal Stream

AIGC真实用户体验:来自最懂AI的音乐人杨樾

清流资本 2023.9.11

编者按

2023年,AIGC经历了爆火出圈到逐渐冷静关于新一轮AI技术的讨论也从盲目推崇到开始客观审视其落地节奏。清流资本始终认为,新AI技术的出现是令人兴奋的,而技术真正落地到实际场景也需要时间,相信技术但不迷信技术。

过去半年我们在【新一轮AI来了】对谈栏目中,和清流Family的AI企业CEO们,就AI实际在企业业务中的应用情况,探讨新一轮A技术的进展、时间节奏、应用场景。以及,随着我们进入新AI时代,与AI共存的人类会是什么样的。

现在让我们把目光转向AIGC工具的真正使用者们。我们访谈了不同领域的AIGC产品使用者,聊了聊他们在实际工作流程中使用AIGC的一手体验。我们想知道,目前层出不穷五花八门的AI工具们,在用户角度,到底好用不好用?是否真正“智能”?对于“AI会否完全替代人类”这一见仁见智的惊悚命题,他们的真实体感如何?我们陆续访谈了音乐人、文字创作者、资深创业者,等等。

///  本期访谈嘉宾:

杨樾,资深媒体人、电台DJ、电影监制、iOS播客平台New Radio创始人。全能爸爸微信公众号创始人。曾获得首届“中国原创音乐十大DJ”称号,第七届中美电影节最佳制片人奖。代表作《岁月无声》。

杨樾是一个坚定拥护创新技术的音乐人。过去十数年间,他一直密切关注AI技术的进展,并积极尝试使用各类AIGC工具进行内容创作。顶峰时期,他一个月要给60+个AIGC产品付费,甚至需要用专门的Excel表格记录每个平台的账号密码。

非常有意思的是,杨樾还是一个坚定的1人公司践行者,他的公司坚持只有他1个人已经11年了。这波AIGC的浪潮除了提升他的内容生产效率,更让他兴奋的是,他推行多年的1人公司在AIGC时代终于可以实现了。

我们聊完发现(虽然得罪人我们还是要说),对于AIGC,杨樾老师从用户角度,可能比90%的投资人更有发言权。

10+年AIGC产品使用者

用AIGC进行内容创作,源起于11年前的一次AI语音生成。当时杨樾创立了一个播客平台叫New Radio,他尝试做了一期完全用AI生成的语音播客。由于当时的AI语音生成工具还比较简陋,最后生成的播客几乎是一个字一个字地拼接出来的,但是那个节目在当年仍然拿了一个大奖。后续他也一直关注AI语音生成相关的工具,先是把国内AI语音巨头的产品用了个遍,又去研究国际大公司的产品,前前后后做了十几个AIGC语音生成工具的比较测试。但是,前8年的时间里,他一直觉得缺乏真正可以使用的产品。“大家用得最多是科大讯飞和华为云上的人工语音生成。但我一直觉得效果特别差。”

直到2020年下半年,杨樾接触到亚马逊AWS的语音生成工具Polly,他改变了自己对当下AI生成语音产品的看法:用AI生成语音可行了。直到现在他仍然认为,Polly虽然在技术上已经落后了,但还是可用的

作为AIGC产品的early adopter,两年前,某早期AI应用开发团队主动找到杨樾,希望能跟他合作创作一档AI语音节目。期间,杨樾帮他们的AI音乐大赛做起了顾问,邀请了一批音乐家,用AI生成工具来作词作曲,希望能做出一张AI生成的唱片。虽然这个想法在今天看起来不是特别了不起的事,但在两年前还是很惊艳的。然而,这张唱片的制作过程耗电量巨大、生成过程很慢,让团队发现了算力上的瓶颈和巨大的成本,这是他们完全没有想到过的,后来的合作也不了了之。

杨樾一直关注AI语音生成领域,23年1月他还测试了国外的语音生成工具ElevenLabs,发现其语音生成效果非常好,且有一个很大的优势——可以快速建立个人的语音模型。但由于中文语料不足,ElevenLabs的中文语音生成效果不如人意。而英文语音合成工具如Polly、对口型工具D-ID等都能满足他当时的需求,于是在一两个月以后,他退订了ElevenLabs,想再等等。杨樾提到,他非常期待这些平台能够克隆或生成个人的中文语音,并提供富有表现力的声音效果,同时也深知要实现这个功能并不容易,理解平台需要时间迭代产品。(P.S. 访谈中清流team跟他提到ElevenLabs近期发布了支持中文语音合成的新模型版本后,他兴奋地表示迫不及待要立马去体验了。)

杨樾开始关注文生图是在22年4月,这比ChatGPT大爆发的节点早了大半年。从去年5月至今,他几乎每一场直播的封面都是用AIGC来作画,早期主要使用的工具是WOMBO的Dream。他毫不掩饰对Dream的喜爱:“Dream是一个特别棒的工具,不仅适合普通人使用,还画得很专业。Dream作为生产力来看延展性比Midjourney稍微差一点,但在艺术创作上我认为它甚至是超过了Midjourney的。”

后来,杨樾发现Dream在语义理解上会更发散,而Midjourney更倾向于准确。直到我们这次访谈时,杨樾表示现在对他来说用Midjourney足够了。“虽然生图工具很多,但Midjourney的优势太大了,它生成的效果、画质、可控性、后续的可修改性、风格的多样性,对人类语言的理解能力远远超越所有的工具。其实我一直觉得 Stable Diffusion和Runway在画画上很差,我不知道大家为什么会推崇它们。”

杨樾在自己的视频号发布了几个AI生成的作品以后,很多人找他问视频是用什么软件做的。“几乎所有人都认为只要给AI下一个指令,AI就能完成这件事。”——杨樾认为这是大家对当前AIGC工具最大的误解。

用AI生成一段3分钟视频:工具之痛

事实上,市面上的文生视频AIGC工具并不成熟,直接生成长视频的可控性差、效果很不理想。

杨樾的解决方案是先生成4-6秒的短视频,而短视频又是由一张张图片生成。早期要生成一段3分钟的视频,他至少需要使用六七个以上的工具(文生文、文生图、图生视频、文生语音、对口型等),耗时30天才能完成。现在,生成一段视频的时间可以缩短到110-130个小时,其中思考的时间占了70%,实际操作的时间30-40小时。但是,仍然无法只用少量AI工具完成。

一开始,杨樾会用ChatGPT写故事,并要求它分段写成剧本、分镜头以及适用Midjourney的提示词。为了追求准确写清各种指标,画一张图的提示词会长达几百字。但是,在用Midjourney画图的实际过程中,AI会不断地产生偏离,通过重画或者修改提示词让AI朝着想要的方向做,经常不会如愿。“想要的那张图怎么都不出现,原先的本子就走不下去了,非常沮丧和崩溃。”另一个令他痛苦的是,AI画的虽然不是他想要的,但也特别好。

到第三个本子的时候,杨樾想开了。写复杂的提示词没有意义,AI依然会偏离。“生成视频的时候,原来设计的所有背景全变了,都被幻化了。”所以他现在写的提示词都特别短,很少有超过一句话的,比如只写“一个男人坐在那钓鱼”就可以了,不用写衣服是什么、天空是什么样子等等。画图的效率反而变得特别高。更重要的是,他想通了,AI的创造性比人类高得多,按照固定脚本画图其实是浪费了AI的智慧。

后来,他就不提前写脚本和构思非常复杂的提示词了,而是先构思故事的大方向,然后直接去画第一帧。当AI偏离创意、他又认为这张画特别好的时候,会马上根据这一帧调整故事的方向。“我会顺应AI的创造性、智慧和审美”。他用大量的时间来思考应该顺着AI的方向往哪里走。

此外,杨樾每画完一段视频,哪怕只有3秒,都会直接放到时间轴上边拼接边去生成。他认为只有在这种状态下才能时刻知道一个完整的片子是什么样子,其中牵扯到转场、连接,还有配乐、特效的配合,要根据一个成品去看下一段要画什么、跟前边的是否协调等等。理论上讲,当最后一秒的视频生成,剪辑也完成了。这个工作特别考验剪辑的功力,也很挑战人的审美和节奏感。“类似于在导演的过程中还要去当演员,这是工作当中最难但也是最重要的一部分。”

那30天的其它时间用于生成,生成视频很慢、要等,生成图片也要等。如果AI在哪个片段始终不能生成合适的照片,就要重新做,一段一段倒回去重写。

杨樾对数十个工具的特点了然于胸,因此能够准确选择每个步骤中的使用工具。据杨樾介绍,今年2月份的时候,他同时给60+个AIGC产品付费,甚至需要用专门的Excel表格才能记住每个平台的账号密码。

他如数家珍般和我们介绍每一款视频生成软件的优劣势:“Kaiber比较擅长处理连续的、动态的画面;Genmo是在静态图的基础上生成在这一个场景下的巨大的变化,但是缺乏镜头感;Genmo的镜头是固定的,所以要和LeiaPix配合使用产生镜头的变化。后期音频上,我用得最多的语音生成软件是Murf和D-ID,D-ID在语音方面做得也特别好,但是缺少单独的语音服务。它在生成视频的时候,可以贴文字进去,然后把口型对好,所以我有的时候甚至会用录屏的方式把语音录出来。”

灵魂问题:AI工具会替代音乐人吗

AIGC在C端的大爆发也为杨樾吸引了一波新的关注度,逐渐有一些商业订单邀约,近期更是有很多唱片公司和歌手纷纷找上门。随着杨樾最近收到的制作邀约越来越多,他也在思考如何在不降低准确度的情况下提升效率,比如多上几台台电脑同时去生图、跑片子等等。

也有少部分音乐专业人士表现出了排斥,他们主要是认为AI现在做不了音乐。杨樾也认可目前的AI音乐生成工具肯定替代不了音乐家,但却能够替代普通的音乐爱好者。“AI生成的作品不是完全不能用,只是要看用在哪。如果一个业余的音乐爱好者把AI生成的作品说成自己写的,别人可能也觉得挺厉害。但如果专业歌手说这是我写的,大家会说你怎么写这么简陋的东西。”

“AI工具一定是每天都在进化的,再过6个月,工具肯定会更先进、便捷,准确性大幅提高,但那时依然不是每个人都能成为音乐/视频艺术家。就好像Photoshop已经出现了几十年了,也不是所有人都变成了设计师。”访谈中杨樾屡次跟我们提到这样的观点。AI生成到最后还是在拼人,拼的是创造性、应变能力、审美,尤其是审美。

但是杨樾自己并不惧怕有一天AI会完全替代人,统治地球。在他看来,人类这6万年历史从来也只不过是地球万亿年中一个小小的过客。甚至,他更倾向于认为,两三百年之内人类就应该灭亡,或者被其他AI结合的新的生命体替代掉了。“未来有了脑机接口之后,人类可能就只会保留一个人形,大脑的计算都已经到云上去了。但是,今天的人类也不必恐慌,因为这一天还没来,我们这些此时此刻活着的人,可能都见不到那一天。”

他认为,当下的我们,更应该去享受科技带来的福祉,享受AI给我们的工作、生活带来的各种转变。未来可能会有很多人会被AI替代掉,但AI也会创造很多我们今天无法想象的新岗位,给以前人类文明中没有的工种提供了一些新的可能。只是,现有的人需要保持非常高度的学习力,不断去学最新的东西;保持对AI进展的敏感度;保持open的姿态,不要抗拒或者朝着AI的反方向走。

AI重塑公司和教育体系

“我想了很多年的事情终于在这个(AIGC)时代实现了!我特别兴奋!”杨樾一直推行“1人公司”理念,迄今为止践行了11年。只有他1个人的公司,经营状况很好、一直盈利,也取得了很多成就。疫情期间,很多朋友都很羡慕他公司没有受到影响。

杨樾经常劝诫大家不要迷信大公司,劝身边的朋友不要扩大公司规模。因为他在大公司工作过、自己也创建过大公司,他判断大公司在AI时代会变得越来越落后,甚至变成一个可笑的东西。“迷恋大公司是没有见过世面的表现。”

小公司灵活高效抗风险,但能做的事情相对较少,做不了需要很多人的大项目。所以当 AIGC出现的时候,杨樾特别兴奋,这一下子验证了他多年的期盼,他对AI抱有十分的热情。“我面临的是时间成本和机会成本的问题,而不是人力成本的问题。这正是AI能够解决的问题。我想看看AI还能做什么,它的极限在哪,不断跟着往前走。”

十几年前设想的“1人公司”,今天正在逐渐成为现实。杨樾认为,未来的趋势一定是大公司变成小公司,小公司变成几个人的公司,再变成一个人的公司,这样才能长久。有了AI之后效率提高了,大公司的绝大部分工作可以通过AI工作流的方式分包到小团队甚至个人,未来员工都变成个体户,即使是最核心的员工也变成了分包的承包商。而人应该更多地回归个体,不断提高学习能力,才能够发挥最大的潜能,产生最大的效率。

AIGC时代,全世界的教育体系都需要被重塑。”杨樾也一直在自己的直播中探讨这个问题。去年12月ChatGPT出现、AIGC大爆发的那一刻,人类的整个知识体系和教育体系实际上已经被颠覆了。他认为,今天的孩子们从小学一年级开始学字母、学1+1=2,这套教育系统已经失效。AI已经进化到了那种程度,新的人类还以落后的方式学落后的东西是不行的。“当AI能替你做这么多事的时候,教育机构要想的是,第一,如何把人培养成能够充分利用AI的人。第二,人能做哪些AI做不了的事情。这是未来的教育方向。”所以,他在和14岁的女儿交流时,也会经常引导她正确认知AI的能力,逐渐适应并使用AI来提升效率。

杨樾曾和一位非常要好的数字艺术家朋友讨论过很多次艺术生的人才模型。他半开玩笑地讲,以前艺术生考大学之前最大的优势是可以不考数学,但现在的当务之急是让所有美术方向的学生恶补数学,因为没有数学思维已经不可能在未来成为一个艺术家了。未来的艺术生们首先要具备成为艺术家的基础,学习构图、结构、色彩、整体的审美;同时还要非常了解科技的发展方向,知道什么是云、云计算、大模型、建模,一定要会使用所有先进的AI工具。纯画画的人一定会被能够利用AI的人慢慢取代掉。

“AI这一刻真的是太重大了!我差不多就觉得这是人类这6万年历史的最后时刻了,最后一个转折点或加速器,就要把地球文明推向另外一个时代了。”

访谈结束后一周,杨樾发来了最新的工作进展,他已经开始做新的MV了,由于技术的提升,这支MV的制作速度提升了5倍以上。“生成的可控性大幅提高,不用反复尝试、重画、做无用功了。”

清流deal team说:

接受并利用AI“出人意料”的创造性,而不是一味地控制AI——这是用户杨樾从他过去10年的深度体验中沉淀出的一种与AI之间全新的共存哲学。要践行这一点,实际上对人的审美能力提出了更高的要求,因为make the final call的仍然是人而不是AI,且AI“出人意料”的创造性实质上提升了决策门槛,也进一步提高了对未来的人的要求。同时,AI让更高效、更精简的组织形态成为可能,也将重塑我们的教育体系。此外,我们也客观看到,在音乐场景的实际落地中,视觉、听觉等多种模态下现有的AI工具还存在诸多不足,AI还需要时间进化,所谓AI替代人类的未来还远远没有到来。但清流相信未来AI工具会快速地向更智能、更易用、更准确、使用门槛更低的方向进化,并积极关注其中的创业公司机会

联系我们