AIGC(AI Generated Content) 是由 AI 生成的内容,其特点是自动化生产、高效。
这个是最近流行起来的词,随着自然语言生成技术 NLG 和 AI 模型的成熟,AIGC 逐渐受到大家的关注,目前已经可以自动生成文字、图片、音频、视频,甚至 3D 模型和代码。
发展#
目前来看内容的发展可划分四个阶段:
- 专家生成内容(Professionally-Generated Content,PGC)
- 用户生成内容(User-Generated Content,UGC)
- AI 辅助生产内容(AI-assisted Generated Content)
- AI 生成内容(AI-Generated Content,AIGC)
目前我们仍处于一、二阶段为主,第三阶段为辅的境况。
商业化#
商业化是非常重要的,商业化越顺利才越有动力去研究发展,当然理论层面的也具有一定的意义,能具体落地那就会极大加速其技术的发展进程,目前 AIGC 有 3 个商业化的方向:
通过 AI 生成文字#
比如自动写邮件和广告营销文案,这要归功于 OpenAI 的 GPT-3 AI 语言模型,目前大多数 AI 生成文字类项目都使用该模型(GPT-4 已发布,并且预计今年发布 GPT-5,注意关注这个迭代速度)。
前段时间爆火的 ChatGPT 目前来看商业化进行的不错,算是安全着陆了,后面估计发展会更加迅速,这种先发优势一旦发展起来就很难追赶,上来就对搜索引擎开刀,也难怪 Google 都慌了。
文字方面应该不需要多说,ChatGPT 的火爆出现了大量的相关文章视频,着实给科普了一把。
说到这,下面是官方给的 GPT-3 的训练资料语言的占比,简体中文占比 0.02%,再看看我们这人口大国,就很。。。中文互联网已死(现在是内容农场的天下啦!)。
即使如此,ChatGPT 对于中文问题的回答质量却意外的高,快谢谢 GPT 隐式学到的翻译能力。
利用 AI 作图#
主要技术是结合多模态神经语言模型 CLIP 和图像去躁扩散模型 Diffusion,仅仅提供一些关键词描述就可以自动生成图片。
目前这个方向有火的趋势,有可能是下一个 ChatGPT,还记得应该是去年吧,NovelAI 泄漏导致的二次元作画狂潮。
关于这个下面我会贴一下它的发展给各位参考;
目前来说,Stable Diffusion 是目前普通用户的主流,最近很火的一个 LoRA 是 Chilloutmix,感兴趣的可以去了解一下,B 站一搜一大把,可以看看现在的 AI 作图发展到什么地步了。
商业化方案那无疑是 midjourney。
AIGC 的底层技术模型开发#
OpenAI 和 StableAI 是这个方向的龙头,也是融资金额最大的。
OpenAI 背后有微软,据说给了很多的算力资源,为此不惜裁撤自己的部门,算力确实是一个很关键的问题,说白了还是高端芯片。
Google 表示有点难受,明明是最多 AI 专利的拥有者之一,很多底层方案也是 Google 开源,但是实际落地上就是干不过人家,也许这就是大公司的通病。
AI 作图发展#
早期突破#
2014 年,对抗生成网络(GAN)诞生,真正 “教会” AI 自己画画。
GAN 包含两个模型,一个是生成网络 G、一个是判别网络 D。G 负责把接收到的随机噪声生成图片,D 则要判断这张图是 G 画的、还是现实世界就存在的。
G、D 互相博弈,能力也不断提升,而当 D 不再能判断出 G 生成的图片时,训练就达到了平衡。
GAN 的开创性在于,精巧地设计了一种 “自监督学习” 方式,跳出了以往监督学习需要大量标签数据的应用困境,可以广泛应用于图像生成、风格迁移、AI 艺术和黑白老照片上色修复。
但其缺陷也正来源于这一开创性:由于需要同步训练两个模型,GAN 的稳定性较差,容易出现模式崩溃。以及另一个有趣的现象 “海奥维提卡现象”(the helvetica scenario):如果 G 模型发现了一个能够骗过 D 模型的 bug,它就会开始偷懒,一直用这张图片来欺骗 D,导致整个平衡的无效。
模型也会躺平,这鸡贼的特性,真是有人的风格。
大幅提升#
2020 年,一篇关于扩散模型(Diffusion Model)的学术论文,大幅提升 AI 的画画水平。
扩散模型的原理是 “先增噪后降噪”。首先给现有的图像逐步施加高斯噪声,直到图像被完全破坏,然后再根据给定的高斯噪声,逆向逐步还原出原图。当模型训练完成后,输入一个随机的高斯噪声,便能 “无中生有” 出一张图像了。
这样的设计大大降低了模型训练难度,突破了 GAN 模型的局限,在逼真的基础上兼具多样性,也就能够更快、更稳定的生成图片。
扩散模型在 AI 业界的 “起飞” 源于 2021 年 1 月,Open AI 基于此开发出 DALL-E 文字生成图片模型,能够生成接近真实生活但并不真实存在的图片,让 AI 业界震了三震。但由于在像素空间进行了大量计算,这一模型仍存在进程缓慢、内存消耗大的缺陷。
批量生产#
2022 年夏天诞生的 Stable Diffusion,让高大上的学术理论变得 “接地气”。
去年 8 月,Stability AI 将扩散过程放到更低维度的潜空间(Latent Diffusion),从而开发出了 Stable Diffusion 模型。这个模型带来的提升,在于资源消耗大幅降低,消费级显卡就可以驱动的(建议显存 6G+),可以操作也更为方便,普通人也可以体会到人工智能惊艳的创作能力。
而且开发团队还把所有代码、模型和权重参数库都进行了开源(有的抄了)。
相关资源#
注意:部分资源不适宜上班时间浏览,NSFW 警告。
会写 Prompt 才是核心竞争力,配合 ChatGPT 不错的效果。
热门:Stable Diffusion + Chilloutmix + Koreandolllikeness
社区方面:
配套:
最近 bing 也公布了它的作画:https://www.bing.com/create ,体验后还不错的样子。
最后,搭建环境麻烦?本地算力不够?
可以试试白嫖 Google 的 colab,这个就自己摸索吧。
不过也有一些人分享了一键运行脚本,关键词:
- sd-1click-colab
- NovelAILeaks API Backend (4chan Ver.)
关于语音#
语音这方面我不确定现在很成熟的文字转语音技术算不算 AI,但确实是越来越自然,也已经大规模的商业化使用中,对于模仿感兴趣的可以参考 Real-Time Voice Cloning 和 MockingBird,号称只要 5 秒音源就可以模拟你的声音。
因为它相对来说很成熟了,所以诈骗等灰产都用上了,之后要跟家里老人嘱咐电话声音不可信。
关于从业者#
上述技术的发展必然会给我们的工作带来一定的影响,未来相关的行业必然不会需要太多的人工,现在的文字、绘图等相关的从业者一定要与时俱进,有句话说的好,AI 不是要淘汰所有的从业者,而是优化掉不会使用 AI 的从业者。
举个例子,ChatGPT 可以极大提高你的效率,但是前提是你要会提问,能够提出或者描述好一个问题。
前面说过现在很火的根据描述生成图片的,最难的是那些 prompt 应该怎么选,据说这种关键词职位有极高的薪资。
但愿新的一轮潮流我们不要闭关锁国,不要继续落后。
这些 AI 工具尝试过就知道,确实是可以显著提高生产力,也有人说 AI 的奇点已经到来,之后的 AI 发展会是指数级别的。
碎碎念#
OpenAI 真的很牛逼,但是也不是每条路都顺利,就比如在 AI 作图上,虽然率先提出了 Diffusion Model,并且也有自己的产品 DALL-E,但是终究还是让 Stable Diffusion 成为主流,也许这就是一个开放环境带来的竞争力。
在这个中文互联网极度糟糕的环境下,一个个都是信息孤岛,所谓的互联网根本看不到互联,看到的只是互相屏蔽,疯狂引流 App;
ChatGPT 的出现带来了一丝转机,对于英文渣,终于可以摆脱恶心的关不掉的弹窗、嵌入广告、登陆 / 关注 / 付费后查看低质量文章,摆脱这种『特色』,提高自己的效率。
我国的 AI 技术储备其实也很厉害,只不过我们的技能树应该主要点在了人脸识别,舆情等方向。
另一个有意思的方面,AI 作画越来越有真实感,可能会重新洗牌福利姬类似的灰色产业,毕竟相比之下毫无竞争力。
对于视频的生成,也有很多人在做了,最近就刷到一些,还有实时替换人脸(DeepFaceLive)等等有趣的东西。