banner
Kerronex

Kerronex

兴趣使然,一个随手记笔记本

简述AIGC

AIGC(AI Generated Content) 是由 AI 生成的内容,其特点是自动化生产、高效。

这个是最近流行起来的词,随着自然语言生成技术 NLG 和 AI 模型的成熟,AIGC 逐渐受到大家的关注,目前已经可以自动生成文字、图片、音频、视频,甚至 3D 模型和代码

发展#

目前来看内容的发展可划分四个阶段:

  1. 专家生成内容(Professionally-Generated Content,PGC)
  2. 用户生成内容(User-Generated Content,UGC)
  3. AI 辅助生产内容(AI-assisted Generated Content)
  4. AI 生成内容(AI-Generated Content,AIGC)

目前我们仍处于一、二阶段为主,第三阶段为辅的境况。

商业化#

商业化是非常重要的,商业化越顺利才越有动力去研究发展,当然理论层面的也具有一定的意义,能具体落地那就会极大加速其技术的发展进程,目前 AIGC 有 3 个商业化的方向:

通过 AI 生成文字#

比如自动写邮件和广告营销文案,这要归功于 OpenAI 的 GPT-3 AI 语言模型,目前大多数 AI 生成文字类项目都使用该模型(GPT-4 已发布,并且预计今年发布 GPT-5,注意关注这个迭代速度)。

前段时间爆火的 ChatGPT 目前来看商业化进行的不错,算是安全着陆了,后面估计发展会更加迅速,这种先发优势一旦发展起来就很难追赶,上来就对搜索引擎开刀,也难怪 Google 都慌了。

文字方面应该不需要多说,ChatGPT 的火爆出现了大量的相关文章视频,着实给科普了一把。

说到这,下面是官方给的 GPT-3 的训练资料语言的占比,简体中文占比 0.02%,再看看我们这人口大国,就很。。。中文互联网已死(现在是内容农场的天下啦!)。
即使如此,ChatGPT 对于中文问题的回答质量却意外的高,快谢谢 GPT 隐式学到的翻译能力。

image

利用 AI 作图#

主要技术是结合多模态神经语言模型 CLIP 和图像去躁扩散模型 Diffusion,仅仅提供一些关键词描述就可以自动生成图片。

目前这个方向有火的趋势,有可能是下一个 ChatGPT,还记得应该是去年吧,NovelAI 泄漏导致的二次元作画狂潮。

关于这个下面我会贴一下它的发展给各位参考;

目前来说,Stable Diffusion 是目前普通用户的主流,最近很火的一个 LoRA 是 Chilloutmix,感兴趣的可以去了解一下,B 站一搜一大把,可以看看现在的 AI 作图发展到什么地步了。
商业化方案那无疑是 midjourney。

AIGC 的底层技术模型开发#

OpenAI 和 StableAI 是这个方向的龙头,也是融资金额最大的。

OpenAI 背后有微软,据说给了很多的算力资源,为此不惜裁撤自己的部门,算力确实是一个很关键的问题,说白了还是高端芯片。

Google 表示有点难受,明明是最多 AI 专利的拥有者之一,很多底层方案也是 Google 开源,但是实际落地上就是干不过人家,也许这就是大公司的通病。

AI 作图发展#

早期突破#

2014 年,对抗生成网络(GAN)诞生,真正 “教会” AI 自己画画。

GAN 包含两个模型,一个是生成网络 G、一个是判别网络 D。G 负责把接收到的随机噪声生成图片,D 则要判断这张图是 G 画的、还是现实世界就存在的。

G、D 互相博弈,能力也不断提升,而当 D 不再能判断出 G 生成的图片时,训练就达到了平衡。

GAN 的开创性在于,精巧地设计了一种 “自监督学习” 方式,跳出了以往监督学习需要大量标签数据的应用困境,可以广泛应用于图像生成、风格迁移、AI 艺术和黑白老照片上色修复。

但其缺陷也正来源于这一开创性:由于需要同步训练两个模型,GAN 的稳定性较差,容易出现模式崩溃。以及另一个有趣的现象 “海奥维提卡现象”(the helvetica scenario):如果 G 模型发现了一个能够骗过 D 模型的 bug,它就会开始偷懒,一直用这张图片来欺骗 D,导致整个平衡的无效。

模型也会躺平,这鸡贼的特性,真是有人的风格。

大幅提升#

2020 年,一篇关于扩散模型(Diffusion Model)的学术论文,大幅提升 AI 的画画水平。

扩散模型的原理是 “先增噪后降噪”。首先给现有的图像逐步施加高斯噪声,直到图像被完全破坏,然后再根据给定的高斯噪声,逆向逐步还原出原图。当模型训练完成后,输入一个随机的高斯噪声,便能 “无中生有” 出一张图像了。

这样的设计大大降低了模型训练难度,突破了 GAN 模型的局限,在逼真的基础上兼具多样性,也就能够更快、更稳定的生成图片。

扩散模型在 AI 业界的 “起飞” 源于 2021 年 1 月,Open AI 基于此开发出 DALL-E 文字生成图片模型,能够生成接近真实生活但并不真实存在的图片,让 AI 业界震了三震。但由于在像素空间进行了大量计算,这一模型仍存在进程缓慢、内存消耗大的缺陷。

批量生产#

2022 年夏天诞生的 Stable Diffusion,让高大上的学术理论变得 “接地气”。

去年 8 月,Stability AI 将扩散过程放到更低维度的潜空间(Latent Diffusion),从而开发出了 Stable Diffusion 模型。这个模型带来的提升,在于资源消耗大幅降低,消费级显卡就可以驱动的(建议显存 6G+),可以操作也更为方便,普通人也可以体会到人工智能惊艳的创作能力。

而且开发团队还把所有代码、模型和权重参数库都进行了开源(有的抄了)。

相关资源#

注意:部分资源不适宜上班时间浏览,NSFW 警告。
会写 Prompt 才是核心竞争力,配合 ChatGPT 不错的效果。

热门:Stable Diffusion + Chilloutmix + Koreandolllikeness

社区方面:

配套:

最近 bing 也公布了它的作画:https://www.bing.com/create ,体验后还不错的样子。

最后,搭建环境麻烦?本地算力不够?
可以试试白嫖 Google 的 colab,这个就自己摸索吧。
不过也有一些人分享了一键运行脚本,关键词:

  • sd-1click-colab
  • NovelAILeaks API Backend (4chan Ver.)

关于语音#

语音这方面我不确定现在很成熟的文字转语音技术算不算 AI,但确实是越来越自然,也已经大规模的商业化使用中,对于模仿感兴趣的可以参考 Real-Time Voice Cloning 和 MockingBird,号称只要 5 秒音源就可以模拟你的声音。

因为它相对来说很成熟了,所以诈骗等灰产都用上了,之后要跟家里老人嘱咐电话声音不可信。

关于从业者#

上述技术的发展必然会给我们的工作带来一定的影响,未来相关的行业必然不会需要太多的人工,现在的文字、绘图等相关的从业者一定要与时俱进,有句话说的好,AI 不是要淘汰所有的从业者,而是优化掉不会使用 AI 的从业者。

举个例子,ChatGPT 可以极大提高你的效率,但是前提是你要会提问,能够提出或者描述好一个问题。
前面说过现在很火的根据描述生成图片的,最难的是那些 prompt 应该怎么选,据说这种关键词职位有极高的薪资。

但愿新的一轮潮流我们不要闭关锁国,不要继续落后。

这些 AI 工具尝试过就知道,确实是可以显著提高生产力,也有人说 AI 的奇点已经到来,之后的 AI 发展会是指数级别的。

碎碎念#

OpenAI 真的很牛逼,但是也不是每条路都顺利,就比如在 AI 作图上,虽然率先提出了 Diffusion Model,并且也有自己的产品 DALL-E,但是终究还是让 Stable Diffusion 成为主流,也许这就是一个开放环境带来的竞争力。

在这个中文互联网极度糟糕的环境下,一个个都是信息孤岛,所谓的互联网根本看不到互联,看到的只是互相屏蔽,疯狂引流 App;
ChatGPT 的出现带来了一丝转机,对于英文渣,终于可以摆脱恶心的关不掉的弹窗、嵌入广告、登陆 / 关注 / 付费后查看低质量文章,摆脱这种『特色』,提高自己的效率。

我国的 AI 技术储备其实也很厉害,只不过我们的技能树应该主要点在了人脸识别,舆情等方向。

另一个有意思的方面,AI 作画越来越有真实感,可能会重新洗牌福利姬类似的灰色产业,毕竟相比之下毫无竞争力。

对于视频的生成,也有很多人在做了,最近就刷到一些,还有实时替换人脸(DeepFaceLive)等等有趣的东西。

参考#

加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。