简述AIGC

AIGC（AI Generated Content） 是由 AI 生成的内容，其特点是自动化生产、高效。

这个是最近流行起来的词，随着自然语言生成技术 NLG 和 AI 模型的成熟，AIGC 逐渐受到大家的关注，目前已经可以自动生成文字、图片、音频、视频，甚至 3D 模型和代码。

发展#

目前来看内容的发展可划分四个阶段：

专家生成内容（Professionally-Generated Content，PGC）
用户生成内容（User-Generated Content，UGC）
AI 辅助生产内容（AI-assisted Generated Content）
AI 生成内容（AI-Generated Content，AIGC）

目前我们仍处于一、二阶段为主，第三阶段为辅的境况。

商业化#

商业化是非常重要的，商业化越顺利才越有动力去研究发展，当然理论层面的也具有一定的意义，能具体落地那就会极大加速其技术的发展进程，目前 AIGC 有 3 个商业化的方向：

通过 AI 生成文字#

比如自动写邮件和广告营销文案，这要归功于 OpenAI 的 GPT-3 AI 语言模型，目前大多数 AI 生成文字类项目都使用该模型（GPT-4 已发布，并且预计今年发布 GPT-5，注意关注这个迭代速度）。

前段时间爆火的 ChatGPT 目前来看商业化进行的不错，算是安全着陆了，后面估计发展会更加迅速，这种先发优势一旦发展起来就很难追赶，上来就对搜索引擎开刀，也难怪 Google 都慌了。

文字方面应该不需要多说，ChatGPT 的火爆出现了大量的相关文章视频，着实给科普了一把。

说到这，下面是官方给的 GPT-3 的训练资料语言的占比，简体中文占比 0.02%，再看看我们这人口大国，就很。。。中文互联网已死（现在是内容农场的天下啦！）。
即使如此，ChatGPT 对于中文问题的回答质量却意外的高，快谢谢 GPT 隐式学到的翻译能力。

利用 AI 作图#

主要技术是结合多模态神经语言模型 CLIP 和图像去躁扩散模型 Diffusion，仅仅提供一些关键词描述就可以自动生成图片。

目前这个方向有火的趋势，有可能是下一个 ChatGPT，还记得应该是去年吧，NovelAI 泄漏导致的二次元作画狂潮。

关于这个下面我会贴一下它的发展给各位参考；

目前来说，Stable Diffusion 是目前普通用户的主流，最近很火的一个 LoRA 是 Chilloutmix，感兴趣的可以去了解一下，B 站一搜一大把，可以看看现在的 AI 作图发展到什么地步了。
商业化方案那无疑是 midjourney。

AIGC 的底层技术模型开发#

OpenAI 和 StableAI 是这个方向的龙头，也是融资金额最大的。

OpenAI 背后有微软，据说给了很多的算力资源，为此不惜裁撤自己的部门，算力确实是一个很关键的问题，说白了还是高端芯片。

Google 表示有点难受，明明是最多 AI 专利的拥有者之一，很多底层方案也是 Google 开源，但是实际落地上就是干不过人家，也许这就是大公司的通病。

AI 作图发展#

早期突破#

2014 年，对抗生成网络（GAN）诞生，真正 “教会” AI 自己画画。

GAN 包含两个模型，一个是生成网络 G、一个是判别网络 D。G 负责把接收到的随机噪声生成图片，D 则要判断这张图是 G 画的、还是现实世界就存在的。

G、D 互相博弈，能力也不断提升，而当 D 不再能判断出 G 生成的图片时，训练就达到了平衡。

GAN 的开创性在于，精巧地设计了一种 “自监督学习” 方式，跳出了以往监督学习需要大量标签数据的应用困境，可以广泛应用于图像生成、风格迁移、AI 艺术和黑白老照片上色修复。

但其缺陷也正来源于这一开创性：由于需要同步训练两个模型，GAN 的稳定性较差，容易出现模式崩溃。以及另一个有趣的现象 “海奥维提卡现象”（the helvetica scenario）：如果 G 模型发现了一个能够骗过 D 模型的 bug，它就会开始偷懒，一直用这张图片来欺骗 D，导致整个平衡的无效。

模型也会躺平，这鸡贼的特性，真是有人的风格。

大幅提升#

2020 年，一篇关于扩散模型（Diffusion Model）的学术论文，大幅提升 AI 的画画水平。

扩散模型的原理是 “先增噪后降噪”。首先给现有的图像逐步施加高斯噪声，直到图像被完全破坏，然后再根据给定的高斯噪声，逆向逐步还原出原图。当模型训练完成后，输入一个随机的高斯噪声，便能 “无中生有” 出一张图像了。

这样的设计大大降低了模型训练难度，突破了 GAN 模型的局限，在逼真的基础上兼具多样性，也就能够更快、更稳定的生成图片。

扩散模型在 AI 业界的 “起飞” 源于 2021 年 1 月，Open AI 基于此开发出 DALL-E 文字生成图片模型，能够生成接近真实生活但并不真实存在的图片，让 AI 业界震了三震。但由于在像素空间进行了大量计算，这一模型仍存在进程缓慢、内存消耗大的缺陷。

批量生产#

2022 年夏天诞生的 Stable Diffusion，让高大上的学术理论变得 “接地气”。

去年 8 月，Stability AI 将扩散过程放到更低维度的潜空间（Latent Diffusion），从而开发出了 Stable Diffusion 模型。这个模型带来的提升，在于资源消耗大幅降低，消费级显卡就可以驱动的（建议显存 6G+），可以操作也更为方便，普通人也可以体会到人工智能惊艳的创作能力。

而且开发团队还把所有代码、模型和权重参数库都进行了开源（~~有的抄了~~）。

关于语音#

语音这方面我不确定现在很成熟的文字转语音技术算不算 AI，但确实是越来越自然，也已经大规模的商业化使用中，对于模仿感兴趣的可以参考 Real-Time Voice Cloning 和 MockingBird，号称只要 5 秒音源就可以模拟你的声音。

因为它相对来说很成熟了，所以诈骗等灰产都用上了，之后要跟家里老人嘱咐电话声音不可信。

关于从业者#

上述技术的发展必然会给我们的工作带来一定的影响，未来相关的行业必然不会需要太多的人工，现在的文字、绘图等相关的从业者一定要与时俱进，有句话说的好，AI 不是要淘汰所有的从业者，而是优化掉不会使用 AI 的从业者。

举个例子，ChatGPT 可以极大提高你的效率，但是前提是你要会提问，能够提出或者描述好一个问题。
前面说过现在很火的根据描述生成图片的，最难的是那些 prompt 应该怎么选，据说这种关键词职位有极高的薪资。

但愿新的一轮潮流我们不要闭关锁国，不要继续落后。

这些 AI 工具尝试过就知道，确实是可以显著提高生产力，也有人说 AI 的奇点已经到来，之后的 AI 发展会是指数级别的。

碎碎念#

OpenAI 真的很牛逼，但是也不是每条路都顺利，就比如在 AI 作图上，虽然率先提出了 Diffusion Model，并且也有自己的产品 DALL-E，但是终究还是让 Stable Diffusion 成为主流，也许这就是一个开放环境带来的竞争力。

在这个中文互联网极度糟糕的环境下，一个个都是信息孤岛，所谓的互联网根本看不到互联，看到的只是互相屏蔽，疯狂引流 App；
ChatGPT 的出现带来了一丝转机，对于英文渣，终于可以摆脱恶心的关不掉的弹窗、嵌入广告、登陆 / 关注 / 付费后查看低质量文章，摆脱这种『特色』，提高自己的效率。

我国的 AI 技术储备其实也很厉害，只不过我们的技能树应该主要点在了人脸识别，舆情等方向。

另一个有意思的方面，AI 作画越来越有真实感，可能会重新洗牌福利姬类似的灰色产业，毕竟相比之下毫无竞争力。

对于视频的生成，也有很多人在做了，最近就刷到一些，还有实时替换人脸（DeepFaceLive）等等有趣的东西。

参考#

https://36kr.com/p/2111870770153858

发展#