AIGC(AI 生成內容) 是由 AI 生成的內容,其特點是自動化生產、高效。
這個是最近流行起來的詞,隨著自然語言生成技術 NLG 和 AI 模型的成熟,AIGC 逐漸受到大家的關注,目前已經可以自動生成文字、圖片、音頻、視頻,甚至 3D 模型和代碼。
發展#
目前來看內容的發展可劃分四個階段:
- 專家生成內容(Professionally-Generated Content,PGC)
- 用戶生成內容(User-Generated Content,UGC)
- AI 輔助生產內容(AI-assisted Generated Content)
- AI 生成內容(AI-Generated Content,AIGC)
目前我們仍處於一、二階段為主,第三階段為輔的境況。
商業化#
商業化是非常重要的,商業化越順利才越有動力去研究發展,當然理論層面的也具有一定的意義,能具體落地那就會極大加速其技術的發展進程,目前 AIGC 有 3 個商業化的方向:
通過 AI 生成文字#
比如自動寫郵件和廣告營銷文案,這要歸功於 OpenAI 的 GPT-3 AI 語言模型,目前大多數 AI 生成文字類項目都使用該模型(GPT-4 已發布,並且預計今年發布 GPT-5,注意關注這個迭代速度)。
前段時間爆火的 ChatGPT 目前來看商業化進行得不錯,算是安全著陸了,後面估計發展會更加迅速,這種先發優勢一旦發展起來就很難追趕,上來就對搜索引擎開刀,也難怪 Google 都慌了。
文字方面應該不需要多說,ChatGPT 的火爆出現了大量的相關文章視頻,著實給科普了一把。
說到這,下面是官方給的 GPT-3 的訓練資料語言的占比,簡體中文占比 0.02%,再看看我們這人口大國,就很。。。中文互聯網已死(現在是內容農場的天下啦!)。
即使如此,ChatGPT 對於中文問題的回答質量卻意外的高,快謝謝 GPT 隱式學到的翻譯能力。
利用 AI 作圖#
主要技術是結合多模態神經語言模型 CLIP 和圖像去噪擴散模型 Diffusion,僅僅提供一些關鍵詞描述就可以自動生成圖片。
目前這個方向有火的趨勢,有可能是下一個 ChatGPT,還記得應該是去年吧,NovelAI 泄漏導致的二次元作畫狂潮。
關於這個下面我會貼一下它的發展給各位參考;
目前來說,Stable Diffusion 是目前普通用戶的主流,最近很火的一個 LoRA 是 Chilloutmix,感興趣的可以去了解一下,B 站一搜一大把,可以看看現在的 AI 作圖發展到什麼地步了。
商業化方案那無疑是 midjourney。
AIGC 的底層技術模型開發#
OpenAI 和 StableAI 是這個方向的龍頭,也是融資金額最大的。
OpenAI 背後有微軟,据說給了很多的算力資源,為此不惜裁撤自己的部門,算力確實是一個很關鍵的問題,說白了還是高端芯片。
Google 表示有點難受,明明是最多 AI 專利的擁有者之一,很多底層方案也是 Google 開源,但是實際落地上就是幹不過人家,也許這就是大公司的通病。
AI 作圖發展#
早期突破#
2014 年,對抗生成網絡(GAN)誕生,真正 “教會” AI 自己畫畫。
GAN 包含兩個模型,一個是生成網絡 G、一個是判別網絡 D。G 負責把接收到的隨機噪聲生成圖片,D 則要判斷這張圖是 G 畫的、還是現實世界就存在的。
G、D 互相博弈,能力也不斷提升,而當 D 不再能判斷出 G 生成的圖片時,訓練就達到了平衡。
GAN 的開創性在於,精巧地設計了一種 “自監督學習” 方式,跳出了以往監督學習需要大量標籤數據的應用困境,可以廣泛應用於圖像生成、風格遷移、AI 藝術和黑白老照片上色修復。
但其缺陷也正來源於這一開創性:由於需要同步訓練兩個模型,GAN 的穩定性較差,容易出現模式崩潰。以及另一個有趣的現象 “海奧維提卡現象”(the helvetica scenario):如果 G 模型發現了一個能夠騙過 D 模型的 bug,它就會開始偷懶,一直用這張圖片來欺騙 D,導致整個平衡的無效。
模型也會躺平,這雞贼的特性,真是有人的風格。
大幅提升#
2020 年,一篇關於擴散模型(Diffusion Model)的學術論文,大幅提升 AI 的畫畫水平。
擴散模型的原理是 “先增噪後降噪”。首先給現有的圖像逐步施加高斯噪聲,直到圖像被完全破壞,然後再根據給定的高斯噪聲,逆向逐步還原出原圖。當模型訓練完成後,輸入一個隨機的高斯噪聲,便能 “無中生有” 出一張圖像了。
這樣的設計大大降低了模型訓練難度,突破了 GAN 模型的局限,在逼真的基礎上兼具多樣性,也就能夠更快、更穩定的生成圖片。
擴散模型在 AI 業界的 “起飛” 源於 2021 年 1 月,Open AI 基於此開發出 DALL-E 文字生成圖片模型,能夠生成接近真實生活但並不真實存在的圖片,讓 AI 業界震了三震。但由於在像素空間進行了大量計算,這一模型仍存在進程緩慢、內存消耗大的缺陷。
批量生產#
2022 年夏天誕生的 Stable Diffusion,讓高大上的學術理論變得 “接地氣”。
去年 8 月,Stability AI 將擴散過程放到更低維度的潛空間(Latent Diffusion),從而開發出了 Stable Diffusion 模型。這個模型帶來的提升,在於資源消耗大幅降低,消費級顯卡就可以驅動的(建議顯存 6G+),可以操作也更為方便,普通人也可以體會到人工智能驚艷的創作能力。
而且開發團隊還把所有代碼、模型和權重參數庫都進行了開源(有的抄了)。
相關資源#
注意:部分資源不適宜上班時間瀏覽,NSFW 警告。
會寫 Prompt 才是核心競爭力,配合 ChatGPT 不錯的效果。
熱門:Stable Diffusion + Chilloutmix + Koreandolllikeness
社區方面:
配套:
最近 bing 也公布了它的作畫:https://www.bing.com/create ,體驗後還不錯的樣子。
最後,搭建環境麻煩?本地算力不夠?
可以試試白嫖 Google 的 colab,這個就自己摸索吧。
不過也有一些人分享了一鍵運行腳本,關鍵詞:
- sd-1click-colab
- NovelAILeaks API Backend (4chan Ver.)
關於語音#
語音這方面我不確定現在很成熟的文字轉語音技術算不算 AI,但確實是越來越自然,也已經大規模的商業化使用中,對於模仿感興趣的可以參考 Real-Time Voice Cloning 和 MockingBird,號稱只要 5 秒音源就可以模擬你的聲音。
因為它相對來說很成熟了,所以詐騙等灰產都用上了,之後要跟家裡老人囑咐電話聲音不可信。
關於從業者#
上述技術的發展必然會給我們的工作帶來一定的影響,未來相關的行業必然不會需要太多的人工,現在的文字、繪圖等相關的從業者一定要與時俱進,有句話說得好,AI 不是要淘汰所有的從業者,而是優化掉不會使用 AI 的從業者。
舉個例子,ChatGPT 可以極大提高你的效率,但是前提是你要會提問,能夠提出或者描述好一個問題。
前面說過現在很火的根據描述生成圖片的,最難的是那些 prompt 應該怎麼選,據說這種關鍵詞職位有極高的薪資。
但願新的一輪潮流我們不要閉關鎖國,不要繼續落後。
這些 AI 工具嘗試過就知道,確實是可以顯著提高生產力,也有人說 AI 的奇點已經到來,之後的 AI 發展會是指數級別的。
碎碎念#
OpenAI 真的很牛逼,但是也不是每條路都順利,就比如在 AI 作圖上,雖然率先提出了 Diffusion Model,並且也有自己的產品 DALL-E,但是終究還是讓 Stable Diffusion 成為主流,也許這就是一個開放環境帶來的競爭力。
在這個中文互聯網極度糟糕的環境下,一個個都是信息孤島,所謂的互聯網根本看不到互聯,看到的只是互相屏蔽,瘋狂引流 App;
ChatGPT 的出現帶來了一絲轉機,對於英文渣,終於可以擺脫惡心的關不掉的彈窗、嵌入廣告、登錄 / 關注 / 付費後查看低質量文章,擺脫這種『特色』,提高自己的效率。
我國的 AI 技術儲備其實也很厲害,只不過我們的技能樹應該主要點在了人臉識別,輿情等方向。
另一個有趣的方面,AI 作畫越來越有真實感,可能會重新洗牌福利姬類似的灰色產業,畢竟相比之下毫無競爭力。
對於視頻的生成,也有很多人在做了,最近就刷到一些,還有實時替換人臉(DeepFaceLive)等等有趣的東西。