banner
Kerronex

Kerronex

兴趣使然,一个随手记笔记本

簡述AIGC

AIGC(AI 生成內容) 是由 AI 生成的內容,其特點是自動化生產、高效。

這個是最近流行起來的詞,隨著自然語言生成技術 NLG 和 AI 模型的成熟,AIGC 逐漸受到大家的關注,目前已經可以自動生成文字、圖片、音頻、視頻,甚至 3D 模型和代碼

發展#

目前來看內容的發展可劃分四個階段:

  1. 專家生成內容(Professionally-Generated Content,PGC)
  2. 用戶生成內容(User-Generated Content,UGC)
  3. AI 輔助生產內容(AI-assisted Generated Content)
  4. AI 生成內容(AI-Generated Content,AIGC)

目前我們仍處於一、二階段為主,第三階段為輔的境況。

商業化#

商業化是非常重要的,商業化越順利才越有動力去研究發展,當然理論層面的也具有一定的意義,能具體落地那就會極大加速其技術的發展進程,目前 AIGC 有 3 個商業化的方向:

通過 AI 生成文字#

比如自動寫郵件和廣告營銷文案,這要歸功於 OpenAI 的 GPT-3 AI 語言模型,目前大多數 AI 生成文字類項目都使用該模型(GPT-4 已發布,並且預計今年發布 GPT-5,注意關注這個迭代速度)。

前段時間爆火的 ChatGPT 目前來看商業化進行得不錯,算是安全著陸了,後面估計發展會更加迅速,這種先發優勢一旦發展起來就很難追趕,上來就對搜索引擎開刀,也難怪 Google 都慌了。

文字方面應該不需要多說,ChatGPT 的火爆出現了大量的相關文章視頻,著實給科普了一把。

說到這,下面是官方給的 GPT-3 的訓練資料語言的占比,簡體中文占比 0.02%,再看看我們這人口大國,就很。。。中文互聯網已死(現在是內容農場的天下啦!)。
即使如此,ChatGPT 對於中文問題的回答質量卻意外的高,快謝謝 GPT 隱式學到的翻譯能力。

image

利用 AI 作圖#

主要技術是結合多模態神經語言模型 CLIP 和圖像去噪擴散模型 Diffusion,僅僅提供一些關鍵詞描述就可以自動生成圖片。

目前這個方向有火的趨勢,有可能是下一個 ChatGPT,還記得應該是去年吧,NovelAI 泄漏導致的二次元作畫狂潮。

關於這個下面我會貼一下它的發展給各位參考;

目前來說,Stable Diffusion 是目前普通用戶的主流,最近很火的一個 LoRA 是 Chilloutmix,感興趣的可以去了解一下,B 站一搜一大把,可以看看現在的 AI 作圖發展到什麼地步了。
商業化方案那無疑是 midjourney。

AIGC 的底層技術模型開發#

OpenAI 和 StableAI 是這個方向的龍頭,也是融資金額最大的。

OpenAI 背後有微軟,据說給了很多的算力資源,為此不惜裁撤自己的部門,算力確實是一個很關鍵的問題,說白了還是高端芯片。

Google 表示有點難受,明明是最多 AI 專利的擁有者之一,很多底層方案也是 Google 開源,但是實際落地上就是幹不過人家,也許這就是大公司的通病。

AI 作圖發展#

早期突破#

2014 年,對抗生成網絡(GAN)誕生,真正 “教會” AI 自己畫畫。

GAN 包含兩個模型,一個是生成網絡 G、一個是判別網絡 D。G 負責把接收到的隨機噪聲生成圖片,D 則要判斷這張圖是 G 畫的、還是現實世界就存在的。

G、D 互相博弈,能力也不斷提升,而當 D 不再能判斷出 G 生成的圖片時,訓練就達到了平衡。

GAN 的開創性在於,精巧地設計了一種 “自監督學習” 方式,跳出了以往監督學習需要大量標籤數據的應用困境,可以廣泛應用於圖像生成、風格遷移、AI 藝術和黑白老照片上色修復。

但其缺陷也正來源於這一開創性:由於需要同步訓練兩個模型,GAN 的穩定性較差,容易出現模式崩潰。以及另一個有趣的現象 “海奧維提卡現象”(the helvetica scenario):如果 G 模型發現了一個能夠騙過 D 模型的 bug,它就會開始偷懶,一直用這張圖片來欺騙 D,導致整個平衡的無效。

模型也會躺平,這雞贼的特性,真是有人的風格。

大幅提升#

2020 年,一篇關於擴散模型(Diffusion Model)的學術論文,大幅提升 AI 的畫畫水平。

擴散模型的原理是 “先增噪後降噪”。首先給現有的圖像逐步施加高斯噪聲,直到圖像被完全破壞,然後再根據給定的高斯噪聲,逆向逐步還原出原圖。當模型訓練完成後,輸入一個隨機的高斯噪聲,便能 “無中生有” 出一張圖像了。

這樣的設計大大降低了模型訓練難度,突破了 GAN 模型的局限,在逼真的基礎上兼具多樣性,也就能夠更快、更穩定的生成圖片。

擴散模型在 AI 業界的 “起飛” 源於 2021 年 1 月,Open AI 基於此開發出 DALL-E 文字生成圖片模型,能夠生成接近真實生活但並不真實存在的圖片,讓 AI 業界震了三震。但由於在像素空間進行了大量計算,這一模型仍存在進程緩慢、內存消耗大的缺陷。

批量生產#

2022 年夏天誕生的 Stable Diffusion,讓高大上的學術理論變得 “接地氣”。

去年 8 月,Stability AI 將擴散過程放到更低維度的潛空間(Latent Diffusion),從而開發出了 Stable Diffusion 模型。這個模型帶來的提升,在於資源消耗大幅降低,消費級顯卡就可以驅動的(建議顯存 6G+),可以操作也更為方便,普通人也可以體會到人工智能驚艷的創作能力。

而且開發團隊還把所有代碼、模型和權重參數庫都進行了開源(有的抄了)。

相關資源#

注意:部分資源不適宜上班時間瀏覽,NSFW 警告。
會寫 Prompt 才是核心競爭力,配合 ChatGPT 不錯的效果。

熱門:Stable Diffusion + Chilloutmix + Koreandolllikeness

社區方面:

配套:

最近 bing 也公布了它的作畫:https://www.bing.com/create ,體驗後還不錯的樣子。

最後,搭建環境麻煩?本地算力不夠?
可以試試白嫖 Google 的 colab,這個就自己摸索吧。
不過也有一些人分享了一鍵運行腳本,關鍵詞:

  • sd-1click-colab
  • NovelAILeaks API Backend (4chan Ver.)

關於語音#

語音這方面我不確定現在很成熟的文字轉語音技術算不算 AI,但確實是越來越自然,也已經大規模的商業化使用中,對於模仿感興趣的可以參考 Real-Time Voice Cloning 和 MockingBird,號稱只要 5 秒音源就可以模擬你的聲音。

因為它相對來說很成熟了,所以詐騙等灰產都用上了,之後要跟家裡老人囑咐電話聲音不可信。

關於從業者#

上述技術的發展必然會給我們的工作帶來一定的影響,未來相關的行業必然不會需要太多的人工,現在的文字、繪圖等相關的從業者一定要與時俱進,有句話說得好,AI 不是要淘汰所有的從業者,而是優化掉不會使用 AI 的從業者。

舉個例子,ChatGPT 可以極大提高你的效率,但是前提是你要會提問,能夠提出或者描述好一個問題。
前面說過現在很火的根據描述生成圖片的,最難的是那些 prompt 應該怎麼選,據說這種關鍵詞職位有極高的薪資。

但願新的一輪潮流我們不要閉關鎖國,不要繼續落後。

這些 AI 工具嘗試過就知道,確實是可以顯著提高生產力,也有人說 AI 的奇點已經到來,之後的 AI 發展會是指數級別的。

碎碎念#

OpenAI 真的很牛逼,但是也不是每條路都順利,就比如在 AI 作圖上,雖然率先提出了 Diffusion Model,並且也有自己的產品 DALL-E,但是終究還是讓 Stable Diffusion 成為主流,也許這就是一個開放環境帶來的競爭力。

在這個中文互聯網極度糟糕的環境下,一個個都是信息孤島,所謂的互聯網根本看不到互聯,看到的只是互相屏蔽,瘋狂引流 App;
ChatGPT 的出現帶來了一絲轉機,對於英文渣,終於可以擺脫惡心的關不掉的彈窗、嵌入廣告、登錄 / 關注 / 付費後查看低質量文章,擺脫這種『特色』,提高自己的效率。

我國的 AI 技術儲備其實也很厲害,只不過我們的技能樹應該主要點在了人臉識別,輿情等方向。

另一個有趣的方面,AI 作畫越來越有真實感,可能會重新洗牌福利姬類似的灰色產業,畢竟相比之下毫無競爭力。

對於視頻的生成,也有很多人在做了,最近就刷到一些,還有實時替換人臉(DeepFaceLive)等等有趣的東西。

參考#

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。