**AIGC(AI Generated Content)** は、AI によって生成されるコンテンツであり、その特徴は自動化された生産と効率性です。
これは最近人気が出てきた言葉であり、自然言語生成技術(NLG)と AI モデルの成熟に伴い、AIGC は徐々に注目を集めています。現在、テキスト、画像、音声、ビデオ、さらには 3D モデルやコードまで自動生成することができます。
発展#
現在、コンテンツの発展は以下の 4 つの段階に分けることができます:
- 専門家によるコンテンツ生成(Professionally-Generated Content、PGC)
- ユーザーによるコンテンツ生成(User-Generated Content、UGC)
- AI によるコンテンツ生成の補助(AI-assisted Generated Content)
- AI によるコンテンツ生成(AI-Generated Content、AIGC)
現在、私たちはまだ 1、2 の段階が主で、3 の段階が補助的な状況にあります。
商業化#
商業化は非常に重要であり、商業化が順調に進むほど、研究開発に対するモチベーションも高まります。もちろん、理論的な側面も一定の意義を持っていますが、具体的な実装が可能であれば、技術の発展プロセスを大幅に加速させることができます。現在、AIGC には 3 つの商業化の方向があります:
AI によるテキスト生成#
例えば、自動的なメールや広告の文章の作成は、OpenAI の GPT-3 AI 言語モデルのおかげです。現在、ほとんどの AI テキスト生成プロジェクトはこのモデルを使用しています(GPT-4 は既にリリースされ、今年中に GPT-5 がリリースされる予定ですので、この進化の速さに注目してください)。
最近話題になった ChatGPT は、商業化の面では順調に進んでおり、安定した着陸を果たしています。今後の発展はさらに急速になるでしょう。このような先行投資は一度始まると追いつくのが難しいため、検索エンジンに直接攻撃を仕掛けることも不思議ではありません。Google ですら困惑しています。
テキストに関しては、ChatGPT の人気により、関連する記事やビデオが大量に出現し、科学普及に大いに貢献しました。
それに関連して、以下は公式の GPT-3 のトレーニングデータの言語の割合です。** 簡体字中国語は 0.02%** です。人口の多い国であるにもかかわらず、かなり... 中国語のインターネットは死んでいます(現在はコンテンツファームの時代です!)。それでも、ChatGPT は中国語の質問に対する回答の品質が意外にも高いことがわかりました。GPT が暗黙的に学んだ翻訳能力に感謝です。
AI を利用した画像生成#
主な技術は、マルチモーダルニューラル言語モデル CLIP と画像のノイズ拡散モデル Diffusion を組み合わせることです。いくつかのキーワードの説明だけで画像を自動生成することができます。
現在、この方向には成長の傾向があり、次の ChatGPT になる可能性があります。去年の NovelAI のリークによる二次元イラストブームを覚えていますか?
以下に、この方向の発展について参考までにいくつかの情報を掲載します。
現在、Stable Diffusion が一般ユーザーの主流です。最近非常に人気のある LoRA はChilloutmixです。興味がある方は調べてみてください。Bilibili で検索すればたくさん見つかります。現在の AI 画像生成の進展を見ることができます。商業化の計画は間違いなく中程度の段階です。
AIGC の基盤技術モデルの開発#
OpenAI と StableAI は、この方向のリーダーであり、資金調達額も最も大きいです。
OpenAI の背後には Microsoft がおり、多くの計算リソースを提供していると言われています。そのため、自社の部門を削減することさえ厭わないほどです。計算リソースは非常に重要な問題です。要するに、ハイエンドのチップです。
Google は少し困っているようです。明らかに AI 特許の所有者の一人であり、多くの基盤技術も Google がオープンソース化していますが、実際の実装では他社には勝てません。おそらくこれが大企業の共通の問題です。
AI 画像生成の発展#
初期の突破#
2014 年、敵対的生成ネットワーク(GAN)が誕生し、AI に自己学習を教えることができるようになりました。
GAN には 2 つのモデルが含まれており、1 つは生成ネットワーク G、もう 1 つは判別ネットワーク D です。G はランダムノイズを受け取り、画像を生成し、D はその画像が G によって生成されたものか、現実世界に存在するものかを判断する役割を担います。
G と D は相互に競い合い、能力も向上していきます。そして、D が G によって生成された画像を判断できなくなったとき、トレーニングはバランスが取れた状態になります。
GAN の革新性は、従来の教師あり学習が大量のラベルデータを必要とするアプリケーションの制約から脱却し、巧妙な「自己監督学習」の方法を設計したことにあります。これにより、画像生成、スタイル変換、AI アート、白黒写真の着色修復など、さまざまなアプリケーションに広く適用できるようになりました。
しかし、その欠点もこの革新性から生じています。2 つのモデルを同期してトレーニングする必要があるため、GAN の安定性が低く、モデルの崩壊が起こりやすいという問題があります。また、もう 1 つの興味深い現象である「ヘルベチカシナリオ」(the helvetica scenario)も存在します。G モデルが D モデルを騙すことができるバグを見つけると、G モデルはその画像を使い続けて D を騙し続けるため、全体のバランスが崩れます。
モデルは平坦化することもあります。この賢い特性は、まさに人間のスタイルです。
大幅な向上#
2020 年、拡散モデル(Diffusion Model)に関する学術論文が発表され、AI の絵画のレベルが大幅に向上しました。
拡散モデルの原理は「ノイズを増やしてから減らす」です。まず、既存の画像に段階的にガウスノイズを加え、画像が完全に破壊されるまで進め、その後、与えられたガウスノイズに基づいて元の画像を段階的に復元します。モデルのトレーニングが完了すると、ランダムなガウスノイズを入力するだけで、画像を「無から有」に生成することができます。
この設計により、モデルのトレーニングの難易度が大幅に低下し、GAN モデルの制約を突破し、リアルな画像を生成するだけでなく、多様性も兼ね備え、より速く、より安定して画像を生成することができるようになりました。
拡散モデルの「飛躍」は、2021 年 1 月に Open AI が DALL-E というテキストから画像を生成するモデルを開発したことによるものです。このモデルは、現実には存在しないが現実に近い画像を生成することができ、AI 業界を驚かせました。ただし、ピクセル空間での大量の計算が必要なため、このモデルには処理が遅く、メモリの消費量が大きいという欠点があります。
大量生産#
2022 年夏に誕生した Stable Diffusion は、高尚な学術理論を「大衆化」しました。
昨年 8 月、Stability AI は拡散プロセスをより低次元の潜在空間(Latent Diffusion)に移し、Stable Diffusion モデルを開発しました。このモデルの改善点は、リソースの消費量が大幅に削減され、消費者向けのグラフィックスカード(6G 以上の VRAM を推奨)で動作するようになったことです。操作もより簡単になり、一般の人々も人工知能の驚異的な創造力を体験することができます。
さらに、開発チームはすべてのコード、モデル、ウェイトパラメータライブラリをオープンソース化しました(いくつかはコピーされました)。
関連リソース#
注意:一部のリソースは勤務時間中に閲覧するには適していません。NSFW 警告。
Prompt を書けることが核心の競争力であり、ChatGPT との組み合わせは非常に効果的です。
人気:Stable Diffusion + Chilloutmix + Koreandolllikeness
コミュニティ:
関連リソース:
最近、Bing も自分の絵画を公開しました:https://www.bing.com/create 、体験後はかなり良さそうです。
最後に、環境の構築が面倒ですか?ローカルの計算リソースが足りませんか?
Google の colab を試してみてください。自分で試行錯誤する必要がありますが、ワンクリックで実行するスクリプトもいくつか共有されています。キーワード:
- sd-1click-colab
- NovelAILeaks API Backend (4chan Ver.)
音声について#
音声に関しては、現在のテキストから音声への変換技術が AI と見なされるかどうかは確信が持てませんが、ますます自然になり、大規模な商業利用が行われています。興味のある方は、Real-Time Voice Cloning や MockingBird などを参考にしてください。たった 5 秒の音源であなたの声を模倣することができます。
この技術はすでに成熟しているため、詐欺などのグレーゾーンの産業にも利用されています。将来、家族の声が信頼できないということを親に伝えるための電話音声に注意が必要です。
関係者について#
上記の技術の発展は、私たちの仕事に一定の影響をもたらすことは間違いありません。将来、関連する業界では人手が必要なくなることはないでしょうが、現在のテキストや絵画などの関連する業界では、時代に合わせて進化する必要があります。ある言葉があります。「AI はすべての関係者を淘汰するのではなく、AI を使いこなせない関係者を最適化するために存在する」というものです。
例を挙げると、ChatGPT は効率を大幅に向上させることができますが、前提条件として、質問の提出や説明ができる能力が必要です。先ほど述べたように、現在非常に人気のある画像生成に関しても、どのようなプロンプトを選ぶかが最も難しい部分です。このようなキーワードのポジションは非常に高い給与水準を持っていると言われています。
新しいトレンドが閉鎖的な国内市場にならないことを願っています。続けて遅れることはありません。
これらの AI ツールを試してみると、生産性が著しく向上することが確かめられます。また、AI のシングルポイントはすでに到来しており、AI の発展は指数関数的に進むでしょう。
つぶやき#
OpenAI は本当にすごいですが、すべての道が順調ではありません。例えば、AI の絵画に関しては、Diffusion Model を最初に提案し、独自の製品 DALL-E も開発しましたが、最終的には Stable Diffusion が主流になりました。これはオープンな環境がもたらす競争力かもしれません。
中国のインターネット環境は非常に悪いです。情報の孤立した島々だけが見えるので、インターネットのつながりを見ることはできません。見えるのはお互いのブロックだけで、広告の埋め込み、ログイン / フォロー / 有料での低品質な記事の閲覧など、嫌な「特徴」だけです。ChatGPT の登場により、英語が苦手な人々はついにうんざりすることなく、効率を向上させることができました。
私たちの国の AI 技術の準備は実際には非常に優れていますが、私たちのスキルセットは主に顔認識やオピニオンマイニングなどの分野に集中しているようです。
もう 1 つ興味深い点は、AI による絵画がますますリアルになっていることです。グレーゾーンの産業である福利姫などを再び洗い直す可能性があります。比較すると、まったく競争力がありません。
ビデオの生成についても、多くの人々が取り組んでいます。最近、リアルタイムで顔を置き換える(DeepFaceLive)など、興味深いものがいくつかあります。