每日看點(diǎn)！生成式人工智能：一個(gè)充滿創(chuàng)意的新世界

2022-12-06 10:12:40來源：36kr

在一種強(qiáng)大的新型大型語言模型的幫助下，機(jī)器也會(huì)寫文章、寫代碼、畫畫，創(chuàng)作出可信、有時(shí)候甚至是超人的結(jié)果。

神譯局是36氪旗下編譯團(tuán)隊(duì)，關(guān)注科技、商業(yè)、職場(chǎng)、生活等領(lǐng)域，重點(diǎn)介紹國外的新技術(shù)、新觀點(diǎn)、新風(fēng)向。

編者按：人與其他生物最大的區(qū)別，在于人會(huì)分析和創(chuàng)造，也就是具備高級(jí)思考能力。但是，最近十年在模型、算力和數(shù)據(jù)的共同推動(dòng)下，人工智能先是慢慢開始擅長以各種識(shí)別（語音、圖像等）為代表的分析型任務(wù)，在最近更是開始在創(chuàng)作出感性和美麗的東西方面嶄露頭角，這就是所謂的生成式人工智能。本文對(duì)這一趨勢(shì)進(jìn)行了剖析和展望。文章來自編譯。

(資料圖片僅供參考)

人類擅長分析事物。但機(jī)器甚至更強(qiáng)。機(jī)器可以分析一組數(shù)據(jù)，并找出其中存在的、適用大量用例的模式，不管這些用例是欺詐還是垃圾郵件檢測(cè)，預(yù)測(cè)交付的 ETA （估計(jì)到達(dá)時(shí)間），或預(yù)測(cè)接下來要展示什么樣的 TikTok 視頻給你。它們?cè)趫?zhí)行這些任務(wù)上正變得越來越聰明。這就是所謂的“分析人工智能”（Analytical AI）或傳統(tǒng)人工智能。

但人類不僅擅長于分析事物——我們還擅長于創(chuàng)造。我們會(huì)寫詩、能設(shè)計(jì)產(chǎn)品、開發(fā)游戲和編寫代碼。直到最近，在創(chuàng)造性的工作上，機(jī)器還沒有機(jī)會(huì)與人類掰掰手腕——它們只能從事分析性的以及死記硬背的認(rèn)知?jiǎng)趧?dòng)。但是現(xiàn)在機(jī)器正在開始擅長創(chuàng)作出感性和美麗的東西。這個(gè)新類別被稱為“生成式人工智能”（Generative AI），也就是說，機(jī)器正在生成新的東西，而不是分析已經(jīng)存在的東西。

生成式人工智能不僅正在變得更快、更便宜，而且在某些情況下創(chuàng)作出來的東西甚至比人類做出來的還要好。從社交媒體到游戲，從廣告到建筑，從編碼到平面設(shè)計(jì)，從產(chǎn)品設(shè)計(jì)到法律，從市場(chǎng)營銷到銷售，每一個(gè)需要人類原創(chuàng)性工作的行業(yè)都面臨著重塑。這些行業(yè)的部分職能可能會(huì)被生成式人工智能完全取代，而在人機(jī)協(xié)同帶來的迭代得更頻繁的創(chuàng)作循環(huán)的作用下，其他一些職能更有可能會(huì)蓬勃發(fā)展——但在廣泛的終端市場(chǎng)上，生成式人工智能應(yīng)該會(huì)釋放出更好、更快、更便宜的創(chuàng)造力。我們的夢(mèng)想是，生成式人工智能將把創(chuàng)作和知識(shí)工作的邊際成本降為零，從而創(chuàng)造出極高的勞動(dòng)生產(chǎn)率和經(jīng)濟(jì)價(jià)值——以及相應(yīng)龐大的市值。

生成式人工智能涉及的領(lǐng)域——知識(shí)工作和創(chuàng)造性工作——牽涉到數(shù)十億工人。生成式人工智能可以讓這些工人的效率和/或創(chuàng)造力至少提高 10%：他們不僅能變得更快、更有效率，而且比以前能力更強(qiáng)。因此，生成式人工智能有產(chǎn)生數(shù)萬億美元經(jīng)濟(jì)價(jià)值的潛能。

為什么是現(xiàn)在？

生成式人工智能與更廣泛的人工智能都有一樣的“為什么是現(xiàn)在”：更好的模型、更多的數(shù)據(jù)、更多的計(jì)算。這一類別的人工智能的變化日新月異，我們甚至都無法全都捕捉下來，但概述其最近的歷史，好將當(dāng)下放在一個(gè)合適的背景下去理解是值得的。

第 1 波浪潮：小型模型主宰時(shí)期（2015 年之前）

5 年多前，小型模型被認(rèn)為是理解語言“最先進(jìn)”的模型。這些小型模型擅長分析任務(wù)，并被部署到從預(yù)測(cè)交貨時(shí)間到欺詐分類的各種工作上。不過，對(duì)于通用的生成任務(wù)來說，它們的表現(xiàn)還不夠好。生成與人類水平相當(dāng)?shù)奈恼禄虼a仍然是白日夢(mèng)。

第 2 波浪潮：規(guī)模競賽（2015 年至今）

Google Research 發(fā)表了一篇具有里程碑意義的論文（Attention is All You Need），里面描述了一種新的，用于自然語言理解的神經(jīng)網(wǎng)絡(luò)架構(gòu)，叫做 transformers，它可以生成高質(zhì)量的語言模型，同時(shí)該模型還具備了更高的可并行性對(duì)訓(xùn)練時(shí)間的要求明顯減少。這些模型是小樣本學(xué)習(xí)器，可以相對(duì)容易地針對(duì)特定領(lǐng)域進(jìn)行定制化。

隨著模型變得越來越大，其表現(xiàn)開始與人類水平相當(dāng)，然后就會(huì)超越人類，這是必然的。

隨著模型變得越來越大，其表現(xiàn)開始與人類水平相當(dāng)，然后就會(huì)超越人類，這是必然的。從 2015 年到 2020 年，用于訓(xùn)練這些模型的計(jì)算量增加了 6 個(gè)數(shù)量級(jí)，在手寫、語音和圖像識(shí)別、閱讀理解和語言理解方面的結(jié)果已經(jīng)超過了人類的性能基準(zhǔn)。其中OpenAI 的GPT-3 脫穎而出：與GPT-2相比，GPT-3 模型的性能有了巨大飛躍，為大家在 Twitter 提供了從代碼生成到諷刺笑話寫作等任務(wù)的誘人演示。

盡管這些基礎(chǔ)研究有了進(jìn)展，但這些模型并不普遍。它們很龐大且很難跑起來（需要協(xié)調(diào) GPU），沒法讓大家廣泛訪問（不可用或僅限封閉測(cè)試版），而且當(dāng)作云服務(wù)使用的成本很高。盡管存在諸多限制，但最早的生成式人工智能應(yīng)用已經(jīng)開始加入競爭。

隨著 AI 模型的規(guī)模越來越大，它們的表現(xiàn)已經(jīng)開始超越主要的人類性能基準(zhǔn)。

第 3 波浪潮：更好、更快、更便宜（2022 年及之后）

計(jì)算變得更便宜。新的技術(shù)，如擴(kuò)散模型（diffusion models），降低了訓(xùn)練和運(yùn)行推理所需的成本。研究界繼續(xù)開發(fā)出更好的算法和更大的模型。開發(fā)者的訪問權(quán)限從封閉測(cè)試版擴(kuò)展到公開測(cè)試版，而且在某些情況下甚至是開源的。

對(duì)于一直沒法訪問 LLM （大型語言模型）的開發(fā)者來說，面向探索和應(yīng)用開發(fā)的閘門現(xiàn)在已經(jīng)打開。應(yīng)用開始遍地開花。

用 MidJOURNEY 生成的插圖

第四波浪潮：殺手級(jí)應(yīng)用出現(xiàn)（現(xiàn)在）

隨著平臺(tái)層的鞏固，模型繼續(xù)變得更好/更快/更便宜，模型訪問趨于免費(fèi)和開源，應(yīng)用層已經(jīng)成熟，創(chuàng)造力已經(jīng)蓄勢(shì)待發(fā)。

就像移動(dòng)設(shè)備通過 GPS、攝像頭和移動(dòng)連接等新功能釋放了新型app的活力一樣，我們預(yù)計(jì)這些大型模型將激發(fā)新一波的生成式人工智能應(yīng)用。正如十年前移動(dòng)的拐點(diǎn)為少數(shù)殺手級(jí)app打開了市場(chǎng)一樣，我們預(yù)計(jì)生成式人工智能的殺手級(jí)應(yīng)用也會(huì)出現(xiàn)。競賽正在進(jìn)行中。

就像移動(dòng)設(shè)備通過 GPS、攝像頭和移動(dòng)連接等新功能釋放了新型app的活力一樣，我們預(yù)計(jì)這些大型模型將激發(fā)新一波的生成式人工智能應(yīng)用。

市場(chǎng)格局

下面的示意圖概述了將為每一類別提供支持的平臺(tái)層以及可在其基礎(chǔ)上開發(fā)的潛在應(yīng)用類型。

生成式人工智能版圖

模型

文本是進(jìn)展最大的領(lǐng)域。不過，自然語言很難做到正確，而質(zhì)量很重要。今天，這些模型已經(jīng)非常擅長一般題材的短/中篇寫作（但即便如此，一般也是用來迭代或作為初稿）。隨著時(shí)間的推移，隨著模型變得更好，應(yīng)該可以預(yù)期會(huì)看到更高質(zhì)量的輸出、更長形式的內(nèi)容和更好的垂直向內(nèi)容的調(diào)優(yōu)。

正如 GitHub 的 CoPilot 所表明的那樣，代碼生成可能在短期內(nèi)對(duì)開發(fā)者的生產(chǎn)力產(chǎn)生重大影響。它還將讓非開發(fā)者更容易獲取代碼的創(chuàng)造性使用。

生成是較新的現(xiàn)象，但現(xiàn)在已經(jīng)獲得了病毒式傳播：在 Twitter 上分享的生成圖像要比文字更有趣！我們正在看到具有不同審美風(fēng)格的圖像生成模型出現(xiàn)，以及用于編輯和修改生成圖像的不同技術(shù)出現(xiàn)。

語音合成的出現(xiàn)已有一段時(shí)間（你好 Siri ！），但消費(fèi)者和企業(yè)應(yīng)用正在變得越來越好。對(duì)于像電影和播客這樣的高端應(yīng)用而言，要想即時(shí)生成聽起來沒那么機(jī)械化，像人類發(fā)音的語音的門檻相當(dāng)高。但就像圖像一樣，今天的模型為實(shí)用應(yīng)用的進(jìn)一步細(xì)化或最終輸出提供了一個(gè)起點(diǎn)。

視頻和 3D 模型在這條曲線上升得很快。大家對(duì)這些模型釋放電影、游戲、VR、建筑和實(shí)體產(chǎn)品設(shè)計(jì)等大型創(chuàng)意市場(chǎng)的潛力感到興奮。正如我們所說那樣，研究機(jī)構(gòu)正在發(fā)布基礎(chǔ)的 3D 和視頻模型。

其他領(lǐng)域：從音頻和音樂到生物學(xué)和化學(xué)（生成蛋白質(zhì)和分子，有人知道嗎？），許多領(lǐng)域都在進(jìn)行基礎(chǔ)模型的研發(fā)。

下圖說明了我們也許可以預(yù)期看到的基礎(chǔ)模型的進(jìn)展，以及相關(guān)應(yīng)用成為可能的時(shí)間表。 2025 年及以后的情況只是猜測(cè)。

不同類型生成是人工智能應(yīng)用的發(fā)展時(shí)間線預(yù)測(cè)。橙色為初次嘗試，黃色為即將實(shí)現(xiàn)，綠色是應(yīng)用的黃金時(shí)間

應(yīng)用

以下是部分我們頗感興奮的應(yīng)用。但實(shí)際的應(yīng)用遠(yuǎn)不止所列舉的這些，創(chuàng)始人和開發(fā)者想象出來的創(chuàng)意應(yīng)用讓我們著迷。

文案：為了推動(dòng)銷售和營銷策略以及提供客戶支持，對(duì)個(gè)性化網(wǎng)絡(luò)和電子郵件內(nèi)容的需求在不斷增長，這些都是語言模型的完美應(yīng)用。措辭的簡短形式和風(fēng)格化，加上這些團(tuán)隊(duì)的時(shí)間和成本壓力，應(yīng)該會(huì)推動(dòng)對(duì)自動(dòng)化和增強(qiáng)解決方案的需求。

垂直向的寫作助理：當(dāng)今大多數(shù)寫作助理都是水平型的；我們相信有機(jī)會(huì)針對(duì)特定的終端市場(chǎng)構(gòu)開發(fā)出更好的生成應(yīng)用，比如法律合同寫作，劇本寫作等。這里的產(chǎn)品差異化方向是針對(duì)特定工作流程對(duì)模型和UX模式進(jìn)行微調(diào)。

代碼生成：當(dāng)前的應(yīng)用讓開發(fā)者如虎添翼，提高了他們的生產(chǎn)力：在安裝了 GitHub Copilot 的項(xiàng)目里面，有近 40% 的代碼都是這個(gè)代碼助手生成的。但更大的機(jī)會(huì)也許是讓消費(fèi)者獲得了編碼的能力。學(xué)習(xí)如何給出提示可能會(huì)成為終極的高級(jí)編程語言。

生成藝術(shù)：藝術(shù)史與流行文化的整個(gè)世界現(xiàn)在都已經(jīng)被編碼進(jìn)這些大型模型里，任何人都可以任意探索以前需要一生才能掌握的主題和風(fēng)格。

游戲：做這一行的夢(mèng)想是用自然語言創(chuàng)建可操縱的復(fù)雜場(chǎng)景或模型；要想到達(dá)那個(gè)最終狀態(tài)可能還有很長一段路要走，但有些更直接的選項(xiàng)在短期內(nèi)更為可行，比方說生成紋理和天空盒藝術(shù)（skybox art）。

媒體/廣告：想象一下，如果可以將公司公司的工作自動(dòng)化，針對(duì)消費(fèi)者動(dòng)態(tài)優(yōu)化廣告文案和創(chuàng)意，那會(huì)有多大的潛力。這里是多模態(tài)生成的絕佳機(jī)會(huì)，可以將銷售信息與互補(bǔ)的視覺效果結(jié)合在一起。

設(shè)計(jì)：對(duì)數(shù)字和實(shí)體產(chǎn)品進(jìn)行原型設(shè)計(jì)是一個(gè)勞動(dòng)密集型的迭代過程。來自粗略草圖和提示的高保真渲染已經(jīng)成為現(xiàn)實(shí)。隨著 3-D 模型變得可用，生成式設(shè)計(jì)過程將延伸到制造和生產(chǎn)——從文本到對(duì)象。你的下一個(gè) iPhone 應(yīng)用程序或運(yùn)動(dòng)鞋可能是由機(jī)器設(shè)計(jì)的。

社交媒體和數(shù)字社區(qū)：有沒有用生成工具表達(dá)自我的新方式？隨著消費(fèi)者學(xué)會(huì)在公共場(chǎng)合創(chuàng)作，像 Midjourney 這樣的新應(yīng)用正在創(chuàng)造新的社交體驗(yàn)。

用 MidJOURNEY 生成的插圖

生成式人工智能應(yīng)用剖析

生成式人工智能應(yīng)用會(huì)是什么樣子？以下是一些預(yù)測(cè)。

智能及模型微調(diào)

生成式人工智能應(yīng)用是基于 GPT-3 或 Stable Diffusion 等大型模型之上開發(fā)出來的。隨著這些應(yīng)用拿到了更多的用戶數(shù)據(jù)，就可以對(duì)模型進(jìn)行微調(diào)，從而：1）針對(duì)特定問題領(lǐng)域提高模型的質(zhì)量/性能； 2）降低模型規(guī)模/成本。

我們可以將生成式人工智能應(yīng)用看作是 UI 層和位于大型通用模型“大大腦”（big brain）之上的“小大腦”（little brain）。

形態(tài)因子

如今，生成式人工智能應(yīng)用主要作為現(xiàn)有軟件生態(tài)體系的插件而存在。代碼補(bǔ)全發(fā)生在你的 IDE 里；圖像生成發(fā)生在 Figma 或 Photoshop 上；甚至 Discord 機(jī)器人也是將生成式人工智能注入到數(shù)字/社交社區(qū)的工具。

還有少量獨(dú)立的生成式人工智能 web 應(yīng)用，比方說用于文案寫作的 Jasper 和 Copy.ai、用于視頻編輯的 Runway 以及用于記筆記的 Mem。

插件可能是讓應(yīng)用發(fā)展起來的有效楔子，利用插件也許是一個(gè)很精明的辦法，說不定能克服用戶數(shù)據(jù)與模型質(zhì)量的這個(gè)“先有雞還是先有蛋”的問題（應(yīng)用需要分發(fā)，從而獲得足夠多的使用來改進(jìn)模型；但要想吸引用戶，你需要一個(gè)好的模型）。我們已經(jīng)看到這種分發(fā)策略在其他市場(chǎng)類別得到了回報(bào)，比方說消費(fèi)者/社交領(lǐng)域。

交互范式

今天，大多數(shù)生成式人工智能的演示都是“一次性”（one-and-done）的：給出一個(gè)輸入，機(jī)器就吐出一個(gè)輸出，你可以保留這一輸出，或者選擇丟棄，然后再試一次。但模型的迭代性癥狀越來越強(qiáng)，也就是對(duì)輸出可以修改、優(yōu)化、升級(jí)以及派生出不同的生成結(jié)果。

現(xiàn)如今，生成式人工智能輸出被當(dāng)作原型或初稿使用。這類應(yīng)用非常擅長提出多種不同的想法，從而讓使創(chuàng)意過程得以繼續(xù)進(jìn)行（比方說，logo 或建筑設(shè)計(jì)的不同選項(xiàng)），而且它們還非常擅長就需要用戶細(xì)化處理才能達(dá)到最終狀態(tài)的初稿（比方說博客文章或代碼自動(dòng)完成）提出建議。部分在用戶數(shù)據(jù)的支持下，隨著模型變得越來越智能，我們應(yīng)該可以預(yù)期這些草稿會(huì)變得越來越好，直到好到可用作最終產(chǎn)品。

持續(xù)的品類領(lǐng)導(dǎo)力

最好的生成式人工智能公司可以通過不斷地推動(dòng)用戶參與/數(shù)據(jù)和模型性能這個(gè)飛輪的旋轉(zhuǎn)來制造可持續(xù)的競爭優(yōu)勢(shì)。為了獲勝，團(tuán)隊(duì)必須讓這個(gè)飛輪轉(zhuǎn)起來：1）實(shí)現(xiàn)出色的用戶參與 → 2）將更多的用戶參與轉(zhuǎn)化為更好的模型性能（及時(shí)改進(jìn)、模型微調(diào)、用戶選擇作為標(biāo)記的訓(xùn)練數(shù)據(jù)）→ 3）用出色的模型性能來推動(dòng)更多用戶增長和參與。他們可能會(huì)進(jìn)入特定的問題領(lǐng)域（比方說，代碼、設(shè)計(jì)、游戲），而不是試圖成為適用所有人的通用產(chǎn)品。他們可能會(huì)先深度集成到應(yīng)用之中，去借勢(shì)和分發(fā)，然后嘗試用人工智能原生工作流替換現(xiàn)有的應(yīng)用。用正確的方式開發(fā)這些應(yīng)用，從而積累用戶和數(shù)據(jù)需要時(shí)間，但我們相信最好的應(yīng)用會(huì)具有持續(xù)性，而且有機(jī)會(huì)變得規(guī)模龐大。

阻礙與風(fēng)險(xiǎn)

盡管生成式人工智能很有潛力，但在商業(yè)模式和技術(shù)方面還有很多問題需要解決。關(guān)于版權(quán)、信任與安全以及成本等重要問題遠(yuǎn)未解決。

睜大眼睛

生成式人工智能前面的路還很長。平臺(tái)層剛剛開始變好，但應(yīng)用領(lǐng)域幾乎還沒有啟動(dòng)。

需要明確的是，我們不需要大型語言模型來寫出一部托爾斯泰小說才能讓生成式人工智能物盡其用。這些模型在今天已經(jīng)足以寫出博客文章的初稿，創(chuàng)作出 logo 以及產(chǎn)品界面的原型。中短期內(nèi)可創(chuàng)造出大量價(jià)值。

第一波生成式人工智能應(yīng)用類似 iPhone 剛問世時(shí)的移動(dòng) app 的環(huán)境——有點(diǎn)噱頭，不太靠譜，競爭差異化和商業(yè)模式尚不明確。不過，其中一些應(yīng)用讓我們得以一窺未來可能會(huì)出現(xiàn)的情形。一旦你看到一臺(tái)機(jī)器生成復(fù)雜的功能代碼或精美的圖像，就很難想象未來機(jī)器不會(huì)在我們的工作和創(chuàng)作的手段上發(fā)揮根本性的作用。

如果我們?cè)试S自己夢(mèng)想一下幾十年后的情形，那么很容易想象生成式人工智能會(huì)深度嵌入到我們的工作、創(chuàng)造和娛樂方式的未來：會(huì)自己寫的備忘錄；3D打印任何你能想象到的東西；將文字變成一部皮克斯電影；類似于 Roblox 那樣的游戲體驗(yàn)，能夠以我們想象的速度快速生成豐富的世界。雖然這些體驗(yàn)在今天看起來就像科幻小說一樣，但發(fā)展的速度非?？臁趲啄曛畠?nèi)，我們已經(jīng)從狹義的語言模型發(fā)展到代碼自動(dòng)完成——如果這種變化速度得以延續(xù)，能遵循“大型模型的摩爾定律”的話，那么這些難以置信的場(chǎng)景也許就會(huì)進(jìn)入可能性的領(lǐng)地。

PS：這篇文章是與 GPT-3 共同編寫的。當(dāng)然，整篇文章不是都是由 GPT-3 生成的，但它負(fù)責(zé)對(duì)抗作家的文字，生成完整的句子和段落文本，并且為生成式人工智能頭腦風(fēng)暴出不同的用例。用 GPT-3 寫這篇文章能讓人很好地體驗(yàn)一把人機(jī)共同創(chuàng)作的交互，這可能會(huì)形成新常態(tài)。我們還用 Midjourney 為這篇文章制作了插圖，不得不說，這很有趣！

譯者：boxi。

關(guān)鍵詞：人工智能語言模型用戶數(shù)據(jù)

責(zé)任編輯：hnmd004