字節(jié)跳動組建大模型團隊
李希德
當(dāng)前ChatGPT火爆,有人稱,2023年開始將進入人工智能的“黃金十年”。原則上只要是自然語言能表達出來的領(lǐng)域,ChatGPT都會發(fā)揮一定的作用。此外,圖片、語音、視頻等各個方面也會逐漸的和人工智能掛鉤。近期百度、字節(jié)等互聯(lián)網(wǎng)企業(yè)陸續(xù)發(fā)聲,表示組建團隊,布局大模型。中國版ChatGPT爭奪戰(zhàn)在國內(nèi)打響,各路英豪舉起ChatGPT概念大旗,仿佛走在了行業(yè)的前面。
所謂“大模型”,通常是在無標注的大數(shù)據(jù)集上,采用自監(jiān)督學(xué)習(xí)的方法進行訓(xùn)練。之后在其他場景的應(yīng)用中,開發(fā)者只需要對模型進行微調(diào),或采用少量數(shù)據(jù)進行二次訓(xùn)練,就可以滿足新應(yīng)用場景的需要。ChatGPT的應(yīng)用場景很多,可謂是法力無邊。凡是能被ChatGPT的地方都會讓你眼前一亮,你運用ChatGPT工具,也會愛不釋手,誰不喜歡一個超人朋友?
不過,在大模型的框架下,ChatGPT所使用的GPT模型,每一代參數(shù)量均高速擴張,預(yù)訓(xùn)練的數(shù)據(jù)量需求和成本亦快速提升。據(jù)資料,僅GPT-3訓(xùn)練一次的成本約為140萬美元,對于一些更大的LLM模型,訓(xùn)練成本介于200萬美元至1200萬美元之間。因此說進入大模型首先得肯燒錢。另外從參數(shù)數(shù)量上,國內(nèi)并不缺數(shù)據(jù),百度、字節(jié)這樣的公司都有海量的數(shù)據(jù)積累,不過后續(xù)包括數(shù)據(jù)清洗、標注以及模型的結(jié)構(gòu)設(shè)計,訓(xùn)練、推理等都需要時間積累。此外想做大模型,不僅是資金,還有人力和基礎(chǔ)模型,對于互聯(lián)網(wǎng)大廠而言,難度也是不小。