“真正的變革是,什么時間點(diǎn)有一個模型可以把錯誤率降低到個位數(shù)!
在經(jīng)歷了上半年密集的技術(shù)和產(chǎn)品發(fā)布后,下半年的AI圈顯得有些平靜,不再有如Sora這樣引發(fā)轟動的產(chǎn)品,在GPT-4o之后,行業(yè)引領(lǐng)者OpenAI也遲遲沒有大動作。不少行業(yè)人士認(rèn)為,技術(shù)的迭代放緩了。
在亞布力企業(yè)家夏季年會上,獵豹移動董事長傅盛提出一個觀點(diǎn),AI浪潮已出現(xiàn)泡沫跡象,從大模型出現(xiàn)在大眾視野以來,已過去近一年的時間,但最頂級大模型的模型沒有明顯提升!翱陀^來說,誰家大模型有什么優(yōu)勢,基本尚屬‘一家之言’,用戶用起來沒有感覺到太大差別!彼J(rèn)為,當(dāng)前大模型同質(zhì)化嚴(yán)重。
在與MiniMax創(chuàng)始人閆俊杰的交流中,關(guān)于瓶頸與轉(zhuǎn)折點(diǎn)他提到,現(xiàn)在所有模型錯誤率都是20%的量級,“真正的變革是,什么時間點(diǎn)有一個模型可以把錯誤率降低到個位數(shù),這會是一個非常本質(zhì)的變化!蔽磥泶竽P湍芊癯晒,傅盛也認(rèn)為,大模型的天花板能否再上一個臺階很重要。
“至暗時刻覺得技術(shù)很重要”
這一輪的生成式AI是一場掀起巨大浪潮的社會生產(chǎn)力革命,傅盛認(rèn)為,這波浪潮今天已經(jīng)呈現(xiàn)出明顯的泡沫跡象。
何為“泡沫”,傅盛認(rèn)為,一方面是模型能力沒有明顯提升。“在一個以科技為核心的技術(shù)浪潮中,這是不太正常的!泵看螌懖煌臇|西,傅盛都會用好幾個大模型互相比較,“有時候這個大模型更好用,有時那個更好用,當(dāng)前大模型的同質(zhì)化很嚴(yán)重!
其次,說了這么久人工智能,“但真正的Killer APP(殺手級應(yīng)用)并沒有出現(xiàn),不僅在C端沒有出現(xiàn),B端也未能出現(xiàn)。很多行業(yè)大模型都說自己有不少應(yīng)用,但真正提效的并不多!备凳⒄f,想要將大模型真正變成一個明顯能提效的應(yīng)用,還很有難度。
潑了盆冷水的同時,傅盛補(bǔ)充表示,泡沫不見得會使大模型發(fā)展崩塌,因?yàn)橛悬c(diǎn)泡沫很正常,互聯(lián)網(wǎng)早期也曾出現(xiàn)泡沫。
在今年6月演講時,金沙江創(chuàng)投主管合伙人朱嘯虎曾談及GPT-5一直“跳票”時表示,“硅谷也高度懷疑GPT-5還有沒有,即使出來在核心推理能力上還有沒有顯著的提高,這是很不確定的東西,今年年底是一個驗(yàn)金石!彼袛啵竽P脱莼俣扔蟹啪徻厔,而迭代曲線放緩以后,應(yīng)用層的機(jī)會就會更多。
不過,在波形智能創(chuàng)始人姜昱辰看來,大模型技術(shù)迭代其實(shí)并沒有放緩,而是保持著2018年以來的增速,那一年基于Transformer架構(gòu)的大規(guī)模語言模型預(yù)訓(xùn)練開始流行。從博士的自然語言處理研究到大模型創(chuàng)業(yè),姜昱辰更早開始經(jīng)歷這輪大模型技術(shù)演化的進(jìn)程。
“大家之所以有這樣的感覺(技術(shù)迭代放緩)是因?yàn)榇蟊娛窃?022年底、2023年初第一次看到這個技術(shù),做了很多短時間的learning和追趕,追趕當(dāng)然比較快!苯懦綄Φ谝回斀(jīng)表示,把OpenAI做出來的技術(shù)學(xué)一遍,不叫“技術(shù)迭代”。
雖然行業(yè)此前有一句“沒有應(yīng)用的大模型一文不值”廣為傳播,但在很多從業(yè)者看來,大模型的技術(shù)同樣重要,因?yàn)楦玫膽?yīng)用一定建立在更好的技術(shù)之上,技術(shù)和應(yīng)用是一個相互轉(zhuǎn)化的串聯(lián)關(guān)系。
在MiniMax剛剛過去的伙伴日活動上,閆俊杰在討論中提到,“至暗時刻會覺得技術(shù)很重要!
很多時候做技術(shù)時,并沒有真正意識到技術(shù)為什么重要。閆俊杰舉例表示,用戶感受到的東西可能來自于一些產(chǎn)品細(xì)節(jié),或者一些品牌,技術(shù)本身是好多個環(huán)節(jié)在一起,尤其在繁榮時期,可能分不清什么是主,什么是次,“當(dāng)在某些時間點(diǎn)遇到瓶頸的時候,拋開所有的表象東西,會意識到技術(shù)才是最終提升的來源!
“技術(shù)做不好的時候,發(fā)現(xiàn)所有東西都是問題,當(dāng)技術(shù)做好了,似乎所有問題都被掩蓋了,”閆俊杰表示,技術(shù)是一家科技公司最核心的要素這件事,盡管已深刻意識到,偶爾還是在繼續(xù)犯錯誤,“這個是我在多次至暗時刻里最有共性的一件事!
做技術(shù)也是一件非常奢侈的事,“如果看一眼我們每個月的賬單還是會非常心疼的。”在采訪中,說到這話時,閆俊杰幾次看向了MiniMax技術(shù)總監(jiān)韓景濤,也就是“賬單的制造者”。
因?yàn)樽黾夹g(shù)可能會失敗,研發(fā)投入很大,閆俊杰此前很多時候會想要不要走點(diǎn)捷徑,但實(shí)踐經(jīng)驗(yàn)會證明,走捷徑就會被“打臉”,“這個事在我這發(fā)生可能超過十次了!
“一個東西要實(shí)驗(yàn)三次才能成功,第三次實(shí)驗(yàn)成功的時候,會想前面兩次是不是可以不用做,就像吃包子吃三個會吃飽,就會想是不是前兩個不用吃是一樣的!遍Z俊杰表示,這是做技術(shù)時一個比較容易犯的錯誤。
在各種關(guān)于模型技術(shù)細(xì)節(jié)的排行榜上,或許GPT-4o的跑分不常出現(xiàn)在第一,甚至?xí)谥虚g,但在MiniMax基于真實(shí)客戶的測試集中,OpenAI的GPT-4o是遙遙領(lǐng)先的。
在大模型時代,如何判斷技術(shù)的好壞,大眾很迷惑,企業(yè)同樣覺得很難,但這個點(diǎn)很重要,因?yàn)榧夹g(shù)的評價標(biāo)準(zhǔn)會決定模型的迭代方向,如果指標(biāo)本身不對迭代方向可能就錯了。
閆俊杰提到,MiniMax目前的一個辦法是,基于MiniMax開發(fā)平臺的3萬多個開發(fā)者和付費(fèi)客戶,在他們的場景上構(gòu)建一個真實(shí)使用的測試集,有些客戶對他們的場景非?粗兀蟊WC產(chǎn)品的效果,基于這些客戶真實(shí)使用的評測是較為客觀的。
“這個測試集上所有國產(chǎn)化模型相比GPT-4o都相差較多,其他排行榜基本上GPT-4o都要排到中間去了,但是在我們的排行榜上確實(shí)GPT-4o排在最靠前!遍Z俊杰提到,國內(nèi)所有模型都與GPT-4o有本質(zhì)的差距,且越難的問題差距越大。按照這個評估方式,國產(chǎn)模型的提升空間還很大。
靜待下一轉(zhuǎn)折點(diǎn)
大模型的下一個轉(zhuǎn)折點(diǎn)在哪里?眾多創(chuàng)業(yè)者有不同的答案,有人認(rèn)為是錯誤率的降低,有人覺得是個性化的模型,有人認(rèn)為關(guān)鍵在于小算力訓(xùn)練出大模型,背后或許意味著架構(gòu)的改進(jìn)。
朱嘯虎曾提到,今年的大模型本身還是有很多錯誤,且出來的結(jié)果不可控,今天落地最困難的是,場景下怎么解決錯誤問題、可控問題。
現(xiàn)在所有的模型錯誤率都在20%左右,即兩位數(shù)的錯誤率,有時驚艷,有時不靠譜,閆俊杰認(rèn)為,這也是制約模型處理復(fù)雜任務(wù)的原因,“真正的變革是,什么時間點(diǎn)有一個模型可以將錯誤率降低到個位數(shù)!边@是能增加用戶使用深度的核心手段。
復(fù)雜任務(wù)往往需要多個步驟“相乘”,較高的錯誤率導(dǎo)致失敗率的指數(shù)增加。閆俊杰表示,即便是GPT-4這樣的模型也無法支持非常靈活的Agent(智能體),這并不是因?yàn)锳gent框架寫得不夠好,產(chǎn)品做得不好,最根本的原因是模型本身不夠好。
但現(xiàn)在可以看到的是,每家公司有了算力,無論是OpenAI、谷歌還是Meta,都在加碼算力。Meta CEO扎克伯格曾在社交媒體上表示,要建立一個大規(guī)模的計(jì)算基礎(chǔ)設(shè)施,到2024年底,這一設(shè)施將包括35萬張英偉達(dá)H100顯卡,業(yè)界預(yù)估這或許將耗費(fèi)近百億美元。
算法也在進(jìn)步,OpenAI在2023年只能做出來GPT-4,但2024年能做GPT-4o,雖然性能差不多,速度快了近10倍。
“計(jì)算量多了不止10倍,算法也快了10倍時,沒有道理說訓(xùn)練不出來一個更好的模型。”閆俊杰提到,“如果Scaling law(尺度定律)是對的,未來這個模型一定會出現(xiàn),標(biāo)志就是個位數(shù)的錯誤率!
在傅盛看來,降低錯誤率同樣重要!敖裉斓拇竽P陀20%-30%的知識幻覺,而且‘它不知道自己不知道’,這是在企業(yè)應(yīng)用上非常重要的一大卡點(diǎn)!毕胍嬲涞匾粋應(yīng)用,得用大量工程化的手段去解決以前通用人工智能認(rèn)為它能干的活,這中間是有差距的。
問及大模型技術(shù)的下一個轉(zhuǎn)折點(diǎn),姜昱辰給了一個不一樣的答案,她認(rèn)為是“個性化”的技術(shù)。
“ToB的創(chuàng)業(yè)者會覺得錯誤率降低很重要,因?yàn)槠髽I(yè)級、工業(yè)級場景中要的是極高準(zhǔn)確率,而在消費(fèi)場景中,要的是‘懂你’的個人助手。因此,對ToC創(chuàng)業(yè)者來說,個性化技術(shù)更重要!睂τ诓煌拇鸢福懦浇忉,ToB和ToC不同的場景下會有不同的感知。
從難度上來說,大模型幻覺是概率模型固有的,不容易解決,但個性化大模型確實(shí)是技術(shù)層面可行的。姜昱辰提到,波形智能目前在做的是這個方向,主要的難點(diǎn)是算法,中間需要知道的是,這樣的個性化生成式模型需要什么用戶信息,如何用于模型自進(jìn)化。
深思考創(chuàng)始人楊志明則認(rèn)為,下一個轉(zhuǎn)折點(diǎn)是,如何利用小算力訓(xùn)練出大模型、做好大模型的推理,在這背后,當(dāng)下主流的Transformer架構(gòu)需要堆積算力,“性價比太低”。架構(gòu)的改進(jìn)或許是重要的方向。
值得期待的是,近日有消息稱,OpenAI將在今年秋天推出代號為“草莓”(Strawberry)的新模型。作為核心技術(shù)突破,草莓可能集成在ChatGPT內(nèi),幫助解決當(dāng)前AI聊天機(jī)器人(9.250,-0.01,-0.11%)難以完成的復(fù)雜任務(wù),如數(shù)學(xué)和編程問題。此外,草莓更會“思考”,在解決強(qiáng)主觀性問題上更擅長。
“草莓”是前菜,消息人士透露,OpenAI正在開發(fā)下一代大型語言模型Orion(獵戶座),草莓將為其生成高質(zhì)量訓(xùn)練數(shù)據(jù),以幫助減少大模型幻覺問題。能否突破瓶頸,帶領(lǐng)行業(yè)進(jìn)入下一轉(zhuǎn)折點(diǎn),最大的可能性還在OpenAI。