模型日均tokens從1200億增長(zhǎng)到4萬(wàn)億,需要多長(zhǎng)時(shí)間?豆包大模型給出的時(shí)間是——7個(gè)月,數(shù)據(jù)背后是2024年中國(guó)大模型應(yīng)用市場(chǎng)爆發(fā)式增長(zhǎng)的縮影。12月18日,火山引擎Force原動(dòng)力大會(huì)在上海舉辦,豆包視覺(jué)理解模型正式發(fā)布,并以“厘”級(jí)的定價(jià)為企業(yè)提供極具性價(jià)比的多模態(tài)大模型能力。
大會(huì)期間,火山引擎總裁譚待在接受記者采訪時(shí)表示,豆包大模型在視覺(jué)理解、信息處理等領(lǐng)域展現(xiàn)出強(qiáng)勁的增長(zhǎng)潛力,不僅僅局限于對(duì)話場(chǎng)景,而是廣泛應(yīng)用于生產(chǎn)力相關(guān)的多元化場(chǎng)景。圍繞如何讓大模型用得起、用得好,以及如何幫助企業(yè)做好AI創(chuàng)新,推動(dòng)大模型應(yīng)用落地,譚待進(jìn)行了深入解讀。
豆包生成圖片(關(guān)鍵詞:大模型、AI、世界、全面開(kāi)花)
讓大模型用得起、用得好
當(dāng)前,大模型在各種場(chǎng)景中都在“全面開(kāi)花”。最近3個(gè)月,在信息處理場(chǎng)景,豆包的調(diào)用量增長(zhǎng)39倍;客服與銷售場(chǎng)景,豆包的調(diào)用量增長(zhǎng)16倍;在硬件終端場(chǎng)景,豆包增長(zhǎng)了13倍,AI工具增長(zhǎng)9倍。
豆包大模型為何增長(zhǎng)如此迅猛?譚待認(rèn)為,豆包大模型市場(chǎng)份額的爆發(fā),得益于火山引擎“更強(qiáng)模型、更低成本、更易落地”的發(fā)展理念,讓AI成為每一家企業(yè)都能用得起、用得好的普惠科技。
豆包視覺(jué)理解模型是當(dāng)天的重頭戲。據(jù)介紹,豆包視覺(jué)理解模型不僅能精準(zhǔn)識(shí)別視覺(jué)內(nèi)容,還具備出色的理解和推理能力,可根據(jù)圖像信息進(jìn)行復(fù)雜的邏輯計(jì)算,完成分析圖表、處理代碼、解答學(xué)科問(wèn)題等任務(wù)。此外,該模型有著細(xì)膩的視覺(jué)描述和創(chuàng)作能力。
比如,光從云朵里灑出來(lái)的美麗照片,模型能識(shí)別出這是丁達(dá)爾效應(yīng)并解釋背后的原理;根據(jù)一張影子圖片,視覺(jué)理解模型能一眼識(shí)別出小動(dòng)物的影子,并且推斷出這是一只貓……不僅如此,該模型還具備出色的理解和推理能力,無(wú)論是微積分題,還是高考物理,還是處理代碼、分析圖表等需求,它都能輕松勝任。
在定價(jià)方面,豆包視覺(jué)理解模型每千tokens輸入價(jià)格定為3厘(即0.003元),一元錢(qián)就可處理284張720P的圖片,比行業(yè)價(jià)格便宜85%。今年5月,字節(jié)跳動(dòng)在正式對(duì)外發(fā)布豆包大模型時(shí),就曾因定價(jià)比同行低99.3%而引起關(guān)注。譚待表示,“豆包大模型通過(guò)技術(shù)創(chuàng)新優(yōu)化成本,保持合理的毛利。我們一次性地把成本做到位,就是希望更多的人,特別是中小企業(yè)、創(chuàng)業(yè)公司、個(gè)人能用起來(lái)、用得好,創(chuàng)造價(jià)值。”
AI+教育、AI+游戲、AI+汽車,甚至AI+天文、AI+養(yǎng)魚(yú)、AI+美食……各種腦洞大開(kāi)的應(yīng)用場(chǎng)景讓人感嘆“AI+千行百業(yè)”的態(tài)勢(shì)一日千里。大模型正加速融入普通人的生活日常,并滲透進(jìn)與生產(chǎn)力相關(guān)的場(chǎng)景,而隨著模型能力變強(qiáng),模態(tài)變多,也會(huì)解鎖越來(lái)越多的新場(chǎng)景。
幫助企業(yè)做好AI創(chuàng)新
會(huì)上,豆包3D生成模型首次亮相。豆包3D模型采用3D-DiT等算法技術(shù)生成高質(zhì)量的3D模型;veOmniverse,則是火山和英偉達(dá)一起合作的數(shù)字孿生平臺(tái),火山引擎將二者結(jié)合起來(lái),就可以實(shí)現(xiàn)AIGC 世界的仿真模擬器。
通過(guò)豆包3D模型與veOmniverse的結(jié)合方案,用戶可以高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作,滿足仿真訓(xùn)練的多樣化需求,加速虛擬與現(xiàn)實(shí)的深度融合。
譚待表示,就目前數(shù)據(jù)來(lái)看,在工作、娛樂(lè)、生產(chǎn)力的場(chǎng)景其實(shí)是差不多的。在他看來(lái),大模型發(fā)展過(guò)程中需要2C和2B齊頭并進(jìn),物理與虛擬齊頭并進(jìn),“大模型比過(guò)去的很多技術(shù)都更容易連接數(shù)字世界和物理世界。”
當(dāng)天,豆包大模型多款產(chǎn)品迎來(lái)更新:豆包通用模型pro已全面對(duì)齊GPT-4o,使用價(jià)格僅為后者的1/8;音樂(lè)模型從生成60秒的簡(jiǎn)單結(jié)構(gòu),升級(jí)到生成3分鐘的完整作品;文生圖模型2.1版本,更是在業(yè)界首次實(shí)現(xiàn)精準(zhǔn)生成漢字和一句話P圖的產(chǎn)品化能力,該模型已接入即夢(mèng)AI和豆包App。
同時(shí),火山引擎升級(jí)了火山方舟、扣子和HiAgent三款平臺(tái)產(chǎn)品,幫助企業(yè)構(gòu)建好自身的AI能力中心,高效開(kāi)發(fā)AI應(yīng)用。其中,火山方舟發(fā)布了大模型記憶方案,并推出 prefix cache 和 session cache API,降低延遲和成本;鹕椒街圻帶來(lái)全域AI搜索,具備場(chǎng)景化搜索推薦一體化、企業(yè)私域信息整合等服務(wù)。