圖片來源:視覺中國
藍鯨新聞4月18日訊(記者 朱俊熹)據字節跳動旗下云服務平臺火山引擎披露,截至今年3月底,豆包大模型日均tokens調用量已達12.7萬億。與去年5月發布時相比增長106倍,遠超去年12月時的4萬億日均tokens調用量。
火山引擎是國內最早接入DeepSeek V3、R1模型的云廠商之一。總裁譚待在4月17日接受藍鯨科技在內的媒體群訪時表示,火山引擎對模型的接入始終持開放態度,只要是好的模型、客戶有需求,就會接入到平臺中。不論是字節的模型還是其他開源模型,“當然我們還是對豆包有巨大的信心”。
譚待提到,tokens調用量的激增取決于模型本身的幾大突破。其一是模型最基礎的聊天、信息處理能力在去年得到了提升,且成本不斷下降。今年則受益于深度思考模型的上線。在譚待看來,之后的一個突破方向是視覺推理,能夠解鎖更多視覺驅動的現實場景。“人能處理現實生活,一定是眼睛、嘴巴、耳朵、手都用上的。模型也是一樣,要有眼睛的能力,那多模態就很重要。”
在4月17日舉辦的“AI創新巡展”上,火山引擎面向B端發布豆包1.5深度思考模型。該模型具備視覺推理能力,能像人類一樣對看到的事物進行聯想和思考。譚待表示,在多模態能力的加持下,豆包深度思考模型可以助力企業在更多場景實現智能化升級。例如模型在分析航拍圖時,能結合地貌特征來判斷區域開發可行性。
同日,OpenAI也發布最新推理模型o3和o4-mini,同樣強調在視覺推理方面取得突破。據OpenAI介紹,新模型不僅可以“看到”圖像,還能在思維鏈中整合圖像用來思考。
火山引擎關注的另一個模型突破方向則是Agent。譚待解釋稱,AI在對話、信息處理這塊市場能分的蛋糕有限,要真正深入到各行各業中,Agent就是必經的一步。
今年以來,Manus、智譜AutoGLM沉思等Agent產品受到科技行業熱切關注,2025年也被視作“Agent智能體元年”。但與此同時,業內對智能體并沒有統一的定義,極易造成概念上的混亂。
對此譚待表示,讓AI來寫打油詩、小學生作文或生成簡單的報告,都不能算是真正的Agent。從定性上看,Agent應該能夠完成一個專業度較高的人、需要較長時間才能實現的完整任務。在技術層面,Agent的構建需要基于深度思考模型,才能具備思考、計劃和反思能力,并且支持多模態,以更好地處理復雜任務。
他補充稱,隨著Agent今年的進一步落地,其定義可能會變得更清晰。或者就像自動駕駛一樣,也發展出不同級別的定義。開發出幾千個能完成簡單任務的Agent屬于L1級,最終做到L2++級才能叫作“落地的元年”。(在自動駕駛領域,L2++級介于L2和L3之間,比L2系統更先進,但仍需人類保持一定的監控和干預準備。)
火山引擎將Agent大致劃分為兩類:垂直類Agent、通用型Agent。譚待表示,對于垂直類Agent,火山可能會在擅長的領域嘗試自己來做,例如數據、代碼Agent。而在能夠操作電腦、手機的通用型Agent方面,火山更看重的是“把路修好”,為開發者和企業提供合適的工具,構建自己的通用Agent。
因此,火山引擎也宣布推出OS Agent解決方案。其中包括豆包UI-TARS模型,以及veFaaS函數服務、云服務器、云手機等產品,能夠實現對代碼、瀏覽器、電腦、手機以及其他Agent的操作。在活動現場,譚待演示了如何由Agent來操作瀏覽器,完成商品比價的任務,甚至通過Agent在剪映上進行視頻編輯與配樂。