近日,一家來自中國杭州的公司Deepseek在全球AI界刷屏!
12月26日,Deepseek發布了全新系列模型DeepSeek-v3,一夜之間霸榜開源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及 Claude-3.5-Sonnet不分伯仲。
更讓海外AI界震驚的是,該模型的訓練成本僅600萬美元,成本降低10倍,資源運用效率極高。有AI投資機構負責人直言,DeepSeek發布的53頁的技術論文是黃金。
據了解,Deepseek的中文名是“深度求索”,為量化巨頭幻方量化的子公司。作為一家隱形的AI巨頭,幻方擁有1萬枚英偉達A100芯片,去年4月幻方宣布成立新組織,集中資源和力量,探索AGI的本質,在一年多時間里進展迅速。
Deepseek再進化
今年5月,Deepseek發布的一款名為DeepSeek V2的開源模型,因其史無前例的性價比,在AI界一躍成名。然而,僅僅過了半年多,Deepseek再度進化。
12月26日,Deepseek稱,全新系列模型DeepSeek-v3首個版本上線并同步開源,該模型的多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
比如,在百科知識、長文本、代碼、數學、中文能力上的表現,超越其他模型,尤其是在數學上,在美國數學競賽(AIME 2024, MATH)和全國高中數學聯賽(CNMO 2024)上,DeepSeek-V3 大幅超過了所有開源閉源模型。
同時,通過算法和工程上的創新,DeepSeek-V3 的生成吐字速度從20 TPS大幅提高至 60 TPS,相比 V2.5 模型實現了3倍的提升。
值得注意的是,Deepseek將API服務價格,調整為每百萬輸入tokens 0.5元(緩存命中)/ 2元(緩存未命中),每百萬輸出tokens 8元。
Deepseek還決定為全新模型設置長達45天的優惠價格體驗期:即日起至2025年2月8日,DeepSeek-V3的API服務價格仍然是每百萬輸入tokens 0.1元(緩存命中)/ 1元(緩存未命中),每百萬輸出tokens 2元。
震驚海外AI界
最讓海外AI界震驚的是,在性能突出的同時,該模型的訓練成本大幅降低。
天使投資人Balaji稱,DeepSeek新開源模型僅花費了560萬美元進行訓練,與GPT 4和Claude 3.5 Sonnet相當。如果屬實,成本將降低10倍以上。
Open AI創始成員之一,李飛飛的得意門生Andrej Karpathy表示,“今天,DeepSeek通過一個前沿級LLM的開放權重發布,讓這一切看起來輕而易舉,而其訓練的預算卻非常低(2048個GPU運行2個月,總成本600萬美元)。”
Andrej Karpathy分析,按照以往經驗,這種能力級別的大模型,通常需要接近1.6萬張GPU,而目前行業內的模型大多使用約10萬張GPU。例如,Llama 3 405B模型消耗了3080萬GPU小時,而DeepSeek-V3僅用了280萬GPU小時,計算需求減少了11倍。
“這是否意味著前沿LLM不需要大型GPU集群?不是,但你必須確保不浪費你所擁有的資源,這看起來是一個很好的證明,表明在數據和算法方面還有很多工作要做。”Andrej Karpathy感慨。
Lepton AI創始人賈揚清則表示,2019年,他和deepseek團隊進行了一次交流,希望向他們推銷AI云解決方案。并試圖說服他們,“不需要復雜云虛擬化,只需要容器和高效的調度程序;需要一個像NFS這樣的通用存儲,不需要太花哨但必須速度快”等觀點,這些觀點對市場上的許多參與者來說都是新穎的,需要一些說服力。
“但deepseek團隊友善地告訴我,他們已經這樣做很多年了。還讓他幫忙,將計算資源免費捐贈給大學研究實驗室,且無附加條件。”賈揚清稱,從某種程度上來說,他們取得的偉大成就源于多年的專業知識,但這點卻被許多人忽視了。
幻方量化CEO陸政哲在微信朋友圈表示,“看到楊清老師這段話,有點小感動。”
前英偉達機器學習專家Bojan Tunguz則表示,所有針對高端半導體的出口禁令實際上可能以可以想象到的“最壞”方式產生了反效果。它們似乎迫使中國研究人員變得比正常情況下更加聰明和資源高效。這似乎也證實了我自己的假設,即我們距離擁有人工智能機器學習部分的最佳算法還有很長的路要走。
“AI界拼多多”
Deepseek的中文名是“深度求索”,為量化巨頭幻方量化的子公司。在硅谷,DeepSeek則被稱作“來自東方的神秘力量”。
作為一家隱形的AI巨頭,幻方擁有1萬枚英偉達A100芯片,而國內擁有超過1萬枚GPU的企業不超過5家。在中國7家大模型創業公司中,Deepseek是最不顯山露水的一家。
去年4月,幻方宣布成立新組織,集中資源和力量,探索AGI的本質,在一年多時間里進展迅速。當時幻方就表示,多年以來,該公司堅持把營收的大部分投入人工智能領域,建設領先的AI硬件基礎設施,進行大規模的研究,探索人類未知的奧秘。
“我們相信幾乎所有的創新都是從大膽嘗試和點滴積累中孕育而來。我們將充分而持續地投入,不做中庸的事,用最長期的眼光去回答最大的問題。”
成立一年后,deepseek發布的一款名為DeepSeek V2的開源模型,提供了一種史無前例的性價比:推理成本被降到每百萬token僅1塊錢。隨后,字節、騰訊、百度、阿里巴巴等紛紛跟進,打響中國大模型價格戰。DeepSeek也被迅速冠以“AI界拼多多”之稱。
據了解,幻方量化和Deepseek創始人梁文鋒是一個極致的80后技術理想主義者,從幻方時代,就在幕后潛心研究技術,在DeepSeek時代,依舊延續著他的低調作風,和所有研究員一樣,每天“看論文,寫代碼,參與小組討論”。
在接受暗涌的采訪中,梁文鋒表示,我們降價一方面是因為我們在探索下一代模型的結構中,成本先降下來了,另一方面也覺得無論API,還是AI,都應該是普惠的、人人可以用得起的東西。
“過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這并非是一種理所當然。這一波浪潮里,我們的出發點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。”梁文鋒表示。
責編:桂衍民
校對:趙燕