
當地時間1月27日,美國芯片巨頭英偉達股價暴跌17%,市值跌去5900億美元(約合人民幣4.24萬億元)。這與來自中國的人工智能初創公司DeepSeek“現象級崛起”密切相關,“好用、免費、訓練成本低”,DeepSeek連續多日引發了全民關注,服務器還一度卡到宕機。
訪問量激增到一度宕機
DeepSeek一夜火出圈。從昨天開始,微信朋友圈、微博等似乎全網都在討論或者分享DeepSeek。這款突然出圈的AI模型到底是什么?和目前市面上的大模型有何不同,為何能一夜出圈,引發全民關注?
1月28日凌晨,人工智能社區Hugging Face顯示,DeepSeek剛剛發布了開源多模態人工智能模型Janus-Pro,擁有10億和70億參數規模,僅使用128顆英偉達A100進行訓練1周。
DeepSeek有多好用?一位用戶表示,以往的AI大模型都是只給出結果,但是DeepSeek會給出其思考和過程,更加可信,“不論是讓它寫一段代碼,還是進行數學運算,它會首先給出它的推理過程。比如需要先算什么,這步的步驟是什么,再算什么,這步的式子怎么列,答案是什么……這讓推理邏輯變得十分清晰、有跡可循,我們也更加敢于信任AI”。
此外,它的中文表達能力十分驚喜,可以模仿許多作家的口吻來表達,“用古龍體寫小說,甚至用二次元體,都可以寫得很溜。以往的AI寫作,看起來寫得也不錯,但是要么是沒有感情,堆砌詞藻,要么是文體別扭,缺乏靈魂。DeepSeek則細節滿滿。”
最重要的是,它完全免費,“能力差不多的ChatGPT,宣稱免費,但實際上每月需要花費200美元才能完全使用!”用戶表示。
1月27日,蘋果App Store中國區免費榜顯示,DeepSeek站上首位。同時,DeepSeek在美區蘋果App Store免費榜從昨日的第六位飚升至第一位,超越ChatGPT及Meta公司旗下的社交媒體平臺Threads,以及Google Gemini、Microsoft Copilot等美國科技公司的生成式AI產品。
不過隨后,不少用戶表示,系統出現了短時閃崩現象。對此,DeepSeek回應稱,當天下午確實出現了局部服務波動,但問題在數分鐘內就得到了解決。此次事件可能是由于新模型發布后,用戶訪問量激增,服務器一時無法滿足大量用戶的并發需求。
DeepSeek厲害在哪兒
除了體驗更好,對于資本市場來說,DeepSeek更大的驚喜來自于它的推理成本大幅降低。有數據顯示,最新版的推理大模型DeepSeek-R1,輸入token定價為0.55美元/百萬(OpenAI為15美元/百萬),輸出token為2.19美元/百萬(OpenAI為60美元/百萬),成本降低超90%。而此前DeepSeek-V3僅用550萬元研發成本、2000張顯卡打造,卻達到與Llama 3 405B相媲美的性能,而OpenAI為了實現這一目標,花費了數億美元。
為何可以做到這樣的低成本訓練?據介紹,DeepSeek通過創新架構,節省了大量的顯存,進而實現底層算力的高效利用,以更低的成本訓練出更加出色的模型效果;同時,研發團隊證明,多Token預測目標有利于提高模型性能,可以用于推理加速的推測解碼。此外,DeepSeek V3引入了一種創新方法,將推理能力從長思維鏈模型,蒸餾到標準模型上,在顯著提高推理性能的同時,可以進行長度控制。
“DeepSeek顛覆了之前大模型公司‘堆卡’的比拼。實際上近期一些大模型公司已經沒有特別大的技術創新了,模型的能力提升來自于不斷堆卡、堆卡,這只利好英偉達,可以說挖礦的人沒有賺到錢,賣鏟子的盆滿缽滿……而DeepSeek擊碎了模型性能與GPU數量成正比的估值模式,對整個大模型系統是一次價值重估”,一位分析人士表示。
面壁智能首席科學家劉知遠在朋友圈發文稱,“DeepSeek最近出圈,特別好地證明了我們的競爭優勢所在,就是通過有限資源的極致高效利用,實現以少勝多。2024年很多人來問我,中國跟美國的AI差距是擴大了還是縮小了,我說明顯縮小了,但能感受到大部分人還不太信服,現在DeepSeek等用實例讓大家看到了這點,非常贊。”
英偉達等美股科技公司市值暴跌
資本市場迅速做出反應:英偉達公司股票27日以每股124.80美元開盤,大幅下跌12.49%,此后跌幅持續擴大,收盤時下跌16.97%,市值蒸發約5900億美元,創下美國上市公司單日市值損失的紀錄。此外,博通公司股價盤中跌幅一度接近20%,收盤時下跌17.4%。截至收盤,納斯達克綜合指數下跌612.47點,收于19341.83點,跌幅為3.07%。其他主要股指中,科技板塊同樣領跌。
對此,英偉達公開回應稱:“DeepSeek是一項卓越的人工智能進展,也是測試時擴展的絕佳范例。DeepSeek的研究展示了如何運用該技術,借助廣泛可用的模型以及完全符合出口管制規定的算力,創建新模型。”
“神秘的東方力量”從未對外融資
對于DeepSeek爆火,85后創始人梁文鋒回應:中國AI不可能永遠跟隨。
DeepSeek是杭州深度求索人工智能基礎技術研究有限公司,成立于2023年7月。公司由知名量化資管巨頭幻方量化創立。公司創始人梁文鋒,本科、研究生畢業于浙江大學,擁有信息與電子工程學系本科和碩士學位。2008年起,他開始帶領團隊使用機器學習等技術探索全自動量化交易。2023年,進軍通用人工智能領域。
公開信息顯示,該團隊“小而精”,只有100多人,與之相比,OpenAI有1200名研究人員。公司的工程師和研發人員幾乎都來自清華大學、北京大學、中山大學、北京郵電大學等國內頂尖高校,年紀也多在35歲以下。梁文鋒曾表示,“招聘看能力,而不是看經驗。我們的核心技術崗位,基本以應屆和畢業一兩年的人為主。”
值得注意的是,目前該公司從未對外融資。“我們跟了這家公司一年多了,一直想要進入,但是對方根本沒有融資訴求”,國內一家大型資本機構負責人告訴北青報記者,“他們公司此前是做量化的,資金實力雄厚。”梁文鋒也曾公開表示,“短期內沒有融資計劃”,并認為當下面臨的問題“從來不是錢,而是高端芯片(短缺)”。
在被稱為“神秘的東方力量”的DeepSeek火了之后,據稱,Meta內部甚至成立了專門的研究小組,試圖剖析DeepSeek的技術細節,以改進其Llama系列模型,并且新年計劃中預算4000億起步投資AI,年底AI算力將達130萬卡。OpenAI也緊急透露新模型o3-mini即將免費上線ChatGPT的消息。
業內人士表示,關于AI大模型競爭仍然激烈,AI應用的創新和提升空間仍然很大,尤其是在面臨算力限制的現實情況下,未來國內外的大模型市場格局還將不斷變化與重塑。
文/北京青年報記者 溫婧