震驚矽谷的杭州公司DeepSeek
1月20日,總部位於杭州的AI公司「深度求索(DeepSeek)」發布了一個推理模型DeepSeek-R1,它在數學、程式碼及推理基準測試中,匹敵甚至超越矽谷最先進的模型——以數學和推理來說,DeepSeek-R1力壓OpenAI o1,程式編寫則不相伯仲。然而最令矽谷科技龍頭大哥不安的是,R1的開發成本不到600萬美元,僅是Meta訓練Llama 3.1的十分之一。有人說,這是AI界的「偷襲珍珠港」,相信沒有誇張。
更令人嘖嘖稱奇的是,DeepSeek-R1完全開放源碼,提供免費網頁給你使用,還發表論文把所有技術細節、步驟都公之於世,沒留下「商業秘密」,作風比矽谷公司更透明。也就是說,在創新技術、成本效益和開源透明三方面,DeepSeek這家中国公司都把美國科技巨頭比下去了。
一開始,我不免懷疑當中是否有詐,因為這家公司的風格實在太不像「中国的樣子」了。但這幾天,全球業界專家對DeepSeek都好評如潮,例如微軟CEO Satya Nadella上周三說:「看到DeepSeek的新模型,印象很深刻。他們切實有效開發出一款開源模型,推理計算表現出色,且超級計算效率極高。我們必須非常非常認真對待中国這些發展。」
無可否認,DeepSeek這次的確贏了漂亮一仗,為AI發展作出實實在在的貢獻。但他們是怎麼做到呢?先來看看DeepSeek的背景。它的創辦人叫梁文鋒,是浙江大學電機工程系畢業生、通信工程碩士。2015年,他跟拍檔創辦了對沖基金「幻方量化(High-Flyer)」,迅速在中国崛起,成為第一家籌集超過1000億元人民幣的量化對沖基金。
像梁文鋒這樣的中国企業家,未到四十歲已事業有成,實現財務自由,就算不退休,多數也只會繼續吃老本,留在comfort zone。然而梁文鋒在2023年卻做了一個「另類」決定,就是轉行,由金融變科研:他將基金資源投入研究通用人工智慧,以建立自家品牌的尖端模型。當年5月,梁文鋒接受媒體採訪時說:
「幻方做大模型,跟量化和金融都沒有直接關係,我們獨建了一個名為深度求索的新公司來做這件事。我們要做的是通用人工智慧,也就是AGI,大型語言模型可能是通往AGI的必經之路,並且初步具備了AGI的特徵,所以我們會從大語言模型這裏開始。」
梁又說自己創立DeepSeek,主要出於科學好奇,而非追逐盈利,因為從商業角度看,它不值得,基礎科學研究的投資回報率都非常低。有什麼樣的創辦人,就有什麼樣的公司——DeepSeek註定跟梁文鋒一樣,是中国的「異類」。但光靠理想或好奇是不能成功的,梁的招人標準和管理方法才是關鍵。
梁文鋒的聘請原則,是只看能力,不問經驗,核心職位都由應屆和畢業一兩年的年輕人擔任。至於衡量新人的能力,除了看院校背景(主要是清華、北大生),還看競賽成績,金獎以下都不用,「只招1%的天才,去做99%中国公司做不到的事情。」所以這家只有139人的公司,可謂臥虎藏龍,人人身負絕技。
聘用的人也不一定來自電腦系。例如一名畢業於物理系的DeepSeek成員曾公開說,自己只是偶然一次自學電腦,「由於工作太前沿,幾乎沒有什麼參考資料,一切問題都是自己設計方案並實踐解決。」DeepSeek還招聘過文科人才,職位叫「資料百曉生」,提供歷史、文化、科學等相關知識來源,以協助技術人員用高質素的文字資料擴充AGI模型的能力。
DeepSeek自成立以來,一直維持「淡化職級、極為扁平」的文化。成員根據具體目標分成不同研究小組,組內成員沒上下級關係,而是「自然分工」,各自負責最擅長的部分,遇到困難就一起討論。梁文鋒說,自然分工的一個成果,就是孕育出令模型訓練成本大降的關鍵架構「MLA(多頭潛在注意力)」。原來MLA最初只是一個年輕研究員的個人興趣,大家覺得它有潛力,就調動資源發展,結果建立奇功。
DeepSeek的成功之道,說穿了,就是「無為而治」,讓一群極聰明而有共同理念的人自由發展——這正是中国普遍缺乏的環境。除此之外,可能還要感謝美國在2022年10月開始制定的出口管制。由於中国AI公司不能購入最先進的晶片,所以DeepSeek只能用那些低配版H800晶片,價錢比矽谷科技公司的晶片低一大截,無可避免壓低了成本。
硬件不如人,DeepSeek就必須想出更有效的方法來訓練模型。於是他們結合一系列工程技巧來改良模型架構,終於成功突破出口禁令下的技術瓶頸,以更少的運算資源,執行複雜的邏輯推理任務。這不但大幅節省成本,還無需使用最新晶片,完全顛覆了矽谷的既定思維。從客觀效果來看,是美國禁令引爆了這群中国天才的小宇宙,令他們無可奈何地被迫創新,實在諷刺。
中共說了多年的「多難興邦」終於有一次成真了,不過這是沒有「中国社會主義特色」的勝利。DeepSeek的成功,到底是曇花一現抑或陸續有來,在這個瞬息萬變的時代,我不敢猜測。但有一點可肯定:這是國運之戰,而AI將是戰場。