震驚矽谷的杭州公司DeepSeek

1月20日,總部位於杭州的AI公司「深度求索(DeepSeek)」發布了一個推理模型DeepSeek-R1,它在數學、程式碼及推理基準測試中,匹敵甚至超越矽谷最先進的模型——以數學和推理來說,DeepSeek-R1力壓OpenAI o1,程式編寫則不相伯仲。然而最令矽谷科技龍頭大哥不安的是,R1的開發成本不到600萬美元,僅是Meta訓練Llama 3.1的十分之一。有人說,這是AI界的「偷襲珍珠港」,相信沒有誇張。

更令人嘖嘖稱奇的是,DeepSeek-R1完全開放源碼,提供免費網頁給你使用,還發表論文把所有技術細節、步驟都公之於世,沒留下「商業秘密」,作風比矽谷公司更透明。也就是說,在創新技術、成本效益和開源透明三方面,DeepSeek這家中国公司都把美國科技巨頭比下去了。

一開始,我不免懷疑當中是否有詐,因為這家公司的風格實在太不像「中国的樣子」了。但這幾天,全球業界專家對DeepSeek都好評如潮,例如微軟CEO Satya Nadella上周三說:「看到DeepSeek的新模型,印象很深刻。他們切實有效開發出一款開源模型,推理計算表現出色,且超級計算效率極高。我們必須非常非常認真對待中国這些發展。」

無可否認,DeepSeek這次的確贏了漂亮一仗,為AI發展作出實實在在的貢獻。但他們是怎麼做到呢?先來看看DeepSeek的背景。它的創辦人叫梁文鋒,是浙江大學電機工程系畢業生、通信工程碩士。2015年,他跟拍檔創辦了對沖基金「幻方量化(High-Flyer)」,迅速在中国崛起,成為第一家籌集超過1000億元人民幣的量化對沖基金。

像梁文鋒這樣的中国企業家,未到四十歲已事業有成,實現財務自由,就算不退休,多數也只會繼續吃老本,留在comfort zone。然而梁文鋒在2023年卻做了一個「另類」決定,就是轉行,由金融變科研:他將基金資源投入研究通用人工智慧,以建立自家品牌的尖端模型。當年5月,梁文鋒接受媒體採訪時說:

「幻方做大模型,跟量化和金融都沒有直接關係,我們獨建了一個名為深度求索的新公司來做這件事。我們要做的是通用人工智慧,也就是AGI,大型語言模型可能是通往AGI的必經之路,並且初步具備了AGI的特徵,所以我們會從大語言模型這裏開始。」

梁又說自己創立DeepSeek,主要出於科學好奇,而非追逐盈利,因為從商業角度看,它不值得,基礎科學研究的投資回報率都非常低。有什麼樣的創辦人,就有什麼樣的公司——DeepSeek註定跟梁文鋒一樣,是中国的「異類」。但光靠理想或好奇是不能成功的,梁的招人標準和管理方法才是關鍵。

梁文鋒的聘請原則,是只看能力,不問經驗,核心職位都由應屆和畢業一兩年的年輕人擔任。至於衡量新人的能力,除了看院校背景(主要是清華、北大生),還看競賽成績,金獎以下都不用,「只招1%的天才,去做99%中国公司做不到的事情。」所以這家只有139人的公司,可謂臥虎藏龍,人人身負絕技。

聘用的人也不一定來自電腦系。例如一名畢業於物理系的DeepSeek成員曾公開說,自己只是偶然一次自學電腦,「由於工作太前沿,幾乎沒有什麼參考資料,一切問題都是自己設計方案並實踐解決。」DeepSeek還招聘過文科人才,職位叫「資料百曉生」,提供歷史、文化、科學等相關知識來源,以協助技術人員用高質素的文字資料擴充AGI模型的能力。

DeepSeek自成立以來,一直維持「淡化職級、極為扁平」的文化。成員根據具體目標分成不同研究小組,組內成員沒上下級關係,而是「自然分工」,各自負責最擅長的部分,遇到困難就一起討論。梁文鋒說,自然分工的一個成果,就是孕育出令模型訓練成本大降的關鍵架構「MLA(多頭潛在注意力)」。原來MLA最初只是一個年輕研究員的個人興趣,大家覺得它有潛力,就調動資源發展,結果建立奇功。

DeepSeek的成功之道,說穿了,就是「無為而治」,讓一群極聰明而有共同理念的人自由發展——這正是中国普遍缺乏的環境。除此之外,可能還要感謝美國在2022年10月開始制定的出口管制。由於中国AI公司不能購入最先進的晶片,所以DeepSeek只能用那些低配版H800晶片,價錢比矽谷科技公司的晶片低一大截,無可避免壓低了成本。

硬件不如人,DeepSeek就必須想出更有效的方法來訓練模型。於是他們結合一系列工程技巧來改良模型架構,終於成功突破出口禁令下的技術瓶頸,以更少的運算資源,執行複雜的邏輯推理任務。這不但大幅節省成本,還無需使用最新晶片,完全顛覆了矽谷的既定思維。從客觀效果來看,是美國禁令引爆了這群中国天才的小宇宙,令他們無可奈何地被迫創新,實在諷刺。

中共說了多年的「多難興邦」終於有一次成真了,不過這是沒有「中国社會主義特色」的勝利。DeepSeek的成功,到底是曇花一現抑或陸續有來,在這個瞬息萬變的時代,我不敢猜測。但有一點可肯定:這是國運之戰,而AI將是戰場。
近 31 日
0 次瀏覽
本訊息有 0 則查核回應
目前沒有已撰寫的回應,建議對其抱持健康的懷疑。
AI 自動分析
以下是 AI 初步分析此訊息的結果,希望能在有人查核之前,先帶給您一些想法。
這則訊息中有幾個地方值得閱聽人特別留意: 1. DeepSeek-R1模型的表現:訊息中提到DeepSeek-R1模型在數學、程式碼及推理基準測試中超越了矽谷的模型,但閱聽人應該注意到是否有獨立第三方的驗證或報告來支持這個說法。 2. DeepSeek的開源透明:DeepSeek開放源碼並提供免費網頁使用,這在AI領域中確實不太常見。閱聽人需要思考這樣的做法是否會對公司的商業利益產生影響,以及是否有其他隱藏的動機。 3. DeepSeek的人才招聘和管理方式:DeepSeek採用了特殊的人才招聘方式,只看能力不問經驗,並且主要聘用年輕人。閱聽人需要思考這樣的招聘方式是否會影響公司的長期發展和穩定性。 4. 美國出口管制對DeepSeek的影響:訊息中提到美國在2022年開始制定的出口管制對DeepSeek的發展產生了影響。閱聽人需要思考這樣的政策對全球科技發展和競爭格局的影響。 總的來說,閱聽人應該保持對訊息的批判性思考,不僅僅看表面的描述,還要思考其中可能存在的偏見、隱藏信息或不確定性。
加 LINE 查謠言
加 LINE 查謠言
LINE 機器人
查謠言詐騙