台灣新聞通訊社-DeepSeek擬首度對外融資 V4徹底擺脫輝達

DeepSeek即將推出的新一代模型V4,傳將捨棄輝達改採華為設計的最新晶片。路透

打破「從不融資」鐵律的大陸人工智慧(AI)新創公司DeepSeek正尋求首輪外部融資,目標籌集至少3億美元(新台幣96億元),估值最少100億美元(新台幣3185億元)。

此外DeepSeek V4的發布時間一再推遲,跟模型本身關係不大,實際上是一場底層硬體的大遷移。以往DeepSeek之前所有模型都基於輝達達晶片訓練。但這次V4將運行在華為最新的昇騰晶片上。

The Information報導,DeepSeek這次選擇啟動融資,代表DeepSeek創始人梁文鋒終於做出巨大的轉變。先前作為技術理想主義者的他,一直希望保持DeepSeek的獨立性,不受商業壓力的干擾。

DeepSeek上一次發布新一代模型,還是在2025年 R1爆火時。如今DeepSeek已經讓全行業等了一年半。

如果此次融資成功,DeepSeek就可以擁有更多算力,同時還能開出更高薪酬,防止頂尖研究者流失。

不過,由於DeepSeek「大陸初創公司」的身分,一些美國風險投資人態度會比較謹慎。

V4原定今年2月亮相,但已跳票多次。路透在4月初給出的最新時間是「未來幾周內」。從目前已知資訊來看,V4的規模和野心遠超前代。參數量躍升至萬億級別。

V4採用MoE架構,總參數約1兆,但每個token僅啟動約370億參數,推理成本與V3持平。這個設計思路延續了DeepSeek一貫的效率優先哲學。

V4引入一套名為Engram的條件記憶架構,實現對超長上下文的恒定時間檢索。據內部測試,在100萬token長度下的資訊召回率達到97%,遠超V3在128K上下文時的表現。

金融時報報導,V4將是DeepSeek首個原生多模態模型,支持文本、圖像和影片生成。先前DeepSeek的模型一直以純文字為主,而其他旗艦模型早已擁抱多模態。

V4從立項之初就以代碼生成為核心目標。內部benchmark顯示SWE-bench成績超過80%,HumanEval達到90%。據稱V4能處理整個代碼倉庫級別的複雜bug修復,在長上下文代碼推理上的表現將超越Claude和GPT系列。

DeepSeek的工程師們花了大量時間解決V4對華為晶片的適配問題,重寫核心代碼,從輝達的CUDA生態遷移到華為的CANN架構。這是一個技術決策,也是一個戰略信號。

DeepSeek刻意沒有給輝達和AMD提前提供V4做優化適配,而是將早期存取權限獨家給了國產晶片廠商。

如果V4在華為晶片上跑出有競爭力的性能,將是全球第一個不依賴輝達的前沿AI模型。

2026/04/18 13:47

轉載自聯合新聞網: https://udn.com/news/story/7333/9449769?from=udn-ch1_breaknews-1-99-news