台灣新聞通訊社-DeepSeek擬首度對外融資 V4徹底擺脫輝達

Post Views: 8

DeepSeek即將推出的新一代模型V4，傳將捨棄輝達改採華為設計的最新晶片。路透

打破「從不融資」鐵律的大陸人工智慧（AI）新創公司DeepSeek正尋求首輪外部融資，目標籌集至少3億美元（新台幣96億元），估值最少100億美元（新台幣3185億元）。

此外DeepSeek V4的發布時間一再推遲，跟模型本身關係不大，實際上是一場底層硬體的大遷移。以往DeepSeek之前所有模型都基於輝達達晶片訓練。但這次V4將運行在華為最新的昇騰晶片上。

The Information報導，DeepSeek這次選擇啟動融資，代表DeepSeek創始人梁文鋒終於做出巨大的轉變。先前作為技術理想主義者的他，一直希望保持DeepSeek的獨立性，不受商業壓力的干擾。

DeepSeek上一次發布新一代模型，還是在2025年 R1爆火時。如今DeepSeek已經讓全行業等了一年半。

如果此次融資成功，DeepSeek就可以擁有更多算力，同時還能開出更高薪酬，防止頂尖研究者流失。

不過，由於DeepSeek「大陸初創公司」的身分，一些美國風險投資人態度會比較謹慎。

V4原定今年2月亮相，但已跳票多次。路透在4月初給出的最新時間是「未來幾周內」。從目前已知資訊來看，V4的規模和野心遠超前代。參數量躍升至萬億級別。

V4採用MoE架構，總參數約1兆，但每個token僅啟動約370億參數，推理成本與V3持平。這個設計思路延續了DeepSeek一貫的效率優先哲學。

V4引入一套名為Engram的條件記憶架構，實現對超長上下文的恒定時間檢索。據內部測試，在100萬token長度下的資訊召回率達到97%，遠超V3在128K上下文時的表現。

金融時報報導，V4將是DeepSeek首個原生多模態模型，支持文本、圖像和影片生成。先前DeepSeek的模型一直以純文字為主，而其他旗艦模型早已擁抱多模態。

V4從立項之初就以代碼生成為核心目標。內部benchmark顯示SWE-bench成績超過80%，HumanEval達到90%。據稱V4能處理整個代碼倉庫級別的複雜bug修復，在長上下文代碼推理上的表現將超越Claude和GPT系列。

DeepSeek的工程師們花了大量時間解決V4對華為晶片的適配問題，重寫核心代碼，從輝達的CUDA生態遷移到華為的CANN架構。這是一個技術決策，也是一個戰略信號。

DeepSeek刻意沒有給輝達和AMD提前提供V4做優化適配，而是將早期存取權限獨家給了國產晶片廠商。

如果V4在華為晶片上跑出有競爭力的性能，將是全球第一個不依賴輝達的前沿AI模型。

2026/04/18 13:47

轉載自聯合新聞網: https://udn.com/news/story/7333/9449769?from=udn-ch1_breaknews-1-99-news

本週熱門文章