2025年1月,DeepSeek-R1上線,此時(shí)正值R1模型發(fā)布一周年之際,DeepSeek新模型“MODEL1”曝光。
北京時(shí)間1月21日,DeepSeek官方GitHub倉庫更新了一系列FlashMLA代碼,借助AI對全部總代碼文件數(shù):114個(gè)(包括.py, .md, .txt, .sh, .cpp, .cu, .h文件)進(jìn)行分析,發(fā)現(xiàn)了一個(gè)此前未公開的模型架構(gòu)標(biāo)識“MODEL1”,共被提及31次。
FlashMLA是DeepSeek獨(dú)創(chuàng)的、針對英偉達(dá)Hopper架構(gòu)GPU深度優(yōu)化的軟件工具,專門加速大模型“推理生成”這一環(huán)節(jié)。該算法的實(shí)現(xiàn)基礎(chǔ)MLA(多層注意力機(jī)制),是DeepSeek模型(如V2、V3)實(shí)現(xiàn)低成本、高性能的關(guān)鍵技術(shù)之一,用于在模型架構(gòu)層面減少內(nèi)存占用,最大化地利用GPU硬件。
MODEL1是DeepSeek FlashMLA中支持的兩個(gè)主要模型架構(gòu)之一,另一個(gè)是DeepSeek-V3.2。據(jù)推測,MODEL1很可能是一個(gè)高效推理模型,相比V3.2,內(nèi)存占用更低,適合邊緣設(shè)備或成本敏感場景。它也可能是一個(gè)長序列專家,針對16K+序列優(yōu)化,適合文檔理解、代碼分析等長上下文任務(wù)。它也可能是一個(gè)長序列專家,針對16K+序列優(yōu)化,適合文檔理解、代碼分析等長上下文任務(wù)。
另外,MODEL1的硬件實(shí)現(xiàn)跨越多個(gè)GPU架構(gòu)。在英偉達(dá)H100/H200(SM90架構(gòu))上有兩個(gè)版本:model1_persistent_h64.cu用于64頭配置,model1_persistent_h128.cu用于128頭配置。在最新的B200(SM100架構(gòu))上有專門的Head64內(nèi)核實(shí)現(xiàn),而SM100的Head128實(shí)現(xiàn)僅支持MODEL1,不支持V3.2,有人猜測DeepSeek為適配英偉達(dá)新一代GPU,專門優(yōu)化了MODEL1的架構(gòu)。
DeepSeek已發(fā)布的主要模型是兩條技術(shù)路線的代表:追求極致綜合性能的V系列“全能助手”和專注于復(fù)雜推理的R系列“解題專家”。
2024年12月推出的V3是DeepSeek的重要里程碑,其高效的MoE架構(gòu)確立了強(qiáng)大的綜合性能基礎(chǔ)。此后,DeepSeek在V3基礎(chǔ)上快速迭代,發(fā)布了強(qiáng)化推理與Agent(智能體)能力的V3.1,并于2025年12月推出了最新正式版V3.2。同時(shí),還推出了一個(gè)專注于攻克高難度數(shù)學(xué)和學(xué)術(shù)問題的特殊版本V3.2-Speciale。
2025年1月發(fā)布的R1,則通過強(qiáng)化學(xué)習(xí),在解決數(shù)學(xué)問題、代碼編程等復(fù)雜推理任務(wù)上表現(xiàn)卓越,并首創(chuàng)了“深度思考”模式。
科技媒體The Information月初爆料稱,DeepSeek將在今年2月中旬農(nóng)歷新年期間推出新一代旗艦AI模型——DeepSeek V4,將具備更強(qiáng)的寫代碼能力。
此前,DeepSeek研究團(tuán)隊(duì)陸續(xù)發(fā)布了兩篇技術(shù)論文,分別介紹了名為“優(yōu)化殘差連接(mHC)”的新訓(xùn)練方法,以及一種受生物學(xué)啟發(fā)的“AI記憶模塊(Engram)”。這一舉動(dòng)不禁引起用戶猜測,DeepSeek正在開發(fā)中的新模型有可能會整合這些最新的研究成果。