DeepSeek (深度求索)

一、公司概况

DeepSeek(中文简称“深度求索”,全称“杭州深度求索人工智能基础技术研究有限公司”)是一家专注于先进大语言模型(LLM)及相关技术研发的人工智能企业,成立于2023年7月17日,由中国知名量化投资机构幻方量化孵化创立,法定代表人为裴湉,总部位于浙江省杭州市拱墅区环城北路169号汇金国际大厦西1幢1201室。公司注册资本为1000万元,市场主体类型为其他有限责任公司,股东全部为自然人,由创始人梁文锋掌控,自成立以来未对外进行过融资。

DeepSeek的核心定位是开发高性能、低成本的开源大型语言模型,业务涵盖通用语言理解、代码生成、数学推理、多模态处理等多个领域,技术成果广泛应用于科研、教育、企业开发、智能汽车、通信等众多场景。

二、核心技术与产品

(一)技术架构亮点

DeepSeek在模型架构上以Transformer的混合专家(MoE)架构为核心,并进行了多项创新优化,如采用大量小专家模型、多头潜在注意力(MLA)、无辅助损失的负载平衡、多token预测技术(MTP)等。训练方面,依托自研轻量级分布式训练框架HAI-LLM,突破跨节点MoE训练的通信瓶颈,实现高效稳定训练,且是业界率先使用FP8进行混合精度训练的开源模型。推理部署采用预填充(Prefilling)和解码(Decoding)分离策略及冗余专家策略,兼顾推理速度与系统稳定性。

在强化学习领域,DeepSeek提出纯强化学习训练模式,验证了无须有监督微调(SFT)数据即可实现推理能力自主进化;创新GRPO算法,通过组内奖励对比优化策略网络,无需额外训练价值模型;采用面向结果的奖励模型,避免奖励欺骗并降低训练复杂度;以及“冷启动+多阶段RL”训练策略,提升模型可读性与性能。

(二)主要产品矩阵

DeepSeek构建了覆盖多领域的模型系列,核心产品包括:

1. DeepSeek LLM:2023年11月发布的基础大语言模型,具备强大文本生成、理解和对话能力,适用于聊天机器人、智能客服、文本摘要等场景。

2. DeepSeek Coder:2023年10月发布的代码生成模型,支持多编程语言的编写、调试和优化,适用于自动化编程、代码审查等领域,训练数据集含87%代码和13%中英文自然语言。

3. DeepSeek Math:2024年2月发布的数学推理模型,在数学竞赛基准测试中取得51.7%的成绩,接近GPT-4性能,适用于数学问题求解、公式推导等任务。

4. DeepSeek Chat:2023年11月发布的对话模型,经RLHF训练,提升对话连贯性和可控性,适用于AI助手、社交聊天等场景。

5. DeepSeek-VL:2024年3月发布的多模态模型,可处理文本、图像等数据,适用于AIGC、数字创意领域;2024年12月升级为DeepSeek-VL2,为混合专家视觉-语言模型,在视觉问答、OCR等任务中表现优异。

6. DeepSeek-V2/V3系列:2024年5月发布的MoE模型V2,因高性能低成本获“AI界拼多多”称号;2024年12月发布的V3为671B总参数量、37B激活参数的MoE模型,预训练量达14.8T token,在多任务上超越Qwen2.5-72B等模型,比肩GPT-4o;2025年8月升级V3.1,采用混合推理结构提升速度与推理能力,12月发布V3.2,推理能力达GPT-5水平。

7. DeepSeek-R1:2025年1月发布的强化学习优化模型,在数学、代码等任务上比肩OpenAI o1,其671B版本作为英伟达NIM微服务预览版发布,单HGX H200系统每秒可处理3872个token。

三、发展历程

(一)早期发展(2023年)

2023年4月,幻方量化宣布成立独立AI研究公司深度求索;7月17日,DeepSeek在杭州拱墅区登记成立;8月2日完成注册资本变更及章程备案;10月完成由幻方量化领投的Pre-A轮融资(后官方澄清未对外融资,此为早期不实信息);10月发布DeepSeek Coder,11月发布DeepSeek LLM与DeepSeek Chat。

(二)快速扩张(2024年)

2024年1月发布首个大模型DeepSeek LLM(670亿参数);2月发布DeepSeek Math;3月发布DeepSeek-VL;5月开源MoE模型DeepSeek-V2;9月合并模型推出DeepSeek V2.5;11月上线DeepSeek-R1-Lite预览版;12月发布并开源DeepSeek-V3及DeepSeek-VL2。

(三)爆发增长与持续发展(2025年)

2025年1月11日上线官方App,20日发布DeepSeek-R1;1月27日App登顶15国/地区App Store免费榜,后攀升至140国榜首,超越ChatGPT等产品;1月31日DeepSeek R1 671b接入英伟达NIM微服务。2月,系列模型上线国家超算互联网平台及海光DCU国产化平台,日活用户破3000万,累计下载超1.1亿次,与吉利、岚图、比亚迪等近20家车企及三大运营商达成合作;2月录得5.247亿次网站访问量,超越ChatGPT。3月后,陆续开源多个代码库,与腾讯、荣耀、猿辅导等企业合作;6月联合清华大学发布强化学习相关论文;9月发布DeepSeek-V3.1-Terminus及V3.2-Exp,10月发布DeepSeek-OCR。

四、行业影响与评价

2025年12月,DeepSeek以1.05万亿元估值跻身《2025全球独角兽企业500强》全球第六、中国第二,创始人梁文锋以1846.2亿元身家位列《2025新财富杂志500创富榜》第10位。其“开源+高性价比”策略被视为行业“鲶鱼”,推动AI行业快速发展。

用户规模方面,2025年2月其月活用户达1.8亿,3月增至1.94亿,但后续受行业竞争影响有所下滑,9月降至1.45亿;11月全球生成式AI工具流量占比回升至4.2%。国际半导体研究机构Semianalysis报告显示,其全球用户使用率从2025年1月的50%降至7月的3%,官网访问量2-5月下滑63%,反映出AI赛道竞争的激烈性。

资料来源

  • superscript:1:CSDN博客.《大模型算法工程师面试宝典:deepseek全系列模型详解》.2025年8月27日.
  • superscript:2:DeepSeek深度求索官方网站.《关于我们》.2025年11月28日.
  • superscript:3:CSDN博客.《DeepSeek数据集的来源与构建》.2025年9月27日.
  • superscript:4:DeepSeek深度求索官方网站.《联系方式》.2025年11月13日.
  • superscript:5:抖音百科.《DeepSeek(2023年成立的创新型科技公司)》.2025年11月5日.
  • superscript:6:钛媒体APP.《估值破万亿,1845亿梁文锋和他的DeepSeek近况如何?》.2025年12月9日.
  • superscript:7:股吧.《DeepSeek没有对外进行过融资》.2025年10月31日.
  • superscript:8:CSDN博客.《DeepSeek爆火,一文读懂DeepSeek全家桶核心技术!》.2025年9月11日.
  • superscript:9:网页.《DeepSeek》.2025年2月17日.
没有小伙伴在虚舟实验室这个小小的评论区发评论,要不你试试?

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇