科睿观察

【科技观察】DeepSeek:AI领域的“黑马”能否持续引领潮流?
日期:2025-01-27 作者/来源:
1.jpg

the-decoder.com


科技观察

这是科睿研究院第324篇原创内容。

字数4324字,阅读全文大约需要10分钟。


中国AI公司的创造力正在全球舞台上大放异彩,其中一家名为深度求索(DeepSeek)的公司尤为引人注目。最近,DeepSeek在欧美AI圈引起了巨大震动,甚至被许多外国人称为“神秘的东方力量”,并被认为是大模型行业的一匹“黑马”。


1月27日,DeepSeek的应用程序在美国和中国的苹果应用商店免费App下载排行榜上均登顶,超越了ChatGPT。这一成就不仅展示了DeepSeek的技术实力,也反映了其在全球市场的吸引力。DeepSeek的应用程序不仅功能强大,而且完全免费,还向开发者开源了代码,这在AI领域是相当罕见的。


2.jpg

苹果美国区应用商店



DeepSeek为何技惊四座?

中国研发企业DeepSeek的出现,在硅谷AI界引起了广泛关注。无论是OpenAI、Meta、英伟达这样的科技巨头,还是杨立昆、吴恩达等顶尖AI学者,都在评价DeepSeek时不约而同地用到了“不可思议”这一形容词。据外媒报道,Meta的AI部门正感受到压力,工程师们正在努力剖析DeepSeek的技术,并试图复制其成功之处。


4.jpg

图自 X


DeepSeek的成功之处在于其以低成本训练出了高质量的大模型,同时保持了对通用人工智能(AGI)的追求。


《福布斯》杂志指出,DeepSeek让世界认识到,中国并未退出这场AI竞赛。自DeepSeek引发热议以来,对其技术论文的解析层出不穷。概括来看,DeepSeek没有选择依赖现有模型架构,而是选择了创新。复旦大学教授、MOSS大模型项目负责人邱锡鹏表示,“DeepSeek这次主要是AI Infra(AI基础设施,包括AI部署、算力管理等)做得好,高效利用了资源。”在R1模型的训练过程中,DeepSeek直接将强化学习(RL)应用于基础模型,而非像以往依靠人类标注数据进行监督微调(SFT)。这样做的目的是让模型从零开始“自我进化”,从而获得推理能力。这个过程可以比喻为学习语文,是从偏旁部首和拼音基础知识学起,而不是在任何人的指导下直接学习造句,这样打下的基础更扎实。


此外,虽然DeepSeek和OpenAI都选用了Transformer架构,但DeepSeek采用了全新的“多头潜在注意力机制架构(MLA)”,大幅减少了计算量,提升模型训练效率。综合来看,DeepSeek收获的结果是绝对的性价比。其公布的价格对比图显示,无论是输入还是输出Token价格,DeepSeek都要比OpenAI的o1模型便宜数十倍,且性能表现相当。


4.jpg

DeepSeek 采用的 GRPO(Group Relative Policy Optimization)算法框架


鲜为人知的是,去年引发的“大模型价格战”正是由DeepSeek掀起的。在DeepSeek宣布降价后,字节、阿里巴巴、百度等国内大厂纷纷跟进,甚至不惜“烧钱补贴”。


在与《暗涌》的一场对话中,DeepSeek创始人梁文锋对不断降价的“打法”解释道,“抢用户并不是我们的主要目的。降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。”


DeepSeek既不在中国大模型“六小虎”之列,也不像百度、阿里巴巴等科技大厂,在AI竞赛一开始就备受瞩目。DeepSeek真正闯出名声,是在2024年5月发布高性价比模型DeepSeek V2,在激烈竞争中为自己占得“一席之地”。


或许,全世界正在进入AI的下一分水岭。


谈及对突然“出圈”的看法,梁文锋给出的解释是,“在美国每天发生的大量创新里,这是非常普通的一个。之所以惊讶,是因为这次中国是以创新者的身份出现,而不是刻板印象中的跟随者。”


对于未来,梁文锋和团队有着清晰的规划,“要参与到全球创新浪潮中去,而不是习惯于拿别人的创新过来,做应用变现。”


在他看来,“中国并不缺人才,DeepSeek的V2模型没有海外的人参与,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。”


DeepSeek最难得的是仍在坚持追求AGI的纯粹技术初心。北京智源人工智能研究院副院长兼总工程师林咏华曾向搜狐科技介绍,“放眼当下AI市场,大家对应用的追求是强烈的,反观仍在追求AGI的研究团队数量却在不断减少,高昂的科研成本劝退了很多人。”


DeepSeek的身上,背负着同样的压力。在梁文锋的表述中,能够清晰感受到创新是昂贵且低效的。投资人也会出于商业利益的考量对项目信心时而不定。


但这一切,似乎并未影响梁文锋和他的年轻团队成为一群“疯狂”的人,在泥泞的道路上,坚持追寻挂在天边的“技术理想。”



非一日之功

DeepSeek之所以能取得这些创新并非一日之功,而是“孵化”数年之久,长期谋划后的结果。


DeepSeek的创始人梁文锋也是头部量化私募幻方量化的创始人。梁文锋本科、研究生毕业于浙江大学,拥有信息与电子工程学系本科和硕士学位。


2008年起,他开始带领团队使用机器学习等技术探索全自动量化交易。2015年,幻方量化成立,次年推出第一个AI模型,第一份由深度学习生成的交易仓位上线执行。2018年确立以AI为主要发展方向。2020年,幻方累计投资超亿元、占地面积相当于一个篮球场的AI超级计算机“萤火一号”正式投入运作,号称可以匹敌4万台个人电脑的超级算力。2021年,幻方投入十亿建设“萤火二号”,“配备了1万张A100GPU芯片”。当时国内超过1万枚GPU的企业不超过5家,而且除了幻方量化之外,其他4家公司都是互联网大厂。


2023年7月,DeepSeek正式成立,进军通用人工智能领域,至今从未对外融资。有相对充裕的卡,没有融资压力,前面几年只做模型不做产品,让DeepSeek和其他国内大模型公司相比显得更加单纯、聚焦,能够在工程技术和算法上有所突破。


此外,在大模型行业日渐走向封闭,OpenAI被戏称为CloseAI时,DeepSeek的模型开源和公开技术报告的行为也赢得了开发者们的众多好评,使得其技术品牌迅速在海内外大模型市场得以脱颖而出。


DeepSeek取得的成功也让大家看到了年轻人的力量,从本质上来说这一代人工智能发展更需要年轻的头脑。此前,OpenAI前政策主管、Anthropic联合创始人Jack Clark认为DeepSeek雇用了“一批高深莫测的奇才”,对此,梁文锋在接受自媒体采访时曾表示,并没有什么高深莫测的奇才,都是来自国内顶尖高校的毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。


5.jpg


从目前已有的媒体公开报道中可以看出,DeepSeek团队最大的特点是名校、年轻,即使是团队Leader级别,年纪也多在35岁以下。不到140人的团队,工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,工作时间都不长。


有负责大模型领域挖掘高端科技人才的猎头透露,DeepSeek的用人逻辑和大模型领域其他公司的用人逻辑并无太大差异,对人才的核心标签都是“年轻高潜”,即年龄在1998年出生左右,工作经验最好不要超过五年,“聪明、理工科、年轻、经验少”。

不过,前述猎头也表示,大模型创业公司本质还是一家创业公司,并非不想招到海外顶尖AI人才,而现实环境是,海外顶尖AI人才愿意回来的不多。


“自带想法,不需要Push。在探索过程中,遇到问题,自己就会拉人讨论”。梁文锋此前在接受采访时称。



中国AI能否超越美国?


美国商业媒体Business Insider分析认为,新发布的DeepSeek R1表明,中国可以与业内一些顶尖的人工智能模型相媲美,并与美国硅谷前沿发展保持同步。DeepSeek R1不仅在性能上与OpenAI的o1模型相当,甚至在某些方面有所超越,但其训练成本仅为OpenAI的3%至5%。此外,DeepSeek的开源策略也赢得了开发者们的众多好评,其模型V3和R1的开源抬高了市场上开源模型的基准水平。这种开源行为可能对那些试图通过出售技术来获取巨额利润的公司构成挑战。


然而,现在就高呼“中国AI已经超越美国”或许还为时过早。清华大学教授刘知远公开表示,需要警惕舆论从极度悲观转向极度乐观,觉得我们已经全面超越、遥遥领先了,“远远没有”。他认为,当前AGI新技术还在加速演进,未来发展路径还不明确,中国仍在追赶的阶段,虽然已经不是望尘莫及,但也只能说尚可望其项背,“在别人已经探索出的路上跟随快跑还是相对容易的,接下来如何在迷雾中开拓新路,才是更大的挑战。”


6.jpg

https://chat.deepseek.com/


DeepSeek的成功并非偶然,其背后是中国在AI领域的长期积累和创新。DeepSeek的创始人梁文锋也是头部量化私募幻方量化的创始人,该公司在AI基础设施和算力管理方面有着深厚的技术积累。此外,DeepSeek团队成员大多来自国内顶尖高校,平均年龄在35岁以下,展现了年轻一代科研人员的创新活力。这种年轻化的人才结构使得DeepSeek在技术创新上更具灵活性和创造力。


尽管DeepSeek在技术和开源策略上取得了显著成就,但作为一家商业化公司,其未来的发展仍面临诸多挑战。DeepSeek需要在保持技术领先的同时,探索可持续的商业模式。虽然DeepSeek目前专注于底层模型技术,但未来不可避免地需要面对产品化和市场化的挑战。此外,DeepSeek还需要在激烈的市场竞争中保持优势,应对来自国内外同行的竞争压力。


毫无疑问,DeepSeek的崛起是中国AI领域的一个重要里程碑,其在技术创新和开源策略上的成功为全球AI行业带来了新的活力和竞争格局。然而,DeepSeek的未来之路仍然充满挑战,需要在技术创新、商业模式和市场竞争中不断探索和突破。


在技术创新方面,DeepSeek需要持续投入研发资源,保持在大模型领域的领先地位。尽管其R1模型已经在多个基准测试中取得了优异成绩,但AI技术的发展日新月异,DeepSeek必须不断创新,以应对来自国内外同行的竞争。此外,DeepSeek还需要在模型的效率和可扩展性上进行优化,以满足日益增长的市场需求。


在商业模式上,DeepSeek需要探索可持续的盈利路径。虽然目前DeepSeek专注于底层模型技术,但未来不可避免地需要面对产品化和市场化的挑战。DeepSeek需要在保持技术领先的同时,开发出具有市场竞争力的产品和服务,以实现商业价值的最大化。此外,DeepSeek还需要在开源和商业利益之间找到平衡,确保其技术成果能够为公司带来稳定的收入。


在市场竞争方面,DeepSeek需要在激烈的市场竞争中保持优势。尽管其开源策略赢得了开发者的好评,但AI市场上的竞争者众多,包括OpenAI、Meta等国际巨头,以及国内的百度、阿里巴巴、字节跳动等大厂。DeepSeek需要在品牌建设、市场推广和用户获取上加大投入,以提升其市场影响力和用户基础。


此外,DeepSeek还需要关注政策和法规的变化,确保其技术发展符合国家和国际的相关规定。AI技术的快速发展也带来了伦理和法律问题,DeepSeek需要在技术创新的同时,积极应对这些挑战,确保其技术的健康发展。


DeepSeek的崛起为中国AI行业注入了新的活力,其在技术创新和开源策略上的成功为全球AI行业带来了新的竞争格局。然而,DeepSeek的未来之路仍然充满挑战,需要在技术创新、商业模式和市场竞争中不断探索和突破。只有这样,DeepSeek才能在激烈的市场竞争中保持领先地位,为中国AI行业的发展做出更大的贡献。



Reference List


https://the-decoder.com/inscrutable-wizards-how-chinese-ai-startup-deepseek-is-making-silicon-valley-look-slow/

https://chat.deepseek.com/

https://www.technologyreview.com/2025/01/24/1110526/china-deepseek-top-ai-despite-sanctions/

https://venturebeat.com/ai/why-everyone-in-ai-is-freaking-out-about-deepseek/

https://www.interconnects.ai/p/deepseek-r1-recipe-for-o1

https://techcrunch.com/2025/01/22/someone-bought-the-domain-ogopenai-and-redirected-it-to-a-chinese-ai-lab/

https://www.cnbc.com/2025/01/24/how-chinas-new-ai-model-deepseek-is-threatening-us-dominance.html

https://www.wired.com/story/deepseek-china-model-ai/





【本文中包含的图片均来源于网络,仅用于信息传播和新闻报道目的。我们尊重并保护所有版权拥有者的权利。若有任何版权问题,或版权拥有者不希望图片被使用,请与我们联系,我们将在收到通知后立即处理并删除相关图片。】


 往期推荐 

全球人工智能竞赛:美国创新将领先还是落后?

MIT科技评论:人工智能意味着我们所熟知的互联网搜索的终结

“真实的战争是AI武器的最佳养料”

Nature: 人工智能革命的数据即将耗尽:研究人员能做什么?



Copyright © 科睿研究院