维其互联 > 信息聚合 > DeepSeek火爆引争议,中国AI“软、硬”挑战犹存亟待破局

DeepSeek火爆引争议,中国AI“软、硬”挑战犹存亟待破局

2025-02-02 08:46:29来源: 钛媒体

文 | 孙永杰近日,DeepSeek在AI大模型领域引发热议,凭借其惊人的性能表现和低成本训练模式,迅速吸引了全球关注。虽然市场上几乎充满了赞叹声,但理性的业内人士已经开始提出质疑,认为这一现象可能并非一蹴而就,值得等待更多的验证。DeepSeek究竟为何引发如此广泛的关注?2024年12月,DeepSeek发布的V3模型突破了多个开源大模型的性能,超越了阿里自研的Qwen2.5-72B和Meta的Llama 3.1-405B等模型,并与OpenAI的GPT-4o、Anthropic的Claude 3.5-Sonnet等闭源大模型相抗衡。在此基础上,DeepSeek于2025年1月20日发布并开源了DeepSeek-R1模型,该模型在数学、编程和自然语言推理等领域表现出色,甚至与OpenAI的O1模型相匹敌。此举不仅让DeepSeek在市场中名声大噪,还使其在苹果App Store的美国地区免费应用程式下载榜单上登顶,超越了ChatGPT等热门应用。然而,DeepSeek的成功并非仅仅凭借其卓越的性能,更多的亮点在于其低成本与高效的训练模式。简而言之,DeepSeek通过极低的成本,成功实现了接近GPT等先进模型的性能,这一点引起了业界的广泛关注。无法证真,难以证伪的成本惹争议提及成本,DeepSeek发表的原始报告中有详细解释这笔成本的计算:“在预训练阶段,每兆个token上训练DeepSeek-V3仅需要180K H800 GPU小时,也就是说

关注公众号