平台杠杆炒股 DeepSeek的“蒸馏模型”超越原创?美国要对“蒸馏技术”下手

发布日期:2025-02-06 00:27    点击次数:141

平台杠杆炒股 DeepSeek的“蒸馏模型”超越原创?美国要对“蒸馏技术”下手

中国人工智能初创公司DeepSeek在过去一周成为硅谷热议的对象平台杠杆炒股,并触发了本周一美国科技股“崩盘”。

1月29日,OpenAI最新称,它发现有证据表明中国人工智能初创公司DeepSeek使用其专有模型来训练自己的开源模型,并暗示这可能违反了OpenAI的服务条款。但OpenAI没有进一步列举哪些证据。OpenAI的服务条款规定,用户不能“复制”其任何服务或“使用其输出来开发与OpenAI竞争的模型”。

一种“常见技术”引发争议

与Meta的Llama开源模型可免费使用不同,OpenAI的模型系统是封闭的,但个人用户仍可付费接入其编程接口(API)获取数据。截至发稿,DeepSeek尚未予以回应。

此前,美国政府称正在组织专家紧急评估DeepSeek的技术及影响。美国白宫AI和加密货币事务负责人大卫·萨克斯(David Sacks)表示,未来几个月,美国领先的人工智能公司将采取措施,试图防止其他公司对“蒸馏技术”的获取。

DeepSeek模型取得的技术突破已经引起美国总统特朗普的关注。特朗普周一表示,DeepSeek这款中国AI应用程序应该成为美国公司的“激励因素”,他表示:“如果中国业界能够开发出更便宜的人工智能技术,美国公司也会效仿。你不必花费数十亿美元,而是花更少的钱,希望找到相同的解决方案。”

数据蒸馏是一种业内常见的技术做法,是指通过一系列算法和策略,将原始的、复杂的数据进行去噪、降维、提炼等操作,从而得到更为精炼、有用的数据。数据蒸馏的目的是将复杂模型的知识提炼到简单模型。

据DeepSeek-V3的技术文档,该模型使用数据蒸馏技术生成的高质量数据提升了训练效率。通过已有的高质量模型来合成少量高质量数据,作为新模型的训练数据,从而达到接近于在原始数据上训练的效果。

“以前的大模型训练相当于使用题海战术,在大量的数据中训练。而蒸馏就相当于让在题海战术里磨练过的优秀大模型充当新模型的老师,筛选出有效题目,再让新的大模型训练。”一位计算机研究人员这样解释。

不过此前有学者认为,蒸馏技术存在“隐性天花板”,它虽然可以提高模型训练效率,但借此开发的模型无法超越基础模型的能力,当考虑到需要将能力扩展到新领域或应对以前从未见过的挑战时,这种限制就愈发成为问题;而且这种技术在多模态数据方面效果不好。

而DeepSeek的模型从某种程度上打破了这种业内普遍存在的观念,其大模型的水平已经能与原始的基础模型相提并论。这是引发美国担忧的根本原因之一。就在1月28日凌晨,DeepSeek发布了最新视觉模型Janus-Pro,在多模态理解和文生图指令遵从能力都收获了显著提升,并在多个基准上超越了DALL-E 3与Stable Diffusion。

英国伦敦大学学院(UCL)名誉教授和计算机科学家彼得·本特利曾在接受采访时称:“蒸馏技术对一些不具备OpenAI或谷歌这样巨额研发预算的小型机构的研究进展将会产生重大影响。”

“蒸馏模型”何以超越原创?

一位美国科技巨头公司AI相关项目开发人员对第一财经记者表示:“我并不认为蒸馏类似Llama这样的开源模型有什么问题,尤其是像DeepSeek这样在蒸馏后采取开源的模型,其实是有存在的合理性的,这样能加速大模型的迭代,没有必要所有的公司都从头开始训练大模型,这会导致资源的浪费。”

他还表示,全球很多AI初创公司也同样使用多种大模型的蒸馏融合技术,形成了所谓的“多专家模型”(MoE),这样的蒸馏模型是有可能在性能方面超越原始模型的,因为它有更强的泛化能力,得到的信息更加丰富,提升最终性能。

“这就好比你有一个团队,里面有本科生、研究生、博士生、工业界初级工程师、资深工程师,当你遇到问题时,可以把不同难度的任务分派给不同的’专家’。这样会以最高效的方式给出最匹配的答案。”他解释道。

上述人士分析称,关键的核心问题不在于DeepSeek蒸馏了其他大模型,而是为何同样是在蒸馏开源模型的基础上,DeepSeek能够脱颖而出,以如此低廉的成本价格就能实现如此高的性能,并不是所有的公司投入这些资源后都能够实现的。

他认为,DeepSeek完美平衡了多专家模型、训练时长,预训练、后训练等工作,使得投入和产出达到一个最高效的值。“当你做得好到对别人有威胁了,总会有一些官司找上门。”他表示。

但也有AI研究人员指出,过度依赖蒸馏技术的“捷径”,会导致研发人员为了快速取得成果而放弃对基础模型的探索。上海交通大学副教授刘鹏飞曾在一篇学术报告中提到:“蒸馏技术为在数学推理任务中取得显著性能提升提供了一条诱人的捷径。虽然这种方法带来了直接且可见的好处,但它掩盖了一系列深刻的挑战,无法提出根本性的解决方案。”

举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作者

钱童心

相关阅读 DeepSeek的“Aha一刻”开辟新思路,对AI巨头意味着什么?

扎克伯格称,Meta仍在消化DeepSeek的一些“惊人之举”,他的团队希望最终将其中的一些进步应用于Meta自己的AI项目。

282 昨天 15:35 微软财报电话会多次提及DeepSeek:有“真正的创新”

微软董事长兼首席执行官萨蒂亚·纳德拉表示,如果前沿模型服务成本过高,那就毫无用处。

188 昨天 11:12 对OpenAI发起直接挑战,DeepSeek“杀入”文生图领域

特朗普称DeepSeek“给美国相关产业敲响了警钟”。

532 01-28 14:42 股价暴跌17%!英伟达回应

对此,英伟达方面向第一财经记者回应称:“DeepSeek是一项卓越的人工智能进展,也是测试时扩展的绝佳范例。”

97 01-28 08:48 英伟达狂泄16.86%!美股三大股指涨跌互现,纳指重挫3.07%

英伟达股价收盘暴跌16.86%,创下自2020年3月以来的最大跌幅平台杠杆炒股,市值在一日之内蒸发了5890亿美元。

409 01-28 07:13 一财最热 点击关闭