重生之AI教父 438. 思维链路

小说:重生之AI教父 作者:CloseAI 更新时间:2025-02-08 13:38:18 源网站:平板电子书
  准确地说,DeepSeek并不是第一次发布模型了。

  在孟繁岐的视角来看,DeepSeek所公布的技术,一直以来都有不错的创意。

  Closeai与DS也是有一些技术交流的,只不过两者合作并不紧密,孟繁岐也没有太将这个做量化的跨界公司放在眼中。

  他认为,DS所做的稀疏没有高壁垒,仍旧受制于英伟达显卡。

  换言之,孟繁岐虽然惊讶与DeepSeek-v3竟然弯道超车,提前完成了他在两个技术方向上的设想,但这件事情总体来说还是在意料之中的。

  孟繁岐早就想过可能会有其他公司抢先做到,也做好了心理准备

  对比之下,DeepSeek-R1系列模型,则完全超乎孟繁岐的意料。

  尤其是R1-Zero这一技术,可以说是完全在孟繁岐的理解之外。

  在GPT发展到第四代之后,让大模型对问题进行分析推理成为了提升模型性能的一个重要技术。

  早期,有学者发现了一个非常微妙的事情,在与大模型进行交流对话的时候,如果你对它说,“请一步一步好好思索分析这个问题”,仅仅只是添加了一句话,却起到了明显的作用。

  经过学者们的测试,完全相同的模型,加上这句话作为提示词后,在各个数据集和指标上的验证结果都有了显著的提高。

  在有些地方上,这么一句话带来的显著的效果甚至超过将模型扩大几倍规模。

  这个发现让人们开始关注大模型的推理能力。

  由于大模型生成每一个字的时候,都会将此前的所有文字考虑进去,这就导致了逐步分析问题的生成方式,其输出的稳定性和逻辑性,都要比直接生成一个结论要强不少。

  在直接将GPT-4级别的模型训练得更高这件事情碰壁之后,让模型形成思维链便成了一大研究重心。

  而今真正将CoT(chain of thoughts)思维链落实到大模型并公开使用的,只有GPT4-o1。

  推理系列的模型,会先针对提问进行一长串的分析和思考,逐一考虑各种可能性,最后才会开始尝试回答问题。

  这种回答方式虽然慢了一些,但质量显然有了显著提升。

  o1系列的思考过程是不公开的,或者说,只会展现给用户一小部分摘要。

  这么做的原因,是为了增加其他AI公司的模仿成本。

  最先进的大模型是如何思考问题的,这个思索推理的过程是非常珍贵的信息。

  因为此前,让大模型具有推理分析能力需要大量高质量的CoT思维链数据。

  许多难题应该如何逐步推理,不仅要准备每一步的分析,还要交叉确认这些内容步骤正确。这比起大模型早期时代在互联网上到处摘抄文字,获取的难度和成本不可同日而语。

  饶是孟繁岐坐拥最大的AI相关知识交互社区,想要梳理出高质量的思维链文本也并不容易。

  通过大量类似的高质量数据监督大模型学习推理的过程,这才有了第一个强智能的推理模型o1。

  在这样的领先优势之下,自然不可能详细开放o1的推理过程给用户。

  若是如此,其他公司获取思维链路数据以蒸馏自己AI模型的成本就会远低于自己,孟繁岐不可能做这样的傻事。

  坐拥这样的先发优势,孟繁岐又可以借助用户的反馈,来获取和调整新的思维链路数据。

  因此在他看来,自己在大模型思维推理这方面的优势是巨大的,拥有坚不可摧牢不可破的壁垒。

  然而,DeepSeek-R1-zero狠狠地击碎了他自说自话的梦想。

  “R1-zero可以直接在DeepSeek-V3的版本上做强化学习,不需要大量高质量监督数据就能够探索出比较好的思维推理,增强了模型回复的长度、逻辑性和准确度。唯一的问题是这种方式获取的模型思维对于人类来说可读性不强。”孟繁岐继续阅读着R1-zero和R1的相关报告。

  与各种自媒体所宣传的不需要思维链数据不同,R1系列显然还是需要这些高质量数据的,这让孟繁岐内心稍稍安宁了一些,只要这部分数据还有价值,他总不至于沦落到过去一年多的投入变为一场空。

  真正的R1还是需要优质思维链路数据来冷启动的,虽然从结果上看,R1并没有比R1-Zero准确很多,不过它的思维逻辑和方式人类更加容易读懂了。

  可以说,比起现在人人都抢着试用的R1,R1-Zero版本给孟繁岐的震撼要大很多。

  R1-Zero成为了一种合成高质量思维链数据的方式,比起孟繁岐刀耕火种的标注和确认,大模型合成的规模和效率显然存在千万倍的潜力。

  “有R1-Zero获取大规模的链路数据,针对思维链的每一个步骤再去分析计算,也就不大必要了。”孟繁岐终于理解了,为什么DeepSeek的成本低到令人发指。

  孟繁岐一直以为,DeepSeek对外开放的API调用价格这么低,只是因为母公司不差钱,没准备用这个服务赚钱。

  由于他们没有互联网大厂天然的用户基础,低价API和免费网页试用,都只是积累用户的前期投入。

  而今细读DeepSeek在参数低bit训练,高倍率权重稀疏,以及批量数据合成等方面的成就。孟繁岐这才明白,原来他们真的已经将成本降低了一个数量级。

  “DeepSeek-R1虽然已经来到了一流级别,但距离现在满血的o1还有一定的差距。我们正在研发的新版本在性能上也更具有领先优势。”

  DS的热度在持续攀升,孟繁岐很快接到了团队的报告。对于这种“我还没输”的分析,他并不认可。

  “性能指标只是纸面上的,如今阶段,两三个点的差距用户在使用的时候已经难以察觉。并且,抛开成本谈性能,实在是耍流氓了。”

  孟繁岐进行过实验性质的超大模型训练,性能确实屡创新高,但推理一个问题的成本就能到几十块乃至上百元。

  试问这样的使用价格,只是几个点的提升又有什么实际的意义呢?

  “DeepSeek的低成本训练大大降低了加入AI领域的门槛,我想很多还在观望的公司都会有所动作。我们应该将策略从技术垄断调转方向,开始侧重为大企业进行实际应用的适配。”

  孟繁岐在历史的转折点做出了重大的决定。
为更好的阅读体验,本站章节内容基于百度转码进行转码展示,如有问题请您到源站阅读, 转码声明
八零电子书邀请您进入最专业的小说搜索网站阅读重生之AI教父,重生之AI教父最新章节,重生之AI教父 平板电子书!
可以使用回车、←→快捷键阅读
本站根据您的指令搜索各大小说站得到的链接列表,与本站立场无关
如果版权人认为在本站放置您的作品有损您的利益,请发邮件至,本站确认后将会立即删除。
Copyright©2018 八零电子书