打破了语言矩阵!?

  谢尔盖布林打了个激灵,视线马上重新回到了屏幕上密密麻麻的曲线图上。

  抢过德米斯哈萨比斯手中的鼠标,谢尔盖布林不停地向下滑动着鼠标滚轮。

  大周语、普鲁士语、高卢语、盎语、倭语、大毛语、西拜语、葡图佳语、意呆利语、巴拉特语……

  超过三百张曲线对比图无一不是在说明这样一个事实——

  Juzi2.5十五种语言的各种性能曲线,几乎全都在同一水平线之上!

  无论是理解和记忆,推理与认知、自主规划和决策、自我优化与学习、情绪与社交模拟、工具调用……

  除了生成和表达存在较大的波动值之外,其他几乎所有能力的性能,尤其是推理和认知,在各种语言环境下,几乎是完全一样的!

  连百分之一的差距都没有!

  这怎么可能!?

  这完全违背了大模型的原理!

  “是不是通过参数调整,把所有语言的性能进行了拉齐操作?或者本身先翻译成盎语后,用盎语思考,再翻译回思维链?”

  谢尔盖布林感觉自己瞬间头顶和腋下就冒出了汗。

  人工智能,所谓智能,就是思考,而思考,就需要语言,无论人还是计算机,都不可能脱离语言来思考。

  大模型AI更是如此。

  这些大模型,可能掌握了全世界所有的语言,但使用不同语言进行思考时,大模型的在不同方面的性能表现都是不同的。

  一来,是因为不同语言训练资料的多寡和质量的差异。

  在当今的互联网时代,盎语语料当然是最丰富的,占到互联网整体资料量的百分之八十以上。

  AlphaZero在使用盎语进行理解和推理的时候,正确率相对其他语言会高5%以上。

  二来,各种不同的语言本身就存在不同的“表达偏重”和“性能差异”。

  比如普鲁士语,在结构推理方面的速度比盎语更快,西拜语则在感性类语料中优势明显。

  而大模型在一次思考回路中,通常使用单一语言构建其推理路径。

  虽然它可以在输入阶段识别多种语言,在输出阶段进行翻译,但其内在的认知张量结构,仍旧倾向于使用输入语言所构建的token空间进行语义演算。

  说人话,就是大模型在思考问题的时候,在一个思考回路中,基本只会使用一种语言来思考,你使用盎文,它就用盎文思考,你使用周文,它就用周文思考。

  就算它在回复中掺杂了其他语言,也只是一种资料引用或人类写作风格的模仿,而不是真正的跨语种思考。

  橘子大模型又怎么可能使用不同语言思考的时候,各方面性能都差不多的?

  这完全不符合常理!

  唯一的可能性,就是对各种语言的思考性能进行了拉齐操作。

  说白了,就是一个木桶,以最短的那个板为基准,把高的板子都砍了。

  但这样做意义在哪?

  德米斯哈萨比斯犹豫的摇摇头:“应该不是,拉齐操作资源浪费太严重。”

  “至于说是不是先把思维翻译成盎语或其他语言……”

  德米斯哈萨比斯停顿了一下。

  “我一开始也是这么认为的,但经过测试,并非如此。”

  说罢,哈萨比斯把实验报告翻到中间。

  “你看‘抽象归纳’和‘形式推理’这一部分的能力,哪怕在应用‘马拉亚语’时,Juzi2.5依旧能够准确进行抽象归纳和形式推理。”

  “比如这个实例,在情感理解方面,我们的实验人员要求Juzi用马拉亚语思考并使用盎语将结果输出后,针对实验人员的任务回复中,橘子大模型并未简单的将马拉亚语中的‘manja’翻译为‘pampered’或‘affectionate’。”

  “而是采用了实际语义下的不同表达。”

  “比如第一段,它对‘manja’的翻译是‘可爱又粘人’。”

  “而在第五段,思维链中同样是‘manja’,但因为主体变了,在马拉亚语中‘manja’的含义也产生了微妙变化,这时,它将这里的‘manja’就转化成了‘被宠溺’。”

  德米斯哈萨比斯摘下眼镜,擦了擦,眯着眼:“盎语中原本没有对应manja这个词的准确翻译,但经过这样转化后,哪怕是一个从未学过盎语的马拉亚人,说出的盎语也不再会让人有任何的误解。”

  谢尔盖布林看向德米斯哈萨比斯指的那张曲线图,浑身汗毛都立起来了。

  作为技术宅和古狗老板之一,他现在肯定不是技术最好的,但对人工智能的理解和认知绝对是世界上最顶尖的一批人。

  这怎么可能呢?

  马拉亚语因为是孤立语种,语法结构较为扁平,文化语境偏重于口语化和情景驱动,这使得它们在抽象、哲学、技术等领域的表达中先天存在一定限制。

  这导致部分高阶概念性词汇在语言本体中缺乏,往往只能依靠描述性转译或直接引入外来词。

  类似“意识”、“存在”、“主观性”、“客观性”这种哲学意象性的词语,马拉亚语中是不存在的,只能直接借用外来语或

  但同样,马拉亚语中也有相当数量的“柔性词汇”是盎语和西方语系中没有的。

  这一部分词语的含义往往非常微妙,词典中对应的单词其实或多或少都存在差异。

  这也就造成了,用不同语料来训练大模型,以及用不同的语言使用大模型时,AI对世界与关系的理解是存在微妙差异的。

  这种“微妙的差异”看似无所谓,实则常是文化误解与冲突的重要诱因之一。

  “谢尔盖,这里有个更有代表性的,就是它对‘sin’的理解。”

  德米斯哈萨比斯点着触摸板向上划了划:“你看这里,这是Juzi2.5G在同一个话题中,周文和盎文的思维链对照。”

  “哦,可能你不知道,sin,在周文中,一般翻译为‘罪’,但周文中‘罪’这个字的意思范围和sin并不等同。”

  德米斯哈萨比斯周裔混血,会一点周文,原本是分不清楚这里面细微的语义差异的。

  但对于他这样的天才来说,只要他意识到其中的问题,开始研究这方面,不需要太长时间就能对这种概念性的差异一清二楚。

  “可一直以来,无论任何翻译者,基本都忽视了这一点,只是生搬硬套的直接把周文的‘罪’翻译为‘sin’,把盎文的‘sin’翻译为‘罪’。”

  “Juzi2.5则不同,在阐述法律问题的时候,它把sin正常翻译成了周文中的‘罪’。”

  “而在后面的信仰问题中,它视不同语境,对sin的不同语义表达至少用周文做了六种不同表达,分别是‘忤逆’、‘冒犯’、‘过错’、‘忘恩负义’、‘邪道’和‘苦难’。”

  “这些不同的表达,在各自语境中,恰恰捕捉了‘sin’一词在那个语境下最贴近原意的表达,基本不会因为用词遣句的微妙差异而导致另一方出现错误主观判断。”

  “哦,对了,就连‘主观’与‘判断’这两个常见词,在周文与盎文中也呈现出微妙的语义偏移。”

  德米斯哈萨比斯眼神中充满了思索后的震撼。

  谢尔盖布林眉头紧锁。

  他当然理解德米斯哈萨比斯的每一个术语。

  但他还没有在“哈萨比斯的语言学介绍”与“Juzi2.5在多语言条件下思维表现趋同”之间建立起完全的因果映射。

  这似乎只是……更好的翻译软件?

  和橘子大模型的性能表现有什么关系?

  不对,这种表现不在现有多语大模型能力范围内——这背后,肯定藏着某种我们未曾掌握的机制。。

  这个机制能让橘子大模型深刻理解了不同语言在不同语境下的精确含义,在翻译中甚至使用了“解释替代”和“语气拟合”来更加精准的原文翻译。

  等等,看这个实验报告之前德米说的什么来着?

  突破语言矩阵?

  之前自己还稍稍有些疑惑,这个语言矩阵是什么。

  这么说来……

  “德米,你的意思是……Juzi2.5的思考,并不是使用的某一种语言,而是……而是……”

  谢尔盖急的抓耳挠腮龇牙咧嘴,但就是找不到一个合适的词来形容自己的理解。

  “而是一种彻底打破了语言边界、使用全世界所有语言形成‘高语义映射图谱’。”

  德米斯哈萨比斯深吸一口气,给谢尔盖补充道。

  “高语义映射图谱!没错!就是这个!”

  谢尔盖布林用力的一拍大腿!

  “不过,这个用词还是太专业了,如果形象一点说……它汇总全世界的语言,创造出了一种只有它可以使用和理解的无歧义语言!”

  “一种跨越语系、超越语义分歧的语言……这种语言,完全可以称为‘全语言’。”

  说完这句话,谢尔盖布林脸都白了,抹了抹头上的汗,眼神挣扎,似乎还是不肯相信。

  “全语言,OMG,真的存在这样一种语言吗?”

  “哪怕是一种只有AI可以使用的语言?”

  “但问题是,Juzi1.99DEC是开源的,其中根本没有这部分功能。”

  德米斯哈萨比斯点点头:“是的,不光是1.99DEC,最早的2.5版本也未实现这一点,当时各语言输入下的性能表现差异仍相当明显。”

  “是从发布后第一次更新,也就是半年前的2.5N开始,具备的这个性能。”

  “当时我们其实就有所发现,但没有过分关注,就是猜测他们使用了拉齐的方式,或他们的盎文训练语料不够丰富所致。”

  “但随后他们的几次版本更新,每一次都有性能提升。”

  “在一个半月前,古狗大脑团队的黎,在测试安南语等小语种的能力时,首次意识到Juzi2.5新版本在小语种上的思维能力已经超过了安南语应有的极限,推理能力和盎语相差无几。”

  “那之后,我们才开始深入分析。”

  “太震撼了,太震撼了。”

  德米斯哈萨比斯摇着头,同样脸色发白。

  “谢尔盖,你应该知道,这意味着什么。”

  “橘子大模型连语言的藩篱都突破了,具备了优化和创造语言的能力,又怎么可能没有优化函数的能力!?”

  “优化和创造语言,难度远远超过优化只有逻辑推理的函数!”

  “只不过柚子科技不知道出于什么原因,因此没有把这部分功能释放出来而已!”

  “更重要的是,他们使用‘全语言’进行推理和认知,效率、准确率、乃至进化速度将会远超任何一个使用单一语言进行推理的大模型。”

  “这其中当然也包括我们的AlphaZero。”

  “谢尔盖,我们没有胜算,一点都没有。”

  德米斯哈萨比斯再次摘下眼镜,痛苦的闭上眼睛。

  “就算AlphaZero能够持续进化,真的实现从0到1的转变,但从先天上,我们就不可能追赶上柚子科技。”

  “他们打造的是巴别塔,谢尔盖。”

  巴别塔?

  谢尔盖布林脸色先是一白,紧跟着想到Y搜就是一红,然后再想到柚米OS又是一黑。

  跟喝了宫廷玉液酒似的。

  也不知道是不是一百八一杯买的。

  现在Y搜的市占率虽然还不足以破坏古狗在全球搜索引擎市场的垄断地位,但古狗内部都清楚,目前的领先仅仅是因为安卓所带来的碾压式移动端搜索量。

  在桌面端,Y搜对古狗的市场侵蚀已经接近古狗的百分之四十!

  还好在移动端,因为古狗是所有安卓手机除在大周外唯一的默认搜索引擎,移动端用户又有相当大的比例不会去修改默认搜索引擎,所以古狗的市占率仍旧稳若泰山。

  但就是最近,大米居然和柚子科技合作搞出了什么柚米OS!

  让大米提供源码,大米却始终以“未违反MADA默认协议”为由,拒不提供。

  目前大米公布的Mix海外版确实没有更换默认搜索引擎,浏览器引擎仍旧是古狗,但这系统还需要浏览器默认搜索引擎吗?

  在大米Mix发布后三天,古狗内部就已经开了最高级别的会议,商议是否对大米启动直裁程序。

  但这种事,就是麻杆打狼两头怕。

  大米怕被取消GMS认证,古狗也怕舆论反噬和禁止后反而让柚米OS堂而皇之的串联各大手机厂商。

  当然,如果有迈国正府的支持和主导,这种直裁风险会小很多。

  可因为恶魔岛事件,迈国国内的反裘意识高涨,再加上大选在即,这时候上面基本不可能达成一个一致意见启动直裁。

  裘德背景古狗现在实在投鼠忌器,不敢轻举妄动,只能暂时搁置下来,待大选后再全力游说。

  可这样一来,至少就要半年多的时间。

  不,可能还会更长,更可能还会有变数,说不定永远无法启动直裁。

  比如沃伦当选后,重启格拉斯斯蒂格尔法案,限制裘德资本的触角,这是大概率事件。

  最重要的是,现在这个巴别塔的发现太惊人了,谢尔盖布林完全已经坐不住了,感觉等待的每一分钟都是在慢性自杀!

  所以,必须要在大选结束后第一时间,就能让当选者开启直裁调查!

  “拉里,现在搜索数据如何?你认为大选谁获胜的几率更大?”

  谢尔盖布林阴沉着脸,掏出pixel手机,在古狗Duo上给拉里佩奇发了一条信息。

  “没有任何悬念,沃伦的搜索量领先那个白痴托马斯克顿七个百分点。”

  没多久,身在斐济的拉里佩奇就给谢尔盖布林回了一条信息。

  沃伦……

  谢尔盖布林脸色阴晴不定。

  敏珠派的意识形态很适合互联网公司,但由于大清洗结束,内部裘德势力十不存一,反而增加了凝聚力,现在派内反裘意识高涨。

  恭贺派倒是对裘德人仍旧友好,无底线的支持伊斯力尔,同时叫嚣着对国内反裘的言论与势力进行报复。

  但他们的主张不适合互联网公司啊!

  最关键的,还是他们赢不了!

  普通人看起来选情异常焦灼的两派,在拥有最强大数据能力的古狗看来却洞若观火。

  搜索比差七个百分点,虽然搜索数据和大选结果之间不是完全对应,但七个点的差距,已经足以覆盖任何误差!

  该死的ASF!

  如果不是他在UN上空搞出的事情,现在古狗完全不会这么被动!

  现在简直就是在两个狗屎里面选一坨不那么臭的。

  “游说的怎么样了?她是否同意当选后立刻对柚子科技展开调查?”

  “我们不能等下去了,既然确定沃伦一定当选,那现在就游说吧。”

  “确保她在当选第二天,就启动柚子科技的调查!”

  竞争,从来都不只是商业上的较量。
为更好的阅读体验,本站章节内容基于百度转码进行转码展示,如有问题请您到源站阅读, 转码声明
八零电子书邀请您进入最专业的小说搜索网站阅读我真的有一座法师塔,我真的有一座法师塔最新章节,我真的有一座法师塔 平板电子书!
可以使用回车、←→快捷键阅读
本站根据您的指令搜索各大小说站得到的链接列表,与本站立场无关
如果版权人认为在本站放置您的作品有损您的利益,请发邮件至,本站确认后将会立即删除。
Copyright©2018 八零电子书