人工智能是否真正能够理解语言?

本文最初发表于广达杂志社。 一张图片胜过千言万语,但一个单词又能抵得上多少个数字呢?这个问题可能听起来很傻,但它恰好是大型语言模型(法学硕士)的基...

本文最初发表于广达杂志社。

一张图片胜过千言万语,但一个单词又能抵得上多少个数字呢?这个问题可能听起来很傻,但它恰好是大型语言模型(法学硕士)的基础,并且通过它们,人工智能的许多现代应用都是如此。

每个法学硕士都有自己的答案。在meta的开源Llama 3模型中,单词被分成由4096个数字表示的令牌;GPT-3的一个版本是12288。单独来看,这些长长的数字列表——被称为“嵌入”——只是难以理解的数字链。但同时,它们对单词之间的数学关系进行编码,这些关系看起来出奇地像意思。

单词嵌入背后的基本思想已经有几十年的历史了。要在计算机上模拟语言,首先从字典中取出每个单词,并列出它的基本特征——有多少由你决定,只要每个单词都是相同的。“你几乎可以把它想象成一个20问游戏,”在布朗大学和谷歌DeepMind研究语言模型的计算机科学家埃莉·帕夫利克(Ellie Pavlick)说。“动物、蔬菜、物体——这些特征可以是人们认为对区分概念有用的任何东西。”然后为列表中的每个特征分配一个数值。例如,dog这个词在“毛茸茸的”上得分很高,但在“金属的”上得分很低。结果将把每个单词的语义关联及其与其他单词的关系嵌入到一个唯一的数字串中。

研究人员曾经手工指定这些嵌入,但现在它们是自动生成的。例如,神经网络可以被训练成根据网络自己定义的特征对单词(或者,技术上讲,被称为“标记”的文本片段)进行分组。帕夫利克说:“也许有一种特征能很好地区分名词和动词,而另一种特征则能区分在句号后出现的单词和在句号后不出现的单词。”

这些机器学习嵌入的缺点是,与20个问题的游戏不同,每个数字列表中编码的许多描述是人类无法解释的。帕夫利克说:“这似乎是一个大杂烩。”“神经网络可以以任何有用的方式组成特征。”

但是,当一个神经网络被训练在一个叫做语言建模的特殊任务上时——这里涉及到预测序列中的下一个单词——它学到的嵌入绝不是任意的。就像铁屑在磁场下排列一样,这些值的设置方式使得具有相似关联的单词在数学上具有相似的嵌入。例如,狗和猫的嵌入将比狗和椅子的嵌入更相似。

这种现象使嵌入看起来很神秘,甚至很神奇:神经网络以某种方式将原始数字转化为语言意义,“就像把稻草纺成金子一样,”帕夫利克说。“文字算术”的著名例子——国王减去男人加上女人大致等于女王——只会增强嵌入的光环。它们似乎是LLM“知道”的丰富而灵活的知识库。

但这些所谓的知识与我们在字典中找到的东西完全不同。相反,它更像是一张地图。如果您将每个嵌入想象为由其他嵌入共享的高维地图上的一组坐标,您将看到某些模式弹出。某些词会聚集在一起,就像郊区拥抱大城市一样。同样,狗和猫的坐标会比狗和椅子更相似。

但与地图上的点不同的是,这些坐标只指向彼此,而不指向任何潜在的领土,就像纬度和经度数字表示地球上的特定地点一样。相反,狗或猫的嵌入更像是星际空间中的坐标:除了它们碰巧离其他已知点有多近之外,没有任何意义。

那么,为什么狗和猫的嵌入如此相似呢?这是因为他们利用了语言学家几十年前就知道的东西:在相似的语境中使用的单词往往具有相似的意思。在“我雇了一个宠物保姆来喂我的____”这个序列中,下一个单词可能是狗或猫,但可能不是椅子。你不需要字典来判断,只需要统计数据。

嵌入——基于这些统计数据的上下文坐标——是LLM如何找到一个好的起点来进行下一个单词的预测,而不依赖于定义。

某些词在特定的语境中比其他词更合适,有时精确到没有其他词可以代替。(想象一下,当你完成“法国现任总统的名字是____”这句话的时候)根据许多语言学家的说法,人类之所以能很好地辨别这种契合感,很大程度上是因为我们不只是把单词和单词联系起来——我们实际上知道它们指的是什么,就像地图上的领土一样。语言模型不会,因为嵌入不是那样工作的。

然而,作为语义的代理,嵌入被证明是非常有效的。这也是大型语言模型迅速上升到人工智能前沿的原因之一。当这些数学对象以一种与我们的期望相吻合的方式组合在一起时,感觉就像智慧;当他们不这样做时,我们称之为“幻觉”。然而,对于法学硕士来说,没有什么不同。它们只是一串数字,在空间里消失了。

本文来自作者[慕儿]投稿,不代表kzshn号立场,如若转载,请注明出处:https://www.kzshn.cn/jyfx/202508-5121.html

(2)

文章推荐

  • 研究团队开发EpiC Dog,成为犬类表观遗传学的重要参考工具

    来自韩国首尔国立大学兽医学院的研究团队,开发了一个可供浏览的犬类表观遗传图谱,命名为EpiCDog(犬表观基因组目录),旨在支持未来的研究工作。在《科学进展》(ScienceAdvances)期刊上发表的论文《犬表观基因组的综合

    2025年07月02日
    39
  • 达菲尔德因对斯塔默的激烈指责而宣布退出工党,称其行为令人羞愧

    罗西·达菲尔德议员退出工党,并对基尔·斯塔默爵士的领导地位发起了攻击。现年53岁的达菲尔德是现代史上最快在大选后离开政党的议员。在她的辞职信中,这位现任坎特伯雷独立议员写信给首相:“你和你的小圈子玷污和羞辱了我们曾经骄傲的政党,我对此感到非常羞耻。”

    2025年07月14日
    11
  • 伊斯坦布尔的明信片:游客们热衷于当地的土耳其浴室

      这里是伊斯坦布尔的黄金时光,日落前的珍贵时刻,壮丽的阳光透过CiniliHammam酒店的圆形窗户洒下。这家酒店坐落在博斯普鲁斯海峡亚洲岸边乌斯库达尔地区一条安静的小街中。自1640年以来,这座澡堂已经洗去了伊斯坦布尔的污垢,当时它是奥斯曼帝国鼎盛时期一座图

    2025年07月18日
    12
  • 谭珍珠打破羽毛球最快扣球世界纪录

        吉隆坡,7月18日——国家女子双打选手陈绮丽现在保持着最快击球的吉尼斯世界纪录。  世界羽毛球联合会(BWF)今天在其社交媒体上宣布,她以每小时438公里的速度在羽毛球(女性)类别的最快击球记录中留下了自己的名字。  这项纪录于4月14日在日

    2025年08月04日
    13
  • 美国致力于削弱国际人权条约中关于人工智能软件的相关规定

      美国政府正在游说欧洲理事会(CouncilofEurope)成员国,要求削弱一项有关人权和人工智能软件的国际条约,豁免私人供应商遵守该条约。外交官们本周将在法国斯特拉斯堡开会,制定该条约的最终版本,该条约将要求使用人工智能的组织尊重人权并遵守民主原则。但

    2025年08月05日
    11
  • 我来告诉你“新米大厅是不是有挂”分享装挂详

    新米大厅是不是有挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义手机打牌系统规律,只需要输入自己想要的开挂功能,一键便可以生成出手

    2025年08月13日
    11
  • 核电需求上升,三里岛拟重启运营

    星座能源公司(ConstellationEnergy)周五表示,该公司计划重启已关闭的宾夕法尼亚州三里岛(ThreeMileIsland)核电站,这是美国历史上最严重的反应堆事故发生地,这是一个引人注目的迹象,表明人们对核能的兴趣重新燃起。1979年,三里岛核电

    2025年08月14日
    29
  • 推荐必备“微乐麻将怎么开免费的挂怎么下载”的确是有挂

    微乐麻将怎么开免费的挂怎么下载是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义手机打牌系统规律,只需要输入自己想要的开挂功能,一键便

    2025年08月14日
    12
  • 揭秘科普“新道游大厅透视挂”附开挂脚本详细步骤

    家好,今天小编来为大家解答新道游大厅透视挂有没有挂这个问题咨询软件客服可以免费测试,新道游大厅透视挂的挂在哪里买很多人还不知道,现在让我们一起来看看吧!一、新道游大厅透视挂记牌器怎么全显示你需要获得记牌器才能全部显示,否则只显示前面几张牌的数据。如下图所

    2025年08月15日
    9
  • 分享一款“多乐够级透视挂”(其实是有挂)

    多乐够级透视挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义手机打牌系统规律,只需要输入自己想要的开挂功能,一键便可以生成出手机打

    2025年08月18日
    5

发表回复

本站作者后才能评论

评论列表(4条)

  • 慕儿
    慕儿 2025年08月20日

    我是kzshn号的签约作者“慕儿”!

  • 慕儿
    慕儿 2025年08月20日

    希望本篇文章《人工智能是否真正能够理解语言?》能对你有所帮助!

  • 慕儿
    慕儿 2025年08月20日

    本站[kzshn号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 慕儿
    慕儿 2025年08月20日

    本文概览:本文最初发表于广达杂志社。 一张图片胜过千言万语,但一个单词又能抵得上多少个数字呢?这个问题可能听起来很傻,但它恰好是大型语言模型(法学硕士)的基...

    联系我们

    邮件:kzshn号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们