面对GPT模型展现出的不可思议的智能,我们需要正确认识这一人工智能突破所带来的深远影响。
【资料图】
信百会成员、360集团创始人周鸿祎 在近期直播中详细举例了GPT模型表现出的四大令人难以置信的能力:涌现、幻觉、语言迁移、逻辑增强。这些现象似乎预示着一个真正的通用人工智能时代即将来临。很多人诟病大模型的点就是在问题没有确定答案的时候,它会给你胡乱生成一段煞有介事的回答。他认为, 能否胡说八道,恰恰是智能的分水岭, 将来很多新的GPT大脑在某种程度上要保留这种幻觉的能力。
本文内容节选自周鸿祎在得到直播间的分享,主题为“人工智能引领新工业革命”。
为了证明GPT是真正有智力的,我举四个不可解释的现象。就连创造出Transformer模型的谷歌科学家、做出ChatGPT的OpenAI的科学家们,包括微软做测试的专家们,都只知道有这几个结论,但无法解释它为什么会出现。
第一叫涌现。 就是模型的推理能力突然有了指数级提升。在小模型阶段,很多人工智能公司训练的一些推理模型,参数太小、容量太小,你可以理解成脑子太小,只能训练它的搜索能力,没有真正地把它的推理能力、形成思维链的能力训练出来。
但在OpenAI训练GPT的过程中,大家突然发现,在模型参数到达1000亿的这个阶段,整个模型的推理能力突然有了指数级的提升,可以开始解答多步推理问题:
比如如何把大象放在冰箱里。人类会把它分三步:第一步,把冰箱门打开;第二步,把大象塞进去;第三步,关上冰箱。经过多步逻辑推理才能作出回答,这是人类很重要的思维模式。 这种具有强大思维链的推理能力不是靠搜索,而是靠参数。
从进化论的角度看,从猿到人,人类在进化过程中,智力出现了跃升,一定是因为在某个阶段,人脑的神经单元数目增加了。就像参数增加了,受到的刺激增加了。
当我们在训练大模型的过程中,参数奇迹般增加时,人工智能产生了新的强推理能力,而且这个能力越来越强,就很像人类的进化过程。
第二个是幻觉。 实际上就是胡说八道。很多人诟病大模型的点就是在问题没有确定答案的时候,它会给你胡乱生成一段煞有介事的回答。
从某种角度来说,在某些特定场合,它确实是个缺点。且由于搜索只能找到存在的事情,这个缺点可以通过再次搜索、知识库的校正,从技术上得到解决。
但你有没有想过它为什么会胡说八道?这不是恰恰说明它的智能性吗?我记得《人类简史》里面提到,在人类进化的过程中,人类和动物的分水岭就是人类是能够胡说八道的生物。
人类能够描绘不存在的东西。如果你给大猩猩讲三个苹果,它能学会。但如果你描绘说,明天,我给你三个苹果,大猩猩理解不了没有发生的事情。正因为人类有了幻想的能力、预言不存在事物的能力,人类才有了社群、宗教和团体。
包括人类引以为豪的创造力,是无中生有的吗?其实我们人类创造的大部分产品都是把两个不相关的概念在一块融合交叉,产生了创新。当然,可能99%的两个不相关的概念在一起结出的东西是胡说八道,但可能有1%就是一个典型的创新。
这种幻想的能力是永远难以消除的,它跟你的训练资料没有关系。就像我今天晚上决定来做直播,可能一个小时之前我还不愿意来。但一个小时以后,我又改变了主意。这就是量子纠缠,有一个随机的色子产生。
能否胡说八道,恰恰是智能的分水岭。 我觉得将来很多新的GPT大脑在某种程度上要保留这种幻觉的能力。因为它回答事实性问题的时候,我不需要它的幻觉。但当它给我写小说、写剧本的时候,我需要这种能力。
顺便说一下,你每天晚上做梦的时候都会胡说八道。因为在梦里,你的神经网络会发生短路,把两个本来白天不会碰到一起的概念碰到一起。比如昨天晚上我就梦见罗振宇在追杀我,这就是罗振宇、追杀和我这三个神经网络连接在一起,才产生的梦境。
第三个难以解释的现象是语言上的能力迁移。 在大模型出来之前,我们都在做人工智能翻译,但全世界的翻译都做得不太好。理由是各种语言的规律不一样,比如中文有分词,阿拉伯文是从右往左写,拉丁语系没法和我们象形文字互通等。
但是,在大模型锻造的过程中,OpenAI的训练有95%使用的是拉丁文字,只用了大概5%的中文语料。结果一个奇怪的现象发生了,它在学英文时学到的逻辑能力、推理能力、知识能力在应用到其他语言时,都得到了很好的体现。你用ChatGPT,它用中文回答,很多时候也回答得不错。这个现象也很有趣。
我猜测在大模型里面,虽然阿拉伯文、中文、日文、拉丁语言看起来不一样,但它们都是人类发明的、用来描述这个世界的符号化的东西。人类不同的语言、不同的表象背后一定有一种共通的规律。我们自己学习语言的人没有发现,但被ChatGPT训练出来了,所以它实现了语言能力的迁移。
最后一个叫逻辑增强。 ChatGPT的一个很重要的功能是学习写程序,这是它的擅长领域。因为它本来就是一个符号系统、一个语言模型。
计算机语言是最单纯的。相比之下,我们人类的自然语言有歧义性、多义性,是最复杂的。在不同的语境下,基于不同的理解,都能表示不同的含义。比如,公交车报站说,“前门快到了请从后门下车”,我到底是从前门下还是从后门下?这种例子比比皆是。
但是大家发现,当让ChatGPT学习了几十亿行GitHub的代码后,它在写程序时学到的逻辑感,竟然作用到了自然语言上。它用自然语言回答问题时,逻辑性飞速提升。
很多家长问我说,“ChatGPT都这样了,还要让小孩学习吗?”我的回答是,当然要让孩子学习了,你不学习,脑子就不会长出新的神经网络连接,你的大脑就是崭新的,没有沟回。
现在小朋友学编程,长大了可能不一定干编程,甚至程序员这个职业将来可能会发生变迁。但你通过学编程,提高的逻辑判断力和表达能力是确定的。这一点在ChatGPT上也得到了验证。
用好GPT有一个很重要的环节叫提示。当你的提示词给得很差时,GPT可能随便挑一段话敷衍你,但如果提示很好,有挑战性、批判性,它会给出更好的结果。
这种给提示词的能力也是需要培养的。就像我做直播的时候喜欢找一个人给我做访谈。如果我一个人滔滔不绝地讲,没有输入和提示,我讲着讲着大脑皮层就不活跃了。如果有观众愿意给我一些很有挑战性、批判性的问题,会激发我的辩论欲望,或者说激发我讨论的想法,我就会讲得更多。
总结一下,我讲了很多观点,就是让大家对GPT大语言模型有一个正确的认知。英特尔创始人安迪·格鲁夫博士在他著名的《只有偏执狂才能生存》里讲到, 任何产业革命都不是敲锣打鼓地到来的,都是以微弱的噪音信号的方式出现的。
如果GPT大语言模型象征着一场巨大的革命,你一定不能判断失误。如果你觉得这玩意儿就是二十年前做的模型,就是贝叶斯函数的统计,就是无足轻重的“填空机”或者是神经网络应用,那你可能就会在认知上发生错误。
GPT具体怎么用,是技术问题,但最重要的核心战略问题是你认不认可GPT是一个强人工智能,甚至它的出现,是不是代表着一个超级人工智能时代的来临。
我要补充的一个观点,关于通用人工智能。第一,在自然语言处理过程中,基本上其他的处理方法都要被大语言模型这种以Transformer解码器为主的模型取代。GPT-4里面加了多模态的功能,它能看懂图片、听见声音。
过去语音识别有独特的算法,就是图片识别也有自己的算法。这些算法基于的深度学习网络,CN、RN、DN这些,更多的是像人的视觉神经网络一样,还停留在感知层。
但是, 今天大语言模型模拟了人的大脑神经元网络工作原理,它已经到了认知层,是完全不同的层次。
它能理解这个世界是因为它能认知。 过去的人脸识别只是把一张照片ID化,就像一个人脸识别的摄像头,认出周鸿祎来了,无非是对数据库里预存的周鸿祎的照片进行了对比,只是实现了图像的编码化,并不具备理解周鸿祎背后的360公司、数字安全、人工智能等等的认知能力。大语言模型会把这些算法都给颠覆掉。
OpenAI的首席科学家很意味深长地说,当你用大语言模型对这个世界的知识建立了完整的了解之后,在这个基础之上再去识别照片、物体,你的能力是完全不一样的。这是通用人工智能的第二层意思。
大家知道人工智能在很多领域都碰到了问题,比如对机器人的控制,人形机器人的行走、动作的操控、自动驾驶等。
为什么自动驾驶出现很多问题,因为它的很多算法是由很多传统人工智能在垂直领域比较碎片的算法拼合而成的,里面有规则,有感知层的障碍识别、物体识别,它不统一,总有很多问题需要去学习、标注。一旦碰上不能标注、不能自我学习的地方,它的能力会受到很多的限制。
未来随着大语言模型能力的进一步的提升,它能真正模拟驾驶员对这个世界的认知能力。有可能大语言模型将来都会颠覆掉今天自动驾驶的算法,可能用大语言模型多模态的处理就能让我们今天认为的L4级或者L5级的真正的人工智能驾驶在几年内变成现实。
这也是为什么我们把今天的GPT定义成通用人工智能,就是它改变了过去这种把人工智能分成100个小任务,用100个小模型去分别解决的碎片化的打法。 它用一个大的模型完整地编码、索引、推理人类所有的知识,从而建立对这个世界完整的认知。 这就是通用人工智能的第三层。
来源:图灵社区