【资料图】
集微网报道 7月7日,在2023世界人工智能大会上,清华大学教授唐杰发表“构建千亿参数大模型之路”的主题演讲,重点介绍了大模型训练的经验及思考。
作为人工智能领域的知名专家,唐杰主持研发了ChatGLM-6B大模型,2023年5月,科技部在中关村论坛上发布的《中国人工智能大模型地图研究报告》显示 ChatGLM-6B 位列大模型开源影响力第一名。
演讲中,唐杰首先回顾了人工智能的发展历程。第一代人工智能的核心是让机器描述人类世界,于是就有了符号AI,机器描述之后,就可以做自动化处理,但这个时候它很难实现智能化;发展到第二代人工智能,就有了感知智能,它能自动识别;2016年,张钹院士提出第三代人工智能雏形,DARPA2018年发布AI Next计划,核心思路是推进数据统计与知识推理融合的计算,与脑认知机理融合的计算。而从AI发展趋势来看,计算机在经历计算、感知之后,应该向具有认知到有意识的能力发展。
发展至此,下一代的人工智能到底该长什么样?AI业界都在思考这一问题。唐杰认为,未来的人工智能应该有两件事非常重要,第一是知识图谱基础设施建设,第二是超大数据的深入学习深度理解,更重要的一点是如何把这两者结合起来。基于对人工智能发展规律及计算机技术进展的分析,早在2019年,唐杰及团队就预见到人工智能时代将很快到来。当时,唐杰及团队提出双系统理论,系统1用于直觉性思考,系统2用于推理性思考,以解决当时人工智能模型面对的挑战问题。
“我们觉得未来参照人脑认知的系统,系统1有一个超大规模的预训练模型,系统2应该有人脑的记忆机理,也就是说它解决我们现在大模型经常性的灾难性遗忘问题。”唐杰说。
从2019年开始,唐杰及团队开始进行BERT模型相关工作,但当时距离超大模型还有一定距离,到2020年决心自己来训练大模型,到2022年实现千亿模型训练。当时这几个模型的效果都还不错,但为了探索大模型的极限,唐杰及团队决定训练万亿大模型,为此找到一台海洋之光超算机。通过这台超算实现万亿模型的训练,在这台机器上,他们还探索进行了百万亿模型的训练。
不过,唐杰也表示,建议大家不要相信只要有超算机就能训练大模型。因为这里面的编程量非常大,从操作系统到算子到训练框架全部需要自己编出来,难度非常大。同时,用超算机训练大模型,成本也非常高昂。
去年唐杰团队又发布了千亿大模型,“我们也在思考,如何降低成本,如何将大模型应用起来。”唐杰说。
谈及与国外大模型的差距,唐杰表示,GPT4出来后我们确实非常震惊,事实上,我觉得我们的模型离GPT 都还有一些距离,离GPT4就更远一些了,我们还需继续努力。
对于下一步规划,唐杰透露最近在研究如何让计算机拥有意识。对于大模型的未来发展,唐杰提出三点思考,一,目前的千亿模型能力已经很强大了,未来重要的是如何把它的智慧提炼发挥出来;二、大模型如何跟外界进行交互;三、如何让大模型具有反思能力,能自我反思,自我纠错,并且具有一定的价值观,具有一定的意识。