微软比那些宣告自己 AI first、All in AI 的公司还要更进一步,选择 All in Copilot,即全面转向人工智能辅助技术。
(资料图)
我们来到了转折点
看到这里,相信有相当一部分不那么关心 AI 技术的读者还不太了解,「Copilot」到底是什么。
「Copilot」一词源自飞行术语,意思是副驾驶员(Co-pilot)。在飞机上,副驾驶员是协助主驾驶员操作飞机的人,通常当主驾驶员需要休息或处理其他任务时,副驾驶员就会接管控制权,二者共同负责飞机的安全飞行。对照这个定义,我们就不难理解:每个使用计算机程序的人都是「驾驶员」,AI 则是辅助我们航行的「副驾驶」。
举个例子,当你准备沉下心来办公,你就可以在 Windows 11 调出 Copilot,把你的需求敲进去:
我怎么样工作起来更高效?
Windows Copilot 会建议你打开专注模式,并把系统界面调整成更沉浸的暗色模型。这时候你还想听一点音乐,再敲入需求:
放点工作时适合听的音乐
Windows Copilot 会根据你喜欢的音乐类型,在 Spotify 等音乐软件上播放对应的歌单。听起来我们像是又回到了命令行界面时代,通过一个输入框实现所有的计算机操作。但不同的是,你不再需要花时间去学习和理解编程这门专属于计算机的语言,你只要用人类的自然语言把你的需求抛给它,它就能帮你解决。
Windows Copilot 还可以帮你解决很多问题,例如当你收到一份冗长到读不下去的文件,你可以直接把它从桌面拖到 Copilot 上,让 AI 帮你总结这份文档,实现「量子速读」。你还可以让它帮你重写或者解释文档的内容,提高工作的效率。简单来说,Copilot 不能完全取代你的工作,但它能帮你节约很多不必要的重复性劳动,从而节约你在「数字琐事」上花费的时间。
这也是微软对于 Copilot 的定义:一种使用自然语言处理技术或大语言模型(如 GPT-4),帮助人们完成复杂或认知任务的应用程序或组件。
从拨号上网年代一路走来的朋友可能就察觉到了一些关键要素:
操作系统 + 助手,等等,这不就是 Windows 97 时代的 Clippy 和 Windows Phone 时代的 Cortana 吗!?
没错,Clippy、Cortana 和 Copilot(微软是不是对 C 开头的单词有执念?)在定位上确实存在一定的重合,你甚至可以把它们看作同一款产品在不同交互界面时代的三种形态。Clippy:图形交互界面的系统助手,其设计初衷是提供了一个平易近人、友好的界面,以简化复杂的操作任务。然而,由于 Clippy 需要通过一个弹窗进行交互,它总会不合时宜地弹出来,导致用户在使用时失焦。Cortana:语音交互界面的系统助手,对标 Siri 和 Google 助手,定位个人数字助手。但受限于功能局限,Cortana 能做的事情很有限,即便微软尽可能地把 Cortana 推向 Windows 之外的更多平台,也很难吸引用户使用。Windows Copilot:自然语言交互时代的 AI 助手,它深植于系统之中,又不局限于系统,它可以集成于各种程序和应用中,并且能够理解用户的需求并提供帮助,在功能性、灵活性和集成度方面远超 Clippy 和 Cortana。从技术发展的路线来看,你会发现 Copilot 与 Cortana 的路径类似但方向截然不同。
2014 年,Cortana 作为 Windows Phone 8.1 的默认语音助手首次亮相,提供语音搜索、日程管理和个性化建议等功能,标志着微软正式进入语音助手市场,与苹果和 Google 竞争。
随后,Cortana 随 Windows 10 操作系统一同推出,拓展到 PC 和平板电脑之上,集成了更多的系统功能,为更多人熟知。
在接下来的时间,微软把 Cortana 塞进了包括 Microsoft 365 套件、Teams 等更多的产品之中,希望能获取更多的用户。
但到了 2021 年,微软决定停止 Cortana 大部分服务,退出这场语音助手大战。
Cortana 的失败不仅是因为其市占率一直上不去,还因为语音助手功能本身很难再翻起太大的浪花:10 年前的语音助手能帮你写邮件、查天气,10 年它仍然只能做这些基础型的工作,用户的感知并不强。直到 ChatGPT 的出现,语音 AI 助手给人留下的「愚蠢」刻板印象才被打破。
ChatGPT 能够通过自然语言理解人们的需求,帮助人们完成一些需要高智能的任务,虽然 GPT 模型时而会出现生成错误的问题,但已经解决了 AI 助手长期以来的痛点——语义理解。
这是一个关键的转折点,微软迅速地把大语言模型技术与其产品结合起来,丢出了一个又一个让人瞠目结舌的技术 Demo:用聊天的方式在 Bing 搜索、用几句需求做出个精美的 PPT、让 Edge 浏览器一键总结网页内容……很快,Copilot 将无处不在,AI 将无处不在,我们与计算机交互的固有逻辑开始出现裂缝,一个新的交互逻辑准备破壳而出,重新定义新一代的计算机和互联网。
比尔 · 盖茨在 AI 爆发后给出了他的判断。
这是一个根本性的改变,自然语言现在是我们向计算机描述事物的主要「接口」,这是一个巨大的进步。
也就是说,侧边栏 AI 助手将会成为一个新的常态,你的语言会变成像鼠标点击、手指触碰一样具有「魔力」的新交互方式。
只不过,如果你只是把 Copilot 看作是一个新时代的 AI 助手,那你就太小看微软的野心了。
全新的软件形式
前面我们说到,微软为旗下的很多产品都接入了 Copilot,让 Bing、Edge、Office 焕发出新的活力。
更重要的是,这些散落在不同软件的 Copilot 彼此之间并非独立,而是相互打通的。
这里我们要引入一个很重要的概念——插件集。你可以把这些基于大语言模型的 Copilot 理解成 Chrome 浏览器(当然,这是一个非常不恰当的比喻),而插件就是浏览器上面的扩展程序,有了第三方的插件,Copilot 就能实现很多不同的功能。
此前,我们曾详细介绍过 ChatGPT 的插件集体验,有了这些第三方插件,ChatGPT 可以实现订餐、查航班、解答数理化难题等等功能。
现在,这些插件同样可以应用在 Bing、Edge、Office 甚至 Windows 之中,因为这些产品都采用了同样的开放插件标准。
简单来说,开发者只要开发一次插件,就能应用在微软的一系列 Copilot 之中,这给开发者和用户都带来了极大的灵活度。
还是拿实际应用举例。
很快,你可以在 Bing 调用 Zillow 插件(租房信息查询),然后直接向 Bing 提问,「用 XX 预算在 X 地租房有什么房源推荐?」,Bing 就能直接给出对应的房源信息。或者你可以在 Edge 浏览器上让 AI 帮你总结食谱,然后调用 Instacart 插件,一键购买你缺少的食材。这是一种全新的信息获取方式,它跳过了从搜索引擎到服务商网站、再到具体信息的过程,直接提取了你最需要的内容,然后以平铺直叙的方式呈现给你。
Copilot + 插件,或许会改变我们使用网络获取服务的方式。
另一方面,在我们最熟悉 Office 套件上,也能够使用插件。
例如当你想用 Word 起草一份法律合同,但是你并不熟悉当地的法律,你就可以调用 Thomson Reuters、Westlaw 等法律插件来帮你起草和修改具体的内容。插件集的出现丰富了大语言模型的可能性,而一个共同的插件标准又让插件集的作用变得最大化,这就是微软正在构建的 Copilot 技术堆栈,最终共同拼成了微软眼中 Copilot 最理想的形态:
不仅是一种新的程序,不仅是一种新的用户界面,还是一个新的平台。
正如前面所说,大语言模型的出现赋予了软件前所未有的易用性和可操作性,「AI 助手化」会成为软件设计的新常态。
像 Adobe 等厂商都已经开始在自家的软件加入 AI 功能,越来越多的开发者会考虑为自己的产品设计「Copilot」。
微软瞄准的正是这么一个尚处于萌芽时期的新机会,它想要利用自己在桌面系统和办公软件超高占有率的优势,抢先建立起这个全新的平台,领先一众对手。
微软 CTO Kevin Scott 在 Build 大会上诚挚地向开发者们介绍了这个宏大的愿景,他引用了比尔 · 盖茨的一段话:只有当平台创造的价值归于在平台上进行构建的人,而不是平台构建者本身时,平台的真正价值才会实现。
Kevin Scott 认为像 GPT-4 这样的基础模型很强大,非常强大,但它并不能做所有的事,这需要更多开发者将这样的技术应用的相对应的程序之中,把大语言模型作为构建程序的一部分,AI 才能创造出全新的用户体验。
这是一种全新的程序开发方式。Kevin Scott 抛出了一个观点:
让 PC 、互联网、智能手机变得伟大的,并不是那些随平台诞生而存在之物,而是基于这些之上,被人们重新创造出来的新事物。
当下,AI 正在以不可思议的速度重塑着人们对科技、对世界的认知,它不仅改变了我们处理数据的方式,也在重新定义我们与机器的交互方式,甚至是我们理解和解决问题的方式。
大语言模型的崛起,突破了传统的程序设计框架,AI 开始能理解我们的语言,预测我们的需求,甚至理解我们的情感,用数据和算法的力量解决了以前我们难以想象的问题。
值得敬畏的是,面对这样一场全新的科技巨变,48 岁的微软依然走在技术变革的最前沿。