在近日举办的“大模型时代AI前沿与金融应用”为主题的微众媒体学院会议上,加拿大皇家科学院及加拿大工程院两院院士、微众**首席人工智能官、香港科技大学计算机与工程系讲座教授杨强发表演讲,探讨了大模型技术在金融领域的发展和应用,并提出了相关的挑战及解决方案。
“Agent是大模型在这个世界的体现”
大模型与智能助手(Agent)的关系。他解释道,大模型相当于一个具备通识能力的大学本科生,拥有基本的学习能力,却缺乏专业技能。要获得专业能力,需要专业培训或再训练。通过这种专业训练,大模型不仅具备通用能力,还能适应特定任务。
Agent的本质——既能落地应用,又具有学习能力与通用能力。
首先,Agent具有学习能力,“过去甚至今天的许多软件是不能学习的,它们不能从错误**习,也不能改错。”其次,Agent还需具备感知能力,类似于人类感知冷暖、硬软、重轻的能力,但普通软件并不具备这一特点。第三,Agent应拥有行动能力,能够产生实质性的动作和变化,而传统软件并不能做到这一点。
“今天,大模型与本地数据的结合可以训练出这样的智能体,甚至成千上万个智能体。”杨强说,这些智能体之间还能进行合作,这个过程被称为多智能体(Multi agent),他认为这将是未来的趋势。
杨强还描述了大模型和Agent间的关系,“大模型是基础设施,就像发电厂,虽然一个城市可能只需要一个发电厂,但我们使用电制造各种设备,如电灯和手机充电器。这些应用正是由Agent实施的。”他指出,未来的社会将更多地看到Agent公司,而不是众多的大模型公司。
杨强认为,“Agent是大模型在这个世界的体现。”
但是,将大模型直接应用到实际场景中存在诸多挑战。例如,直接将一个开源大模型应用于微众**的客服系统,其准确率远低于90%的要求。此外,幻觉现象、数据缺失、专业知识不足以及算力门槛都是亟待解决的问题。
具体来看,从大模型应用成为Agent需要诸多步骤。
杨强表示:“一个通用大模型能生成一个向量表达(Embedding),用以表示事物,比如文字。然而,这些数据和模型结果需要经过人工审核。此外,还涉及**词的优化和具体案例。还有一个被称为思维链(COT)的概念,当问题复杂时,可以将其分解为子问题逐步解决。”
在实际应用中,通过数据对大模型进行微调,可以限制其输出范围,减少幻觉现象的发生。杨强解释道:“这个过程类似于过去的编程,但不是具体写计算机语言,而是通过微调的方法来告诉计算机什么是对,什么是错,最后进行评估。”这不仅是一个烦琐且复杂的过程,还涉及大量人工筹备和监督。
此外,杨强还强调了Agent的角色及其利用思维链解决复杂问题的能力。“通过思维链,大模型能够接近我们所期望的效果,尤其在处理简单的数学问题时,”他说道。
联邦学习是大模型的破局路径
此外,数据作为决定机器学习模型性能的三大要素。数据短缺,正在成为制约大模型发展的瓶颈。
在此背景下,杨强提出,市场需要提出一个新概念“联邦大模型”。
“联邦大模型是一个分布式的概念,类似于《三国演义》里的‘合久必分’,”杨强表示,“目前,大模型大多是通过中心化训练,耗费大量算力、数据和电力。但中心化趋势的持续性存在争议,这涉及一个名词叫‘Scaling law’,即规模越大,能力越强。然而,我们认为,当模型达到一定规模后,社会难以承受其成本。因此,最好把它分解成分布式的算力中心。”
这些小型算力中心可以在本地训练小规模的大模型,彼此通过连接形成一个全局大模型。这种全局大模型不仅具备分布式能力,还能在保护隐私的前提下,有效利用各地数据。
杨强进一步设想:“未来,每个人的手机都可以成为算力中心,这些设备能够自动联网,陌生人之间可以合作,形成一个分布式网络,我们称之为联邦网络(Federated Network),这既能保护隐私,又能实现分布式训练。”
杨强表示:“联邦学习是一个分布式系统,可以想象成许多算力中心的星罗棋布,通过连接共同计算一个模型。最基本的连接形式是服务端的大模型与本地数据支持的小模型之间的有机连接。”
杨强指出,通过纵向联邦学习,可以帮助企业之间解决数据合作的问题,使用各自的特有数据,共同建立更加强大的模型。
“比方说一方是金融机构,另一方是非金融机构。非金融机构有丰富的数据,但由于企业用户数据隐私安全的要求无法直接互通数据。这种情况下两边可以合作,形成一个全局模型,来帮助金融机构建立更好的风控模型或者营销模型。”
杨强坦言,如何最好地保护隐私,如何能够把算法效率给提升到最高,并且让这个模型最准,这三个目标是互相牵制的。因此需要通过研究不同的联邦学习范式来解决这三个目标的协调问题。
“联邦学习就像是让模型去作为沟通的方式,而不是利用数据作为沟通的方式,这样原始数据可以不出本域也可以把模型给做出来。”杨强表示。