【研修】“金融机构大模型实践”系列研修班第二期成功举办

2024年至今,国内外科技大厂和新兴创业公司在大模型技术上取得了令人瞩目的成就。金融行业因其庞大的数据集和复杂的业务结构,成为了大模型技术应用的理想领域。众多金融机构已经意识到大模型技术带来的变革潜力,并积极投身于一系列创新实践,这些实践不仅取得了阶段性成果,也证明了大模型技术在金融业数字化转型与升级过程中扮演了不可或缺的角色。

7月27-28日,由国民财富发展研究合作平台主办的“金融机构大模型实践”系列研修班第二期“落地关键要素”在北京举行。课程邀请了北京智源人工智能研究院行业应用总监周华,信通院政策与经济研究所高级工程师、AIIA政策法规工作组秘书长程莹,恒生聚源总经理助理、首席数据专家张洋洋、华为昇腾产品金融首席规划师耿鑫沛,围绕金融机构普遍关注的大模型领域监管政策展望、大模型软件生态及数据集建设、金融行业大模型数据治理、国产算力实践等落地关键问题进行讲授和交流,以期持续提升金融机构在人工智能领域的应用能力和实践水平。来自金融机构科技条线的数十位相关负责人及业务骨干参加了本次研修班的学习。

一、大模型技术挑战与和行业模型训练范式

周华深入探讨了大模型技术的发展概况、面临的挑战以及行业数据和模型训练等话题。他指出,AI发展经历了三次浪潮,大模型作为AI第三次浪潮的新拐点,目前仍处于遵循规模增长定律(Scaling Law)的实验科学阶段,提升模型性能主要依赖于模型规模、算力和数据的增加。

现阶段大模型技术发展呈现出模型更大、模态更多、算法更多样等趋势,算力需求飞速攀升。然而,由于美国的高端算力对我国的封锁,且国内AI芯片与软件生态兼容问题尚有提升空间,需要构建统一的软硬件生态体系。面向多种芯片的大规模集群并行训练面临一系列问题与挑战,以此为脉络,周华介绍了多种方法、工具、系统和应用的发展和突破,展示了应对挑战的不同解法。

他还指出,行业模型在推动智能化转型和创新发展过程中发挥着至关重要的作用,一是提升模型性能、二是实现应用落地、三是增强模型适应性、四是促进创新,其中高质量数据又是提升大模型性能和实现行业应用落地的关键。

二、金融领域大模型监管政策展望

程莹从监管政策角度出发,分别对大模型技术发展、全球大模型监管现状及国内治理体系等多个方面进行了详细解读。大模型技术是把双刃剑,一方面,促进了经济发展、科技进步和社会变革;另一方面,也带来了内生风险、产业风险和社会风险等一系列挑战。

全球范围内,各国正加速布局AI治理,平衡创新与监管是重要考量,美国、欧盟、英国、新加坡等国家和地区均根据自身特点选择治理目标、制定监管策略。我国的人工智能治理正逐步形成体系,三条治理主线日渐明朗:一是发展规划,央地同步探索;二是法律规则,四类立法形态并行;三是科技伦理,对外对内两层体系。国内金融大模型监管以风险为导向,围绕发展和安全的关键问题,形成了包含数据分级分类保护、多元数据安全监管、关键信息基础设施保护、伦理审查制度以及透明化与评价体系等在内的监管规范体系。

未来,金融大模型监管短期内将呈现中心化趋势,逐步实现应用模式和业务种类的细分,覆盖数据、模型、服务全周期,并引入人工智能监管中的穿透式监管,同时注重技术手段的应用,以实现智能化监管。

三、金融行业大模型数据治理

数据质量决定大模型应用的天花板,数据治理成为阻碍金融垂类大模型应用落地的难题,张洋洋全面剖析了大模型时代金融行业数据治理的相关问题,包括金融行业数据要素的现状与特点、大模型时代下数据治理的体系建设与关键路径以及数据治理如何赋能行业大模型应用。

国内金融数据产品自1991年以来经历了起步期、成长期、深化发展期和突破变革期,产品内容不断丰富,规模快速增长。金融行业积累了大量内部数据,如成交数据、委托数据、研究报告数据等,现阶段逐步探索产品的开放和流通共享,张洋洋对行业内各品类数据主要内容提供了全面阐释,涵盖股票数据、FICC数据、资管产品数据、财务数据、投研数据、企业数据、ESG数据、行情数据等。

金融行业具有高复杂、强合规、平台化的特殊属性,需要解决数据不一致性、缺失值等问题,提高数据共享效率、改善模型训练效果。数据治理方案包括专业化的指令微调和预训练、数据生产平台、数据质量管理流程体系等。无论是为了训练模型、微调还是直接应用,数据整体规范、干净才能赋能大模型,数据要素资源整合打通需要数据治理的协助。

四、国产算力助力大模型发展

AI迭代式跨越发展,加快通用人工智能时代到来,计算系统加速向AI算力转移,耿鑫沛聚焦于AI算力发展,全方位展示了金融行业AI的发展现状和落地实践,提供了深入的技术洞察。

金融行业正在积极部署AI推理应用,大模型是一个复杂系统工程,每一个环节都存在着大量工程技术挑战,不仅需要算法,而且需要数据处理、软硬件优化、模型开发、应用创新的系统工程能力。昇腾AI主要包括昇腾训练解决方案和推理解决方案,耿鑫沛由此展开,对国产算力的发展及基于昇腾AI的大模型应用进行了详尽介绍和透彻分析。

此外,AI Agent技术和预训练数据工程是大模型技术方案的两个重要议题,AI Agent的高准确率、高效率、多任务泛化成为大模型产业应用落地的关键路径,训练数据要求大规模、多样性、高质量,对大模型的重要性不断凸显,耿鑫沛在此基础上提供了丰富的技术概览。

大模型技术在金融行业的融合与应用正成为推动行业数字化转型的重要力量,通过本次研修班的学习,我们对大模型在金融行业的落地实践有了更深刻的理解和认识,这些收获和启发将转化为实际的创新动力,助推金融机构实现数字化转型。国民财富发展研究合作平台将持续关注金融机构的业务发展和行业交流需求,举办各类研修交流活动,助力金融机构人才培养和业务高质量发展。

 

2024-07-28 22:00