作者香草

编辑漠影

随着大模型的智能水平迅速增长,科技圈对AGI(通用人工智能)将于几年内降临的预测声音越来越多。

那么在通往AGI的路上,有什么因素是必要条件?这一问题也成为产业内备受关注的话题。

智东西7月4日报道,今日,在世界人工智能大会(WAIC)2024上,大模型独角兽阶跃星辰正式发布Step系列模型“全家桶”,包括万亿参数语言大模型Step-2、千亿参数多模态大模型Step-1.5V以及图像生成大模型Step-1X。

三款模型分别对应Scaling Law、多模态理解和多模态生成,也对应了阶跃星辰对于实现AGI目标的判断——万亿参数、多模融合。

这两点同样是Step系列通用大模型的核心优势。从3月首次亮相,到此次正式发布,Step系列模型在参数规模和多模态能力上取得巨大进展。

具体来说,Step-2在数理逻辑、编程、世界知识、指令跟随等方面体感全面逼近GPT-4,Step-1.5V从图像理解升级到视频理解,Step-1X全面支持600M、2B、8B三种参数量,在多模态理解和生成统一技术路线上实现重要技术突破。

阶跃星辰成立于2023年4月,创始人姜大昕曾担任微软全球副总裁、微软**互联网工程院首席科学家。从成立初期,阶跃星辰就从算力、数据、算法和系统四大要素上综合布局,坚定追逐AGI的目标。

一、通往AGI之路,万亿参数、多模融合缺一不可

在如何实现AGI的问题上,业内一直存在诸多不同的声音。

如OpenAI Sora团队的核心成员Tim Brooks和Bill Peebles认为,视频生成技术将通过模拟一切来实现AGI。DeepMind创始人Demis Hassabis则认为,最快可能实现AGI的方法,就是将世界上现有的所有知识都收集起来,用于模型训练。

大模型创企月之暗面CEO杨植麟称,Scaling Law是通往AGI的第一性原理。百川智能CEO王小川则认为仅靠Scaling Law还不够,AGI需要大模型范式的改变。

而在阶跃星辰创始人姜大昕看来,要攀登AGI这座高峰,“万亿参数”和“多模融合”缺一不可。

在发展阶段上,早期的AI语言、视觉、声音等不同模态独立发展,每个模型主要学习如何更好地表征各自模态的特点;现在,不同模态开始走向融合,但仍不彻底,面临理解能力与生成能力难以同时实现的痛点;最终,生成和理解需要统一在一个模型里,与具身智能相结合起来,模型作为机器人或其他硬件设备的“大脑”,带领它探索并与世界交互,实现AGI。

因此,多模态理解和生成的统一是通向AGI的必经之路。

另一方面,根据Scaling Law,模型的参数量决定模型能力上限,所以全面跨入万亿参数,甚至十万亿、百万亿,是通向AGI的另一核心。

行业内第一梯队的大模型公司是怎么做的?以OpenAI为例,其最新发布的GPT-4o模型全方面加强了语音、视频交互能力,而“大力出奇迹”的暴力美学也是其屡试不爽的模型训练方式。

这恰好印证了Scaling Law与多模态融合这两个关键点,与阶跃星辰所选择的路径不谋而合。

二、三大模型亮相WAIC,阶跃星辰大模型全家桶来了

今年3月,阶跃星辰首次推出Step系列通用大模型并发布预览版,向万亿参数规模发起冲击。

经过100天的打磨,今天在WAIC上,阶跃星辰正式发布Step系列模型“全家桶”,包括万亿参数语言大模型Step-2、千亿参数多模态大模型Step-1.5V以及图像生成大模型Step-1X。

_如何通往AGI?阶跃星辰用万亿+多模交卷,三大模型亮相WAIC_如何通往AGI?阶跃星辰用万亿+多模交卷,三大模型亮相WAIC

▲WAIC现场发布Step系列模型“全家桶”

其中,Step-2在数理逻辑、编程、世界知识、指令跟随等方面体感全面逼近GPT-4。

在算法架构方面,目前MoE模型的训练方式主要分为两种,基于已有模型向上复用训练,或是从头开始训练。

第一种方式对算力需求低,训练效率更高,但容易出现同质化严重等问题。相比之下从头训练虽然难度更高,但能获得更高的模型上限。

在设计MoE架构时,阶跃星辰选择迎难而上自主研发。具体来说,通过部分专家共享参数、异构化专家设计等架构设计,Step-2中的每个“专家模型”都得到充分训练,不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分Dense模型。

有万亿参数的模型当“老师”,Step-1.5V的推理能力大幅提升,可以根据图像内容进行各类高级推理任务,如解答数学题、编写代码、创作诗歌等。

同时基于创新的图文混排训练方法,Step-1.5V感知能力增强,能理解复杂图表、流程图、准确感知物理空间复杂的几何位置。

另一个重要的升级点是视频理解能力,Step-1.5V不仅能够准确识别视频中的物体、人物和环境,还能理解视频的整体氛围和人物情绪。

图像生成大模型Step-1X首次亮相,其采用全链路自研的DiT模型架构,支持600M、2B、8B三种不同的参数量,可满足不同场景的需求。其中,600M适合对于速度敏感的轻量级场景;2B是适用于日常的主力模型,效果和速度达到平衡;8B则追求更高、更极致的生成效果。

Step-1X具备优秀的语义对齐能力和指令跟随能力,并针对**元素进行深度优化,支持**元素、文化内容,同时更符合国人的审美风格。

基于这一系列模型的能力,在彩色动画长片《大闹天宫》发行60周年之际,阶跃星辰与上海美术电影制片厂合作,推出一款H5 AI互动体验。

如何通往AGI?阶跃星辰用万亿+多模交卷,三大模型亮相WAIC__如何通往AGI?阶跃星辰用万亿+多模交卷,三大模型亮相WAIC

▲《大闹天宫》游戏现场体验

根据用户上传的个人照片,大模型会识别人物特征,并结合《大闹天宫》画风和角色进行风格迁移,生成新的肖像。

在交互中,用户可以与大模型生成的剧情进行交谈,系统将根据用户的选择和回答分析其MBTI人格,并在天庭为其安排一项适合其人格的差事。

如何通往AGI?阶跃星辰用万亿+多模交卷,三大模型亮相WAIC_如何通往AGI?阶跃星辰用万亿+多模交卷,三大模型亮相WAIC_

▲《大闹天宫》游戏界面截图

基于Step系列模型,该游戏将先进的生成式AI技术与《大闹天宫》情景深度融合,用当代的新视角,带领观众领略这部经典动画作品中的传统文化魅力,这是生成式AI技术在落地应用层面上的又一次创新尝试。感兴趣的读者朋友,可以点击本文下方的“阅读原文”进行体验。

值得一提的是,阶跃星辰Step系列通用大模型凭借技术创新和广泛的应用落地,被选入WAIC 2024 SAIL(Super AI Leader)之星,这意味着阶跃星辰在技术和应用方面获得业界的高度认可。

三、模型和产品双轮驱动,面向C端构建生态圈

成立于2023年3月的阶跃星辰,在喧哗吵闹的“百模大战”中并不高调。

在创业之前,姜大昕担任过微软全球副总裁、微软**互联网工程研究院首席科学家,曾主导微软搜索引擎Bing、智能语音助手Cortana、微软云Azure、办公全家桶Microsoft 365等产品的自然语言理解系统的构建。

自成立起,阶跃星辰就在算力、数据、算法和系统这四大要素上综合布局,坚定投入Scaling Law。

_如何通往AGI?阶跃星辰用万亿+多模交卷,三大模型亮相WAIC_如何通往AGI?阶跃星辰用万亿+多模交卷,三大模型亮相WAIC

▲阶跃星辰创始人姜大昕讲解攀登Scaling Law所需的要素

姜大昕认为,模型和产品的关系就像是灵魂和皮囊,“好看的皮囊千篇一律,有趣的灵魂万里挑一。”阶跃星辰希望通过“有趣的灵魂”,来显示出产品的不同。

因此,从成立第一天开始,阶跃星辰就同时开发模型和应用产品。应用作为牵引和数据补充,模型与应用深度绑定,通过双轮驱动将两者都做到极致。

而在应用落地的过程中,只靠一家公司自身存在局限性,需要不同公司之间的生态合作才能够促进技术的创新和发展,加速技术的落地应用,推动整个行业持续进步。

通过自有产品与生态合作产品相结合的方式,阶跃星辰对大模型落地应用展开了积极探索。

在自有产品方面,阶跃星辰已发布效率工具“跃问”和AI开放世界平台“冒泡鸭”两款自研产品,均已全面开放使用。

其中,跃问作为一款个人效率助手,能够基于联网搜索、代码分析增强(POT)等能力,为用户提供信息查询、语言学习、创意写作、图文解读等多样化服务,帮助用户在工作、学习、生活等场景下解决问题。

基于Step-1.5V等模型能力,跃问的主要优势在于业界领先的多模态内容理解能力,不仅能够帮助用户识别真实世界的万事万物、理解和分析复杂的金融图表,还能理解网络热梗图片中的深意。

如何通往AGI?阶跃星辰用万亿+多模交卷,三大模型亮相WAIC__如何通往AGI?阶跃星辰用万亿+多模交卷,三大模型亮相WAIC

▲跃问图像理解能力

在生态合作产品方面,阶跃星辰在内容创作、金融财经、消费娱乐等领域与合作伙伴达成深度合作,共同发掘面向C端用户的创新应用。

在WAIC亮相的《大闹天宫》,就是阶跃星辰联合上海电影共同推出了一款AI互动体验产品,将先进的AI大模型技术与《大闹天宫》情境深度融合,用当代全新视角领略**传统文化的魅力、回顾经典动画作品艺术成就,同时也为创作者打开更多想象空间。

在金融财经领域,阶跃星辰联合国泰君安以及界面财联社,推出业内首家千亿级参数多模态证券垂直类大模型——君弘灵犀大模型,在业内首个实现将大模型能力全面融入客户智能化服务体系之中,在智能投顾问答、投研内容生产和交互模式上为客户带来新体验。

从模型到应用,对AGI的追求始终贯穿着阶跃星辰的战略布局。通过构建开放、合作的生态系统,其正在推动AI技术的广泛应用和行业的共同发展。

结语:微软前高管带队AGI,闯入大模型创企第一梯队

在大模型“百花齐放”下,越来越多的大厂牛人下场创业,成为生成式AI创业赛道的主力军。据智东西统计,2023年至今,至少有25位大厂高管已投身生成式AI创业。

这些创业公司所选择的细分赛道各不相同,覆盖通用大模型、垂直大模型、生成式AI应用、AI基础设施、AI数据服务、AI咨询等全产业链环节。

其中,阶跃星辰作为模型与产品双管齐下的创企,始终用行动践行着对AGI的终极追求。Step系列通用大模型和多样化的自有、合作产品是阶跃星辰在通往AGI之路上交出的最新答卷,“万亿+多模”也将成为大模型企业格局的分水岭。