去年,宇视科技发布了行业大模型“梧桐”,推进AIGC对物联网行业的改变。今年4月16日,又是在乌镇,宇视总裁张鹏国又带来了一系列全新观点,如:“大模型只是技术升级而不是革命”,“装备大模型化是商业化落地的最佳线路”,“大模型未来最大的挑战可能是能耗问题”……这些洞见和观察引人深思。观察者网请宇视AI首席科学家李聪廷来进一步谈谈这些问题,将大模型应用落地的最新探索报告给大家。
观察者网:如何理解大模型只是技术升级而不是革命,现在AI技术的热度和期待值很高,这么说会不会把技术发展的可能性给限制了?
李聪廷:技术受关注是好事,更多学术或企业从业者投身其中,加速技术进步和落地。理性的看,从深度学习小模型再到今天的大模型,学习效率低即依赖大量算力和标记数据的问题没有解决,不可避免出现低级错误的问题也没有解决,引用Yann Lecun 的话:“机器学习与人类和动物相比很糟糕”。因此,大模型只是技术升级而不是革命。大模型作为技术升级带来的红利,已经给商业化落地带来很多商机,给不少企业带来未来的增量或者效率提升。也正因为现在的大模型技术不是最终解,使类似 Yann Lecun 这样的科学家把精力放到研究面向未来的新的技术路径,应该说理性看待当下大模型技术,反而加大了找出未来路径的可能性。
图灵奖获得者杨立昆(Yann Lecun)
观察者网:图灵奖获得者杨立昆(Yann Lecun)批评Sora不是世界模型,认为生成式路线注定无法通往AGI,对此你怎么看?
李聪廷:世界模型是对物理定律和环境规则的理解和对齐,Sora 目前的确做不到这一点。现在的 AI 水平距离 AGI 还很遥远,但已经消耗了巨大的算力和能耗,以 chatGPT 为例,每天需要耗费 50 万度电,相当于 1.7 万个美**庭的耗电量,其学习效率与人脑天壤之别,这不得不引发学者们思考新的出路。
对当前技术路线的未来悲观,并不代表对过去和当下的否定。Yann Lecun 2022 年的“From Machine Learning to Autonomous Intelligence”讲座,开篇提到“AI can do pretty amazing things today”,是对过去和当下的肯定,然后才提出当下技术路线无法通向 AGI。举个例子,当下辅助驾驶已经在***车上普及,提升了驾驶体验,但 L4级别的自动驾驶落地遥遥无期,不可避免出现未知错误的问题难以根本解决。“当下最优解,不是最终解”这句话是对当前大模型技术现状相对客观的总结。
观察者网:在千行百业落地的**模型,要为解决各种细碎的问题,为细分场景专门优化,那么在同等的任务上,未来表现出的能力,还会与国际上顶尖的通用大模型有差距吗?有可能展现出大模型公司搞不定的能力吗?
李聪廷:通用大模型,是基础设施,有点像 Android 这样的操作系统,有两个特点。一是投入大,只有少数巨无霸企业能够持续投入;二是生态壁垒墙厚,占先机建立广大用户基础后,留给追赶着的机会就不多了。大模型技术是在美国爆发,因此 OpenAI、Google、Meta 等美国企业已占据了先机,**企业或机构处于追赶状态,我们不得不面对和正视这个差距。
通用大模型首先在C端获得了大量用户,人们可以与它对话、提问、写作、作画、作曲等,这种体验是以前 AI 做不到的,一时间人们误以为AI已经追上甚至超越人类水平。但在一些细分场景落地过程中,特别B端场景落地过程中,人们很快发现其精度过低、成本过高,无法落地。例如,使用市面上任何一个通用大模型识别迪拜车牌,正确率低于 20%。又比如,宇视作为产品和解决方案辐射全球200多个**和地区的全球化公司,资料翻译很消耗人力,但通用大模型会把“枪机”形态的网络摄像机直译成“gun camera”,因为它不具备“box camera”这类专业词汇的知识库。因此,是细分场景落地催生了行业大模型。
在**,我们深入去看每一个细分行业,几乎都能找到一两家甚至更多具备很强产品研发能力的企业。这类企业在国内市场充分竞争厮杀,国外产品型公司很难与之竞争。这类企业,已经在将自身产品与行业大模型结合,推出更有竞争力的产品。以宇视自身为例,前段时间我们推出了夜鹰系列摄像机,其展现的在 0.001 Lux 下的夜视能力在业内引发热议,领先海外同行企业两年。夜鹰的背后是十多年摄像机技术的积累以及梧桐行业大模型的AI-ISP能力结合。总的来说,行业大模型落**品,我国并不落后。
大模型化的摄像头提升了夜间观测的能力,用于观察和保护猛禽
观察者网:装备(工具)的模型化能战胜模型的装备(工具)化,或者说,+AI能战胜AI+,这个判断有哪些产业发展历史上的经验可以佐证?
李聪廷:现在的大模型阶段已有不少例子,比如一年前 MidJourney V5 和 Stable Diffusion 这类文生图大模型出现在公众眼前的时候,有人惊呼图片编辑工具市场要颠覆了。但今天看 Adobe Illustrator 、Photoshop 这类工具的用户并没有流失,在 Adobe 推出 firefly大模型并集成到自家工具中后,其用户基础更稳固了。背后的本质是,大模型技术可以提升工具中部分模块的效率,还远远达不到替代工具本身。而且今天,训练调优一个自己的行业或垂直大模型门槛并没有那么高。
回顾上一个阶段,即 2014 年深度学习技术在产业界开始爆发到大模型技术应用前,一度很多人也认为 AI新势力会颠覆传统应用/工具/装备的公司。早期,这类公司的算法处于领先,同时在大量资金注入和人才加盟的背景下,很快入场做产品。最后发现产品的技术点非常多,传统产品公司过去踩过的坑,AI 新势力不得不重新踩一遍。好不容易过了产品研发关,又遇到了制造瓶颈,制造特点是单个环节看似极其没有技术含量,但数百万器件 bom的管理和流水运作,有极高的门槛。制造门槛后面还有渠道门槛,渠道门槛后面还有规模采购成本门槛。最后 AI 新势力不得不转向提供算法授权的商业模式,但很快传统产品公司完成了算法追赶,算法红利消失后,这种商业模式也折戟了。
上述例子表明,装备(工具)企业被大模型技术新势力企业赶超的可行性很小,但那些跟不上大模型技术升级的装备(工具)企业有可能被其它装备(工具)企业淘汰掉。
观察者网:从装备大模型化的观点看,**应该具有率先将大模型应用落地的诸多优势,如工程能力的优势,***产业的优势。从你们在海外市场竞争的经验看,**企业是不是走在了前面?
李聪廷:先从装备的产品力本身看,以AI体锻屏为例,需要具备成像技术、嵌入式软件技术、云和APP软件、硬件技术、显示技术、交互设计、工程交付技术等诸多要素,当然还有 AI。研发出有竞争力的产品还远远不够,得上量才能覆盖研发投入并有利润,这很考验企业的渠道能力。有渠道带货,我们还要能造得出来,这又考验企业的规模制造能力。产品售价既要有竞争力还要有利润,这又考验企业的规模采购议价能力。当然,还有速度要素。因此,比拼的是所有要素的综合能力。
AI是其中一个要素,从小模型到大模型,技术升级了。这个变量,在装备企业之间产生足够的影响,旧的产品会加速迭代,并且还会创造一些新的场景的产品;反之,如果跟不上技术迭代,企业就会掉队。但对于没有装备经验只有大模型技术的企业,要迈过其它诸多要素的槛,道阻且长。
上一阶段的小模型技术,**企业是率先导入并应用于装备中的,这次大模型技术也不会例外。
观察者网:已经有不少批评说**做大模型的公司太多了,但是**能做各种设备的公司更多,如果每个有实力的设备公司都想+AI,做自己的行业模型,会不会呈现出非常细碎,没有统一标准、统一品牌的离散格局?
李聪廷:新技术出现,必然会吸引大量优秀人才和资本入场。这里有定位通用大模型的、有定位行业大模型的、有定位工具链的、当然还有定位 APP/工具/装备的。
通用大模型,最后大概率会集中在头部少数几家,赢者通吃,这几家自身就成为了事实的标准。其它企业会比较艰难甚至出局。
定位行业大模型的企业,有点像小模型时代的算法授权商业模式,它太容易被APP/工具/装备企业的自研给替代。因此避开与这类产品企业竞争,找到有生存机会的细分场景很重要。最后有可能出现几个细分场景的小而美的企业,做大的可能性不大。
定位工具链的企业,闭源,无法获得大量开发者用户,不利于建生态。开源,看不清商业盈利路径。左右为难的同时,还面临大厂自研的竞争挑战。
定位 APP/工具/装备的企业,行业大模型只是其产品的一个技术要素,用户侧看到的仍是其产品品牌。用户甚至感受不到行业大模型的存在,但一定能感知到产品的用户体验提升了。
观察者网:月之暗面的杨植麟说,今天的大部分开发工作实际上是做中间层的事情,就是数据。交互和模型可能都是一样的,但用不同的数据,就会出来不同的产品。定义好了训练数据和测试数据,大模型产品就定义好了。月之暗面是做云计算,做to C端产品,对于你们做边缘计算,做to B端产品来说,这个描述也适用吗?
李聪廷:最近月之暗面及其旗下应用Kimi 热度很高,用户体验做得不错。我们所在的 AIoT 赛道,和它所在的赛道没有交集。训练和测试数据肯定很重要,在我们这个赛道也一样。但对于定义一个行业大模型而言,我们会更关注其落地的性价比。例如,如果我们用 10B 级别的通用 CV 大模型去做视频解析的逐帧推理,那需要用到 A800 级的 GPU 设备,单路的实时推理成本需要 1 万美金左右,而我们的客户过去只能接受几百元人民币每路的成本。因此,我们采用了 5M 的小模型+1B 的梧桐行业大模型结合的方式,并且都是 ViT 网络结构,这样我们的单路推理成本可以做到几百元人民币水平。
观察者网:当前倡导的“新质生产力”就是要找到更多信息化、智能化的新模式、新场景、新业态。在典型的物联网场景比如充电桩,还有你们正在探索的文教体等行业,目前找到了哪些好的AI应用场景,已经表现出了能够商业落地,适合技术迭代的迹象?
李聪廷:确实,技术进步会催生更多的细分行业场景,比如AI文教体、储能、充电桩等,在宇视2024合作伙伴大会的现场,大家能看到很多的这类产品,我举四类:
一是AI**教育:实现**教具的AI化,其是一个具备逐步迭代与升级的长程赛道,可以围绕的教学要求、运动种类、锻炼目标等不断地提升效率、效果及内容丰富度,一方面是针对不同的运动类目不断增加算法类别,另一方面又可在单一算法类别上不断纵深优化效果。
大模型提升了算法精度,推进了**教具AI化
二是AI**运动:分享经济时代,能更全面记录自己想要记录的时刻,具备更丰富的可分享素材是通识性需求,只要是运动游玩都有此类诉求,所以在这个领域内宽度(运动类别)无上限,深度(每一个细分领域可提供满足个人情绪价值的内容)无上限。
在乌镇现场展示的智能球场解决方案,通过AI捕捉分析,自动生产运动视频并统计数据
三是文旅领域:基于梧桐大模型演进的算法服务于“旅游”行业,通过摄像机采集AI择优生成照片与vlog模式可覆盖景区、游乐场所、博物馆等多类场景,更好的与当下分享经济结合,服务于个体情绪价值的满足,其具备充分的优化演进空间,比如在算法的优选效果上、视频的画面清晰度上、视频剪辑的创意性以及更多更有趣的表达方式等等。
四是AI写真:通过AI算法来完成照片的优选与“PS”,可以配合个体快速的完成不同场景生成、不同装造、不同形象(二次元、商务等)的照片生成,即可帮助找适合自己的造型、也可在过程中带来娱乐性,同时也可服务于个体某一些场合所需照片的快速获取诉求。
观察者网:大模型未来最大的挑战可能是能耗问题,模型的能力增长与算力增长、能耗增长的关系是怎样的?为什么分布式能源系统和能算一体化是解题思路?
李聪廷:要把大模型技术和大模型应用分开,还要把大模型应用中的互联网服务和装备化产品分开。对于面向C端的大模型互联网服务来说,比如ChatGPT、Sora来说,算力和能耗问题比较突出,每多服务一个用户,都需要额外的算力和能耗。但对于使用的大模型技术的装备来说,算力和能耗是有限的、固定的,并不存在算力和能耗焦虑。
对于算力高度集中的数据中心应用场景,能算一体也许是个发展方向,能源自给自足肯定是有利于降低成本的,但代价是能源供给的稳定性。分布式能源是一种能源结构,涵盖的面比能算一体更广泛,解决的不止是数据中心能耗的问题。