摘要:大模型跑分没有意义,具体应用场景是否满足用户需求以及产生价值增益,才是衡量大模型能力的标准。
铺垫很长,但发布很突然。今日(13日)凌晨,OpenAI发布o1系列两款模型,这是传闻中内部代号为“草莓”的项目,也是OpenAI首款具备推理能力的大模型。
o1大模型的取名方式一改原有的数字版本模式(如GPT-3.5、GPT-4o),OpenAI为此解释“它代表了人工智能能力的新水平,我们将计数器重置为1”。
那么,o1的“新水平”到底有多新?测试结果显示,与GPT-4o相比,o1又贵又慢,单位词元成本提高了2—3倍,输出内容不再是“秒回”,而是需要“思考”十几秒。不过测试结果显示,o1解决数学和编码等复杂问题显著优于GPT-4o。
根据官方解释,o1采取与众不同的“思维链”(Chain of Thought)模式进行训练,以此提升大模型的逻辑推理能力。o1“思考”越久,思维链越长,面对复杂问题的表现就越好。
国内大模型创业者告诉记者,o1的上线,意味着新的Scaling Law(拓展规模法则)诞生,也将影响原有的大模型评价体系和框架。
与以往NLP(自然语言处理)相比,大模型评价体系更为复杂,由于输出内容的不可确定性,评价体系不局限于明确的任务指标,而是综合对场景能力进行评估。这也给大模型的“尺度”带来了操作空间。
事实上,国内外大模型的测试集和榜单多达上百种,每个榜单的排名几乎各不相同。比如中文大模型测评基准SuperCLUE最新报告中,腾讯混元大模型总得分居国内大模型第一名;大模型社区HuggingFace排行榜显示,***通义千问登顶开源模型榜首;斯坦福大学基础模型研究中心排行榜中,零一万物大模型力压百度、字节进入全球十强……
记者从业内人士获悉,国内外大模型的测评项目参差不齐,但很多都是“开卷考”,新模型可以针对现有题库“刷题”来训练,刷出高分来验证能力。大模型厂商不仅会猜题,还会用“模拟考”来训练答题技巧,“打榜成绩”好坏无法客观反映出大模型的真实能力。因此,榜单中很多新模型的“异军突起”,实际效果仍要打个问号。
“很多**新模型发布时,喜欢跟OpenAI最新模型比较,用测试集来跑分,有些单项得分超过GPT-4o,但这并不能代表,这些新模型与GPT-4o的能力相差不大。”记者从百度内部获悉,李彦宏在员工讲话中批评了当前的大模型“打榜热”,他认为大模型的差距是多维度的,能力维度只是其中一方面,理解、生成、逻辑推理、记忆联想等能力,可以通过特定项目训练实现目标,但是成本维度、时间维度等却几乎不予披露,而这些维度与大模型的实际能力密切相关。
“部分自媒体的炒作,加上新模型发布的宣传,让大家有一种印象,认为模型之间的能力差别已经比较小了,其实真不是这样。”李彦宏认为,大模型跑分没有意义,具体应用场景是否满足用户需求以及产生价值增益,才是衡量大模型能力的标准。
上周,开源模型Reflection 70B横扫各大模型榜单,每项基准测试表现均超过GPT-4o,由两位开发者仅耗时3周完成,如今却被曝出面临无法复现、套壳等指控。凭借跑分一炮而红,从而吸引投资,这一情况在“百模大战”中早已屡见不鲜。
回过头来看o1,几乎没有参与主流榜单测评,甚至连在很多重要评价类目中不如GPT-4o,比如无法处理文件和图像、对常识理解表现欠佳等,但o1的实力却是有目共睹的。OpenAI让o1“参加”国际数学奥林匹克资格考试,GPT-4o正确率为13%,但o1正确率高达83%。
俗话说,是骡子是马,拉出去遛遛。大模型的能力难以被量化,不代表用户没有感知度。大模型的终极检验,应该在市场,而不是在榜单。