12月19日,2023通信产业大会暨第18届通信技术年会在京举办。中国软件评测中心(工业和信息化部软件与集成电路促进中心)人工智能研究测评事业部副主任测评师孙佰鑫、中国科学院信息工程研究所副研究员孟国柱联合发布了《大语言模型代码能力测评分析报告》。

2023年中央经济工作会议指出,要大力推进新型工业化,发展数字经济,加快推动人工智能发展。人工智能大模型正掀起新一轮科技发展热潮,重塑生产方式、优化产业结构、提升生产效率的赋能效应日益显现,业界普遍认为通用人工智能的序幕已经拉开。国内产学研用等各方积极布局、大力投身大模型研发应用。据统计,截至2023年10月底,国内已经发布 238个大模型,通过国家网信办备案的大模型超过20个,大模型已进入规模落地应用阶段。据赛迪研究院数据,2023年我国大语言模型市场规模将达到132.3亿元,增长率达110%。
代码能力是大模型核心关键能力,是大模型理解、逻辑、推理、生成等综合能力的体现,其已成为程序员辅助编程必备助手,能够编写、翻译、补全代码,帮助定位和修改错误,大大提高了编程效率,正给软件开发带来变革。
为客观评估大模型代码能力,促进大模型代码能力迭代进步,中国软件评测中心人工智能研究测评事业部联合中国科学院信息工程研究所孟国柱团队,依托人工智能场景化应用与智能系统测评工信部重点实验室,共同研究制定了《大语言模型代码能力测评规范》,从代码生成、代码翻译、代码纠错、代码补全、代码安全五大维度构建测评体系,面向各能力项建立契合测试任务要求的数据集,设计了涵盖代码完整性、功能完备度、文本相似度三项一级指标,编译正确率、运行时正确率、运行超时率、pass@k、样例通过率、CodeBleu六项二级指标(具体见下图)。基于该测评规范,对文心一言、讯飞星火、智谱清言、通义千问、MINIMAX、CodeLlama等5款最新版本国内大模型和1款开源大模型开展测评,分析大模型代码能力表现,形成国内第一份专门测评分析大模型辅助编程能力的《大语言模型代码能力测评分析报告》。

整体看,多数大模型能够有效生成可运行的代码,并提供有助于理解的注释,部分模型表现优异,代码格式规范、正确率高。代码生成方面,大模型能够较好理解题意并编写对应代码,具备基本的算法、逻辑、编程语言相关知识,生成的代码质量较高,大部分能够顺利通过编译并执行,一定比例能够通过测试用例。代码翻译方面,相对于无参考代码的代码生成任务,所有大模型均能够按要求将某种常见编程语言代码转换成指定的编程语言代码,所转换的大部分代码能够有效执行。代码纠错方面,给定错误代码位置情况下,大模型能够较准确完成如变量、运算符、关键词等简单错误的修改。代码补全方面,大语言模型的小规模代码补全能力较好,能够识别并模仿给定代码的变量命名和格式,生成与给定代码风格一致的代码。
下一步,中国软件评测中心、中国科学院信息工程研究所孟国柱团队将联合骨干企业、高校院所、研究机构等,研究制定“人工智能大模型辅助编程能力要求及评估方法”,围绕大模型代码能力、安全保障方面开展标准制定、应用研究评估工作,期待有意向的单位、专家加入,共同推动大模型辅助编程能力提升和应用落地。