IT之家 1 月 4 日消息,阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和人类程序员对比的 Elo 评级系统,来评估大语言模型(LLM)的编程水平。项目背景大语言模型的 AI 场景应用之一,就是生成、补全代码,只是现阶段评估编程真实能力方面存在诸多挑战。包括 LiveCodeBench 和 USACO 在内的现有基准测试均存在局限性,缺乏健壮的私有测试用例,不支持专门的判断系统,并且经常使用不一致的执行环境。CodeElo:借力 CodeForces,打造更精准的 LLM 评估体系IT之家注:Qwen 研究团队为了解决这些挑战,推出了 CodeElo 基准测试,旨在利用与人类程序员比较的 Elo 评级系统,来评估 LLM 的编程竞赛水平。CodeElo 的题目来自 CodeForces 平台,该平台以其严格的编程竞赛而闻名,通过直接向 CodeForces 平台提交解决方案,CodeElo 确保了评估的准确性,解决了误报等问题,并支持需要特殊评判机制的题目。此外,Elo 评级系统反映了人类的排名,可以有效比较 LLM 和人类参赛者的表现。CodeElo 三大核心要素:全面、稳健、标准化CodeElo 基于三个关键要素:全面的问题选择: 题目按比赛分区、难度级别和算法标签进行分类,提供全面评估。稳健的评估方法: 提交的代码在 CodeForces 平台上进行测试,利用其特殊评估机制确保准确判断,无需隐藏测试用例,并提供可靠反馈。标准化的评级
AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人…
2025-01-04 13:32:24来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- AirPods 4蛇年特别款开箱:苹果灵动小蛇庆祝中国年2025-01-05 01:51:17
- 强制放假! 一多晶硅龙头开启“限产运动”,员工们被拒之厂外 | 能见派2025-01-05 01:51:17
- 避免未成年人网络成瘾,希腊政府发布“儿童钱包”应用2025-01-04 13:44:20
- 优派推出“VX2757-HD-PRO”27 英寸显示器:1080P 180Hz,799 元2025-01-04 13:47:04
- 谷歌 DeepMind 推 CAT4D:AI 魔法突破次元壁,普通视频活变 3D 大片2025-01-04 13:55:27
- 阿里发布 Qwen-Agent 框架,赋能开发者构建复杂 AI 智能体2025-01-04 14:04:28
- 小米 REDMI 2025 新年限定礼盒开售:3199 元,含 Turbo 4 手机、Watch 5 及 Buds 6 Pro2025-01-04 14:26:04
- 微软 Win11 发布已 3 年,文件管理器 Home 页顶栏延迟仍是用户“眼中钉”2025-01-04 14:32:18
- 超千次下载:20 个恶意 npm 包伪装成以太坊开发工具 Hardhat 窃取敏感信息2025-01-04 14:40:54
- 微信纯血鸿蒙版 App 获 1.0.3.37 邀测升级,聊天支持群接龙、查看引用的图片等2025-01-04 14:53:22
- 1第三代中国自主量子计算编程框架 QPanda3 发布,编译速度较美国 Qiskit 1.3.0 提升 320 倍
- 2报告:80% 游戏开发者正开发 PC 游戏,Steam Deck 成新宠
- 3《毁灭战士:黑暗纪元》游戏被曝 2025 年 5 月 15 日发行
- 4玩家投票:PS5 成索尼史上“最差一代”主机
- 5钉钉宣布全面支持 iOS / 鸿蒙 HarmonyOS NEXT 系统 CallKit 功能
- 6两院院士评选“2024 年中国 / 世界十大科技进展新闻”揭晓,嫦娥六号、星舰“筷子夹火箭”等入选
- 7努比亚红魔《三国志 8》游戏联名 65W 氮化镓充电头首销:1A + 2C 赠线,99 元
- 8全路唯一,人形客运服务 AI 机器人“小铁”上岗西安火车站候车大厅
- 9鑫谷昆仑九重 KE-1300P 电源推出黑色版本:额定功率 1300W、80PLUS 白金认证、数字化设计,1599 元
- 10十铨推出业界首款 V90 认证 2TB SDXC 存储卡:UHS-II 规范,IP67 防护