【特别关注】作者:齐延平(北京理工大学科技与人权研究中心主任、讲席教授)在2024年中非合作论坛北京峰会开幕式上,习近平主席宣布共建中非数字技术合作中心,建设20个数字示范项目,共同拥抱新一轮科技革命和产业变革。在全球数字化浪潮的席卷之下,“一带一路”倡议迎来了新的发展阶段,数字技术迭代创新正在为中
2025-08-20 05:35:00 0
IT之家 4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。
在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。
Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言(如 Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。
SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。
Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:
首次覆盖 7 种主流编程语言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;
引入任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(Hard)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;
1,632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。
IT之家附开源链接:
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:
论文链接:https://arxiv.org/ abs / 2504.02605
榜单链接:https://multi-swe-bench.github.io
代码链接:https://github.com/ multi-swe-bench / multi-swe-bench
数据链接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-bench
相关推荐
【特别关注】作者:齐延平(北京理工大学科技与人权研究中心主任、讲席教授)在2024年中非合作论坛北京峰会开幕式上,习近平主席宣布共建中非数字技术合作中心,建设20个数字示范项目,共同拥抱新一轮科技革命和产业变革。在全球数字化浪潮的席卷之下,“一带一路”倡议迎来了新的发展阶段,数字技术迭代创新正在为中
2025-08-20 05:35:00 0
文|周鑫雨编辑|苏建勋从2022年的Stable Diffusion、Midjourney,到如今的即梦AI、Lovart,AI创意工具,已经重塑了创作的工作流:创作者提供点子,自然语言作为交互界面,AI工具最后高效实现创意的生成。不过,对于创业变现而言,创意的生成,只是其中的一步——更广阔的变现空
2025-08-19 15:42:00 0
当地时间8月13日,巴基斯坦总理夏巴兹·谢里夫在当天庆祝巴基斯坦独立78周年的仪式上宣布成立新的陆军火箭军司令部,以增强国家防御能力。他表示,新的火箭军司令部将配备最先进的技术,进一步增强巴基斯坦的常规作战能力。(总台记者 崔如)
2025-08-14 12:32:00 0
为切实做好企业消防安全工作,提高场所人员防御火灾的能力和水平,近日,沙河口区李家街道联合区商务局、区应急局、区消防大队及李家街派出所,在新智联市场、华北路市场开展夏季消防应急演练。此次演练严格模拟真实火情,紧扣“扑救初火”与“安全逃生”两大关键环节,深化对重点人群的专业化培训,并将隐患排查整治作为一
2025-07-27 07:04:00 0
7月18日,据浦银理财披露,该公司发行的悦丰利增盈183号理财产品认购期为2025年7月18日至2025年7月24日,发行规模上限为50亿元,下限为0.1亿元。A类份额认购起点金额为1元,B类份额认购起点金额为50万元。产品类型为固定收益类,风险等级为R2较低风险,产品期限1056天,A类份额业绩比
2025-07-19 13:32:00 0