为切实做好企业消防安全工作,提高场所人员防御火灾的能力和水平,近日,沙河口区李家街道联合区商务局、区应急局、区消防大队及李家街派出所,在新智联市场、华北路市场开展夏季消防应急演练。此次演练严格模拟真实火情,紧扣“扑救初火”与“安全逃生”两大关键环节,深化对重点人群的专业化培训,并将隐患排查整治作为一
2025-07-27 07:04:00 0
IT之家 4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。
在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。
Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言(如 Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。
SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。
Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:
首次覆盖 7 种主流编程语言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;
引入任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(Hard)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;
1,632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。
IT之家附开源链接:
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:
论文链接:https://arxiv.org/ abs / 2504.02605
榜单链接:https://multi-swe-bench.github.io
代码链接:https://github.com/ multi-swe-bench / multi-swe-bench
数据链接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-bench
相关推荐
为切实做好企业消防安全工作,提高场所人员防御火灾的能力和水平,近日,沙河口区李家街道联合区商务局、区应急局、区消防大队及李家街派出所,在新智联市场、华北路市场开展夏季消防应急演练。此次演练严格模拟真实火情,紧扣“扑救初火”与“安全逃生”两大关键环节,深化对重点人群的专业化培训,并将隐患排查整治作为一
2025-07-27 07:04:00 0
7月18日,据浦银理财披露,该公司发行的悦丰利增盈183号理财产品认购期为2025年7月18日至2025年7月24日,发行规模上限为50亿元,下限为0.1亿元。A类份额认购起点金额为1元,B类份额认购起点金额为50万元。产品类型为固定收益类,风险等级为R2较低风险,产品期限1056天,A类份额业绩比
2025-07-19 13:32:00 0
王德顺:东北语言已经普及全国了,沈阳搞喜剧周有优势#第二届中国喜剧电影周闭幕仪式##第二届中国喜剧电影周#
2025-07-13 10:11:00 0
为全面提升社区工作者职业能力和专业素养,展示社区工作者风采,6 月28日、29日,张店区举办2025年社区工作者职业能力大赛,张店区共8支团体队伍、56名优秀社区工作者参加比赛。大赛设置理论知识测试、个人实践技能考核、团体实践技能考核等环节,深入考察了参赛选手及团队的综合知识储备、逻辑思维、应急处置
2025-06-30 16:28:00 0
6月28日上午,夏日的蝉鸣声中,武汉市第十四中学操场招生宣讲紧锣密鼓。许兆震拿着宣传册走来,脸上绽开爽朗的笑容——这位即将远赴俄罗斯开启公派留学生涯的的毕业生,礼貌开朗是他给人的第一印象。许兆震高考成绩亮眼:理科623分,全省排名约6500位。然而亮眼成绩背后并非一帆风顺。初中刚入学时,他英语几乎是
2025-06-29 12:07:00 0