您的位置:首页 > 科技

最新中文大模型测评:百川、智谱、通义领跑国内

发布时间:2024-05-02 08:56:59 来源: 编辑: 浏览:

  4月30日,国内权威大模型评测机构SuperCLUE发布了《中文大模型基准测评2024年度4月报告》,报告选取国内外具有代表性的32个大模型4月份的版本,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告显示,Baichuan 3在国内大模型中排名第一,智谱GLM-4、通义千问2.1、文心一言4.0、Moonshot(Kimi)等大模型位列其后。从全球范围来看,国外同行的GPT-4、Claude3得分更胜一筹。


  SuperCLUE是国内权威的通用大模型综合性测评基准,其前身是第三方中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)。不同于传统测评通过选择题形式的测评,SuperCLUE纳入了开放主观问题的测评。通过多维度、多视角、多层次的评测体系以及对话的形式,模拟大模型应用场景,真实有效的考察模型生成能力。同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果,对大模型的上下文、记忆、对话能力全方位评测。

  为更真实反映大模型通用能力,SuperCLUE本次测评由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等,题目为多轮开放式简答题。评测集共2194题。

  测试结果显示,Baichuan3的文科、理科能力均衡。在知识百科能力上Baichuan 3以82分的成绩超越了GPT-4-Turbo,在所有32个参与评测的国内外大模型中排名第一。而在代表了大模型智力的“逻辑推理”能力上以68.60的成绩超越Claude3-Opus,力压一众国内大模型拔得头筹。此外,在计算、代码、工具使用能力上Baichuan 3表现同样不俗,均排名国内前三。

  在评测国内外模型通用能力和专项能力的基础上,SuperCLUE还对国内模型发展现状及竞争格局进行了分析和研判。SuperCLUE认为,Baichuan 3可应用的场景相对广泛,尤其在专业技能类的任务上表现优异,重点推荐数学推理、数据分析、信息处理、智能客服/语音助手以及任务拆解规划等场景。另外,其还可以在相对复杂的行业场景中落地,可应用于教育、医疗、金融等垂直行业。

声明

  一、本站转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,内容为作者个人观点,本站只提供参考并不构成任何投资及应用建议。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容!

  二、标注《大视野新闻网》来源的文章,版权归本站所有,如需转载,请联系我们并注明来源及作者。

  三、本站拥有对此声明的最终解释权。

相关阅读

  4月29日,2024碳达峰碳中和绿色发展论坛在北京举行,自然资源部、工信部、生态环境部、国家发改委、科技部等政府主管部门代表及企业负责人、专家学者等与会嘉宾深入交流,共话推进美丽中国建设[详细]

2024-05-02

  临近五一出游旺季,国内多地的风雨天气却让想出行的旅客们犯了难。实际上,根据气象局最新消息,假期期间还是有不少地区的天气能够让人安心出行的。记者综合中国天气网、携程平台等数据,挖掘五[详细]

2024-05-02

  近日,一场国风快闪活动让上海中华艺术宫(世博会中国馆)在微博“出圈”了,#在上海中华艺术宫奇遇画中灵#同城热搜吸引了不少人前去打卡围观。在上海中华艺术宫这个对外展示中国文化艺术的窗[详细]

2024-05-02

  4月29日,河北省航空旅游融合发展推进会在石家庄举行。会议由河北省文化和旅游厅、石家庄市人民政府、河北机场管理集团有限公司以及河北广播电视台共同主办。携程集团副总裁秦静、携程集团[详细]

2024-05-02

  今年“五一”,在国家《推动大规模设备更新和消费品以旧换新行动方案》的强劲激励下,家电家居消费将迎来一波火爆热潮。为实现抓机遇、用政策、强落实、促发展,推动城乡居民生活品质全面提升[详细]

2024-05-02