您的位置:首页 > 科技

Baichuan 3通用中文评测基准总分77.4分:国内排名第二 优于GPT-3.5

发布时间:2024-02-03 10:25:23 来源: 编辑: 浏览:

  2月2日,国内大模型评测机构SuperCLUE发布了Baichuan 3大模型的评测结果。在SuperCLUE通用综合测评基准上,Baichuan 3以总分77.47分的成绩排名国内第二,跻身国内大模型第一梯队。


  Baichuan 3是百川智能1月29日发布的超千亿参数大语言模型,在多个英文评测上表现出色,达到接近GPT-4的水平。此外,Baichuan 3还突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力。

  SuperCLUE是国内权威的中文通用大模型综合性评测基准之一,主要考察模型在中文能力上的表现,包括语言与知识、专业与技能、AI智能体和安全四大能力维度的上百个任务。

  在本次评测中,Baichuan 3的综合表现优于GPT-3.5,与GPT-4差距已缩小至2.37分,与GPT4 Turbo相差13.16分,还有一定提升空间。

  SuperCLUE认为,在本次测评中,Baichuan3在各项能力上表现均衡,尤其在计算、逻辑推理、角色扮演、语言理解能力上处于国内领先位置,适用于复杂逻辑应用及个性化拟人场景。代码能力还有一定提升空间。


  作为超千亿参数的模型,与上一代开源模型Baichuan2-13B-Chat相比,Baichuan3各维度的能力均大幅升级。其中,计算能力提升幅度最大高达41.15%,逻辑推理能力提升18.03%、代码能力提升29.61%、知识百科能力提升14.38%、语言理解能力提升19.30%、角色扮演能力提升17.92%、工具使用能力提升20.09%、生成创作能力提升4.49%、上下文对话能力提升5.47%、传统安全能力提升3.10%。


  评测结果显示,Baichuan 3的综合能力表现不俗,计算、逻辑推理、语言理解、角色扮演、上下文对话等基础能力上较为领先。


声明

  一、本站转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,内容为作者个人观点,本站只提供参考并不构成任何投资及应用建议。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容!

  二、标注《大视野新闻网》来源的文章,版权归本站所有,如需转载,请联系我们并注明来源及作者。

  三、本站拥有对此声明的最终解释权。

相关阅读

  为深入实施工业互联网创新发展战略,推动工业互联网标识解析赋能千行百业,1月31日,工业和信息化部等十二部门联合发布《工业互联网标识解析体系“贯通”行动计划(2024-2026年)》(下称《行动计[详细]

2024-02-03

  “北京金融街高楼林立,寸土寸金,共享单车成了街区小交通必不可少的一环。年轻白领骑车去写字楼,商务人士骑车去咖啡厅会客。”共享单车运维员杨长荣,见证了骑车这种健康时尚的短途接驳方式,融[详细]

2024-02-03

  1月18日,商务部会同中央网信办、工业和信息化部、市场监管总局、国家邮政局和中国消费者协会共同指导举办的“2024全国网上年货节”拉开帷幕,活动将持续到2月17日。作为“消费促进年”的首[详细]

2024-02-03

  美国纽约大学研究人员开展了一项实验,他们通过一个孩子的眼睛和耳朵来训练多模式人工智能(AI)系统,使用的数据来自孩子6个月大到两岁生日期间的头戴摄像头的视频记录。发表在最新一期《科学[详细]

2024-02-03

  图 专家表示,弯曲的屏幕不仅很酷,还使手机更耐用,掉落时更不容易破碎。   图 未来我们或许会拥有“蛇纹”风格的手机,这种手机拥有更多抓握力,不易滑落。   图 专家表示,未来的手机或许可以[详细]

2024-02-03