百川智能发布超千亿大模型Baichuan 3 - 科技

　　1月29日，百川智能发布超千亿参数的大语言模型Baichuan 3。多个专业评测显示，Baichuan 3不仅英文效果达到接近GPT-4的水平，还在多项通用中文任务的表现上实现了对GPT-4的超越。

　　基础能力方面，Baichuan 3在多个英文评测中表现出色，达到接近GPT-4的水平。而在CMMLU、GAOKAO、HumanEval和MBPP等多个中文评测榜单上，超越GPT-4展现了其在中文任务上的优势。

　　此外，在MT-Bench、IFEval等对齐榜单的评测中，Baichuan 3超越了GPT-3.5、Claude等大模型，处于行业领先水平。

　　与百亿、几百亿级别参数模型训练不同，超千亿参数模型在训练过程中对高质量数据，训练稳定性、训练效率的要求都高出几个量级。为更好解决相关问题，百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等多种创新技术手段及方案，有效提升了Baicuan 3的各项能力。

　　在医疗领域，大模型的全能特性发挥着至关重要的作用。大模型医疗背后蕴含着巨大的社会价值和产业价值，从疾病的诊断、治疗到患者护理与药物研发，大模型不仅能够帮助医生提高诊疗效率和质量，帮助患者获得更好的服务和体验，还能帮助社会降低医疗成本和风险，助力医疗资源实现普惠和平权。并且医疗问题专业性强、知识更新速度快、准确性要求高、个体差异大，能充体现大模型的各项能力，被称为“大模型皇冠上的明珠”。

　　Baichuan 3在多个权威医疗评测任务中表现优异，不仅MCMLE、MedExam、CMExam等中文医疗任务的评测成绩超过GPT-4，USMLE、MedMCQA等英文医疗任务的评测成绩也逼近了GPT-4的水准。

　　语义理解和文本生成，作为大模型最基础的底层能力，是其他能力的支柱。为提升这两项能力，业界进行了大量探索和实践，OpenAI、Google以及Anthropic等引入的RLHF(基于人类反馈的强化学习)和RLAIF(基于AI反馈的强化学习)便是其中的关键技术。

　　强化学习训练框架方面，百川智能自研了训练推理双引擎融合、多模型并行调度的PPO训练框架，能够很好支持超千亿模型的高效训练，训练效率相比业界主流框架提升400%。偏序数据方面，百川智能创新性的采用了RLHF与RLAIF结合的方式来生成高质量优质偏序数据，在数据质量和数据成本之间获得了更好的平衡。

　　在此基础上，对于“探索与利用”这一根本挑战，百川智能通过PPO探索空间与Reward Model评价空间的同步升级，实现“迭代式强化学习”(iterative RLHF&RLAIF)。基于强化学习的版本爬坡，可以在SFT的基础上进一步发挥底座模型的潜力，让Baichuan 3的语义理解和生成创作能力大幅提升。

　　以文本创作中最具挑战的唐诗宋词为例，作为中国传统文化的瑰宝，诗词不仅在格式、平仄、对偶、韵律等方面均有着严格的约束条件，并且内容高度凝练、寓意深远。如果仅通过SFT的微调学习，一方面高质量诗词的创作数据需要极高的专家成本，另一方面不能在平仄、对偶、韵律等多个方面实现较好的约束理解和遵循。此外，传统的单次RLHF范式在唐诗宋词面前也遇到极大挑战，PPO在训练过程中生成的Response有可能超出Reward Model的评价范围导致“探索”的过程失控。

　　Baichuan 3结合“RLHF&RLAIF”以及迭代式强化学习的方法，让大模型的诗词创作能力达到全新高度。对于宋词这种格式多变，结构深细、韵律丰富的高难度文体，生成的内容亦能工整对仗、韵脚和谐。其精准、深厚的创作功底，将让每个人都能够轻松创作出咏物、寄思的五言律诗、七言绝句，写下的言志、抒情的“沁园春”、“定风波”，这不仅可以提升大众的人文素养，还能助力中华传统文化在大模型时代真正地“活”起来。

　　作为参数规模超过千亿的大语言模型，Baichuan 3全面的通用能力以及在医疗领域的强大表现，将为百川智能打造“超级应用”，把大模型技术落地到诸多复杂应用场景提供有力支撑。

声明

　　一、本站转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责，内容为作者个人观点，本站只提供参考并不构成任何投资及应用建议。如涉及作品内容、版权和其它问题，请在30日内与本网联系，我们将在第一时间删除内容!

　　二、标注《大视野新闻网》来源的文章，版权归本站所有，如需转载，请联系我们并注明来源及作者。

　　三、本站拥有对此声明的最终解释权。