百川VS智谱，谁是中国的OpenAI？

热搜大全 2023-10-21

百川VS智谱，谁是中国的OpenAI？

文 | 光锥智能，作者 | 郝鑫，编辑 | 刘雨琦

6 月初，外媒曾发出了 " 谁是中国的 OpenAI" 的拷问，经历了大模型创业潮之后，大浪淘沙，最终留下的不过寥寥数人。

清华大学几个十字路口外的搜狐大厦，二层是明星创业者王小川的百川智能，七层到十一层是学院派出身的智谱 AI。二者在经历了市场的检验后，成为了最有希望的两个候选人。

同一栋楼里的争夺战，似乎已经悄然打响了。

从融资上看，智谱 AI 和百川智能都在今年，完成了多轮大额融资。

百川VS智谱，谁是中国的OpenAI？

（光锥智能制图：根据公开资料整理）

今年，智谱 AI 累计总融资金额超 25 亿元人民币，百川智能总融资金额达到 3.5 亿美元 ( 约 23 亿人民币）。公开信息显示，智谱 AI 最新估值已经超 100 亿人民币，最高或达 150 亿，是国内估值最快超过百亿人民币的公司之一；最新一轮融资后，百川智能估值已经超过 10 亿美金（约 66 亿人民币）。

从团队构成上看，智谱 AI 和百川智能师出同门，智谱 AI 总裁王绍兰与搜狗创始人王小川，同为清华系创业团队。

从技术追赶速度来看，二者也不分伯仲。 智谱 AI 的 GLM-130B 刚问世就打败了 GPT-3，而最新发布的 Baichuan 2 在各维度领先 Llama 2，开拓了中国开源生态发展。

种种迹象显示，智谱 AI 和百川智能已经成为了中国大模型赛道冲出的 " 黑马 "，激烈的角逐下，究竟鹿死谁手？

OpenAI 的信徒：智谱 AI

智谱 AI 与 OpenAI 的渊源可以追溯到 2020 年，那一年被智谱 AI CEO 张鹏视为心中真正的 "AI 大语言模型元年 "。

智谱 AI 周年庆日的当天，喜悦的空气氛围中，时不时能嗅到 GPT-3 出世带来的些许焦虑。达到 1750 亿个参数的 GPT-3 是严格意义上的第一个大语言模型。

彼时，张鹏既震惊于 GPT-3 的涌现能力，也陷入了 " 要不要跟随 " 的思考之中，不管是当时还是现在，All in 超大规模参数大模型方向都是一件极其冒险的事情。权衡过后，智谱 AI 决定把 OpenAI 作为自己的对标对象，投入到超大规模预训练模型的研发当中。

百川VS智谱，谁是中国的OpenAI？

光锥智能制图：根据公开资料整理

在技术路径选择上，智谱 AI 与 OpenAI 具有同样的独立思考性。

当时存在 BERT、GPT 和 T5 几种大模型预训练框架。三种路径，在训练目标、模型结构、训练数据来源、模型大小几方面都各有优劣。

假如把大模型训练过程比作一场英文考试，BERT 擅长通过词句之间关系来做题，通过理解去考试，其复习资料主要源于课本和维基百科；GPT 擅长通过预测下一个词来做题，通过大量写作练习来准备考试，其复习资料主要来自各种各样的网页；T5 则采取了一种将题目形式化的策略，先把题目翻译成汉语再去解题，在复习时，不仅阅读课本，还刷了大量题库。

众所周知，谷歌选择了 BERT，OpenAI 选择了 GPT，智谱 AI 没有盲目跟从，在这两种路线基础上提出了 GLM（General Language Model）算法框架。该框架实则实现了 BERT、GPT 优劣互补，" 既能在理解的同时，还能完成续写和填空 "。

GLM 由此成为了智谱 AI 追逐 OpenAI 最大的底气，在此框架之下陆续长出了 GLM-130B、ChatGLM-6B、ChatGLM2-6B 等 GLM 系列大模型。实验数据显示，GLM 系列大模型在语言理解精度、推理速度、内存占比和大模型适配应用方面都优于 GPT。

百川VS智谱，谁是中国的OpenAI？

（图源：网络）

OpenAI 是当前国外能提供基础模型服务最为完备的机构，其商业化主要分为两类，一类是 API 调取收费，一类是 ChatGPT 订阅制收费。在商业化方面，智谱 AI 也遵循了大致的思路，处于国内大模型商业化较为成熟的企业梯队。

据光锥智能梳理发现，结合中国企业的落地情况，智谱 AI 的商业模式分为 API 调取收费和私有化收费模式。

总体提供的模型种类分别有语言大模型、超拟人大模型、向量大模型与代码大模型，在每个大模型选项下包括了标准定价、云端私有化定价和本地私有化定价。对比 OpenAI，智谱 AI 缺乏了语音、图像大模型服务的提供，但增加了超拟人大模型，这也迎合了中国数字人、智能 NPC 等行业的需求。

百川VS智谱，谁是中国的OpenAI？

光锥智能向开发者了解到，" 目前，百度文心千帆平台的特点是完善，通义千问的特点是灵活，智谱 AI 则是市场主流厂商中 API 收费最便宜的公司之一 "。

智谱 AI 的 ChaGLM-Pro 的收费为 0.01 元 / 千 tokens，并赠送 18 元的免费额度，ChaGLM-Lite 收费降至 0.002 元 / 千 tokens。作为参考，OpenAI GPT-3.5 收费为 0.014 元 / 千 tokens，阿里通义千问 -turbo 收费为 0.012 元 / 千 tokens，百度文心一言 emie-bot-turbo 的收费标准为 0.008 元 / 千 tokens。

正如张鹏所言，智谱 AI 也正在经历以 OpenAI 为目标到 " 不再追随 OpenAI" 的新阶段。

产品业务方面，不同于 OpenAI 只专注于 ChatGPT 的升级打造，智谱 AI 选择了三面出击。

据其官网显示，当前智谱 AI 的业务主要分为了三大块，分别为大模型 MaaS 平台、AMiner 科技情报平台和认知数字人。由此形成了三大 AI 产品矩阵，大模型产品、AMiner 产品以及数字人产品。其中，大模型产品不仅涵盖了基本对话机器人，还有编程、写作、绘画垂类的机器人划分。

百川VS智谱，谁是中国的OpenAI？

（图源：智谱 AI 官网）

与此同时，智谱 AI 还在通过投资的方式继续向应用侧上探。截至目前，智谱 AI 对外投资了聆心智能和画壁智能，并于今年九月份再次增持了聆心智能股份。

聆心智能同样孵化自清华大学计算机系，虽系出同源，但聆心智能更偏向于应用，其开发出的 AiU 兴趣互动社区就是基于智谱 AI 的超拟人大模型。其产品的开发思路类似于国外的 Character AI，通过创造不同性格与人设的 AI 角色，与之进行互动聊天，更加偏向于 C 端应用，强调娱乐的属性。

从 OpenAI 转向 LIama：百川智能

LIama：光锥智能发现，相比于 OpenAI，百川更像 Llama。

光锥智能发现，相比于 OpenAI，百川智能更像 Llama。

首先是站在原有的技术、经验基础之上，发布和迭代速度非常快。

百川智能成立半年，便接连发布了 baichuan-7B/13B，Baichuan2-7B/13B 四款开源可免费商用大模型及 Baichuan-53B、Baichuan2-53B 两款闭源大模型。截至 9 月 25 日开放 Baichuan2-53B API 接口，过去的 168 天里，百川智能平均以月为单位的速度发布一款大模型。

百川VS智谱，谁是中国的OpenAI？

Meta 靠 LLama2 重新赢回 AI 阵地，百川智能则凭借 Baichuan2 系列开源模型打败 LLama2 名声大噪。

据测试结果表明，Baichuan2-7B-Base 和 Baichuan2-13B-Base，在 MMLU、CMMLU、GSM8K 等几大权威评估基准中，以绝对优势领先 LLaMA2，相比其他同等参数量大模型，表现也十分亮眼，性能大幅度优于 LLaMA2 等同尺寸模型竞品。

事实证明，百川智能大模型也的确经得过考验。据官方数据，Baichuan 在开源社区总下载量已经超过 500 万次，月下载量达到 300 多万次。

光锥智能发现，百川智能系列模型在 Hugging Face 开源社区的最高下载量有 11 万多，在中外开源大模型中仍具有竞争力。

百川VS智谱，谁是中国的OpenAI？

（图源：Hugging Face 官网）

其开源之所以具有优势与其较强的兼容性也有关系，百川智能曾在公开场合介绍，其整个大模型底座结构更加接近 Meta 的 LLAMA 的结构，故而从开源设计上就对企业和厂商很友好。

" 开源之后，生态会围绕 LLaMA 去构建，在国外有很多开源项目是跟着 LLaMA 去推动的，这也是我们的结构为什么跟 LLaMA 更加接近。" 王小川道。

据光锥智能了解到，百川智能在架构设计上采用了热插拔 ( Hot-pluggable ) ，可支持百川模型与 LLAMA 模型、百川模型不同模块之间的随意切换，比如用 LLAMA 训练一个模型后，无需修改，就直接能把这个模型放到百川中使用。这也解释了现在多数互联网大厂使用百川模型，和云厂商引入百川系列模型的原因。

历史走过的路，既通向过去，也通向未来，王小川的大模型创业便是如此。

源于搜狗创始人的身份和搜索技术经验，创业初期，王小川获得了不少人这样的评价，" 小川，是最适合搞大模型的啊 "。

在搜索经验和框架中构建大模型成为了百川智能的底色。

百川智能技术联创陈炜鹏曾表示，搜索研发与大模型开发有许多类似之处，" 百川智能将搜索的经验快速迁移到大模型的研发中，这就类似一个 ' 造火箭 ' 系统化工程，将复杂的系统做拆解，通过过程评估来推动团队的协同，提升团队的效果 "。

王小川也在发布会现场谈道：" 因为百川智能之前有搜索基因，因此天然懂得如何从万亿网页中间去精选最好的页面，可以做到去重、反垃圾。在数据处理中，百川智能也借鉴了之前搜索的经验，能小时级完成千亿数据的清洗和去重工作 "。

其大模型搜索的内核在 Baichuan-53B 中展现得淋漓尽致。在处理大模型 " 幻觉 " 问题上，结合搜索技术沉淀，百川智能在信息获取、提升数据质量、搜索增强等方面做了优化。

百川VS智谱，谁是中国的OpenAI？

在提升数据质量上，百川智能的核心思路是 " 始终取优 "，以低质、优质为标准将数据进行分类，确保 Baichuan2-53B 始终使用优质数据进行预训练；在信息获取方面，Baichuan2-53B 对多个模块进行了升级，包括指令意图理解、智能搜索和结果增强等关键组件，通过深入理解用户指令，精确驱动查询词的搜索，最终结合大语言模型技术，优化模型结果生成的可靠性。

尽管以开源为始，但百川智能已经开始探索商业化路径。官方资料显示，百川智能的目标有两个方向，横向维度的目标是 " 构建中国最好的大模型底座 "，纵向维度的目标是在搜索、多模态、教育、医疗等领域增强。

如今的商业化，集中在了 Baichuan2-53B，官网显示，该模型的 API 调取采用了分时段收费标准。0:00-8:00 收费为 0.01 元 / 千 tokens，8:00-24:00 收费为 0.02 元 / 千 token，相比较之下，白天的收费价格要高于晚上。

百川VS智谱，谁是中国的OpenAI？

（图源：百川智能官网）

结尾

争论谁是中国的 OpenAI 这一问题，在大模型发展的早期没有太大的意义。智谱 AI、百川智能等诸多初创公司已经意识到盲目跟随 OpenAI 的脚步并不可取，例如智谱 AI 已经明确了 " 不做中国 GPT" 的技术路径。再者，在开源蔚然成风，正在形成包围之势的当下，OpenAI 的绝对技术优势地位似乎也并不是牢不可破。

智谱 AI、百川智能曾不约而同地提到，超级应用才是更广阔的市场，也是中国大模型企业的舒适区，不再停留原地，比如一位接近智谱 AI 人士曾向媒体爆料，智谱 AI 团队已经坚定 2B 路线，瞄准信创市场，并在 5 个月里，快速扩张团队，从 200 人增至 500 人，以为后续的 2B 业务储备人力。

而百川智能在商业化路径上，则选择了参照 Llama2 的开源生态，也已经开始小步迭代。

肉眼可见的是，仅半年时间，百川智能和智谱 AI 就已经走过了技术无人区，来到了面向产业落地的商业化阶段。对比 AI1.0 的创业热潮，技术打磨期长达 3 年（2016-2019 年），而正是由于在商业落地上受阻，才导致了一大批 AI 公司在 2022 年集体走向没落，倒在了黎明前。

吸取了上一阶段的教训，同时也源于大模型技术的通用性更便于落地，以百川智能和智谱 AI 为代表的创业公司，正养兵秣马，为下一阶段做好技术、产品和人才储备。

不过，场马拉松也才听到第一声枪响，言结果为时尚早。但至少对赛道的第一阶段分解已经完成，目标明确后，比拼的更是耐心和毅力。这一点，无论对于百川智能、智谱 AI 还是 OpenAI，都一样。

百川VS智谱，谁是中国的OpenAI？

百川VS智谱，谁是中国的OpenAI？

最受喜欢

曾被卖出19万美元高价！这台初代iPhone太猛了

苹果首次允许欧盟用户从网站安装应用/雷军称对汽车价格战做好准备/微博上线热搜投诉入口

在游戏里搞政治正确的幕后黑手，快被外国网友冲烂了。

苹果 MacBook 新专利获批：可录制3D 图像/视频、追踪空中手势

芯片代工营收排行榜公布：台积电独占六成，狂揽近200亿美元