三位清华少年交卷,支持20万字输入“长文本”大模型

首页 热门新闻 最新资讯

三位清华少年交卷,支持20万字输入“长文本”大模型

热搜大全 2023-10-17

三位清华少年交卷,支持20万字输入“长文本”大模型

图片来源:视觉中国

翻看本轮大模型创业者的名单," 清华系 " 占据半壁江山。

清华东门外的搜狐网络大厦,二层是王小川的百川智能,七层到十一层是来自清华知识工程研究室(KEG)的智谱 AI。距离这里不远的地方,是聆心智能、深言科技与澜舟科技等明星创业公司。

这一次又是清华系。

近日,三位清华系创业者发布了一款支持 20 万字输入的 " 长文本 " 大模型 Kimi Chat,这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度。

相较于 Anthropic 的 Claude-100k 模型支持约 8 万字,OpenAI 的 GPT-4-32k 支持约 2.5 万字,Kimi Chat 分别是他们的 2.5 倍和 8 倍。

同时,Kimi Chat 通过创新的网络结构和工程优化,在千亿参数下实现了无损的长程注意力机制,但不依赖于滑动窗口、降采样、小模型等常见的对性能损害较大的 " 捷径 " 方案。

三位清华少年,融资超 20 亿

2023 年 3 月,杨植麟、周昕宇、吴育昕三位清华出身的少年,创立了通用人工智能(AGI)公司 " 月之暗面 "(英文名 MoonShot AI)。Moonshot 的名字,源自于他们最喜欢英国著名摇滚乐队 Pink Floyd 的专辑《Dark Side of the Moon》。

在创始人杨植麟看来,做大模型如同登月工程一样," 月之暗面 " 意味着神秘,令人好奇和向往,同时又极具挑战难度。

相较于王小川、周明这些大模型创业 " 老炮儿 " 而言,杨植麟在公众中的知名度稍逊,但是在 AI 圈和创投圈眼中,他的能力并不逊色。

杨植麟是典型的学院派创业者,根据机器之心此前的报道,2015 年从清华计算机系毕业后,前往美国卡内基梅隆大学攻读博士,师从苹果 AI 研究负责人 Ruslan Salakhutdinov 和谷歌首席科学家 William Cohen。

博士期间,不仅与图灵奖得主、深度学习三巨头之一 Yoshua Bengio 合作发布 " 火锅问答 " 数据集 HotpotQA。还先后以一作身份,发表 Transformer-XL 和 XLNet 两项工作,谷歌学术被引次数近两万。Transformer-XL 成为首个全面超越 RNN 的注意力语言模型,论文成为 NeurIPS 2019 与 ACL 2019 的最高引论文之一;XLNet 则在 20 项任务上超越谷歌 BERT 模型。

砺思资本创始合伙人曹曦表示," 杨植麟是全球大模型领域里最被认可的华人技术专家,其团队在人工智能技术,特别是大语言模型 LLM 领域拥有深厚的技术积累,并已在国际上获得了广泛认可。"

团队方面,MoonShot AI 的联合创始人周昕宇负责算法,同样是清华计算机系学生,毕业后加入旷世,与旷视研究院基础科研负责人、ResNet 作者之一张祥雨一道,研究移动端模型,以共同一作的身份撰写 ShuffleNet 论文,被 CVPR 接受。

另一位联合创始人吴育昕和杨植麟一样,毕业于清华和 CMU,研究方向为计算机视觉中的检测和识别问题。曾就职于 Meta,与 AI 大神何恺明共同提出组归一化(GN)的方法,并创建了 detectron2,这是 Meta 最受欢迎的 AI 项目之一。

此外,团队中非常多的成员有训练超大模型的经验,包括参与了 Google 的下一代多模态模型 Gemini 的核心开发;在 Google 训练大几千亿参数的经验;也包括国内最早的大模型悟道、盘古的原班人马。

还有成员参与开发过一些世界上非常领先的技术,这些技术在很多大家耳熟能详的模型或产品里得到了使用,比如像 Stable Diffusion 里面有一个非常关键的模块,叫 group normalization,是 MoonShot AI 团队的成员作为第一作者开发的。

不光是技术人才,产品方面,也吸纳了非常出色的一些人,包括有过几亿 DAU 的产品经验,很多有从 0 到 1 产品经验的天才加入。

" 我们希望通过这种很高的人才密度以及组织力量,能够打造一个很快迭代的组织机器,让人才能够快速基于我们现有和未来发展出的技术,开发出比较好的产品。" 杨植麟向钛媒体表示。

Moonshot AI 成立以来,累计已经获得近 20 亿元融资,投资方包括红杉资本、今日资本、砺思资本等知名投资机构,估值超过 3 亿美元。

20 万字 " 长文本 ",闭源模型

" 长文本技术是大模型‘登月计划’的第一步。" 杨植麟表示。

大模型应用效果通常取决于两个核心指标,一是模型参数量,决定了大模型的 " 计算 " 能力;二是能够接收多少文本输入,即长文本技术,决定了大模型的 " 内存 " 能力。 Moonshot AI 在千亿参数模型的基础上,重点突破了长文本技术的挑战。

" 目前市场面上对于长文本技术路线,几乎都是在牺牲一部分性能前提下的‘捷径’。" 在杨植麟看来,他总结了三类不同的开发路径:

" 金鱼 " 模型,容易 " 健忘 "。通过滑动窗口等方式主动抛弃上文,只保留对最新输入的注意力机制。模型无法对全文进行完整理解,无法处理跨文档的比较和长文本的综合理解。例如,无法从一篇 10 万字的用户访谈录音转写中提取最有价值的 10 个观点。

" 蜜蜂 " 模型,只关注局部,忽略整体。通过对上下文的降采样或者 RAG(检索增强的生成),只保留对部分输入的注意力机制。模型同样无法对全文进行完整理解。例如,无法从 50 个简历中对候选人的画像进行归纳和总结。

" 蝌蚪 " 模型,模型能力尚未发育完整。通过减少参数量(例如减少到百亿参数)来提升上下文长度,这种方法会降低模型本身的能力,虽然能支持更长上下文,但是大量任务无法胜任。

杨植麟认为,简单的捷径无法达到理想的产品化效果。因此,Moonshot AI 的技术路线,就是不走捷径,踏实地解决算法与工程的双重挑战,在算力、存储、带宽等技术层面做了极致的优化。

Moonshot AI 专注 ToC ,现在最高优先级的任务是在 C 端找到产品、技术以及市场的方向。比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等。

杨植麟展示了在不同场景下 Kimi Chat 的长文本能力。比如,提炼重点信息的能力,上传一本《月亮与六便士》作品的内容,梳理作品重点内容,并绘制人物和人物命运的表格。

三位清华少年交卷,支持20万字输入“长文本”大模型

上传财报 pdf 文档后,可以汇总关键信息:

三位清华少年交卷,支持20万字输入“长文本”大模型

发现新的算法论文时,根据论文复现代码:

三位清华少年交卷,支持20万字输入“长文本”大模型

上传多张发票信息后,自动将发票绘制成表格:

三位清华少年交卷,支持20万字输入“长文本”大模型

无需粘贴文本,只需要一串网址就可以解析一篇文章的重点信息:

三位清华少年交卷,支持20万字输入“长文本”大模型

只需要一个网址,就可以和自己喜欢的原神角色聊天:

三位清华少年交卷,支持20万字输入“长文本”大模型

" 目前 Moonshot AI 是闭源开发。" 在杨植麟看来,像 OpenAI 一样的闭源是通往 Super APP(超级应用)的唯一通路,而开源只是 ToB 的获客手段,凡要做 C 端超级 APP 的,都是闭源。

杨植麟认为,大模型未来会分为 ToB 和 ToC 两个不同的阵营,他会坚定的走在 ToC 阵营,ToC 会有头部的。 Super APP 出现,这些 Super APP 一定是基于自研的模型做出来的,因为需要在用户体验上能够有差异化,我是希望能在 Super APP 里面去占领一个比较好的位置。

杨植麟并未透露很多细节,但表示最终考验的是技术上能否做到领先,产品上能否快速找到市场 PMF,这还是一个巨大的空白市场。(本文首发钛媒体 App,作者 | 郭虹妘,编辑|陶天宇)

最受喜欢

kimi 清华 创业者 创始人 ai 热点 本地 社区 美图 视频 直播 资讯

曾被卖出19万美元高价!这台初代iPhone太猛了

曾被卖出19万美元高价!这台初代iPhone太猛了

科技热搜 iphone 智能手机 乔布斯 本初 谷歌 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

苹果首次允许欧盟用户从网站安装应用/雷军称对汽车价格战做好准备/微博上线热搜投诉入口

苹果首次允许欧盟用户从网站安装应用/雷军称对汽车价格战做好准备/微博上线热搜投诉入口

科技热搜 微软 机器人 小米 马斯克 欧盟 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

在游戏里搞政治正确的幕后黑手,快被外国网友冲烂了。

在游戏里搞政治正确的幕后黑手,快被外国网友冲烂了。

科技热搜 战神 steam 自杀小队 安德森 ceo 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

苹果 MacBook 新专利获批:可录制3D 图像/视频、追踪空中手势

苹果 MacBook 新专利获批:可录制3D 图像/视频、追踪空中手势

科技热搜 it之家 macbook 专利 传感器 苹果公司 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

芯片代工营收排行榜公布:台积电独占六成,狂揽近200亿美元

芯片代工营收排行榜公布:台积电独占六成,狂揽近200亿美元

科技热搜 台积电 三星 芯片 高通 半导体 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13