牛津大学研究表明,AI领域的成本差异已导致中文培训费用是英语的2倍。

首页 热门新闻 最新资讯

牛津大学研究表明,AI领域的成本差异已导致中文培训费用是英语的2倍。

热搜大全 2023-07-31

根据牛津大学的一项研究,大型语言模型(LLM)的计费方式表明,与其他语言相比,英语的输入和输出要便宜得多。这项研究对多种语言模型进行了比较,发现英语的使用费用较低。这一发现可能会对各个领域的语言处理产生重大影响,特别是在机器翻译、虚拟助手和语音识别等方面。这项研究表明,英语在大型语言模型领域占据了更具竞争力的地位,这可能会促使更多的企业和个人选择英语作为输入输出语言。然而,这一结果也引发了一些讨论,一些人认为这将导致英语在全球语言多样性中的主导地位进一步加强,有可能排挤其他语言的发展。无论如何,这项研究提供了一个新的视角,对于评估大型语言模型的成本和盈利能力具有重要意义。

成本差异铸成AI鸿沟?牛津:汉语训练费用是英语的2倍

②简体中文的训练费用约是英语的 2 倍,而缅甸掸语的费用为 15 倍;

③语言的成本差异导致英语使用者和其他语言使用者之间形成 AI 鸿沟。

财联社 7 月 31 日讯(编辑 周子意)如今的大型语言模型(LLM)可以理解世界上很多语言,甚至是一些记载较少的语言。不过,大模型处理不同语言之间时,其性能上存在很大的差异,这是由于模型成本与其所训练的语言紧密挂钩。

牛津大学最近进行的一项研究表明,从诸多语言模型的计费方式看,英语的输入和输出比其他语言的输入和输出要便宜得多。例如,西班牙语的成本约为英语的 1.5 倍,简体中文的价格约为 2 倍以上,缅甸掸语在 15 倍以上。

成本的差异也间接导致英语使用者和世界其他语言使用者之间形成 AI 鸿沟。

成本差异主要是因数据标记化所带来的。标记化就是将训练文本分解成更小的单元,这个更小的单元就是标记(Token)。这是一个人工智能(AI)公司将用户输入转换为计算成本的过程。

研究显示,使用英语以外的语言访问和训练模型的成本都更高。例如中文,无论是在语法上还是在字符数量上,都有更复杂的结构,从而导致更高的标记化(Token)率。

举例来看,基于 OpenAI 公司的 GPT2 模型,对于 " 国家不同,所得税的结构是不同的,税率和税率等级也有很大的差异 " 这句话的处理来看,在简体中文处理中运用到了 66 个 Token,在英语处理中仅用到了 24 个 Token,而在禅语处理中使用到了 468 个 Token。

就每次输出所需的费用而言,汉语的成本是英语的两倍。所以在 AI 相关的费用中,英语的成本效益是最高的。

当涉及到语言模型时,设计者的主要目标是实现低成本和高效功能之间的平衡。随着 AI 领域的不断发展,科技公司必须仔细考虑语言选择对成本和可访问性的影响。

这种成本差异促使中国、印度等国家纷纷开发自己的母语 LLM 项目。

最受喜欢

牛津大学 英语 财联社 ai 人工智能 热点 本地 社区 美图 视频 直播 资讯

曾被卖出19万美元高价!这台初代iPhone太猛了

曾被卖出19万美元高价!这台初代iPhone太猛了

科技热搜 iphone 智能手机 乔布斯 本初 谷歌 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

苹果首次允许欧盟用户从网站安装应用/雷军称对汽车价格战做好准备/微博上线热搜投诉入口

苹果首次允许欧盟用户从网站安装应用/雷军称对汽车价格战做好准备/微博上线热搜投诉入口

科技热搜 微软 机器人 小米 马斯克 欧盟 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

在游戏里搞政治正确的幕后黑手,快被外国网友冲烂了。

在游戏里搞政治正确的幕后黑手,快被外国网友冲烂了。

科技热搜 战神 steam 自杀小队 安德森 ceo 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

苹果 MacBook 新专利获批:可录制3D 图像/视频、追踪空中手势

苹果 MacBook 新专利获批:可录制3D 图像/视频、追踪空中手势

科技热搜 it之家 macbook 专利 传感器 苹果公司 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

芯片代工营收排行榜公布:台积电独占六成,狂揽近200亿美元

芯片代工营收排行榜公布:台积电独占六成,狂揽近200亿美元

科技热搜 台积电 三星 芯片 高通 半导体 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13