研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

首页 热门新闻 最新资讯

研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

热搜大全 2024-02-04

IT 之家 2 月 4 日消息,亚马逊云计算人工智能实验室的研究人员发现,网络上大量内容来自机器翻译 ( MT ) 生成,这些跨越多种语言的翻译内容质量普遍较低。研究团队强调,这凸显了在训练大型语言模型 ( LLM ) 时,数据质量和来源考量的重要性。

研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

图源 Pexels

研究还发现,机器生成内容在资源较少语言的翻译中很普遍,并占网络内容的很大一部分。

IT 之家注意到,研究团队开发了名为多维 cc 矩阵 ( MWccMatrix ) 的庞大资源,以更好地理解机器翻译内容的特征。该资源包含 90 种语言中 64 亿个独特的句子,并包括翻译元组,即相互翻译的一组句子。

这项研究发现大量网络内容通常被翻译成多种语言,主要通过机器翻译完成。这种内容不仅在资源较少语言的翻译中普遍存在,而且在这些语言的所有网络内容中也占很大一部分。

研究人员还注意到,出于广告收入等目的,被翻译成多种语言的内容存在选择性偏差。

论文的结论是:" 机器翻译技术在过去十年里取得了显著进步,但仍达不到人类质量水平。多年来,使用当时可用的机器翻译系统将机器翻译内容添加到网络上,因此网络上大部分机器翻译内容按照现代标准可能质量很低。这可能会导致 LLM 模型产生更多‘幻觉’ ,而选择偏差表明即使不考虑机器翻译错误,数据质量也可能较低。数据质量对于 LLM 训练至关重要,其中高质量的语料库,如书籍和维基百科文章,通常会进行多次向上采样。"

最受喜欢

陷阱 语言 数据 网络 模型 热点 本地 社区 美图 视频 直播 资讯

曾被卖出19万美元高价!这台初代iPhone太猛了

曾被卖出19万美元高价!这台初代iPhone太猛了

科技热搜 iphone 智能手机 乔布斯 本初 谷歌 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

苹果首次允许欧盟用户从网站安装应用/雷军称对汽车价格战做好准备/微博上线热搜投诉入口

苹果首次允许欧盟用户从网站安装应用/雷军称对汽车价格战做好准备/微博上线热搜投诉入口

科技热搜 微软 机器人 小米 马斯克 欧盟 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

在游戏里搞政治正确的幕后黑手,快被外国网友冲烂了。

在游戏里搞政治正确的幕后黑手,快被外国网友冲烂了。

科技热搜 战神 steam 自杀小队 安德森 ceo 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

苹果 MacBook 新专利获批:可录制3D 图像/视频、追踪空中手势

苹果 MacBook 新专利获批:可录制3D 图像/视频、追踪空中手势

科技热搜 it之家 macbook 专利 传感器 苹果公司 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

芯片代工营收排行榜公布:台积电独占六成,狂揽近200亿美元

芯片代工营收排行榜公布:台积电独占六成,狂揽近200亿美元

科技热搜 台积电 三星 芯片 高通 半导体 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13