开云-《自然》封面：以AI生成数据训练AI，模型变傻？—新闻

开云-《自然》封面：以AI生成数据训练AI，模型变傻？—新闻—科学网

发布日期：2024-08-24 作者：开云

年夜模子有很多“崩”的时辰，但有一种解体叫做“自毁出息”——

近日，《天然》颁发在封面的一篇论文指出，用AI生成的数据集练习将来几代机械进修模子，可能会“污染”它们的输出。这项由英国牛津年夜学、剑桥年夜学、帝国理工学院、加拿年夜多伦多年夜学等多所高校结合展开的研究显示，原始内容会在数代内酿成不相干的“胡说八道”，彰显出利用靠得住数据练习AI模开云体育app子的主要性。

该论文被放在《天然》封面介绍，配图为“Garbage Out”（垃圾出）。图源：Nature

研究团队给出一个例子。他们测试了Meta的OPT-125m模子，扣问了关在中世纪建筑的相干信息，而且每次微调都是由上一次生成的数据来练习。成果，前面几轮的回覆还算过关，但跟着生成内容的迭代，模子逐步语无伦次；到第九次，模子竟然最先“乱说八道”，回覆从会商建筑跳跃到一串“野兔”的名字……

该论文首要作者暗示，他们曾斟酌过合成数据可能对年夜模子造成误差，但不曾预感到模子的恶化速度会如斯敏捷。

对此，研究团队专门界说了“模子解体”：模子解体是一个退化进程，模子生成的内容会污染下一代的练习数据集。而在被污染的数据上练习以后，新一代模子就轻易曲解实际。同时，研究团队还阐发了致使年夜模子同原始模子产生偏离的三个误差缘由。

颠末理论阐发，研究人员指出，对利用前几代生成的练习数据集的AI模子来讲，模子解体仿佛是一个不成避免的终局。作者团队认为，用AI生成数据练习一个模子并不是不成能，但必需对数据进行严酷过滤。与此同时，依靠人类生成内容的科技公司也许能比竞争敌手练习出更高效的AI模子。

这一研究给AI练习敲响了警钟。当下，年夜说话模子等生成式AI东西愈来愈受接待，这些模子东西首要利用人类生成的数据进行练习。但是，跟着这些AI模子东西被年夜量利用，它们生成的内容会逐步充溢在互联网，将来计较机生成内容可能会以递归轮回的情势被用在练习其他AI模子或其本身。

不外，也有业内助士认为，这项研究的逻辑有些问题，究竟“练习一个掉败的模子要比练习成功一个模子要轻易很多”。该不雅点指出，练习AI模子进程中除对数据的选择以外，还强化进修、模子精调等需要方式；即使是利用AI合成数据，根基上也都有各类生成体例的设计和严酷的挑选。

“要练习好AI不轻易，但要让它解体，那我有一万种法子。”该不雅点指出。

无独有偶，美国斯坦福年夜学也有人工智能研究人员颁发论文中研究了模子解体的问题。在这项工作的研究者看来，将合成数据添加到实际世界数据中而不是替代它，其实不会引发任何重年夜问题。但该作者弥补道：“所有关在模子解体的研究都得出一个结论，那就是高质量且多样化的练习数据相当主要。”

相干论文信息：

https://www.nature.com/articles/s41586-024-07566-y

18755199984/0551-82601881

( 服务咨询热线 )