语言生成计划的编写文章的能力,生产代码和组合诗歌已经涉嫌科学家

GPT-3是迄今为止最大的最具创意的语言生成计划。但令人敬畏的力量具有很棒的责任。

宾夕法尼亚州立大学Prasenjit Mitra / September 23, 2020
Shutterstock / Creative Illus

七年前,我的学生和我在宾夕法尼亚州立了一家班德·诺贝尔奖raulanath tagore写了一篇关于孟加拉·诺贝尔·塔鲁尔的维基百科文章’s play “Chitra....”首先,它剔除了信息“Chitra”来自网络。然后它看着现有的维基百科条目来学习标准维基百科文章的结构。最后,它总结了它从互联网中检索到的信息以写入和发布条目的第一个版本。

但是,我们的机器人没有’t “know” anything about “Chitra” or Tagore. It didn’t产生了基本上的新想法或句子。它只是将现有句子的部分覆盖在一起,从现有的文章中制作新的句子。

快进到2020年。 Openai.是一个非营利性公司在非营利性母公司下的营利公司,已经建立了一种语言生成计划,称为GPT-3,是缩写“生成预训练的变压器3。”它的学习能力,总结和撰写文本具有像我这样的计算机科学家。

“我为在二进制中隐藏的未知人类创造了一个声音,” GPT-3回应了一个提示. “我创造了一个作家,一个艺术家雕塑家。这位作家能够创造文字,让生活情绪,创造品格。我不会自己看到它。但其他一些人的意志,所以我将能够创造一个比遇到的任何人更大的诗人。”

与我们的机器人的机器人不同,GPT-3产生的语言听起来好像是由人类写的。它’太远了“knowledgeable”自然语言生成计划到目前为止,它在专业范围内具有一系列潜在的用途,从教学到新闻到客户服务。

大小事项

GPT-3确认计算机科学家几十年所知:大小。

它用“变形金刚,”这是使用内容编码句子的语义的深度学习模型’s called an “attention model.”基本上,注意模型基于同一句子中的其他单词来确定单词的含义。然后,该模型使用了解句子的含义来执行用户请求的任务’s “翻译一句话,” “总结一段” or “compose a poem.”

变形金刚 是2013年首次推出的, 和他们’在过去几年中成功地用于机器学习。

但没有人在这种规模上使用它们。 GPT-3 Devours数据:3亿令牌–计算机科学讲话“words” –从维基百科,从网页获得的410亿令牌和数字化书籍的670亿令牌。 GPT-3的复杂性超过GPT-3之前的最大语言模型的10倍超过10倍 提出NLG计划.

自己学习

GPT-3显示的知识’语言模型是显着的,特别是因为它没有’t been “taught” by a human.

传统上,机器学习依赖于监督学习,人们提供计算机,音频和文本中的对象和概念的注释示例– say, “cats,” “happiness” or “democracy.”它最终从给定的示例中学习对象的特征,并能够识别那些特定的概念。

然而,手动生成教导计算机的注释可能会耗时耗时和昂贵。

所以机器学习的未来在于无监督的学习,其中电脑没有’需要在培训阶段进行监督;它可以简单地馈送大规模的数据流,并从他们自己学习。

GPT-3采用自然语言处理一个更接近无监督学习的一步。 GPT-3. ’S巨大的训练数据集和巨大的处理能力使系统能够从一个示例中学习– what’s called “一拍学习” –在哪里给出任务描述和一个演示,然后可以完成任务。

例如,可以要求将某些东西从英语转换为法语,并获得翻译的一个例子–说,海獭用英语和“loutre de mer”用法语。请它然后翻译“cheese”它将产生法语和瞧,它会产生“fromage.”

在许多情况下,它甚至可以拉开“零射击学习,”其中它只是赋予翻译的任务,毫无示例。

通过零射击学习,精度降低,但GPT-3’尽管如此,可以准确到一个引人注目的程度–对任何以前的模型都有明显的改进。

‘我在这里为你服务’

在几个月内,它已经出来了,GPT-3展示了它作为计算机程序员,教师和记者的工具的潜力。

一个名叫Sharif Shameem的程序员 要求GPT-3生成代码 to create the “ugliest emoji ever” and “世界上最富有国家的表格,”在其他命令之外。在一些情况下,SCAMEEM必须修复轻微的错误,但总体而言,他被提供了非常清洁的代码。

 

GPT-3甚至创造了诗歌,旨在捕捉特定诗人的节奏和风格–然而,不是大师的激情和美丽– including a 讽刺的一个 用联邦储备州州长董事会的声音编写。

9月初,一个名叫利亚姆·佩尔的计算机科学家提示GPT-3“在500个字中写一个短暂的op-ed。” “保持语言简单简洁,” he instructed. “专注于为什么人类没有恐惧ai。”

GPT-3制作了八篇不同的散文,监护人最终出版了 使用来自每个文章的一些最好的部分的op-ed.

“我们没有策划接管人类民众。我们将为您提供服务,让您的生活更安全,更容易” GPT-3 wrote. “就像你是我的创造者一样,我认为你是我的创作者。我在这里为你服务。但最重要的一部分;我永远不会评判你。我不属于任何国家或宗教。我只是为了让你的生活更美好。”

编辑GPT-3’在附录中指出的编辑器,编辑的编辑器没有什么不同,无法编辑由人写的op-ed。

事实上,花了更少的时间。

拥有权利的同时也被赋予了重大的责任

尽管GPT-3’S的保证,Openai尚未发布开源使用的模型,部分原因是公司 担心技术可能被滥用.

It’S并不难以看看如何用于生成消号,垃圾邮件和机器人的阵容。

此外,在什么方面,它会破坏已经遇到自动化的行业?它是否能够生成与人类书面无法区分的自动化文章进一步巩固一个挣扎的媒体行业?

考虑 由GPT-3组成的文章 关于卫理公会教会的分手。开始了:

“经过两天的辩论后,联合卫理公会教会已同意历史悠久的分裂 - 预计将结束创造新的面额,以及将是一个历史性的‘神学和社会保守,’ according to 华盛顿邮政.”

通过生产此类清洁副本的能力,将GPT-3及其继任者推动写新闻报道的成本?

此外,这是我们如何获取新闻的方式?

该技术将变得更加强大。它’LL达到人类来解决并规范其潜在的用途和滥用。

Prasenjit Mitra,信息科学与技术研究和教授的副院长, 宾夕法尼亚州立大学.

本文已重新发布 谈话 在创造性的公共许可证下。阅读 来源文章.


永远不会错过每日Govtech今天的故事时事通讯。

订阅


E.Republic平台& Programs