跳转到主要内容
移动世界。

每年,我都会加入雅虎!梦幻足球联盟,这意味着在足球赛季的每个周二,我的球队的页面上会出现一个包含表现统计数据和彩色评论的总结。

“这是你十年来一直在思考的错误之一”,我的一份总结是关于我决定让狮队四分卫马特·斯塔福德首发而不是突袭机四分卫德里克·卡尔的。它还指出,“即使在德安德鲁·霍普金斯的帮助下,我也无法结束这场胜利,他得到了17.30分。”即使我赢了,重述也有点侮辱性,这很有趣。它包含了足够多的统计信息,在过去的两季中,我几乎每周都读它。最近,我发现自己在想是谁写了我的概要。

事实证明,更好的问题是什么写我的分享。

因为当我滚动到页面底部时,我看到了这条信息:“由Automated Insights提供动力,该公司是个性化内容的领先提供商。”所以我点击了这家公司的网站,在那里我了解到他们专门从事所谓的自然语言生成。这让我陷入了维基百科的兔子洞,在那里我学到了计算机程序,它可以挖掘数据集,然后把这些信息转换成听起来像人类写的句子。

而且,作为一名专业作家,我对做工作的电脑有复杂。所以我决定在自动洞察力的首席创新官员召集Joe Procopio,并通过这些感受来谈谈。我们的谈话实际上是令人振奋的。

作为一名作家,阅读《自然语言生成》让我非常焦虑,这可能是健康的。但这也让我很好奇。你能谈谈自然语言生成是如何在我心爱的雅虎环境下工作的吗?幻想分享吗?

对于像Yahoo!幻想重述,现实中的人不可能写出所有这些重述,不管你雇佣了多少作家,也不管你给了他们多少时间。我们在美国东部时间周二凌晨3点到6点之间获得了前一周的比赛数据,在大约3个小时内,我们就完成了当天所有的重述。我们每秒能写2000篇文章。

tumblr_inline_ne5prpjmih1sgly6u
Automated Insights的一个梦幻足球重述。自动洞察图像

这就是“自然语言生成”(Natural Language Generation)的由来,这是一个利用大数据创造类似人类的叙事的过程。在人类不能或不愿写作的地方,我们做得最好。

很早之前,我们就意识到我们最好的尝试并不是重述真正的NFL比赛,因为那些比赛已经足够重要,覆盖面也足够广了。新闻机构将派出记者或特约记者。但以我们为美联社(Associated Press)做的事情为例,我们报道所有的小联盟棒球比赛。有些游戏没有任何真人参与,但所有游戏都有数据,所有团队都有粉丝。所以我们可以得到长尾覆盖。

为了使实时游戏数据更加强大,更提供信息,我们将其与第三方数据相结合。它可以是地理本地或社交数据。它甚至可以是天气数据。并给予它更多的背景,我们试图尽可能地掌握尽可能多的历史数据。例如,我们的棒球数据一直返回到19世纪后期,所以我们可以谈论职业里程碑,特许经营里程碑,趋势等事情。人类对人类分析需要很长时间的事情。

在过去的12个月里,我们的重点是我们的新NLG产品,叫做Wordsmith。它只使用了我们在NLG引擎中使用的技术的一小部分,并向任何人开放,让他们使用自己的数据来创建自己的自动内容。人们自己创造了大量的数据,更不用说公司和组织了。Wordsmith将这些数据以一种易于理解的格式保存下来,即使是记者也可以用这种格式以一种具有成本效益和个性化的方式与他人分享。

我喜欢提及记者的这个想法。这就像共同选择敌人。

为什么说是敌人?因为我花了六年时间与这个流言作斗争。

这是一种玩笑。种。当我看到Automated Insights撰写我的幻想概要时,它让我想起了始于2008年和2009年的整个行业的焦虑,当时记者们对Demand Media的内容农场感到担忧。他们以极低的成本快速制作了大量低级内容。这就是我首先想到的。但我不认为NLG是相同的东西。虽然我喜欢好的数据新闻,但从Excel表格中筛选数据的想法对我个人来说并不令人兴奋。我不介意让“自动化洞察”来做这件事。

我们经常看到这种情况。想想美联社。当卢•费拉拉请我们做美联社的季度财务报告时,他毫不犹豫地让人们知道这是一篇由自动洞察公司(Automated Insights)制作的电脑生成的文章。事实上,他给automatic Insights的每一篇文章都加了分。

在自动洞察之前,AP能够覆盖大约400季度盈利新闻稿...与我们来说,它们能够覆盖4,500加。

在Automated Insights之前,每个季度,美联社能够覆盖大约400个季度盈利新闻稿,每个季度。有了我们,他们可以覆盖超过4500人,而这只受限于他们真正想覆盖的范围。这让楼继伟的记者们有了自由去做真正的新闻工作:在我们展示事实的同时,观察趋势、里程碑、变化,以及这些变化对股价的影响。我们做了所有这些计算,以便在数据发布后的6秒内,我们能够制作出500到1000字的季度发布摘要。然后美联社可以把这些信息传递给他们的分销合作伙伴,或者持有这些信息获取报价。或者他们的分销合作伙伴可以得到报价。他们可以研究新闻的艺术和科学,而我们可以从中学习数学。他不需要让任何人离开,他的团队会更有效率。

我们在商业智能方面也做得很好,我们不会真正威胁到任何人的工作,也许除了数据科学家,除了他们也会欣赏我们,因为这让他们有时间去假设,建立理论,并得出结论。

当我读到有关自动化和机器人的焦虑文章时,我注意到一件事,那就是零和思维。但是那些喜欢写作的人,或者认为他们不知道如何做其他事情的人,似乎忘记了他们也是信息的消费者。在我能够与我的读者分享任何东西之前,我必须先消费它并理解它。NLG似乎可以通知写作,而不是取代它。

我不认为有太多的人把写作作为他们唯一的技能。即使在新闻行业,写作也只是整个技能的一部分。这不是他们唯一的工作。也许如果你在写小说,这是你唯一做的事情,但即使这样,你做的创造性的事情,使你比别人更好。但是写作作为一种机械练习已经很长时间没有改变了。例如,对体育新闻构成威胁的事情,与广告销售暴跌有关。体育广播新闻的变化——这个领域的好莱坞化——与自动化无关。

当亨利·福特(Henry Ford)推出t型马车时,马车制造商们失去了理智。问题就变成了:你是想造一辆速度更快的马车,还是想开始了解这些汽车是如何工作的?

尽管如此,我确实理解自动化原理。就像70年代和80年代制造业和蓝领一样,白领和思考职业。这是发生了什么。当亨利·福特(Henry Ford)推出t型马车时,马车制造商们失去了理智。问题就变成了:你是想造一辆速度更快的马车,还是想开始了解这些汽车是如何工作的?

我认为越来越多的人开始投身其中。现在我们的口袋里都有电脑。现在不像10年前那么可怕了。

你提起诗歌和小说真有趣。如果一个作家处于写作技能层次的顶端,他们可能不会太担心底层被自动化所侵蚀。但我又想知道:NLG能讲好小说故事吗?

也许。但是诗人和小说作家可以松一口气,因为机器在这种创造力方面很糟糕,我不认为我会活到后悔说它们永远不会擅长这一点。

对我来说,有一个人元素进入写作的艺术方面,即机器无法复制。一旦电脑理解人类状况,那么我认为我们已经有更好的射门。但我们还没有在人工智能下,我们正在机器学习,这是AI的衍生。电脑不思考,而且我不确定他们会思考的方式。我也写。我写小说,我写下列,我不受这项技术的威胁​​。

当你想到…写作的艺术,你说的是创造力的无限可能,这是机器所不擅长的。

我认为机器真正擅长的是提供关于大量数据的信息。随着机器的进化,这些数据集越大,我们能从中得到的就越多。但如果你看看机器学习,你会发现机器擅长做一件利基的事情。如果你给他们不只一个任务,他们就会开始犹豫。当你想到写作时——不仅仅是造句的技巧——还有写作的艺术,你谈论的是创造力的无限可能性,这是机器所不擅长的。诚然,我们教会了我们的机器创造力,但这也是有限度的。当机器把你的草稿概要发给你的时候,它并不是在决定该有多刻薄。人类正在告诉它,基于这些数据是多么刻薄。

我使用Wordsmith (Automated Insight的即插即用内容创造者)所获得的内容与使用Automated Insight的NLG引擎为雅虎生成的内容之间似乎存在音调上的差异。如何解释这种差异?

我们想要创造一些普通人可以使用而无需花费六七位数的内容。

当我们做一些像《梦幻足球》的重述时,那是我们的作者在NLG中编写的代码。Wordsmith是一种更基于模板的方法。我们这样做是因为基于模板的方法更容易理解。理解分支并不需要太多,但就我们在NLG引擎中使用的代码而言,这需要理解机器学习概念和编程概念,这就消除了很大一部分人口。我们想要创造一些普通人可以使用而无需花费六七位数的内容。比如,他们一个月要做50次自动报告,或者产品描述或股票报告。基于模板的方法更有意义。

我们希望让Wordsmith更像我们的自然语言生成引擎,而不会成为用户的负担。所以我们使用机器学习来让Wordsmith能够暗示和预测用户想要交流的内容。最终,我们认为Wordsmith用户将拥有与我们使用NLG引擎创造内容时相同的内容创造能力。

NLG可能或应该在哪些地方没有被使用?

NLG在过去三年的一个有趣的发展是它不再是垂直特定的。我们刚开始的时候叫统计表,做大学篮球的统计。当我六年前加入时,我们开始做自动内容。在第一轮融资之后,我们改名为Automated Insights,并转向垂直不可知论。所以我们在更多地方看到了NLG的机会,但我们仍然只是触及皮毛。

当人们通过Wordsmith下载数据时,我们会问他们在哪个行业工作。我们得到了46个不同的答案。46个不同的行业已经发现了NLG的用途。金融,保险,银行,商业智能,个人健身,体育。它确实运行了你可能想不到的NLG能处理的所有事情。随着我们获得越来越多的数据,我们发现它无处不在。

我是个健身迷。告诉我那里有哪些机会。

如果使用RunKeeper,就会在运行时生成一行又一行数据。从你的速度,海拔,心跳,位置,所有这些都在你跑步时被记录下来。你现在已经从30分钟的跑步中得到了成千上万行的数据,你可以利用这些数据做很多事情,特别是当你把它与之前的跑步,你的年龄,你的人口统计,你的个人最好成绩进行比较时。如果我们使用第三方数据,我们可以生成关于你鞋子上的鞋面深度的报告。它是无限的可能性。

- 1024 x607 runkeeper6 - 0屏幕
NLG希望了解由runkeeper这样的应用程序产生的数据。通过runkeeper图像

告诉我这一切意味着什么现在不是任何人的工作,所以它不是真正取代一个人。

这是正确的。而且我有点震惊,没有健身追踪者制造商内置了一个内置的NLG解决方案。因为当我完成这是我做的第一件事 - 通过WordsMith运行我的锻炼并获取我的报告。和WordsMith用户可以这样做。他们可以通过电子邮件发送报告。现在,没有私人教练或数据科学家的信息,您无法收拾数字和分析性能并回复您的数据。这就是我们更具成本效益的事情。在任何一种情况下,我都不认为我们威胁他们的工作。

你是否认为数据的可视化表示和数据的书面解释之间存在一种张力,或者可能是一种平衡的需要?我之所以这么问,是因为我们似乎处在一个图表时代。有时这是以牺牲叙事分析为代价的。

我们为营销公司创建了报告......它每月报告写作的数百小时省份了它们。

这很重要。Google Analytics是一个很好的例子。它为您提供了大量的视觉信息和大量的数据,但并没有很多叙述解释您所看到的内容。我们为营销公司创建了报告,然后将这些公司转向客户,并将它们省略了数百小时报告写作。这是一个踏脚石,让每个人写自己的报道。这就是科学所在的地方。

随着数据变得越来越复杂,你必须有视觉表示的视觉表示。如果你看R,并绘制图表,人们能够分解他们的分析到这样一个地方的水平,那你就需要书面语言给你关于这些图表的背景。向右的颜色比例并不能真正解释它在更高的复杂级别上的价值。

想到谷歌Analytics仪表盘的复杂性,我不禁想知道,使用NLG来回答我没有想到要问的问题有哪些机会。

我们喜欢异常值和边缘情况。在数据科学的世界里,这些是很酷的事情发生的地方。我把一切都带回体育界,但当四分卫有七次触地得分的比赛时,这是一个特例。我们为异常时刻做准备,多亏了机器学习,我们的系统现在正在寻找这些异常时刻。我们,作为人,不需要预测。如果机器学习是正确的,它就会意识到发生了意想不到的事情。它可以,在一定的精确度范围内,暗示甚至预测它的意思或者是引起它的原因。这甚至不是NLG,这是数据科学。但是一旦我们可以做出这些算法预测,NLG就可以为读者解析。NLG可以告诉你:“这是发生了什么,这是它最后一次发生,这是它可能发生的原因。”

我很乐意看到这适用于NBA篮球。当玩家在游戏中获得六只或七个抢断时,我的第一件事之一就会在最后一次发生这种情况时抬头。

自从被一家私募股权公司收购后,我们就开始与STATS合作,其中一件让我们非常兴奋的事就是他们在SportVU上所做的事情,也就是在篮球场上安装六台摄像机来跟踪所有的球员和球的运动。该系统为每款游戏生成上百万行数据。它可以从球员由于脚踝受伤而减速的程度,到他们能否像之前那样突破到篮下。有多少进攻篮板被争夺?有多少次封盖导致失误而不是越界?所以你开始得到真正的与性能相关的统计数据因为这些精英的数据收集。

我们可以做很多其他有趣的东西。我们在这里玩很多ping-pong,我们做了这个哈帕奇宁,我们拍了一个专业地使用的相机来检测一个错误,我们将它挂钩到WordsMith。我们将所有这些都挂在亚历克萨,这是亚马逊的语音发射设备。然后,我们使用潜望镜与LiveStream一个具有彩色评论的Ping-Pong游戏,由Alexa提供的彩色评论,基于来自此摄像机的数据。这只是我们休息室中的两个员工,而且单词史密斯正在写统计数据,“当Ganesh在他的第一次服务时发现一个点时,他会在他的第二次服务于60%的时间。”

下一个

食物
机器人厨师可以帮助餐馆从COVID-19中恢复
机器人烹饪
食物
机器人厨师可以帮助餐馆从COVID-19中恢复
味噌机器人公司正以3万美元的价格推出Flippy ROAR,希望这款机器人厨师能帮助餐饮业从流感疫情中恢复过来。

味噌机器人公司正以3万美元的价格推出Flippy ROAR,希望这款机器人厨师能帮助餐饮业从流感疫情中恢复过来。

3 d打印技术
科学家3d在空间中打印人体组织
科学家3d在空间中打印人体组织
3 d打印技术
科学家3d在空间中打印人体组织
一种新的生物打印机被证明可以在太空中工作。研究人员证明,他们可以在国际空间站上3D打印出人体组织细胞。

一种新的生物打印机被证明可以在太空中工作。研究人员证明,他们可以在国际空间站上3D打印出人体组织细胞。

遗传学
基因书写:一种新型的基因工程
基因的写作
遗传学
基因书写:一种新型的基因工程
初创公司Tessera Therapeutics开发了基因书写技术,这是一种新的基因工程方法,该公司称该技术克服了CRISPR的缺点。

初创公司Tessera Therapeutics开发了基因书写技术,这是一种新的基因工程方法,该公司称该技术克服了CRISPR的缺点。

科技的未来
社会在GPS上运行。在被黑客被砍封时会发生什么?
罗兰
科技的未来
社会在GPS上运行。在被黑客被砍封时会发生什么?
GPS比你想象的要管用得多。它也比你想象的更脆弱。罗兰的老式无线电导航系统可以将GPS从灾难中拯救出来。

GPS比你想象的要管用得多。它也比你想象的更脆弱。罗兰的老式无线电导航系统可以将GPS从灾难中拯救出来。

健康
新的激光观察大脑来检测脑震荡
脑震荡测试
健康
新的激光观察大脑来检测脑震荡
研究人员正在尝试使用一种可以使用红外激光器测量大脑中CCO水平的设备来改善古老的脑震荡测试。

研究人员正在尝试使用一种可以使用红外激光器测量大脑中CCO水平的设备来改善古老的脑震荡测试。

起义
关于癌症纳米波的特别是什么?精确。
医用纳米机器人
起义
关于癌症纳米波的特别是什么?精确。
这些微小的机器人可以将药物直接运送到受感染的细胞,它们正在改变医学的未来。

这些微小的机器人可以将药物直接运送到受感染的细胞,它们正在改变医学的未来。

超人
这些手套可以教你弹钢琴。也许治愈你的大脑。
这些手套可以教你弹钢琴。也许治愈你的大脑。
现在看
超人
这些手套可以教你弹钢琴。也许治愈你的大脑。
通过“被动触觉学习”,这些手套可以在一小时内教你如何弹钢琴。四个小时后用布莱叶盲文。现在,研究人员想看看创伤性脑损伤的受害者是否可以使用这些手套重新学习关键技能。
现在看

佐治亚理工学院的研究人员Thad Starner和Caitlyn Seim发明了一副用于弹钢琴的手套,它可以在一个小时内神奇地让你加快速度。他们还在4小时内教会盲人阅读盲文,这一过程通常需要4个月。这种手套的工作过程被称为被动触觉学习,这是佐治亚理工学院研究人员的另一个重大发现。基本上,它们振动在…

科学
仿生假肢奖励截肢音乐家摇滚Encore
仿生假肢奖励截肢音乐家摇滚Encore
科学
仿生假肢奖励截肢音乐家摇滚Encore
如果你失去一只手臂,你的生活将会发生怎样的变化?在一场电力事故失去右臂后,杰森不是......
通过布雷克雪

如果你失去一只手臂,你的生活将会发生怎样的变化?在一次电击事故中失去右臂后,杰森不确定自己是否还能打鼓。