如何制作半自动化新闻?摩登平台流程全公开

半自动化新闻如何给读者带来更多切身本地新闻?本期全媒派(ID:quanmeipai)为您带来BBC新闻实验室工作人员罗奥·赫顿对“自动化生产新闻”项目Salco的一些介绍。

BBC每天通过电视、地方电台和网络为数百万人带来记者所驻地的新闻。为了让付费读者的钱不白花,记者报道与读者相关的新闻显得无比重要,而相关往往意味着新闻本地化。BBC如何才能报道更多这样的报道故事?“自动化生产”或许是他们探寻的新出路。

挑战

社交媒体兴起后,人们对所在地正在发生的事情了解开始更为深入,人们期望媒体应该做到让本地新闻可以频繁被报道及保证其内容的特殊性。众所周知,本地电台和报纸囿于满足“新受众”的期望,维护本地新闻已成为行业内艰难的一大挑战。在资源有限的环境下,如何才能满足受众对优质内容的期待?

BBC新闻实验室希望在不大幅增加工作量的情况下,为本地读者带来内容丰富、数据支撑的报道故事。过去几个月里,BBC新闻实验室和BBC英语地区的同事们一起进行了一个名为Salco(Semi-Automated Local Content半自动生产本地内容)的实验项目。罗奥和同事塔思明·格林开发了一个每个月可以生成100多个独特的报道故事生产渠道。读者每天看本地新闻时,可以在直播页面上了解本地医院的急诊情况。这是BBC报道新闻的一种新方式,也是BBC新闻实验室目前与编辑部的最佳灵活合作。

BBC并不是第一个采用自动化新闻生产的新闻机构。过去15年来,美联社一直在根据季度收益报告生产新闻;地震几分钟后,《洛杉矶时报》的地震机器人(QuakeBot)就会对之进行报道;英国报业协会(Press Association)的雷达(RADAR)一直在为英国地方媒体提供数以千计的数据新闻报道。BBC深思熟虑后,Salco只是其对自动化新闻生产实验的第一步。他们已经从行业先驱们所做的事情中受益。然而,BBC报道方法略有不同,因为他们生成丰富的图表报道,并通过BBC拿手的在线本地新闻将报道呈现给相关受众。

为了实现这一目标,内容编辑和技术创新的工作人员进行了考究的合作,并提出了一些困难但有趣的问题:

BBC接受自动新闻编辑吗?

记者和编辑们会乐意发表不是他们自己写的文章吗?

读者会乐意阅读机器生产的报道吗?

技术角度看,这是一种完全不同的报道筹备方式:在仍然存有编辑们希望的新闻监督的同时,如何整合BBC现有的出版系统?

Salco简介

Salco将数据处理、报道生产和编辑批准合并为一个简单的“单击”过程。该过程首先先收集原始数据,并根据记者设计的模板自动生成丰富的本地报道故事。然而,这种简单性掩盖了由五部分组成的复杂步骤:

1.处理从NHS(National Health System国家医疗体系)获得的数据,提取BBC感兴趣的部分;

2.根据记者编好的模板为每个NHS信托机构编写稿件;

3.为每篇稿件生成图表,以BBC的方式总结数据;

4.预览每一篇报道,以便记者能够核实和批准;

5.将每个报道故事发布到适当的位置及主题页面。

数据处理

英国国家医疗体系NHS每月都会发布一系列数据,公布医疗服务运行情况。BBC对这些数据的利用也给NHS追踪系统提供了动力,该系统允许读者将本地NHS信托基金业绩与全国其他地区进行比较。

BBC新闻实验室在负责视觉新闻的朋友帮助下,完成了摩登平台脚本撰写。这个系统每个月会下载并处理跟踪器的数据。下载多年历史业绩数据,系统还会解释了每个国家的卫生服务如何构建其数据及其设定目标的不同。在解释后,可以呈现出像这样的分析:

庞大的数据,比如病人在4小时内就诊的百分比

基于历史数据的附加分析,例如最后一次达到目标的月份

跨数据集的比较分析,例如信托基金的级别

来自其他数据源的上下文编辑,如本地医院的口头名字

BBC构建这些脚本后,并对它们进行了修改,使它们能够在BBC的云基础设施中运行,并专注于英国的急救数据。脚本可以连接NHS提供的原始数据,从而形成数据集,以及再加上修改后的报道最终版被称为报道模型。它不是单纯地用数字来呈现,而是还包含了解释自然语言后的数据内容,比如会以“131家信托基金中的35家”和“自2017年成立以来未达到预期目标的信托基金”可以直接嵌入稿件中的数据呈现。

在这个过程结束时,会形成一个数据集,其中每一行都代表着一篇潜在的稿子,而每一列代表着记者可能需要利用的完整语境。这个数据集存储在“Amazon S3 桶”(Amazon S3 bucket )中,下一阶段将会用到这部分。

稿件生产

自动将数据转换为文章称为自然语言生成(naturallanguage generation ——NLG)。在这个部分中,BBC新闻实验室使用Arria NLG Studio,这个三方工具允许记者生成将数据转换为新闻文章所需的复杂模板,然后在样本数据上试用这些模板,对比不同的形成报道阅读效果如何。这是一个逐渐更替的过程。在这个过程中,记者可以看到如何通过优化模板来改进文本。

与传统的报道写作不同,记者不是写写某一天他们面前的数据就好,他们还要预测数据中可能出现的结果。例如:

一家NHS信托数年来首次达到目标;

一家保持着无懈可击记录的医院;

冬季流感爆发后业绩的突然下降。

这项任务特别难,需要记者的创造力来搭建丰富的模板,其中的空白不只是用简单的数字和报道故事模型中的百分比来填补。BBC新闻实验室和BBC英语地区数字团队的同事一起在英格兰东部工作实验,研究了BBC以前关于急救业绩的文章,确定可重复结构和用于讲述此类报道故事的叙事线索。在此基础上,他们发现了一些新表述,并进一步充实了模板。

处理后的报道模型从S3桶中下载,并传递给Arria的应用程序界面。Arria使用此模板为数据中的每一行生成一篇稿件。生成的报道故事然后通过Amazon的关系数据库服务(RDS)写入MySQL数据库,随后显示在BBC的编辑仪表板中。

图表生产

深度工具包(In-Depth Toolkit——IDT)是BBC为新闻报道添加数据可视化和其他图形的工具。通常情况下,记者会根据特定的报道需要单独准备图表,但显然,如果要生成数百个报道故事,这种方法就不奏效了。BBC新闻实验室与维护IDT的数据呈现团队合作,创建了一个系统。该系统可以填充一个描述“数据图片”的图片模板,从而强调报道中的重要数据。当最终的报道故事发布时,这将被呈现为一个图像。罗奥表示,这个令人振奋的开发表明了IDT现有的基础设施可以用这种新颖的方式自动生成图形模板。

每篇报道都会有属于自己的JSON呈现(JavaScript Object Notation)。为了增加多样性,BBC实验室还将库存照片添加到图表中。他们还编写了程序来验证图形是否可信有效,并将其存储在IDT的基础设施中,从而形成一个惟一的标识符,这样BBC实验团队就可以将这个图形嵌入到最终的报道中。