我要预约 支付方式 新浪微博 4006569527 联系方式
您的位置:主页 > 最新动态 >
最新动态

纽约时报借助谷歌云数字化500万+老照片 留住悠悠旧时光_TOM财经

作者:dede58.com 来源:dede58.com 日期:2018-11-15 15:34 人气:
导读:
谷歌云已经与《纽约时报》合作,帮助《纽约时报》数字化他们庞大的照片收藏。它利用了谷歌云平台内的众多工具

 

(photo:Geogle Cloud)

谷歌云已经与《纽约时报》合作,帮助《纽约时报》数字化他们庞大的照片收藏。它利用了谷歌云平台内的众多工具,这个平台允许它们安全地存储图像,为它们提供更好的查找照片界面,甚至可以从锁定在图像背景的数据中发现新的见解。

100多年来,《纽约时报》已经在数百个文件柜中存档了大约500万到700万张旧照片,这些文件柜位于时报广场办公室附近的地下三层,被称为“太平间”。很多照片都保存在文件夹里,很多年没动过。尽管卡片目录提供了存档内容的概述,但是索引形式并不能讲述照片中的许多细节。

保存视觉的历史

资料室里的照片最早可以追溯到19世纪晚期,其中很多内容都具有巨大的历史价值——有些是世界上独一无二的。2015年,一根断裂的水管淹没了档案库,使整个馆藏面临风险。幸运的是,只造成了轻微的损害,但这一事件提出了一个问题:该公司最宝贵的一些实物资产如何能安全存储?

《纽约时报》首席技术官Nick Rockwell表示:“资料室是一个收藏了一批易腐烂文件的宝库,它们不仅是时报历史的无价编年史,也是塑造我们现代世界的近一个多世纪全球事件的无价编年史。”

不仅仅是照片的图像包含了有价值的信息。在许多情况下,照片的背面包括拍摄时间和地点也存在巨大的价值。洛克威尔补充道:“多年来,摄影部门和商业部门的工作人员一直在探索将太平间照片数字化的可能途径。但就在去年,数字化档案的想法似乎还遥不可及。

为了保存这段无价的历史,也为了赋予《纽约时报》以更直观的叙事方式和历史背景来增强报道能力,《纽约时报》将其档案数字化,使用云存储来存储资料室里所有照片的高分辨率扫描。

云存储是我们用于存储对象的持久耐用的系统,它为像《纽约时报》一样的客户提供自动化生命周期管理,存储在地理位置不同的地区,以及易于使用的管理界面和应用程序界面(API)。

创建资产管理系统

仅仅存储高分辨率图像还不足以创建一个照片编辑器可以轻松使用的系统。工作资产管理系统必须允许用户能够轻松地浏览和搜索照片。《纽约时报》建立了一个用于处理存储和处理照片的通道,并将使用云技术处理和识别图像中的文本、笔迹和其他细节。

下面是它的工作原理。一旦图像被提取到云存储中,《纽约时报》就会使用Cloud Pub/Sub启动处理通道,以完成多项任务。 通过在Google Kubernetes Engine(GKE)上运行的服务调整图像大小,图像的元数据存储在运行在Cloud SQL(谷歌的全托管数据库产品)上的PostgreSQL数据库中。

Cloud Pub/Sub帮助《纽约时报》创建了自己的处理通道,而无需构建复杂的API或业务处理系统。这是一个完全托管的解决方案,因此无需花费时间维护底层基础设施。

为了调整图像大小和修改图像元数据,《纽约时报》使用了开源命令行程序“ImageMagick”和“ExifTool”。他们在Docker映像中添加了ImageMagick、exiftool及Go服务,以便在GKE上以横向可扩展的方式运行,从而可以最小化管理工作量。添加更多的容量来处理更多的映像非常简单,而且当不需要服务时,《纽约时报》可以停止或启动它的Kubernetes集群。这些图像还存储在云存储多区域存储桶中,以便在多个区域可供使用。

该档案的最后一部分是在图像及其元数据通过《纽约时报》系统时进行跟踪。Cloud SQL 是一个很好的选择。对于他们的开发人员来说,Cloud SQL 提供了一个标准的PostgreSQL实例——作为一个完全托管的服务,无需安装新版本、应用安全补丁或设置复杂的复制配置。Cloud SQL 为工程师使用标准SQL解决方案提供了一种简单易行的方法。

机器学习获得更多的见解

存储图像只是这项工作的一部分。为了使像《纽约时报》这样的资料室更易于访问和使用,利用额外的GCP特性是有益的。就《纽约时报》而言,扫描其照片档案的一个更大挑战是添加有关图片内容的数据。云视觉API(Cloud Vision API)可以帮助填补这一空白。

让我们来看看这张来自《纽约时报》的宾夕法尼亚火车站的照片。在这里,我们向你展示了照片的正面和背面:

这是一张美丽的黑白照片,但没有额外的背景,从照片的正面看不清楚它包含的详细信息。但照片的背面包含了大量有用的信息,而云视觉 API可以帮助我们处理、存储和读取它。当我们将图像的背面提交给API而不进行额外处理时,我们可以看到云视觉API检测到以下文本:

1985年11月27日

1992年7月28日

1942年,时钟悬挂在宾夕法尼亚车站主厅入口上方,右边是车站的外部景象,1963年车站被拆毁。

发表在纽约

《纽约时报》——1942年宾夕法尼亚车站拥挤不堪,那个时代“只有勇敢的人才会乘飞机”——前往华盛顿、迈阿密和各种各样的车站。

宾夕法尼亚车站过去的美好时光| 一位牛子的怀旧之旅

( OCT 3194

RAPR 20072

照片由《纽约时报》拍摄,1942年在纽约大学校园里,观众涌入宾夕法尼亚火车站。

这是我们的云视觉 API的实际输出,不需要额外的图像预处理。当然,数字文本的转录并不完美,但它比处理数百万张图像的替代品更快、更经济。

将过去照进未来

标签: