加入收藏 | 设为首页 | 会员中心 | 我要投稿 盐城站长网 (https://www.0515zz.cn/)- 运维、云管理、管理运维、智能数字人、AI硬件!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

亚马逊如何通过数据湖解决大数据挑战?

发布时间:2021-03-02 13:36:08 所属栏目:传媒 来源:互联网
导读:求相对简单。快进25年了,亚马逊的零售业务在全球拥有175 多个配送中心,超过25万名全职员工每天运送数百万件商品。 亚马逊全球财务运营团队的任务非常艰巨,即跟踪所有数据(以PB为单位)。 在亚马逊的规模上,错误计算的指标(例如单位成本或数据延迟)可能会

求相对简单。快进25年了,亚马逊的零售业务在全球拥有175 多个配送中心,超过25万名全职员工每天运送数百万件商品。

亚马逊全球财务运营团队的任务非常艰巨,即跟踪所有数据(以PB为单位)。 在亚马逊的规模上,错误计算的指标(例如单位成本或数据延迟)可能会产生巨大影响(请考虑数百万美元)。团队一直在寻找更快地获取更准确数据的方法。

这就是为什么他们在2019年有一个主意:建立一个可以支撑地球上最大的物流网络之一的数据湖。后来它在内部被称为Galaxy数据湖。Galaxy数据湖建于2019年,现在所有各个团队都在努力将数据移入其中。

数据湖是一个集中式安全存储库,可让您以任何规模存储,管理,发现和共享所有结构化和非结构化数据。数据湖不需要预定义的架构,因此


 

制器能力,数据安全性以及整合机器学习。让我们仔细研究这些挑战,看看数据湖如何帮助解决它们。

打破数据孤岛

公司选择创建数据湖的主要原因是要打破数据孤岛。在不同地方拥有由不同组控制的数据包,本质上会掩盖数据。当公司快速发展和/或收购新业务时,通常会发生这种情况。就亚马逊而言,两者都是。

为了在国际上扩张并迅速创建新的运输计划(例如,免费当日交付或Amazon Fresh),大多数运营计划团队一直在控制自己的数据和技术。结果,数据以不同的方式存储在不同的位置。这种方法使每个团队都能解决问题,响应客户需求并更快地进行创新。

但是,很难在组织和公司范围内理解数据。它需要从许多不同来源手动收集数据。如此众多的团队独立运作,我们失去了可以通过共同解决问题而获得的效率。

从数据中获取详细细节也是困难的,因为不是每个人都可以访问各种数据存储库。对于较小的查询,您可以在电子表格中共享一部分数据。但是,当数据超出电子表格的容量时,挑战就出现了,这通常发生在大型公司中。在某些情况下,您可以共享较高级别的数据摘要,但实际上并没有获得完整的图像。

数据湖通过将所有数据合并到一个中央位置来解决此问题。团队可以继续充当敏捷单位,但是所有道路都通向数据湖进行分析。没有更多的筒仓。

分析各种数据集

 

(编辑:盐城站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读