亚马逊如何通过数据湖解决大数据挑战？

发布时间：2021-03-02 13:36:08 所属栏目：传媒来源：互联网

导读：求相对简单。快进25年了，亚马逊的零售业务在全球拥有175 多个配送中心，超过25万名全职员工每天运送数百万件商品。亚马逊全球财务运营团队的任务非常艰巨，即跟踪所有数据(以PB为单位)。在亚马逊的规模上，错误计算的指标(例如单位成本或数据延迟)可能会

求相对简单。快进25年了，亚马逊的零售业务在全球拥有175 多个配送中心，超过25万名全职员工每天运送数百万件商品。

亚马逊全球财务运营团队的任务非常艰巨，即跟踪所有数据(以PB为单位)。在亚马逊的规模上，错误计算的指标(例如单位成本或数据延迟)可能会产生巨大影响(请考虑数百万美元)。团队一直在寻找更快地获取更准确数据的方法。

这就是为什么他们在2019年有一个主意：建立一个可以支撑地球上最大的物流网络之一的数据湖。后来它在内部被称为Galaxy数据湖。Galaxy数据湖建于2019年，现在所有各个团队都在努力将数据移入其中。

数据湖是一个集中式安全存储库，可让您以任何规模存储，管理，发现和共享所有结构化和非结构化数据。数据湖不需要预定义的架构，因此

制器能力，数据安全性以及整合机器学习。让我们仔细研究这些挑战，看看数据湖如何帮助解决它们。

打破数据孤岛

公司选择创建数据湖的主要原因是要打破数据孤岛。在不同地方拥有由不同组控制的数据包，本质上会掩盖数据。当公司快速发展和/或收购新业务时，通常会发生这种情况。就亚马逊而言，两者都是。

为了在国际上扩张并迅速创建新的运输计划(例如，免费当日交付或Amazon Fresh)，大多数运营计划团队一直在控制自己的数据和技术。结果，数据以不同的方式存储在不同的位置。这种方法使每个团队都能解决问题，响应客户需求并更快地进行创新。

但是，很难在组织和公司范围内理解数据。它需要从许多不同来源手动收集数据。如此众多的团队独立运作，我们失去了可以通过共同解决问题而获得的效率。

从数据中获取详细细节也是困难的，因为不是每个人都可以访问各种数据存储库。对于较小的查询，您可以在电子表格中共享一部分数据。但是，当数据超出电子表格的容量时，挑战就出现了，这通常发生在大型公司中。在某些情况下，您可以共享较高级别的数据摘要，但实际上并没有获得完整的图像。

数据湖通过将所有数据合并到一个中央位置来解决此问题。团队可以继续充当敏捷单位，但是所有道路都通向数据湖进行分析。没有更多的筒仓。

分析各种数据集

（编辑：盐城站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!