亚马逊如何通过数据湖解决大数据挑战?
求相对简单。快进25年了,亚马逊的零售业务在全球拥有175 多个配送中心,超过25万名全职员工每天运送数百万件商品。 亚马逊全球财务运营团队的任务非常艰巨,即跟踪所有数据(以PB为单位)。 在亚马逊的规模上,错误计算的指标(例如单位成本或数据延迟)可能会产生巨大影响(请考虑数百万美元)。团队一直在寻找更快地获取更准确数据的方法。 这就是为什么他们在2019年有一个主意:建立一个可以支撑地球上最大的物流网络之一的数据湖。后来它在内部被称为Galaxy数据湖。Galaxy数据湖建于2019年,现在所有各个团队都在努力将数据移入其中。
数据湖是一个集中式安全存储库,可让您以任何规模存储,管理,发现和共享所有结构化和非结构化数据。数据湖不需要预定义的架构,因此 制器能力,数据安全性以及整合机器学习。让我们仔细研究这些挑战,看看数据湖如何帮助解决它们。 打破数据孤岛 公司选择创建数据湖的主要原因是要打破数据孤岛。在不同地方拥有由不同组控制的数据包,本质上会掩盖数据。当公司快速发展和/或收购新业务时,通常会发生这种情况。就亚马逊而言,两者都是。 为了在国际上扩张并迅速创建新的运输计划(例如,免费当日交付或Amazon Fresh),大多数运营计划团队一直在控制自己的数据和技术。结果,数据以不同的方式存储在不同的位置。这种方法使每个团队都能解决问题,响应客户需求并更快地进行创新。 但是,很难在组织和公司范围内理解数据。它需要从许多不同来源手动收集数据。如此众多的团队独立运作,我们失去了可以通过共同解决问题而获得的效率。 从数据中获取详细细节也是困难的,因为不是每个人都可以访问各种数据存储库。对于较小的查询,您可以在电子表格中共享一部分数据。但是,当数据超出电子表格的容量时,挑战就出现了,这通常发生在大型公司中。在某些情况下,您可以共享较高级别的数据摘要,但实际上并没有获得完整的图像。 数据湖通过将所有数据合并到一个中央位置来解决此问题。团队可以继续充当敏捷单位,但是所有道路都通向数据湖进行分析。没有更多的筒仓。
分析各种数据集 (编辑:盐城站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |