思考数据：现代数据堆栈

发布时间：2022-10-28 11:03:04 所属栏目：大数据来源：

导读：　　我们正在处理我们周围的数据爆炸的事实不会丢失任何人。董事会会议很多时间都花在“数据战略”上。你是一个离线零售商吗？您的董事会必然会故意如何利用您的数据来领先于在线零售。你跑电影院吗？您的

　　我们正在处理我们周围的数据爆炸的事实不会丢失任何人。董事会会议很多时间都花在“数据战略”上。你是一个离线零售商吗？您的董事会必然会故意如何利用您的数据来领先于在线零售。你跑电影院吗？您的主导投资者必然会要求您使用您的数据并保持领先于Hotstar和Netflix。每个组织的数据团队都是前沿和中心 - 启动150岁的集团。LinkedIn India独自列出了跨数据科学和业务分析的40,000多个工作岗位。

　　然而，更少于理解的是，数据不容易处理和使用。

　　从大型数据集处理，存储和提取值是一个具有挑战性的任务。此外，这是一种迅速复杂的问题，占44个Zetabyte全球DataVerse的90％是独自创建的。我们的经验是它并不容易 - 即使对于成熟的初创公司，所有的美元投资和最佳人士雇用 - 将凝聚力的数据策略放在一起。其中一部分与缺乏经验有关：很多团队正在学习，因为他们走了，沿途（往往昂贵）错误。这进一步加剧了一个相当复杂，快速发展的数据堆栈。

　　广泛地，这是现代数据堆栈的样子：

　　> Our view of the Modern Data Stack

　　在80s和90s中演变的数据堆栈的早期版本在构建块方面是相当线性的：存储由DBMS管理，该DBMS通过管道连接到一端的稍微静态源，并在另一端进行相当简单的输出工具。。这几乎都是所有咨询和定制的建造。随着更多分布式数据开始涓流，组织（由今天的一些科技巨头领导）开始开发工具来处理和处理大型分布式数据。事实上，许多这些工具实际上是公认的开源项目（如Hadoop，Hive等），在许多方面，今天的方式形成了现代数据堆栈的核心。AWS LED将整个数据堆栈移动到云，使基础设施和计算弹性，并将其作为服务提供。如今，云存储是普遍存在的，管道已经打开了头部（ETL到ELT）给出了云中计算的弹性，编排相当成熟，等等。

　　虽然现代数据堆栈的基础已经在过去十年的各种进步上奠定了各种进步，但仍未得到解决许多处理数据的问题。拥有单一的真理来源仍然是乌托邦追求，Excel电子表格仍然是大多数数据管道的核心组成部分，管理巨大的数据资产是一个大而且不断增长的问题。

　　Confluent最近的S1有一个讲述这些数据孤岛的表示：

　　> How enterprises end up with their data stack, according to confluent

　　除了这个企业架构驱动的混乱之外，也是人类复杂性的层，其中各种团队存在 - 有时在孤岛上工作 - 从数据堆栈维护，利用和提取值。

　　在这种情况下，我们深入了解现代数据堆栈如何在这十年中发展，以及哪些方面会看到重大中断。广泛地，在不同组件上存在各种冗余，一些主要的架构是古老的，并且仍然难以使用数据堆栈。我们简要阐述了其中一些将被重新想象，这些都已经开始从世界各地的公司看到创新：

　　我们在全球顶点网络中的同事已经在数据空间中发出了一些非常令人兴奋的投资大数据堆栈，这件作品来自这些公司正在做的令人兴奋的工作中的灵感。其中一些公司包括Quilt，Upsolver，美国的Zepl，印度的Recko，Scylla，DataRails，以色列的Aporia等。

（编辑：天瑞地安资讯网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

数据科学中数据收集的	人工智能平台计划中的
一文看懂渠道分析怎样	怎样避免淹没在云原生