数据湖详细解释,数据湖概念

如今,数据湖已经成为热门话题,并迅速在大企业中流行起来,但传统企业对此却态度冷淡,冰火两重天。为什么?


为了更好地理解本文,建议您先阅读我科普数据湖的文章《什么是数据湖?》我们全面解读数据湖的起源、特征、技术、实例和趋势。


1.数据湖往往会误解其含义,因此听到雷声大而雨少。


当我第一次接触数据湖时,我认为它们毫无意义。当我第一次听说数据仓库第一时,我也有同样的反应。


有一次我在一个合作伙伴大会上,正好有一个数据湖的展示,我就演讲者“这个数据湖有什么特点?”演讲者讲了很多关于数据仓库的内容,核心意义是什么?这是关于收集数据。然后我“这和数据仓库有什么区别?”教官一直逗弄我半天,我才发现他其实也不知道。


数据湖的概念莫名其妙地在一家大公司的节奏中开始了,有一天,一位同事给我发了一篇总裁要发表的演讲,他提到了数据湖,并我们是否已经有了数据湖。老板的报告中提到数据湖适合你吗?


我赶紧上网查了一下数据湖的内容,发现Hadoop是数据湖的一种形式,但是Hadoop刚诞生的时候,没有人说它是数据湖。数据湖显然不仅仅是一个数据存储盒子,它的技术含量远远超出了Hadoop能够处理的范围,所以我想知道它能为企业带来什么附加价值。


由于每个人都对数据湖的概念感到困惑,所以很容易说它是一种将所有数据收集到一个地方的简单技术。大多数老板都会将他们正在构建的大数据视为数据湖。对于认知,你真的不需要再构建任何东西。


大型企业希望使数据湖民主化,但传统企业却停滞不前。这也与概念没有明确解释有关。它还涉及数据收集和集成。与数据仓库相比,数据湖的卓越水平是显而易见的。高得多,但是高在哪里呢?你想一想,更何况是普通大众,连我这样从事数据技术10多年的人都不会感到困惑吗?


2、数据湖的技术门槛较高,但标准化水平不高。


数据湖具有六个特征保真度、灵活性、可管理性、分析性、可追溯性和存储。它有很多特点。一方面可以说是强大,但另一方面也体现了技术的复杂性。很难清楚地确定哪个适合您的数据湖。


Fidelity举例描述道“数据湖‘精确’地存储了业务系统中数据的完整副本。与数据仓库的不同之处在于,该副本必须存储在数据湖中。数据格式、数据模式,无论什么数据内容,原始数据不应该被修改,在这方面,数据湖强调保留业务数据的“原汁原味”,同时数据湖可以整合结构化数据、半结构化数据和非结构化数据。数据。它可以存储任何类型/格式的数据,包括。”


那么如何将原有系统的实时数据转移到数据湖呢?


这项技术很复杂。例如,向数据湖写入数据时必须保证ACID,高效支持历史数据的上传/删除,能够承受频繁数据导入产生的大量小文件。文件系统。


Delta、Iceberg、Hudi等开源数据湖都是具体的技术解决方案,但现有企业并没有完全了解Hadoop生态系统,开发了众多技术,而且没有统一的标准,这确实令人头疼。


随后,国内各大公司基于开源数据湖技术开发了自己的数据湖。确实如此,无论是腾讯基于Flink+Iceberg冰山的企业级实时数据湖,还是阿里巴巴基于Hudi的一体化湖库。我很困惑。这很令人兴奋,但目前大多数公司可能还不了解数据湖。


3、数据湖概念是一个比较成熟的概念,大规模普及还需要一段时间。


自助BI,包括自助数据搜索和自助报告,已经提出十多年了。其核心理念是,基于自助式BI产品,业务人员可以自行操作数据来改善业务。响应速度。但十多年过去了,传统公司的业务人员中有多少比例现在可以自己进行数据分析?


客观地说,与十几年前相比是有进步的,但自助式BI对于大多数业务人员来说仍然是奢侈品。另一方面,这也受到公司数据文化的。也许只有当这一代企业员工退休时,自助式BI才能成为主流。


自助BI中的数据模型仍然是在数据仓库中预先训练的,但数据湖更加激进。从数据采集、建模、挖掘到分析,所有任务都必须由业务人员基于工具来完成。这是因为数据湖倡导者认为,只有这样才能更快地响应市场需求。


如果说数据仓库的分层建模是计划经济,那么数据湖就是市场经济,如果自助BI是产品层面的创新,那么数据湖就是现有数据仓库的全新升级版。服务模式,颠覆。


数据湖的鼻祖是亚马逊。我不知道这个公司有多少人在用,但是很明显他们公司的数字化水平很高,国内各大公司也是如此。大多数公司都提倡数据湖。这个概念实际上有点超前于时代。


二十年前,数据仓库对于许多大公司来说是一场技术盛宴,但当时的业务人员并不知道构建它们的价值是什么。我们可能还要再等10年或20年才能真正理解。数据湖的真正含义是什么历史总是重演。


4.数据湖是数据库技术的升级,但并非不可替代。


老板我“我需要数据湖吗?”我说“场景太少了。即使需要,也不是完美的,但还有一个替代方案!”


数据湖的典型应用场景是将大量数据实时记录到数据库并实时分析统计,这就需要在很多大屏幕上使用该技术。我觉得像Flink+Iceberg这样的数据湖技术引擎肯定是不错的。完美的解决方案。计划。


不过,使用Flink+HTAP,我安排了几个技术人员在一周内完成了,虽然加载和查询速度不是毫秒级的,但对于大多数场景来说已经足够了。


数据湖专家会告诉你,这个解决方案有很多题,包括HTAP无法支持多种存储引擎和计算引擎。然而,在这种情况下,我们并不是在寻求一种通用的技术解决方案,而是选择一种解决方案。符合公司当前技术状态且更具成本效益的解决方案。


综上所述,数据湖具有六大关键技术特性,包括对流批处理的并发支持、数据更新、事务可扩展元数据、多个存储引擎、多个计算引擎等。


对于大多数公司来说,找到这些技术的具体应用场景并不容易。如果你不相信我,就看看吧。就算找到了,估计也只需要用一两个就可以了。技术能力,如果满足条件1,则条件2必须有另一种替代方案。


5.数据湖更换成本高昂,并且不能保护现有投资。


为了保护公司独特的资产投资,如果您已经构建了大数据,尤其是正在构建新的大数据,现在选择数据湖是不明智的。


刚刚搭建完我们的Hadoop大数据,我们有很多疑。这是因为企业主没有看到重大价值,并花费了大量资金构建基于Hadoop的数据管理系统,包括End-To。-end端到端集成工具链等


对于大多数企业来说,要利用好Hadoop,围绕Hadoop构建生态系统比构建Hadoop本身更重要,大家都在关注大数据如何展现其内在价值。Hadoop大数据建设周期只有4到5年,从投资保护角度来说是合理的,不能立足一山。


而且,Hadoop被认为是有些必要的,因为没有它,大量的数据根本无法处理,当然,这种严格的必要性只适用于数据量为PB级别的公司,当然不适用于数据湖。我想了很长时间试图解决我的具体场景,但仍然找不到使用它的理由。


最后,即使采用数据湖,实现起来也不容易,因为要实现六大技术能力,数据湖必须通过存储中间件统一连接各种存储和各种技术引擎。题确实太多了。


当然,我说的也可能是错的,所以5年后我会再看一遍。


数据部分是指一组数据,包括公司或组织内部的各种业务数据、客户数据、市场数据等。数据部分通常采用数据库、数据仓库、数据湖等技术构建,可利用数据分析工具进行数据挖掘和分析,为企业决策提供数据支持。数据部门在企业的发展和运营中发挥着至关重要的作用,帮助企业发现和解决题、优化业务流程、增强竞争力。


数据部分可以让企业更好地了解市场趋势和客户需求,这可以帮助他们制定更准确的营销和产品策略。


一、数据湖是拉数据还是推数据?

数据湖可以同时拉取和推送数据。拉取数据是指将各种来源的数据(例如结构化数据、半结构化数据、非结构化数据)存储到数据湖中以供后续分析和利用。数据推送是指将数据信息推送到数据湖,例如实时数据流或数据更新。因此,数据湖不仅可以通过数据导入实现数据存储和管理,还可以接收实时或定期推送的数据,使数据湖成为灵活、全面的数据存储和管理,满足各种数据需求。。


二、mpp架构和大数据区别?

首先,我假设题是关于与SQLOnHadoop相比的真实MPP数据库。这是因为一些SQLOnHadoop系统,例如Impala,也称为MPP架构。


所以双方的比较确实是Vertica、AlibabaADS、GreenPlum、RedshiftvsImpala、Hive、SparkSQL、Presto等。


两者最大的区别其实在于存储控制上。对于Hadoop来说,最常见的数据形式是数据湖。这意味着数据本身不是很有组织,数据往往在读取时被解析,并且多个系统处理不同的工作负载并共享相同的数据湖。例如,您可以使用Spark、MR和Impala读取Hive数据,也可以直接从HDFS读取Parquet和ORC文件。例如,该数据可用于BI数据仓库和ML模型训练。


相比之下,MPP数据库需要获取数据进行特定处理并组织成针对速度优化的格式。这使得它们的存储空间就像一个黑匣子,其他系统进入后很难直接读取数据。当然像Vertica这样的系统也有SQLOnHadoop的运行模式,但是速度下降了,我看了一下Vertica的benchmarks,Hadoop模式下相比Impala没有明显的好处,而且有些查询慢很多。这方面的性能损失是由于单独的黑匣子存储设备造成的。


此外,SQLOnHadoop产品和MPP数据库之间的许多差异实际上是工程成熟度的差异。像CBO这样的优化在数据库领域可能很常见,但SQLOnHadoop仍然是新事物,至少截至2016年8月30日,SparkSQL和Presto还没有CBO。列式存储的引入也是最近的事情,Vertica应该从一开始就使用列式存储。这些分歧将很快得到解决。


至于底层存储部分,SQLOnHadoop未来会越来越类似于MPP数据库,因为ParquetORC相对复杂,其格式不断优化,并且借鉴了传统数据库领域的很多经验。


这个文章主要给大家讲解数据湖详细解释,和数据湖概念的知识点,希望对各位有所帮助。

除非特别注明,本站所有文字均为原创文章,作者:admin

No Comment

留言

电子邮件地址不会被公开。 必填项已用*标注

感谢你的留言。。。