数据湖
Vol.3 数据湖
这是一个通过解释各种关键词来帮助理解数据活用和DX(数字化转型)成功所需的思维方式的术语解释集合。
本次将对作为数据活用基础的"数据湖"进行解释说明。
数据湖是什么
"数据湖(Data lake)" 是指一个数据基础设施(数据仓库),可以像湖泊一样接纳和存储来自各种系统生成的各种数据。
随着IT应用的蓬勃发展,我们需要处理比以往更多样化的数据。传统的数据基础设施是为事先准备的结构化数据而设立的,但现在我们不仅需要处理结构化数据,还需要处理半结构化数据(如JSON和XML等),以及非结构化数据(如电子邮件文本等),甚至包括用于机器学习(AI)应用的二进制数据,如图像和视频等各种各样的数据。这导致了对多种多样数据进行数据分析的需求不断增加。
数据湖就是为了能够集中存储多种多样不适合直接存储在传统数据库中的数据,就像湖可以容纳水一样,使其集中存放并可统一利用的数据基础设施。
历史与代表产品
有许多不同的产品(特别是广义上的)与数据湖有关,有时可能会使用 'Hadoop' 构建,近年来也可能会将对象存储如 'Amazon S3' 等用作数据湖建设的手段。
大约在2010年前后,"大数据" 这个词汇在社会中变得非常常见,那个时期人们开始积极探索如何接纳和利用传统数据基础设施难以处理的数据。
此外,过去的数据如果在没有储存的情况下被丢弃,将无法在未来进行检索。因此,为了未来考虑,现在的数据只能尽早储存起来。当时人们也开始这样说,作为这种手段,数据湖也开始被引入使用。
与DWH(数据仓库)的区别
作为一种数据存储基础设施,"DWH(数据仓库)" 也被广泛认知。与数据湖最大的区别在于它是否接受事先整理好的数据以外的数据。
通常,在将数据存储到被称为“数据库”的结构中时,需要预先定义数据的格式并按照该格式存储数据。例如,对于员工名单,需要预先定义数据格式,如“姓名”、“员工编号”、“所属部门”,然后准备和存储符合该格式的数据。如果不符合预定义的格式,将会出现错误。
结果,如果数据被妥善整理并储存,那么这些数据将更容易进行有效的利用。然而,在一个不断产生各种数据的时代,预先整理数据的前提条件也显现出一些不足之处。如果想要利用已有的数据,但在这之前必须定义数据架构并对数据进行前期处理,那么投入数据基础设施本身就可能会变得不方便。
举个例子,假设一家公司试图建立一个汇集内部数据的数据基础设施。如果对团队说:“必须将数据整理成指定的格式,然后放入数据仓库(DWH)”,这可能会让很多人感到麻烦,合作的积极性可能会急剧下降。结果可能是数据无法整理好而被丢弃,或者预处理耗费过多时间导致数据新鲜度降低,进而使一切付诸东流。整理数据本身不是目标。“数据活用”才是目标,如果这个目标没有得到充分实现,那也可以说目标未能完全实现。
因此,为了能够像湖一样储存各种各样大量涌入的数据,提出了数据湖作为一种“可以直接存储数据的手段”。
数据的沼泽(Data Swamp)
到目前为止,我们已经谈到了数据湖的意义和优点,但也有人指出了它的不足之处。例如,有人批评数据湖是“数据的沼泽(Data Swamp)”,也有人警告需要小心使用。
由于自由地接受数据,导致数据被杂乱地储存,人们不再清楚数据的位置和内容,因此有人指出这种情况被称为"不是湖而是沼",并认为这是一个问题。
因为在需要预先整理数据的数据仓库(DWH)中,这种情况不太可能发生,所以有人会说:“所以说数据湖不行”,并以此为教训,强调数据湖虽然方便,但需要谨慎使用。
为了避免陷入"数据沼地",我们需要注意对数据进行妥善管理和存储。此外,也需要让人们能够看到其中包含的数据(数据目录),并了解数据的来源及到达时间等信息(数据血统)。
除了这些之外,数据湖还有其他缺点。在进行数据分析时,通常会发现数据湖在必要时进行数据检索和聚合的能力较弱(例如,很多系统无法完全使用SQL等,无法进行灵活的检索,速度较慢,搜索性能较差),这也是一个缺点,使得自由进行分析变得困难。
DWH与数据湖
在数据仓库(DWH)领域,各公司都在努力加强数据湖的功能,有时候会说现在只用DWH已经足够了,不再需要数据湖。另一方面,在数据湖领域,也在努力增强数据处理能力,比如搜索能力等,有时候会说不需要DWH,只用数据湖就可以。
各公司会建议使用他们自己的产品,并表示仅使用他们的产品就足够了。
也有意见认为应该将它们结合使用。首先,将数据传输到数据湖,然后将数据整理并存储在数据仓库中,以便进行分析,实现良好的分工。
此外,关于数据湖,还有意见认为应该区分存放原始数据的地方和整理过、避免沼泽化的数据放置在一起的数据湖。另外,还有意见认为应该与除数据湖和数据仓库之外的其他数据利用手段结合使用,有许多不同的建议。
在未来,随着技术状况的变化,关于“应该是什么样子”的理念也将随之改变。毕竟,就在不久前,数据湖本身也并不存在。
此外,每个人根据自己的情况对于数据利用的需求也会有所不同,包括处理的数据类型等。
而且,根据IT系统的实际情况,期望的解决方案也会有所不同。我们有各种各样的选择,需要选择适合自己的解决方案。
要充分利用数据湖,数据协作是必要的
如果情况可能会变化,那么寻找“正确答案”就会变得困难。
在这种情况下,与其寻找“当前的正确答案”,不如确保可以根据需要灵活组合使用数据仓库(DWH)和数据湖,以持续适应未来技术变化和需求变化,这样能够长期安心地使用。换句话说,这是确保可以根据需要自由进行数据协作,从而建立数据湖和数据仓库的方法。
此外,就像从实际的数据仓库使用中发现了ETL(抽取、转换、加载)导致的数据协作困难和需求一样,对于数据湖的使用,解决与“外部数据和系统的数据协作”所需的数据协作手段实际上也是必要的,以消除烦琐的数据连接。
那么,为了充分利用数据湖,我们需要什么样的手段来实现数据湖与外部的数据协作呢?
将数据引入数据湖的方式:
数据以多种多样的格式存储于内部系统和云系统中。
对数据湖中的数据进行处理的方法:
数据通常不会事先加工处理。在进行利活用之前,通常需要进行数据加工,例如整理数据格式。
从积累的数据中提取并在外部进行活用的方式:
需要将数据从数据湖中取出并导入数据仓库(DWH),或者在外部系统中使用,确保可以在外部系统中使用。此外,可能还会组合使用多个数据湖。
因此,需要具备以下特性以实现数据协作的工具。
支持多种多样的数据格式
数据仓库(DWH)和数据湖的区别是什么呢?如果只能处理类似行和列的整齐数据,那么就无法实现引入数据湖的目的。需要能够适应更多种多样的数据格式。
可以连接到各种不同的系统和数据
多样化的数据存在于多样化的地方。此外,数据湖本身也有许多不同的产品和服务。应根据需要自由灵活地利用它们。
具备非常高的处理性能
数据湖的兴起与大数据热潮密切相关。即使在处理大量数据时,也需要能够快速进行协作和处理。在处理简单连接的便捷工具中,可能会遇到性能不足的问题,这对实际应用来说可能是困扰。
具有高水平的数据加工能力
数据湖中的数据通常不会事先整理。因此,我们希望有一种可以根据需要进行必要数据加工的方法。如果仅具备简单的数据传输功能而无法进行必要的处理,可能会无法完成所需任务。
"No-code" 和 "low-code"(可由业务现场人员自行使用)
如果每次都需要手动进行数据协作和加工,这将耗费太多时间和精力。而且,每次都将需求记录在文档中并委托系统开发也需要太多时间。在数据活用方面,很多情况下需要实践才能理解,事先通过要求分析来分析协作系统的需求也不现实。因此,应该由数据活用的现场负责人主导,能够快速更改和实现数据活用的方式。
若有仅需使用图形用户界面(GUI)即可自由开发数据协作的无代码(No-code)或低代码(Low-code)工具,现场负责人可以迅速自行解决这种需求,高效推进数据活用。
以上内容未经许可请勿转载
相关关键词(以进一步理解为目的)
以上内容未经许可请勿转载
HDS试用版
"Haidu Data Spider"是由Saison Information Systems开发和销售的数据整合工具,具备ETL功能,并且拥有广泛的使用案例。
"Haidu Data Spider"是一款独具特色的数据整合工具,无需编写代码,只需通过直观的GUI界面(无代码开发)即可进行开发。它具备高度的开发生产力,能够满足专业业务需求并提供出色的性能。而且,它非常易于业务现场人员使用,不仅仅限于专业程序员,任何人都能够轻松上手。
"Haidu Data Spider"不仅适用于数据活用,还能够顺利解决各种IT利用的问题,例如云技术的应用。它能够解决因系统和数据分散而导致的难题,使各个部分无缝连接,从而促进各种IT利用的成功。
我们提供免费的试用版,并且不定期举办免费的在线研讨会,让您实际尝试使用。如果您有兴趣,请务必申请试用。我们将不胜感激。
© HULFT CHINA CO.,LTD. 2023 以上内容未经许可请勿转载