数据湖-世存信息技术(上海)有限公司

数据湖

 

 

Vol.3 数据湖

    这是一个通各种关键词来帮助理解数据活用和DX(数字化型)成功所需的思方式的术语集合。
    本次将数据活用基的"数据湖"行解释说明。

 

数据湖是什么

    "数据湖(Data lake)" 是指一个数据基础设施(数据仓库),可以像湖泊一和存来自各种系生成的各种数据。
    随着IT用的蓬勃展,我需要理比以往更多化的数据。传统的数据基础设施是事先准构化数据而立的,但在我们不仅需要构化数据,还需要处理构化数据(如JSON和XML等),以及非构化数据(如件文本等),甚至包括用于机器学(AI)用的二制数据,如像和视频等各种各的数据。这导致了多种多数据行数据分析的需求不断增加。

    数据湖就是了能够集中存多种多不适合直接存传统数据中的数据,就像湖可以容水一,使其集中存放并可一利用的数据基础设施。

 

历史与代表产品

    有多不同的品(特别是广上的)与数据湖有关,有可能会使用 'Hadoop' 构建,近年来也可能会将象存如 'Amazon S3' 等用作数据湖建的手段。

    大在2010年前后,"大数据" 词汇在社会中得非常常,那个期人开始极探索如何接和利用传统数据基础设理的数据。

    此外,去的数据如果在没有存的情况下被弃,将无法在未来索。因此,了未来考在的数据只能尽早存起来。当也开始这样说,作为这种手段,数据湖也开始被引入使用。

 

DWH(数据仓库)的区别

    作一种数据存础设施,"DWH(数据仓库" 也被广泛知。与数据湖最大的区别在于它是否接受事先整理好的数据以外的数据。

    通常,在将数据存到被称数据构中,需要先定数据的格式并按照格式存数据。例如,工名,需要先定数据格式,如“姓名”、“号”、“所属部,然后准和存符合格式的数据。如果不符合预定义的格式,将会出现错误。

    果,如果数据被妥善整理并存,那么些数据将更容易行有效的利用。然而,在一个不断生各种数据的代,先整理数据的前提条件也显现出一些不足之。如果想要利用已有的数据,但在之前必数据架构并数据行前期理,那么投入数据基础设施本身就可能会得不方便。

    个例子,假一家公司试图建立一个集内部数据的数据基础设施。如果对团队说:“必将数据整理成指定的格式,然后放入数据仓库(DWH)”,可能会很多人感到麻,合作的极性可能会急下降。果可能是数据无法整理好而被弃,或者预处理耗费过时间导致数据新度降低,而使一切付诸东流。整理数据本身不是目。“数据活用”才是目,如果个目没有得到充分实现,那也可以未能完全实现

    因此,了能够像湖一样储存各种各大量涌入的数据,提出了数据湖作一种“可以直接存数据的手段”。

 

数据的沼泽(Data Swamp

    到目前止,我经谈到了数据湖的意点,但也有人指出了它的不足之。例如,有人批数据湖是“数据的沼泽(Data Swamp)”,也有人警告需要小心使用。

    由于自由地接受数据,致数据被乱地存,人不再清楚数据的位置和内容,因此有人指出种情况被称"不是湖而是沼",并认为这是一个问题
    因在需要先整理数据的数据仓库(DWH)中,种情况不太可能生,所以有人会:“所以数据湖不行,并以此,强数据湖虽然方便,但需要慎使用。

    了避免陷入"数据沼地",我需要注意数据行妥善管理和存。此外,也需要能够看到其中包含的数据(数据目),并了解数据的来源及到达时间等信息(数据血统)。

    除了些之外,数据湖有其他缺点。在行数据分析,通常会发现数据湖在必要时进行数据索和聚合的能力弱(例如,很多系无法完全使用SQL等,无法行灵活的索,速度慢,搜索性能差),也是一个缺点,使得自由行分析得困

 

DWH与数据湖

    那么,要如何使用数据湖和数据仓库(DWH)呢?

    在数据仓库(DWH)域,各公司都在努力加强数据湖的功能,有候会说现在只用DWH足够了,不再需要数据湖。另一方面,在数据湖域,也在努力增强数据理能力,比如搜索能力等,有候会不需要DWH,只用数据湖就可以。
    各公司会建使用他自己的品,并表示使用他品就足够了。

    也有意见认为应该将它们结合使用。首先,将数据传输到数据湖,然后将数据整理并存在数据仓库中,以便行分析,实现良好的分工。
    此外,关于数据湖,有意见认为应该区分存放原始数据的地方和整理、避免沼化的数据放置在一起的数据湖。另外,有意见认为应该与除数据湖和数据仓库之外的其他数据利用手段合使用,有多不同的建

    在未来,随着技状况的化,关于“应该是什么子”的理念也将随之改竟,就在不久前,数据湖本身也并不存在。
    此外,每个人根据自己的情况对于数据利用的需求也会有所不同,包括处理的数据类型等。
    而且,根据IT系实际情况,期望的解决方案也会有所不同。我有各种各选择,需要选择适合自己的解决方案。

 

要充分利用数据湖,数据协作是必要的

    如果情况可能会化,那么找“正确答案”就会得困
    在种情况下,与其找“当前的正确答案”,不如确保可以根据需要灵活合使用数据仓库(DWH)和数据湖,以持未来技术变化和需求化,这样能够期安心地使用。话说是确保可以根据需要自由行数据作,从而建立数据湖和数据仓库的方法。

    此外,就像从实际的数据仓库使用中发现ETL(抽取、转换、加致的数据作困和需求一于数据湖的使用,解决与“外部数据和系的数据作”所需的数据作手段实际上也是必要的,以消除烦琐的数据接。

    那么,了充分利用数据湖,我需要什么的手段来实现数据湖与外部的数据作呢?

 

将数据引入数据湖的方式

    数据以多种多的格式存储于内部系和云系中。

 

数据湖中的数据理的方法

    数据通常不会事先加工理。在行利活用之前,通常需要行数据加工,例如整理数据格式。

 

累的数据中提取并在外部行活用的方式

    需要将数据从数据湖中取出并数据仓库(DWH),或者在外部系中使用,确保可以在外部系中使用。此外,可能合使用多个数据湖。

    因此,需要具以下特性以实现数据作的工具。

 

支持种多的数据格式

    数据仓库(DWH)和数据湖的区别是什么呢?如果只能理类似行和列的整数据,那么就无法实现引入数据湖的目的。需要能够适应更多种多样的数据格式。

 

可以接到各种不同的系和数据

    多化的数据存在于多化的地方。此外,数据湖本身也有多不同的品和服应根据需要自由灵活地利用它们。

 

具备非常高的处理性能

    数据湖的兴起与大数据潮密切相关。即使在理大量数据,也需要能够快速作和理。在简单连接的便捷工具中,可能会遇到性能不足的问题这对实际应用来可能是困

 

具有高水平的数据加工能力

    数据湖中的数据通常不会事先整理。因此,我希望有一种可以根据需要行必要数据加工的方法。如果备简单的数据传输功能而无法行必要的理,可能会无法完成所需任

 

"No-code" "low-code"(可由业务现场自行使用)

    如果每次都需要手动进行数据作和加工,将耗太多时间和精力。而且,每次都将需求记录在文档中并委托系也需要太多时间。在数据活用方面,很多情况下需要践才能理解,事先通要求分析来分析作系的需求也不现实。因此,应该由数据活用的现场负责人主,能够快速更改和实现数据活用的方式。

    若有需使用形用界面(GUI)即可自由开数据作的无代(No-code)或低代(Low-code)工具,现场负责人可以迅速自行解决种需求,高效推数据活用。

以上内容未经许可请勿转载

相关关键词(以一步理解目的)

  • DWH
  • ETL
  • 对象存储
  • iPaaS
  • 无代码/低代码

以上内容未经许可请勿转载

HDS试用版

    "Haidu Data Spider"是由Saison Information Systems开发和销售的数据整合工具,具备ETL功能,并且拥有广泛的使用案例。

    "Haidu Data Spider"是一款独具特色的数据整合工具,无需写代,只需通的GUI界面(无代)即可行开。它具高度的开力,能够专业业务需求并提供出色的性能。而且,它非常易于业务现场使用,不仅仅限于专业程序,任何人都能够松上手。
    "Haidu Data Spider"
适用于数据活用,能够利解决各种IT利用的问题,例如云技用。它能够解决因系和数据分散而致的难题,使各个部分无缝连接,从而促各种IT利用的成功。

    提供免用版,并且不定期举办的在线会,实际尝试使用。如果您有兴趣,请务必申请用。我将不感激。

 

© HULFT CHINA CO.,LTD. 2023  以上内容未经许可请勿转载