DWH-世存信息技术(上海)有限公司

DWH

Vol.2「DWH」

这是一个通过解释各种关键词来帮助理解数据活用和DX(数字化转型)成功所需的思维方式的术语解释集合。

本次我们对作为数据活用基础的"DWH"进行说明。

 

DWH是什么

DWH是Data WareHouse的缩写。它类似于一个仓库,用来存放数据,以便进行数据分析和利用。就像我们把商品放在仓库中,DWH是将数据存放在一个特殊的数据库中,方便后续进行各种数据分析和利用的工作。

传统的来说,我们购买软件产品,像是Teradata公司的产品,然后自己来管理和使用。但是最近,数据仓库(DWH)也开始作为云服务提供。比如,谷歌云的『BigQuery』、亚马逊网络服务(AWS)的『Redshift』,以及Snowflake公司的『Snowflake』等等,都是非常知名的云服务平台。这些平台让我们可以更方便地使用和分析数据。

 

普通的数据库(RDB)和数据仓库(DWH)有何不同?

DWH之所以一开始让人难以理解,是因为它与我们平时使用的数据库(RDB)之间的区别不太明显。例如,如果我们已经在使用MySQL或PostgreSQL等数据库,我们可能会对为什么需要额外引入DWH来存储数据感到困惑。这一点可能有些难以理解。

MySQL和PostgreSQL等常见的关系型数据库产品,可以说是为了在数据库上执行业务操作而设计的高性能产品。它们可以快速地进行数据的修改、添加和删除操作,而不会引起数据的矛盾等问题。例如,即使同时向同一个商品下多个订单,也能确保不会出现重复受订单的情况,这样的功能被很好地构建在其中。

在数据分析中,通常需要使用过去的数据,并且处理的数据量较大,所需数据的类型和整理方式也应适合分析的形式。而DWH则是专门为了分析目的而设计的数据库产品,它可以存储用于分析的数据,并能够处理大量的数据以支持分析查询重视的是"分析性能"。然而,相应地,DWH并不擅长进行数据的修改等操作。

如果能够在一个产品中同时兼顾"业务执行性能"和"分析性能",那将会非常简单和理想。然而,遗憾的是,由于技术上的限制,同时兼顾这两种性能是困难的。因此,为了处理大量数据的聚合和分析操作,工程师们开发了专门的产品,即DWH。

 

DWH是:

一个注重"分析性能"的数据库,可以处理大量数据并通过分析查询进行有效的分析处理。

 

如果您使用普通的关系型数据库(RDB)进行数据分析,当数据量增加时导致处理速度变得非常缓慢,那么使用DWH可能是一种解决方法。

 

与BI工具的关系

DWH是一个用于存储数据的系统,可以通过使用SQL等查询语言进行数据分析。而BI工具则专注于将分析结果以图表等可视化的方式展现。将它们结合使用,可以利用BI工具对存储在DWH中的数据进行分析。

 

与数据湖的关系

与DWH不同,"数据湖"不需要事先定义数据的模式(接受的数据格式),可以接受各种大量的数据(甚至包括图像和视频等数据),而不需要关注数据的格式。随着多样化的数据大量产生的时代的到来,人们需要一个灵活的基础设施,可以在不定义模式的情况下接受任何类型的数据。
可以通过使用Hadoop等技术实现,也可以利用各个云服务提供的对象存储服务(例如Amazon S3等)来实现。

DWH可以被视为在技术层面上的竞争技术。另一方面,人们也经常利用它们各自的特点,将数据湖和DWH结合使用。

 

相比于分析本身,“数据的准备”更加困难(包括DWH与ETL)

当您使用DWH来构建数据基础设施并开始进行数据分析时,您会发现一些意想不到的事实。与数据分析本身相比,准备所需数据的时间往往更长。

数据通常分散在企业内的各个地方,并且存在多样化的数据格式。为了进行分析,需要将数据带入DWH,但在此之前需要从各个地方读取数据,并进行数据格式转换等预处理工作,使其统一。

开始尝试进行数据分析时,常常会发现每当想要进行分析时,需要从各个地方获取CSV文件等数据,然后不断地进行繁琐的Excel前处理工作。这种情况在实际应用中非常常见。

所以,诞生了一种可以连接多种多样的数据源,能够获取数据并高效进行数据转换等操作的"数据连接工具"。作为解决DWH的困扰的手段,这类产品被称为"ETL"

 

数据活用中的“坑”:
与数据分析本身相比,准备分析所需要的数据通常要花费更多的时间

 

在DWH中实现数据活用需要使用数据连接工具

近年来,有许多组织致力于数据活用。在推动数据活用方面,有多种方法和技术可供选择,但引入DWH和BI工具,并将其作为全公司的数据基础设施是常见的方法之一。

在DWH的应用中,会出现各种不同的数据连接需求,能否有效地利用(称为ETL、EAI、iPaaS等的)"数据连接工具"可能会决定数据活用的成功与失败。例如,

  • 将数据带入DWH的方法:
    数据以多种多样的形式存在于企业内部和云端的各个系统中。
  • 在DWH中加工数据的方式:
    在进行分析之前,可能需要对数据进行格式整理等数据加工操作。
  • 提取DWH中的数据并在外部进行活用的方式:
    随着DWH作为数据基础设施的确立,出现了外部系统中利用DWH上的数据的需求。
  • 与其他技术(入数据湖)结合使用的方式:
    例如,可以先在数据湖中接收各种数据,然后对数据湖的数据进行加工,最后将其流入DWH,实现"利用各自的优势进行组合使用"的情况下,需要建立数据湖和DWH之间的协作方式(或在迁移数据基础设施的情况下也需要)。

这些各种各样的工作,如果每次都要手动进行,会耗费很多时间和精力。此外,我们事先无法确定需要什么样的数据以及如何进行数据分析,往往只有在实际进行数据分析和数据活用之后才能获得这些信息。

因此,为了充分发挥DWH的作用,需要具备以下特性的数据连接工具:

可以链接多种多样的系统和数据

需要具备能够与多种多样的内部系统、各种格式不同的Excel文件、各种不同的云服务以及多样化的数据和系统进行连接的能力。

 

具备非常高的处理性能

分析用的数据通常是从过去积累的大量数据中获取的,数据规模往往很大。需要能够高速处理大量数据的能力。简单方便的工具是不足够的,需要具备可以进行全面应用的手段。

 

各种处理任务自动化

对于定期获取数据并将其流入DWH的处理进行自动化、在DWH上对数据进行整理的工作,例如将积累在DWH上的数据输入到机器学习模型中进行处理,并将预测结果自动应用于业务中,期望能够利用自动化手段来实现这些需求。

 

业务现场能够自己操作且使用便捷

在数据活用中,很难事先分析出对IT系统的具体要求。这是因为需要不断收集和分析数据,从中获得洞察。

假设我们在分析过程中发现了一些信息。我们希望进行额外的数据分析,但为此需要获取新的数据,或者为了将所发现的内容应用于业务成果,需要实现自动化的数据协作处理等等。这样的情况应该是常见的。如果每次我们意识到需要这样做时,都需要依赖IT的改动并等待,那么数据的利用将无法高效进行。然而,如果我们试图通过手工努力来完成这些工作,结果往往是陷入琐碎的数据处理工作中,进展依然不顺利。

此外,这样的发现往往由了解业务的人而不是IT专家更擅长。因此,我们也希望他们能够自己推进这些工作。

因此,为了有效地推进数据利用,现场需要能够快速调整数据协作的方式。更进一步的说,最好由对业务和商业现状及需求有深入了解的人主导进行。

如果有能够仅通过图形用户界面(GUI)自由开发数据协作的无代码(No-Code)或低代码(Low-Code)工具,那么现场用户就可以快速解决这些需求,并能够高效推进数据的有效利用。

 

Haidu Data Spider试用版

"Haidu Data Spider"是由Saison Information Systems开发和销售的数据整合工具,具备ETL功能,并且拥有广泛的使用案例。

"Haidu Data Spider"是一款独具特色的数据整合工具,无需编写代码,只需通过直观的GUI界面(无代码开发)即可进行开发。它具备高度的开发生产力,能够满足专业业务需求并提供出色的性能。而且,它非常易于业务现场人员使用,不仅仅限于专业程序员,任何人都能够轻松上手。

"Haidu Data Spider"不仅适用于数据活用,还能够顺利解决各种IT利用的问题,例如云技术的应用。它能够解决因系统和数据分散而导致的难题,使各个部分无缝连接,从而促进各种IT利用的成功。

 

我们提供免费的试用版,并且还不定期举办免费的在线研讨会,让您实际尝试使用。如果您有兴趣,请务必试用。我们将不胜感激。