Lake Formation 中的蓝图和工作流程 - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Lake Formation 中的蓝图和工作流程

工作流封装了复杂的多任务提取、转换和加载 (ETL) 活动。工作流程生成Amazon Glue搜寻器、作业和触发器来协调数据的加载和更新。Lake Formation 将工作流作为单个实体执行和跟踪。您可以将工作流程配置为根据需要或计划运行。

您在 Lake Formation 中创建的工作流在Amazon Glue控制台作为有向无环图 (DAG) (DAG)。每个 DAG 节点都是一个作业、爬网程序或触发器。要监视进度并进行故障排除,您可跟踪工作流中各节点的状态。

当 Lake Formation 工作流完成后,运行该工作流的用户将被授予Lake FormationSELECT对工作流创建的数据目录表的权限。

您也可以在中创建工作流程Amazon Glue. 但是,由于 Lake Formation 允许您从蓝图创建工作流,因此在 Lake Formation 中创建工作流要简单得多,自动化程度也更高。Lake Formation 提供以下类型的蓝图:

  • 数据库快照— 从 JDBC 源将所有表中的数据加载或重新加载到数据湖中。您可以根据排除模式从源中排除某些数据。

  • 增量数据库— 根据先前设置的书签,仅将新数据从 JDBC 源加载到数据湖中。在 JDBC 源数据库中指定要包含的各个表。对于每个表,您可以选择书签列和书签排序顺序,以跟踪以前加载的数据。首次针对一组表运行增量数据库蓝图时,工作流会加载表中的所有数据,并为下一次增量数据库蓝图运行设置书签。因此,您可以使用增量数据库蓝图而不是数据库快照蓝图来加载所有数据,前提是您将数据源中的每个表指定为参数。

  • 日志文件— 从日志文件源批量加载数据,包括Amazon CloudTrail、Elastic Load Balancing and Load LApplication Load Balancer anand B

使用下表帮助决定是使用数据库快照还是增量数据库蓝图。

在以下情况下使用数据库快照... 在以下情况下使用增量数据库...
  • 模式演变是灵活多变的。(重新命名列,删除以前的列,并在其位置添加新列。)

  • 源和目标之间需要完全一致。

  • 架构演变是渐进的。(只有连续添加列。)

  • 只添加新行;不更新之前的行。

注意

用户无法编辑 Lake Formation 创建的蓝图和工作流。