本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
什么是 Amazon Lake Formation?
欢迎阅读 Amazon Lake Formation 开发人员指南。
Amazon Lake Formation是一种完全托管服务,它让用户能够轻松地构建、保护和管理数据湖。Lake Formation 简化并自动化了创建数据湖通常所需的许多复杂的手动步骤。这些步骤包括收集、清理、移动和编目数据,以及安全地将这些数据用于分析和机器学习。
Lake Formation 提供了自己的权限模型,该模型增强了 IAM 权限模型。这种集中定义的权限模型允许通过简单的授予或撤销机制对存储在数据湖中的数据进行精细访问,这与关系数据库管理系统 (RDMS) 非常相似。Lake Formation 权限是在列、行和单元格级别使用精细控制强制执行的Amazon分析和机器学习服务,包括Amazon Athena、亚马逊 QuickSight和 Amazon Redshift。
Lake Formation 功能
Lake Formation 可以打破数据孤岛,将不同类型的结构化和非结构化数据合并到一个集中式存储库中。首先,找出存储在 Amazon S3 或关系数据库和 NoSQL 数据库中的现有数据,然后将数据移动到您的数据湖中。然后对数据进行抓取、编目和准备以供分析。接下来,通过用户选择的分析服务,为他们提供安全的自助数据访问权限。
设置和数据管理
从已有的数据库导入数据Amazon
一旦您指定了现有数据库的位置并提供了访问凭证,Lake Formation 就会读取数据及其元数据(架构)以了解数据源的内容。然后,它将数据导入您的新数据湖,并将元数据记录在中央目录中。使用 Lake Formation,你可以从在亚马逊 RDS 中运行或托管在Amazon EC2 中的 MySQL、PostgreSQL、SQL Server、MariaDB 和 Oracle 数据库导入数据。支持批量和增量数据加载。
从其他外部来源导入数据
您可以使用 Lake Formation 通过连接 Java 数据库连接 (JDBC) 从本地数据库中移动数据。确定您的目标来源并在控制台中提供访问凭证,Lake Formation 会读取您的数据并将其加载到数据湖中。要从上面列出的数据库以外的数据库导入数据,您可以使用以下命令创建自定义 ETL 任务Amazon Glue.
对您的数据进行编目和标记
Lake Formation 会抓取和读取您的数据源以提取技术元数据,并创建一个可搜索的目录来为用户描述这些信息,以便他们能够发现可用的数据集。您还可以在数据(表和列级别)中添加自己的自定义标签,以定义属性,例如 “敏感信息” 和 “欧洲销售数据”。Lake Formation 针对这些元数据提供基于文本的搜索,因此您的用户可以快速找到他们需要分析的数据。有关将表添加到数据目录的更多信息,请参阅管理数据目录表和数据库.
转换数据
Lake Formation 可以对您的数据进行转换,例如重写各种日期格式以保持一致性,以确保以便于分析的方式存储数据。Lake Formation 创建转换模板并安排作业以准备数据以供分析。您的数据通过以下方式进行转换Amazon Glue并以列式格式编写,例如 Parquet 和 ORC)))。
清除和删除重复数据
Lake Formation 通过提供名为的机器学习转换,帮助清理和准备数据以供分析 FindMatches 用于重复数据删除和查找匹配记录。例如,请使用 FindMatches 在餐厅数据库中查找重复记录,例如当一条记录在 “121 Main St” 列出 “Joe's Pizza” 时 另一个是 “121 Main” 上的 “Joseph's Pizzeria”。 FindMatches 只会要求你将记录集标记为 “匹配” 或 “不匹配”。然后,系统将学习你将一对记录称为匹配项的标准,并将生成一个机器学习转换,你可以用它来查找数据库中的重复记录或两个数据库中的匹配记录。有关更多信息 FindMatches,请参阅将记录Amazon Lake Formation FindMatches中的Amazon Glue开发人员指南.
存储优化
许多小文件的存储效率低下可能会影响分析性能,这些小文件是在向数据湖写入新数据时自动创建的。处理这么多小文件会增加分析服务的开销,并导致查询响应变慢。Lake Formation 包含一个存储优化器,可自动将小文件合并成大文件,从而将查询速度提高多达 7 倍。此过程通常称为压缩,是在后台执行的,因此在此过程中不会对生产工作负载产生性能影响。有关 Lake Formation 的存储优化功能的更多信息,请参阅受管表的存储优化.
行级别和单元级别安全性
Lake Formation 提供数据筛选器,允许您限制对列和行组合的访问。使用行级和单元级安全保护敏感数据,例如个人身份信息 (PII)。有关行级别安全的更多信息,请参阅数据筛选概述.
安全管理
定义和管理访问控制
Lake Formation 为管理数据湖中数据的访问控制提供了一个单一位置。您可以定义安全策略,在数据库、表、列、行和单元格级别限制对数据的访问。这些策略适用于 IAM 用户和角色,也适用于通过外部身份提供商进行联合时的用户和群组。您可以使用精细的控制来访问Amazon Redshift Spectrum、Athena 中由 Lake Formation 保护的数据Amazon GlueETL 和 Apache Spark 的 Amazon EMR。
实施审计日志记录
Lake Formation 提供全面的审计日志 CloudTrail 监控访问并显示对集中定义的策略的遵守情况。您可以审核分析和机器学习服务的数据访问历史记录,这些服务通过 Lake Formation 读取数据湖中的数据。这使您可以查看哪些用户或角色尝试访问了哪些数据、使用了哪些服务以及何时访问。您可以像访问其他任何日志一样访问审核日志 CloudTrail 使用对进行日志 CloudTrailAPI 和控制台。有关 的更多信息 CloudTrail 日志见日志系统AmazonLake Formation API 调用使用Amazon CloudTrail.
基于标签的访问控制
您可以对数据进行分类并限制对敏感信息的访问。您还可以在表和列级别向数据添加自己的自定义标签(LF 标签)以定义属性,例如 “敏感信息” 或 “欧洲销售数据”。Lake Formation 针对这些元数据提供基于文本的搜索,因此您的用户可以快速找到他们需要分析的数据。您可以根据这些 LF 标签授予对数据的访问权限。有关基于标记的访问控制的更多信息,请参阅Lake Formation 标签访问控制.
跨账户访问
Lake Formation 权限管理功能简化了跨多个分布式数据湖的安全和管理Amazon通过集中式方法,提供对数据目录和 Amazon Simple Services 的细粒度访问控制。
受监管的表
数据湖需要随时向用户显示正确的数据视图,即使数据同时实时或频繁更新也是如此。加载流数据或合并来自多个源数据系统的更改需要并parallel 处理多个表中的插入和删除。如今,开发人员编写自定义应用程序代码或使用开源工具来管理这些更新。这些解决方案既复杂又难以扩展,因为编写能够在同时读取和写入相同数据时保持一致性的应用程序代码既繁琐又脆弱,而且容易出错。
Lake Formation 引入了新的 API,这些新的 API 使用一种新的数据湖表类型(称为受监管的表. 受管控的表允许多个用户使用清单同时在表中插入和删除数据,同时允许其他用户在相同的数据集上同时运行分析查询和机器学习模型,这些数据集返回一致和 up-to-date 结果。
有关如何使用 Lake Formation 的更多信息,请参阅以下主题:
Amazon与 Lake Formation 的服务集成
以下Amazon与集成的服务Amazon Lake Formation并尊重Lake Formation 的权限。
| Amazon 服务 | 如何集成 |
|---|---|
| Amazon Glue | Amazon Glue和 Lake Formation 共享相同的数据目录。对于控制台操作(例如查看表列表)和所有 API 操作,Amazon Glue用户只能访问他们拥有 Lake Formation 权限的数据库和表。 Amazon Glue不支持 Lake Formation 专栏权限。 |
| Amazon Athena | 何时Amazon Athena用户选择Amazon Glue在查询编辑器中,他们只能查询他们拥有 Lake Formation 权限的数据库、表和列。不支持使用清单的查询。 除了通过以下方式向 Athena 进行身份验证的校长之外Amazon Identity and Access Management(IAM),Lake Formation 支持通过 JDBC 或 ODBC 驱动程序连接并通过 SAML 进行身份验证的 Athena 用户。支持的 SAML 提供商包括 Okta 和微软 Active Directory 联合服务 (AD FS)。有关更多信息,请参阅将 Lake Formation 和 Athena JDBC 和 ODBC 驱动程序用于对 Athena 进行联合访问中的Amazon Athena 用户指南. 目前,以下区域不支持授权访问 Lake Formation 中的 SAML 身份:
|
| Amazon Redshift Spectrum | 当 Amazon Redshift 用户在数据库上创建外部架构时Amazon Glue目录,他们只能查询该架构中他们拥有 Lake Formation 权限的表和列。 不支持使用清单的查询。 |
| 亚马逊 QuickSight 企业版 | 当亚马逊的时候 QuickSight 企业版用户在 Amazon S3 位置查询已注册到 Lake Formation 的数据集,用户必须有 Lake FormationSELECT对数据的许可。 |
| Amazon EMR | 使用 Apache Zeppelin 或 EMR 笔记本提交 Apache Spark 应用程序时,将强制执行 Lake Formation 权限。 |
Lake Formation 也适用于Amazon Key Management Service(Amazon KMS),使您能够更轻松地设置这些集成服务,在 Amazon Simple Storage Service (Amazon S3)) 中加密和解密数据。
支持的区域
对于Amazon Web Services 区域支持Amazon Lake Formation,请参阅Amazon Lake Formation定价
有关每个区域的Lake Formation 服务终端节点以及Lake Formation 的配额的列表,请参阅Amazon Lake Formation终端节点和配额.
Lake Formation 的受管表格、事务支持、单元级安全和存储优化功能可在以下版本中找到Amazon Web Services 区域.
| 区域名称 | 区域参数 |
|---|---|
| 美国东部(弗吉尼亚州北部) | us-east-1 |
| 美国东部 (俄亥俄) | us-east-2 |
| 美国西部(俄勒冈州) | us-west-2 |
| Asia Pacific (Mumbai) | ap-south-1 |
| Asia Pacific (Seoul) | ap-northeast-2 |
| 亚太地区(新加坡) | ap-southeast-1 |
| Asia Pacific (Sydney) | ap-southeast-2 |
| Asia Pacific (Tokyo) | ap-northeast-1 |
| 欧洲(法兰克福) | eu-central-1 |
| Europe (Ireland) | eu-west-1 |
| 欧洲(伦敦) | eu-west-2 |
| 欧洲(斯德哥尔摩) | eu-north-1 |
| Canada (Central) | ca-central-1 |
| South America (São Paulo) | sa-east-1 |
Lake Formation 入门
我们建议您从以下部分入手:
-
Amazon Lake Formation:工作方式— 了解基本术语以及各个组件如何相互作用。
-
设置 Amazon Lake Formation— 获取有关先决条件的信息,并完成重要的安装任务。
-
教程— 跟随 step-by-step 教程,了解如何使用Lake Formation。
-
Amazon Lake Formation 中的安全性— 了解如何帮助安全访问 Lake Formation 中的数据。