亚马逊云科技推出Amazon S3新功能

prnasia
  • 实现更快的数据湖分析及简化数据发现和洞察
  • Amazon S3 Tables为分析工作负载提供了快达3倍的查询性能,高达10倍的每秒事务处理量;Amazon S3 Metadata提供可查询的对象元数据,实现近乎实时的搜索、管理和增强数据,加速数据发现。

北京2024年12月17日 /美通社/ -- 亚马逊云科技在2024 re:Invent全球大会上,宣布推出Amazon Simple Storage Service(Amazon S3)新功能,使Amazon S3成为首个完全托管的支持Apache Iceberg云上对象存储,进一步提升了数据分析速度,并提供存储和管理任何规模表格数据的极简单方式。新功能还包括自动生成可查询的元数据,简化数据发现与理解,助力客户充分挖掘Amazon S3中的数据价值。

  • Amazon S3 Tables是首个内置Apache Iceberg表支持的云上对象存储,推出了一种新型存储桶,以Iceberg表的形式优化存储和表数据查询,查询速度最高可提升3倍,每秒事务处理量(TPS)可提高10倍,并自动化分析工作负载的表格维护。
  • Amazon S3 Metadata通过自动捕获可查询的对象元数据以及使用对象标签的自定义元数据,将其存储于Amazon S3 Tables中来加速数据湖分析,可实现近乎实时的数据发现。

亚马逊云科技存储部门副总裁兼杰出工程师Andy Warfield表示:"Amazon S3作为领先的对象存储,存储了超过400万亿个对象,成为数百万客户的选择。我们致力于不断创新,以前所未有的规模消除处理数据的复杂性。随着表格数据的快速增长,众多客户希望实现跨表查询并提升查询性能,更好地理解和组织大量数据,以便轻松找到他们所需要的信息。Amazon S3 Tables和Amazon S3 Metadata消除了在对象上组织和操作表格及元数据存储的复杂性,使客户能够专注于数据构建。"

Amazon S3 Tables和Amazon S3 Metadata现已与Apache Iceberg表兼容,客户可以使用亚马逊云科技分析服务以及开源工具,包括Amazon Athena、Amazon QuickSight和Apache Spark,轻松查询他们的数据。

Amazon S3 Table:以简便快捷的方式执行Amazon S3中的Apache Iceberg表分析

如今,许多客户都以表格数据来组织他们用于分析的数据,这些数据通常存储在Apache Parquet 中,这是一种针对数据查询进行优化的文件格式。Parquet已成为Amazon S3中增速最快的数据类型之一。客户越来越多地希望能够查询这些不断增长的表格数据集,他们通常会使用开放表格式(open table formats,OTF),这是一种以表格存储数据的开源标准,有助于更有效地管理、更新和跟踪大量数据的变化。Iceberg管理Parquet文件,已成为最流行的OTF。客户使用Iceberg处理包含PB乃至EB级数据的数十亿文件。但随着客户规模的扩大,客户管理Iceberg极具挑战,往往需要专业的团队来构建和维护系统,进行表维护、数据压缩以及管理访问控制。这些外部系统不仅成本高昂和复杂,同时还需要专业的团队来维护,占用了企业诸多宝贵资源。

Amazon S3 Tables专为管理数据湖中的Apache Iceberg表构建。Amazon S3 Tables专门针对分析工作负载进行优化,与通用Amazon S3存储桶相比,提供了高达3倍的查询性能和10倍的每秒事务处理量(TPS)。Amazon S3 Tables能够自动管理表维护任务,包括为更好的查询性能而进行的压缩,以及快照管理,随着客户数据湖的不断扩展和演进,实现对查询性能和存储成本进行的持续优化。客户仅需创建一个表存储桶,即可使用S3 Tables优化存储和查询完全托管的Iceberg表中的数据。借助Amazon S3 Tables,客户可受益于Iceberg的诸多功能,如行级事务处理、通过时间旅行功能查询快照以及模式演进等。此外,Amazon S3 Tables还提供了表级访问控制,让客户精准能够定义数据访问权限。

Genesys是全球领先的AI驱动体验编排服务商,正计划使用Amazon S3构建数据湖。借助Amazon S3 Tables对托管Iceberg的支持,Genesys希望为其多元化的数据分析需求构建一个材料化视图层。Amazon S3 Tables内置对Iceberg表的支持将极大简化复杂的数据工作流程,通过自动执行关键维护任务,如表压缩、快照管理以及未引用文件的清理等。Genesys期待能从兼容Iceberg的分析工具中获得性能提升和广泛支持,这些工具可直接从Amazon S3中读写Iceberg表。Amazon S3 Tables将成为Genesys未来数据战略的基石,帮助Genesys提供更快、更灵活、更可靠的数据洞察,以支持其AI驱动的客户和员工体验解决方案。

Amazon S3元数据:更轻松、快捷地探索和理解Amazon S3中的数据

随着越来越多的客户将Amazon S3作为其中央数据存储库,数据量与数据种类呈指数级增长。元数据作为理解和组织海量数据的一种方式变得越来越重要,以便客户能够找到他们所需的确切对象。为有效应对这一挑战,许多客户不得不构建并维护复杂的元数据获取与存储系统,来深化他们对数据的认知。但这些元数据系统不但成本高昂、耗时,而且资源密集,通常需要数据工程师在元数据流经处理管道时,手动跟踪和更新元数据;同时,还要求数据分析师手动遍历海量的对象存储,以找到用于分析和AI/ML数据处理工作流所需的特定数据。

Amazon S3 Metadata能够近乎实时地自动生成可查询的对象元数据,从而加速数据发现并提升数据理解能力,帮助客户消除构建和维护复杂元数据系统的负担。借助Amazon S3 Metadata,客户可以查询、发现并使用数据,以支持业务分析、实时推理应用等。Amazon S3 Metadata能够自动生成对象元数据,包括系统定义的详情,如对象的大小和来源,并可通过新的Amazon S3 Tables进行查询。随着对象的增加或删除,Amazon S3 Metadata会实时更新Amazon S3 Tables中的对象元数据,确保客户获得最新的数据视图。客户还可以使用对象标签添加自定义元数据,为对象注释特定的业务信息,如产品SKU、交易ID、内容评级或客户详细信息。客户还可以通过简单的SQL查询轻松检索元数据,快速查找和准备数据,以支持业务分析、实时推理应用、基础模型微调、检索增强生成(RAG)、数据仓库与分析工作流集成,以及执行有针对性的存储优化任务等。

各种规模的企业都将受益于Amazon S3 Metadata的数据发现和理解。领先的生物技术公司罗氏(Roche),计划借助Amazon S3 Metadata加速其未来生成式AI计划。随着罗氏对先进大型语言模型(LLM)应用的开发,如复杂的内部聊天机器人,罗氏预计其用于检索增强生成(RAG)的非结构化数据量将面临成倍增长。Amazon S3 Metadata将简化可扩展元数据系统的构建,自动为新数据的摄入生成并更新元数据。Roche期望通过定制的Lambda函数提取复杂的、特定于业务的元数据,并将其与Amazon S3 Metadata无缝集成到综合Amazon Glue目录中。这将让企业更有效率,并快速识别可为前沿AI应用提供支持的相关数据集,让罗氏聚焦于个性化医疗领域的突破性创新。

Cambridge Mobile Telematics (CMT) 是全球最大的远程信息处理服务提供商。该公司从设备收集传感器数据,并使用上下文数据对其进行增强,从而创建车辆与驾驶员行为统一的视图,供汽车保险公司、汽车制造商、商业移动公司以及公共部门用于支持风险评估、安全、理赔和驾驶员改进计划。CMT存储并分析来自全球数百万物联网设备的多PB级数据。随着公司规模的扩大,为提出新见解和开发新模型而定位特定数据变得越来越有挑战性。借助Amazon S3 Metadata(包括系统元数据和自定义元数据),CMT能够查询PB级元数据,使查找相关数据变得简单且经济高效。

Amazon S3 Tables现已正式可用,Amazon S3 Metadata现推出预览版。Amazon S3 Tables与Amazon Glue Data Catalog集成现已预览可用,客户可使用亚马逊云科技的分析服务(如 Amazon Athena、Amazon Redshift、Amazon EMR 和 Amazon QuickSight)对包括Amazon S3 Metadata Tables在内的数据进行查询和可视化操作。

标签: