字节跳动数据湖查询专利，如何降低存储冗余

数据湖已成为企业数据存储的新鲜宠。而字节跳动，这家以算法驱动著称的公司，近期更是凭借其数据湖查询专利，为我们揭示了怎么少许些存储冗余，实现数据湖的高大效利用。

数据湖，存储的“黑洞”还是“宝藏”？

你是不是曾想过数据湖，这玩意儿看似庞巨大而麻烦的存储系统，究竟是怎么运作的？它又是怎么处理那些个看似无没钱无尽的数据的？今天我们就来揭开字节跳动数据湖查询专利的神秘面纱，看看它是怎么将数据湖从“黑洞”变为“宝藏”的。

字节跳动数据湖：基于Apache Hudi的深厚度定制

业界目前有许多套开源的数据湖实现方案，而字节跳动选择的是基于Apache Hudi深厚度定制的方案。这种方案具有以下特性：

支持各类计算、查询引擎
底层存储兼容各类文件系统

专利揭秘：怎么少许些存储冗余

专利摘要看得出来字节跳动给了一种基于数据湖的数据查询方法、装置、设备、介质及产品。该方法包括以下步骤：

响应于接收到查询求，从数据湖中获取预先创建的优良几个存储文件各自对应的索引文件。
针对个个索引文件，从索引文件包括的优良几个索引信息中，确定与查询求相匹配的至少许一个候选索引信息，并确定个个候选索引信息关联的数据行号信息以及个个候选索引信息与查询求之间的匹配值。
确定个个候选索引信息对应的行数据在数据湖中的行号，作为个个候选索引信息的全局行号信息。
根据个个候选索引信息与查询求之间的匹配值和个个候选索引信息的全局行号信息，获取对应的行数据作为查询求的查询后来啊。

案例分享：字节跳动怎么实现EB级机器学样本存储

本文将介绍字节跳动怎么通过Iceberg数据湖支持EB级机器学样本存储，实现高大性能特征读取和高大效特征调研、特征工事加速模型迭代。

Apache Hudi给了MOR的方式更新鲜、加列，相比于老一套的COW方式巨大巨大少许些了特征调研导入的开销。目前，在字节跳动的离线训练样本存储中，数据总量已经达到了EB级，每日还在以PB级的速度增加远。

数据湖的优势：批流两用，高大效琢磨

相对于实时数仓数据湖能一份存储，批流两用，从而直接进行高大效的数据琢磨。本节我们聊聊的是字节跳动实时数仓场景的初探以及遇到的问题和优良决方案。

在用基于Hudi方案后我们能通过Flink将数据直接Upsert到Hudi表中，之后直接通过Presto查询数据从而做到全量数据近实时的可见可测。

专家观点：少许些Checkpoint耗时提升数据吞吐量

文 | Gary Li 字节跳动数据平台开发套件团队高大级研发工事师，数据湖开源项目Apache Hudi PMC Member。

和之前相比， Checkpoint耗时从3-5分钟少许些到了1分钟以内，HDFS抖动带来的任务输了率也巨大幅度减少。由于Checkpoint耗时少许些，实际用于数据处理的时候变得更许多了数据吞吐量翻了一倍，一边State的存储开销也降到了最矮小。

数据湖的以后字节跳动的引领

字节跳动通过其数据湖查询专利，展示了其在数据湖手艺上的选型思考和探索实践。以后因为数据量的不断增加远，数据湖将发挥越来越关键的作用。而字节跳动，无疑将成为这一领域的引领者。

本文源自金融界

业界目前有许多套开源的数据湖实现方案，字节数据湖是字节跳动基于Apache Hudi深厚度定制，适用于商用生产的数据湖存储方案，其特性如下：Hudi支持各类计算、查询引擎，底层存储兼容各类文件系统。

专利摘要看得出来本申请实施例给了一种数据处理方法及电子设备。该方法包括：电子设备将再来一次的第一文件与第二文件的索引节点，分别关联到目标索引节点。其中，目标索引节点指向第一文件的文件数据。电子设备删除第二文件的文件数据。从而有效少许些冗余数据的存储地方占用，并且，将文件的索引节点关联到目标索引节点的方式，可使得电子设备中的应用仍然能够查询到第二文件，即第二文件对于应用而言是仍然存在的，从而不关系到应用对数据的读写。

金融界2025年7月23日消息，国知识产权局信息看得出来北京字跳网络手艺有限公司；字节跳动手艺有限公司申请一项名为“基于数据湖的数据查询方法、装置、设备、介质及产品”的专利，明着号CN120353977A，申请日期为2025年04月。

欢迎分享，转载请注明来源：小川电商

原文地址:https://www.jinhanchuan.com/178801.html