数据血缘关系构建方法综述
网络安全与数据治理
吕琳1,田庆业2,焦冬冬1,郭金磊1,房志奇1,陈瑞1
1.华北计算机系统工程研究所; 2.中电智能科技有限公司
摘要: 随着数据量的急剧增长,如何管理和利用数据面临严峻挑战。而数据血缘作为数据治理的核心组成部分,在数据治理中有重要作用,如提升数据质量、保障数据安全等。研究了构建数据血缘关系的方法,包括系统跟踪法、基于SQL解析的方法、逆置函数法、标注法和机器学习法,分析了不同数据血缘构建方法的优缺点和应用场景,并探讨未来研究方向,为数据血缘关系的应用及后续研究提供参考。
中图分类号:TP301文献标识码:ADOI:10.19358/j.issn.2097-1788.2025.12.001引用格式:吕琳,田庆业,焦冬冬,等. 数据血缘关系构建方法综述[J].网络安全与数据治理,2025,44(12):1-5.
A review of data lineage relationship construction methods
Lv Lin1,Tian Qingye2,Jiao Dongdong1,Guo Jinlei1,Fang Zhiqi1,Chen Rui1
1. National Computer System Engineering Research Institute of China; 2. Intelligence Technology of CEC Co., Ltd.
Abstract: With the rapid growth of data volume, how to manage and utilize data is facing severe challenges. As a core component of data governance, data lineage plays an important role in data governance, such as improving data quality and ensuring data security. Therefore, this paper studies the construction methods of data lineage, including system tracking method, SQL parsingbased method, inverse function method, annotation method and machine learning method. It also explores the advantages and disadvantages of different data lineage construction methods and their application scenarios, and discusses future research directions, providing a reference for the application of data lineage relationships and subsequent research.
Key words : data lineage; metadata; data governance; big data

引言

在当今数据驱动的时代,数据已成为企业核心资产之一[1]。随着数据规模的指数级增长,如何管理和利用数据成为挑战[2]。数据血缘(Data Lineage)作为数据治理的核心组成部分,旨在通过追踪数据从采集、加工、存储到消费的全生命周期路径,揭示数据的演化关系与依赖链条,优化资源配置,从而提高公司的决策水平。 近年来,学术界形成了多种数据血缘构建方法。然而,不同方法在自动化程度、粒度等方面仍存在显著差异。本文梳理了目前构建数据血缘关系的方法,对比分析其优缺点和应用场景,并探讨未来研究方向,为数据血缘关系的应用及后续研究提供参考。


本文详细内容请下载:

https://www.chinaaet.com/resource/share/2000006893


作者信息:

吕琳1,田庆业2,焦冬冬1,郭金磊1,房志奇1,陈瑞1

(1.华北计算机系统工程研究所,北京100083;

2.中电智能科技有限公司,北京102200)


官方订阅.jpg

通知公告
编辑观点
理事会
参考资料
版权声明

凡《网络安全与数据治理》(原《信息技术与网络安全》)录用的文章,如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明,即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊,本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时,本刊支付的稿酬已包含上述使用的费用,特此声明。

《网络安全与数据治理》(原《信息技术与网络安全》)编辑部