Session
Gobernanza de Datos en Fabric: Lineage de Datos con Purview
En este proyecto se implementó una solución para registrar la trazabilidad de datos (data lineage) en Microsoft Purview desde notebooks de Spark en Microsoft Fabric. Automatizamos el registro de activos y procesos que ocurren dentro del Lakehouse, para que se pueda visualizar cómo los datos fluyen entre tablas y transformaciones.
Se utilizó la librería PyApacheAtlas, que permite interactuar con el catálogo de datos de Purview mediante el API de Atlas. A través de una función desarrollada en Python, se crean entidades que representan las tablas (por ejemplo, las capas Bronze, Silver y Gold), y también los procesos que conectan estas tablas, como ingestiones, transformaciones o fusiones de datos. Cada elemento queda registrado con su nombre, ubicación y descripción, y puede visualizarse luego en la vista de "lineage" de Purview.
Toda la autenticación se maneja mediante un Service Principal configurado en Key Vault, permitiendo que la solución funcione de forma segura dentro del entorno de Fabric.
Esta solución mejora la visibilidad, facilita auditorías y fortalece la gobernanza de los datos.
A modo de cierre, se presetarán posibles líneas de evolución para esta solución, como la integración de OpenLineage para capturar automáticamente la trazabilidad durante la ejecución de los notebooks.
Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.
Jump to top