Los metadatos importan

Jeff George
.
February 22, 2022
Los metadatos importan

Al igual que la ciberseguridad, es fácil pasar por alto la gobernanza de datos; es mucho trabajo hacerlo bien y, la mayoría de las veces, no parece un problema urgente. Sin embargo, al igual que la ciberseguridad, ignorar el riesgo puede dañar gravemente su empresa.

A medida que las organizaciones confían cada vez más en los datos para tomar decisiones críticas, es esencial utilizar artefactos y prácticas que antes eran útiles, como los diccionarios de datos, una estrategia de nomenclatura coherente para los campos y las tablas, una taxonomía de valores, la documentación de reglas empresariales, las auditorías, etc. Si no está abordando los problemas más básicos, está poniendo en riesgo su empresa.

La vaguedad: la cuarta V del Big Data

La captura, el almacenamiento y la administración de datos es una competencia necesaria para las empresas modernas. La mayoría de las empresas se han vuelto muy buenas a la hora de aprovechar las herramientas modernas para gestionar los flujos de datos que fácilmente habrían superado a la tecnología de hace tan solo unos años. Pero en nuestro afán por recopilar los datos, con demasiada frecuencia pasamos por alto la sentido de datos.

Todos conocemos las «tres V» del Big Data: velocidad, volumen y variedad. Las herramientas de macrodatos como Hadoop y Spark, junto con la inmensa escalabilidad de las tecnologías de nube, pueden gestionar la transmisión rápida de datos (vvelocidad), enormes cantidades de datos (vvolumen) y muchos tipos de datos (vVariedad). Estas «tres V» son los desafíos clásicos que resuelven las herramientas de big data. Pero hay otra V que puede arruinar todo ese gran trabajo: la vaguedad.

Los metadatos importan

Los metadatos (datos sobre los datos) son un componente crucial para que los datos sean utilizables y, sin ellos, introducimos la ineficiencia y el riesgo en cada análisis. Como mínimo, la falta de claridad en torno al significado de los datos hace que sus equipos de tecnología y análisis sean ineficientes. Investigar para descubrir el conocimiento institucional, eliminar valores erráticos y hacer un seguimiento de los nombres incoherentes afecta a algunos de sus recursos más cualificados.

Peor aún, la falta de claridad sobre el propósito, el uso y las limitaciones de los datos puede resultar en malas decisiones. Es bastante fácil reconocer los datos incorrectos, pero los datos mal entendidos son mucho más insidiosos. El uso incorrecto de los datos correctos es más difícil de detectar y puede tener un impacto profundo en la calidad de un análisis y, en última instancia, en la decisión.

Empieza con lo básico

Entonces, ¿cuáles son las señales de que tenemos un problema de vaguedad? En primer lugar, hable con las partes interesadas y esté abierto a sus respuestas. Ahora no es el momento de explicar por qué es un desafío; es el momento de hacer frente a los hechos brutales. Escucha frases como «creo», «por lo general» y mi favorita personal: «Así es como siempre lo hemos hecho». Si tus usuarios no pueden señalar una fuente veraz o, lo que es peor, si están apuntando a diferentes fuentes de verdad, tienes un problema.

El lanzamiento de un programa de gobierno de datos requeriría un artículo completo (o tres) por sí solo, pero puede empezar por lo básico:

· Comience con sus partes interesadas. ¿Cuáles son sus puntos débiles? Obtenga una comprensión de alto nivel de los datos que se utilizan y producen en su organización, qué datos son esenciales y dónde se presentan la mayoría de los desafíos relacionados con los datos.

· Establezca administradores de datos para sus datos más importantes. Los administradores de datos son pymes y son responsables de mantener la calidad de los datos que poseen (por lo general, provienen del departamento que produce o consume los datos, no necesariamente del departamento de TI).

· Establezca sus estándares: qué datos recopila y cuándo, por qué y cómo los recopila. Tenga en cuenta las políticas, las normas del sector y los reglamentos de su empresa.

· Cree un diccionario de datos para documentar sus tablas y campos principales. Las tablas deben asignarse a entidades lógicas y los campos necesitan definiciones claras de su uso empresarial y del significado de los distintos valores.

· Utilice una matriz de riesgo-valor para averiguar por dónde empezar. Tenga en cuenta el valor y el riesgo de varias fuentes de datos. Comience con las de alto valor y alto riesgo y guarde las de bajo valor y bajo riesgo para el final.

Entender bien lo básico es un punto de partida importante, así que no dejes que la falta de un plan completo te impida progresar. Es posible que no puedas resolver el problema, pero en la mayoría de los casos, puedes avanzar con pequeñas inversiones y un poco (bueno, mucha) de disciplina.

Al igual que la ciberseguridad, es fácil pasar por alto la gobernanza de datos; es mucho trabajo hacerlo bien y, la mayoría de las veces, no parece un problema urgente. Sin embargo, al igual que la ciberseguridad, ignorar el riesgo puede dañar gravemente su empresa.

A medida que las organizaciones confían cada vez más en los datos para tomar decisiones críticas, es esencial utilizar artefactos y prácticas que antes eran útiles, como los diccionarios de datos, una estrategia de nomenclatura coherente para los campos y las tablas, una taxonomía de valores, la documentación de reglas empresariales, las auditorías, etc. Si no está abordando los problemas más básicos, está poniendo en riesgo su empresa.

La vaguedad: la cuarta V del Big Data

La captura, el almacenamiento y la administración de datos es una competencia necesaria para las empresas modernas. La mayoría de las empresas se han vuelto muy buenas a la hora de aprovechar las herramientas modernas para gestionar los flujos de datos que fácilmente habrían superado a la tecnología de hace tan solo unos años. Pero en nuestro afán por recopilar los datos, con demasiada frecuencia pasamos por alto la sentido de datos.

Todos conocemos las «tres V» del Big Data: velocidad, volumen y variedad. Las herramientas de macrodatos como Hadoop y Spark, junto con la inmensa escalabilidad de las tecnologías de nube, pueden gestionar la transmisión rápida de datos (vvelocidad), enormes cantidades de datos (vvolumen) y muchos tipos de datos (vVariedad). Estas «tres V» son los desafíos clásicos que resuelven las herramientas de big data. Pero hay otra V que puede arruinar todo ese gran trabajo: la vaguedad.

Los metadatos importan

Los metadatos (datos sobre los datos) son un componente crucial para que los datos sean utilizables y, sin ellos, introducimos la ineficiencia y el riesgo en cada análisis. Como mínimo, la falta de claridad en torno al significado de los datos hace que sus equipos de tecnología y análisis sean ineficientes. Investigar para descubrir el conocimiento institucional, eliminar valores erráticos y hacer un seguimiento de los nombres incoherentes afecta a algunos de sus recursos más cualificados.

Peor aún, la falta de claridad sobre el propósito, el uso y las limitaciones de los datos puede resultar en malas decisiones. Es bastante fácil reconocer los datos incorrectos, pero los datos mal entendidos son mucho más insidiosos. El uso incorrecto de los datos correctos es más difícil de detectar y puede tener un impacto profundo en la calidad de un análisis y, en última instancia, en la decisión.

Empieza con lo básico

Entonces, ¿cuáles son las señales de que tenemos un problema de vaguedad? En primer lugar, hable con las partes interesadas y esté abierto a sus respuestas. Ahora no es el momento de explicar por qué es un desafío; es el momento de hacer frente a los hechos brutales. Escucha frases como «creo», «por lo general» y mi favorita personal: «Así es como siempre lo hemos hecho». Si tus usuarios no pueden señalar una fuente veraz o, lo que es peor, si están apuntando a diferentes fuentes de verdad, tienes un problema.

El lanzamiento de un programa de gobierno de datos requeriría un artículo completo (o tres) por sí solo, pero puede empezar por lo básico:

· Comience con sus partes interesadas. ¿Cuáles son sus puntos débiles? Obtenga una comprensión de alto nivel de los datos que se utilizan y producen en su organización, qué datos son esenciales y dónde se presentan la mayoría de los desafíos relacionados con los datos.

· Establezca administradores de datos para sus datos más importantes. Los administradores de datos son pymes y son responsables de mantener la calidad de los datos que poseen (por lo general, provienen del departamento que produce o consume los datos, no necesariamente del departamento de TI).

· Establezca sus estándares: qué datos recopila y cuándo, por qué y cómo los recopila. Tenga en cuenta las políticas, las normas del sector y los reglamentos de su empresa.

· Cree un diccionario de datos para documentar sus tablas y campos principales. Las tablas deben asignarse a entidades lógicas y los campos necesitan definiciones claras de su uso empresarial y del significado de los distintos valores.

· Utilice una matriz de riesgo-valor para averiguar por dónde empezar. Tenga en cuenta el valor y el riesgo de varias fuentes de datos. Comience con las de alto valor y alto riesgo y guarde las de bajo valor y bajo riesgo para el final.

Entender bien lo básico es un punto de partida importante, así que no dejes que la falta de un plan completo te impida progresar. Es posible que no puedas resolver el problema, pero en la mayoría de los casos, puedes avanzar con pequeñas inversiones y un poco (bueno, mucha) de disciplina.