Experience On / Dados

Data Quality: o que é e como medir a qualidade dos dados

por Elcio Santos - 23/08/2021

Sabe o que você arrisca quando não dá importância à qualidade dos dados? O futuro de sua empresa

“Não se gerencia o que não se mede, não se mede o que não se define, não se define o que não se entende, e não há sucesso no que não se gerencia.”

Essa frase foi escrita por William Edwards Deming, um estatístico e consultor americano que ficou famoso durante o processo de reerguimento do Japão, após a Segunda Guerra Mundial.

Ele desenvolveu processos produtivos focados em qualidade, em especial o Sistema Lean Toyota de Produção.

A frase foi resumida e ligeiramente alterada por Peter Drucker.

Transformada em “O que pode ser medido, pode ser melhorado”, faz parte de um conjunto de ensinamentos deixados pelo pai da administração moderna.

Na verdade, podemos resumir essa máxima ainda mais — em uma palavra: dados.

Entre os ensinamentos de Drucker – e eles não apenas sobreviveram à prova do tempo, mas ganharam ainda mais nesses nossos tempos de customer experience, customer centric.

Além de, big data analytics, business intelligence e data science – a importância de se ter dados confiáveis para a tomada de decisões certamente se destaca.

Opa,

Parece que teremos que corrigir nosso resumo das máximas de Deming e Drucker e empregar duas palavras: dados confiáveis.

Data Quality para medir a qualidade dos dados?

E aqui, será necessário introduzir outra expressão: qualidade dos dados (data quality).

Essa é uma medida da condição dos dados com base em fatores como precisão, integridade, consistência, confiabilidade e se estão atualizados.

Medir os níveis de qualidade pode ajudar as organizações a identificar erros que precisam ser resolvidos e avaliar se os dados em seus sistemas de TI ou no data warehouse, atendem ao propósito pretendido.

A ênfase na qualidade dos dados em sistemas corporativos aumentou.

À medida que, o processamento de dados se tornou mais intrinsecamente vinculado às operações de negócios e as organizações usam cada vez mais estas análises, a fim de ajudar a conduzir as decisões de negócios.

Basicamente, um gerenciamento de qualidade é um componente central do processo geral de gestão.

Com isso, os esforços de melhoria da qualidade de acesso a informações costumam estar intimamente ligados aos programas de governança de dados.

Quanto vale para uma empresa garantir a qualidade dos seus dados?

Dados de baixa qualidade são frequentemente apontados como a fonte de confusões operacionais, análises imprecisas e estratégias de negócios mal concebidas.

Exemplos de danos econômicos que podem causar problemas incluem despesas adicionais quando os produtos são enviados para endereços de clientes errados, oportunidades de vendas perdidas devido a registros de clientes errôneos ou incompletos e multas por relatórios financeiros ou regulamentares inadequados.

A @IBM tem um estudo que calculou que o custo anual dos problemas de qualidade de dados nos EUA foi de US $3,1 trilhões em 2016.

Em um artigo que escreveu para o MIT Sloan Management Review em 2017, o consultor Thomas Redman estimou que corrigir erros e lidar com os problemas de negócios causados por dados ruins custa às empresas de 15% a 25% de sua receita anual em média.

Façamos um cálculo rápido. Uma empresa que tenha uma receita anual de $1 milhão pode chegar a gastar $250 mil com correções.

Uau!

Uma empresa que fature $100 milhões anuais pode ter que gastar $15 milhões por ano, corrigindo erros de dados e resolvendo problemas de negócios.

No caso de sua empresa, quanto custa essa atividade “invisível” de corrigir erros de dados?

A conta é simples: pegue a receita anual de sua empresa e aplique o percentual de 15% — segundo a IBM, esse valor é o mínimo que você pode estar jogando na lata do lixo.

O importante é não tentar se enganar, fingindo que o problema não existe em sua empresa. As empresas que insistem nessa postura podem receber uma fatura muito alta à frente.

O que é “data quality”, ou seja, boa qualidade de dados?

A precisão é um atributo fundamental dos dados de alta qualidade.

Para evitar problemas nos sistemas de processamento de transações operacionais e resultados defeituosos em aplicativos analíticos, os dados usados devem estar corretos.

Dados imprecisos precisam ser identificados, documentados e corrigidos para garantir que executivos, analistas e outros usuários finais estejam trabalhando com boas informações.

Outros aspectos, ou dimensões, que são elementos importantes incluem:

  • integridade de dados, com conjuntos que contêm todos os elementos que deveriam estar presentes;
  • consistência de dados, onde não há conflitos entre os diferentes sistemas nos mesmos valores de dados ou conjuntos de dados;
  • ausência de registros de dados duplicados nos databases;
  • dados atualizados;
  • e conformidade com os formatos de dados padrão criados por uma organização.

Atender a todos esses fatores ajuda a produzir conjuntos de dados confiáveis.

Como determinar a qualidade dos dados

Como uma primeira etapa para determinar seus níveis de qualidade de dados, as organizações normalmente realizam um inventário de ativos no qual a precisão.

Outra etapa é criar um conjunto comum de regras de qualidade com base nos requisitos de negócios para dados operacionais e analíticos.

Essas regras especificam os níveis de qualidade exigidos para diferentes conjuntos de dados e detalham quais elementos precisam ser incluídos para que possam ser verificados quanto à precisão, consistência e outros atributos de qualidade.

Depois que as regras estão em vigor, uma equipe de gerenciamento de dados normalmente realiza uma avaliação da qualidade para medir a qualidade dos conjuntos e documentar erros e outros problemas.

Várias metodologias para avaliações desenvolvidas

Por exemplo, os gerentes de dados da subsidiária de serviços de saúde Optum do UnitedHealth Group criaram o Data Quality Assessment Framework (DQAF) para formalizar um método de avaliação da qualidade dos dados.

O DQAF fornece diretrizes para medir as dimensões da qualidade dos dados que incluem integridade, oportunidade, validade, consistência e integridade.

A Optum publicou detalhes sobre a estrutura como um possível modelo para outras organizações.

O Fundo Monetário Internacional (FMI), que supervisiona o sistema monetário global e empresta dinheiro para nações economicamente problemáticas.

Porém, também especificou uma metodologia de avaliação, também conhecida como Estrutura de Avaliação de Qualidade de Dados.

Sua estrutura se concentra na precisão, confiabilidade, consistência e outros atributos de dados na qualidade dos dados estatísticos que os países membros precisam apresentar ao FMI.

Ferramentas e técnicas de gerenciamento de qualidade de dados

Projetos de qualidade de dados normalmente também envolvem várias outras etapas.

Por exemplo, um ciclo de gerenciamento de qualidade delineado pelo consultor David Loshin começa identificando e medindo o efeito que dados ruins têm nas operações de negócios.

Em seguida, a organização define as regras de qualidade de dados, estabelece metas de desempenho relevantes para aprimorar as métricas de qualidade e coloca em prática processos de melhoria específicos.

Esses processos incluem limpeza de dados, ou depuração de dados, para corrigir erros, além de trabalhar para aprimorar conjuntos de dados, adicionando valores ausentes, informações mais atualizadas ou registros adicionais.

As organizações monitoram e medem os resultados em relação às metas de desempenho, e qualquer deficiência remanescente na qualidade dos dados oferece um ponto de partida para a próxima rodada de melhorias planejadas.

Esse ciclo tem como objetivo garantir que os esforços para melhorar a qualidade geral dos dados continuem após a conclusão de projetos individuais.

Ferramentas de software especializadas para gerenciamento de qualidade de dados podem combinar registros, excluir duplicatas, validar novos dados, estabelecer políticas de remediação e identificar dados pessoais em conjuntos.

Elas também fazem perfis de dados para coletar informações sobre conjuntos e identificar possíveis valores atípicos.

Os dashboards de gerenciamento para iniciativas de qualidade de dados oferecem suporte à criação de regras de tratamento, descoberta de relacionamentos e transformações automatizadas que podem fazer parte dos esforços de manutenção de qualidade de dados.

Ferramentas de capacitação de colaboração e fluxo de trabalho também se tornaram mais comuns.

Isso disponibiliza visualizações compartilhadas de repositórios de dados corporativos para gerentes de qualidade e administradores de dados, que têm a responsabilidade de supervisionar conjuntos específicos.

Em suma, essas ferramentas e processos de melhoria de qualidade de dados frequentemente se integram em programas de governança de dados.

Normalmente usam métricas de qualidade para ajudar a demonstrar seu valor de negócios para as empresas e iniciativas de gerenciamento de dados mestres (MDM).

Todos visam criar registros centrais mestres sobre os clientes, produtos e cadeias de abastecimento.

Desafios emergentes da qualidade de dados

Por muitos anos, a carga dos esforços de qualidade de dados centrou-se em dados estruturados armazenados em databases relacionais, uma vez que eram a tecnologia dominante para o gerenciamento de dados.

Mas a natureza dos problemas de qualidade se expandiu à medida que os sistemas de big data, inteligência artificial e a computação em nuvem se tornaram mais proeminentes.

Cada vez mais, os gerentes de dados também precisam se concentrar na qualidade dos dados não estruturados e semiestruturados.

Exemplos? Textos, registros de sequência de cliques da Internet, sensores e redes, bem como sistemas e logs de aplicativos.

O uso crescente de inteligência artificial (IA) e aplicativos de aprendizado de máquina complicam ainda mais o processo de qualidade de dados para as organizações.

Assim como a adoção de plataformas de streaming em tempo real que canalizam grandes volumes de dados para sistemas corporativos de forma contínua.

Além disso, as organizações frequentemente gerenciam a qualidade por meio de uma combinação de sistemas locais e em nuvem.

As demandas de qualidade de dados também estão se expandindo devido à implementação de novas leis de privacidade.

Como, por exemplo, a LGPD – Lei Geral de Proteção de Dados.

Essas novas leis dão às pessoas o direito de acessar os dados pessoais que as empresas coletam sobre elas.

Isso significa que as organizações devem poder encontrar todos os registros de um indivíduo sem perder nenhum em seus sistemas devido à imprecisão ou inconsistência.

Como anda o processo de qualidade de dados (data quality) em sua empresa?

Não se engane, essa pode ser uma pergunta que vale milhões de reais.

E acreditamos que podemos ajudá-lo a respondê-la.

Envie um email para descomplicando@aodigital.com.br e vamos marcar uma conversa – sem compromisso.

 

Descomplique já

Fale com um dos nossos especialistas em Estratégia do Consumidor