Data Profiling vs. Data Mining: por que você precisa de ambos
A perfilagem de dados e a mineração de dados podem parecer semelhantes, mas servem a propósitos diferentes de gerenciamento de dados. Os dois processos devem trabalhar juntos para garantir dados de qualidade.
Em teoria, o uso de dados deveria ser simples. Todos os dados seriam facilmente acessíveis em um banco de dados organizado com tipos claramente rotulados e consistentes, prontos para uso para análise. Na prática, não é tão simples. Uma organização pode armazenar dados de diferentes departamentos em vários formatos – muitas vezes incompatíveis – e às vezes sem nenhuma estrutura ou organização.
Compreender como usar técnicas de mineração de dados e criação de perfil em conjunto pode ajudar uma organização a extrair insights valiosos de seus dados.
– Data Profiling é o processo que examina, analisa, revisa e resume a qualidade de um conjunto de dados. Identifica onde estão os dados, do que se trata, quem tem acesso a eles e se são consistentes, precisos e completos. Pode melhorar a qualidade dos dados para qualquer aplicação. Por exemplo, preparar dados para treinar modelos de IA. É também um primeiro passo importante para a mineração de dados.
– Data Mining é o processo de análise de conjuntos de dados estruturados ou não estruturados para identificar padrões, relacionamentos e correlações. Os modelos analíticos usam os resultados para gerar insights que permitem a tomada de decisões baseada em dados.
Na maioria das vezes, DM está associado à obtenção de insights de dados não modelados, como por exemplo em textos de e-mails, contratos e publicações em mídias sociais que não estão prontos para análise por BI ou outras ferramentas analíticas em sua forma bruta. Primeiro extrai-se o texto em busca de estruturas, incluindo entidades, tópicos e sentimentos, e depois analisa-se essas estruturas extraídas ou derivadas.
Para fazer DP e DM, há uma variedade de técnicas. As organizações devem escolher qual melhor atende às suas necessidades. As técnicas de Data Profiling incluem análise estatística, avaliação da qualidade dos dados e schema discovery. Quanto à Data Mining, as técnicas comuns incluem detecção de anomalias, agrupamento, classificação, regressão, redes neurais, árvores de decisão e K-Nearest Neighbor, que podem revelar insights dos clientes, melhorar estratégias de marketing, aumentar vendas, otimizar processos de negócios e reduzir custos.
Diferentes indústrias podem aplicar ambos os processos de maneiras diferentes para alcançar resultados eficazes em Ciência e Tecnologia, detecção de fraude, Análise de mercado, Fidelização de clientes, entre outras aplicações.
Fonte: TechTarget.com
https://www.techtarget.com/searchdatamanagement/tip/Data-profiling-vs-data-mining-Why-you-need-both
Alguns anos atrás, fomos contratados por uma empresa do setor financeiro para criar uma estrutura de data analytics que garantisse...