Workflow
- Inspeção: Detectar dados inesperados, incorretos e inconsistentes
- Limpeza: Corrigir ou remover as anomalias identificadas
- Verificação: Após a limpeza, inspecione os resultados para verificar se estão corretos
- Relatório: É feito um relatório sobre as alterações e a qualidade dos dados armazenados atualmente
Inspeção
A fase de Inspeção é importante no fluxo de trabalho de limpeza de dados. Ela envolve uma série de atividades destinadas a identificar dados inesperados, incorretos e inconsistentes. Aqui estão alguns aspectos-chave dessa fase:
1. Perfil de Dados (Data Profiling):
- O processo de examinar os dados disponíveis em uma fonte de informação existente, como um banco de dados ou arquivo, e coletar estatísticas/informações sobre eles.
- Inclui a coleta de estatísticas descritivas (mínimo, máximo, média, moda, percentil, desvio padrão, frequência, variação, agregados como contagem e soma) e informações de metadados (tipo de dados, dimensões, valores ausentes, padrões, exclusividade, etc.).
- Esse processo pode ser demorado, mas é essencial para entender a natureza dos dados.
2. Visualização:
- Uso de ferramentas gráficas como boxplots, histogramas, gráficos de barras e visualizações mais complexas para entender melhor os dados.
- Gráficos de correlação são especialmente importantes para identificar a importância potencial de diferentes recursos (colunas).
3. Tomada de Decisões Durante a Inspeção:
- Nomes de colunas e tipos de dados:
- Verificar se o tipo de dados de cada coluna está correto e se as colunas serão úteis para a engenharia de features.
- Estatísticas numéricas de colunas:
- Identificar erros ou anomalias nos dados.
- Distribuição de dados:
- Decidir como lidar com outliers e qual visualização é mais eficaz para identificar tendências ou padrões.
- Contagem de valores únicos:
- Avaliar o tipo de coluna e o número de valores exclusivos.
- Porcentagem ou número de valores nulos:
- Decidir se instâncias/linhas devem ser descartadas, se colunas/características devem ser abandonadas, ou se técnicas de imputação devem ser aplicadas.
- Gráfico de correlação:
- Considerar a substituição de colunas fortemente correlacionadas por apenas uma para reduzir a redundância sem perda significativa de informações.
A fase de Inspeção é um passo fundamental para garantir que as decisões tomadas em relação aos dados sejam baseadas em um entendimento adequado dos dados e do conhecimento do domínio. Decisões mal informadas nesta fase podem levar a análises ruins e impactar negativamente o processo de limpeza de dados subsequente.
Limpeza
A fase de limpeza é uma etapa crítica no fluxo de trabalho de limpeza de dados, onde as anomalias identificadas durante a inspeção são corrigidas ou removidas. Aqui estão algumas técnicas e considerações importantes nesta fase:
1. Dados Irrelevantes:
- Remoção de dados que não são importantes para o domínio do problema.
- Exemplos:
- Excluir colunas como número de telefone em análises de saúde da população.
- Excluir linhas de dados de outros países quando o foco é em um país específico (ex: Portugal).
- Decisões de descarte devem ser feitas com cuidado e, idealmente, com a orientação de especialistas no domínio.
2. Duplicados:
- Remoção ou correção de instâncias repetidas no conjunto de dados.
- Esses duplicados podem surgir quando dados são combinados de múltiplas fontes.
3. Conversão de Tipos:
- Garantir que números sejam armazenados como tipos numéricos, e valores categóricos sejam codificados adequadamente.
- Tratar valores que não podem ser convertidos adequadamente (ex: definir como NA).
4. Erros de Sintaxe:
- Correção de erros de digitação e padronização de strings (ex: unificar diferentes representações do gênero masculino para “male”).
- Remoção de espaços extras em strings.
- Padronização de formatos de dados numéricos e categóricos.
5. Escalonamento:
- Scaling (min-max): Normalização de dados numéricos para o intervalo [0,1], o que é crucial para algoritmos como KNN, K-means e SVM.
- Normalization (z-score): Transformação dos dados para uma distribuição normal.
- Escalonador Robusto: Utilização do intervalo interquartil para escalonamento, mais robusto a outliers.
6. Dados Faltantes (Missing Data):
- Tratamento de dados ausentes por meio de remoção, imputação ou uso de algoritmos que lidam com valores ausentes.
7. Outliers:
- Identificação e tratamento de outliers, que podem ser erros ou verdadeiros outliers.
8. Encoding:
- Conversão de variáveis categóricas em numéricas usando várias técnicas de codificação como Label Encoding, One Hot Encoding, Dummy Encoding, Hash Encoder, Binary Encoder, Base N Encoding, entre outras.
Cada uma dessas técnicas tem um papel específico e contribui para a melhoria geral da qualidade dos dados. A escolha de quais técnicas aplicar depende do contexto dos dados, dos objetivos da análise e das peculiaridades do conjunto de dados.
É essencial que essa fase seja realizada com atenção e precisão, pois a qualidade dos dados limpos afetará diretamente a eficácia das análises e dos modelos de Machine Learning desenvolvidos posteriormente.
É importante destacar que o processo de limpeza de dados é iterativo e pode exigir várias passagens para abordar todas as questões identificadas. Além disso, a colaboração com especialistas no domínio é crucial para garantir que as decisões tomadas durante o processo de limpeza sejam informadas e corretas.
Verificação
A fase de verificação é uma etapa fundamental no fluxo de trabalho de limpeza de dados. Após a realização das etapas de inspeção e limpeza, é essencial inspecionar os resultados para garantir que as correções e alterações feitas estejam corretas e que os dados estejam em um estado adequado para análises futuras.
-
Objetivo da Verificação: O principal objetivo da verificação é assegurar que os dados limpos mantenham a integridade, a precisão e sejam representativos do problema em questão.
-
Atividades de Verificação:
- Revisar as alterações feitas durante a limpeza para certificar-se de que foram aplicadas corretamente e que não introduziram novos erros ou problemas.
- Utilizar estatísticas descritivas e visualizações para comparar os dados antes e depois da limpeza, verificando se as correções aplicadas produziram os resultados esperados.
- Confirmar que todos os problemas identificados na fase de inspeção foram devidamente abordados e resolvidos.
-
Considerações Importantes:
- A verificação requer uma abordagem detalhada e metódica para garantir que nenhum detalhe seja ignorado.
- Pode ser útil envolver a equipe que realizou a limpeza e especialistas no domínio dos dados para uma avaliação abrangente e precisa.
- Dependendo dos resultados da verificação, pode ser necessário retornar à fase de limpeza para fazer ajustes adicionais.
Ao realizar a verificação, é importante manter um foco rigoroso na qualidade dos dados, pois quaisquer erros ou imprecisões remanescentes podem afetar negativamente as análises subsequentes e os insights derivados dos dados.
Esta fase assegura que o processo de limpeza de dados foi eficaz e que os dados estão prontos para serem usados em aplicações de Machine Learning, análise de dados e tomada de decisão baseada em dados.
A verificação é uma etapa crítica que serve como um controle de qualidade final para o processo de limpeza de dados. Ela ajuda a garantir que os esforços de limpeza tenham sido bem-sucedidos e que os dados estão de acordo com os padrões e requisitos necessários para sua utilização efetiva. Ao concluir esta fase com sucesso, os analistas e cientistas de dados podem ter maior confiança na validade e na confiabilidade dos dados para suas análises e modelagens.
Relatório
A elaboração de um relatório após a limpeza de dados é uma etapa importante no fluxo de trabalho de limpeza de dados. Este relatório deve ser simples, completo e objetivo, fornecendo uma visão clara das ações realizadas e dos resultados alcançados.
-
Objetivo do Relatório: O relatório tem como objetivo documentar todo o processo de limpeza de dados, incluindo os desafios encontrados, as técnicas aplicadas, as alterações feitas e os resultados obtidos. Ele serve como um registro histórico do processo de limpeza e como uma ferramenta de comunicação para stakeholders e membros da equipe.
-
Componentes do Relatório:
- Perfil de Dados:
- Uma descrição detalhada do estado inicial dos dados, incluindo estatísticas descritivas, metadados e problemas identificados durante a fase de inspeção.
- Detalhamento das Ações de Limpeza:
- Uma descrição de todas as ações de limpeza realizadas, incluindo a remoção de dados irrelevantes, correção de erros, tratamento de dados faltantes, normalização e outras transformações.
- Resultados da Verificação:
- Uma análise dos dados após a limpeza, destacando as melhorias alcançadas e a verificação de que os dados estão agora corretos e adequados para uso.
- Decisões e Justificativas:
- Uma explicação das decisões tomadas durante o processo de limpeza, incluindo a justificativa para a escolha de técnicas específicas e a abordagem para resolver problemas particulares.
- Recomendações e Observações Finais:
- Sugestões para futuras ações relacionadas aos dados, observações sobre o processo de limpeza e recomendações para evitar problemas semelhantes no futuro.
- Perfil de Dados:
-
Importância do Relatório:
- O relatório oferece uma visão transparente e rastreável do processo de limpeza de dados, o que é essencial para a confiabilidade e credibilidade das análises subsequentes.
- Ele também é uma ferramenta valiosa para o aprendizado contínuo e a melhoria do processo de gerenciamento de dados dentro da organização.
Ao criar o relatório, é importante focar na clareza e na precisão das informações, garantindo que ele seja um recurso útil para todos os envolvidos e interessados no projeto de análise de dados.