Workflow

Inspeção: Detectar dados inesperados, incorretos e inconsistentes
Limpeza: Corrigir ou remover as anomalias identificadas
Verificação: Após a limpeza, inspecione os resultados para verificar se estão corretos
Relatório: É feito um relatório sobre as alterações e a qualidade dos dados armazenados atualmente

Inspeção

A fase de Inspeção é importante no fluxo de trabalho de limpeza de dados. Ela envolve uma série de atividades destinadas a identificar dados inesperados, incorretos e inconsistentes. Aqui estão alguns aspectos-chave dessa fase:

1. Perfil de Dados (Data Profiling):

O processo de examinar os dados disponíveis em uma fonte de informação existente, como um banco de dados ou arquivo, e coletar estatísticas/informações sobre eles.
Inclui a coleta de estatísticas descritivas (mínimo, máximo, média, moda, percentil, desvio padrão, frequência, variação, agregados como contagem e soma) e informações de metadados (tipo de dados, dimensões, valores ausentes, padrões, exclusividade, etc.).
Esse processo pode ser demorado, mas é essencial para entender a natureza dos dados.

2. Visualização:

Uso de ferramentas gráficas como boxplots, histogramas, gráficos de barras e visualizações mais complexas para entender melhor os dados.
Gráficos de correlação são especialmente importantes para identificar a importância potencial de diferentes recursos (colunas).

3. Tomada de Decisões Durante a Inspeção:

Nomes de colunas e tipos de dados:
- Verificar se o tipo de dados de cada coluna está correto e se as colunas serão úteis para a engenharia de features.
Estatísticas numéricas de colunas:
- Identificar erros ou anomalias nos dados.
Distribuição de dados:
- Decidir como lidar com outliers e qual visualização é mais eficaz para identificar tendências ou padrões.
Contagem de valores únicos:
- Avaliar o tipo de coluna e o número de valores exclusivos.
Porcentagem ou número de valores nulos:
- Decidir se instâncias/linhas devem ser descartadas, se colunas/características devem ser abandonadas, ou se técnicas de imputação devem ser aplicadas.
Gráfico de correlação:
- Considerar a substituição de colunas fortemente correlacionadas por apenas uma para reduzir a redundância sem perda significativa de informações.

A fase de Inspeção é um passo fundamental para garantir que as decisões tomadas em relação aos dados sejam baseadas em um entendimento adequado dos dados e do conhecimento do domínio. Decisões mal informadas nesta fase podem levar a análises ruins e impactar negativamente o processo de limpeza de dados subsequente.

Limpeza

A fase de limpeza é uma etapa crítica no fluxo de trabalho de limpeza de dados, onde as anomalias identificadas durante a inspeção são corrigidas ou removidas. Aqui estão algumas técnicas e considerações importantes nesta fase:

1. Dados Irrelevantes:

Remoção de dados que não são importantes para o domínio do problema.
Exemplos:
- Excluir colunas como número de telefone em análises de saúde da população.
- Excluir linhas de dados de outros países quando o foco é em um país específico (ex: Portugal).
Decisões de descarte devem ser feitas com cuidado e, idealmente, com a orientação de especialistas no domínio.

2. Duplicados:

Remoção ou correção de instâncias repetidas no conjunto de dados.
Esses duplicados podem surgir quando dados são combinados de múltiplas fontes.

3. Conversão de Tipos:

Garantir que números sejam armazenados como tipos numéricos, e valores categóricos sejam codificados adequadamente.
Tratar valores que não podem ser convertidos adequadamente (ex: definir como NA).

4. Erros de Sintaxe:

Correção de erros de digitação e padronização de strings (ex: unificar diferentes representações do gênero masculino para “male”).
Remoção de espaços extras em strings.
Padronização de formatos de dados numéricos e categóricos.

5. Escalonamento:

Scaling (min-max): Normalização de dados numéricos para o intervalo [0,1], o que é crucial para algoritmos como KNN, K-means e SVM.
Normalization (z-score): Transformação dos dados para uma distribuição normal.
Escalonador Robusto: Utilização do intervalo interquartil para escalonamento, mais robusto a outliers.

6. Dados Faltantes (Missing Data):

Tratamento de dados ausentes por meio de remoção, imputação ou uso de algoritmos que lidam com valores ausentes.

7. Outliers:

Identificação e tratamento de outliers, que podem ser erros ou verdadeiros outliers.

8. Encoding:

Conversão de variáveis categóricas em numéricas usando várias técnicas de codificação como Label Encoding, One Hot Encoding, Dummy Encoding, Hash Encoder, Binary Encoder, Base N Encoding, entre outras.

Cada uma dessas técnicas tem um papel específico e contribui para a melhoria geral da qualidade dos dados. A escolha de quais técnicas aplicar depende do contexto dos dados, dos objetivos da análise e das peculiaridades do conjunto de dados.

É essencial que essa fase seja realizada com atenção e precisão, pois a qualidade dos dados limpos afetará diretamente a eficácia das análises e dos modelos de Machine Learning desenvolvidos posteriormente.

É importante destacar que o processo de limpeza de dados é iterativo e pode exigir várias passagens para abordar todas as questões identificadas. Além disso, a colaboração com especialistas no domínio é crucial para garantir que as decisões tomadas durante o processo de limpeza sejam informadas e corretas.

Verificação

A fase de verificação é uma etapa fundamental no fluxo de trabalho de limpeza de dados. Após a realização das etapas de inspeção e limpeza, é essencial inspecionar os resultados para garantir que as correções e alterações feitas estejam corretas e que os dados estejam em um estado adequado para análises futuras.

Objetivo da Verificação: O principal objetivo da verificação é assegurar que os dados limpos mantenham a integridade, a precisão e sejam representativos do problema em questão.
Atividades de Verificação:
- Revisar as alterações feitas durante a limpeza para certificar-se de que foram aplicadas corretamente e que não introduziram novos erros ou problemas.
- Utilizar estatísticas descritivas e visualizações para comparar os dados antes e depois da limpeza, verificando se as correções aplicadas produziram os resultados esperados.
- Confirmar que todos os problemas identificados na fase de inspeção foram devidamente abordados e resolvidos.
Considerações Importantes:
- A verificação requer uma abordagem detalhada e metódica para garantir que nenhum detalhe seja ignorado.
- Pode ser útil envolver a equipe que realizou a limpeza e especialistas no domínio dos dados para uma avaliação abrangente e precisa.
- Dependendo dos resultados da verificação, pode ser necessário retornar à fase de limpeza para fazer ajustes adicionais.

Ao realizar a verificação, é importante manter um foco rigoroso na qualidade dos dados, pois quaisquer erros ou imprecisões remanescentes podem afetar negativamente as análises subsequentes e os insights derivados dos dados.

Esta fase assegura que o processo de limpeza de dados foi eficaz e que os dados estão prontos para serem usados em aplicações de Machine Learning, análise de dados e tomada de decisão baseada em dados.

A verificação é uma etapa crítica que serve como um controle de qualidade final para o processo de limpeza de dados. Ela ajuda a garantir que os esforços de limpeza tenham sido bem-sucedidos e que os dados estão de acordo com os padrões e requisitos necessários para sua utilização efetiva. Ao concluir esta fase com sucesso, os analistas e cientistas de dados podem ter maior confiança na validade e na confiabilidade dos dados para suas análises e modelagens.

Relatório

A elaboração de um relatório após a limpeza de dados é uma etapa importante no fluxo de trabalho de limpeza de dados. Este relatório deve ser simples, completo e objetivo, fornecendo uma visão clara das ações realizadas e dos resultados alcançados.

Objetivo do Relatório: O relatório tem como objetivo documentar todo o processo de limpeza de dados, incluindo os desafios encontrados, as técnicas aplicadas, as alterações feitas e os resultados obtidos. Ele serve como um registro histórico do processo de limpeza e como uma ferramenta de comunicação para stakeholders e membros da equipe.
Componentes do Relatório:
- Perfil de Dados:
  - Uma descrição detalhada do estado inicial dos dados, incluindo estatísticas descritivas, metadados e problemas identificados durante a fase de inspeção.
- Detalhamento das Ações de Limpeza:
  - Uma descrição de todas as ações de limpeza realizadas, incluindo a remoção de dados irrelevantes, correção de erros, tratamento de dados faltantes, normalização e outras transformações.
- Resultados da Verificação:
  - Uma análise dos dados após a limpeza, destacando as melhorias alcançadas e a verificação de que os dados estão agora corretos e adequados para uso.
- Decisões e Justificativas:
  - Uma explicação das decisões tomadas durante o processo de limpeza, incluindo a justificativa para a escolha de técnicas específicas e a abordagem para resolver problemas particulares.
- Recomendações e Observações Finais:
  - Sugestões para futuras ações relacionadas aos dados, observações sobre o processo de limpeza e recomendações para evitar problemas semelhantes no futuro.
Importância do Relatório:
- O relatório oferece uma visão transparente e rastreável do processo de limpeza de dados, o que é essencial para a confiabilidade e credibilidade das análises subsequentes.
- Ele também é uma ferramenta valiosa para o aprendizado contínuo e a melhoria do processo de gerenciamento de dados dentro da organização.

Ao criar o relatório, é importante focar na clareza e na precisão das informações, garantindo que ele seja um recurso útil para todos os envolvidos e interessados no projeto de análise de dados.

Luis Master Notes

Explorer

Workflow de Limpeza de Lados