Machine Learning - Index

Workflow

  1. Inspeção: Detectar dados inesperados, incorretos e inconsistentes
  2. Limpeza: Corrigir ou remover as anomalias identificadas
  3. Verificação: Após a limpeza, inspecione os resultados para verificar se estão corretos
  4. Relatório: É feito um relatório sobre as alterações e a qualidade dos dados armazenados atualmente

Inspeção

A fase de Inspeção é importante no fluxo de trabalho de limpeza de dados. Ela envolve uma série de atividades destinadas a identificar dados inesperados, incorretos e inconsistentes. Aqui estão alguns aspectos-chave dessa fase:

1. Perfil de Dados (Data Profiling):

  • O processo de examinar os dados disponíveis em uma fonte de informação existente, como um banco de dados ou arquivo, e coletar estatísticas/informações sobre eles.
  • Inclui a coleta de estatísticas descritivas (mínimo, máximo, média, moda, percentil, desvio padrão, frequência, variação, agregados como contagem e soma) e informações de metadados (tipo de dados, dimensões, valores ausentes, padrões, exclusividade, etc.).
  • Esse processo pode ser demorado, mas é essencial para entender a natureza dos dados.

2. Visualização:

  • Uso de ferramentas gráficas como boxplots, histogramas, gráficos de barras e visualizações mais complexas para entender melhor os dados.
  • Gráficos de correlação são especialmente importantes para identificar a importância potencial de diferentes recursos (colunas).

3. Tomada de Decisões Durante a Inspeção:

  • Nomes de colunas e tipos de dados:
    • Verificar se o tipo de dados de cada coluna está correto e se as colunas serão úteis para a engenharia de features.
  • Estatísticas numéricas de colunas:
    • Identificar erros ou anomalias nos dados.
  • Distribuição de dados:
    • Decidir como lidar com outliers e qual visualização é mais eficaz para identificar tendências ou padrões.
  • Contagem de valores únicos:
    • Avaliar o tipo de coluna e o número de valores exclusivos.
  • Porcentagem ou número de valores nulos:
    • Decidir se instâncias/linhas devem ser descartadas, se colunas/características devem ser abandonadas, ou se técnicas de imputação devem ser aplicadas.
  • Gráfico de correlação:
    • Considerar a substituição de colunas fortemente correlacionadas por apenas uma para reduzir a redundância sem perda significativa de informações.

A fase de Inspeção é um passo fundamental para garantir que as decisões tomadas em relação aos dados sejam baseadas em um entendimento adequado dos dados e do conhecimento do domínio. Decisões mal informadas nesta fase podem levar a análises ruins e impactar negativamente o processo de limpeza de dados subsequente.

Limpeza

A fase de limpeza é uma etapa crítica no fluxo de trabalho de limpeza de dados, onde as anomalias identificadas durante a inspeção são corrigidas ou removidas. Aqui estão algumas técnicas e considerações importantes nesta fase:

1. Dados Irrelevantes:

  • Remoção de dados que não são importantes para o domínio do problema.
  • Exemplos:
    • Excluir colunas como número de telefone em análises de saúde da população.
    • Excluir linhas de dados de outros países quando o foco é em um país específico (ex: Portugal).
  • Decisões de descarte devem ser feitas com cuidado e, idealmente, com a orientação de especialistas no domínio.

2. Duplicados:

  • Remoção ou correção de instâncias repetidas no conjunto de dados.
  • Esses duplicados podem surgir quando dados são combinados de múltiplas fontes.

3. Conversão de Tipos:

  • Garantir que números sejam armazenados como tipos numéricos, e valores categóricos sejam codificados adequadamente.
  • Tratar valores que não podem ser convertidos adequadamente (ex: definir como NA).

4. Erros de Sintaxe:

  • Correção de erros de digitação e padronização de strings (ex: unificar diferentes representações do gênero masculino para “male”).
  • Remoção de espaços extras em strings.
  • Padronização de formatos de dados numéricos e categóricos.

5. Escalonamento:

  • Scaling (min-max): Normalização de dados numéricos para o intervalo [0,1], o que é crucial para algoritmos como KNN, K-means e SVM.
  • Normalization (z-score): Transformação dos dados para uma distribuição normal.
  • Escalonador Robusto: Utilização do intervalo interquartil para escalonamento, mais robusto a outliers.

6. Dados Faltantes (Missing Data):

  • Tratamento de dados ausentes por meio de remoção, imputação ou uso de algoritmos que lidam com valores ausentes.

7. Outliers:

  • Identificação e tratamento de outliers, que podem ser erros ou verdadeiros outliers.

8. Encoding:

  • Conversão de variáveis categóricas em numéricas usando várias técnicas de codificação como Label Encoding, One Hot Encoding, Dummy Encoding, Hash Encoder, Binary Encoder, Base N Encoding, entre outras.

Cada uma dessas técnicas tem um papel específico e contribui para a melhoria geral da qualidade dos dados. A escolha de quais técnicas aplicar depende do contexto dos dados, dos objetivos da análise e das peculiaridades do conjunto de dados.

É essencial que essa fase seja realizada com atenção e precisão, pois a qualidade dos dados limpos afetará diretamente a eficácia das análises e dos modelos de Machine Learning desenvolvidos posteriormente.

É importante destacar que o processo de limpeza de dados é iterativo e pode exigir várias passagens para abordar todas as questões identificadas. Além disso, a colaboração com especialistas no domínio é crucial para garantir que as decisões tomadas durante o processo de limpeza sejam informadas e corretas.

Verificação

A fase de verificação é uma etapa fundamental no fluxo de trabalho de limpeza de dados. Após a realização das etapas de inspeção e limpeza, é essencial inspecionar os resultados para garantir que as correções e alterações feitas estejam corretas e que os dados estejam em um estado adequado para análises futuras.

  • Objetivo da Verificação: O principal objetivo da verificação é assegurar que os dados limpos mantenham a integridade, a precisão e sejam representativos do problema em questão.

  • Atividades de Verificação:

    • Revisar as alterações feitas durante a limpeza para certificar-se de que foram aplicadas corretamente e que não introduziram novos erros ou problemas.
    • Utilizar estatísticas descritivas e visualizações para comparar os dados antes e depois da limpeza, verificando se as correções aplicadas produziram os resultados esperados.
    • Confirmar que todos os problemas identificados na fase de inspeção foram devidamente abordados e resolvidos.
  • Considerações Importantes:

    • A verificação requer uma abordagem detalhada e metódica para garantir que nenhum detalhe seja ignorado.
    • Pode ser útil envolver a equipe que realizou a limpeza e especialistas no domínio dos dados para uma avaliação abrangente e precisa.
    • Dependendo dos resultados da verificação, pode ser necessário retornar à fase de limpeza para fazer ajustes adicionais.

Ao realizar a verificação, é importante manter um foco rigoroso na qualidade dos dados, pois quaisquer erros ou imprecisões remanescentes podem afetar negativamente as análises subsequentes e os insights derivados dos dados.

Esta fase assegura que o processo de limpeza de dados foi eficaz e que os dados estão prontos para serem usados em aplicações de Machine Learning, análise de dados e tomada de decisão baseada em dados.

A verificação é uma etapa crítica que serve como um controle de qualidade final para o processo de limpeza de dados. Ela ajuda a garantir que os esforços de limpeza tenham sido bem-sucedidos e que os dados estão de acordo com os padrões e requisitos necessários para sua utilização efetiva. Ao concluir esta fase com sucesso, os analistas e cientistas de dados podem ter maior confiança na validade e na confiabilidade dos dados para suas análises e modelagens.

Relatório

A elaboração de um relatório após a limpeza de dados é uma etapa importante no fluxo de trabalho de limpeza de dados. Este relatório deve ser simples, completo e objetivo, fornecendo uma visão clara das ações realizadas e dos resultados alcançados.

  • Objetivo do Relatório: O relatório tem como objetivo documentar todo o processo de limpeza de dados, incluindo os desafios encontrados, as técnicas aplicadas, as alterações feitas e os resultados obtidos. Ele serve como um registro histórico do processo de limpeza e como uma ferramenta de comunicação para stakeholders e membros da equipe.

  • Componentes do Relatório:

    • Perfil de Dados:
      • Uma descrição detalhada do estado inicial dos dados, incluindo estatísticas descritivas, metadados e problemas identificados durante a fase de inspeção.
    • Detalhamento das Ações de Limpeza:
      • Uma descrição de todas as ações de limpeza realizadas, incluindo a remoção de dados irrelevantes, correção de erros, tratamento de dados faltantes, normalização e outras transformações.
    • Resultados da Verificação:
      • Uma análise dos dados após a limpeza, destacando as melhorias alcançadas e a verificação de que os dados estão agora corretos e adequados para uso.
    • Decisões e Justificativas:
      • Uma explicação das decisões tomadas durante o processo de limpeza, incluindo a justificativa para a escolha de técnicas específicas e a abordagem para resolver problemas particulares.
    • Recomendações e Observações Finais:
      • Sugestões para futuras ações relacionadas aos dados, observações sobre o processo de limpeza e recomendações para evitar problemas semelhantes no futuro.
  • Importância do Relatório:

    • O relatório oferece uma visão transparente e rastreável do processo de limpeza de dados, o que é essencial para a confiabilidade e credibilidade das análises subsequentes.
    • Ele também é uma ferramenta valiosa para o aprendizado contínuo e a melhoria do processo de gerenciamento de dados dentro da organização.

Ao criar o relatório, é importante focar na clareza e na precisão das informações, garantindo que ele seja um recurso útil para todos os envolvidos e interessados no projeto de análise de dados.