Introdução
Contents
Introdução¶

Este capítulo serve como introdução à análise de dados como um fluxo de trabalho. Discutimos como teoria, estatística e programação andam de mão dadas durante um processo de análise de dados. Além disto, veremos aspectos básicos de instalação do Python e bibliotecas que serão usadas ao longo do livro.
Fluxo de trabalho¶
“A pesquisa não garante recompensas certas, mas garante menores riscos” (Amit Kalantri)
Bons projetos de pesquisa, dentro dos quais uma análise de dados sólida se encaixa, têm características em comum. Primeiro, eles são fruto de muito planejamento. Isto quer dizer que explorações espontâneas de dados, sem nenhuma expectativa nem objetivo final dificilmente se tornam análises cuja execução valha a pena. E caso seja executada, a obtenção de resultados (mesmo que nunca haja garantia de resultado) seja muito arriscada. Um bom pesquisador visa minimizar este risco e ter resultados em longo prazo.
Segundo, é necessário ter algum domínio mínimo de ferramentas. Quando falamos de ferramentas técnicas, incluímos como projetar a coleta de dados (obtenção de dados prontos, desenvolvimento de questionários, adaptação de escalas, etc.), manipular (no sentido de fazer transformações), limpar (tirar a ruídos indesejados), visualizar e apresentar dados. Neste cenário, técnicas estatísticas são essenciais. Isto é, é necesário ter uma independência metodológica mínima para conduzir uma análise de dados do início ao fim. Conhecer ferramentas permite saber até onde você pode planejar um experimento ou de que modo você planejará o fluxo de coleta de dados.
Terceiro, uma coleta de dados - pelo menos sob a ótica de ciências sociais aplicadas - parte do princípio que deve haver explicações e argumentos para os fenômenos a serem analisados. Se você não sabe porque coletar, nem como coletar, nem o que coletar, você tem um problema grave! Você pode cair no clichê de entrou lixo, saiu lixo (garbage in, garbage out) teórico. Pior ainda, você pode tirar conclusões absurdas, sem fundamento dos dados ou da teoria - porque como sabemos, coincidências acontecem.
Quarto,bons projetos de pesquisa dependem de experiência com pesquisa. Isto é um conceito tautológico (para pesquisar, precisa pesquisar), mas é a pura verdade. Via de regra nossos primeiros projetos têm diversas limitações graves (quando não acabam sendo totalmente inutilizados). Isto se deve à nossa incapacidade de planejar aspectos inesperados ou não experienciados anteriormente, o que acaba sendo minimizado com tempo. Apesar de ser possível aprender com experiência própria, muitas vezes ignoramos o que podemos aprender com erros dos outros, especialmente em livros com cunho prático.
De forma genérica, este livro tem como objetivo integrar esses quatro aspectos:
Planejamento
Conhecimento técnico (estatístico / analítico)
Conhecimento teórico (explicação de fenômenos)
Experiência
Esperamos que compartilhando experiências de projetos passados - incluindo acertos e muitos erros, além de muitas horas de estudo - você consiga aprimorar sua capacidade de análise de dados. Bom proveito!
Organizando um projeto de pesquisa¶
Antes de mais nada, vamos exemplificar um projeto mínimo de análise de dados. Como você pode ver no quadro abaixo, a análise de dados não é a parte inicial - afinal, acabamos de ver que fases como conhecimento de teoria e planejamento de pesquisa são fundamentais para ter um projeto bem elaborado e potencialmente bem sucedido. Aqui temos um novo elemento - a programação. Apesar de não ser necessário programar para fazer análises de dados, hoje em dia é fora de questão o quanto é mais rápido, prático, reproduzível e seguro utilizar programação como motor procedimental da pesquisa.
Teoria |
Ferramentas |
Programaçãoo |
Conteúdo |
---|---|---|---|
X |
Desenvolvimento de base teórica |
||
X |
X |
Argumentação de hipóteses |
|
X |
X |
Desenvolvimento de hipoteses |
|
X |
X |
X |
Planejamento de coleta de dados |
X |
X |
Coleta de dados |
|
X |
X |
Limpeza e manipulação de dados |
|
X |
X |
Análise de dados |
|
X |
X |
Discussão |
|
X |
X |
Conclusões |
|
X |
X |
X |
Desenvolvimento do manuscrito |
Como exemplo ilustrativo, vamos imaginar que um pesquisador queira entender os mecanismos que explicam a melhor forma de fazer pipoca.
Teoria¶
E afinal, o que é a melhor forma de fazer pipoca? Sem ter clareza do que é uma pipoca bem feita - ou um bom processo de se fazer pipoca - qualquer coisa serve. E um bom pesquisador se preocupa primeiro com o conceito de reprodutibilidade - isto é, fazer com que o processo de pesquisa possa ser reproduzido por qualquer pessoa.
Isto nos traz uma enorme responsabilidade - no caso, nosso exemplo ilustrativo (como fazer pipoca) tem pouco impacto no nosso mundo à volta - a menos que você seja um pipoqueiro, já que nesse caso trata-se de algo com alto impacto real. No entanto, pesquisas de verdade afetam saúde humana, economia e emprego, meio ambiente e socidade, para citar poucos exemplos. Portanto, é necesário ser muito detalhista quanto ao passo-a-passo empregado. Chamamos este cuidado de suficiência descritiva. Afinal, trabalhos que não sejam passíveis de reprodução, não são passíveis de confirmação. Ou seja, qualquer detalhe ou aspecto que não esteja explícito no seu trabalho, impede sua reprodução futura e comparação. Como exemplo (de um subproduto de pesquisa científica), a suficiência descritiva é um pré-requisito para a obtenção de uma patente.
Isto quer dizer que você precisa ter uma definição reproduzível do que é “a melhor forma de fazer pipoca”. Perceba que “a melhor forma de fazer pipoca” pode ter diversas interpretações. Neste sentido, um bom pesquisador não reinventa a roda - por que iríamos criar uma nova definição para “a melhor forma de fazer pipoca”, se provavelmente alguém já pesquisou isto anteriormente? Para tanto, uma revisão de literatura serve para garantir que você não vai ter retrabalho.
Uma boa revisão de literatura pode, inclusive, mostrar que nossa ideia já foi realizada e que há nada ou pouco a se ganhar investindo tempo e esforço nessa análise. Gastar tempo com uma boa revisão de literatura nos faz mais confortáveis com procedimentos análogos usados anteriormente, mas principalmente em verificar se o impacto potencial desse projeto afeta significativamente a produção de conhecimento científico. Chamamos este potencial de lacuna de pesquisa:
Em bom português, uma lacuna de pesquisa é algo que na ciência ainda é mal explorado ou inexplorado.
Buscando na literatura, encontramos uma definição bastante aceita - “a melhor forma de fazer pipoca é maximizar a quantidade de milho estourado, minimizando a quantidade de milho queimado”. Esta definição é específica e mensurável, com escopo bem definido - bons sinais de que é uma definição utilizável. Mais adiante discutiremos métricas, mas você já pode criar uma métrica com base nesta definição: melhor pipoca (\(M{p}\)) será a razão entre a quantidade de milho estourado (\(M{e}\)) e a quantidade de milho queimado (vulgarmente conhecido por piruá: \(M{q} + 1\), em que o + 1 serve para evitar divisão por zero, por exemplo):
\(M{p} = \frac{M{e}}{M{q} + 1} \)
Note que esta definição ignora outras dimensões que podem ser utilizadas para entender “a melhor forma de fazer pipoca” (como, por exemplo, sabor). Por outro lado, isolar e focar em uma parte do problema é uma excelente estratégia para analisar dados porque permite compartimentalizar o problema em problemas menores. Via de regra a ciência caminha mais longe indo em pequenos passos, do que em grandes saltos. Este tipo de escolha (qual definição empregar) tem diversos prós e contras, já faz parte do planejamento e afeta diretamente os procedimentos de coleta de dados. De toda forma, esta definição serve para o propósito do trabalho, ao permitir que os seus procedimentos sejam reproduzidos. Chamamos esta definição de definição de trabalho:
Ferramentas¶
“Chamar um estatístico depois que o experimento foi feito é o mesmo que pedir a ele que faça uma exumação: talvez ele possa dizer qual o motivo pelo qual o experimento morreu” (Ronald Fisher)
Neste momento temos duas direções possíves principais para seguir com nossa análise: planejar cuidadosamente como continuar ou fazer sem planejamento. Esperamos que você já esteja convencido de que o caminho menos doloroso é o do planejamento.
Voltando à nossa definição de trabalho, “a melhor forma de fazer pipoca é maximizar a quantidade de milho estourado, minimizando a quantidade de milho queimado”. Observando esta definição, parece provável que encontraremos o ponto ideal fazendo pipoca somente uma vez? Então, temos que planejar passo-a-passo como executar este procedimento - para podermos comparar resultados difentes entre os diversos lotes de pipoca feitos e também para podermos passar pelo crivo da reprodução pelos nossos pares:
Pares são os demais cientistas pesquisadores, que podem e devem tentar reproduzir nossos resultados usando os nossos procedimentos ou refinando os procedimentos.
Sim! Tudo o que fazemos de pesquisa passa pelo que chamamos de processo de revisão dupla cega por pares:
Processo de revisão dupla cega por pares é o processo pelo qual nossos achados científicos são avaliados por outros cientistas, sem que nós saibamos quem nos avaliou e nem quem avaliou saiba quem nós somos. Isto garante isonomia e maior objetividade na avaliação dos resultados.
Por este motivo, você pode apostar que seus revisores olharão com alto grau de detalhismo o seu manuscrito, tentando encontrar o maior número possível de falhas. O trabalho de um revisor (além de dar conselhos para a melhoria do projeto de pesquisa) é garantir com rigor que resultados inexplicados, procedimentos ambíguos, indícios de má-fé não sejam parte de um trabalho acadêmico publicado. A ciência é uma comunidade muito cuidadosa com a sua reputação e há muitos casos em que trabalhos são, mesmo depois de publicados, retratados - i.e., retirados de uma revista, algo muito vergonhoso.
Retratação é o ato de retirar um artigo de uma revista por indícios de fraude, má-fé ou baixa qualidade. Revistas ainda impressas reimprimem o artigo com uma tarja de “RETRATADO” e artigos digitais substituem o original por um com a tarja e ambos costumam ser acompanhados de uma carta dos editores explicando o motivo.
Um caso recente foi o do artigo do médico francês Didier Raoult, que sugeria que hidroxicloroquina e azitromicina serviriam no tratamendo de Covid-19. Este artigo foi retratado por “não cumprir com os padrões de pesquisa esperados, especialmente relativos à falta de explicação para critérios de exclusão e triagem de pacientes que assegurem a integridade física dos pacientes”. Este caso ilustra que a falta de cuidado com os procedimentos de pesquisa pode por em dúvida os resultados e impedir a reprodução do trabalho por outros pesquisadores. Planejar adequadamente o projeto de pesquisa inclui pensar em quais aspectos podem invalidar os resultados no final. E este caso nos faz pensar em um conceito básico de qualquer projeto de análise de dados - a mensuração:
Análises de dados de forma geral e estudos científicos de modo particular são especialmente afetados em termos de confiabilidade quando as mensurações perdem acurácia e precisão. Quando comparamos as diversas vertentes de pesquisas, deve-se perceber que há expectativas diferentes quando à mensuração. Imagine que estamos desenvolvendo uma análise em engenharia de produção e uma métrica do estudo é o peso de um saco de arroz saindo de uma máquina ensacadora. A expectativa é que, por ser um processo altamente mecanizado e parametrizado, a precisão e acurácia sejam altas - ou seja, o medição do peso do saco de arroz seja muito próximo do real e que cada medição seja muito próxima da outra. Por outro lado, se você pretende analisar questões mais subjetivas (como qualidade de serviço e intenção de compra), naturalmente as medições disto serão menos precisas. Numa análise chamamos essas medições (classicamente na estatística) de variáveis (apesar de você também ouvir outros termos como features, termo vindo da computação):
Variáveis são formas de computar dados em que os valores (o conteúdo do dado) variam.
Vamos ver variáveis adiante com detalhes, mas alguns exemplos podem servir para você começar a entender. Voltando ao nosso experimento da pipoca, podemos definir algumas variáveis iniciais:
Temperatura da panela (medida em graus Celsius) - \(C\)
Tempo de cozimento (medida em segundos) - \(S\)
Quantidade de milho (medida em gramas) - \(G\)
Ou seja, \(M{p}\) é um função de \(C\), \(S\) e \(G\):
\(M{p} = f(C, S, G)\)
Apesar de ser um modelo grosseiro, já podemos ver o delineamento de um experimento tomando forma. Ou seja, para aumentar (\(M{p}\)) precisamos controlar com precisão e acurácia as variáveis temperatura, tempo e quantidade a cada vez que o procedimento (fazer pipoca) for realizado. É preciso também, além de planejamento, muita organização para que os dados não se percam, confundam ou sejam distorcidos (lembre-se da tal reprodutibilidade). A forma mais comum de guardar estes dados será por meio de dados tabulares:
Dados tabulares são dados guardados em um formato de tabela (Krishnamurthi, Lerner & Politz, 2016).
Você provavelmente já teve alguma experiência com um programa de gestão de dados tabulares (como o Excel ou o LibreOffice Calc). Até mesmo a maioria das crianças já utilizou dados tabulares na famosa brincadeira conhecida como “ABC” ou “Adedanha” (dependendo da região do país) - com colunas separadas para animal, carro, fruta, país, etc. Perceba que as crianças são cientistas natas e quando alguém tenta adulterar as respostas para ganhar pontos, rapidamente há reclamação e protestos (quem dera que os adultos fossem mais como as crianças em relação a estudos científicos!). Mas ao contrário da brincadeira ABC, que visa medir conhecimento geral dos competidores, um estudo científico busca relacionar as variáveis entre si. Existem duas formas principais de relacionamento entre variáveis (e vamos ver com detalhes mais adiante): a correlação e a causalidade:
Correlação é quando duas variáveis têm uma relação entre si. Por exemplo, altura dos pais e filhos são correlacionados - existe uma tendencia de ambas serem maiores ou menos de forma conjunta.
Causalidade é quando mede-se o quanto uma variável causa variação em outra.
Por exemplo, esperamos uma correlação entre as variáveis temperatura e o número de pipocas estouradas (ambas crescem juntas). Mais que isto, esperamos que haja causalidade da tenmperatura com para o número de pipocas estouradas. Assim chegamos a um corolário interessante:
Este é um problema muito grande para boa parte das pessoas - já que para um olhar menos treinado pode-se confundir ambos ou fundi-los no mesmo conceito.
Um exemplo simples para percebermos isto: imagine uma cidade litorânea que encomenda um estudo sobre os afogamentos à beira-mar. Um pesquisador com pouca experiência coleta os dados de unidades de picolés vendidos na localidade juntamente com o número de afogamentos. Ele descobre que sim, há correlação significante - isto é, o número de picolés vendidos e os afogamentos parecem atrelados (quando um sobe o outro sobe junto e quando um desce o outro desce junto). O pesquisador, sem muita preparação de métodos, sugere uma relação de causalidade: os picolés estão causando afogamentos. No entanto, este caso é um exemplo clássico do que chamamos de relação espúria ou correlação espúria. Na verdade, um observador mais atento percebe que há uma terceira variável não incluída na análise que motiva ambos - a temperatura. O aumento da temperatura está correlacionado tanto ao número de picolés vendidos (quanto mais quente, mais pessoas buscam comprar picolés) quanto com o maior fluxo de pessoas na praia que ocasiona afogamentos (quanto mais quente, mais pessoas buscam ir a praia).
Uma análise sólida de dados vai muito além do que discutimos aqui, mas você já consegue ter uma noção dos passos de uma pesquisa, da preocupação com a responsabilidade do estudo e do cuidado necessário com os dados.
Programação¶
“Falar é fácil, me mostre o código” (Linus Torvalds)
Talvez você esteja se questionando onde em tudo isto se encaixam as habilidades em programação. De forma muito direta, a programação não é absolutamente necessária para o desenvolvimento de uma análise de dados, afinal durante séculos estes processos foram feitos manualmente e somos gratos ao desenvolvimento científico obtido por meio deles. Em muitos programas de mestrado e doutorado ainda há uma valorização do papel do pesquisador em fazer listas de exercícios de testes como ANOVA à mão. Claro, este tipo de preparação tem suas vantagens, como promover um entendimento melhor do mecanismo e a criação de pensamento analítico.
Por outro lado, seria ingênuo ignorar os benefícios da incorporação do poder computacional ao campo de análise de dados. Por exemplo, todo um processo de padronização dos passos de uma pesquisa acaba acontecendo quando se se incorporam aspectos de computação. Um caso interessante é o atual sistema de registro de vacinas de Covid-19 na base do DataSus (base de dados abertos do Sistema Único de Saúde do governo federal brasileiro:
Caso: DataSus
Durante o desenvolvimento do questionário de vacinação, o campo “vacina” (que indica o fabricante / marca da vacina) foi definido como “aberto” - i.e., preenchimento manual, escrevendo o nome da vacina aplicada. Em teoria, isto não deveria ser um problema, já que somente 4 marcas de vacina foram aplicadas no Brasil (até março de 2022). No entanto, erros de digitação (que podem ser fruto de falta de atenção, desconhecimento, dificuldade com nomes estrangeiros ou até mesmo má-fé) fizeram com que mais de 1700 escritas diferentes fossem encontradas.
Mesmo utilizando-se de técnicas avançadas de limpeza e manipulação de texto, boa parte dessas informações é inutilizada. Conhecimento prévio de programação (tanto sob o ponto de vista de desenvolvimento de questionário/formulário quanto de problemas subsequentes de padronização de variáveis) poderia evitar tal perda. Isto aponta para a programação ser um pilar importante da reprodutibilidade discutida anteriormente - afinal, o computador executa a mesma ação inúmeras vezes sem errar (contanto que você programe corretamente), enquanto nós humanos somos muito mais passíveis de errar.
Esta repetição de passos é muito importante porque permite promover um protocolo de automatização de tarefas. Uma vez que você escreva um código (e tenha salvo um script), este bloco de código poderá ser executado à exaustão. Todas as linguagens de programação contam com estruturas de repetição, que facilitam a automatização de tarefas.
Capacidade computacional Extensão para outras áreas (aprendizado de máquina, aprendizado profundo etc)
“O melhor de ser um estatístico é que você consegue brincar no quintal de todo mundo” (John Wilder Tukey)