Dados, Estatística e Variação

Caderno de Anotações
4 min readMar 7, 2022

--

O que é Estatística?

  • forma de raciocínio
  • conjunto de métodos/ferramentas
  • quantidades calculadas a partir dos dados
  • ajuda a compreender o mundo complexo a partir de dados — transforma dados em informação

Variação → essência da estatística

Para retirar algum conhecimento a partir dos dados é essencial compreender a variação.

  • os dados variam: pessoas são diferentes, comportamentos mudam, condições econômicas oscilam, etc.
  • não é possível mensurar tudo sobre um fenômeno (social)
  • dados fornecem um retrato imperfeito da realidade
  • entender como os dados variam é o ponto principal da estatística.

O que são os dados?

  • informações acompanhadas de um contexto
  • para entender os dados, é sempre uma boa ideia começar fazendo uma tabela ou um gráfico

Alguns exemplos de dados:

  • [Demografia] Número de pessoas que nasceram, morreram ou migraram em determinado ano e local.
  • [Economia] PIB per capita de um país, rendimentos do trabalho, anos de estudo
  • [Epidemiologia] número de casos e óbitos decorrentes de uma doença

Estatística (conjunto de técnicas, ferramentas, métodos) ajuda a responder perguntas complexas como:

  • quantos anos de vida uma pessoa pode esperar viver?
  • quando nossa população vai começar a diminuir?
  • como a escolaridade afeta os salários?

Três etapas para aplicar a estatística

  1. Planejar: definir claramente a pergunta que se deseja responder, definir os objetivos, selecionar métodos adequados
  2. Fazer: calcular as estatísticas, aplicar métodos [com recursos tecnológicos, esta etapa tornou-se menos trabalhosa]
  3. Relatar: interpretar os resultados e explicá-los de forma clara

Alguns pacotes e linguagens comuns e bastante utilizados:

  • Excel
  • R
  • Stata
  • Python
  • SQL

Dados são informações em um contexto

Para definir o contexto, cinco perguntas:

  • quem? (casos, indivíduos, observações, registros…)
  • o que? (o que as variáveis registram sobre os casos)
  • por quê? (por que você está analisando os dados, o que você quer saber, que tipo de informação quer extrair)
  • onde?
  • quando?

Pergunta extra:

  • como? (saber como os dados foram coletados pode informar se os dados são úteis, se representam algo e se são confiáveis)

→ Para que os dados sejam úteis, precisamos saber pelo menos quem são os casos e o que são as variáveis (e por que queremos analisá-los)

Variáveis → fornecem informações sobre cada caso

Exemplo — dados hipotéticos coletados por um site de compras:

Para tornar os dados inteligíveis, eles podem ser organizados em uma tabela, que vai informar quem e o que está sendo retratado.

Na tabela de dados, cada linha representa um caso e cada coluna representa uma variável.

Quem? Neste caso, order number é o número do pedido de compra: estes são os casos (também chamados de registros, observações, sujeitos) e cada caso é representado por uma linha na tabela. Cada linha se refere a um pedido de compra.

O quê? As variáveis, representadas pelas colunas, são as informações sobre cada observação registrada na tabela (pedido de compra): variáveis que informam o nome da pessoa que fez o pedido, a localização do pedido, o preço, etc.

Tipos de variáveis

Variáveis categóricas

Também chamadas variáveis qualitativas.

A variável responde como os casos se encaixam nas categorias definidas.

Variável binária: Um caso especial de variável categórica em que existem apenas duas repostas possíveis: sim ou não, tem ou não tem, presente ou ausente, etc.

Variável identificadora: Outro caso especial de variável categórica. O número de categorias é igual ao total de observações → há apenas um indivíduo em cada categoria. Exemplo: RG, CPF, código de rastreamento, nome de usuário, etc. Cada indivíduo tem um identificador único.

Banco de dados relacional utiliza identificadores para linkar as tabelas de dados.

Variáveis quantitativas

Registram quantidades ou mensurações. Devem sempre estar acompanhadas das unidades.

Os valores têm unidades e mensuram a quantidade de alguma coisa.

Unidades informam como os valores foram mensurados. Ex.: reais, graus Celsius, kg, metros, etc. Informam a quantidade de algo ou a distância entre dois valores. Sem as unidades, os valores de uma variável não têm significado.

Categóricas ou Quantitativas?

Cuidado para não presumir que uma variável é quantitativa apenas porque seus valores são números. Analise o contexto.

O DDD, por exemplo, é um número, mas não é uma variável quantitativa, pois não mensura nada. O DDD é uma variável categórica, que classifica os números de telefone de acordo com a localização geográfica.

A mesma variável pode assumir diferentes papéis.

Dependendo do objetivo da análise e da situação, a mesma variável pode ser classificada como categórica ou quantitativa.

Por exemplo, a idade de uma pessoa pode ser medida em anos e classificada como variável quantitativa. Ou pode ser categorizada em etapas da vida: criança, adolescente, adulto, idoso e ser representada por uma variável categórica.

Série temporal: a mesma variável é mensurada em intervalos regulares ao longo do tempo (meses, trimestres, anos). Exemplo: PIB anual, despesas mensais, temperaturas diárias…

Dados transversais: quando diversas variáveis são medidas em um único ponto do tempo. Exemplo: Censos, PNADs, pesquisas de opinião…

Material de consulta:

--

--

Caderno de Anotações
Caderno de Anotações

Written by Caderno de Anotações

Aprendendo sempre uma coisa nova e esquecendo duas antigas

No responses yet