Conceitos básicos de amostragem
Examinar uma parte do todo
A ideia central da amostragem é conhecer uma população a partir de uma pequena parte dela.
Muitas vezes, coletar dados de uma população não é possível na prática, ou é muito caro e demorado. A solução é analisar um grupo menor de indivíduos (amostra) pertencentes à população de interesse.
O mais importante na seleção da amostra é garantir que ela representa corretamente a população.
Aleatoriedade e randomização
Melhor estratégia para evitar uma amostra tendenciosa: selecionar os indivíduos da amostra ao acaso.
- randomização protege da influência de todos os fatores (características da população), inclusive aqueles que o pesquisador não conhece
- na média, a amostra aleatória é parecida com o resto da população
- aleatorização é imparcial, não é possível saber o resultado de antemão
A aleatoriedade é o que garante a representatividade. Uma amostra aleatória é representativa da população.
A aleatoriedade garante que qualquer indivíduo de uma população tenha igual probabilidade de ser selecionado para a amostra.
A aleatoriedade previne que o processo de seleção amostral sofra viés e permite que inferências sobre a população sejam feitas a partir da amostra.
Se amostra é tendenciosa, ela não representa a população — resultados e conclusões podem ser equivocadas. Alguns exemplos: subgrupos difíceis de localizar (estudantes universitários, moradores de rua); pesquisas por telefone; pesquisas de participação voluntária na Internet.
Exemplo — médias e proporções para variáveis de 2 amostras aleatórias retiradas da mesma população
No exemplo, a randomização mesclou a população → resultados são bastante semelhantes.
Diferenças entre amostras são chamadas erro amostral → não significa que um erro tenha ocorrido. Significa apenas que as amostras diferem umas das outras, e as respostas também.
Tamanho da amostra
- é importante porque determina o que pode ser concluído a partir dos dados
- determina quão bem uma amostragem pode representar a população
- determinante para o custo do levantamento de dados
- se for muito pequena, não será representativa
O tamanho da amostra importa — é o que determina a precisão das estatísticas.
O tamanho da amostra é o número de indivíduos da amostra.
A proporção da amostra, em relação à população, não é importante. Ou seja, o tamanho da população não determina o tamanho da amostra.
Exemplo: não é preciso uma colher grande para provar o sabor de uma sopa grande, é preciso mexer a sopa e usar uma colher de tamanho adequado.
Parâmetro populacional
O parâmetro populacional é um valor atribuído a uma população, como a média ou a frequência de um atributo na população.
Em geral, o valor do parâmetro não é conhecido. Muitas vezes, não é possível conhecer o verdadeiro valor de uma parâmetro de uma população. O que é possível: observar a amostra.
O propósito da amostra é fornecer uma estimativa para um parâmetro de interesse.
Na prática, estatísticas obtidas a partir de uma amostra são utilizadas para estimar parâmetros da população.
Generalização a partir de uma amostra
Pode-se usar um modelo. O modelo não precisa ser perfeito (e geralmente não é). O modelo não é a realidade, é apenas uma aproximação.
Os parâmetros são os números-chave dos modelos.
Todos os modelos têm parâmetros.
Os dados são utilizados para estimar valores dos parâmetros da população. Se a amostra é representativa, as estatísticas calculadas fornecem boas estimativas para os parâmetros da população.
O Censo
Censo não é amostra — ele coleta dados sobre todos os indivíduos de uma população.
Razões que dificultam a realização de censos:
- é difícil de completar — população em estudo pode ter pessoas difíceis de serem localizadas e entrevistadas
- custo elevado
- é demorado e a população pode mudar nesse período
- está sujeito a erros de subenumeração e sobrenumeração
- necessita de cooperação da população
Censo Brasileiro de 2010 contava 34 perguntas no questionário básico e 102 perguntas no questionário da amostra.
Tipos de Amostragem
Como selecionar pessoas aleatoriamente para uma pesquisa?
Amostragem aleatória simples
No inglês, SRS — Simple Random Sample. Neste método, qualquer grupo de n indivíduos tem igual probabilidade de ser selecionado a partir de uma população N.
Não é que cada indivíduo da população tenha chance igual de ser selecionado, mas sim que cada combinação de indivíduos tem chance igual.
Amostragem estratificada
A população é dividida em subgrupos homogêneos, também denominados estratos. O estrato divide a população em subgrupos internamente homogêneos, mas diferentes entre si. Para cada um destes subgrupos, são extraídos aleatoriamente os indivíduos que farão parte da amostra (amostragem aleatória simples).
O tamanho dos estratos na amostra deve ser proporcional ao tamanho dos estratos na população. Sempre que identifica-se que uma população é dividida em estratos, a amostra pode ser estratificada.
Este método reduz a variabilidade amostral.
Na prática, a população é dividida em vários subgrupos homogêneos (vários estratos) e amostras aleatórias são sorteadas dentro de cada estrato.
Amostragem sistemática
Geralmente, é o método com menor custo. Funciona em algumas situações. Entretanto, deve-se atentar para que o processo seja iniciado de forma a garantir a aleatoriedade.
Os indivíduos são selecionados sistematicamente a partir de uma base de amostragem. A base de amostragem corresponde a uma lista de indivíduos a partir da qual será selecionada a amostra. Se indivíduos de uma população de interesse não fazem parte da base, eles não serão incluídos em nenhuma amostra, não importa o método utilizado.
Na prática, os elementos da amostra são ordenados segundo um critério qualquer, formando uma lista ou uma fila. A seleção se dá segundo um fator de repetição, um intervalo fixo. Este intervalo é dado por N/n, em que N é o tamanho da população e n é o tamanho desejado da amostra. O pulo do gato, para garantir a aleatoriedade, é escolher aleatoriamente o primeiro elemento (sua posição na fila deve ser igual ou inferior ao valor encontrado para o fator de repetição).
Amostragem de conglomerados
Seleciona indivíduos aleatoriamente dentro de subgrupos heterogêneos de uma população. Estes subgrupos assemelham-se à população como um todo.
Este método torna o processo de amostragem mais controlável.
O conglomerado é um subgrupo representativo da população. As razões para utilizar conglomerados incluem conveniência, menor custo ou maior praticidade. Bastante comum é dividir a população em subgrupos fisicamente próximos, como bairros, municípios, microrregiões, estados, etc.
Na prática, subgrupos (conglomerados) representativos de uma população são escolhidos aleatoriamente e um censo é realizado dentro deles.
Amostragem em múltiplos estágios
Combina vários métodos de amostragem aleatória.
Exemplo — Metodologia das PNADs:
- PNAD Contínua 2012 a 2020
- https://metadados.ibge.gov.br/consulta/estatisticos/operacoes-estatisticas/DD
Outros tipos de amostragem
Amostra por conveniência
Indivíduos são selecionados selecionados para a amostra porque, por algum motivo, estão mais disponíveis. Não é um método probabilístico — a seleção da amostra não é aleatória, o que pode ser justificável ou não, a depender do contexto da pesquisa.
Teste piloto
Funciona como um pequeno ensaio da pesquisa e permite checar se os métodos escolhidos em um estudo ou pesquisa são adequados e consistentes.
Fontes de viés em amostras
O viés é uma falha sistemática que pode ocorrer ao usar um método de amostragem para representar uma população.
- Viés de não resposta — quando indivíduos selecionados não respondem ou não podem responder. O viés ocorre quando uma grande proporção da amostra deixa de responder a pesquisa.
- Uso de vocabulário viesado (viés de resposta) — indivíduos influenciados externamente, pelo vocabulário usado na pergunta ou por comportamento tendencioso do entrevistador.
- Viés de resposta voluntária — em uma pesquisa de resposta voluntária, a amostra consiste de pessoas que, convidadas, decidiram participar. Quase sempre pesquisas em que as pessoas escolhem participar são viesadas.
- Amostragem por conveniência — assim como a de resposta voluntária, costuma ser viesada.
- Subcobertura — ocorre quando indivíduos de determinado subgrupo são selecionados menos frequentemente do que deveriam. Assim, uma parte da população tem menor representatividade na amostra do que na população.
Alguns conceitos importantes
O erro amostral ou variabilidade amostral corresponde a diferenças observadas de uma amostra para outra — é uma tendência natural em amostras aleatórias.
Erros de medida ou erro de medição originam-se de imprecisões ou incorreções nas respostas. Eles podem ser intencionais ou não.
Tendenciosidade: falha sistemática de um método amostral, produz erros que não podem ser corrigidos
Plano amostral: lista de indivíduos da qual uma amostra é extraída. Se um indivíduo não está no plano amostral, ele não será incluído em nenhuma amostra