Conceitos básicos de amostragem

Examinar uma parte do todo

Caderno de Anotações
6 min readAug 29, 2019

A ideia central da amostragem é conhecer uma população a partir de uma pequena parte dela.

Muitas vezes, coletar dados de uma população não é possível na prática, ou é muito caro e demorado. A solução é analisar um grupo menor de indivíduos (amostra) pertencentes à população de interesse.

O mais importante na seleção da amostra é garantir que ela representa corretamente a população.

Aleatoriedade e randomização

Melhor estratégia para evitar uma amostra tendenciosa: selecionar os indivíduos da amostra ao acaso.

  • randomização protege da influência de todos os fatores (características da população), inclusive aqueles que o pesquisador não conhece
  • na média, a amostra aleatória é parecida com o resto da população
  • aleatorização é imparcial, não é possível saber o resultado de antemão

A aleatoriedade é o que garante a representatividade. Uma amostra aleatória é representativa da população.

A aleatoriedade garante que qualquer indivíduo de uma população tenha igual probabilidade de ser selecionado para a amostra.

A aleatoriedade previne que o processo de seleção amostral sofra viés e permite que inferências sobre a população sejam feitas a partir da amostra.

Se amostra é tendenciosa, ela não representa a população — resultados e conclusões podem ser equivocadas. Alguns exemplos: subgrupos difíceis de localizar (estudantes universitários, moradores de rua); pesquisas por telefone; pesquisas de participação voluntária na Internet.

Exemplo — médias e proporções para variáveis de 2 amostras aleatórias retiradas da mesma população

No exemplo, a randomização mesclou a população → resultados são bastante semelhantes.

Diferenças entre amostras são chamadas erro amostral → não significa que um erro tenha ocorrido. Significa apenas que as amostras diferem umas das outras, e as respostas também.

Tamanho da amostra

  • é importante porque determina o que pode ser concluído a partir dos dados
  • determina quão bem uma amostragem pode representar a população
  • determinante para o custo do levantamento de dados
  • se for muito pequena, não será representativa

O tamanho da amostra importa — é o que determina a precisão das estatísticas.

O tamanho da amostra é o número de indivíduos da amostra.

A proporção da amostra, em relação à população, não é importante. Ou seja, o tamanho da população não determina o tamanho da amostra.

Exemplo: não é preciso uma colher grande para provar o sabor de uma sopa grande, é preciso mexer a sopa e usar uma colher de tamanho adequado.

Parâmetro populacional

O parâmetro populacional é um valor atribuído a uma população, como a média ou a frequência de um atributo na população.

Em geral, o valor do parâmetro não é conhecido. Muitas vezes, não é possível conhecer o verdadeiro valor de uma parâmetro de uma população. O que é possível: observar a amostra.

O propósito da amostra é fornecer uma estimativa para um parâmetro de interesse.

Na prática, estatísticas obtidas a partir de uma amostra são utilizadas para estimar parâmetros da população.

Generalização a partir de uma amostra

Pode-se usar um modelo. O modelo não precisa ser perfeito (e geralmente não é). O modelo não é a realidade, é apenas uma aproximação.

Os parâmetros são os números-chave dos modelos.

Todos os modelos têm parâmetros.

Os dados são utilizados para estimar valores dos parâmetros da população. Se a amostra é representativa, as estatísticas calculadas fornecem boas estimativas para os parâmetros da população.

O Censo

Censo não é amostra — ele coleta dados sobre todos os indivíduos de uma população.

Razões que dificultam a realização de censos:

  • é difícil de completar — população em estudo pode ter pessoas difíceis de serem localizadas e entrevistadas
  • custo elevado
  • é demorado e a população pode mudar nesse período
  • está sujeito a erros de subenumeração e sobrenumeração
  • necessita de cooperação da população

Censo Brasileiro de 2010 contava 34 perguntas no questionário básico e 102 perguntas no questionário da amostra.

Tipos de Amostragem

Como selecionar pessoas aleatoriamente para uma pesquisa?

Amostragem aleatória simples

No inglês, SRS — Simple Random Sample. Neste método, qualquer grupo de n indivíduos tem igual probabilidade de ser selecionado a partir de uma população N.

Não é que cada indivíduo da população tenha chance igual de ser selecionado, mas sim que cada combinação de indivíduos tem chance igual.

Amostragem estratificada

A população é dividida em subgrupos homogêneos, também denominados estratos. O estrato divide a população em subgrupos internamente homogêneos, mas diferentes entre si. Para cada um destes subgrupos, são extraídos aleatoriamente os indivíduos que farão parte da amostra (amostragem aleatória simples).

O tamanho dos estratos na amostra deve ser proporcional ao tamanho dos estratos na população. Sempre que identifica-se que uma população é dividida em estratos, a amostra pode ser estratificada.

Este método reduz a variabilidade amostral.

Na prática, a população é dividida em vários subgrupos homogêneos (vários estratos) e amostras aleatórias são sorteadas dentro de cada estrato.

Amostragem sistemática

Geralmente, é o método com menor custo. Funciona em algumas situações. Entretanto, deve-se atentar para que o processo seja iniciado de forma a garantir a aleatoriedade.

Os indivíduos são selecionados sistematicamente a partir de uma base de amostragem. A base de amostragem corresponde a uma lista de indivíduos a partir da qual será selecionada a amostra. Se indivíduos de uma população de interesse não fazem parte da base, eles não serão incluídos em nenhuma amostra, não importa o método utilizado.

Na prática, os elementos da amostra são ordenados segundo um critério qualquer, formando uma lista ou uma fila. A seleção se dá segundo um fator de repetição, um intervalo fixo. Este intervalo é dado por N/n, em que N é o tamanho da população e n é o tamanho desejado da amostra. O pulo do gato, para garantir a aleatoriedade, é escolher aleatoriamente o primeiro elemento (sua posição na fila deve ser igual ou inferior ao valor encontrado para o fator de repetição).

Amostragem de conglomerados

Seleciona indivíduos aleatoriamente dentro de subgrupos heterogêneos de uma população. Estes subgrupos assemelham-se à população como um todo.

Este método torna o processo de amostragem mais controlável.

O conglomerado é um subgrupo representativo da população. As razões para utilizar conglomerados incluem conveniência, menor custo ou maior praticidade. Bastante comum é dividir a população em subgrupos fisicamente próximos, como bairros, municípios, microrregiões, estados, etc.

Na prática, subgrupos (conglomerados) representativos de uma população são escolhidos aleatoriamente e um censo é realizado dentro deles.

Amostragem em múltiplos estágios

Combina vários métodos de amostragem aleatória.

Outros tipos de amostragem

Amostra por conveniência

Indivíduos são selecionados selecionados para a amostra porque, por algum motivo, estão mais disponíveis. Não é um método probabilístico — a seleção da amostra não é aleatória, o que pode ser justificável ou não, a depender do contexto da pesquisa.

Teste piloto

Funciona como um pequeno ensaio da pesquisa e permite checar se os métodos escolhidos em um estudo ou pesquisa são adequados e consistentes.

Fontes de viés em amostras

O viés é uma falha sistemática que pode ocorrer ao usar um método de amostragem para representar uma população.

  • Viés de não resposta — quando indivíduos selecionados não respondem ou não podem responder. O viés ocorre quando uma grande proporção da amostra deixa de responder a pesquisa.
  • Uso de vocabulário viesado (viés de resposta) — indivíduos influenciados externamente, pelo vocabulário usado na pergunta ou por comportamento tendencioso do entrevistador.
  • Viés de resposta voluntária — em uma pesquisa de resposta voluntária, a amostra consiste de pessoas que, convidadas, decidiram participar. Quase sempre pesquisas em que as pessoas escolhem participar são viesadas.
  • Amostragem por conveniência — assim como a de resposta voluntária, costuma ser viesada.
  • Subcobertura — ocorre quando indivíduos de determinado subgrupo são selecionados menos frequentemente do que deveriam. Assim, uma parte da população tem menor representatividade na amostra do que na população.

Alguns conceitos importantes

O erro amostral ou variabilidade amostral corresponde a diferenças observadas de uma amostra para outra — é uma tendência natural em amostras aleatórias.

Erros de medida ou erro de medição originam-se de imprecisões ou incorreções nas respostas. Eles podem ser intencionais ou não.

Tendenciosidade: falha sistemática de um método amostral, produz erros que não podem ser corrigidos

Plano amostral: lista de indivíduos da qual uma amostra é extraída. Se um indivíduo não está no plano amostral, ele não será incluído em nenhuma amostra

--

--

Caderno de Anotações
Caderno de Anotações

Written by Caderno de Anotações

Aprendendo sempre uma coisa nova e esquecendo duas antigas

No responses yet