Entendendo população e amostras

.
Imagine a figura acima o cenário para testes de um novo medicamento.

P = População que o remédio irá atingir
A1= Amostra de pessoas que serão acompanhadas sem receber o remédio a ser testado.
A2= Amostra de pessoas que serão acompanhadas recebendo o remédio a ser testado
A3= Amostra de pessoas que irão receber um remédio sem nenhum efeito o chamada Placebo

Na imagem acima retiramos 3 amostras distintas da População, onde cada uma será tratada de forma diferente e seus resultados confrontados para medir o percentual de eficácia do medicamento testado.

Amosta X População
Amostra deve ser um fatiamento de População. Esta Amostra precisa ser retirada seguindo critérios específicos, pois caso retirada ao acaso os resultados da sua pesquisa estão sujeitos ao enviesamento.


Enviesamento: Amostra que não retrata fielmente a população estudada.


Veja nas tabelas acima a diferença entre a media da população total de funcionários e a media da amostra, onde a amostra foi aleatoriamente retirada sem nenhum critério especifico. para evitar erros como este devemos utilizar técnicas especificas para a retirada da Amostra.



Principais técnicas de extração de Amostras: 

Aleatória: onde todos os componentes da população tem a mesma chance de ser retirado,
esta técnica abre margem para Amostras que não correspondem ao universo da população como mostrado na imagem acima.


Estratificada: Captura de Amostras respeitando proporcionalidades e características da População

A amostra por extração deve representar coerentemente a População, perceba que a representação do gráfico da amostra e o da população são idênticos, demonstrando semelhança entre os dois grupos de dados,  

Sistemática: Escolhe-se o primeiro de forma aleatória e os próximos serão retirados a cada X de intervalo.


neste caso, a Amostra sistemática não reflete o universo da população, não devendo ser usado para este tipo de Dataset.


Por Unidade Monetária: Indicado para extrair amostra tendo como critério valores monetários


Apos ordenar os valores em ordem crescente seguimos os seguintes passos:

1° passo : soma todos os valores monetários R$ 49.895,00 e divide pela população 13 para encontrar o intervalo da amostra  3.838,08
2° passo: escolhe-se um valor aleatório para iniciar a extração da amostra, neste caso escolhi 980, minha amostra inicia no primeiro item apos este valor. (Ana salario: 1000)
3° passo: somar o numero aleatório (980)  com o intervalo da amostra (3838,08) = 4.814,08
4°passo extrair a próxima amostra imediatamente superior a este valor (Marcela salario: 6470)
5° passo:  somar novamente o acumulado com o intervalo da amostra, 4818,08 + 3838,08 = 8656,15, extrair a próxima amostra imediatamente superior a este valor (Patricia salario: 9000)
6°passo: repetir a soma do acumulados com o IA e retirar a amostra imediatamente acima do acumulador até esgotar a população
Desta forma temos os itens da amostra distribuídos de forma mais homogenia monetariamente falando.

Cada População vai necessitar de uma técnica especifica para a extração da amostra, cabendo ao cientista de dados saber qual deve ser usada.

Iremos usar a ferramenta R para criar uma amostra estratificada.
O Dataset Iris ja e bem famoso por ser usado entre os estudantes de ciência de dados


O Iris e um dataset que traz a Altura e largura das pétalas e sépalas das plantas e no final seu nome cientifico, São 3 especies catalogadas: 
Iris Setosa
Iris Versicolor 
IrisVirginica 
Cada uma com 50 amostras.catalogadas como mostra a imagem acima.

Queremos criar um Sistema de Inteligência Artificial onde inserimos  as dimensões da pétala e da sépala e o sistema informe sua espécie, para isso precisamos de uma amostra que irá "treinar" o sistema, fazendo-o aprender as dimensões de cada especie. 
Vamos retirar esta amostra?

Para isso vamos inicialmente importar a biblioteca usada.



A variável amostra recebe o método strata() que tem como argumentos o Dataset Iris, a coluna Species que será o parâmetro da extração, o size e a quantidade de extrações para cada espécie, para o método usaremos o srswor.
summary(amostra) para exibir detalhes da extração.




Amostras Selecionadas para treinar o sistema: