.
Imagine a figura acima o cenário para testes de um novo medicamento.
P = População que o remédio irá atingir
A1= Amostra de pessoas que serão acompanhadas sem receber o remédio a ser testado.
A2= Amostra de pessoas que serão acompanhadas recebendo o remédio a ser testado
A3= Amostra de pessoas que irão receber um remédio sem nenhum efeito o chamada Placebo
Na imagem acima retiramos 3 amostras distintas da População, onde cada uma será tratada de forma diferente e seus resultados confrontados para medir o percentual de eficácia do medicamento testado.
Enviesamento: Amostra que não retrata fielmente a população estudada.

Imagine a figura acima o cenário para testes de um novo medicamento.
P = População que o remédio irá atingir
A1= Amostra de pessoas que serão acompanhadas sem receber o remédio a ser testado.
A2= Amostra de pessoas que serão acompanhadas recebendo o remédio a ser testado
A3= Amostra de pessoas que irão receber um remédio sem nenhum efeito o chamada Placebo
Na imagem acima retiramos 3 amostras distintas da População, onde cada uma será tratada de forma diferente e seus resultados confrontados para medir o percentual de eficácia do medicamento testado.
Amosta X População
Amostra deve ser um fatiamento de População. Esta Amostra precisa ser retirada seguindo critérios específicos, pois caso retirada ao acaso os resultados da sua pesquisa estão sujeitos ao enviesamento.Enviesamento: Amostra que não retrata fielmente a população estudada.
Veja nas tabelas acima a diferença entre a media da população total de funcionários e a media da amostra, onde a amostra foi aleatoriamente retirada sem nenhum critério especifico. para evitar erros como este devemos utilizar técnicas especificas para a retirada da Amostra.
Principais técnicas de extração de Amostras:
Aleatória: onde todos os componentes da população tem a mesma chance de ser retirado,
esta técnica abre margem para Amostras que não correspondem ao universo da população como mostrado na imagem acima.
Estratificada: Captura de Amostras respeitando proporcionalidades e características da População
A amostra por extração deve representar coerentemente a População, perceba que a representação do gráfico da amostra e o da população são idênticos, demonstrando semelhança entre os dois grupos de dados,
Sistemática: Escolhe-se o primeiro de forma aleatória e os próximos serão retirados a cada X de intervalo.
neste caso, a Amostra sistemática não reflete o universo da população, não devendo ser usado para este tipo de Dataset.
Por Unidade Monetária: Indicado para extrair amostra tendo como critério valores monetários
Apos ordenar os valores em ordem crescente seguimos os seguintes passos:
1° passo : soma todos os valores monetários R$ 49.895,00 e divide pela população 13 para encontrar o intervalo da amostra 3.838,08
2° passo: escolhe-se um valor aleatório para iniciar a extração da amostra, neste caso escolhi 980, minha amostra inicia no primeiro item apos este valor. (Ana salario: 1000)
3° passo: somar o numero aleatório (980) com o intervalo da amostra (3838,08) = 4.814,08
4°passo extrair a próxima amostra imediatamente superior a este valor (Marcela salario: 6470)
5° passo: somar novamente o acumulado com o intervalo da amostra, 4818,08 + 3838,08 = 8656,15, extrair a próxima amostra imediatamente superior a este valor (Patricia salario: 9000)
6°passo: repetir a soma do acumulados com o IA e retirar a amostra imediatamente acima do acumulador até esgotar a população
Desta forma temos os itens da amostra distribuídos de forma mais homogenia monetariamente falando.
Cada População vai necessitar de uma técnica especifica para a extração da amostra, cabendo ao cientista de dados saber qual deve ser usada.
Iremos usar a ferramenta R para criar uma amostra estratificada.
O Dataset Iris ja e bem famoso por ser usado entre os estudantes de ciência de dados
O Iris e um dataset que traz a Altura e largura das pétalas e sépalas das plantas e no final seu nome cientifico, São 3 especies catalogadas:
Iris Setosa
Iris Versicolor
IrisVirginica
Cada uma com 50 amostras.catalogadas como mostra a imagem acima.
Queremos criar um Sistema de Inteligência Artificial onde inserimos as dimensões da pétala e da sépala e o sistema informe sua espécie, para isso precisamos de uma amostra que irá "treinar" o sistema, fazendo-o aprender as dimensões de cada especie.
Vamos retirar esta amostra?
Para isso vamos inicialmente importar a biblioteca usada.
A variável amostra recebe o método strata() que tem como argumentos o Dataset Iris, a coluna Species que será o parâmetro da extração, o size e a quantidade de extrações para cada espécie, para o método usaremos o srswor.
summary(amostra) para exibir detalhes da extração.
Amostras Selecionadas para treinar o sistema: