Transformando hipóteses em dados concretos


Assim como cientistas de outras áreas, o trabalho do cientista de dados não se resume a observar dados, medi-los e apresentar seu comportamentos. A parte mais legal e criar experiências para aprovar ou reprovar informações de outras análises ou informações geradas pelo famoso Eu acho que...

Informação encontrada sobe o Brasil em um grande portal de notícias:
"No 1° trimestre de 2018 houve um aumento do números de empregos formais, os setores responsaveis por essa recuperação foi o comercio, seguido pelo mercado de turismo e lazer."  

Mesma informação tratada para a tomada de decisão:

No 1° trimestre de 2018  houve um aumento de 8% na taxa de contratos com carteira assinada, deste total, 34% das vagas no Comercio, 21% das vagas no setor de turismo e lazer, o crescimento  de 4% em referência ao ultimo trimestre de 2017 mostra que o final de ano e as férias ajudaram bastante para chegarmos a estes percentuais, alem das novas regras da CLT que facilitam a contratação de freelancer, autônomos e ETC

Palavras como aumentou, diminuiu, provavelmente, muito improvável, existe chances  são termos vagos, em alguns contextos diminuir 0,5% e pouco em outros e um percentual enorme, e função do cientista de dados descobrir estes valores, para isso podemos fazer experiências.

Vamos ao nosso experimento:

 Informação extraída de um site referência nacional em  Educação:
"A liberação do uso de celular na sala de aula e prejudicial ao aprendizado, mas se usado dentro do plano de aula pode ajudar alunos com maior dificuldade em melhorar suas notas"

Hipóteses levantadas no texto:
- Usar celular na sala de aula prejudica o rendimento do aluno.
-O professor que inserir o celular na sua aula da forma correta pode melhorar o rendimento dos alunos.

Temos então o desafio de testar esta informação e transformá-la em uma informação para tomada de decisão.

Para testar esta hipótese selecionaremos aleatoriamente 3 classes de alunos, aplicaremos 3 comportamentos diferentes para essa turmas

Para melhor aproveitamento da análise, os cuidados abaixo são importantes:
-Os alunos não devem saber do teste
-As 3 turmas não devem se conhecer
-Devem ter mesma faixa de idade e nível intelectual.

Veja o esquema abaixo:

Turma A : Esta amostra não terá acesso a  celular na sala de aula durante todo o teste ( 15 dias -2 provas)

Turma B: semana 1 sem o celular, avaliação. Semana 2 livre para o uso do dispositivo em sala de aula sem nenhum acompanhamento, nova avaliação

Turma C: semana 1 sem o celular, avaliação. Semana 2 serão usados os aplicativos para ensino da matéria, outra avaliação.

Vamos as notas:


 Vamos relembrar as hipóteses a serem testada:

- Usar celular na sala de aula prejudica o rendimento do aluno.
-O professor que inserir o celular na sua aula da forma correta pode elevar o rendimento dos seus alunos.

Não nos interessa medir a nota em si, e sim o aproveitamento entre os 2 períodos, já que entre as 2 avaliações as turmas receberam tratamentos diferentes.

Taxa de aproveitamento = (Nota 2 - Nota 1) 
se o resultado for > 0 existiu aproveitamento exemplo:

nota 1   |   nota 2   |    Aproveitamento (n2 - n1)
    5                 7                       2
    6                 5,5                  -0,5
    8                  7                    -1


Vamos aos Resultados:

Ja vemos um comportamento interessante para o aproveitamento, antes de analisar vamos gerar algumas informações de apoio:


Vamos gerar 2 graficos para ajudar:
1= O maior e o menor aproveitamento da turma
2= Quantos melhoraram e quantos pioraram entre a 1° e a 2 avaliação

 Analise gráfico 1:
Aproveitamento (nota 2 - nota 1) : os maiores aproveitamentos são semelhantes entre os 3 grupos, mostrando que benefícios ou malefícios do uso do celular não afetam os mais inteligentes.
Amplitude negativa do aluno com menor nota no grupo 2, mostra que o uso sem controle pode diminuir em até 20% sua nota.

 Analise gráfico 2:
Usando o celular com acompanhamento pedagógico(3) 20% dos alunos conseguem aumentar sua nota, com o uso liberado(2) 50%  dos alunos pioraram suas notas.


Antes de validar a pesquisa, precisamos fazer uma coisa muito importante, a analise de variância ANOVA, iremos detalhar seu processo em outra postagem, no momento basta entendermos que sua finalidade e validar as amostras, imagina o estrago que seria se os 15 alunos do grupo 2 focem os mais inteligentes dos 45 alunos pesquisados, suas notas altas iriam esconder o maleficio do uso do celular sem acompanhamento pedagógico

Para que o algorítimo da Anova funcione perfeitamente alguns cuidados devem ser tomados
1°- cada conjunto de notas devem ser independentes, não influenciando no outro conjunto
2°- As variâncias devem ser parecidas
3°- a distribuição deve ser normal

Por momento basta saber o que não deve ocorrer

F> F critico = as amostras são diferentes
P < alfa(0,05) = existe diferença entre os grupos de médias

Anova na amostras de MEDIAS usadas para analise.

Irei fazer no software R e no Excel para comparar os resultados:
No R
1 - Indico o caminho da área de trabalho
2-Crio a variável dados recebendo o arquivo com as medias.prn
3- Crio variável anova que recebe o método aov() que faz a analise entre as colunas medias ~ Turmas do arquivo dados
5- sumarry() para exibir o resultado da analise.
Analise no Excel

Analise Anova nas Medias:
-F não e maior que F critico; valida a amostra
-Nosso alfa e 0,05 e  p = 0,48; valida a amostra

Esta amostra e valida pois o universo de variância entre as medias esta dentro aceitável, em outras palavras, Temos proporções iguais em relação ao nível intelectual dos alunos.

Vamos agora fazer a Anova na diferença entre as notas (prova2-prova1), desta vez o resultado deve mostrar que as amostras são diferentes, afinal queremos provar que os três grupos de alunos testados terão resultado diferentes.

Anova na diferença entre as notas (nota2 - nota1)


Neste caso temos 

F > F critico = existem diferenças entre as amostras
Nosso alfa e 0,05  > p = 0,000131;  diferença comprovada


Texto final para tomada de decisão:
"Entre 50% e 70% dos alunos podem ser prejudicados com o uso de celular livremente em sala de aula
Aulas que usam aplicativos e as ferramentas digitais na metodologia de aprendizado podem ajudar 30% dos alunos a melhorarem suas notas.
Alunos mais inteligentes não são afetados pelo uso do celular, nem positivamente nem negativamente.