Assim como cientistas de outras áreas, o trabalho do cientista de dados não se resume a observar dados, medi-los e apresentar seu comportamentos. A parte mais legal e criar experiências para aprovar ou reprovar informações de outras análises ou informações geradas pelo famoso Eu acho que...
Informação encontrada sobe o Brasil em um grande portal de notícias:
"No 1° trimestre de 2018 houve um aumento do números de empregos formais, os setores responsaveis por essa recuperação foi o comercio, seguido pelo mercado de turismo e lazer."
Mesma informação tratada para a tomada de decisão:
No 1° trimestre de 2018 houve um aumento de 8% na taxa de contratos com carteira assinada, deste total, 34% das vagas no Comercio, 21% das vagas no setor de turismo e lazer, o crescimento de 4% em referência ao ultimo trimestre de 2017 mostra que o final de ano e as férias ajudaram bastante para chegarmos a estes percentuais, alem das novas regras da CLT que facilitam a contratação de freelancer, autônomos e ETC
Palavras como aumentou, diminuiu, provavelmente, muito improvável, existe chances são termos vagos, em alguns contextos diminuir 0,5% e pouco em outros e um percentual enorme, e função do cientista de dados descobrir estes valores, para isso podemos fazer experiências.
Vamos ao nosso experimento:
Informação extraída de um site referência nacional em Educação:
"A liberação do uso de celular na sala de aula e prejudicial ao aprendizado, mas se usado dentro do plano de aula pode ajudar alunos com maior dificuldade em melhorar suas notas"
Hipóteses levantadas no texto:
- Usar celular na sala de aula prejudica o rendimento do aluno.
-O professor que inserir o celular na sua aula da forma correta pode melhorar o rendimento dos alunos.
Temos então o desafio de testar esta informação e transformá-la em uma informação para tomada de decisão.
Para testar esta hipótese selecionaremos aleatoriamente 3 classes de alunos, aplicaremos 3 comportamentos diferentes para essa turmas
Para melhor aproveitamento da análise, os cuidados abaixo são importantes:
-Os alunos não devem saber do teste
-As 3 turmas não devem se conhecer
-Devem ter mesma faixa de idade e nível intelectual.
Veja o esquema abaixo:
Turma B: semana 1 sem o celular, avaliação. Semana 2 livre para o uso do dispositivo em sala de aula sem nenhum acompanhamento, nova avaliação
Turma C: semana 1 sem o celular, avaliação. Semana 2 serão usados os aplicativos para ensino da matéria, outra avaliação.
Vamos as notas:
Vamos relembrar as hipóteses a serem testada:
- Usar celular na sala de aula prejudica o rendimento do aluno.
-O professor que inserir o celular na sua aula da forma correta pode elevar o rendimento dos seus alunos.
Não nos interessa medir a nota em si, e sim o aproveitamento entre os 2 períodos, já que entre as 2 avaliações as turmas receberam tratamentos diferentes.
Taxa de aproveitamento = (Nota 2 - Nota 1)
se o resultado for > 0 existiu aproveitamento exemplo:
nota 1 | nota 2 | Aproveitamento (n2 - n1)
5 7 2
6 5,5 -0,5
8 7 -1
Vamos aos Resultados:
Ja vemos um comportamento interessante para o aproveitamento, antes de analisar vamos gerar algumas informações de apoio:
Vamos gerar 2 graficos para ajudar:
1= O maior e o menor aproveitamento da turma
2= Quantos melhoraram e quantos pioraram entre a 1° e a 2 avaliação
Analise gráfico 1:
Aproveitamento (nota 2 - nota 1) : os maiores aproveitamentos são semelhantes entre os 3 grupos, mostrando que benefícios ou malefícios do uso do celular não afetam os mais inteligentes.
Amplitude negativa do aluno com menor nota no grupo 2, mostra que o uso sem controle pode diminuir em até 20% sua nota.
Analise gráfico 2:
Usando o celular com acompanhamento pedagógico(3) 20% dos alunos conseguem aumentar sua nota, com o uso liberado(2) 50% dos alunos pioraram suas notas.
Antes de validar a pesquisa, precisamos fazer uma coisa muito importante, a analise de variância ANOVA, iremos detalhar seu processo em outra postagem, no momento basta entendermos que sua finalidade e validar as amostras, imagina o estrago que seria se os 15 alunos do grupo 2 focem os mais inteligentes dos 45 alunos pesquisados, suas notas altas iriam esconder o maleficio do uso do celular sem acompanhamento pedagógico
Para que o algorítimo da Anova funcione perfeitamente alguns cuidados devem ser tomados
1°- cada conjunto de notas devem ser independentes, não influenciando no outro conjunto
2°- As variâncias devem ser parecidas
3°- a distribuição deve ser normal
Para que o algorítimo da Anova funcione perfeitamente alguns cuidados devem ser tomados
1°- cada conjunto de notas devem ser independentes, não influenciando no outro conjunto
2°- As variâncias devem ser parecidas
3°- a distribuição deve ser normal
Por momento basta saber o que não deve ocorrer:
F> F critico = as amostras são diferentes
P < alfa(0,05) = existe diferença entre os grupos de médias
Anova na amostras de MEDIAS usadas para analise.
Irei fazer no software R e no Excel para comparar os resultados:
No R
1 - Indico o caminho da área de trabalho
2-Crio a variável dados recebendo o arquivo com as medias.prn
3- Crio variável anova que recebe o método aov() que faz a analise entre as colunas medias ~ Turmas do arquivo dados
5- sumarry() para exibir o resultado da analise.
Anova na amostras de MEDIAS usadas para analise.
Irei fazer no software R e no Excel para comparar os resultados:
1 - Indico o caminho da área de trabalho
2-Crio a variável dados recebendo o arquivo com as medias.prn
3- Crio variável anova que recebe o método aov() que faz a analise entre as colunas medias ~ Turmas do arquivo dados
5- sumarry() para exibir o resultado da analise.
Analise Anova nas Medias:
-F não e maior que F critico; valida a amostra
-Nosso alfa e 0,05 e p = 0,48; valida a amostra
Esta amostra e valida pois o universo de variância entre as medias esta dentro aceitável, em outras palavras, Temos proporções iguais em relação ao nível intelectual dos alunos.
Vamos agora fazer a Anova na diferença entre as notas (prova2-prova1), desta vez o resultado deve mostrar que as amostras são diferentes, afinal queremos provar que os três grupos de alunos testados terão resultado diferentes.
Anova na diferença entre as notas (nota2 - nota1)
Neste caso temos
F > F critico = existem diferenças entre as amostras
Nosso alfa e 0,05 > p = 0,000131; diferença comprovada
Texto final para tomada de decisão:
"Entre 50% e 70% dos alunos podem ser prejudicados com o uso de celular livremente em sala de aula
Aulas que usam aplicativos e as ferramentas digitais na metodologia de aprendizado podem ajudar 30% dos alunos a melhorarem suas notas.
Alunos mais inteligentes não são afetados pelo uso do celular, nem positivamente nem negativamente.