Correlação entre variáveis

Confira este sistema preditivo usando a correlação:

Será que devo demitir os vendedores com baixo desempenho e contratar novos ou investir em treinamento de vendas?
A ciência de dados busca embasamento matemático para solucionar problemas deste tipo.
Para ajudar a responder esta pergunta precisamos entender um pouco sobre correlação entre variáveis.
Essa medida nos mostra o quanto uma variável tem influência no desempenho da outra.

Ex: Seus gastos mensais estão fortemente ligados a sua renda mensal, e não tem uma relação forte com quantos km você corre em seu treino diário, ou seja sua corrida diária tem uma correlação baixa com seu salario e seus gastos uma correlação alta.

Para calcular a correlação e necessário que as variáveis calculadas tenham algum tipo de relação diretamente ou inversamente proporcional:

Exemplo diretamente proporcional:
idade x peso
2             15
5             32
7             35

Exemplo inversamente proporcional
Preço Carro  x  QTD vendas
30.000                    56                       
50.000                    38                                
80.000                    21  
120.000                   9               

A Correlação será sempre um numero entre -1 e 1 que segue as características abaixo:


Antes de calcularmos a Correlação e preciso nos certificar que os dados tem uma relação linear, para isso devemos gerar um gráfico de dispersão:



Neste gráfico temos no eixo X horas de treinamento do funcionário e no eixo Y sua media de vendas,
perceba que quanto mais se treina os vendedores, mais vendas são efetuadas. a linha acendente significa uma relação diretamente proporcional, a linha decrescente, inversamente proporcional.
Não podemos aplicar a correlação quando encontramos um gráfico de disperção como o da figura.


Vamos a nossa análise:

Temos a planilha acima informando as horas trabalhadas no mês, as horas de treinamento individual e a media de vendas.A pergunta que queremos desvendar e:

Para aumentar as vendas os funcionários devem trabalhar mais ou treinar mais?

Formula Correlação:







Vamos mediar a relação entre as horas trabalhadas e as vendas. Para ajudar precisamos do quadrado dos valores  A e B e da Multiplicação entre as colunas

Passando os valores para a formula temos:








Podemos usar a formula abaixo no Excel 






Resposta: a correlação entre Horas de trabalho e Media de vendas e 0,25  de acordo com a escala esta e uma relação moderada.
Aplicando os mesmos passos para calcular a correlação entre treinamento X vendas, esta correlação e de  0,82 mostrando uma forte relação.
Resultado: E mais vantajoso para esta empresa investir em treinamento do que colocar os funcionários para trabalhar mais.

Gráfico de dispersão dos 2 exemplos acima:

Vemos na relação Treinamento x Vendas, uma correlação de 0,82, de acordo com nossa tabela uma relação entre moderada e forte, veja o salto obtido entre vendedores que treinaram até 4hs e vendedores que treinaram mais de 6hs, ja na relação Horas Trabalho x Vendas vemos vários dados dispersos onde os que mais venderam não necessariamente trabalharam muito tempo.

Usando R para calcular o modelo:

a= horas de trabalho funcionário
b= vendas do funcionário

a= horas treinamento funcionario
b= vendas do funcionario