Quanto custa para ser um Deputado? Regressão Logística

No posts sobre técnicas de composição de preço  usamos a regressão linear, através da carga horária geramos uma formula para prever o preço de novos cursos. Em termos técnicos usamos uma variável quantitativa para prever outra também quantitativa.
Hoje veremos a regressão logística, onde usamos uma variável quantitativa para prever uma variável binária(qualitativa).
Variável binária são aquelas com dois estados. (sim / não), (investir / não investir),( comprar / não comprar), neste caso (eleito / não eleito)

Quanto um deputado estadual deve INVESTIR na campanha  para ter chances reais de ser eleito?

Acredito que o Brasil e um dos países onde as variáveis Investimentos na eleição e Resultado da eleição estão mais relacionadas. Tive a ideia de fazer este estudo ao ler este artigo do portal EXAME . Muitas variáveis estão ligadas ao resultado positivo ou negativo de uma campanha eleitoral. Coligação partidária, histórico politico do candidato e varias outras. A pergunta que não saiu da minha cabeça durante a leitura do artigo foi:


Será que podemos encontrar uma relação entre VALOR GASTO NA CAMPANHA X RESULTADO DA ELEIÇÃO

Baseado nesta questão busquei o portal da transparência eleitoral

site : http://divulgacandcontas.tse.jus.br/divulga/#/
551 candidatos a Deputado Estadual de Pernambuco em 2014 foram encontrados, filtrei aleatoriamente 6% para nossa  analise, temos então uma amostra com 32 candidatos.
Três  Diferentes status qualitativos são encontrados no resultado:
0-Não Eleito /  1-Eleito por Coeficiente Partidário  /  2- Suplente

Como já explicado, a regressão binária deve possuir 2 status qualitativos, como minha pesquisa esta ligada a analisar (votos x investimento na campanha), optei por enquadrar os suplentes no status 1.

Na coluna Gastos, uso a escala 1/1.000.000
0.22 = 220 mil
0.45 = 450 mil
0.12 - 120 mil


Criamos a variável chamada arquivo para receber o documento csv criado no Excel, em seguida uso o método fix() para exibir a tabela acima.

Vamos uso o plot() para gerar uma dispersão simples quero entender como o gasto influencia no status.Obtenho o diagrama abaixo.

Analisando o gráfico:
Ate 600 mil temos a zona duvidosa, o politico pode ou não ser eleito, a resposta não e simplesmente explicada pelo dinheiro investido na campanha, acima de 600 mil investido todos os elementos da amostra foram eleitos.

Lembe-se que estamos analisando uma AMOSTRA(32) não a POPULAÇÃO TOTAL(551), logo todas as informações levantadas são indícios que devem ser apurados

Vamos olhar a correlação entre as colunas:

Temos uma correlação de fraca a media. O que neste caso não significa que o relacionamento entre elas seja pequena pois vemos que 100% dos elementos da amostra que investiram mais de 600 mil foram eleitos.

Vamos então a criação do nosso modelo
Usando a função glm() para criar o modelo acima, para intender mais sobre este modelo,aconselho videos sobre Modelos Genéricos Lineares. Dentro deste modelo insiro as colunas desejadas, o argumento data recebe o arquivo com a planilha, e no parâmetro Family escolhemos binomial indicando a regressão logística.

Vamos agora Gerar a dispersão anterior e sobrepomos com a função points() uma dispersão entre os gastos e o modelo criado.

Temos os círculos representando a dispersão das variáveis Gastos e  Status, e os fragmentos "+" a linha de  melhor ajuste percentual, veja o "+" em evidência, ele informa que para ter 80% de chances de ser eleito devo investir cerca de 550 mil na candidatura.

Vamos então carregar um novo arquivo pois temos alguns candidatos e queremos fazer a previsão do resultado das eleições para eles.

Crio a variável previsão para selecionar o novo documento csv do Excel, e exibo a tabela com o método fix()

Aplicando o modelo a variável previsão

Crio a coluna resultado, onde uso o método predict() passando como parâmetro o modelo criado acima, o dataset = previsão, e o tipo = response temos então as probabilidades de cada candidato que vai de 0% a 100%.

O modelo criado analisa somente o dinheiro investido na campanha, temos varias outras variáveis para analisar, nosso próximo passo e seria estudar as variáveis de quem investiu pouco e foi eleito. Apos este levantamento encontrar pontos de correlações altas e tentar absorver isso em nosso modelo.

“Essentially, all models are wrong, but some are useful”