Testando algoritimos de Agrupamento

Vamos falar um pouco de clusterização e agrupamento de dados:
Um cluster e um agrupamento de objetos por similaridade, no exercício anterior- Diagnostico Médico, existia a lista de doenças esperadas e nossa intenção era classificar cada paciente obrigatoriamente com uma doença, para isso era necessário separar uma parte dos dados para treinar o modelo e outro para testar sua eficácia, ao final nosso algorítimo simplesmente informava a doença.


Abaixo planilha com os dados de teste:
Testamos carros com 3 tipos de motores diferentes, medimos a automação e o tempo em segundos para fazer de 0 a 100km/h.

Vamos fazer um pouco diferente, vou usar a técnica da clusterização para agrupar esta planilha em 3 grupos, irei criar um modelo de clasificacao usando a media como parametro de agrupamento, depois vamos verificar se os grupos criados refletem os grupos de motores diferentes.

Usaremos a mesma biblioteca e1071 da aula passada:

 Importando nosso arquivo para o software R


criamos o cluster usando o metodo cmeans() usando as 2 primeiras colunas dados[,1:2] e center=3 para dividir o conjunto de dados em 3 grupos diferentesdiferentes
vamos gerar uma tabela comparando a coluna motor do arquivo dados com o cluster gerado com o cmeans


O algoritimo acertou todos os carros 2.0, 1 carro que era 1.6 ele clasificou como 2.0 e um carro que era 1.0 foi para o grupo dos carros 1.6, vamos ver a taxa de acerto

vamos gerar uma dispercao para entender o agrupamento por media, temos em verde os Carros 1.0, vermelho para os Carros 1.6 e preto para os Carros 2.0.