Quando devemos substituir a media pela mediana

Agora que você já entendeu o conceito de dispersão e variância no post anterior, imagine que você  vai analisar o perfil de clientes de uma concessionária, para iniciar seu trabalho pega uma amostra dos salários de clientes que compraram  seus carros mais caros, pelo gráfico acima já e possível perceber que existe uma dispersão, logo a média dos salários : R$28.600 não irá representar realmente uma media coerente, veja que somente o cliente D esta realmente acima desta media, perceba o desvio padrão de 32.377, mostra que devemos ajustar esta media, uma das alternativas e a mediana, onde caso a amostra tenha uma quantidade impar de valores, a mediana e o valor do meio, caso a mostra tenha uma quantidade par como e o nosso caso de 4 amostas, tiramos a media simples dos 2 valores do meio, neste caso ( 9.740 + 23.000)/2 = 16. 370 perceba que  neste caso o ajuste entre a media e a mediana foi de mais de 12.000. O cliente D, e o que chamamos de OUTLIER ou valor que foge muito da media, estes valores devem ser mapeados e analisados com cuidado pois podem interferir e mascarar informações importantes, para sua detecção basta apenas uma plotagem simples do gráfico, valores isolados longe da media são os outliers 
      

Criando Dataset no Pandas:

Analise inicial dos dados

plotando os dados