Boxplot, ou diagrama de caixa, é uma ferramenta visual muito útil para identificar a presença de valores atípicos em um conjunto de dados - os outliers.
Os outliers, quando presentes, são representados como pontos fora das "caixas" que mostram a dispersão dos dados, a decisão de excluir ou não é do analista, tendo em vista que, em alguns cenários, outliers podem fornecer insights valiosos sobre o comportamento dos dados e não devem ser descartados.
Mas como é construído um boxplot?
A construção do diagrama de caixa requer o cálculo dos quartis, que são três medidas (𝑄1 ,𝑄2 𝑒 𝑄3 ) que dividem o conjunto de dados em quatro partes iguais, sendo que cada quartil corresponde a 25% dos dados.
A linha dentro do retângulo (Q2) representa a mediana da distribuição.
As bordas superior e inferior do retângulo representam os quartis 1 e 3.
A altura desse retângulo ("caixa") é chamada de amplitude interquartílica, e é dada pela fórmula IQ = Q3 - Q1.
Os traços horizontais ao final das linhas verticais são traçados sobre o último ponto (de um lado ou de outro) que não é considerado um outlier inferior ou superior.
Geralmente, a maior parte das definições considera que pontos acima do valor do 3.º quartil somado a 1,5 vezes a IQ ou os pontos abaixo do valor do 1.º quartil diminuído de 1,5 vezes a IQ são considerados outliers.
Quer aprender mais sobre análise de dados? Se inscreva na nossa newsletter e acompanhe as novidades! 👇👇
Comments