10 Estatística Descritiva
As estatísticas descritivas são números que resumem e descrevem o conjuntos de dados. As estatísticas descritivas apenas “descrevem” os dados, elas não representam generalizações da amostra para a população.
Abaixo, segue alguns comandos do software R e as respectivas explicações das análises. Foi utilizado um conjunto de dados para melhor exemplificação.
10.1 Conjunto de Dados
Existem várias formas de entrada ou leitura de dados no R. Para um conjunto de dados pequeno, pode-se entrar com as informações diretamente no console do programa. Considere um delineamento inteiramente ao acaso com 5 tratamentos e 4 repetições. A entrada dos dados, entre outras, poderia ser da forma:
= rep(c(paste("T", sep='', 1:5)), each=4)
tratamentos = c(100, 120, 110, 90,
resposta 150, 145, 149, 165,
150, 144, 134, 139,
220, 206, 211, 210,
266, 249, 248, 260)
10.2 Medidas de Tendência Central
As medidas de tendência central ou posição são utilizadas para resumir, em um único número, o conjunto de dados observados da variável em estudo.
Usualmente emprega-se uma das seguintes medidas de posição (ou localização) central: média, mediana ou moda.
10.2.1 Média Aritmética Simples
A medida de tendência central mais comumente usada para descrever resumidamente um conjunto de dados, tabelados ou não, é a média aritmética simples, ou simplesmente média e representa-se por \(\bar{x}\). é definida como a soma das observações dividida pelo número delas.
Assim, a média amostral é dada por:
\[\overline{x} = \frac{x_1 + \ldots + x_n}{n}, \qquad \mbox{ ou, resumidamente, como } \qquad \overline{x} = \displaystyle \frac {1}{n} \sum_{i=1}^{n} x_i. \]
## Comando básico para o cálculo da média geral
= mean(resposta)) (média
## [1] 173.3
Para calcular a média por tratamento, pode-se usar o comando tapply(), que necessita dos seguintes argumentos:
tapply(vetor de dados, fator, análise)
.
Assim
## Cálculo da média por tratamento
= tapply(resposta, tratamentos, mean)) (médias
## T1 T2 T3 T4 T5
## 105.00 152.25 141.75 211.75 255.75
10.2.2 Mediana
A mediana, denotada por \(Md\), é uma quantidade que, como a média, também procura caracterizar o centro da distribuição de frequências quando os valores são dispostos em ordem crescente ou decrescente de magnitude.
É o valor que divide o conjunto ordenado de valores em duas partes com igual número de elementos, ou seja, 50% das observações ficam acima da mediana e 50% ficam abaixo.
Para calcular a mediana deve-se, em primeiro lugar, ordenar os dados para que se possa localizar a posição da mediana e assim encontrar seu valor. O número que indica a ordem ou posição em que se encontra o valor correspondente à mediana é denominado elemento mediano (\(E_{Md}\)).
Se o número de observações for impar, a mediana será a observação central. Se o número de observações for par, a mediana será a média aritmática das duas observações centrais.
## Comando básico para o cálculo da mediana
mediana = median(resposta)) (
## [1] 150
## Cálculo da mediana por tratamento
medianas = tapply(resposta, tratamentos, median)) (
## T1 T2 T3 T4 T5
## 105.0 149.5 141.5 210.5 254.5
10.2.3 Moda
A moda de um conjunto de valores é definida como a realização mais frequente do conjunto de valores observados, ou seja, é o valor que apresenta a maior frequência.
Se dois valores ocorrem com a mesma frequência máxima, cada um deles será a moda, e o conjunto se denomina bimodal.
Se mais de dois valores ocorrem com a mesma frequência máxima, cada um deles é uma moda, e o conjunto é multimodal.
Quando nenhum valor é repetido, o conjunto não tem moda (amodal).
A moda pode ser obtida mesmo que a variável seja qualitativa. Os comandos para se determinar a moda são:
= table(resposta)
tab moda = names(tab)[tab == max(tab)]) (
## [1] "150"
10.2.4 Máximo
O maior valor observado no conjunto de dados.
## Comando básico para o cálculo do valor máximo
= max(resposta)) (máximo
## [1] 266
## Cálculo do valor máximo para cada tratamento
= tapply(resposta, tratamentos, max)) (máximos
## T1 T2 T3 T4 T5
## 120 165 150 220 266
10.2.5 Mínimo
O menor valor observado no conjunto de dados.
## Comando básico para valor mínimo
= min(resposta)) (mínimo
## [1] 90
## Cálculo do valor mínimo para cada tratamento
= tapply(resposta, tratamentos, min)) (mínimos
## T1 T2 T3 T4 T5
## 90 145 134 206 248
10.3 Medidas de Dispersão
As medidas de dispersão servem para indicar o quanto os dados se apresentam dispersos, ou afastados, em relação ao seu valor médio, por exemplo.
10.3.1 Amplitude Total
A maneira mais simples de se medir a variabilidade de uma variável é através da “distância” entre o maior e o menor valor observado em um conjunto de dados. Essa diferença é a amplitude total, denotada por \(A_t\).
Considere o conjunto de dados ordenado: \[X_{(1)} \leq X_{(2)} \leq X_{(3)} \leq \cdots \leq X_{(n-1)} \leq X_{(n)}.\]
A amplitude \(A_t\) dos dados é dada por:
\[A_t = X_{(n)} - X_{(1)}\]
amplitude = max(resposta) - min(resposta)) (
## [1] 176
# ou
amplitude = diff(range(resposta))) (
## [1] 176
10.3.2 Variância Amostral
A medida de variabilidade mais utilizada é a variância, que é simplesmente a soma dos quadrados dos desvios, dividida pelo total de observações menos um.
A variância de uma amostra \(\left\{x_1, \ldots, x_n \right\}\) de \(n\) elementos é definida por: \[s^2 = \sum_{i=1}^n \frac{(x_i - \overline{x})^2}{n-1} \qquad \mbox{ ou } \qquad s^2 = \frac{1}{n-1} \left[ \sum_{i=1}^n x_i^2 - \frac{ \left( \displaystyle \sum_{i=1}^n x_i \right)^2 }{n} \right].\]
## Comando básico para o cálculo da variância amostral
= var(resposta)) (variância
## [1] 3090.747
## Cálculo da variância amostral para cada tratamento
= tapply(resposta, tratamentos, var)) (variâncias
## T1 T2 T3 T4 T5
## 166.66667 76.91667 46.91667 34.91667 76.25000
Algumas propriedades da variância são:
somar (ou subtrair) um valor constante e arbitrário \(c\) a cada elemento de um conjunto de números não altera a variância;
multiplicar (ou dividir) por um valor constante e arbitrário \(c\) cada elemento de um conjunto de números, a variância fica multiplicada (ou dividida) pelo quadrado da constante.
10.3.3 Desvio-padrão Amostral
Observe que, devido ao fato de se elevar os desvios ao quadrado, a unidade de medida também fica elevada ao quadrado, gerando escalas sem sentido prático. Assim, caso a unidade de mensuração seja metros (\(m\)), a unidade de medida da variância será \(m^2\).
Uma forma de se obter uma medida de dispersão com a mesma unidade de medida dos dados observados é, simplesmente, extrair a raiz quadrada da variância, obtendo-se o desvio padrão. Ele é representado por \(s\). Logo,
\[ s = \sqrt{s^2} = \sqrt{\sum_{i=1}^n \frac{(x_i - \overline{x})^2}{n-1}}\]
## Comando básico para Desvio-padrão amostral
desvio = sd(resposta)) (
## [1] 55.59449
## Separando por tratamento
desvios = tapply(resposta, tratamentos, sd)) (
## T1 T2 T3 T4 T5
## 12.909944 8.770215 6.849574 5.909033 8.732125
10.3.4 Coeficiente de Variação
A interpretação do desvio padrão depende da ordem de grandeza da variável em estudo. Assim, um desvio padrão de 10 pode ser insignificante se os valores típicos observados forem muito altos, por exemplo, em torno de 1.000; mas pode ser muito expressivo para um conjunto de dados cuja observação típica seja em torno de 100.
Logo, pode ser conveniente expressar a variabilidade dos dados de uma variável de modo independente da sua unidade de medida utilizada, tirando a influência da ordem de grandeza da variável. Tal medida é denominada coeficiente de variação.
O coeficiente de variação de Pearson é a razão entre o desvio padrão e a média. Em geral, o resultado é multiplicado por 100, para que o coeficiente de variação seja expresso em porcentagem.
É dado por:
\[CV = \dfrac{s} {\overline{x} } \times 100\]
## Comando para o cálculo do Coeficiente de Variação
CV = sd(resposta) / mean(resposta)*100) (
## [1] 32.07991
# ou
CV = desvio / média * 100) (
## [1] 32.07991
## Cálculo do Coeficiente de Variação por tratamento
CVs = tapply(resposta, tratamentos, sd) / tapply(resposta, tratamentos, mean)*100) (
## T1 T2 T3 T4 T5
## 12.295185 5.760404 4.832151 2.790570 3.414320
10.4 Gerando uma Tabela com as Estatísticas
Pode-se construir uma única tabela com as estatísticas geradas usando-se o comando rbind
ou cbind
. Assim,
= rbind(Média = média,
descritiva Mediana = mediana,
=max(resposta),
Máximo=min(resposta),
MínimoAmplitude=amplitude,
=variância,
Variância"Desvio-padrão"=desvio,
"CV(%)"=CV)
colnames(descritiva) = 'Estatísticas'
descritiva
## Estatísticas
## Média 173.30000
## Mediana 150.00000
## Máximo 266.00000
## Mínimo 90.00000
## Amplitude 176.00000
## Variância 3090.74737
## Desvio-padrão 55.59449
## CV(%) 32.07991
10.5 Gerando as estatísticas por tratamento:
# Cálculo das Estatísticas por tratamento
= cbind(Médias=round(médias, 1),
Descritiva Medianas=medianas,
=máximos,
Máximos=mínimos,
MínimosAmplitudes=máximos - mínimos,
=round(variâncias, 4),
Variâncias"Desvios-padrão"=round(desvios, 4),
"CVs(%)"=round(CVs, 1))
Descritiva
## Médias Medianas Máximos Mínimos Amplitudes Variâncias Desvios-padrão CVs(%)
## T1 105.0 105.0 120 90 30 166.6667 12.9099 12.3
## T2 152.2 149.5 165 145 20 76.9167 8.7702 5.8
## T3 141.8 141.5 150 134 16 46.9167 6.8496 4.8
## T4 211.8 210.5 220 206 14 34.9167 5.9090 2.8
## T5 255.8 254.5 266 248 18 76.2500 8.7321 3.4