Média, Moda e Mediana
Se tivermos uma sequência de números , podendo ter repetições, a média (
Mean
) é definida como
A média também é usualmente chamada de expectância.
A moda (
Mode
) é o número que mais aparece na sequência. Por exemplo, a moda de 1,2,2,5,6 é 2. Por outro lado, a sequência 1,3,3,5,5,6 tem duas modas: 3 e 5, neste caso é a sequência é chamada bimodal. Se houver mais do que duas modas, normalmente usamos o termo multimodal e se não há repetições, usamos o termo sequência amodal (O comando
Mode
retorna todos os elementos). Uma sequência que tem uma única moda também é chamada unimodal.
A mediana (
Median
) é o valor numérico tal que metade dos números da sequência são menores do que e metade dos números são maiores que . Por exemplo, a mediana de 1,2,2,5,6,7,8 é , pois três numeros (1,2,2) são menores do que 5 e três números (6,7,8) são maiores do que 5. Por outro lado, a mediana de 2,5,6,7 é , pois como não pode estar na sequência ele é o valor médio entre 5 e 6.
As definições de média, moda e mediana dadas acima usaram uma amostra de pontos, por isto, elas também são chamadas de média amostral, moda amostral e mediana amostral. Estes mesmos conceitos podem ser aplicados para variáveis aleatórias com distribuições de probabilidades discretas ou contínuas. Estas definições são estendidas devido ao contexto. Se é uma variável aleatória em um espaço amostral discreto constituído pelo conjunto de pontos (sem repetições, podendo ser infinito), a média é definida como
onde é a probabilidade da variável ter o valor . Se o espaço amostral é a reta real, a média é definida como
Quando o espaço amostral é a reta real, a moda é o número (ou números) na reta real cujo valor é um máximo global da distribuição de probabilidades. As vezes, máximos locais também são chamados de moda.
A mediana é definida como o valor tal que
e
O valor de não é único necessariamente. Se para todo , o valor de é único e geometricamente corresponde ao ponto da reta real que divide a área embaixo da curva da distribuição de probabilidades exatamente no meio.
Por exemplo, a distribuição de probabilidades contínua (chi-quadrado ou
ChiSquare
) com graus de liberdade tem o seguinte gráfico
> |
|
Vamos calcular a média, moda e mediana para .
> |
|
|
(2.7.1) |
> |
|
> |
|
Vamos conferir o resultado para a media usando a definição.
> |
|
|
(2.7.2) |
Vamos conferir o resultado para a moda.
> |
|
|
(2.7.3) |
Note que o máximo ocorre no ponto , que é a moda. Vamos conferir o resultado da mediana.
> |
|
|
(2.7.4) |
> |
|
Desvio Padrão, Variância, Assimetria e Curtose
Se é uma variável aleatória em um espaço amostral discreto constituído pelo conjunto de pontos (sem repetições, podendo ser infinito) com média , a variância (
Variance
) é definida como
onde é a probabilidade da variável ter o valor . Se o espaço amostral é a reta real, a média é definida como
Uma forma alternativa de definir variância é como a média de uma nova variável aleatória definida como , isto é,
Por exemplo, vamos checar que esta segunda definição usando uma variável aleatória com a distribuição de probabilidades
ChiSquare
de 5 graus de liberdade:
> |
|
> |
|
|
(2.8.1) |
> |
|
O comando
Variance
quando aplicado em uma amostra ou lista de dados calcula a variância usando estimativa imparcial ou não-viciada (unbiased estimation of variance), cuja fórmula é
O desvio padrão (
StandardDeviation
) é definido como
O desvio padrão é uma medida do tamanho da dispersão do pontos de uma amostra em torno da média. Se a dispersão for pequena, o desvio padrão é pequeno e vice-versa. O comando
StandardDeviation
quando aplicado em uma amostra ou lista de dados usa a estimativa imparcial. Para encontrar a estimativa parcial, devemos multiplicar o resultado por .
Exercícios
1. Considere o gráfico de uma distribuição Normal de média e desvio padrão Mostre que a distância horizontal do ponto médio do gráfico até o ponto de inflexão (ponto onde a derivada segunda se anula) é .
2. É possível mostrar de maneira geral que
Verifique no Maple que este fato é verdeiro para a uma variável com uma distribuição Normal de média e desvio padrão
A assimetria (
Skewness
) é definida como
A assimetria é uma medida da assimetria de uma distribuição de probabilidades: é positiva se for a distribuição de probabilidades for assimétrica à direita (veja o gráfico de ), caso contrário é negativa. Por exemplo, a distribuição de graus de liberdade é assimétrica à equerda para qualquer valor de . Note que a assimetria é positiva.
> |
|
> |
|
|
(2.8.2) |
A distribuição Beta com o segundo parâmetro menor do que o primeiro é um exemplo de assimetria negativa
> |
|
|
(2.8.3) |
Note que o gráfico é assimétrico à esquerda:
> |
|
A curtose (
Kurtosis
) é definida como
A curtose mede o grau de agudez do pico da distribuição de probabilidades tomando a distribuição Normal como referência. A curtose da distribuição Normal é 3. Se a curtose for maior do que 3, a distribuição é mais concentrada em torno da média do que a distribuição Normal e se for menor do que 3, a distribuiçãoé mais espalhada do que a distribuição Normal. Note que
> |
|
> |
|
|
(2.8.4) |
O menor valor possível da curtose é 1 que é obtida com a distribuição de probabilidades discreta de
Bernoulli
quando a probabilidade de sucesso é .
> |
|
|
(2.8.5) |
> |
|
Exercício
Moste usando Maple que a curtose da distribuição é sempre maior do que a curtose da distribuição normal.
Percentil, Intervalo Interquartílico e Desvio Médio
Considere uma distribuição de probabilidades contínua, por exemplo, a distribuição normal de média 0 e desvio padrão 1. Qual é o valor de tal que a probabilidade de se obter um valor menor ou igual a seja de 30%? A resposta seria o valor de tal que a integral de a dê . A interpretação geométrica é a área embaixo da curva da distribuição de probabilidades de a é . Este valor de é chamado de trigésimo percentil. Para calcular um percentil, devemos usar o comando
Percentile
, no caso do trigésimo percentil, o comando é
> |
|
> |
|
|
(2.9.1) |
Vamos verificar o resultado
> |
|
> |
|
> |
|
|
(2.9.2) |
Este valor de também é chamado de terceiro decil, e também pode ser calculado com o comando
Decile
:
> |
|
|
(2.9.3) |
O intervalo interquartílico (
InterquartileRange
) é definido como a diferença entre o septagésimo-quinto () percentil e o vigésimo-quinto () percentil ou, equivalentemente, a diferença entre o terceiro quartil e o primeiro quartil (
Quartile
). Por exemplo, no caso da distribuição normal
> |
|
|
(2.9.4) |
Só para confirmar:
> |
|
|
(2.9.5) |
> |
|
|
(2.9.6) |
O intervalo semi-interquartílico é definido como a metade do intervalo interquartílico.
O desvio médio é definido como média de uma nova variável aleatória definida como , isto é,
> |
|
|
(2.9.7) |
Podemos confirmar com os seguintes comandos:
> |
|
> |
|
> |
|
|
(2.9.8) |
O desvio mediano absoluto é definido como médiana de uma nova variável aleatória definida como , isto é,
Por exemplo:
> |
|
|
(2.9.9) |
Podemos confirmar com os seguintes comandos:
> |
|
> |
|
> |
|
|
(2.9.10) |
> |
|
Função Geradora de Momentos e Função Característica
A partir de uma variável aleatória podemos definir uma nova variável aleatória usando uma função . Podemos usar em os comandos que tem variáveis aleatórias como argumento, como o comando que calcula a média ou o desvio padrão. Em particular, se a função for , teremos a nova variável aleatória defina como . A função geradora de momentos (
MomentGeneratingFunction
) é definida como a média de , isto é,
O -ésimo momento (
Moment
) de uma variável aleatória e definido por
e o -ésimo momento central (
CentralMoment
) de uma variável aleatória e definido como a média da variável aleatória , onde é a média de , isto é, por
Por exemplo
> |
|
> |
|
|
(2.10.1) |
Note que se expandirmos a função geradora de momentos em série de Taylor
> |
|
> |
|
|
(2.10.2) |
podemos obter o -ésimo momento como o coeficiente do termo vezes o fatorial de . De fato
> |
|
> |
|
|
(2.10.3) |
De outra maneira
> |
|
> |
|
> |
|
> |
|
> |
|
> |
|
|
(2.10.5) |
> |
|
Exercício
Seja para variáveis aleatórias independentes que podem assumir os valores 1 ou -1 com probabilidade uniforme. Escolha como sendo um número inteiro maior do que 10. (a) Mostre que a função geradora de momentos variável aleatória é . (b) Mostre que a função geradora de momentos da variável aleatória é .
Solução
(a) Vamos mostrar no caso em que :
> |
|
> |
|
> |
|
> |
|
> |
|
|
(2.10.1.1.1) |
(b)
> |
|
> |
|
> |
|
|
(2.10.1.1.2) |
A função característica (
CharacteristicFunction
) é definida como a média de , isto é,
Por exemplo
> |
|
> |
|
|
(2.10.6) |
Note que se expandirmos a função característica em série de Taylor
> |
|
|
(2.10.7) |
podemos obter o -ésimo momento como o coeficiente do termo vezes . De fato
> |
|
|
(2.10.8) |
De outra maneira
> |
|
> |
|
Exercício
Seja para variáveis aleatórias independentes que podem assumir os valores 1 ou -1 com probabilidade uniforme. Escolha como sendo um número inteiro maior do que 10. (a) Mostre que a função característica da variável aleatória é . (b) Mostre que a função característica da variável aleatória é .
Estatística
Amostragem
Na Estatística, usualmente temos uma população de indivíduos (por exemplo: pessoas, produtos, ou objetos) e queremos tirar conclusões sobre as características desta população examinando um subgrupo que é chamado de amostra. Quando selecionamos uma amostra, vamos supor que cada indivíduo é selecionado aleatoriamente segundo uma distribuição de probabilidades associada à população. O tamanho da população pode ser grande, ou até mesmo infinito, mas o tamanho da amostra deve ser o menor possível por uma questão de economia de recursos. A amostragem pode ser com ou sem reposição, dependendo se um indivíduo selecionado foi colocado de volta na população ou não. No primeiro caso, amostra com reposição, um indivíduo pode ser selecionado mais do que uma vez. Os parâmetros da população são os parâmetros da distribuição de probabilidades associada. Por exemplo, uma população associada a distribuição normal (chamada população normal) tem como parâmetros a média e o desvio padrão da distribuição normal. O objetivo da Estatística é usar dados amostrais para obter valores numéricos que sirvam para estimar e testar hipóteses sobre os parâmetros da população. Os valores numéricos são aproximações dos parâmetros da população e estimativas de erros são bem-vindos.
Se fizermos várias amostragens, podemos definir novas variáveis aleatórias que terão suas próprias distribuições de probabilidades. Por exemplo, vamos supor que uma amostra tem tamanho . Vamos definir uma nova variável aleatória
chamada média amostral. Podemos agora nos perguntar qual é a distribuição de probabilidades associada à uma vez conhecida a distribuição de probabilidades associada à . Teremos um valor de cada vez que uma amostragem de tamanho for realizada. Usuamente a variável é denotada por .
Exemplo 1. A altura da população brasileira obedeçe aproximadamente uma distribuição normal de média e desvio padrão . Suponha que selecionamos amostras cada uma com 30 indivíduos. (a) Qual é a média e o desvio padrão da média amostral? (b) Suponha que selecionamos 50 amostras. Em quantas amostras encontramos a média entre e .
Solução. Antes de resolvermos este problema, note que podemos fazer uma simulação no Maple de um experimento deste tipo com a população brasileira.
> |
|
> |
|
|
|
(3.1.1) |
> |
|
> |
|
> |
|
> |
|
|
(3.1.3) |
> |
|
|
(3.1.4) |
> |
|
|
(3.1.5) |
Podemos ver que a média amostral deu muito próximo da média porém o desvio padrão das médias amostrais deu bem diferente de . Os resultados corretos do item (a) podem ser obtidos da seguinte forma:
> |
|
> |
|
> |
|
|
(3.1.6) |
> |
|
|
(3.1.7) |
Pela teoria da Estatística, quando a população é infinita ou quando a amostragem é com reposição, o desvio padrão é dado por
No exemplo acima, temos . Portanto, se fizermos um experimento com a população brasileira selecionando 50 amostras aleatórias de 30 indivíduos, após calcularmos , podemos estimar o desvio padrão da população brasileira multiplicando o valor de dado pela Eq. por =5.4772.
O ítem (b) pede quantas amostras encontramos a média entre e . Na simulação feita acima, o número de amostras é
> |
|
|
(3.1.8) |
No entanto, o resultado correto é encontrado calculando a área embaixo da curva da distribuição de probabilidades de no intervalo . Isto é calculado da seguinte forma:
> |
|
|
(3.1.9) |
> |
|
> |
|
> |
|
Um teorema importante da Estatística afirma que a variável aleatória padronizada é assintoticamente normal com média 0 e desvio padrão 1. Na prática, se o tamanho da amostra for , o teorema pode ser aplicado com alguma margem de segurança.
Exemplo 2. Uma máquina produz peças que pesam na média com um desvio padrão de . Um lote de 50 peças deve ser transportado. (a) Qual é a probabilidade do peso total estar entre 245 e 255 ? (b) Qual é a probabilidade do peso total ser maior do que 255 ?
Solução. Vamos usar a distribuição normal com média e desvio padrão onde é o tamanho da amostra. A solução do ítem (a) é
> |
|
|
(3.1.10) |
> |
|
|
(3.1.11) |
> |
|
|
(3.1.12) |
> |
|
|
(3.1.13) |
e do ítem (b) é
> |
|
|
(3.1.14) |
> |
|
Exercício
O peso médio dos produtos de uma loja de departamentos é de e desvio padrão . Qual é a propabilidade de que 200 pacotes escolhidos aleatoriamente ultrapasse o peso limite do elevador, que é
Suponha novamente que são variáveis aleatórias independentes associadas a mesma distribuição de probabilidades com média e desvio padrão . A variância amostral é definida como
Pode-se mostrar que . Uma vez que é um estimador parcial da variância, definimos um novo estimador imparcial ou não-viciado
que tem a propriedade . Portanto, é um estimador imparcial da variância. Note que os comandos
Variance
e
StandardDeviation
, quando aplicados em uma amostra, lista de dados ou matriz de dados, usam o estimamor imparcial para o cálculo da variância amostral e do desvio padrão amostral.
Vamos verificar através de uma simulação para um valor pequeno de que a média de é .
> |
|
> |
|
> |
|
|
|
> |
|
> |
|
> |
|
|
(3.1.15) |
> |
|
Para facilitar o cálculo da distribuição de probabilidades, um terceiro estimador é definido como
A distribuição de probabilidades de é , isto é, Chi-quadrado com graus de liberdade, se as variáveis originais forem normais. Podemos verificar por simulações que a distribuição de probabilidades de é tomando valores específicos para e definindo variáveis aleatórias normais. Por exemplo:
> |
|
> |
|
|
|
(3.1.16) |
> |
|
> |
|
> |
|
> |
|
> |
|
> |
|
> |
|
|
|
> |
|
Note que a curva vermelha, que é a distribuição de probabilidades de , é muito bem aproximada pelo histograma (
histogram
) de uma amostra com 50000 valores. Podemos testar facilmente para outros valores de .
Exemplo 3. Vimos no Exemplo 1 que a altura da população brasileira obedeçe aproximadamente uma distribuição normal de média e desvio padrão . Qual é o desvio padrão das variâncias usando o estimador imparcial para amostras de tamanho , isto é, ?
Solução.
> |
|
> |
|
> |
|
> |
|
> |
|
|
(3.1.17) |
Exemplo 4. O desvio padrão dos pesos de uma população de uma cidade é . Suponha que 200 pessoas são selecionadas aleatoriamente e o desvio padrão é calculado. Este processo é repetido diversas vezes. (a) Calcule a média da distribuição de desvios padrões. (b) Calcule o desvio padrão da distribuição de desvios padrões.
Solução. Vamos supor que a distribuição de probabilidades dos pesos da população desta cidade é normal. Portanto, A distribuição de probabilidades de é . A variável aleatória é dada por . As respostas são encontradas calculando a média e o desvio padrão de .
(a)
> |
|
> |
|
> |
|
> |
|
> |
|
|
(3.1.18) |
(b)
> |
|
|
(3.1.19) |
Para amostras grandes (, o desvio padrão de pode ser calculado através da fórmula .
> |
|
|
(3.1.20) |
> |
|
M. Spiegel, Probabilidade e Estatística, edição
Cap 5, problemas 5.128 e 5.130.
Estimação e intervalo de confiança
Uma estatística é um estimador imparcial ou não viciado de um parâmetro se sua média é igual ao parâmetro correspondente na população. Se duas estimativas tem a mesma média, o estimador mais eficiente é aquele que tem o menor desvio padrão. Podemos ter estimativa por ponto, quando apenas um número é usado, ou estimativa por intervalo, quando mais de um número é usado. A confiança é a previsão de erro ou a precisão de uma estimativa.
Suponha que uma estatística tem média e desvio padrão . Se a distribuição amostral de for aproximadamente normal, o valor de será encontrado no intervalo
com a probabilidade , que é chamada de nível de confiança. O parâmetro é chamado valor crítico. Por exemplo, para uma distribuição normal (qualquer que seja a média e o desvio padrão), o nível de confiança é aproximadamente 95.45% quando o valor crítico é .
> |
|
|
(3.2.1) |
> |
|
|
(3.2.2) |
> |
|
|
(3.2.3) |
A área correspondente sob a curva da distribuição normal na variável padronizada é área azul do gráfico a seguir.
> |
|
> |
|
> |
|
Usualmente o sub-índice de denota a probabilidade acumulada até o valor . No caso acima, temos
> |
|
|
(3.2.4) |
Assim, denotamos . O valor de e do sub-índice para um nível de confiança de 95% é aproximadamente e para um nível de confiança de 99% é aproximadamente .
> |
|
Intervalo de confiança para a média amostral para amostras grandes.
Para amostras grandes (), a média amostal com um nível de confiança tem o intervalo de confiança , onde é o desvio padrão da população e é o tamanho da amostra. Se o desvio padrão da população não é conhecido, usamos o intervalo , onde é o estimador imparcial do desvio padrão. O valor crítico é calculado usando a distribuição normal, pois para grande a variável aleatória padronizada é assintoticamente normal com média 0 e desvio padrão 1.
Continuação do Exemplo 1. A altura da população brasileira obedeçe aproximadamente uma distribuição normal de média e desvio padrão . Suponha que selecionamos 50 amostras cada uma com 30 indivíduos. (a) Qual é a média e o desvio padrão das 50 amostras? (b) Em quantas amostras encontramos a média entre e . (c) Qual é o intervalo para se ter 95% de confiança para estimar a altura média.
Solução. Os ítens (a) e (b) foram resolvidos na seção anterior. Vamos agora resolver o ítem (c). Quando o desvio padrão é conhecido, o intervalo de confiança é dado por .
> |
|
|
(3.2.5) |
Usamos o valor 0.975 pois devemos acrescentar a área de 2.5% aos 95% para poder usar a função de distribuição acumulada.
> |
|
|
(3.2.6) |
> |
|
|
(3.2.7) |
> |
|
|
(3.2.8) |
Uma maneira de fazer uma simulação para testar este intervalo é
> |
|
> |
|
> |
|
> |
|
> |
|
|
(3.2.9) |
> |
|
Note que o resultado acima tem que dar próximo de 95%. Quanto maior for o número de amostras, mais perto de 95%.
Exercício
Calcule os valores críticos para um nível de confiança de 95% para a distribuição de Student.
Intervalo de confiança para a média amostral para amostras pequenas.
Para amostras pequenas (), a média amostal com um nível de confiança tem o intervalo de confiança , onde é o desvio padrão de população normal e é o tamanho da amostra. Se o desvio padrão da população normal não é conhecido, usamos o intervalo , onde é o estimador imparcial do desvio padrão. O valor crítico é calculado usando a distribuição t de Student
(StudentT
), pois para pequeno a variável aleatória padronizada obedece a distribuição t de Student. Portanto, para um nível de confiança de 95%, a variável deve estar no invervalo , que produz o intervalo .
Vamos fazer uma simulação para checar que a variável aleatória padronizada obedece a distribuição t de Student e comparar com a distribuição normal. Vamos considerar amostras de tamanho .
> |
|
> |
|
> |
|
> |
|
> |
|
> |
|
> |
|
> |
|
> |
|
> |
|
> |
|
Para um nível de confiança de 95%, o valor de é
> |
|
> |
|
|
(3.2.10) |
que corresponde ao valor no eixo horizontal que delimita a área hachuriada no gráfico abaixo.