Pular para o conteúdo principal

Distribuições de Frequências: trabalhando com grandes conjuntos de dados

As medidas de posição e de dispersão são capazes de nos fornecer informações úteis e interessantes a respeito dos nossos conjuntos de dados. No entanto, quando esse conjunto é muito grande (o que muitos estatísticos consideram ser mais do que 30 elementos), torna-se difícil trabalhar diretamente com a informação.


Para facilitar nosso trabalho, quando lidamos com grandes conjuntos de dados precisamos, inicialmente, agrupá-los. Isso se dá na forma de uma distribuição de frequências.



Para se construir uma distribuição de frequência, nós devemos distinguir dois tipos de variáveis: as variáveis discretas e as variáveis contínuas.


As variáveis discretas são resultados do processo de contagem. Em geral, elas são agrupadas por distribuições por pontos ou valores e tem como característica principal um considerável número de repetições. Assim, para fazer uma distribuição de frequência por pontos ou valores, criamos uma tabela com duas colunas: na da direita, registramos os valores obtidos e, na da esquerda, a quantidade de elementos que se encaixam naquele valor.


As variáveis contínuas são resultados de uma medida e são agrupadas por classes ou intervalos. Exemplos de utilização de variáveis contínuas poderiam ser a quantidade, em ml, de um medicamento no sangue ou a idade dos alunos de uma turma em meses. Ao contrário das variáveis discretas, nas variáveis contínuas há muito poucas ou nenhuma repetição, o que nos leva a classificar os dados por intervalos; escolhemos uma faixa de valores e contamos todos os nossos elementos que estão ali dentro.


A seguir, veremos dois exemplos de como criar distribuições de frequência por pontos e por classes:



Exemplo 1: distribuição por pontos


A lista a seguir enumera o número de irmãos dos alunos de uma turma de Estatística:




0 1 1 2 3 2 1 1 2 0 0 3

4 0 0 2 1 1 3 1 1 0 1 2

1 2 0 2 2 1 1 0 0 1 1 3


Da forma que nos é apresentado, esses dados não representam informação. Para transformá-los em informação, vamos agrupá-los em uma distribuição de frequência por pontos ou valores, criando uma tabela em que, na coluna da direita registraremos o número de irmãos e, na da esquerda, a quantidade de alunos que possui aquela quantidade de irmãos:






























Nº de irmãosAlunos
09
114
28
34
44

A partir dessa tabela, podemos ter uma ideia melhor da quantidade de irmãos dos alunos do que se fôssemos utilizar os dados brutos acima.


Uma distribuição por pontos pode ser representada graficamente através de um gráfico de colunas, onde o eixo das abscissas representa os valores de xi e o das ordenadas exibe o valor das frequências. No exemplo acima, o gráfico seria o seguinte:


Diagrama de colunas da distribuição do exemplo 1



Exemplo 2: distribuição por intervalos (Viali)


Os dados a seguir representam a idade, em meses, dos alunos de um (a turma de Estatística:




230 234 276 245 345 240 270 310 368 369
334 268 288 336 299 236 239 355 330 247
287 344 300 244 303 248 251 265 246 266
240 320 308 299 312 324 289 320 264 275
252 298 315 255 274 264 263 230 303 281


Conforme podemos perceber, diferentemente do conjunto de dados anterior, praticamente não há repetição de valores. Assim, precisamos de outra estratégia para agrupar os dados. Utilizamos, então, a distribuição por classes ou intervalos.


Para construir uma distribuição por classes, devemos seguir o roteiro a seguir:


1) Determinar a amplitude h dos dados, ou seja, obter a diferença entre o maior e o menor valor de nosso conjunto. No exemplo, o menor valor é 230 e o maior é 369. Nossa amplitude, então, será de 139.


2) Definir o número de classes k. Esse número deverá ficar entre 5 e 15. Existem várias formas de se determinar k. A mais simples é pegar o valor da raiz quadrada de n (o número de elementos do conjunto). Em nosso exemplo, temos 50 alunos. Logo, k será aproximadamente igual à raiz quadrada de 50, que é 7,07, ou seja, teremos 7 classes.


3)Definir a amplitude hi de cada classe, ou seja, quantos valores vão caber em cada uma das classes. Esse valor é calculado por hi = h/k, arredondado para cima. Em nosso exemplo, temos 139/7 = 19,85, isto é, cada classe vai comportar 20 valores.


4) Contar o número de valores de cada classe e registrá-lo na tabela.


No exemplo, nossa distribuição ficaria assim:






































IdadeAlunos
230 |-- 25012
250 |-- 2709
270 |-- 2908
290 |-- 3107
310 |-- 3306
330 |-- 3505
350 |-- 3703


A notação utilizada para separar os valores da coluna da direita é uma notação de intervalo. O | representa um intervalo fechado e o - um intervalo aberto. Assim, pegando por exemplo o intervalo 230 |-- 250. a notação |-- indica que, nesta classe entrarão todos os valores que sejam maiores ou iguais do que 230 e estritamente menores do que 250. Ou seja, essa classe comportará todos os valores de 230 até 249 (em nosso exemplo); o valor 250 em si entrará na classe seguinte.


Para se trabalhar com uma distribuição por intervalos, precisamos eleger um representante de cada classe. Esse representante, chamado de xi, é a média dos extremos de cada uma das classes. No exemplo acima, o representante da classe 230 |-- 250 seria 240.


A representação gráfica de uma distribuição por classes ocorre na forma de histograma. Um histograma é um gráfico parecido com um gráfico de barras, com a diferença de que as colunas são justapostas. Isso acontece por causa do tipo de dados com os quais estamos lidando, que representam grandezas contínuas. A base de cada retângulo é a amplitude de cada classe e a altura é proporcional à frequência, sendo calculada através de fi/h1. No exemplo acima, o histograma seria esse:


Histograma da distribuição por classes do exemplo 2


Além do histograma, também temos o polígono de frequências, que é obtido ao se unirem os pontos médios de cada classe.


No próximo post, veremos outros tipos de frequência e como resumir distribuições por intervalos.

Comentários

  1. Este trabalho sem dúvida foi de grande valia para mim. Obrigado!

    ResponderExcluir
  2. vc sabe m dizer pq as vezes não se usa a entrada minima no primeiro intervalo?? por exemplo meu prof,deu um exemplo onde o valor minimo era 47 mais ele usou a primeira classe como [40,50[

    ResponderExcluir

Postar um comentário

Postagens mais visitadas deste blog

Como acessar configurações avançadas no Sagemcom F@st 2704N

NOVO TUTORIAL: GUIA DEFINITIVO DAS CONFIGURAÇÕES AVANÇADAS DO SAGEMCOM F@ST 2704N!
Atualização 23/01/2015: Alguns problemas apontados e descobertos nesse modem:
1. Alguns usuários relatam dificuldade em salvar alterações na configuração ADSL;
2. Não sei como acessar os logs do modem; mesmo habilitando, eles não aparecem;
3. Se você trocar o DNS do modem, ele voltará ao da Oi ao ser reiniciado;
4. Estou enfrentando alguns problemas sérios de lentidão. Não sei se isso é relacionado ao modem ou a algum dispositivo na minha rede interna.
-----
Os modens da marca Sagemcom estão se tornando muito populares no Brasil, não, quiçá, por sua qualidade, mas porque eles são os atuais queridinhos das operadoras: quando você assina um plano ADSL, geralmente a operadora envia um modem wireless para sua casa a fim de que você possa navegar sem precisar ter gastos extras com esse equipamento. É claro que os equipamentos fornecidos pelas operadoras são básicos, mas saciam as necessidades dos usuários comuns - …

O Guia Definitivo das configurações avançadas no Sagemcom F@st 2704N

Há alguns meses, eu contei minha experiência com o Sagemcom F@st 2704N e tenho recebido diversos comentários sobre suas configurações avançadas. Agora que minhas aulas na faculdade estão acabando, resolvi reservar um tempinho para explorar melhor esse modem que, diga-se de passagem, é muito bom.