Distribuição de Probabilidade para Variáveis Discretas

Nina Maria Pinheiro
Data Hackers
Published in
13 min readMar 27, 2023

--

Comecei a fazer uma aula de Mestrado em Estatística, com intuito de desenvolver mais essa habilidade.

Foi numa quarta-feira em que tive a minha primeira aula. Observei várias pessoas assustadas com a aula de Distribuições de Probabilidade.

É um assunto desafiador, resolvi fazer um artigo para fixar ainda mais a matéria.

Antes de entender o que são distribuições de probabilidade, é importante compreender o conceito de variável aleatória.

Variável aleatória é um conceito utilizado na teoria das probabilidades e estatística para descrever um tipo de função matemática que relaciona eventos aleatórios a valores numéricos. Ou seja, é uma função que atribui um número a cada possível resultado de um experimento aleatório.

Um bom exemplo se dá ao lançarmos uma moeda. Podemos definir uma variável aleatória X que recebe o valor 0 caso o lançamento resulte em coroa; ou o valor 1, caso resulte em cara.

As variáveis aleatórias podem ser classificadas em duas categorias: discretas e contínuas.

Variáveis aleatórias discretas assumem apenas um conjunto limitado de valores numéricos.

Exemplos: número de unidades vendidas; quantidade de automóveis que passam por um pedágio em determinado dia; quantidade de filhos; entre outros.

Variáveis aleatórias contínuas podem assumir qualquer valor em um intervalo contínuo de números.

Exemplos: Duração de uma chamada telefônica; tempo necessário para a realização de uma cirurgia; temperatura de cozimento; entre outros.

Principais Distribuições de Probabilidade para Variáveis Quantitativas Discretas

Uniforme discreta

A distribuição uniforme discreta é caracterizada pela sua função de probabilidade, que atribui a mesma probabilidade a todos os valores possíveis da variável aleatória. Essa função é representada pela fórmula:

P(X = x) = 1/n

Onde:

  • P(X = x) é a probabilidade de a variável aleatória X assumir o valor x;
  • n é o número total de valores possíveis que a variável aleatória X pode assumir.

A distribuição uniforme discreta é um modelo probabilístico que descreve uma situação em que todos os valores possíveis de uma variável aleatória discreta têm a mesma probabilidade de ocorrência. Por exemplo, suponha que você jogue um dado justo de seis faces. Nesse caso, cada face tem a mesma probabilidade de aparecer, ou seja, a probabilidade de sair qualquer número de 1 a 6 é 1/6.

Este código gera 10 números inteiros aleatórios seguindo a Distribuição Uniforme Discreta entre 1 e 6 (inclusive). Note que, como a distribuição é uniforme, a probabilidade de cada número aparecer é igual a 1/6.

Você pode ajustar os valores de a(que é o 1 neste código)e b(que é o 6 neste código)de acordo com a sua situação específica.

Exemplo de gráfico de frequências associadas a uma distribuição uniforme discreta:

Para que uma distribuição de probabilidade seja considerada uma distribuição uniforme discreta, ela deve satisfazer as seguintes condições:

  1. Número finito de valores possíveis: a distribuição deve ter um número finito e definido de valores possíveis.
  2. Probabilidade igual para cada valor possível: a probabilidade de ocorrência de cada valor possível deve ser igual. Isso significa que cada valor tem a mesma chance de ser observado.
  3. Probabilidade zero para valores impossíveis: a probabilidade de observar valores que não pertencem ao conjunto de valores possíveis deve ser zero.

Se essas três condições forem atendidas, então podemos modelar a distribuição de probabilidade como uma distribuição uniforme discreta.

Como calcular o valor da função de probabilidade no Python?

Para calcular o valor da função de probabilidade de uma distribuição uniforme discreta em Python, podemos usar a função “scipy.stats.randint.pmf” da biblioteca SciPy.

A função “pmf” significa “função de massa de probabilidade” (probability mass function, em inglês), que é o equivalente à função de probabilidade em distribuições discretas.

Distribuição de Bernoulli

A distribuição de Bernoulli é outro exemplo de distribuição de probabilidade discreta. É uma distribuição que descreve o resultado de um experimento aleatório que pode ter apenas dois resultados possíveis: sucesso ou fracasso.

A distribuição de Bernoulli é descrita por um único parâmetro, p, que representa a probabilidade de sucesso. O parâmetro p deve estar no intervalo [0,1], uma vez que representa uma probabilidade.

A função de probabilidade associada à distribuição de Bernoulli é dada por:

P(X=x) = p^x * (1-p)^(1-x)

X : É a variável aleatória que representa o resultado do experimento

x : Pode ser 0 ou 1 (representando fracasso ou sucesso, respectivamente)

p: É a probabilidade de sucesso.

A média da distribuição de Bernoulli é dada por

E(X) = p

A variância é dada por:

Var(X) = p*(1-p).

Um bom exemplo de uso da distribuição de Bernoulli é em experimentos binários como jogar uma moeda, onde a probabilidade de sucesso é a probabilidade resultar em cara (ou coroa, dependendo de como você definir sucesso).

Neste exemplo foi definido a probabilidade de sucesso p como 0.70 e usamos a função numpy.random.binomial() para gerar uma amostra aleatória da distribuição de Bernoulli com probabilidade de sucesso de 0,70. Os parâmetros são:

  • n: o número de tentativas. Neste caso, estamos usando 1, pois cada tentativa tem apenas dois resultados possíveis.
  • p: a probabilidade de sucesso. Neste caso, estamos usando p = 0,70
  • size: o tamanho da amostra. Neste caso, estamos usando 1000.
  • Depois, imprimimos a amostra gerada e as estatísticas relevantes, como a média e a variância da amostra. A média deve estar próxima da probabilidade de sucesso p (0,70 neste caso), enquanto a variância deve ser igual a p*(1-p) (0,21, neste caso).

Para que uma distribuição de probabilidade seja considerada uma distribuição de Bernoulli, ela deve satisfazer as seguintes condições:

  1. A distribuição deve ter apenas dois possíveis resultados: sucesso ou fracasso.
  2. Cada tentativa deve ser independente: o resultado de uma tentativa não afeta o resultado das outras tentativas.
  3. A probabilidade de sucesso em cada tentativa é fixa e constante.

Se essas três condições forem atendidas, podemos modelar a distribuição de probabilidade como uma distribuição de Bernoulli.

Para calcular o valor da função de probabilidade de uma distribuição de Bernoulli em Python, podemos usar a função “scipy.stats.bernoulli.pmf” da biblioteca SciP.

Para calcular o valor da função de probabilidade de uma distribuição de Bernoulli em Python, podemos usar a função “scipy.stats.bernoulli.pmf” da biblioteca SciP

Lembrando que, como a distribuição de Bernoulli tem apenas dois possíveis resultados, a soma das probabilidades deve ser sempre igual a 1.

Distribuição binomial:

É uma distribuição de probabilidade discreta que descreve o número de sucessos em um determinado número de tentativas independentes e com probabilidade de sucesso constante. Tal como a distribuição de Bernoulli, ela é frequentemente utilizada em experimentos aleatórios nos quais existem apenas dois resultados possíveis em cada tentativa, como por exemplo, sucesso ou fracasso, sim ou não, 0 ou 1.

A distribuição binomial é caracterizada pelos seguintes parâmetros:

  • n: número de tentativas independentes;
  • p: probabilidade de sucesso em cada tentativa independente;
  • k: número de sucessos obtidos nas n tentativas.

A função de probabilidade da distribuição binomial é dada por:

P(X = k) = (n C k) * p^k * (1-p)^(n-k)

n C k é o coeficiente binomial, que representa o número de combinações possíveis de n elementos tomados k de cada vez.

Exemplo de gráfico de frequências associadas a uma distribuição binomial:

Existem quatro condições que devem ser satisfeitas para que uma distribuição de probabilidade seja considerada uma distribuição binomial:

  1. Número fixo de tentativas independentes (n): O experimento deve consistir em um número fixo de tentativas independentes, ou seja, cada tentativa não afeta o resultado das outras tentativas.
  2. Resultados dicotômicos: Cada tentativa deve ter apenas dois resultados possíveis, geralmente denominados de “sucesso” ou “fracasso”.
  3. Probabilidade de sucesso constante (p): A probabilidade de sucesso em cada tentativa deve ser constante. Isso significa que a probabilidade de sucesso não muda de tentativa para tentativa.
  4. Eventos independentes: Os resultados de cada tentativa devem ser independentes um do outro, ou seja, o resultado de uma tentativa não afeta o resultado de outras tentativas.

Se todas essas quatro condições forem atendidas, então podemos modelar o número de sucessos em n tentativas independentes usando a distribuição binomial.

Podemos usar a função “scipy.stats.binom.pmf” para calcular a função de probabilidade.

Suponha que estamos interessados em modelar o número de vezes que uma moeda justa cai com a face “cara” para cima em 10 lançamentos. Nesse caso, a distribuição binomial é adequada, já que temos um número fixo de tentativas(10) e cada uma delas tem apenas dois resultados possíveis (cara ou coroa).

Vamos supor que a probabilidade de a moeda cair com a face “cara” para cima é de 0.5. Queremos calcular a função de probabilidade para k = 0, 1, 2, …, 10, ou seja, a probabilidade de obter 0, 1, 2, …, 10 “caras” em 10 lançamentos da moeda.

Podemos usar a função “scipy.stats.binom.pmf” para calcular a função de probabilidade.

Diferença entre Bernoulli e Binomial

A principal diferença entre a distribuição binomial e a distribuição de Bernoulli é que a distribuição de Bernoulli é um caso especial da distribuição binomial, em que n = 1. De forma equivalente, pode-se dizer que a distribuição binomial é uma generalização da distribuição de Bernoulli, para o caso em que a quantidade de tentativas (n) é maior que 1.

Em outras palavras, a distribuição de Bernoulli descreve o resultado de uma única tentativa independente com apenas dois resultados possíveis, sucesso ou fracasso, enquanto a distribuição binomial descreve o número de sucessos em um determinado número de tentativas independentes e com probabilidade de sucesso constante.

Em resumo, a distribuição de Bernoulli é um caso especial da distribuição binomial, em que n = 1 e k é sempre 0 ou 1, enquanto a distribuição binomial é mais geral e pode ser usada para modelar o número de sucessos em um determinado número de tentativas independentes.

Isso significa que a probabilidade de obter 0 “caras” em 10 lançamentos da moeda é de 0.0009765625, a probabilidade de obter 1 “cara” é de 0.009765625 e a probabilidade de obter 2 “caras” é de 0.0439453125.

Lembrando que, como a distribuição binomial modela o número de sucessos em um número fixo de ensaios, a soma das probabilidades deve ser sempre igual a 1.

Distribuição de Poisson

A distribuição de Poisson é uma distribuição de probabilidade discreta usada para modelar a probabilidade de um certo número de eventos ocorrerem em um intervalo de tempo ou espaço fixo, quando a taxa média de ocorrência é conhecida e os eventos ocorrem de forma aleatória e independente ao longo do intervalo. Essa distribuição é frequentemente utilizada para modelar o número de ocorrências de eventos raros em um intervalo de tempo ou espaço.

Em uma distribuição de Poisson, a média da variável aleatória é igual à sua variância.

Média = Variância

Por exemplo, a distribuição de Poisson pode ser usada para modelar a probabilidade de um número de chamadas telefônicas chegar a uma central de atendimento em um intervalo de 1hora, quando a taxa média de chegada de chamadas é conhecida e as chamadas são independentes e aleatórias. Outros exemplos de aplicação da distribuição de Poisson incluem o número de falhas em um sistema, o número de acidentes de trânsito em uma determinada rodovia, entre outros.

A distribuição de Poisson tem apenas um parâmetro, que é a taxa média de ocorrência dos eventos.

O número de eventos que ocorrem em um intervalo de tempo ou espaço segue uma distribuição de Poisson com média igual à taxa de ocorrência multiplicada pelo comprimento do intervalo.

A função de probabilidade da distribuição de Poisson é dada por:

P(X = k) = (e^-λ * λ^k) / k!

λ : É a taxa média de ocorrência;

k : É o número de eventos;

e : É a constante matemática de Euler, igual a 2,71828…

Neste exemplo, usamos a função poisson.pmf() da biblioteca scipy.stats para calcular a probabilidade de 3 eventos ocorrerem no intervalo de tempo ou espaço, dado que a taxa média de eventos é de 2,5. O primeiro argumento dessa função é o ponto específico x em que queremos calcular a probabilidade. No exemplo, x = 3. O segundo argumento é a taxa média dos eventos, que é igual a 2,5. O resultado será um valor de probabilidade entre 0 e 1.

Para que uma distribuição seja considerada como uma distribuição de Poisson, ela deve satisfazer as seguintes condições:

  1. A ocorrência de um evento não afeta a probabilidade da ocorrência de outro evento no mesmo intervalo de tempo ou espaço.
  2. A taxa média de ocorrência de eventos em um determinado intervalo de tempo ou espaço deve ser constante.
  3. A probabilidade de mais de um evento ocorrer em um intervalo de tempo ou espaço muito pequeno deve ser muito baixa.

Se uma distribuição satisfaz essas condições, então ela pode ser considerada como uma distribuição de Poisson.

Aproximação da Distribuição Binomial via Distribuição de Poisson

Alguns casos ocorre em que a distribuição de Poisson pode ser usada como uma aproximação da distribuição binomial.

A distribuição de Poisson pode ser usada como uma aproximação da distribuição binomial em certas condições, porque ambas as distribuições estão relacionadas a eventos discretos e aleatórios. No entanto, a distribuição de Poisson é útil quando o número de ensaios é grande, a probabilidade de sucesso é pequena e o número esperado de sucessos é moderado.

Resumindo:

A distribuição de Poisson pode ser usada como uma aproximação da distribuição binomial quando as seguintes condições são satisfeitas:

  1. O número de ensaios n é grande: A distribuição de Poisson é uma boa aproximação da distribuição binomial quando o número de ensaios n é grande (geralmente n ≥ 20).
  2. A probabilidade de sucesso p é pequena: A distribuição de Poisson é uma boa aproximação da distribuição binomial quando a probabilidade de sucesso p é pequena (geralmente p ≤ 0,05).
  3. O número esperado de sucessos é moderado: O número esperado de sucessos, np, não deve ser muito grande. Geralmente, np ≤ 10.

Se essas condições forem satisfeitas, a distribuição binomial pode ser aproximada pela distribuição de Poisson com o parâmetro médio λ = np. A fórmula para a distribuição de Poisson é:

P(X = k) = (e^(-λ) * λ^k) / k!

Onde k é o número de sucessos e λ é o parâmetro médio da distribuição de Poisson.

Isso ocorre porque a distribuição de Poisson se concentra no número médio de ocorrências de um evento em um intervalo de tempo, espaço ou outro tipo de unidade. Por exemplo, o número de acidentes de trânsito em uma rodovia durante um dia, o número de defeitos em uma peça de fabricação ou o número de chamadas de emergência em uma central telefônica durante uma hora.

Já a distribuição binomial se concentra no número de sucessos em um número fixo de ensaios independentes, com uma probabilidade de sucesso constante. Por exemplo, o número de carros que passam por um cruzamento em um determinado período de tempo, o número de bolas vermelhas em um saco de bolas ou o número de pacientes que se recuperam de uma doença após receberem um tratamento.

Quando as condições mencionadas acima são atendidas, a distribuição de Poisson pode ser usada como uma aproximação da distribuição binomial porque o número de ocorrências raras de um evento se torna mais provável à medida que o número de ensaios aumenta e a probabilidade de sucesso diminui. A distribuição de Poisson, portanto, fornece uma aproximação razoável da distribuição binomial quando o número de ensaios é grande o suficiente e a probabilidade de sucesso é pequena o suficiente, mas não muito pequena para que não haja nenhum sucesso.

Distribuição Hipergeométrica

A distribuição hipergeométrica é uma distribuição de probabilidade discreta que descreve o número de sucessos em uma amostra aleatória sem reposição, de um conjunto finito, em que existem a e b objetos de dois tipos diferentes. A distribuição é definida pelos seguintes parâmetros:

  • N: o tamanho da população
  • a: o número de objetos do tipo 1 na população
  • b: o número de objetos do tipo 2 na população
  • n: o tamanho da amostra

A função de probabilidade da distribuição hipergeométrica é dada por:

P(X = x) = (aCx) * (bCn-x) / NCn

Onde:

  • x é o número de sucessos na amostra
  • aCx é o número de combinações de a objetos, tomados em grupos de x
  • bCn-x é o número de combinações de b objetos, tomados em grupos de n-x
  • NCn é o número de combinações de N objetos, tomados em grupos de n

A média e a variância da distribuição hipergeométrica são dadas por:

  • Média: μ = n * a / N
  • Variância: σ² = n * a * b / (N²) * (N — n) / (N — 1)

A distribuição hipergeométrica é usada para modelar situações em que a amostra é selecionada sem reposição, como em processos de inspeção de qualidade, auditoria financeira, seleção aleatória de pessoas para pesquisas de opinião, entre outras aplicações.

Existem algumas condições para que uma distribuição de probabilidade seja considerada hipergeométrica:

  1. A amostra deve ser selecionada sem reposição da população.
  2. A população deve ser finita, com tamanho N.
  3. A população deve ser dividida em duas categorias mutuamente exclusivas (tipo 1 e tipo 2), com a e b objetos em cada categoria, respectivamente.
  4. O tamanho da amostra, n, deve ser menor ou igual ao tamanho da população, ou seja, n ≤ N.

Um exemplo de distribuição hipergeométrica seria o seguinte:

Suponha que você tenha uma urna com 20 bolas, sendo 8 delas vermelhas e as outras 12 azuis. Você retira aleatoriamente 5 bolas da urna sem reposição. Qual é a probabilidade de exatamente 3 bolas serem vermelhas?

Nesse caso, temos os seguintes parâmetros:

  • N: número total de bolas na urna = 20.
  • n: número de bolas retiradas = 5.
  • K: número de bolas vermelhas na urna = 8.
  • k: número de bolas vermelhas retiradas = 3.

Exemplo de gráfico de frequências associadas a uma distribuição hipergeométrica:

Os repositório desses cálculos pode ser encontrado no:

Link: https://github.com/Nina-pinheiro/Data-Science-Python/blob/master/files/probabilidade/distri_probilidade_discreta.ipynb

Informações adicionais:

Linkedin: https://www.linkedin.com/in/ninapinheiro/

Grata ao revisor que é uma das minhas inspirações no ramo da Estatística:

https://www.linkedin.com/in/achiode/

Espero que ajude=).

Vai ter uma segunda parte para Distribuição de Probabilidade para Variáveis contínuas.

Dose de poesia =)

Referências:

Freund, John E. Estatística Aplicada-: Economia, Administração e Contabilidade. Bookman Editora, 2009.

Reis, Marcelo Menezes. “Estatística aplicada à Administração.” Florianópolis, SC: Departamento de Ciências da Administração-UFSC (2008).

Stiennon, Nisan, et al. “Learning to summarize with human feedback.” Advances in Neural Information Processing Systems 33 (2020): 3008–3021.

Gao, Leo, John Schulman, and Jacob Hilton. “Scaling Laws for Reward Model Overoptimization.” arXiv preprint arXiv:2210.10760 (2022).

OpenAI. ChatGPT. Disponível em: https://openai.com/language/models/chat/. Acesso em: 20 mar. 2023.

--

--

Nina Maria Pinheiro
Data Hackers

Nature, artificial intelligence, productivity and meditation. The unsustainable lightness of being=) Linkedin: https://www.linkedin.com/in/nina-i-maria-pinheiro