Buscar este blog

29 sept 2010

Distribución Hipergeométrica


¿Cómo definir a una variable aleatoria hipergeométrica?

Ø  Supongase que se tiene una muestra de tamaño N, cuyo experimento consiste en extraer al azar y sin sustitución n elementos del conjunto N, donde se tendrán r número de resultados exitosos y (N-r) números de resultados fracasados.

Ø El tamaño de la muestra n es grande en comparación con el número N de elementos de la población, es decir, n/N > 0.05

Ø La variable aleatoria hipergeométrica “x” es el número de resultados r en la muestra de n elementos

Entonces x se define como:   x ~ hipergeom (N,n,r)

Cuando se hace un muestreo de una población finita de éxitos y fracasos, los supuestos de un experimento binomial se satisfacen solo con exactitud solo si el resultado de cada prueba se observa y luego se reincorpora a la población antes de hacerse la siguiente observación. Sin embargo en la práctica, lo usual es utilizar un muestreo sin reemplazo, es decir, seleccionar al azar n elementos diferentes de entre los N de elementos de la población.
La probabilidad de observar un éxito se mantiene aproximadamente constante de una prueba a la siguiente, las pruebas son independientes y la distribución de probabilidad del número de éxitos “x”  es aproximadamente una distribución  de probabilidad binomial. Sin embargo cuando N es muy pequeño o n/N es grande, seguramente querremos utilizar la distribución de probabilidad exacta de x, a esta distribución  se le denomina: Distribución de probabilidad Hipergeometrica.


Para derivar la distribución de probabilidad hipergeométrica, primero observamos que el número total de eventos simples en el espacio muestral es el número de formas de seleccionar n elementos de N, a saber 

 
Un evento simple que implica éxitos es una selección de n elementos en los que x es (r)(éxitos) y es (N-r)(fracasos), puesto que hay r resultados a escoger, el número de formas diferentes de seleccionar x de ellos es:



De forma similar, el número de seleccionar (n – x) resultados fracasados del total (N-r) es:  



Aplicando el teorema que nos permite multiplicar las combinaciones independientes obtenemos el número de eventos simples que implican éxitos:



Por último, puesto que la selección de cualquier conjunto de n elementos es tan probable como la de cualquier otro, todos los eventos simples son equiprobables y por lo tanto:



Entonces, la función de probabilidad hipergeométrica está dada por:



Dónde

N = Número total de elementos
r = número de resultados exitosos en los N elementos
n = Número de elementos extraídos
x = número de elementos exitosos en los n elementos


Ahora, para determinar la esperanza y la varianza de este tipo de variable aleatoria discreta se tiene la siguiente demostración:

Demostración:

Utilizando identidades:

Se obtiene que:


-nm/N por:

= nm/N*E[Y+1.-k-1.]


Donde Y es una variable aleatoria hipergeometrica con parámetros n-1, N-1, m-1, por lo tanto, al establecer que k=1 se tiene:

E(X)= nm/N

En conclusión tenemos:


E(X)= nm/N



VAR(X)=



EJEMPLO:


El siguiente ejemplo mostrará cómo se resuelve un problema con una variable aleatoria de tipo hipergeometrica, además de obtener la media y la varianza haciendo uso de las fórmulas anteriores, se solucionará tanto en el paquete computacional R como con Excel de office.

Se realiza un experimento para seleccionar un catalizador apropiado para la producción comercial de etilendiamina (EDA), un producto que se utiliza para los jabones, Suponga que un ingeniero químico selecciona al azar tres catalizadores para probarlos de entre un grupo de 10 catalizadores, seis de los cuales tienen baja acidez y cuatro de los cuales son muy ácidos.


  a) Calcular la probabilidad de que no se escogerá un catalizador muy acido
      
b)   Calcular la probabilidad de que se escoja exactamente un catalizador muy acido

c)   Calcular la media y la varianza para la variable aleatoria “x”

d)   Calcula los tres incisos en R.

e)   Resuelve los tres incisos en excel

   Solución: inciso a








nCSKACSNL






       Solución: inciso b 

           Solucion: inciso C

                                    
           MEDIA =   M(X)=E(X) =nm- N = (3)(4) / 10 = 1.20
      VARIANZA  =
                    = σ^2=(4(10−4)3(10−3))/((10)^2 ((10−1))
                     =0.56

Solucion: inciso d

Solución en paquete stats
Explicacion de comandos
        dhyper(x, m, n, k, log = F) :   Devuelve resultados de la función de densidad.
        x, q: Vector de cuantiles. Corresponde al número de particulares en la muestra.
          m: Selección aleatoria particular
          n: El número total de la población menos la selección aleatoria particular.
           n = N - m.
           n: El número de la selección a evaluar.
           prob: Probabilidad.
           log, log.p: Parámetro booleano
          k=número de resultados exitosos en los N elementos 



> H<-dhyper(0:1,3,10-3,4)
> H
[1] 0.1666667 0.500000


Solución en el paquete distr


> H<-Hyper(m=3,n=10-3,4)
> H

Distribution Object of Class: Hyper
 m: 3
 n: 7
 k: 4

> d(H)(0:1)
[1] 0.1666667 0.5000000


Solucion: inciso e

   TRANSFORMACIÒN:


hHipergeometrica - Binomial Negativa


Lalista de cuentas de clientes de una corporación grande contiene 1000 clientes. De ellos 700 han comprado al menos uno de los productos de la corporación en los últimos 3 meses. Para evaluar el diseño de un nuevo producto, se hace un muestreo aleatorio de 50 clientes de la lista de la corporación. ¿Cuál es la probabilidad de que más de 45 de los clientes muestreados hayan hecho una compra de la corporación en los últimos 3 meses?
El muestreo es sin reemplazo sin embargo, debido a que el tamaño de la muestra de 50 es relativamente pequeña en comparación con el numero de cuentas de clientes, 1000, la probabilidad de seleccionar a un cliente que haya hecho una compra de la corporación en los últimos 3 meses se mantiene relativamente constante conforme se elige a los clientes

 
Es la comparación de la distribución hipergeometrica y binomial para valores escogidos de los parámetros.
 
Sea  que A denote el evento de que el primer cliente seleccionado no ha hecho una compra de la corporación en los últimos 3 meses y sea que B denote el evento de que el segundo cliente seleccionado no ha hecho una compra de la corporación en los últimos 3 meses. Entonces P(A)=300/1000 = 0.03 y P(B | A)=299/999=0.2993 Esto es, los intentos son aproximadamente independientes. En la muestra sea X la que denota el numero de clientes que han hecho compras de la corporación en últimos 3 meses. Entonces, Xes una variable aleatoria Hipergeometrica con N=1000, n=50, K=700. Por consiguinte p=K/N=0.07. La probabilidad pedida es P(X>45). Debido a que el tamaño de la muestra es relativamente pequeño en comparación con el tamaño de la población, la distribución de X puede aproximarse considerándola binomial con n=50 p=0.07. Al utilizar la aproximación binomial para la distribución de X se obtiene:






2 comentarios:

  1. Este comentario ha sido eliminado por el autor.

    ResponderEliminar
  2. buen dia amigo !! donde puedo conseguir la demostración de la varianza en la distribución hipergeometrica ?

    ResponderEliminar