Busca monografías, tesis y trabajos de investigación

Buscar en Internet 

       Revistas   Cursos   Biografías

rss feeds RSS / /

Resumen del libro de estadísticas de Berenson y Levine

Resumen: Resumen del libro de estadísticas de Berenson y Levine. Aplicaciones estadísticas en administración de la calidad y productividad. Estadística descriptiva e inferencial. Recolección de datos. Diseño de un experimento. Diseño de un cuestionario. Elección del tamaño de la muestra. Organización y Resumen de Datos. Frecuencia.

Publicación enviada por Hernan Torino




 


Índice

Índice

1. Resumen Capítulo 1 del Libro

2. Resumen Capítulo 2 del Libro

3. Resumen Capítulo 3 del Libro

4. Resumen Capítulo 4 del Libro

5. Resumen Capítulo 5 del Libro

6. Capitulo 6 del libro

7. Capítulo 7 del libro

8. Capítulo 8 del libro

9. Capitulo 9 del libro

10. Capitulo 10 del libro

11. Hipótesis nula y alternativa

12. Capitulo 12 del libro

13. Capítulo 13 del libro

14. Capitulo 14 del libro

15. Capítulo 15 del libro

16. Aplicaciones estadísticas en administración de la calidad y productividad

 

1. Resumen Capítulo 1 del Libro

  • Estadística Inferencial: Puede definirse como aquellos métodos que hacen posible la estimación de una característica de una población o la toma de una decisión referente a una población basándose sólo en los resultados de una muestra.

Para aclara este concepto se necesitan de las siguientes definiciones:

  • Población: es la totalidad de elementos o cosas bajo consideración.
  • Muestra: Es la porción de la población que se selecciona para su análisis.
  • Parámetro: Es una medida de resumen que se calcula para describir una característica de toda una población.
  • Estadística: Es una medida que se calcula para describir una característica de una sola muestra de la población.

Podemos encontrar dos tipos de estudios estadísticos que se emprenden: losestudios enumerativos y los estudios analíticos.

Los estudios enumerativos involucran la toma de decisiones respecto a unapoblación y/o sus características.
Los estudios analíticos involucran realizar alguna actividad sobre un procesopara mejorar el desempeño en el futuro. La atención de un estudio analíticoestá puesta sobre la predicción del comportamiento futuro de un proceso ysobre la comprensión y perfeccionamiento de ese proceso. En un estudio analíticono existe un universo identificable, como sucede en un estudio enumerativo y enconsecuencia tampoco hay un marco.

2. Resumen Capítulo 2 del Libro

Recolección de Datos

La necesidad de datos: los datos se necesitan para:

  1. Proporcionar la introducción imprescindible para un estudio de investigación.
  2. Medir el desempeño en un servicio o proceso de producción en curso.
  3. Ayudar en la formulación de cursos alternativos de acción en un proceso de toma de decisiones.
  4. Satisfacer nuestra curiosidad.

¿Que es un dato?
Los datos pueden concebirse como información numérica necesaria para ayudarnosa tomar una decisión con más bases en una situación particular.

¿Cómo obtenemos los datos?
Existen muchos métodos mediante los cuales podemos obtener los datosnecesarios. Primero, podemos buscar datos ya publicados por fuentesgubernamentales, industriales o individuales. Segundo, podemos diseñar unexperimento. En tercer lugar, podemos conducir un estudio. Cuarto, podemos hacerobservaciones del comportamiento, actitudes u opiniones de los individuos en losque estamos interesados.

Utilización de fuentes de datos publicadas

Sin importar la fuente utilizada, se hace una distinción entre el recolectororiginal de los datos y la organización o individuos que compilan éstos entablas y diagramas. El recolector de datos es la fuente primaria; el compiladorde los datos es la fuente secundaria.

Diseño de un experimento
En un experimento se ejerce control sobre el tratamiento de los dado a losparticipantes.

Conducción de una encuesta
Aquí no se ejerce ningún control sobre el comportamiento de la genteencuestada. Simplemente se formulan preguntas respecto a sus opiniones,actitudes, comportamiento y otras características.

Realización de un estudio observacional
El investigador observa el comportamiento de interés directamente, por lo comúnen su entorno natural.
La importancia de obtener buenos datos: GIGO
GIGO: Entra Basura, sale basura. No importa el método utilizado para obtenerlos datos, si un estudio ha de ser útil, si el desempeño debe controlarseapropiadamente o si el proceso de la toma de decisiones debe ampliarse, losdatos recabados deben ser válidos: es decir, las respuestas correctas debenvalorarse de manera que se obtengan mediciones significativas.

Obtención de datos mediante investigación de encuesta
Tipos de datos
Existen básicamente dos tipos de variables aleatorias que producen dos tipos dedatos: categóricas y numéricas. Las variables aleatorias categóricas producenrespuestas categóricas, mientras que las variables numéricas producenrespuestas numéricas. Las variables numéricas pueden considerarse comodiscretas o continuas. Los datos discretos son respuestas numéricas que surgende un proceso de conteo, mientras que los datos continuos son respuestas numéricasque surgen de un proceso de medición.
La necesidad de definiciones operacionales. Una definición operacionalproporciona un significado a un concepto o variable que puede comunicarse aotros individuos. Es algo que tiene el mismo significado ayer, hoy y mañanapara todos los individuos.

Diseño del cuestionario
El objetivo de un cuestionario es permitirnos recabar información significativaque nos ayude en el proceso de toma de decisiones.

  • Selección de temas amplios - Longitud del cuestionario

Los amplios temas de los cuestionarios deben enumerarse. Mientras más largosea el cuestionario, menor será el cociente de respuesta. Por tanto, se debenevaluar cuidadosamente las preguntas. Las preguntas deben ser lo más cortosposibles.

  • Modo de Respuesta

Existen tres modos mediante los cuales se realiza el trabajo de encuesta: laentrevista persona, telefónica y por medio del correo. La personal es la quetiene una tasa de respuesta mayor, pero es más costosa.

  • Formulación de preguntas

Cada pregunta debe presentarse claramente en el menor número de palabras ycada pregunta debe considerarse esencial para la encuesta. Además, deben serlibres de ambigüedades.

  • Prueba del cuestionario

Una vez analizadas los pros y contras de cada pregunta se debe realizar unaprueba piloto de manera que puedan examinarse en cuanto a claridad y longitud.

Elección del tamaño de muestra para la encuesta
Existen tres razones para extraer una muestra. Antes que todo, por lo generallleva demasiado tiempo realizar un censo completo. En segundo lugar, esdemasiado costoso hacer un censo completo. Tercero, es demasiado molesto eineficiente obtener un conteo completo de la población objeto

Selección de los sujetos respondientes: tipos de muestras
Existen básicamente dos tipos de muestras: las muestra no probabilística y lamuestra de probabilidad.
Una muestra de probabilidad es aquella en la que los sujetos de la muestra seeligen sobre la base de probabilidades conocidas.
En una muestra aleatoria simple cada individuo o elemento tiene la mismaoportunidad de selección que cualquier otro, y la selección de un individuo oelemento particular no afecta la probabilidad de que se elija cualquier otro.

Extracción de la muestra aleatoria simple
La clave de la selección de muestras apropiada es obtener y mantener una listaactualizada de todos los individuos o elementos de los cuales se extraerá lamuestra. Tal lista se conoce como el marco de la población. Este listado depoblación servirá como la población objetivo, de tal manera que si seextrajeran muchas muestrasde probabilidades diferentes de tal lista, en el mejorde los casos cada muestra sería una representación de la población.

- Muestreo con o sin reemplazo de poblaciones finitas
Para seleccionar la muestra pueden usarse dos métodos básicos: con reemplazo osin reemplazo. Digamos que N representa la población y n la muestra. Al extraercon reemplazo la probabilidad de cualquier miembro de la población de serseleccionado en la primera extracción es 1/N. La probabilidad de serseleccionado en otra extracción sigue siendo 1/N debido a que una vezregistrado el dato, el individuo seguirá formando parte de la población.
Sin embargo, al muestrear poblaciones humanas generalmente se considera másapropiado tener una muestra de persona diferentes que permitir medicionesrepetidas de la misma persona. La probabilidad en este caso es 1/N en la primeraextracción. La probabilidad de que cualquier individuo no seleccionadopreviamente sea seleccionado en la segunda extracción es 1/N-1.

La encuesta de la muestra
El primer pasa para evaluar una encuesta es determinar si se basó en unamuestra de probabilidad o en una no probabilístico.
Aun cuando las encuestas emplean métodos de muestreo de probabilidadaleatorios, están sujetas a errores potenciales. Existen cuatro tipo de erroresde encuesta:
1 - Error de cobertura o sesgo de selección. Este error resulta de la exclusiónde ciertos sujetos del listado de población, de tal manera que no tienenoportunidad de ser seleccionados en la muestra. El error de cobertura provoca elsesgo de selección.
2- Error de no-respuesta o sesgo de no-respuesta. El error de no-respuestaresulta del fracaso de recolectar datos sobre todos los sujetos de la muestra. Yel error de no-respuesta da como resultado el sesgo de no-respuesta.
3- Error de Muestreo. Este error refleja la heterogeneidad o las diferencias deoportunidad de muestra a muestra basándose en la probabilidad de los sujetosque están siendo seleccionados en las muestras particulares. El error demuestreo puede reducirse tomando tamaños de muestra mayores, aunque estoincrementará el costo de aplicación de la encuesta.
4- Error de Medición. Este error se refiere a inexactitudes en las respuestasregistradas que ocurren debido a una mala formulación de las preguntas, elefecto de un entrevistados sobre el encuestado o el esfuerzo hecho por elencuestado.

Organización y Resumen de Datos
Organizacion, Resumen Y Presentacion De Datos Estadisticos
Conceptos que deben reforzarse

POBLACION: es el conjunto formado por todas las unidades elementales queproporcionarán las mediciones de interés. Pueden ser personas, cosas, objetosabstractos.
CENSO: Cuando se estudia la totalidad de las unidades elementales que componenla población.
Desventaja: errores de observación. Ej.: omisiones, duplicaciones, no-ubicación(no medibles) del encuestado, volumen de información
MUESTRA: se estudia una parte representativa de la población
Desventaja: errores de observación (no medibles) errores de estimación(medible, cuantificable)
LOS DATOS ESTADISTICOS SON VARIABLES, SU RESULTADO VARIA DE UNA MEDICION A OTRA.
Debido a ello a los datos estadísticos los denominamos VARIABLES.
Según se vio, las Variables se clasifican en:
Categóricas Ordinales o Nominales Y Numéricas Discretas o Contínuas.
Caso Sr. Juárez

  • Problema: " Aumento en el índice de rotación de cobranzas".
  • Población: Todos los clientes que compran a crédito al señor Juárez en el local A o B.
  • Supuestos: - Dos Locales A y B.
  • Datos del último mes.
  • Muestra Local A: 60 clientes; Local B: 78 clientes.
  • Hipótesis de Trabajo:
  • Deudores del local A necesitan menos tiempo para pagar.
  • Situación económica de los clientes peor
  • Locales poseen precios > competencia.
  • Mal sistema de cobros en cuenta corriente.

Para Cada hipótesis se debe tomar una variable a analizar.

  • Variable a Utilizar en nuestro Caso: " Cantidad de días transcurridos entre la confección de la factura y el efectivo cobro de la misma.
  • Definiciones operacionales:

N= Tamaño de la población.
n= Tamaño de la muestra.
Yi = Variable a analizar

El tamaño de muestra es independiente del tamaño de la población.

  • Distribución de frecuencia:

fi: frecuencia absoluta.
Fi: frecuencia absoluta acumulada.
hi: frecuencia relativa ( cociente entre frecuencia absoluta y lamuestra/población ).
Hi: frecuencia relativa acumulada.
El 21,7 % de los clientes del local A pagan el día 20. En el local minoristahay pocos que pagan los primeros días y pocos los que pagan el último día.

Para comparar se trabaja con frecuencias relativas (cuando los tamaños demuestra son distintos).
23/03/01
Práctico
Ejercicio 2.35 - Página 49
n = 1425
Objetivo: " Medir el grado de satisfacción de los clientes que compraronuna videograbadora en los últimos 12 meses.

  1. Población: Todos los clientes que compraron una videograbadora en los últimos 12 meses.
  2. Preguntas cualitativas:
  1. ¿Qué le pareció el producto?

- Excelente.

- Muy Bueno.

- Bueno.

- Malo.

  1. Recomendaría el Producto.

- Si.

- No.

  1. Compraría nuestra marca o producto.
  • Si.
  • No.

Preguntas Cuantitativas.

  1. ¿ Cuantas veces usó el servicio técnico?
  • Ninguna.
  • Una.
  • Dos.
  • Más de dos.
  1. Diseño y funcionamiento. Califique de uno a diez
  2. ¿ Cuántas marcas analizó antes de decidir por Xenith?
  3. ¿Cuántos productos Xenith posee Ud.?

Ejercicio 3.8 - Pagina 61

Estadística Descriptiva: Puededefinirse como aquellos métodos que incluyen la recolección, presentación ycaraterización de un conjunto de datos con el fin de describir apropiadamentelas diversas características de ese conjunto.þ nosotros > plazo de financiación.

 

b) Diagrama de Tallo y Hoja SPSS lo hace en forma automática.

Yi= Segundos que tarda un automóvil de llegar de 0 a 60 Mph.

Autos Alemanes

Tallo

Hoja

4

9

5

5

4

1

6

4

9

4

7

0

9

7

9

1

5

8

6

7

3

5

5

8

9

9

 

10

0

9

27/03/01

Construcción de Gráficos

  • Nombrar los ejes.
  • Título del gráfico.
  • Fuente de datos.

Ejercicio 3.70 - Pagina 95

Yi

fi

hi

Fi

Hi

 

 

 

 

 

1,00

1

0,03

1

0,03

1,50

2

0,07

3

0,10

2,00

3

0,10

6

0,20

2,50

2

0,07

8

0,27

3,00

6

0,20

14

0,47

3,50

5

0,17

19

0,63

4,00

2

0,07

21

0,70

4,50

2

0,07

23

0,77

5,00

3

0,10

26

0,87

5,50

1

0,03

27

0,90

6,00

1

0,03

28

0,93

6,50

1

0,03

29

0,97

7,00

1

0,03

30

1,00

 

30

1,00

 

 

Yi = $ de cada manómetro.

fi = cantidad de veces que se repite la variable.

En este caso se supone que la variable es discreta.
Construcción de Intervalos

Intervalos sirve en especial para variables continuas
Ry = Y max - Y min = Recorrido = Amplitud = Rango
Ry = 7.5 - 1 = 6.5

Cantidad de intervalos 4
C= Amplitud del intervalo = Ry / Cantidad de intervalos = 6.5/4 = 1.625
C = Valor entero = 2
Ry* = c x cantidad de intervalos = 2 x 4 = 8

Yi-1 - Yi

Yi

fi

hi

 

 

 

 

1 - 3

2

8

0.27

3 - 5

4

15

0.50

5 - 7

6

6

0.20

7 -9

8

1

0.03

 

 

30

1

Construcción del intervalo del Caso Juárez.
R = 38 - 14 = 24
Cantidad de Intervalos = 7
Amplitud = Ry / c = 3.43 = 4

3. Resumen Capítulo 3 del Libro

Presentación de datos numéricos en tablas y diagramas
Una distribución de frecuencia es una tabla de resumen en la que los datos sedisponen en agrupamientos o categorías convenientemente establecidas de clasesordenadas numéricamente.
En esta forma las características más importantes de los datos se aproximanmuy fácilmente, compensando así el hecho de que cuando los datos se agrupan deese modo, la información inicial referente a las observaciones individuales deque antes se disponía se pierde a través del proceso de agrupamiento ocondensación.

Al construir la tabla de frecuencia-distribución, debe ponerse atención a:

  1. Seleccionar el número apropiado de agrupamientos de clase para la tabla.
  2. Obtener un intervalo o ancho de clase de cada agrupamiento de clase.
  3. Establecer los límites de cada agrupamiento de clase para evitar los traslapes.

Selección del Número de Clases
La distribución de frecuencia debe tener al menos cinco agrupamiento de clase,pero no más de 15. Si no hay suficientes agrupamientos de clase o si haydemasiados, se obtendrá poca información.

Obtención de los intervalos de clase
Ancho del intervalo Rango

número de agrupamientos de clase deseado

La principal ventaja de usar una de estas tablas de resumen es que lasprincipales características de los datos se hacen evidentes inmediatamente parael lector.
La principal desventaja de tal tabla de resumen es que no podemos saber como sedistribuyen los valores individuales dentro de un intervalo de clase particularsin tener acceso a los datos originales. El punto medio de la clase, sinembargo, es el valor usado para representar todos los datos resumidos en unintervalo particular.
El punto medio de una clase (o marca de clase) es el punto a la mitad de los límitesde cada clase y es representativo de los datos de esa clase.

Tabulación de datos numéricos: la distribución de frecuencia relativa ydistribución de porcentaje
La distribución relativa de frecuencia se forma dividiendo las frecuencias decada clase de distribución de frecuencia entre el número total deobservaciones. Entonces puede formarse una distribución de porcentajemultiplicando cada frecuencia relativa o proporción entre 100.
La distribución de frecuencia relativa o la distribución de porcentaje sevuelve esencial siempre que una serie de datos se compara con otra seria dedatos, especialmente si difiere el número de observaciones en cada serie dedatos.

Graficación de datos numéricos: el histograma y el polígono
Histogramas
Los histogramas son diagramas de barras verticales en los que se construyenbarras rectangulares en los límites de cada clase. La variable aleatoria o fenómenode interés se despliega a lo largo del eje horizontal; el eje verticalrepresenta el número, proporción o porcentaje de observaciones por intervalode clase, dependiendo de si el histograma particular, es un histograma defrecuencia, un histograma de frecuencia relativa o histograma de porcentaje

Al comparar dos o más series de datos, ni los diagramas de tallo y hoja nilos histogramas pueden construirse en la misma gráfica. Con respecto a estos últimos,la sobreposición de barras verticales de uno en el otro ocasionaríadificultades de interpretación; en estos casos se usan los polígonos.

Polígonos
El polígono de porcentaje se forma permitiendo que el punto medio de cada claserepresente los datos de esa clase y luego conectando la sucesión de puntosmedios con sus respectivos porcentajes de clase.

Distribuciones acumulativas y polígonos acumulativos
Una tabla de distribución de porcentaje acumulativo se construye registrandoprimero los límites inferiores de cada clase a partir de la distribución deporcentaje y luego insertando un límite extra al final.

Polígono de porcentaje acumulativo
Para construir un polígono de porcentaje acumulativo (también llamado ojiva),el fenómeno se grafica en el eje horizontal, mientras que los porcentajesacumulativos se grafican en el eje vertical.

4. Resumen Capítulo 4 del Libro

Resumen y descripción de los datos numéricos
Propiedades de los datos numéricos.
Las tres mejores propiedades que describe una serie numérica de datos son:

  1. Tendencia central
  2. Variación
  3. Forma

Si estas mediciones se calculan a partir de una muestra, se denominan estadísticas,si se calculan a partir de los datos de una población se denominan parámetros.

Mediciones de tendencia Central

  • La media aritmética, es el promedio. Se calcula sumando todas las observaciones y luego dividiendo el total entre el número de elementos involucrados.

La media actúa como punto de equilibrio de tal forma que las observacionesmenores compensan a las observaciones que son mayores.

La media aritmética se ve afectada en gran medida por valores extremos.

  • La mediana. Es el valor medio de una secuencia ordenada de datos. Si no hay empates, la mitad de las observaciones serán menores y la otra mitad serán mayores. La mediana no se ve afectada por valores extremos. Para calcular la mediana, primero se deben poner los datos en orden. Después usamos la fórmula del punto de posicionamiento.

El cálculo del valor de la media se ve afectado por el número deobservaciones, no por la magnitud de cualquier extremo.

  • La moda. Es el valor de una serie de datos que aparece con más frecuencia. La moda no se ve afectada por la ocurrencia de cualquier valor extremo.
  • Cuartiles. Los cuartiles sonmediciones descriptivas que dividen los datos ordenados en cuatro cuartos.

Mediciones de la Variación
La variación es la cantidad de dispersión o propagación en los datos.

  • El rango: es la diferencia entre la mayor y la menor observación en una serie de datos. El rango mide la propagación total en la serie de datos. La debilidad del rango es que no logra tomar en cuenta la forma en que los datos se distribuyen realmente entre el mayor y el menor valor. Sería impropio usar el rango como una medición cuando uno de o ambos componentes son observaciones extremas.
  • El rango intercuartil: es la diferencia entre el tercer y primer cuartil. No se ve influida por valores extremos.
  • La varianza y la desviación estándar: a diferencia de las mediciones anteriores la varianza y la desviación estándar toman en cuenta como se distribuyen las observaciones. La Varianza de muestra es el promedio de las diferencias cuadradas entre cada una de las observaciones de una serie de datos y la media. La desviación estándar es simplemente la raíz cuadrada de la varianza. La varianza y la desviación miden la dispersión promedio alrededor de la media, es decir, como las observaciones mayores fluctúan por encima de ésta y como las observaciones menores se distribuyen por debajo de ésta.
  • El Coeficiente de Variación: es una medida relativa de variación. Se expresa como porcentaje antes que en términos de las unidades de los datos particulares. Mide la dispersión en los datos relativa a la media.

El coeficiente de variación es útil al comparar la variabilidad de dos o másseries de datos que se expresan en distintas unidades de medición.

Forma
Para describir la forma sólo necesitamos comparar la media y la mediana. Siestas dos mediciones son iguales, por lo general podemos considerar que losdatos son simétricos. Si la media excede a la mediana, los datos puedendescribirse de sesgo positivo o sesgadas a la derecha. Si la media es excedidapor la mediana, estos datos pueden llamarse de sesgo negativo o sesgadas a laizquierda. El sesgo positivo surge cuando la media se incrementa en algunosvalores inusualmente altos, el sesgo negativo ocurre cuando la media se reduceen algunos valores extremadamente bajos.

Cálculo de mediciones descriptivas de resumen de una población
Las mediciones de tendencia central para una población se calculan igual que enla muestra simplemente reemplazamos n por N.
El rango y el rango intercuartil para una población de tamaño N se obtienencomo si fuera una muestra reemplazando n por N. La varianza se calculareemplazando el ( n - 1 ) del denominador por N.

Uso de la Desviación Estándar: La regla Empírica
En series de datos simétricos, donde la mediana y la media son iguales, lasobservaciones tienden a distribuirse igualmente alrededor de estas mediciones detendencia central. Cuando el sesgado extremo no se presenta y tal agrupamientose observa en una serie de datos, podemos usar la denominada regla empíricapara examinar la propiedad de variabilidad de datos y obtener una mejor idea delo que la desviación estándar está midiendo.

La regla empírica establece que en la mayoría de las series de datosencontraremos que aproximadamente dos de cada tres observaciones (es decir, el67%), están contenidas en una distancia de una desviación estándar alrededorde la media y aproximadamente 90% a 95% de las observaciones están contenidas auna distancia de 2 desviaciones estándar alrededor de la media.

Uso de la desviación estándar: La regla de Bienaymé Chebyshev

No importa como se distribuyen los datos. el porcentaje de las distribucionesestán contenidas dentro de las dsitancias de k desviaciones estándar alrededorde la media debe ser al menos

1 - 1 / k2

Al menos 75% de las observaciones deben estar contenidas dentro de distanciasde +/-2 desviaciones estándar alrededor de la media. Al menos 88,89% de lasobservaciones deben estar contenidas dentro de una distancia de +/-3desviaciones estándar alrededor de la media. Al menos 93.75% de lasobservaciones deben estar contenidas dentro de distancias de +/-4 desviacionesestándar alrededor de la media.

5. Resumen Capítulo 5 del Libro

Presentación de datos categóricos en tablas y diagramas

Graficación de datos categóricos: de barras, de pastel y de punto

  • Gráfica de barras

En la gráfica de barras, cada categoría se describe mediante una barra,cuya longitud representa la frecuencia o porcentaje de observaciones que caen enuna categoría. Para construir una gráfica de barras se hacen las siguientessugerencias:

  1. Las barras deben construirse horizontalmente.
  2. Todas las barras deben tener el mismo ancho.
  3. Los espacios entre las barras deben variar entre la mitad
  4. del ancho de una barra hasta el ancho de una barra.
  5. Las escalas y guías son auxiliares útiles en la lectura
  6. de una gráfica y deben incluirse. El punto cero u origen debe indicarse.
  7. Los ejes deben etiquetarse.
  • Gráfica de Pastel
  • Gráfica de Puntos

Graficación de datos categóricos: el Diagrama de Pareto.
El diagrama de Pareto es un tipo especial de gráfica de barras verticales en laque las respuestas categórizadas se grafican en el orden de rango descendientede sus frecuencias y se combinan con un polígono acumulativo en la mismaescala. El principio básico detrás de este dispositivo gráfico es sucapacidad de distinguir los "pocos vitales" de los "muchostriviales".

Tabulación de datos categóricos: Tabla de contingencias y supertablas.
Las tablas de contingencia se usan para examinar las respuestas a dos variablescategóricas simultáneamente.
Supertablas. Una supertabla es esencialmente una colección de tablas decontingencia, cada una con las mismas variables y categorías de columna. Sinembargo, se incluyen tantas variables de fila como se deseen para comparacionesfrente a la variable de columna.

Tipos de Gráficos
Medidas Estadísticas.
Medidas Estadísticas descriptivas.

  • Variables Numéricas:
  • Medidas de posición.
  • Media.
  • Mediana.
  • Moda.
  • Cuartiles.
  • Medidas de Variación.
  • Rango.
  • Rango Medio.
  • Varianza.
  • Desvío Estándar.
  • Coeficiente de variación.

6. Capitulo 6 del libro

Probabilidad Básica
La probabilidad es la posibilidad u oportunidad de que suceda un eventoparticular. La probabilidad involucrada es una porción o fracción cuyo valorvaría entre cero y uno exclusivamente. Observamos un evento que no tieneposibilidad de ocurrir (es decir, el evento nulo), tiene una probabilidad decero, mientras que un evento que seguramente ocurrirá (es decir, el eventocierto), tiene una probabilidad de uno. Ejemplo:

  1. La posibilidad de sacar una carta con figura negra de una baraja.
  2. La posibilidad de que un individuo seleccionado aleatoriamente de una encuesta este de acuerdo con X tema.
  3. La posibilidad que tenga éxito un nuevo producto en el mercado.

Cada uno de los ejemplos anteriores se refiere a uno de los tresplanteamientos del tema de la probabilidad. El primero a menudo se denominacomel planteamiento de la probabilidad clásica a priori. Aquí la probabilidad deéxito se basa en el conocimiento nterior del proceso involucrado. En el caso mássimple, cuando cada resultado es igualmente posible. Esta posibilidad puededefinirse de la siguiente manera:
En el segundo ejemplo; llamado probabilidad clásica empírica, aunque laprobabilidad se sigue definiendo como la proporción entre el número deresultados favorables y el número total de resultados, estos resultados sebasan en datos observados, no en el conocimiento anterior a un proceso.

El tercer planteamiento de probabilidad se denomina el enfoque deprobabilidad subjetiva. Mientras que en los dos anteriores enfoques laprobabilidad de un evento favorable se calculaba objetivamente, ya fuera de unconocimiento previo o de datos reales, la probabilidad subjetiva se refiere a laposibilidad de ocurrencia asignada a un evento por un individuo particular. Laprobabilidad subjetiva es especialmetne útil para la toma de decisiones enaquellas situaciones en que la probabilidad de diversos eventos no puededeterminarse empíricamente.

Conceptos de probabilidad básica
Espacios de muestra y eventos
Los elementos básicos de la teoría de probabilidades son los resultados delproceso o fenómeno bajo estudio. Cada tipo posible de ocurrencia se denomina unevento.

Un evento simple puede puede describirse mediante una característicasencilla. la compilación de todos los eventos posibles se llama el espaciomuestral.
La manera en que se subdivide el espacioi muestral depende de los tipos deprobabilidades que se han de determinar. Tomando esto en cuenta, resulta deinterés definir tanto el complemento de un evento como un evento conjunto de lasiguiente manera:
La complemento del evento A incluye todos los elementos que no son parte delevento A. Esta dado por el símbolo A´.
Un evento conjunto es un evento que tiene dos o más características.

Tablas de Contingencias y diagramas de Venn

Existen varias formas en las que puede verse un espacio muestral particular.El primer método implica asignar los eventos apropiados a una tabla declasificaciones cruzadas. Tal tabla también se denomina tabla de contingencia.

 

Roja

Negro

Totales

As

2

2

4

No As

24

24

48

Totales

26

26

52

La segunda forma de presentar el espacio muestral es usando un diagrama deVenn. Este diagrama se representa gráficamente los diversos eventos como"uniones" e "intersecciones" de círculos.

El área contenida dentro del círculo A y de círculo B (área central) esla intersección de de Ay B (y se escribe A

Probabilidad ( marginal ) simple

La regla mas evidente para las probabilidades es que deben variar en valor de0 a 1. Un evento imposible tiene una probabilidad cero de ocurrir, y un eventocierto tiene una probabilidad uno de ocurrir. La probabilidad simple se refierea la probabilidad de ocurrencia de un evento simple.

Ejemplo:

  • la probabilidad de seleccionar una carta negra;
  • la probabilidad de seleccionar un As

La probabilidad simple se denomina probabilidad marginal puesto que el númerototal de éxitos puede obtenerse del márgen apropiado de la table decontingencias.

Probabilidad Conjunta

La probabilidad conjunta se refiere a fenómenos que contienen dos o maseventos, como la probabilidad de un as negro, una reina roja o un empleado queeste satisfecho con el trabajo y haya progresado dentro de la organización.

P (A)= P ( A y B1 ) + P ( A y B2 ) + .....+ P ( A y Bk )

donde B1, B2, ... Bk son eventos mutuamente excluyentes y colectivamenteexhaustivos.

Dos eventos son mutuamente excluyentes si ambos eventos no pueden ocurrir almismo tiempo.

Dos eventos son colectivamente exhaustivos si uno de los eventos debeocurrir.

Por ejemplo, ser hombre y ser mujer son eventos mutuamente excluyentes ycolectivamente exhaustivos. Nadie es ambos ( son mutuamente excluyentes ) ytodos son uno u otro ( son colectivamente exhaustivos ).

Regla de la adición

La regla de la adición se usa para encontrar la probabilidad del evento A oB. Esta regla para obtener la probabilidad de la unión de A y B considera laocurrencia del evento A o del evento B o de ambos, A y B.

El cálculo de P ( A

P ( A

Eventos mutuamente excluyentes

En ciertas circunstancias, sin embargo, la probabilidad conjunta no necesitarestarse porque es igual a cero. Tales circunstancias cuando no existenresultados para un evento particular. Por ejemplo, suponga que deseamos saber laprobabilidad de escoger un corazon o una espada si estuviéramos seleccionando sólouna carta de una baraja estándar de 52 cartas de juego. Usando la regla de laadición, tenemos lo siguiente:

P ( corazón o espada ) = P ( corazón ) + P ( espada ) – P ( corazón yespada )

P = 13/52 + 13/52 – 0/52 = 26/52

La intersección en este caso no existe ( llamado el conjunto nulo ) porqueno contiene resultados, puesto que una carta no puede ser corazón y espadasimultáneamente.

Siempre que la probabilidad conjunta no contenga ningún resultado, loseventos involucrados se consideran mutuamente excluyentes. Asi la regla generalpara eventos mutuamente excluyentes se reduce a:

P ( A o B ) = P ( A ) + P ( B )

Eventos colectivamente exhaustivos

Consideremos la probabilidad de seleccionar una carta negra o rojo. Puestoque son mutuamente excluyentes al usar la ecuación: 26/52 + 26/52 = 1

La probabilidad de rojo o negro suma uno. Dado que uno de los eventos debeocurrir se consideran mutuamente excluyentes.

Probabilidad Condicional.

Cuando estamos calculando la probabilidad de un evento particular A, dadainformación sobre la ocurrencia de otro evento B, esta probabilidad se denominaprobabilidad condicional, P ( A \ B ). La probabilidad condicional P ( A \ B )puede definirse de la siguiente manera:

P ( A \ B ) = P ( A y B )

P ( B )

  • Independencia estadística Se dice que dos eventos independientes si el conocimiento previo de la probabilidad de ocurrencia de uno de ellos no afecta la probabilidad del otro. Puede definirse de la siguiente manera:

P ( A \ B ) = P ( A )

Regla de multiplicación

La fórmula para la probabilidad condicional puede manipularsealgebraicamente de forma tal que la probabilidad conjunta P ( A y B ) puededeterminarse a partir de la probabilidad condicional de un evento.

La regla de multiplicación para eventos independientes puede expresarse dela siguiente manera sustituyendo P ( A ) por P ( A \ B ):

P ( A y B ) = P ( A ) * P ( B )

Si esta regla se cumple para dos eventos, A y B entonces A y B son estadísticamenteindependientes. Por tanto, hay dos formas de determinar la independencia estadística:.

  1. Los eventos A y B son estadísiticamente independientes si y sólo si P ( A \ B )=P (A)
  2. Los eventos A y B son estadísticamente independientes si y sólo si P ( A y B ) = P ( A ) * P ( B ).

Teorema de Bayes
La probabilidad condicional toma en cuenta información respecto a la ocurrenciade un evento para encontrar la probabilidad de otro evento. Este concepto puedeampliarse para revisar probabilidaddes basadas en nueva información y, asídeterminar la probabilidad que un efecto particular se deba a una causa específica.El procedimiento para revisar estas probabilidades se conoce como teorema deBayes.

El teorema de Bayes puede definirse a partir de las definiciones deprobabilidad condicional y probabilidad marginal, asi el teorema de Bayes es:

P ( Bi \ A ) = P ( A \ Bi ) P ( Bi )

P ( A \ B1 ) P ( B1 ) + P ( A \ B2 ) P ( B2 )

7. Capítulo 7 del libro

Algunas distribuciones importantes de probabilidad discreta

Una distribución de probabilidad para una variable aleatoria discreta es unlistado mutuamente excluyente de todos los resultadosposibles para esa variablealeatoria, tal que una probabilidad particular de ocurrencia esté asociada concada resultado.

Esperanza Matemática
La media de una distribución de probabilidad es el valor esperado de suvariable aleatoria.
El valor esperado de una variable aleatoria discreta puede considerarse como supromedio pesadoo sobre todos los resultados posibles, siendo los pesos laprobabilidad asociada con cada uno de los resultados.

Esta medición de resumen puede puede obtenerse multiplicando cada resultadoposible Xi, por su probabilidad correspondiente P (Xi) y luego sumando losproductos resultantes. Por tanto, el valor esperado de la variable aleatoriadiscreta X, simbolizado como E (X), puede expresarse de la siguiente manera:
E(X)= ∑ Xi * P ( Xi)

Varianza y desviación estándar de una variable aleatoria discreta
La varianza de una variable aleatoria discreta puede definirse como el promediopesado de las diferencias cuadradas entre cada resultado posible y su media,siendo los pesos las probabilidades de cada uno de los resultados respectivos.

Esta medición de resumen puede obtenerse multiplicando cada diferenciacuadrada posible ( Xi – μ )2 por su probabilidad correspondiente P (Xi) yluego sumando los productos restantes. Por lo tanto la varianza de la variablealeatoria discreta X puede expresarse de la siguiente manera:

( Xi – μ )2 * P (Xi)

Funciones de distribución de probabilidad discreta
La distribución de probabilidad para una variable aleatoria discreta puede ser:

  1. Un listado teórico de resultados y probabilidades que pueden obtenerse de un modelo matemático que represente algún fenómeno de interés.
  2. Un listado empírico de resultados y sus frecuencias relativas observadas.
  3. Un listado subjetivo de resultados asociados con sus probabilidades subjetivas que representan el grado de convicción del tomador de decisiones respecto a la probabilidad de los resultados posibles.

Un modelo se considera una representación en miniatura de algún fenómenosubyacente. En particular, un modelo matemático es una expresión matemáticaque representa cierto fenómeno subyacente. Para variables aleatorias discretas,esta expresión matemática se conoce como función de distribución deprobabilidad.

La característica escencial de la distribución uniforme es que esigualmente posible que ocurran todos los resultados de la variable aleatoria.

Distribución Binomial

La distribución binomial es una distribución de probabilidad discreta quees extremadamente útil para describir muchos fenómenos.

La distribución binomial posee cuatro propiedades esenciales:

  1. Las observaciones posibles pueden obtenerse mediante dos métodos de muestreo distintos. Cada observación puede considerarse como seleccionada de una población infinita sin reemplazo o de una población finita con reemplazo.
  2. Cada observación puede clasificarse en dos categorías mutuamente excluyentes y colectivamente exhaustivas, usualmente denominadas éxito y fracaso.
  3. La probabilidad de que una observación se clasifique como éxito, p, es constante de observación a observación.
  4. El resultado de cualquier observación es independiente del resultado de cualquier observación.

Modelo matemático

ÇB) , puesto que esta área es parte de A y tambien parte de B. El área total delos dos círculos es la unión de A y B (y se escribe A ÈB ) y contiene todos los resultados que son parte del evento A, parte del eventoB o parte de ambos A y B. El área fuera del diagrama fuera de A ÈB contiene aquelloos resultados que no sonparte de A ni son parte de B.ÈB ), la probabilidad del evento A o B, puede expresarse en la siguiente regla dela adición general:ÈB ) = P ( A o B ) = P ( A ) + P ( B ) – P ( A y B )

P( X= x \ n, p ) = n ! px ( 1 – p ) n-x

X ! ( n – x ) !

La primera parte de la fórmula nos dice cuántas secuencias de arreglos delos x éxitos de n observaciones son posibles. La segunda parte nos dice laprobabilidad de obtener exactamente x éxitos de n observaciones en unasecuencia particular.

Características de la distribución binomial

  • Forma. Siempre que p= 0.5 la distribución binomial será simétrica sin importar que tan grande o pequeño sea el valor de n. Sin embargo, cuando p ≠ 0.5 la distribución será sesgada. Mientras más cercana este p de 0.5 y mayor sea el número de observaciones, n, menos sesgada será la distribución. Con una p pequeña la distribución estara sesgada a la derecha. Para p muy grandes, la distribución sería sesgada a la izquierda.
  • La media. La media de la distribución binomial puede obtenerse fácilmente como el producto de sus parámetros, n y p.
  • La desviación estándar. La desviación estándar se calcula usando la siguiente fórmula:

8. Capítulo 8 del libro

La distribución Normal

    • Modelos matemáticos de variables aleatorias continuas:. La función de densidad de probabilidad.

La probabilidad exacta de un valor particular de una distribución continuaes cero. A fin de eliminar la necesidad de realizar laboriosos cálculos matemáticosse ha desarrolladola distribución gaussiana o normal.

    • La Distribución Normal.
    • Importancia de la distribución Normal.

La distribución normal es de vital importancia en estadística por tresrazones principales:

4.      Numerosos fenómenos continuos parecen seguirla o pueden aproximarse mediante ésta.

5.      Podemos usarla para aproximar diversas distribuciones de probabilidad discreta y evitar así pesados cálculos.

6.      Proporciona la base de la inferencia estadística clásica debido a su relación con el teorema del límite central.

    • Propiedades de la distribución normal
    1. Tiene forma de campana y es simétrica en apariencia.
    2. Sus mediciones de tendencia central (media, mediana, moda alcance medio y eje medio) son todas idénticas.l
    3. Su "dispersión media" es igual a 1.33 desviaciones estándar. Es decir, el alcance intercuartil está contenido dentro de un intervalo de dos tercios de una desviación estándar por debajo de la media a dos tercios de una desviación estándar por encima de la media.
    4. Su variable aleatoria asociada tiene un alcance infinito
    • El modelo matemático

Para la distribuciónnormal, el modelo usado para obtener las probabilidadesdeseadas es:

Examinemos los componentes de la función: puesto que e y ∏ sonconstantes matemáticas, las probabilidades de la variable aleatoria X dependensólo de dos parámetros de la distribución normal, la media de la población yde la desviación estándar de la población. Cada vez que especificamos unacombinación particular se generará una distribución de probabilidaddiferente.

o                                            Estandarización de la distribución normal

Afortunadamente, al estandarizar los datos, solo necesitamos una fórmula:

Alusar la fórmula de transformación cualquier variable aleatoria normal X seconvierte en una variable aleatoria normal estandarizada Z. Mientras los datosoriginales para la variable aleatoria X tenían una media y una desviaciónestandar, la variable aleatoria estandarizada Z siempre tendrá una media = 0 yuna desviación = 1.

 Aproximación de la distribución binomial
Mientras más cerca esté p de 0,50 y mientras más grande sea el número deobservaciones de la muestra n, más simétrica se vuelve la distribución.Siempre que el tamño de muestra sea grande, puede usarse la distribuciónnormal para aproximar las probabilidades exactas de éxito que de otra manera setendrían que haber obtenido mediante laboriosos cálculos.
Como regla general, esta aproximación normal puede usars siempre que n * p y n* ( 1- p ) sean al menos 5. Entonces la nueva Z sera la que se presenta acontinuación:

Aproximación de la distribución de Poisson
La distribución normal también puede usarse para aproximar el modelo depoisson siempre que el parámetro Lambda sea igual o mayor que cinco. Entoncesla formula de Z será la siguiente:

9. Capitulo 9 del libro

Distribuciones de muestreo
Con el fin de poder usar la estadística de muestra para estimar el parámetrode población, deberíamos examinar cada muestra posible que pudiera ocurrir. Siesta selección de todas las muestras posibles realmente se tuviera que hacer,la distribución de todos los resultados se denominaría distribución demuestreo. El proceso de generalizar estos resultados de muestra para la poblaciónse refiere como una inferencia estadística.

Distribución de muestreo de la media

o                                            Propiedades de la media aritmética

Entre varias propiedades matemáticas importantes de la media aritméticapara una distribución normal están:

15.                                       Imparcialidad

16.                                       Eficiencia

17.                                       Consistencia.

La imparcialidad, implica el hecho de que el promedio de todas las medias demuestras posibles será igual a la media de la población. Tomemos como ejemplouna población de N=4 con tamaños de muestra de 2. Si seleccionamos dosmuestras con reemplazo, podríamos obtener 16 muestras posibles. El promedio decada una de las muestras es igual a la media de la población. Por lo tantohemos demostrado que la media aritmética de muestra es un estimador imparcialde la media de la población. Esto nos dice que aún cuando no sepamos qué tancerca esté el promedio de cualquier muestra particular seleccionada a la mediade la población, al menos estamos seguros que el promedio de todas las mediasde muestra que se podrían haber seleccionado será igual a la media de lapoblación.
La eficiencia, se refiere a la precisión de la muestra estadística como unestimador del parámetro de población. La media de muestra se acercará másestable que otras mediciones de tendencia central. La media de muestra seacercará más a la media de la población que cualquier otro estimador.
La consistencia, se refiere al efecto del tamaño de muestra, sobre la utilidadde un estimador. Al incrementarse el tamaño de muestra, la variación de lamedia de muestra de la media de la población se hace más pequeña, de maneraque la media aritmética de muestra se vuelve una mejor estimación de la mediade la población.

Error estándar de la media
El hecho de que las medias de muestra son menos variables que los datos depoblación se desprende directamente de la ley de los grandes números. Unamedia de muestra particular promedia conjuntamente todos los valores de lamuestra. Una población puede consistir en resultados individuales que puedentener un amplio radio de valores, de extremadamente pequeños a extremadamentegrandes. Sin embargo, si un valor extremo cae en la muestra, aunque tendrá unefecto en la media, el efecto se reducirá pues se promediará con todos los demásvalores de la muestra. Además, al incrementarse el tamaño de la muestra, elefecto de un valor extremo se hace cada vez menor, puesto que se estápromediando con más observaciones. Al muestrearse con reemplazo, el error estándarde la media es igual a la desviación estándar de la población dividida entrela raíz cuadrada del tamaño de muestra.

Muestreo de poblaciones normales
Puede demostrarse que si muestreamos con reemplazo de una población condistribución normal, la distribución de muestreo de la media también tendráuna distribución normal para cualquier tamaño de muestra y tendrá unadesviación estándar como la que se mostró más arriba. Al incrementarse eltamaño de muestra el error estándar de la media disminuye, de forma tal queuna mayor proporción de medias de muestra están más cercanas a la media de lapoblación.

 

Muestro de poblaciones no normales

En muchos casos no sabremos si la población se distribuye normalmente. Porlo tanto, necesitamos examinar la distribución de muestreo de la media parapoblaciones que no están normalmente distribuidas.

Teorema del límite central. Al hacerse lo bastante grande el tamaño demuestra, la distribución de muestreo de la media puede aproximarse mediante ladistribución normal. Esto es cierto no importando la forma de la distribuciónde los valores individuales de la población. ¿Qué tamaño de muestra? Unagran parte de las investigaciones demuestran que una muestra adecuada de por lamenos 30, hace que la distribución de muestreo se aproxime a la normal.

o                                            Para la mayoría de las distribuciones de población, sin importar la forma, la distribución de muestreo de la media tendrá una distribución aproximadamente normal, si se seleccionan muestras de al menos 30 observaciones.

o                                            Si la distribución de la población es lo bastante simétrica, la distribución de muestreo de la media será aproximadamente normal si se seleccionan muestras de al menos 15 observaciones.

o                                            Si la población se distribuye normalmente, la distribución de muestreo de la media se distribuirá normalmente sin importar el tamaño de la muestra.

Distribución de muestreo de la proporción
Cuando trabajamos con variables categóricas cada característica puedeclasificarse con 1 o 0 para representar la presencia o ausencia de la característica.Al tratar con datos categóricos puede definirse como:

Laproporción tiene la propiedad especial de estar entre 0 y 1. El error estándarde la proporción es:

Encasi todas las investigaciones el muestreo es conducido sin reemplazo, por estodebe usarse un factor de corrección de población finita (fpc) en la definicióntanto del error estándar de la media como del error estándar de la proporción.El factor de corrección puede expresarse como:

Z es el valor correspondiente a un área de (1-α )/2 desde el centro deuna distribución normal estandarizada. El valor Z elegido para construir talintervalo de confianza se conoce como el valor crítico.

Cualquier aumento en el nivel de confianza se logra ampliando simultáneamenteel intervalo de confianza obtenido (haciéndolo menos preciso y menos útil).

Estimación de intervalo de confianza de la media (desvío desconocido)
Del mismo modo en que la media de la población se desconoce, es probable que ladesviación estándar real de la población tampoco sea conocida. Por lo tanto,necesitamos obtener una estimación de intervalo de confianza utilizando lasestadísticas de muestra "X" y "S". Para ello, utilizamos ladistribución t-student.
De este modo, el intervalo de confianza se establecerá a partir de la siguientefórmula:
Estimado del intervalo de confianza de la porción

Podemosestablecer la siguiente estimación de intervalo de confianza (1-α) para laporciσn de la poblaciσn:

Determinación del tamaño de muestra para la media:

El error de muestreo "e" se puede definir como:

 

Por consiguiente para determinar el tamaño de la muestra, deben conocersetres factores:

4.                                           El nivel de confianza deseado.

5.                                           EL error de muestreo permitido.

6.                                           La desviación estándar.

Determinación del tamaño de muestra para una porción:

 

 

Al determinar el tamaño de muestra para estimar una porción se debendefinir tres incógnitas:

7.                                           El nivel de confianza.

8.                                           El error de muestreo permitido.

9.                                           La porción verdadera de éxitos.

Estimación y determinación del tamaño de muestra para poblaciones finitas.
Estimación de la media

Estimación de la porción

Determinación del tamaño de muestra

 

11. Hipótesis nula y alternativa

La prueba de hipótesis empieza con algo de teoría, afirmación o negacióncon respecto a un parámetro particular de una población. La hipótesis de queel parámetro de la población es igual a la especificación de la compañía seconoce como hipótesis nula. Una hipótesis nula es siempre una de status quo ode no diferencia. Se simboliza con el símbolo Ho.
Siempre que especificamos una hipótesis nula, también debemos especificar unahipótesis alternativa, o una que debe ser verdadera si se encuentra que la hipótesisnula es falsa. La hipótesis alternativa se simboliza H1. La hipótesisalternativa representa la conclusión a la que se llegaría si hubierasuficiente evidencia de la información de la muestra para decidir que esimprobable que la hipótesis nula sea verdadera, y por tanto rechazarla. Elhecho de no rechazar la hipótesis nula no es una prueba de que ésta seaverdadera. Nunca podemos probar que tal hipótesis sea correcta porque estamosbasando nuestra decisión únicamente en la información de la muestra, no en lapoblación entera.

Resumen:

o                                            La hipótesis nula se refiere siempre a un valor especificado del parámetro de población, no a una estadística de muestra.

o                                            El planteamiento de la hipótesis nula siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.

o                                            El planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado del parámetro.

Regiones de rechazo y de no rechazo

La distribución de muestreo de la estadística de prueba se divide en dosregiones, una región de rechazo (conocida como región crítica) y una regiónde no rechazo. Si la estadística de prueba cae dentro de la región de norechazo, no se puede rechazar la hipótesis nula.
La región de rechazo puede considerarse como el conjunto de valores de la estadísticade prueba que no tienen posibilidad de presentarse si la hipótesis nula esverdadera. Por otro lado, estos valores no son tan improbables de presentarse sila hipótesis nula es falsa. El valor crítico separa la región de no rechazode la de rechazo.
Riesgos en la toma de decisiones al utilizar la metodología de prueba de hipótesis.
Se pueden presentar dos tipos diferentes de errores:

o                                            Un error tipo I se presenta si la hipótesis nula es rechazada cuando de hecho es verdadera y debía ser aceptada.

o                                            Un error tipo II se presenta si la hipótesis nula es aceptada cuando de hecho es falsa y debía ser rechazada.

Nivel de Significación. La probabilidad de cometer un error tipo I denotadacon la letra griega alfa, se conoce como nivel de significación de la pruebaestadística. Está bajo el control directo del individuo que lleva a cabo laprueba. Ya que se ha especificado el valor de alfa, se conoce el tamaño de laregión de rechazo, puesto que alfa es la probabilidad de un rechazo de la hipótesisnula.

Coeficiente de confianza. EL complemento ( 1-

El coeficiente de confianza es la probabilidad de que la hipótesis nula nosea rechazada cuando de hecho es verdadera y debería ser aceptada.

Riesgo

Potencia de una prueba. El complemento (1-

Prueba de hipótesis Z para la media (desvío de la población conocido)

El estadístico de prueba a utilizar es:

a) de la probabilidad de cometer un error de tipo I se conoce como coeficiente deconfianza.b. La probabilidad de cometer un error de tipo II se conoce como nivel de riesgodel consumidor. A diferencia del error tipo I, en el cual las pruebas estadísticasnos permiten controlar nuestra elección de a, la probabilidad de cometer un error del tipo II depende de la diferencia entrelos valores supuesto y real del parámetro de población. Como es más fácilencontrar diferencias grandes, si la diferencia entre la estadística de muestray el correspondiente parámetro de población es grande, bla probabilidad de cometer un error del tipo II, probablemente sea pequeña.b) de la probabilidad de cometer un error del tipo II se conoce como potencia deuna prueba estadística.
La potencia de una prueba es ña probabilidad de rechazar la hipótesis nulacuando de hecho esta es falsa y debería ser rechazada.
Una manera en que podemos controlar la probabilidad de cometer un error del tipoII en un estudio, consiste en aumentar el tamaño de la muestra. Tamaños másgrandes de muestra, nos permitirán detectar diferencias incluso muy pequeñasentre las estadísticas de muestra y los parámetros de la población. Cuando sedisminuye a, baumentará de modo que una reducción en el riesgo de cometer un error de tipo Itendrá como resultado un aumento en el riesgo de cometer un error tipo II.

La Potencia de una prueba

β representa la probabilidad de que la hipσtesis nula no searechazada cuando de hecho es falsa y debería rechazársele. La potencia deprueba 1-β representa la sensibilidad de la prueba estadística paradetectar cambios que se presentan al medir la probabilidad de rechazar la hipótesisnula cuando de hecho es falsa y debería ser rechazada. La potencia de pruebaestadística depende de qué tan diferente en realidad es la media verdadera dela población del valor supuesto.

Una prueba de un extremo es más poderosa que una de dos extremos, y se deberíautilizar siempre que sea adecuado especificar la dirección de la hipótesisalternativa.

Puesto que la probabilidad de cometer un error tipo I y la probabilidad decometer un error tipo II tienen una relación inversa y esta última es elcomplemento de la potencia de prueba (1-β), entonces α y la potenciade la prueba varνan en proporciσn directa. Un aumento en el valor delnivel de significación escogido, tendría como resultado un aumento en lapotencia y una disminución en α tendría como resultado una disminuciónen la potencia.
Un aumento en el tamaño de la muestra escogida tendría como resultado unaumento en la potencia de la prueba, una disminución en el tamaño de lamuestra seleccionada tendría como resultado una disminución en la potencia.

12. Capitulo 12 del libro

Pruebas de una muestra con datos numéricos
Elección del procedimiento de prueba apropiada
Procedimientos paramétricos
Todos los procedimientos paramétricos tienen tres características distintivas:Los procedimientos de prueba paramétricos pueden definirse como aquellos 1)querequieren que el nivel de medición obtenido con los datos recolectados esté enforma de una escala de intervalo o de una escala de cociente; 2)implican laprueba de hipótesis de valores de parámetros especificados 3) y por últimorequieren un conjunto limitante de suposiciones.

Procedimientos sin distribución y no paramétricos
Los procedimientos de prueba sin distribución pueden definirse ampliamente como1) aquellos cuya estadística de prueba no depende de la forma de la distribuciónde la población subyacente de la cual se tomó la muestra de datos o como 2)aquellos para los cuales los datos no tienen fuerza suficiente para garantizaroperaciones aritméticas significativas.

Los procedimientos no paramétricos pueden definirse como aquellos que notienen que ver con los parámetros de una población.

Prueba t de hipótesis para la media (δ2 desconocida)

Enocasiones se desconoce la desviación estándar de la población. Sin embargo,se la puede estimar con el cálculo de S, la desviación estándar de lamuestra. Recordemos de muestreo de la media seguirá una distribución t con n-1grado de libertad.

Unadistribución chi-cuadrado es una distribución sesgada cuya forma dependeexclusivamente del número de grados de libertad. Conforma este aumenta, ladistribución se vuelve más simétrica.

Supongamosque consideramos dos poblaciones independientes, cada una con una media y unadesviación estándar. La estadística de prueba utilizada para determinar ladiferencia entre las medias de las poblaciones está basada en la diferenciaentre las medias de las muestras (X1 – X2). Debido al teorema del límitecentral esta estadística seguirá la distribución normal. La estadística deprueba Z es:

Donde:

La estadística de prueba t de varianza conjunta sigue una distribución tcon n-2 grados de libertad.

Prueba t`de varianza separada para diferencias entre dos medias

Sisuponemos que las varianzas no son iguales como en el caso anterior debemosreplantear el estadístico a utilizar.

La estadística de prueba t`puede ser aproximada con la fórmula de v,mostrada anteriormente.
Prueba t para la diferencia de medias
Con el propósito de determinar cualquier diferencia que exista entre dos gruposrelacionados, deben obtenerse las diferencias en los valores individuales decada grupo. Cuando la desviación estándar de la poblacion de la diferencia esconocida y el tamaño de muestra es lo suficientemente grande. La estadísticade prueba Z es:

Sin embargo, en la mayoría de los casos no conocemos la desviación estándarreal de la población. La única información que se puede obtener son las estadísticassumarias como la media y la desviación estándar de muestra. Si se supone quela muestra de resultados es tomada de manera aleatoria e independiente se puederealizar una prueba t para determinar si existe una diferencia media de poblaciónsignificativa. La estadística seguirá una distribución t con n-1 grados delibertad.
Ho= µd = 0 donde µd= µ1-µ2
H1= µd ≠ 0

Se puede calcular el siguiente estadístico de prueba:

14. Capitulo 14 del libro

Prueba de hipótesis con datos categóricos
Prueba Z de una muestra para la proporción
Para evaluar la magnitud de la diferencia entre la porción de la muestra y laporción de la población supuesta la estadística de prueba está dada por laecuación siguiente:

La estadística de prueba Z está distribuida de manera aproximadamentenormal.

Prueba Z para diferencias entre dos porciones (muestras independientes)
Cuando se evalúan diferencias entre dos porciones basándose en muestrasindependientes se puede emplear una prueba Z. La estadística de prueba es:

Se supone que las dos porciones de población son iguales.
Ho= p1=p2
H1= p1 ≠ p2

Prueba X2 de independencia
Sirve para evaluar diferencias potenciales entre la porción de éxitos encualquier número de poblaciones. Para una tabla de contingencias que tiene rrenglones y c columnas, la prueba mencionada puede generalizarse como una pruebade independencia.
Como prueba de hipótesis las hipótesis nula y alternativa son:
H0= Las dos variables categóricas son independientes.
H1= Las dos variables categóricas están relacionadas.
La estadísitica de prueba es la siguiente:

La regla de decisión consiste en rechazar ña hipótesis nula a un nivel designificación si el valor calculado de la estadística de prueba es mayor queel valor crítico de extremo superior de una distribución chi-cuadrada queposee (r-1)*(c-1) grados de libertad.

15. Capítulo 15 del libro

Regresión lineal simple y correlación
El análisis de regresión se utiliza principalmente con el propósito de hacerpredicciones.
El análisis de correlación se utiliza para medir la intensidad de la asociaciónentre las variables numéricas.
Diagrama de dispersión: cada valor es graficado en sus coordenadas particularesX, Y.
Tipos de modelos de regresión. El modelo de línea recta puede representarsecomo:

El primer termino (B0), es la intersección Y para la población; B1 es lapendiente de la población y E es el error aleatorio en Y para la observacióni. En este modelo, la pendiente de la recta B1 representa el cambio esperado enY por unidad de cambio en X; esto es, representa la cantidad que cambia lavariable Y con respecto a una unidad de cambio particular en X. B0 representa elvalor promedio de Y cuando X es igual a cero. El modelo matemático estáinfluenciado por la distribución de los valores X y Y en el diagrama dedispersión.

Determinación de la ecuación de regresión lineal simple. El método de mínimoscuadrados.

A b0 y b1 se los puede considerar como estimaciones de B0 y B1. Porconsiguiente, la ecuación de regresión de muestra sería:

 Yi es el valor predicho de Y para la observación i, y Xi es el valor de X para laobservación i.

Unatécnica matemática utilizada para determinar los valores de bo y b1 que mejorse ajusten a los datos observados se conoce como método de mínimos cuadrados.Al utilizar este método surgen dos ecuaciones normales:

I.

II.

 

El error estándar de estimación.

Elerror estándar de la estimación, representado como Syx se define como:

SST = SSR + SSE

En la que SST =

Podemos ahora definir el coeficiente de determinación r2: mide la porciónde variación que es explicada por la variable independiente del modelo deregresión:

Algunosinvestigadores sugieren que se calcule un coeficiente r2 ajustado para reflejartanto el número de variables explicatorias del modelo como el tamaño de lamuestra. El coeficiente r2 ajustado se calcula de la siguiente manera:r, cuyos valores van de –1 a +1. El coeficiente de correlación en casos deregresión lineal simple toma el signo de b1.

Suposiciones de regresión y correlación. Las cuatro principalessuposiciones acerca de la regresión son: 1.Normalidad. 2. Homoscedasticidad. 3.Independencia de error. 4. Linealidad.
La primera suposición, normalidad, requiere que los valores de Y esténdistribuidos normalmente en cada valor de X. Siempre y cuando la distribuciónde los valores de Yi alrededor de cada nivel de X no sea extremadamentediferente de una distribución normal, las inferencias acerca de la línea deregresión y de los coeficientes de regresión no se verán seriamenteafectadas. La segunda suposición, homoscedasticidad, requiere que la variaciónalrededor de la línea de regresión sea constante para todos los valores de X.La tercera suposición, independencia de error, requiere que el error seaindependiente de cada valor de X. Por último, la linealidad establece que larelación entre las variables es lineal.

Estimación del intervalo de confianza para predecir

myx.

Intervalo de predicción para una respuesta individual Yi

Inferencias respecto a los parámetros de población en regresión ycorrelación

Ho= β1=0 (No hay relaciσn)

H1= β1 ≠ 0 (Hay relaciσn)

Y la estadístida de prueba para probar la hipótesis está dada por:

La estadística de prueba sigue una distribución t con n-2 grados delibertad.

Un segundo método equivalente para probar la existencia de una relaciónlineal entre las variables consiste en establecer una estimación de intervalode confianza de β1 y determinar si el valor supuesto está incluido en elintervalo. La estimación del intervalo de confianza se obtendría de lasiguiente manera:

Un tercer método para examinar la existencia de una relación lineal entredos variables implica al coeficiente de correlación de la muestra, r. Para ellose realiza lo siguiente:

Ho: ρ = 0 ( No hay relación)

H1: ρ ≠ 0 (Hay relaciσn)

La estadística de prueba para determinar la existencia de una correlaciónesta dada por:

La estadística de prueba sigue una distribución t con n-2 grados delibertad.

Dificultades de la regresión y cuestiones éticas
Las dificultades que surgen con frecuencia son:

15.                                       Falta de conciencia sobre las suposiciones de la regresión de mínimos cuadrados.

16.                                       Conocimiento de cómo evaluar las suposiciones de la regresión de mínimos cuadrados.

17.                                       Conocimientos de cuáles son las alternativas de la regresión de mínimos cuadrados si no se cumple alguna suposición individual.

18.                                       La creencia de que la correlación implica causalidad.

19.                                       El uso del modelo de regresión sin conocer de qué se trata.

16. Aplicaciones estadísticas en administración de lacalidad y productividad

Calidad y productividad: Una perspectiva histórica. Al tema de calidad yproductividad lo podemos dividir en cuatro fases históricas: 1. Podemos pensaren una administración de primera generación como administración mediante laacción, el tipo administración practicada por las sociedadescazadoras-recolectoras primitivas en que los individuos producían algo para símismos o para su unidad tribal, siempre que el producto fuera necesario. 2.Luego encontramos la administración por dirección. Es la época delsurgimiento de los gremios en Europa (Edad Media). Los gremios administraban elentrenamiento de aprendices y trabajadores y determinaban las normas de calidady fabricación de los productos hechos por el gremio. 3. La administración porcontrol, surge aproximadamente con Henry Ford, en el cual los trabajadoresestaban divididos entre aquellos que en realidad hacían el trabajo y aquellosque planeaban y supervisaban el trabajo. Esto le quitó responsabilidad altrabajador individual con respecto al tema calidad y dejó el tema en manos deinspectores. El estilo de administración por control contenía una estructurajerárquica que ponía énfasis en la responsabilidad individual por la obtenciónde un conjunto de objetivos predeterminados. 4. Por último encontramos laadministración por proceso. Llamada a menudo TQM o Administración de CalidadTotal. Una de las características principales de este planteamiento consiste encentrar la atención en una continua mejora de los procesos. Se le daimportancia al trabajo en equipo, atención al cliente y rápida reacción a loscambios. Tiene fuerte fundamentación estadística.

La teoría de los diagramas de control. El diagrama de control es un mediopara revisar la variación de la característica de un producto o serviciomediante 1. la consideración de la dimensión temporal en la cual el sistemafabrica productos y 2. el estudio de la naturaleza de la variabilidad delsistema. El diagrama de control puede utilizarse para estudiar desempeñospasados o evaluar las condiciones presentes o ambas cosas. Los diagramas decontrol pueden utilizarse para diferentes tipos de variables: para las variablescategóricas y para las variables discretas. La atención principal del diagramade control se enfoca en el intento de separar las causas especiales o asignablesde la variación de las causas comunes o debidas al azar.

o                                            Las causas especiales o asignables representan grandes fluctuaciones en los datos que no son inherentes a un proceso. Tales fluctuaciones son ocasionadas por cambios en un sistema.

o                                            Las causas comunes o debidas al azar representan la variabilidad inherente que se presenta en un sistema.

Las causas especiales se consideran aquellas que no forman parte de unproceso y son susceptibles de corregir; mientras que las causas comunes puedenreducirse solo cambiando el sistema. Existen dos tipos de errores que losdiagramas de control ayudan a prevenir. El primer tipo de error implica lacreencia de que un valor observado representa una causa especial de la variacióncuando de hecho se debe a una causa común de variación del sistema. El segundoerror implica tratar a una causa especial como si fuera una causa común y notomar medidas correctivas cuando son necesarias.

La forma más típica de un diagrama de control establece límites de controlque se encuentran dentro de +/-3 desviaciones estándar de la medida de estadísticade interés. En general puede establecerse como:

Algunas herramientas para estudiar un proceso: diagrama de esqueleto depescado (Ishikawa) y de flujo de procesos. Un proceso es una secuencia de pasosque describen una actividad desde el inicio hasta su terminación.

o                                            El diagrama de esqueleto de pescado (o Ishikawa): El nombre viene de la manera en que las diferentes causas están ordenadas en el diagrama. El problema se muestra en la parte derecha y las principales causas se colocan en la parte izquierda. Estas causas a menudo se subdividen.

o                                            Diagrama de flujo de proceso. Este diagrama nos permite ver un flujo de pasos de un proceso, desde su inicio hasta su terminación.

Los catorce puntos de Deming: una teoría de la administración por proceso.Deming desarrollo su enfoque basándose en los siguientes catorce puntos:

24.                                       Crear una constancia en el propósito de mejorar el producto y el servicio.

25.                                       Adoptar la nueva filosofía.

26.                                       Dejar de ser dependientes de la inspección para lograr la calidad.

27.                                       Terminar con la práctica de otorgar contratos sobre la única base del precio. En vez de ello minimizar el costo total trabajando con un solo proveedor.

28.                                       Mejorar constantemente y para siempre cada proceso de planeación, producción y servicio.

29.                                       Instituir el entrenamiento en el trabajo.

30.                                       Adoptar e instituir el liderazgo.

31.                                       Eliminar el miedo.

32.                                       Derribar las barreras entre áreas de personal.

33.                                       Eliminar lemas, exhortaciones y metas destinados a la fuerza laboral.

34.                                       Eliminar cuotas numéricas para la fuerza laboral y objetivos numéricos para la administración.

35.                                       Retirar barreras que le restan orgullo a la gente respecto a su trabajo. Eliminar el sistema de evaluación anual o de mérito.

36.                                       Instituir un vigoroso programa de educación y autodesarrollo para todos.

37.                                       Poner a todo el que trabaje en la compañía a trabajar en el logro de la transformación.

Diagramas de control para la proporción y el número de elementos que no seajustan:. Los diagramas p y np.

o                                            Diagrama p: basado en la porción de elementos que no cumplen con los requisitos. Para establecer los límites de control:

 

Cualquier valor negativo del límite de control inferior significará que ellímite de control inferior no existe.

o                                            Diagrama np: basado en el número de elementos que no cumplen con los requisitos. Los límites de control los establecemos de la siguiente manera:

El diagrama R: Un diagrama de control para la dispersión. Los límites deeste diagrama de control los obtenemos de la siguiente manera:

Diagrama X. El diagrama de control para X utiliza subgrupos de tamaño n quese obtienen sobre k secuencias consecutivas o periodos. Los límites de controlse obtienen de la siguiente manera:

Resumen
Pronóstico de series de tiempo.
Tipos de métodos de predicción: Existen dos planteamientos para la predicción:cualitativa y cuantitativa. Los métodos de predicción cualitativa sonespecialmente importantes cuando no se dispone de datos históricos. Seconsideran altamente subjetivos. Los métodos de predicción cuantitativa hacenuso de los datos históricos.

Introducción al análisis de series de tiempo.
Una serie de tiempo es un conjunto de datos numéricos que se obtienen en períodosregulares a través del tiempo. El principal objetivo de una serie de tiempoconsiste en identificar y aislar tales factores de influencia con propósitos dehacer predicciones, así como para efectuar una planeación y un controladministrativo.

Factores componentes del modelo multiplicativo de series temporales.
Tendencia: impresión a largo plazo.
Componente cíclico: representa la oscilación o los movimientos a la baja y ala alta que se dan a lo largo de la serie. Los movimientos cíclicos varían enlongitud, por lo general de dos a 10 años.
Componente irregular aleatorio: cualquier componente que no sigue la curva detendencia modificada por el componente cíclico.
Cuando los datos se registran mensual o trimestralmente además de la tendenciacíclica y los componentes irregulares debemos tomar en cuenta el factorestacional.
El modelo multiplicativo clásico de las series temporales.
Cuando los datos se obtienen anualmente una observación Yi puede expresarsecomo:
Yi=Ti*Ci*Ii; en la que Ti es el valor del componente tendencia, Ci= valor delcomponente cíclico; Ii es el valor del componente irregular.
Por otra parte cuando los datos se obtienen de manera trimestral o mensual unaobservación Yi puede estar dada por:
Yi=Ti*Si*Ci*Ii, en la que Si es el valor del componente estacional.

El primer paso de una serie de tiempo consiste en graficar los datos yobservar su tendencia a través del tiempo. Primero debemos determinar si parecehaber un movimiento a largo plazo hacia arriba o hacia abajo en la serie. ( esdecir una tendencia), o si la serie parece oscilar alrededor de una líneahorizontal a través del tiempo. Si este último parece ser el caso entoncesdebe emplearse el método de promedios móviles o el suavizado exponencial, parasuavizar la serie y proporcionarnos una impresión global a largo plazo.

Suavizado de las series temporales anuales:. promedios móviles y suavizadoexponencial.
Promedios móviles. Este método es altamente subjetivo y dependiente de lalongitud del período elegido para la construcción de los promedios. Paraeliminar las fluctuaciones cíclicas, el período escogido debe ser un valorentero que corresponda a la duración promedio estimada de un ciclo.
Los promedios móviles para un período elegido de longitud L consisten en unaserie de medias aritméticas calculadas en el tiempo de tal modo que cada mediase calcula para una secuencia de valores observados que tienen esa longitudparticular, L.

El promedio móvil puede calcularse de la siguiente manera:
Cuanto más largo sea el período, menor será el número de valores promedio móvilque se pueden calcular y graficar. Por consiguiente, la selección de promediosmóviles con períodos de longitud mayores a siete años es, por lo general, nodeseable puesto que habrá demasiados puntos de datos que faltan al inicio y alfinal de la serie, haciendo que sea más difícil de obtener una impresiónglobal de la serie completa.

Suavizado Exponencial.
El suavizado exponencial puede utilizarse para obtener predicciones a cortoplazo. Su nombre deriva del hecho de que nos proporciona un promedio móvilpesado o ponderado exponencialmente a través de la serie de tiempo, esto es, alo largo de la serie cada cálculo de suavizado o predicción depende de todoslos valores observados anteriormente. Esta es una ventaja con respecto al otro método.Con este método los pesos asignados a los valores observados disminuyen con eltiempo, de modo que cuando se hace el cálculo, el valor observado más recienterecibe el mayor peso.

Para suavizar una serie de tiempo en cualquier periodo i tenemos la siguienteexpresión:.


Ei= valor de la serie suavizada exponencialmente que se calcula en el períodoi.
Ei-1= valor de la serie suavizada exponencialmente calculado en el período i-1
Yi= valor observado de la serie en el período i
W= peso o coeficiente de suavizado que se asigna de manera subjetiva.
W==2/(L+1)

El modelo lineal:

El modelo cuadrático:

El modelo exponencial:

Elección de un modelo de predicción apropiado

Trabajo enviado por:
Hernan Torino
htorino@sinectis.com.ar

Si deseamos suavizar una serie mediante la eliminación de las variaciones cíclicase irregular no deseadas, debemos seleccionar un pequeño valor de W. Si, nuestroobjetivo es hacer predicciones debiésemos seleccionar el valor más grande de W(cercano a uno).

Análisis de series de datos anuales: ajuste de tendencia de mínimoscuadrados y pronóstico.

Correlación: medición de la intensidad de la asociación
En el análisis de correlación estamos interesados en medir el grado deasociación entre dos variables. La intensidad de la
relación se mide mediante el coeficiente de correlación

Mediciones de variación en regresión y correlación. Con el fin de examinarque tan bien una variable independiente predice a la variable dependiente,necesitamos desarrollar algunas medidas de variación. La primera: la suma totalde cuadrados, esta puede dividirse en dos partes: la variación explicada o sumade cuadrados debida a la regresión (SSR) y la variación no explicada o suma decuadrados de error (SSE). La suma de cuadrados debida a la regresión. La SSRrepresenta la diferencia entre el valor promedio de Y y el valor promedio de Yque sería predicho a partir de la relación de regresión).La SSE representaaquella parte de la variación de Y que noo es explicada por la regresión.

SST = SSR + SSE

II.

El análisis de regresión lineal simple tiene que ver con la búsqueda de lalínea recta que mejor se ajusta a los datos. El mejor ajuste significa quedeseamos encontrar la línea recta para la cual las diferencias entre losvalores reales (Yi) y los valores que serían predichos a partir de la líneaajustada de regresión (Yi estimada) sean lo más pequeñas posibles. Debido aque tales diferencias serán positivas y negativas para las diferentesobservaciones, minimizamos matemáticamente la expresión:

En donde X es la media de la muestra correspondiente a cada una de las dosmuestras, n es el tamaño de la muestra y por último tenemos la varianza de lamuestra.

Si suponemos que las varianzas son iguales y que las muestras fueron tomadasde manera aleatoria e independiente se puede utilizar una prueba t de varianzaconjunta para determinar si existe alguna diferencia significativa entre lasmedias de las poblaciones. Si puede calcular la siguiente estadística de pruebat de varianza conjunta:

 

13. Capítulo 13 del libro

Pruebas de dos muestras con datos numéricos
Prueba t de varianza conjunta para diferencias entre dos medias

Aproximación del valor p
Suposiciones de la prueba t de una muestra
La prueba t está considerada como un procedimiento paramétrico clásico.Supuestos: los datos numéricos obtenidos son tomados de manera independiente yrepresentan una muestra aleatoria de la población que está distribuidanormalmente.
Prueba de hipótesis χ2 para la varianza (o desviación estándar)
Al intentar llegar a conclusiones con respecto a la variabilidad de la población,primero debemos determinar que estadística de prueba puede utilizarse pararepresentar la distribución de la variabilidad de los datos de la muestra. Sila variable se supone que está distribuida normalmente, entonces la estadísticade prueba para probar si la varianza de la población es igual o no a un valorespecificado es:

 

10. Capitulo 10 del libro

Estimación
Introducción
La inferencia estadística es el proceso que consiste en utilizar los resultadosde una muestra para llegar a conclusiones acerca de las características de unapoblación.

Existen dos tipos de estimaciones: estimaciones puntuales y estimaciones deintervalo. Una estimación puntual consiste en una sola estadística de muestraque se utiliza para estimar el valor verdadero de un parámetro de población.Puesto que la estadística de prueba varía de una muestra a otra necesitamosconsiderar este hecho con el fin de proporcionar una estimación mássignificativa y característica de la población. Para lograr esto, debemosdesarrollar una estimación de intervalo de la media de población verdadera,tomando en consideración la distribución de muestreo de la media. El intervaloque construimos tendrá una confianza o probabilidad específica de estimarcorrectamente el valor verdadero del parámetro de población.

Estimación de intervalo de confianza de la media (desvío de la poblaciónconocido):
En la inferencia estadística debemos tomar los resultados de una sola muestra yllegar a conclusiones acerca de la población. En la práctica, la media de lapoblación es la cantidad desconocida que se va a determinar. Para algunasmuestras la estimación de intervalo de la media de la población será correctay para otras no. Tenemos que recordar que para el cálculo del intervalotrabajamos con una estimación de intervalo de confianza de 95, por ejemplo,esto puede interpretarse como si se tomaran todas las muestras posibles delmismo tamaño, n, 95% de ellas incluirían la media de población verdadera enalguna parte del intervalo alrededor de sus medias de muestra, y solamente 5% deellas no estarían incluidas. En general el nivel de confianza se simboliza como(1-α ) x 100%, en donde α es la porciσn que se encuentra en losextremos de la distribuciσn que está fuera del intervalo de confianza. Porconsiguiente para obtener la estimación del intervalo tenemos:

La distribución de muestreo de la proporción sigue una distribuciónbinomial. Sin embargo, cuando n*p y n*(1-p) son cada uno al menos 5 puede usarsela distribución normal.

Muestreo de poblaciones finitas

o                    Uso de las tablas de distribución de probabilidad normal

La tabla de normal representa las probabilidades o áreas bajo la curvanormal calculadas desde la media hasta los valores particulares de interés X. Sólose enumeran en la tabla entradas positivas de Z, puesto que para una distribuciónsimétrica de este tipo con una media de cero, el área que va desde la mediahasta +Z debe ser idéntica al área que va desde la media hasta –Z. Al usarla tabla de normal se puede observar que todos los valores de Z debenregistrarse primero con hasta dos lugares decimales.

o                    Encontrar los valores correspondientes a probabilidades conocidas.

Para encontrar un valor particular asociado con una probabilidadconocida,debemos adoptar los siguientes pasos:

42.               Trazar la curva normal y luego colocar los valores para las medias en las escalas X y Z respectivas.

43.               Dividir la mitad apropiada de la curva normal en dos partes: la porción de la X deseada a la media y la porción de la X deseada al extremo.

44.               Sombrear el área de interés.

45.               Usando la tabla de normal determinar el valor Z apropiado correspondiente al área que está bajo la curva normal desde la X deseada hasta la media.

46.               Usando la ecuación que se presenta a continuación encontrar X.

 

 

Distribución de Poisson.

La distribución de Poisson es otra función de distribución de probabilidadque tiene muchas aplicaciones prácticas importantres. Un proceso Poisson no sólorepresenta numerosos fenómenos discretos, sino que el modelo Poisson tambiénse usa para proporcionar aproximaciones a la distribución binomial.

Se dice que un proceso de Poisson existe si podemos observar eventosdiscretos en un área de oportunidad, un intervalo continuo, de tal manera quesi acotamos el área de oportunidad o intervalo de manera suficiente:

  1. La probabilidad de observar exactamente un éxito en el intervalo es estable.
  2. La probabilidad de observar exactamente más de un éxito en el intervalo es cero.
  3. La ocurrencia de un éxito en cualquier intervalo es estadísticamente independiente de aquella en cualquier otro intervalo.

Características

  • Forma. Cada vez que se especifica el parámetro λ, puede generarse una distribuciónde probabilidad de Poisson espacífica. Una distribución de Poisson estará sesgada a la derecha cuando λ es pequeña, y se aproximará a la simetría al crecer.
  • La media y la desviación estándar. Una propiedad de esta distribución es que la media y la varianza son iguales al parámetro λ.

Uso de la distribución de Poisson para aproximar la distribución binomial

Para aquellas situaciones en las que n es grande ( mayor o igual a 20 ) y pes muy pequeña ( menor a 0.05 , la distribución de Poisson puede usarse paraaproximar la distribución binomial.

La variable aleatoria de Poisson puede variar teóricamente de 0 a ∞ .Sin emabrgo, cuando se usa como una aproximación a la distribución binomial,la variable aleatoria de Poisson, el número de éxitos de n observaciones,claramente no puede exceder el tamaño de la muestra n.

Características

μ=λ = n * p

 

Trabajo enviado por:
Hernan Torino
htorino@sinectis.com.ar



Valora este artículo 5   4   3   2   1

Comparte  Enviar a facebook Facebook   Enviar a menéame Menéame   Digg   Añadir a del.icio.us Delicious   Enviar a Technorati Technorati   Enviar a Twitter Twitter
Artículos Destacados