jueves, 4 de diciembre de 2008

Cuartiles, deciles y percentiles.
Encuentre
a) Los cuartiles Q1, Q2, Q3 y
b) los deciles D1, D2, D3... D9
para los salarios de la empresa Pr.
Salarios No. de empleados
$250.00-$259.99 8
$260.00-$269.99 10
$270.00-$279.99 16$280.00-$289.99 14$290.00-$299.99 10$300.00-$309.99 5$310.00-$319.99 2Total: 65
a) El Q1 es el salario obtenido contando N/4=65/4. De los casos empezando con la primera clase (inferior). Ya que la primera clase incluye 8 casos, debemos tomar 16.25-8=8.25 de los 10 casos de la segunda clase. Por el método de interpolación lineal se obtiene Q1= $259.99 + 8.25/8 ($10.00)= $

Medidas de Dispersión
El rango semi-intercuartil o desviación cuartil de un conjunto de datos se determina mediante la siguiente expresión:
Rango percentilar
El rango percentilar 10-90 de un conjunto de datos se define
rango percentil 10-90=P90-P10
Desviación estándar
La desviación estándar de un conjunto de n de números x1, x2, ... xn se denota por S
donde x representa las desviaciones de cada uno de los números xj, respecto de la Xmedia. Por lo tanto S es la media cuadrática de las desviaciones en relación con la media o, como se le llama en forma común desviación de la media cuadrática.
Ejemplo.
Calcule el rango de los conjuntos, la desviación media
a) 12, 6, 7, 3, 15, 10, 18, 5
b) 9, 3, 8, 8, 9, 8, 9, 18

domingo, 28 de septiembre de 2008

miércoles, 10 de septiembre de 2008

REGRESION LINEAL

Regresión Lineal como Promedio
Mediante el siguiente ejemplo iniciaremos el estudio de lo que es la regresión lineal.
Se estudia el ingreso económico mensual de familias dependientes de obreros residentes. Dicho ingreso puede compararse contra la edad del padre de familia. De éste modo, se estudian dos variables que representan a su vez una variable bivariada susceptible de escribirse como un par ordenado estadístico (x,y). En la Tabla siguiente, se muestran los datos correspondientes a una muestra aleatoria de 30 familias.

Tabla 1. Ingresos mensuales en miles de pesos de familias dependientes de obreros según la edad del padre


Familia Edad Ingresos

1----------35----------5.6

2----------35----------5.9

3----------36----------5.8

4----------38----------5.9

5----------38----------6.1

6----------38----------5.8

7----------40----------6.2

8----------41----------5.9

9----------41----------6.0

10--------43-----------5.9

11---------43----------6.0

12---------45----------6.3

13---------45----------6.2

14---------45----------5.9

15---------45----------6.2

16---------45----------6.4

17---------46----------6.2

18---------46----------6.1

19---------47----------6.8

20---------48----------7.0

21---------48----------6.7

22---------48----------6.5

23---------49----------6.8

24---------52----------6.7

25---------54----------7.4

26---------55----------7.5

27---------56----------7.9

28---------58----------7.8

29--------58-----------8.0
30---------60----------8.1




formulas:

Y'=a + b(x)
∑Y=n*a + b∑X
∑XY= a*∑X + b∑X2
donde, n= numero de muestras


Calculo:

1. ∑Y=195= (30)*a+(1378)*b

2. ∑XY=9123.8=(1378)+(64726)b

Sistema de ecuaciones simultaneas
Solución:



a= 2.0470
b=0.0974


Sustituyendo:

Y=a + b(x)
Y'= 2.0470 +0.0974X


martes, 9 de septiembre de 2008

PROBLEMAS Y EJERCICIOS.

1.Suponga que el siguiente conjunto de datos es una muestra aleatoria de 40 calificaciones de autoconcepto.

100 112 88 105 100 102 98 113
102 87 93 93 117 100 98 92
100 117 97 100 83 67 76 100
106 117 89 83 100 109 109 93
105 108 104 63 81 109 100 98

a)Determine Xmáx, Ymin y el rango
b)¿Cuántos intervalos sugeriría para mostrar la distribución?
c)Determine el ancho del intervalo, w, para permitir 10 intervalos.
d)Si w=5, ¿cuál es el primer intervalo, (valores más bajos)?
e)Si w=5, liste los intervalos.
f)Construya una distribución de frecuencias agrupada para los 40 valores.(Utilice el método de conteo con estacas).
g)Construya columnas de porcentajes y porcentaje acumulado para esos datos.
h)¿Sería un polígono de frecuencias una gráfica apropiada para esos datos?¿Por qué?
i)Construya un polígono como el de la fig. 2.4 con esos datos.
j) Construya una ojiva de esos datos.
k)Estime P10, P50 y P90 utilizando la ojiva.
l)Construya una gráfica horizontal de caja y pastillas para esos datos.
m)Comente sobre la aparente simetría o asimetría de esos datos.
n)¿Cómo diferirá una ojiva de asimetría positiva de la asimetría negativa?
o)¿Puede suponer cómo podría aparecer la ojiva de una distribución rectangular?

2.El siguiente conjunto de datos e de una muetra aleatoria de 50 casos de los datos del HSB. En este caso, los números representan la raza de los individuos, de donde 1=hispano, 2=asiático, 3=negro,4=blanco.

4 1 4 4 1 1 4 4 4 2
4 4 2 4 4 4 3 4 4 4
1 4 4 4 1 4 4 3 4 4
4 3 1 4 4 4 1 3 4 4
4 3 3 4 4 3 3 4 4 4

a)¿Un polígono de frecuencias es apropiado para graficar esos datos? ¿Por qué?
b)¿Es apropiada una gráfica de barras para graficar esos datos?¿Por qué?
c)Construya una distribución de frecuencias agrupadas para esos datos.
d)Construya una columna de porcentajes para esos datos.
e)Construya un histograma de frecuencias para esos datos.
f)Etiquete el eje vertical de la figura en el inciso e para indicar frecuencia y porcentajes.
g)¿Habría probablemente brechas entre las columna del histograma?¿Por qué?

Los ejercicios 1-10 están basados en los siguietnes datos.

En un grupo de sexto grado con 36 estudiantes, se administra una técnica sociométrica de ¨adivina quién¨ para evaluar el grado de relaciones positivas entre ellos para cada estudiante. Los valores para los 36 estudiantes fueron:

22 3 12 2 0 7 1 9 1 28 5 2
2 2 33 4 8 13 2 3 1 28 10 14
22 1 4 15 1 52 5 8 3 11 17 1


1.¿Cuál es el rango?
2.Construya una distribución de frecuencias no agrupada.
3.Construya una distribución de frecuencias agrupada, con w=5.
4.Construya un histograma de esos datos y comente sobre la forma de la distribución.
5.Construya una ojiva.
6.EStime Q1 y Q2.
7.Calcule la media.
8.Determine la mediana.
9.Determine la moda.
10.Compare la distancia de Q1 y Q2 con la distancia de Q2 a Q3.El patrón sugiere asimetría______.
11.Para una década reciente, el incremento en el ingreso medio en el sur fue 74% para blancos y 113% para no blancos.¿Cuál es el incremento medio para ambos grupos combinados si cada 100 trabajadores 82 fueron blancos?
12.Suponga que siete amigos viven junto a una autopista y quieren juntarse en la casa de uno de ellos para comer tacos y discutir las medidas de tendencia central y sus tipos favoritos de gráficas. Si sus casas a lo largo de la autopista están situadas de este a oeste en este orden: A, B, C, D, E, F y G. ¿dónde deberían reunirse para minimizar la suma de las distancias recorridas?
13.Suponga que una distribución tiene una media de 70, una mediana de 65 y una moda de 55. ¿En qué dirección está sesgada la distribución
14.Si aplica una prueba de CI a una clase en dos ocaciones separadas, como regla general, comente sobre las diferencias relativas entre las dos medias, las dos medianas y las dos modas.

Las preguntas 15-16 corresponden a los datos presentados en la tabla 2.2
15.Mo=?
16.Md=?


Respuestas a problemas y Ejercicios

1.

a) Xmax 117, Xmin 63, rango 54

b) cerca de 10 intervalos a menos que n sea muy grande.

c) w : rango /10 : 54/10, redondeando a 5.

d) el menor multiplo de 5 que sea menos a 63 es 60: 60-64


e) f) g)





h) Sí los polígonos de frecuencia son excelentes para las variables continuas.

i)

j)

k)P10=80, P50=100; P90=110
l)
m) parece que la distribución es asimétrica y sesgada a la izquierda
n) la ojiva de una distribución es asimétrica positiva se elevaría muy rápido de la línea base en el lado izquierdo de la ojiva al conjunto de valores en las regiones más bajas. Por otro lado, la ojiva en una distribución asimétrica negativa no comenzará a elevarse rápidamente sino hasta que alcance los valores altos en el lado derecho de la figura.
o) una línea inclinada hacia arriba desde el extremo inferior izquierdo hasta el extremo superior derecho.

2 Distribuciones de frecuencia Tablas estadísticas y gráficas

a)a) no, ya que estos datos son categóricos más que cuantitativamente continuos.
b) Una excelente elección, ya que los datos no tienen un continuo fundamental.
c) d)




e) f)




g) sí, ya que es congruente con los datos categóricos no clasificables.


Respuestas a los problemas y ejercicios.

1. Rango Xmax –Xmen : 52-0: 52

2.




3.

4.

5.


6. Q1: 2 o 3, Q3: 13.5

7. 9.78

8. 5
9. 1
10. Q3 – Q2 es mayor que Q2 – Q1 Positiva
11. Xmayor : X.(n1X1+n2X2)/(n1+n2) 82(74)+18(113)/100 81%
12. Md en el punto D. La suma de las derivaciones absolutas en un mínimo alrededor de la mediana)
13. Está sesgada a la derecha, es decir, positivamente.
14. Se espera que las medias difieren menos y que las modas difieran más.
16. Mediana igual a 51

jueves, 4 de septiembre de 2008

Distribución de frecuencia

--Distribución de frecuencia--
1.-Es una lista de datos( ya sea de manera individual o por grupos) junto con sus frecuencias o conteos corespondientes.
2.-Límites de clases inferiores: Son las cifras más pequeñas que pueden pertenecer a las diferentes clases.
3.-Límite de clase superior: Son las cifras más altas que pueden pretenecer a las diferentes clases.
4.-Frontera de clase: Son las cifras utilizadas para separar las clases, aunque sin los espacios creados por los límites de clase.
Se optienes de la siguiente manera: Se determinan el tamaño del espacio, entre el límite de clase superior de una clase y el límite de clase inferior de la siguiente.Se suma la mitad de esa cantidad a cada límite de clase superiopr para obtener las fronterasde clases superiores,se resta la mitad de esa cantidad de cada límite de clase inferior, para obtener la frontera de clases inferiores.
--Tabla--
Distribución de frecuencia de los nivelescontaminantes de nicotina.
nicotina Frecuencias

0-99 11

100-199 12

200-299 14

300-399 1

400-499 2


límites de clases inferiores: 0,100,300,400


Límite de clases superiores : 99,199,299,399,499


fronteras de clase : -0.5,99.5199.5,299.5399.5,499.5


Marca de clase: Son los puntos medios de las clases, cada marca de clase se calcula sumando el límite inferior con el límite superior y dividiendolo entre dos.


Marca de clase: 49.6,149.5,249.5,349.5,449.5


Anchura de clase: Diferencia entre dos límites de clase inferiores, consecutivos o dos fronteras de clase consecutivas.


Visualización de los datos


--Histograma: Entre los dsitintos tipos de gráficas que se presentan este es particularmente importante.Una gráfica de barras en donde la escala horizontal representa clases de valores de datos y la escala vertical representa frecuencias.Las alturas de las barras corresponden a los valores de frecunencias.



martes, 2 de septiembre de 2008

Distribución de frecuencia

Toma de datos
Los datos estadísticos normalmente son numéricos. Con ellos se realiza el estudio de situaciones variadas en los más diversos cambios en la ciencia y tecnología. Dicho estudio se refiere a situaciones en las cuales es indispensables obtener información confiable para tomar decisiones certeras, las cuales en gran medida se producen gracias a que los datos se organizan en tablas o gráficos.
-Fuentes de datos estadísticos
**Experimentales. Provienen de experimentos planeados y quizá controlados en algunas de las variables por un investigador.
**Observación. No procede de experimentos si no de fuentes no controlables.
Datos agrupados. Cuando se toman datos experimentales o por observación aparecen sin orden, por eso se llaman datos en bruto.
Estos datos se pueden agrupar, ordenar del mayor al menor o del menor al mayor. Esto al menos nos permite saber cuál es el dato mayor, menor y cuales están en el centro, si son pocos datos, si se repiten los datos, es decir si son más frecuentes.

Frecuencia: Es el número de veces que se repite un dato.
Estos datos también se pueden agrupar en tablas de frecuencia y frecuencias relativas. La agrupación de las tablas se hace mediante la distribución de los datos numéricos en clases, según sea su frecuencia.

-Los siguientes datos corresponden a las utilidades en pesos de una panificadora (La conchita), durante cada uno de los últimos 24 meses, se dan tal cual se recogieron. Por eso aparecen en desorden. El dueño desea traspasar la panadería y requiere conocer esos datos para tomar una decisión.
9830.70 13686.85 19272.21 18030.36 21169.32 15737.43
14528.90 14307.33 16400.36 16505.53 16946.47 16573.73
15179.04 7814.889 13859.12 14228.12 18223.63 16573.94
18702.29 20733.58 17558.57 17383.31 12109.07 17991.51
1.¿Cuál es la pregunta del dueño de la panificadora?
En si traspasaba la panaderia o no
2.¿Cuál es la población bajo estudio?
Utilidades en pesos
3.Ordena de menor a mayor

7814.889 13859.12 15179.04 16573.73 17558.57 18702.29
9830.70 14228.12 15737.43 16573.94 17991.51 19272.21
12109.07 14307.33 16400.36 16946.47 18030.36 20733.58
13686.85 14528.90 16505.53 17383.31 18223.63 21169.32

5.¿Cuál es el menor y mayor de los datos?
La menor es 7814.889
La mayor es 21169.32

6.¿Cuál es la diferencia entre el dato mayor y el menor?
13354.431
7.¿Cuáles son los dos valores en el centro del dato? 16505.53 y 16573.73

lunes, 1 de septiembre de 2008

Ejercicio

Del siguiente conjunto de datos, obtener las definiciones de moda, mediana, media aritmética, así como el promedio por columna y obtener el promedio total.

324.00 322.10 24.10 324.00
423.00 324.00 32.10 444.10
372.10 712.08 512.00 432.12
276.08 432.00 732.00 782.34
762.12 276.08 324.00 1024.10
423.00 423.00 712.10 732.32
372.10 701.10 632.44 423.40
324.00 432.10 837.32 932.50
272.10 324.08 632.00 632.43
722.08 232.10 844.42 324.00


4270.58 4178.64 5282.48 6051.31 sumatoria
Promedio por colummna

427.058 417.864 528.248 605.131
Mediana por columna

592.56 4178.64 5282.48 6051.31
Mediana global

128.1
Media aritmética

19783.01/40=494.57525
Moda

324