TEMA 8: Teoría de muestra: Tipo de muestreo. Teoría de la estimación.

Al conjunto de procedimientos que permiten elegir muestras de tal forma que estas reflejen las características de la población le llamamos técnicas de muestreo.  
  • Muestreo probabilístico o aleatorio: Si la muestra se elige con un procedimiento al azar, se puede evaluar ese error, denominado error aleatorio. 
  • Muestreo no probabilístico:  No se usa el azar y no es posible evaluar el error. 
La muestra es un subconjunto de elementos de una población, 
teniendo que ser representativa de la población diana y debe ser un
tamaño adecuado para generalizar y lo suficiente pequeña para poder 
trabajar con ella y comparable. 
 MUESTREO NO PROBABILÍSTICO:
Las unidades que componen la población tiene diferente probabilidad de ser elegidas ya que no solo interviene el azar sino también otras condiciones. 
1. Muestreo consecutivo:  
 Se recluta a todos los individuos de una población que son accesibles y que cumplen los criterios de inclusión durante un periodo de reclutamiento fijado. Es el mas utilizado 
2.  Muestreo de conveniencia o accidental:  
Se recluta a los individuos que son más accesibles para el equipo de investigación o que se presentan voluntariamente. Se una con frecuencia al ser el menos costoso y más fácil. 
3. Muestreo intencional a criterio:  
El propio investigador es quien selecciona a los individuos al considerarlos los mas apropiados. Se una cuando se quiere contar con una muestra de expertos o en estudios cualitativos.
4. Muestreo bola de nieve, de avalancha o muestreo en cadena:  
El propio investigador elige a un participante que cumpla los criterios de inclusión y al mismo tiempo se le pide que identifique a otros individuos con sus mismas características para invitarles a participar y así sucesivamente hasta que tenga la muestra. 
5. Muestreo teórico:  
La selección de la muestra se hace de forma gradual debido a que el propósito del estudio es la generación de una teoría o porque la integración de la muestra se va diciendo sobre la marcha.



MUESTREO PROBABILÍSTICO: 
Todas las unidades que componen la población tienen una probabilidad de ser elegidas y se puede calcular de antemano 
Muestreo aleatorio:  Existen varios tipos: 
  • Simple: Seleccionar al azar (por tabla de número o pc) la n (muestra. Se usa poblaciones pequeñas y es el mas representativo. 
  •  Sistemático: Seleccionar individuos según una regla o proceso periódico. 
Para ello, se calcula constante K, y elegimos un numero al azar entre 1 y K, que sería la primera unidad R. Después sumamos R + K hasta conseguir el tamaño de la muestra, siendo  el segundo R+ K, el tercero R + 2K... La forma de K, es  K= N/n 
Muestreo estratificado:  
Se utiliza cuando la característica objeto de estudio no se distribuye de forma homogénea en la población y puede afectar a los resultados del estudio, pero existen grupos o estratos donde si se presenta de manera homogénea. Estos grupos tienen alguna características en común pero son mutuamente excluyente.  
Muestreos conglomerados:
Se obtienen  de grupos o conglomerados ya establecidos cuando no hay listado de la población. 
Primero hay que definir los conglomerados, se trata de definir una característica que permite dividir la población en grupos sin solapamiento.  Seleccionamos después al azar algún conglomerado ya sea por muestro aleatorio simple o sistemático y por ultimo, investigamos todos los sujetos del conglomerado o bien optar una nueva muestra dentro de ese conglomerado. 



TAMAÑO DE LA MUESTRA:
 El tamaño de la muestra influye de una manera capital en la representatividad de nuestros resultados y va a depender de:
  • El error aleatorio
  • De la mínima diferencia entre los grupos de comparación que se considera importante en los valores de la variable a estudiar
  • De la variabilidad de la variable a estudiar.
  • De la amplitud del intervalo de confianza, que cuanto mas estrecho, mas preciso serán los datos 
  • El tamaño de la población de estudio
TAMAÑO DE UNA POBLACIÓN:  

 Z: Es un valor que depende 1- alfa 
S2: Es la varianza poblacional 
e: es el error máximo aceptado por los investigadores.

TAMAÑO DE UNA PROPORCIÓN: 

p: es la proporción de una categoría variable

1-p es la proporción de la otra categoría

z es el valor que depende del nivel de confianza 1- alfa

N y e es lo mismo que en la formula anterior.

TEMA 7: Teoría de la probabilidad.



PROBABILIDAD: 
Es la parte de las matemáticas que estudia los fenómenos aleatorios estadísticos, es decir, lo contrario a los fenomenos determinista.
 La teoría de la probabilidad se ocupa de asignar un cierto número a cada posible resultado que pueda ocurrir en un experimento aleatorio
  • Se expresa mediante un numero entre 0 y 1
  • La estimación sobre la probabilidad de ocurrencia del evento, nos ayuda a tomar decisiones
  • Cuanto mas probable es que ocurra un evento, su medida de ocurrencia estará mas próximo a 1 o a 100, y cuanto menos probable, mas se aproxima al 0 

PROBABILIDAD SUBJETIVA O PERSONLÍSTICA: 
"Estadística bayesiana" : Se refiere a la probabilidad de ocurrencia de un suceso, basado en la experiencia previa , la opinión o la intuición, en caso después de estudiar la información disponible, se asigna un valor de probabilidad basado en el grado de creencia de que el suceso pueda ocurrir. 
Ejemplo: Los aficionados del futbol, pueden estimar que en un partido la proporción de que un equipo gané sobre otra se de un X%. 
 PROBABILIDAD OBJETIVA:  
1. Probabilidad clásica o "a priori"  
Si un evento puede ocurrir de N formas, las cuales se excluyen mutuamente y son igualmente probables , y si "m" de esos eventos poseen característica "E". 
Es decir, el numero de casos favorables entre el numero de casos posibles.
2. Probabilidad relativa o "a posteriori" 
Si un suceso es repetido un gran número de veces, y si algún evento resultando, con características "E" ocurre "m" veces, la frecuencia relativa de la ocurrencia de "E", m/n, es aproximadamente igual a la probabilidad de ocurrencia de E 
si 

  Es decir, el nº de vecess que se ha obtenido el resultado que se estudia entre el nº de repeticiones del experimento 


EVENTOS O SUCESOS: 
Se llama suceso o evento al subconjunto de resultados posibles en un experimento aleatorio. El conjunto de todos los resultados posibles de denomina espacio / muestra. 
Encontramos: 
  • Suceso independiente: Pueden pasar uno independiente del otro
  • Suceso dependiente: Un evento, condiciona la otro 
  • Suceso compatible: Tienen algún suceso elemental en común 
  • Suceso Incompatible:  Ningun suceso elemental en común, 

REGLAS BÁSICAS: TEORIA DE LA PROBABILIDAD
  1. La probabilidad de un evento o suceso siempre oscila entre 0 y 1, siendo 1 la probabilidad de que ocurra seguro y 0 la probabilidad de que no ocurra. 


  • La union de A y B es: 


  • La probabilidad de un suceso contrario:



  • Probabilidad condicionada:   








TEOREMA DE BAYES: 

DISTRIBUCIÓN DE PROBABILIDAD EN VARIABLES EN VARIABLES DISCRETAS:

Distribución binominal: 
Se utilizan para resolver problemas que platean: "Si al hacer un experimento hay una probabilidad "p" de que ocurra un suceso. ¿Cuáles es la probabilidad de que en N experimentos ocurra X veces?" 
  •  P: Probabilidad de ocurrencia
  • Q: Probabilidad de no ocurrencia 
  • X: Número sucesos favorables
  • N: Número total de ensayos.   
Distribución de Poisson:  
Esta distribución se utiliza para obtener la probabilidad de sucesos raros (eventos que ocurren con poca frecuencia)
  • P(X=x): Es la probabilidad de ocurrencia cuando la variable discreta X toma un
    valor finito x 
  •  λ: Promedio de  ocurrencia en un intervalo
  • e: Tiene un valor aproximado de 2,7193
  • x: Es el número de ocurrencias. 

DISTRIBUCIONES NORMALES:  
La función de densidad de una distribución normal tiene forma de campana de Gauss y es simétrica en cuanto a la media. 

 La media coincide con la moda que es el punto mas alto y con la mediana. En todas las distribuciones si yo le sumo o le resto el valor de la desviación típica a la media de cualquier serie estadística que sigue una población normal, el valor de esa serie se va a encontrar en un 68,26%, si le sumo o resto 2 veces la desviación típica la encontraríamos en un 95,45%...






La tipificación es muy importante para los problemas: 



TEMA 6: Representación gráfica de la información.

La importancia de las representaciones gráficas reside en que es una manera de representar los datos de manera rápida para comunicar la información numérica y completan el análisis estadístico, aumentando la información y ofreciendo una orientación visual. 
Normas básicas:  
  • Tienen que ser visualmente claras
  •   Tiene que tener su leyenda
  • Representa  graficamente las conclusiones del estudio
  • Evitar gráficos confusos y sobrecargados. 

VARIABLES CUALITATIVAS:  
1. Gráficos de sectores: 
Utiles para variables  cualitativas nominales, ya sean dicotómicas o policotómicas ( no es recomendable para mas de 4 o 5 categorías). Solo con una variable 

2. Diagrama de barra: 
Para variables policotómicas y se usa también en variables cualitativas ordinales.

3. Pictográmas 
 Es un tipo de gráfico en el que en lugar de barras se utilizan figuras proporcionales a la frecuencia.  



VARIABLES CUANTITATIVAS: 
1. Histográma:  
Es igual que el diagrama de barras en cuanto al tipo de frecuencias que se pueden utilizar pero este es para variables continuas. 


2. Polígonos de frecuencia: 
El polígono de frecuencia resumen, en una sola linea, el resultado del histograma correspondiente pues une los punto de las bases superiores de los rectángulos. 

3. Grafico de tronco y hojas: 
 Es un híbrido entre la tabla de frecuencia y el histograma, nos va a mostrar la distribución y los valores de la variable. Cada dato de la serie se divide en dos partes: el tronco (decenas) y hojas (unidades) 


GRÁFICOS PARA DATOS BIDIMENSIONALES: 

1. Gráficos de tendencias temporales:


2. Diagrama de Dispersión: Nube de puntos o "scatter plot"
  • Correlación positiva: Tendencia ascendente tipo bisectriz 
  •  Correlación negativa: Aquella que desciende conforme va disminuyendo los valores
  • Ninguna asociación: Cuando hay asimetría

GRÁFICAS PARA DATOS MULTIDIMENSIONALES: 

1. Diagrama de estrellas:
Para representarlo en el diagrama de estrella se establece una leyenda, cada línea de un color para cada año. Las siete variables esta cada una en un extremo de la estrella. 


TEMA 5: Estadísticos universales: Medidas de resumen para variables cuantitativas

Hay tres grandes tipos de medidas de estadística:
  1. Medidas de tendencia central: Dan idea de los valores alrededor de los cuales el resto de los datos tienen tendencia a agruparse.   
  1. Medidas de posición: Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos, es decir, ordenamos de mayor a menor.   
  1.  Medidas de dispersión o variabilidad: Dan información acerca de la heterogeneidad u homogeneidad de nuestras observaciones

MEDIDAS DE TENDENCIA CENTRAL:



Medida aritmética o media: Se calcula para variables cuantitativas y se trata del centro geométrico o de gravedad de nuestros datos. Es la suma de todos los valores de la variable observada entre el total de las  observaciones 
  • La suma de las desviaciones respecto de la media es igual a cero  
  • La media no se altera por una transformación lineal de la escala  
  • Es muy sensible a las puntuaciones extremas  
Mediana:  Es la posición que ocupa la posición central de la distribución, por ello, es el valor de la observación tal que un 50% de los datos es menor y el 50% es mayor. 
  • Si el numero de observaciones es impar, el valor de la observación será justamente la observación que ocupa la posición: (n/2) + 1.
  • Si el numero de observaciones es par, el valor de la mediana corresponde a la media entre los dos valores centrales, es decir, la media entre la observación n/2  y la observación (n/2)+1.
Moda: Es el valor con mayor frecuencia o que mas veces se repite en una distribución. Puede ser unimodal, bimodal y multimodal  
MEDIDAS DE POSICION: 

Percentiles: Los perceptibles son los 99 puntos o valores que dividen la distribución en 100 partes iguales, se representar por P(n): 
  •  El percentil "i" (Pi), es aquel valor que, ordenadas en forma creciente, i% de ellas son menores que el y el (100 - i%) restantes son mayores 
  • El valor P50 corresponde al valor de la mediana  
Deciles:  Los deciles son los nueve valores que dividen a la distribución en diez partes iguales. Cada parte incluye el 10%, y se representa con la  D: 
  • El decir "i" (Di), es aquel valor que, ordenadas las observaciones en forma creciente, i/10% de ellas son menores y el (100-i)/10% restantes son mayores. 
  • El valor del D5 corresponde al valor de la mediana, y por lo tanto, al P50.   
Cuartiles: Son los tres valores que dividen la distribución en cuatro partes iguales, cada parte incluye el 25%, se representa por Q1, Q2, Q3 y Q4
  •  Q1: 25% de las observaciones son mejores y el 75% son mayores. 
  • Q2: 50% de las observaciones son menores y el 50% son mayores. Por tanto, el Q2, coincide con P50 y el D5
  • Q3: El 75% de los valores son menores y el 25% son mayores
  • Q4:  El valor mayor que alcanza la serie numérica  



MEDIDAS DE DISPERSIÓN: 

Rango: Es la medida de dispersión mas simple y consiste en tomar la puntuación mayor y restarle la puntuación menor. Es el recorrido de una variable: R = X max - X min
Desviación media: Es la media aritmética de las distancias de cada observación respecto a la media de la muestra.  
Varianza:  Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribucion.   
Desviación típica o estándar (S): Es un valor que cuantifica  el error que cometemos si representamos una muestra únicamente por. Expresa la dispersión de la distribución mediante un valor que siempre es positivo y en las mimas unidades de medida de la variable. 






DISTRIBUCIÓN NORMAL:
En estadística, se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con mas frecuencia aparece en fenómenos reales 

A partir de esta campana de Gauss, podemos diferenciar los diferentes tipo de asimetria curtosis: 

  • Simetría: Grado de asimetría de la distribución de sus datos en torno a su media. Puede ser: 



  • Curtosis: Sirve para medir el grado de concentración de los valores que toman en torno a su media. Puede ser:




TEMA 4: Introducción a la estadística descriptiva

¿ESTADISTICA DESCRIPTIVA O ESTADISTICA INFERENCIAL?

1. Estadistica descriptiva:
  •  Describe y analiza una determinada población o muestra sin pretender sacar conclusiones de tipo general 
  • Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información obtenida
2.  Estadísitca inferencial:  
  • Induce o infiere leyes de comportamiento de una población, partir del estudio del análisis de una muestra  
  •  Se apoya en el cálculo de probabilidad. 



VARIABLES DESCRIPTIVAS: 

Variable: La manera mas básica de presentar datos es mediante una tabla de frecuencia, y esta es necesario que siga una series de pauta: 
  • Encontramos diferentes tipo de tabla de frecuencia:
- Cualitativa Dicotómica
- Cualitativa Policotómica
- Cualitativa Ordinal
- Variable Cuantitativa Discreta
VARIABLES CONTINUAS: 
Tabla de frecuencia.
Lo primero para crear una tabla de frecuencia es ordenar los datos, por ejemplo, de mayor a menor. Una vez ordenado convertimos la variable en una variable ordinal. Tras esto, defino los intervalos, los extremos de los intervalos, definición de amplitud.
Ejemplo:  Datos desagrupados  de peso en kg de niños atendidos en la consulta de niño sano:


 - Recorrido o Rango: Re= xn-x1, es decir 6,1 - 3,3 = 2,8
- Numero de intervalo: Raiz cuadrada de N y la raíz de 40 es 6,32

-  Amplitud= Re/ Nº de intervalos, es decir, 2,8/ 6 = 0,46




Tabla de frecuencia con datos agrupados: 
  •  Frecuencias absolutas: número de individuos que presentan una modalidad, o que están incluidos en un intervalo. 
  • Frecuencias relativas: proporción de individuos referidos al total que presentan una modalidad o que están incluidos en un intervalo. 
  •  Frecuencias acumuladas: número de individuos menores o iguales que la modalidad que estamos estudiando 
El niño que menos pensaba, pesaba 3,3 y por ello, para incluirlo en el rango empezamos con 3,25 y usamos de 0,5 en 0,5 gramos, de tal manera que mi primer intervalo sea de 3,25 a 3, 75. 
La frecuencia absoluta tiene que sumar N

INDICADORES 
Es la medida de frecuencia de un determinado suceso en una población, que se expresa como un numero que puede ser: 
  • Proporción: Se define como una medida resumen para variables cualitativas, que consiste en la comparación, a través de un cociente (división) entre un subconjunto y el conjunto al que pertenece.  
  • Tasa: Es una medida de riesgo que expresa el riesgo de ocurrencia del evento estudiado.  
  • Razón:  Es una medida de resumen para variables cualitativas que consiste en la comparación a través de una división entre dos conjuntos. 
  • Odds:  El consciente entre la proporción o probabilidad de ocurrencia de un evento y la proporción o probabilidad (complementaria) de no ocurrencia. 

MEDIDAS MAS EMPLEADAS EN ESTADÍSTICA SANITARIA  
PREVALENCIA: Medir la situación en un punto en el tiempo

Describe que proporción de la población tiene la enfermedad en un punto especifico del tiempo:
Depende de la velocidad de aparición de la enfermedad (incidencia) y de su duración  
INCIDENCIA: Medir lo que esta pasando en un periodo de tiempo
Describe la frecuencia de nuevos casos que ocurren durante un periodo de tiempo. Es el  flujo de santa a enfermos




 MEDIDAS DE ASOCIÓN: RELACIONES ENTRE PROPORCIÓN, RATOS Y ODDS.
Se utiliza para medir fuerzas de asociación. Las tres mas importantes: 
  • Razón de prevalecías: Una razón entre dos prevalencias por proporciones. Se usa en estudios descriptivos de corte transversal 
  • Riesgo relativo o razón de riesgo: Realiza un ratio entre dos incidencias acumuladas (dos proporciones) o dos densidades de incidencia (tasas)
  • Odds ratio: Estudio de casos y controles. Realiza una ratio entre dos medidas "odds" 





EL BLOG

La función de este blog es comprender un poco mas a la asignatura de Estadísticas y Tecnología de la Información y la Comunicación.  En e...