lunes, 25 de noviembre de 2019

STATA algo nuevo que aprender (3)

Sigo en ascuas, pero eso ayuda a que podamos enfocarnos y aplicarnos aun más.
En el área de las escuestas en los hogares se necesita expandir las casos con un factor de expansión, para ello en el manual en inglés no lo encontré en la página que voy, busque en internet y la vista me falló y confundí un corchete con un paréntesis, entonces utilice las ayudas vía menus y formularios y fue como lo pudimos resolver.
En nuestro país hay toda una discusión sobre la pobreza ya que unos la quieren ocultar, otros la desconocen y se unen a los que la quieren ocultar, y el resto quiere visualizarla para implementar políticas públicas para combatirla aunque esto conlleva grandes retos e inclusive luchas entre los diferentes sectores de poder, políticos, empresariales y sociales.
Esta base de datos muestra cosas muy interesantes que se vieron envueltas de polémica entre el INEGI y CONEVAL aunque al final se lograron concensos entre los 2 institutos autónomos.
Con valores muestrales lo primero que se me ocurrió fue el saber el ingreso por entidad.

sábado, 2 de noviembre de 2019

STATA algo nuevo que aprender (2)

Debido a que parecer ser que es muy complicado encontrar el archivo hh.dat, pues nosotros tenemos también mediciones acerca de la pobreza, por lo cual descargamos archivos del CONEVAL (liga de la página) referentes a la Encuesta Nacional de Ingresos y Gastos en los Hogares (ENIGH) 2016 que levanta el Instituto.
Vamos a usar el archivo pobreza_16.dta.
La siguiente instrucción es tab(ulate) en el texto se habla de una variable región, nosotros nos vamos con una variable geográfica llamada ubica_geo.

viernes, 18 de octubre de 2019

STATA algo nuevo que aprender

En la vida a veces aparecen oportunidades y sin hacer aspavientos o cantar victoria anticipadamente me encuentro con una posibilidad de lograr una mejor posición laboral dentro del Instituto y para ello entre la bibliografía nos solicitan estudiar de un documento publicado por el Instituto de Estadística para las Naciones Unidas para la Región de Asia y el Pacífico, que practicamente es una introducción a este paquete estadístico.
STATA al igual que SPSS y SAS son programas de paga, pero que actualmente cobran relevancia gracias a la tan sonada materia de la "Ciencia de los datos".
Como un consejo y sabiendo que casi todas las compañías ofrecen evaluaciones de su software pues yo me fui a la página de STATA y solicité una copia de evaluación.
Copia para evaluación
Hay que registrar los datos por medio de un formulario y yo recomiendo que usen sus correos del Instituto o bien de una Institución académica aunque creo que si no lo hacen también recibirán una copia para evaluar el software.
En mi caso di el correo electrónico de la Universidad y en un par de horas me llegó un correo con un PDF donde vienen datos para instalar la versión de prueba asi como un usuario y contraseña para descargar el sofware.

martes, 18 de junio de 2019

R parte 4


Ahora viene lo bueno y otra vez entramos a terrenos que dominan más los matemáticos-estadísticos, aunque de hecho el cálculo pues no es más que usar otra función del paquete survey y ya.
En la página del INEGI hay un artículo llamado “Una aproximación metodológica al uso de datos de encuestas en hogares” escrito por el ex-compañero Julio Cesar Martínez Sánchez, donde menciona de forma llana y sencilla una definición de estas mediciones.
...existen algunas medidas de dispersión que son útiles para evaluar la calidad de un dato que se genera a partir de una encuesta compleja. Dentro de éstas se encuentran los errores estándar y de muestreo, el intervalo de confianza y el coeficiente de variación (Carsey, 2014; EUSTAT, 1998; Steven, 1999; Naciones Unidas, 2009; Wolter, 2009). Esta última es de gran importancia, pues refleja la magnitud relativa que tiene dicho error estándar con respecto al estimador de referencia, y entre más pequeño sea este valor, mejor es la precisión. Si bien no existe un consenso unánime sobre qué valores son los más adecuados, el INEGI considera que un dato es de buena calidad si el coeficiente de variación está por debajo de 15%, aceptable si se encuentra entre 15 y 25% y de baja calidad cuando supera 25 por ciento.
Entonces sin ahondar mucho en el tema estamos hablando de la calidad del dato que se ha recolectado.
Entremos en materia. Vamos con el primer porcentaje o mejor dicho con el dato absoluto de mujeres embarazadas de 15 a 49 años.


R parte 3


Vamos ahora con los porcentajes.
Aunque cuando empecé a estudiar las TICs (antes informática) en un tiempo donde la programación orientada a objetos era una curiosidad, no me gusta repetir código y aunque no con métodos y polimorfismo, por medio de funciones y subrutinas tratábamos de optimizar recursos en la era de los procesadores INTEL 8086/8088 donde todo era precario.
Para esta entrega tratando de evitar los ciclos para intercalar, le aplicamos ingeniería al asunto e hicimos nuestra primer función en R la cual le llamamos intercalar().
Antes de eso hablaremos de la función svyratio() que es para realizar operaciones: obtener razones o en si divisiones. Vamos al ejemplo:



Para sacar los porcentajes es necesario usar otra función del paquete survey y como lo menciono arriba es la svyratio(). Para el cálculo del porcentaje de mujeres embarazadas de 15 a 49 años que deseaban embarazarse (cel1_2) es necesario dividirlo por el subuniverso que son las mujeres embarazadas de 15 a 49 años (cel1_1) como se observa en la imagen.

lunes, 17 de junio de 2019

R parte 2


En la parte 1 vimos como obtener de manera separada ciertos cálculos para armar un cuadro, ahora entra la parte del programador de la vieja escuela, resolver como se pueda – en aquellos ya muy lejanos años en el CETis 155 cuando se nos hacían observaciones a nuestro código (Basic, Pascal o Cobol) nuestra defensa era “pero jala, ¿no?”.
Lo que leí de R es que ya es un lenguaje multiparadigma por lo que entiendo que se pueden hacer clases o mínimo funciones, por ahora resolví de la primera forma que intuí, de hecho no uso cruce de 3 variables pues el bendito copy-paste me permitio sacar las cifras de la parte expandida del cuadro (o como lo llaman nuestros compañeros las estimaciones puntuales).
Empezamos pues, la estrategía es que los resultados parciales (o tijereteados) se guarden en arreglos de una dimensión -vectores- para después meterlos en un dataframe según ejemplo observado en la página de la Universidad de las Palmas de la Gran Canaria.

Lo que sigue es lógica de este old programmer.

#llenamos columnas - Primera columna
col1<-c(as.numeric(svytotal(~cel1_1,DisenoE)),as.numeric(svytotal(~cel2_1,DisenoE)), as.numeric(svytotal(~cel3_1,DisenoE)), as.numeric(svytotal(~cel4_1,DisenoE)))

Entonces col1 es la primera fila con los totales, voy a acomodar los valores de izquierda a derecha y de arriba a abajo, por cualquier cosa lo que me devuelva el svytotal() lo convierto a número y por medio de c los anexo a este arreglo llamado col1.
Seguiré calculando los tijeretazos, primero subtotales por grupo de edad de la primera columna.

#Cortes por grupos de edad
corte1 <- (svyby(~cel1_1, by=~Fila1, DisenoE, svytotal))$cel1_1

Cortes por grupo de edad por cada variable referente al número de hijos sobrevivientes.

#Cortes por grupos de edad
#Sin hijos sobrevivientes
corte2 <- (svyby(~cel2_1, by=~Fila1, DisenoE, svytotal))$cel2_1

#Un hijo sobreviviente
corte3 <- (svyby(~cel3_1, by=~Fila1, DisenoE, svytotal))$cel3_1

#Dos o más hijos sobrevivientes
corte4 <- (svyby(~cel4_1, by=~Fila1, DisenoE, svytotal))$cel4_1


jueves, 21 de febrero de 2019

R 1a Parte



En nuestro Instituto durante años se ha utilizado diversas herramientas para el procesamiento de información de acuerdo a las necesidades y también al expertise del personal.
En tiempos de austeridad republicana las herramientas de software libre sin duda tomarán más importancia en las áreas de estadística del Instituto y si agregamos que cuentan con la venía de nuestro emperador hemos empezado a transitar por este camino.
En su sitio oficial se define como "R es un software gratuito para cómputo estadístico y gráficos. Compila y se ejecuta en múltiples plataformas de UNIX, Windows y MacOS".
Llevo un par de cursos referentes a este lenguaje de programación que de hecho en la clasificación de los lenguajes en un principio era catalogado como funcional, ahora si revisamos Wikipedia aparece como multi-paradigma, aunque los principios de programación son los mismos tiene características muy especiales que intuyo vienen del calculo vectorial.