Mas sobre apply

Una cosa importante es el poder implementar funciones propias usando apply, el investigar diversos caminos puede ser que al final el que creíamos que sería el idóneo, no lo es. Sin embargo el conocimiento queda ahí para futuras soluciones.

Vamos ahora a ver como crear nuestras propias funciones y que se ejecuten en un apply.

Tenemos el siguiente fragmento del script:

library(tidyverse)

df <- as.data.frame(read_csv("ruta/2008.csv",n_max = 100000))

df2 <- df[,c("CarrierDelay","WeatherDelay", "NASDelay", "SecurityDelay", "LateAircraftDelay")]

df_clean <- df2[complete.cases(df2),]

Una nueva función es complete.cases que elimina aquellos registros que tengan valores "ausentes" (missing - NA).

> nrow(df_clean)

[1] 19627

Podemos observar que de la muestra de 100000 registros, los que traen información son solo 19627.

media2 <- function(fila){

return (sum(fila) / length(fila))

}

cr <- apply(df_clean, 1, mean)

cr2 <- apply(df_clean, 1, media2)

all(cr == cr2)

La función que define es media2, otra cosa diferente al artículo anterior es que para apply se omiten los parámetros (X, MARGIN y FUN). media2 recibe el renglón como parámetro y no es necesario mandarlo entre paréntesis, el código indica que ambos vectores son iguales y la función predefinida (mean) hace lo mismo que nuestra función media2.

Por último vamos a hacer un poco más compleja una función y en los casos donde se obtenga el máximo o la media se creará una lista con una etiqueta para identificar si se calculó el máximo o en su defecto la media y se tiene al menos un valor NA se manda una cadena "Contiene NA's".

funcionpropia <- function(fila){

if(any(is.na(fila))){

return("Contiene NA's")

}else{

if(all(fila)>0){

return(list(a="Media", b=mean(fila)))

}else{

return(list(a="Máximo", b=max(fila)))

}

que_dio <- apply(df2,1,funcionpropia)

head(que_dio)

La lógica del script anterior significa que si algún valor es NA (is.na(fila)) manda la cadena "Contiene NA's", si todos los valores de la fila son mayores que 0 (all(fila))se aplica la media (que son pocos casos) y si hay ceros se saca el valor máximo de la fila, debemos notar que se manda el "dataset" original df2. Aquí una muestra del objeto: que_dio.

Debido a que es raro que haya retrasos en todas las columnas no se identifica a simple vista alguna media aritmética.

Seguimos compartiendo.

Miguel Araujo.

Comentarios

Entradas populares de este blog

Posit Cloud - como instalar librerías de Python en el entorno de R

Ahora que estamos tomando una maestría buscando que siga "girando la ardilla" por unos años más en la materia de "Cómputo Estadístico" nos ha sugerido usar la versión gratuita de Posit en la nube. En su página definen este producto como "es una solución basada en la nube que permite acceder al poderoso conjunto de herramientas de ciencia de datos de Posit directamente en el navegador web - sin requerir instalación o configuraciones complejas". Para los usuarios que han utilizado Posit RStudio en primera instancia verán el entorno muy similar a Posit Cloud con algunas pequeñas diferencias, para empezar necesitamos un usuario o contraseña aunque es posible autenticarse usando alguna cuenta existente como es el caso de Google. Con el tiempo y trabajando en desarrollo de software, vamos entendiendo que quizás el nombre queda muy grande a los pequeños ejemplos, pero es muy recomendable el uso de proyectos siempre. A continuación vemos el entorno Posit Clo...

R 4.5 vs R 4.4.3

Cuando comparto con mis colegas, sobre todo de trabajo que es mi nicho profesional, acerca de porque tener las últimas versiones del software y que replico sobre todo por dos vertientes: mejor desempeño y funcionalidad del software, y la seguridad que pareciera que las empresas de software recomiendan los mismo o algo cercano a esto. Por ejemplo, veamos lo que nos dice Oracle (dueño de Java) acerca de su versión 8 del Java SE. En la tabla de la página de Oracle podemos observar las fechas en los cuales ya no habrá soporte para ciertas versiones de Java. En este breve artículo veremos en el caso del interprete de R como se desempeña en una versión con respecto a la más reciente. Los puestos de trabajo que se registran por los patrones en el IMSS ha sido una cifra que muestra el avance o retroceso de como se encuentra el empleo en nuestro país, en este caso diremos que en el sector formal. Los microdatos oscilan arriba de los 20 millones y para su procesamiento es necesario o divi...

La librería openxlsx

En el Instituto se utiliza como herramienta de trabajo institucional la suite de ofimática MS Office que ofrece un precio asequible aunque lo actual en el mundo del software es el esquema de suscripciones el que casi se ha convertido en el común de las empresas gigantes de las tecnologías de la información. Es por ello que si bien en un principio que se usaban las bibliotecas XLConnectJars y XLConnect, al tratar de bajarlas e instalarlas se descubrió - en aquel entonces - que estaban obsoletas. Es por ello que se volteo a la que revisaremos superficialmente en este artículo. Lo primero como siempre es descargar la librería openxlsx que se puede hacer desde el mismo Posit RStudio. Vamos a recrear un cuadro existente en el sitio del Instituto que debido a la crisis sanitaria iniciada en 2020 cobra una relevancia muy importante: "Las principales causas de muerte" que de forma anecdótica fue la primera aplicación en la cual me pidieron que participara, un programa escri...

Aplicaciones para estadística

Buscar este blog

Mas sobre apply

Etiquetas

Comentarios

Publicar un comentario

Entradas populares de este blog

Posit Cloud - como instalar librerías de Python en el entorno de R

R 4.5 vs R 4.4.3

La librería openxlsx