Web Scraping: encontrando la propiedad más barata

Por Gigi y Andrés. Si usted tiene un ahorro y está pensando en comprar una propiedad, sea para vivir o para invertir, ¿dónde busca la información? En Colombia uno de los principales portales inmobiliarios es fincaraiz. En esta entrada, vamos a ver cómo podemos extraer automáticamente los resultados de búsqueda en este portal, y cómo … Sigue leyendo Web Scraping: encontrando la propiedad más barata

COVID19: visualización gráfica con ggplot2 en R

Por Gigi y Andrés. Nuestra adaptación gráfica del número de casos confirmados y muertes del COVID-19. La gráfica anterior es una adaptación en R de está otra gráfica que presentó hace algunos días el periódico más importante de China, Diario del Pueblo, 人民日报, 🏩 (ver acá) Desde hace un par de años, cada vez que … Sigue leyendo COVID19: visualización gráfica con ggplot2 en R

Manejando grandes volúmenes de datos con dtplyr

Definitivamente dplyr es un motor de análisis de datos muy potente y flexible. Durante años lo he usado con éxito, hasta tal punto que he dejado de lado completamente cualquier otro tipo de sintaxis. Los pipes %>% ya están incorporados en mi genética de programación. Sin embargo, uno de los problemas de dplyr es que … Sigue leyendo Manejando grandes volúmenes de datos con dtplyr

Pronosticando con los datos del Coronavirus

Por: Gigi. Hace poco más de un mes, apareció de la nada (al menos no hay una teoría consensuada de dónde salió). El mundo ha conocido un nuevo enemigo, el coronavirus (COVID-19). Las bolsas de valores esta semana han sido afectadas en gran medida; sin hablar del turismo, la economía y la paranoia generalizada. Los contagiados y … Sigue leyendo Pronosticando con los datos del Coronavirus

¿Qué tan Big Data estamos?

Por: Gigi. No es ninguna novedad que estamos en la plena época de Big Data, época donde cada segundo se produce millones y millones de datos de toda clase, época donde al decir que somos data scientists suena mucho más misterioro y poderoso que unos simples estadísticos o analista de datos. Los colegas hablan de SVM o random forest y asentimos … Sigue leyendo ¿Qué tan Big Data estamos?

Python 3 en RStudio

Interfaz de Python con RStudio Hace algunos años que tenía la tarea pendiente de involucrarme con este lenguaje de programación. Mi experiencia con Python se puede resumir en que muchas veces intenté utilizarlo (en la academia, en mi trabajo, en investigaciones) pero siempre me veía abrumado con un sinfín de programas en mi computador que … Sigue leyendo Python 3 en RStudio

Diagrama de flujos en LaTeX

Un diagrama de flujo creado con la librería tikz El gráfico que se aprecia corresponde a un diagrama que muestra la ruta para la revisión de algunas estadísticas provenientes de estudios por muestreo. Esta compuesto por elipses, bloques, líneas y flechas. En principio quise hacerlo con una herramienta amigable y utilicé LucidChart, pero no me … Sigue leyendo Diagrama de flujos en LaTeX

Encuestas – Resultados desagregados y agregados en la misma tabla (R::srvyr::cascade)

Photo by Franki Chamaki on Unsplash Hace unos días escribí acerca de una solución innovadora a la hora de producir resultados de una estadística cualquiera para algunas desagregaciones de interés y al mismo tiempo crear una fila que mostrara el resultados de esta estadística en la base de datos completa. Cuando se trata de analizar bases de datos … Sigue leyendo Encuestas – Resultados desagregados y agregados en la misma tabla (R::srvyr::cascade)

Resultados desagregados y agregados en la misma tabla (R::dplyr)

Algunos lectores de este blog valoran la facilidad de procesamiento de tablas de algunos programas populares como SPSS. Más allá de la facilidad del manejo de sus procedimientos, la versatilidad de las tablas resultantes es evidente. Para los que, como yo, queremos aplicar todo en dplyr, existe una solución al problema de la generación de … Sigue leyendo Resultados desagregados y agregados en la misma tabla (R::dplyr)

La aproximación al último conglomerado (parte 2: dominios y estratos)

Photo by: Matthew Henry Llevo más de diez años escribiendo en este blog acerca de las importantes implicaciones de no tener en cuenta el diseño de muestreo en el análisis de las encuestas. Muchas veces he escrito incluso acerca de las consecuencias en la estimación en términos de sesgo y precisión. En una entrada anterior definí … Sigue leyendo La aproximación al último conglomerado (parte 2: dominios y estratos)

La aproximación al último conglomerado (parte 1)

Photo by Florian van Duyn on Unsplash Hace algunos años había escrito acerca del uso de las aproximaciones de la varianza y se podía leer a un autor muy crítico del uso indiscriminado del software. Sigo pensando esto, aunque después de haberle dado la vuelta a las Oficinas Nacionales de Estadística en la región, creo que el uso … Sigue leyendo La aproximación al último conglomerado (parte 1)

Subgrupos poblacionales en muestreo

Photo by Andrew Neel on Unsplash Aunque el marco de referencia de la teoría de muestreo es la estimación de un parámetro de interés sobre alguna característica de interés, lo cierto es que en la práctica no solo se necesitan estimaciones que cobijen la población entera sino que también son indispensables estimaciones que involucren subgrupos poblacionales, puesto que … Sigue leyendo Subgrupos poblacionales en muestreo