Por Gigi y Andrés. Si usted tiene un ahorro y está pensando en comprar una propiedad, sea para vivir o para invertir, ¿dónde busca la información? En Colombia uno de los principales portales inmobiliarios es fincaraiz. En esta entrada, vamos a ver cómo podemos extraer automáticamente los resultados de búsqueda en este portal, y cómo … Sigue leyendo Web Scraping: encontrando la propiedad más barata
Categoría: Estadística
COVID19: visualización gráfica con ggplot2 en R
Por Gigi y Andrés. Nuestra adaptación gráfica del número de casos confirmados y muertes del COVID-19. La gráfica anterior es una adaptación en R de está otra gráfica que presentó hace algunos días el periódico más importante de China, Diario del Pueblo, 人民日报, 🏩 (ver acá) Desde hace un par de años, cada vez que … Sigue leyendo COVID19: visualización gráfica con ggplot2 en R
Manejando grandes volúmenes de datos con dtplyr
Definitivamente dplyr es un motor de análisis de datos muy potente y flexible. Durante años lo he usado con éxito, hasta tal punto que he dejado de lado completamente cualquier otro tipo de sintaxis. Los pipes %>% ya están incorporados en mi genética de programación. Sin embargo, uno de los problemas de dplyr es que … Sigue leyendo Manejando grandes volúmenes de datos con dtplyr
Pronosticando con los datos del Coronavirus
Por: Gigi. Hace poco más de un mes, apareció de la nada (al menos no hay una teoría consensuada de dónde salió). El mundo ha conocido un nuevo enemigo, el coronavirus (COVID-19). Las bolsas de valores esta semana han sido afectadas en gran medida; sin hablar del turismo, la economía y la paranoia generalizada. Los contagiados y … Sigue leyendo Pronosticando con los datos del Coronavirus
¿Qué tan Big Data estamos?
Por: Gigi. No es ninguna novedad que estamos en la plena época de Big Data, época donde cada segundo se produce millones y millones de datos de toda clase, época donde al decir que somos data scientists suena mucho más misterioro y poderoso que unos simples estadísticos o analista de datos. Los colegas hablan de SVM o random forest y asentimos … Sigue leyendo ¿Qué tan Big Data estamos?
Calibración de personas en encuestas de hogares
A la hora de analizar encuestas de hogares, uno de los tópicos más importantes está relacionado con la calibración de los factores de expansión. Como es bien sabido, este tópico es importante porque, cuando se utiliza bien esta técnica (ver Silva (2004) para una discusión de las consecuencias de mal-utilizar este método), además de reducir … Sigue leyendo Calibración de personas en encuestas de hogares
Scatter plots in survey sampling
When it comes to analyzing survey data, you have to take into account the stochastic structure of the sample that was selected to obtain the data. Plots and graphics should not be an exception. The main aim of such studies is to try to infer about how the behavior of the outcomes of interest in … Sigue leyendo Scatter plots in survey sampling
dplyr and the design effect in survey samples
Blogdown entry here.For those guys like me who are not such R geeks, this trick could be of interest. The package dplyr can be very useful when it comes to data manipulation and you can extract valuable information from a data frame. For example, when using if you want to count how many humans have … Sigue leyendo dplyr and the design effect in survey samples
Automatic output format in Rmarkdown
I am writing a Rmarkdown document with plenty of tables, and I want them in a decent format, e.g. kable. However I don't want to format them one by one. For example, I have created the following data frame in dplyrdata2 %>% group_by(uf) %>% summarise(n = n(), ) %>% arrange(desc(n)) One solution to the output format … Sigue leyendo Automatic output format in Rmarkdown
Sampling weights and multilevel modeling in R
So many things have been said about weighting, but on my personal view of statistical inference processes, you do have to weight. From a single statistic until a complex model, you have to weight, because of the probability measure that induces the variation of the sample comes from an (almost always) complex sampling design that … Sigue leyendo Sampling weights and multilevel modeling in R
Small Area Estimation 101
Small area estimation (SAE) has become a widely used technique in official statistics since the last decade of past century. When the sample size is not enough to provide reliable estimates at a very particular level, the power of models and auxiliary information must be applied with no hesitation. In a nutshell, SAE tries to … Sigue leyendo Small Area Estimation 101
Regression to the mean (or at the end, people are not as smart as you could expect)
Francis Galton very cleverly coined the term "regression to (or towards) the mean" meaning that if a variable is shown extreme in a first measurement, then the following observed values of that very variable will tend to get closer to the average of its distribution. The classical example is height: a tall child will have … Sigue leyendo Regression to the mean (or at the end, people are not as smart as you could expect)