Filtros y grupos en Openrefine

Seleccionar subconjuntos de datos

Publicado por Nicolas Bohorquez en - Actualizado / Categoría : Tools

Serie: openrefine 
Etiquetas: data science openrefine  

En nuestro post anterior generamos un proyecto en OpenRefine que debería contener 628118 registros, sin embargo, nuestro dataset cargado muestra 628111, están todos los que son? son todos los que están?, bueno con ayuda de OpenRefine en Alephsa hemos podido responder estas preguntas en varios proyectos de manera exitosa.

Encontrar los faltantes

Conocer el dominio sobre el cual nos movemos nos permite probar de formular de manera intuitiva algunas alternativas para encontrar los registros faltantes, en este caso sabemos que el numero de contrato es una dato sine qua non puede existir un registro en el dataset que estamos trabajando, asi que nuestra primera aproximación es buscar los datos con valores nulos o blancos en la columna numerocontrato, para ello hacemos clic en el triangulo al lado del nombre y seleccionamos un Facet (agrupación) para encontrar valores nulos:

Ahora bien, en el panel lateral izquierdo notamos que hay 13 filas con valor nulo, hacemos clic sobre true para seleccionarlos y veremos que hay filas sin valor, como no conocemos el valor exacto para esos registros vamos a copiar el valor de la columna numero de proceso, para ello podemos editar el valor de cada celda (con el puntero señalamos la celda que queremos editar) con un dato estandar "N/A", luego retiramos la agrupación del panel izquierdo, ordenamos la columna numerocontrato alfabeticamente (Sort...) y finalmente hacemos el orden permanente:

Y notaremos que ahora tenemos 628124 registros, porqué tantos?

Quitar los sobrantes

Al crear el proyecto los titulos de las columnas fueron tomados del archivo agrupado que generamos a partir de la suma de los archivos individuales, nuevamente, usando nuestra intuición suponemos que cada archivo que descargamos contiene las mismas cabeceras y para probar nuestra sospecha agregamos un filtro de tipo texto y buscamos el nombre de la columna sobre el cual lo agregamos:

En los filtros podemos usar expresiones regulares, los resultados nos muestran seis registros con los datos de nombres de las columnas, vamos a borrar estas filas haciendo clic en la columna llamada All y seleccionando "Edit rows->delete all matching rows", asi obtenemos los 628118 registros que buscabamos!.

John McClane: Stop all the goddamn yellin'! I know what I'm doing.

Y ahora?

Ahora vamos a buscar los registros duplicados, a separar las columna departamentomunicipio en dos y algunas otras cosas interesantes para poder hacer una descripción medianamente acertada de los datos. En los siguientes artículos de la serie hay más información.

Este articulo es el número 2 en la serie "openrefine", otros artículos:

  1. Openrefine
  2. Filtros y grupos en Openrefine
  3. Duplicados en Openrefine
  4. Separar datos en Openrefine
Nube de Etiquetas

Me siento con suerte

Suscribase a las actualizaciones