Doctorado: Artifact [157cdf444f]

Artifact 157cdf444f0b9443a537355e362118f3565dfd12:

File Tesis/Escrito/TextoIntegrado/prototipos.tex — part of check-in [a87b498d95] at 2018-06-04 00:24:31 on branch trunk — Data Week: Empezando intercomunitario. (user: offray size: 18484)
\chapter{Los prototipos: comunidades y artefactos entretegiéndose en el quehacer}\label{prototipos}

Los siguientes artefactos fueron creados en el contexto de Grafoscopio, 
pero habitan y dieron origen a un paquete complementario llamado {\ttfamily Dataviz}.
Además se usan para ilustrar lo que se puede crear con él durante los Data Week, pero
no todos son parte de los problemas abordados durante el mismo.
Las motivaciones y su funcionamiento ha sido ampliamente documentado en dos entradas
al blog (luna-med, luna-pp), bajo la premisa de una investigación doctoral interconectada, que excede los
límites y tiempos confinado dentro de la tesis doctotal y se comunica de maneras más
fluidas hacia afuera, en tiempos más cortos y lenguages menos formales.
Los textos acá son maneras complementarias de referirse a lo descrito en aquellos
documentos y para otros detalles una lectura de las entradas al blog.

\section{Visualizaciones de dominio específico para información sobre medicamentos}\label{infomed}

La primera visualización servía para apreciar ausencias o presencias de información,
en particular en medicamentos.
Precisamente se trataba de lidiar con un problema metodológico (no encontrar información)
convirtiéndolo en uno investigativo: ¿cómo comparar las ausencias y presencias de información
respecto a medicamentos?


\begin{figure*}[tbp]
	\centering
	\subfloat[Visualización de derechos de los homosexuales, en \emph{The Guardian}.]{
		\includegraphics[width=0.5\linewidth]{./Parte2/gay-rights-infography.png}
		\label{subfig:derechos-homosexuales}
	}
	\subfloat[Omeoprazol, datos administrativos por país.]{
		\includegraphics[width=0.5\linewidth]{./Parte2/omeprazol-admin-by-country.png}
		\label{subfig:omeoprazol-country}
	}
	\\
	\subfloat[Omeoprazol, datos de propiedades por país.]{
		\includegraphics[width=0.5\linewidth]{./Parte2/omeprazol-by-property.png}
		\label{subfig:omeoprazol-admin}
	}
	\subfloat[Omeoprazol, datos de prescripción y uso por país.]{
		\includegraphics[width=0.5\linewidth]{./Parte2/omeprazol-pu-by-country.png}
		\label{subfig:omeoprazol-pu-country}
	}
	\caption[Gráfica de ausencia de información sobre medicamentos]
	{\ref{subfig:derechos-homosexuales} Visualización de los derechos homosexuales por \emph{The Guardian}, 
		que sirvió como modelo para las visualizaciones sobre ausencia de información sobre
		medicamentos del paquete Dataviz en Grafoscopio y las 3 visualizaciones a la medida, 
		a partir de dicha gráfica mostradas en la figuras \ref{subfig:omeoprazol-country},
		\ref{subfig:omeoprazol-admin} y \ref{subfig:omeoprazol-pu-country}.
		Los detalles sobre las mismas y cómo interpretarlas están en Gil-2015.
		La historia de como surgieron se detalla en Luna-2016-Infomed.}
	\label{fig:infomed-visuals}
\end{figure*}

Acá el enfasis no estuvo en la documentación interactiva, sino en la visualización de Datos,
por tanto se colocó lo desarrollado en un paquete independiente que tuviera una galería de problemas 
que pueden ser abordados con Grafoscopio, llamado {\ttfamily Dataviz}.
Esto fortaleció la necesidad de dicho paquete y mejoró la modularidad del software.
Algunas veces estaríamos enfocados en la documentación y otras veces el énfasis sería la
visualización, aunque se esperaba que, en la medida en que Grafoscopio, y sus paquetes asociados
madurarán, las prácticas comunitarias vincularan documentación con visualización de maneras más
continuas y fluidas.

\begin{figure*}[tbh]
	\centering
	\subfloat[]{
		\includegraphics[width=0.45\linewidth]{./Parte2/roassal-sunburst-examples-2.png}
		\label{subfig:roassal-sunburst}}
	\quad
	\subfloat[]{
		\includegraphics[width=0.45\linewidth]{./Parte2/matriz-a-arbol.png}
		\label{subfig:matriz-arbol}}
	\caption[Adaptando Roassal]
	{Dos adaptaciones hechas al software de visualización, incluidas con
		Grafoscopio y su paquete Dataviz, para crear las imágenes en la figura \ref{fig:infomed-visuals}.
		A la izquierda visualización base para información jerárquica en lugar de matricial.
		A la derecha, ilustración de la transformación de información matricial en jerárquica
		para adaptarla a la nueva visualización. 
		Tomadas de Luna-2016-infomed.}
	\label{fig:roassal-infomed}
\end{figure*}

La descripción detallada de este problema y su análisis están en Gil 2015.
Acá se mencionarán los hitos de este abordaje, que complementan el texto del blog:

\begin{itemize}
	\item Pasar de \emph{tener la información} como lugar de inicio, a \emph{usar su ausencia} 
		como lugar problémico e investigativo.
	\item Se partió de una visualización base de \emph{The Guardian}, respecto a ausencias
		y presencias, en este caso de derechos en la población homosexual, como modelo del tipo
		de visualización que se quería (veáse figuras tales y pascuales).
	\item Se adaptó una visualización preexistente, que era para información jerárquica, 
		de modo que permitiera trabajar con la información recolectada, que era de naturaleza
		tabular.
		Se hizo un algoritmo de conversión de formato tabular a jerárquico y se creó un Lenguaje
		de Dominio Específico (DSL, por sus siglas en inglés) para hablar del problema en cuestión.
	\item Yaneth Gil participó de la visualización como experta de dominio, indicando qué quería ver,
		qué formatos tenían los datos, parámetros estéticos de las visualizaciones e incluso haciendo
		comentarios sobre los algoritmos implementados en Smalltalk, si bien no programaba este lenguaje.
		Yo comentaba qué se podía implementar, forzaba el entorno y mi conocimiento para lograr algunas
		de sus visualizaciones, y establecimos un sistema de convenciones \emph{ad-hoc} para poder 
		hacerle consultas a los datos.
		Se produjo, así, una negociación entre mi rol como visualizador/programador y el de ella como 
		experta de dominio.
	\item La solución fue implementada de manera ágil aunque poco elegante. 
		Habían muchos parámetros en los mensajes del DSL y no se usaba la infraestructura de
		\emph{builders}, que permitía abstraer el problema y generar visualizaciones sin
		transformaciones de datos y el uso de convenciones \emph{ad-hoc}, que facilitaran su visualización
		y consulta.
		Aún así fue funcional y dio cuenta de los tiempos estrechos para la implementación.	
	\item En las distintas implementaciones, tanto de la solución rápida, como de las más elegante, 
		se contó con la ayuda de la comunidad de Pharo, particularmente de Miltón Mamani, primero
		en un encuentro en Argentina, de la comunidad de Smalltalk, luego de manera remota por chat
		y finalmente durante mi pasantía doctoral en Chile.
		El uso de soluciones cada vez más formales tuvo que ver con mi comprensión progresiva
		del problema, el motor de visualización y sus constructos y maneras más acertivas de 
		participar en la comunidad, pues desde el comienzo Miltón estaba ofreciéndome soluciones
		formales (construyendo \emph{builders}), pero yo no tenía los preconceptos adecuados para
		aprenderlos y quería continuar con lo que ya tenía y sacar un prototipo funcional desde
		lo que ya entendía.
		Esto a su vez fortaleció la motivación para crear en los \emph{Data Weeks} caminos de
		aprendizaje que facilitaran los recorridos para otros novatos, a partir de mis errores y rutas,
		pero sin tener que repetirlas.
		Algunos \emph{builders} y problemas pre-tratados ayudarían a futuros aprendices, 
		a enfocarse en lo conceptual y crear código más suscinto, comprensible y elegante.
\end{itemize}

\section{Panamá Papers: investigación reproducible y activismo de datos incluyente}\label{panama-papers}



Otro proyecto realizado durante la pasantía doctoral en Chile fue el de los \emph{Panama Papers}.
(luna 2016-pp).
En este periodo, además se mejoraron las visualizaciones de de medicamentos vía \emph{builders}
y también la interfaz gráfica de Grafoscopio empleando el puente entre el \emph{framework} de 
Spec y las herramientas adaptables \emph{GT Tools} del proyecto Moose, desarrollado por
Johan Fabri y con su acompañamiento.

\begin{figure*}[tbh]
	\centering
	\subfloat[]{
		\includegraphics[width=0.45\linewidth]{./Parte2/Countries_implicated_in_the_Panama_Papers.png}
		\label{subfig:pp-wikipedia}}
	\quad
	\subfloat[]{
		\includegraphics[width=0.45\linewidth]{./Parte2/choropleth.png}
		\label{subfig:pp-choropleth}}
	\caption[Historia de dos mapas sobre los \emph{Panama Papers}]
	{Dos mapas sobre los paraisos fiscales. 
		La de la izquierda, tomada de la Wikipedia, es irreproducible a partir de los datos publicados. 
		La de la derecha, hecha por el autor, es reproducible y el entorno que la crea y contiene,
		incluido el micrositio web, cabe en una memoria USB y se puede ejecutar en un computador modesto.}
	\label{fig:pp-dos-mapas}
\end{figure*}

Se iniciaba con dos mapas referidos a los \emph{Panamá Papers} y se mostraba que uno de ellos 
(el de la Wikipedia) era irreproducible y el otro, desarrollado en Grafoscopio y el Dataviz,
si lo era.
A partir de ello se introducía un micrositio y un entorno portable para explorar el segundo mapa 
y sus los datos, aproximándose críticamente a la idea de \emph{Big Data},
mostrando que los datos curados y el entorno para trabajar con ellos podía ejecutarse en
una memoria USB y computadores modestos, de modo que las argumentaciones e historias basadas 
en tales datos fueran más participativas e incluyentes.

\begin{figure*}[tbp]
	\centering
	\includegraphics[width=\linewidth]{./Parte2/minisite.png}%
	\caption{Minisitio desarrollado para el proyecto de los \emph{Panamá Papers}.}%
	\label{fig:pp-minisitio}%
\end{figure*}

Los hitos más importantes para el desarollo del proyecto de los \emph{Panama Papers} fueron:

\begin{itemize}
	\item 
	Se hizo un viraje de la idea de \emph{Big Data} a \emph{Frictionless Data} e
	\emph{infraestructuras de bolsillo}, en aras de alentar la puralidad y la participación
	de lectures y ciudadanos en fenómenos complejos mediados por datos y de escala global, 
	como los paraisos fiscales.
	La elección del tema no sólo tenía que ver con su popularidad, sino con el abordaje
	crítico tanto de los datos como de las temáticas: hacer accesible la manera en que los
	poderosos guardan su capital, es una manera de pensar el caracter no neutral de los
	datos y la información.
	
	Se trataba de mirar, entonces, si se podía abordar la filtración noticiosa con el conjunto 
	de datos (\emph{dataset}) más grande de la historia con infraestructuras sencillas y
	al alcance de más personas, una vez los datos han sido curados y liberados.
	\item
	La visualización que se quería hacer era sencilla y si los territorios estuvieran completos, 
	hubiera salido en minutos, literalmente, pero fue el completar la información y curarla lo que
	tomó más tiempo.
	Enfrentado a esta dificultad, un programador me sugirió que colocara en la gráfica 
	"los paises más importantes", para resolver rápidamente el problema.
	Cuando se detectó el problema con los SVG, antes mencionado, el proyecto cobró un nuevo
	interés desde el punto de vista de lo algorítmico y el desarrollo de software. 
	Esto reveló una tensión del activismo de datos al estar entre dos mundos: los periodistas
	quieren veracidad y no se preocupan por errores (o \emph{bugs}, como son llamados en la jerga
	computacional) como el de los importadores del SVG. 
	Los programadores consideran que curar la información es un trabajo al que no debería 
	dedicársele mucho tiempo.
	La necesidad de un grupo de personas en la mitad, que pueda hacer puente entre estas
	dos preocupaciones y dedicarse a ellas es, por tanto, más importante.
	\item
	El aspecto más dispendioso fue completar y curar la información.
	El mapa mundi provisto por el motor de visualización Roassal, no incluía tantos territorios
	como los mencionados en los \emph{Panama Papers} (faltaba cerca de un tercio de ellos),
	por lo cual algunos datos fueron completados a mano al comienzo y cuando la estrategia mostró
	sus limitaciones, al generar errores de integración con los territorios pre-existentes, 
	pues las coordenadas no coincidían (véase figura tal),
	se implementó un algoritmo que resolvía el inconveniente haciendo importaciones de mapa mundis
	más completos y con sistemas de coordenadas consistentes.
	Esto a su vez permitió detectar y corregir un error el algoritmo de importación de gráficos
	vectoriales escalables (SVG, por sus siglas en inglés) y hacer un aporte al núcleo de Roassal.
	
	\begin{figure*}[h]
		\includegraphics[width=3.5in]{./Parte2/pp-intro-notebook.png}%
		\includegraphics[width=2.5in]{./Parte2/pp-query-data-environment.png} %
		\caption[Panama Papers: Libreta interactiva y código]
		{Izquierda: Libreta interactiva en Grafoscopio de los \emph{Panama Papers}.
			Derecha: Consulta a la base de datos y lenguaje de dominio específico integrados 
			dentro del entorno.
		}
		\label{fig:pp-libreta-y-consulta}%
	\end{figure*}
	
	\item
	Uno de los aspectos claves fue la trazabilidad de la información y se desarrollo la idea
	de un \emph{entorno vivo continuo de datos} (\emph{Data continuum [live] environment})
	\footnote{Si bien en el texto original no se hablaba del caracter vivo del entorno,
		este fue clave en la exploración de los datos, no sólo en este ejercicio/prototipo,
		sino en los demás de los que se habla en esta investigación, como fue resaltado en
		la entrada al blog sobre la visualización de medicamentos.}, 
	que establecía puentes entre los datos, las consultas, las visualizaciones y los documentos,
	permitiendo pasar de los unos a los otros 
	(véanse figuras \ref{fig:pp-libreta-y-consulta} y \ref{fig:pp-workflow}).
	La premisa era que, una vez se publicaban estas narrativas y visualizaciones de datos,
	\begin{quote}
		El lector podía convertirse en explorador/co-autor en el \emph{mismo entorno continuo completo}
		que el autor había usado para crear la visualización de datos publicada, con un sencillo
		click de arranque.
	\end{quote}
	
	\begin{figure*}[tbp]
		\includegraphics[width=\linewidth]{./Parte2/process.png}%
		\caption[Flujo de trabajo para el proyecto de los \emph{Panama Papers}]
		{Flujo de trabajo para la creación de la visualización de los \emph{Panama Papers} 
			y sus publicaciones de soporte (minisitio y entrada al blog). 
			Los círculos representan los entornos donde se realizan actividades asociadas a los datos, 
			representadas por rectángulos. 
			Se puede apreciar como Grafoscopio, a través de la documentación interactiva,
			es el puente entre la exploración y visualización de los datos y su publicación.
			Este flujo de trabajo con entornos y actividades fue prototipado como parte de la
			pasantía doctoral.
			Tomado de Luna-2016-pp. }%
		\label{fig:pp-workflow}%
	\end{figure*}		 
	\item
	Se proveyeron imágenes descargables para Windows y Mac que permitían probar el prototipo y 
	reportar errores, aunque las únicas pruebas y reportes provinieron de colaboradores cercanos
	al proyecto y otras personas contactadas vía Twitter y la lista de la \emph{Open Knowledge Fundation}
	no manifestaron mayor interés en el proyecto (salvo uno de ellos).
	\item
	Al final de la pasantía, con la ayuda de Alejandro XX, logró empaquetarse Grafoscopio,
	usando el sistema de gestión de paquetes y dependencias, Monticello, lo cual mejoraría
	el proceso de instalación en las versiones venideras del \emph{Data Week} y la facilitaría
	para otros autores/exploradores de datos, que lo usaran a futuro.
\end{itemize}

%NOTE: Twitter Data Selfies

La necesidad de una comunidad particular de personas interesadas en la visualización 
y narrativas de datos, con preocupaciones tanto por la técnica y como por la historia,
había sido detectada previamente.
\footnote{Para mi pasantía en Chile, ya llevaba 3 ediciones del \emph{Data Week} realizadas 
	y haría 5 ediciones más a mi regreso}.
Esta nueva comunidad de práctica, no surgiría en el grueso de los miembros de la 
comunidad nuclear de HackBo, pues los intereses por otras apuestas, tecnologías y miradas ya se 
había hecho claro en los primeros años, viendo los artefactos y prototipos construidos.
Los caminos de aprendizaje que habían recorrido los miembros del espacio y que los habían llevado
a sus experticias particulares eran muy específicos y extra curriculares y las charlas y talleres
eran esporádicos y suponían públicos relativamente expertos en programación o con intereses
por desarrollarse en temas como la electrónica y la computación física, pero principalmente niños 
y jóvenes, sin la edad suficiente para un compromiso crítico y sostenido, como lo muestra la programación
de actividades en el \emph{hackerspace}.
A su vez la \emph{Gobernatón} había mostrado el interés por estos temas críticos y de activismo, 
pero también la necesidad de crear capacidad entre los asistentes de manera que un
número mayor pudiera expresar sus ideas a través de la técnica y los artefactos digitales,
sin entrar en las lógicas instrumentales y de "cadena de montaje" en la cual los programadores
eran vistos como aquellos que podían implementar las ideas de otros pero sin preocupaciones 
propias que expresar a través de la técnica.
El diseño de un espacio, que recibiera a novatos y donde los lugares comunes y del quehacer 
fueran ensanchados, se empezó a hacer evidente, como resultado de la Gobernatón la participación
en otras hackatones (como la de Chicas Poderosas y en la Universidad de los Andes) (véase Luna XY).
El código sería el material para explicitar, negociar, construir y catalizar esos saberes comunes,
desde los cuales podrían ponerse a conversar otros saberes y miradas.
Allí surgió el \emph{Data Week}, que será el tema de la siguiente sección.

\section{Manual de Periodismo de Datos}\label{mapeda}

El Manual de Periodismo de Datos fue el resultado de sucesivas Data Rodas.
Surgió como una 

\section{Portal de Software Libre}

\section{Pasos para una Biblioteca Digital de Bogotá}

\section{Twitter Data Selfies}\label{twitter-data-selfies}

\section{Otros constructos comunitarios}\label{comunidad-artefactos}

A lo largo de las distintas ediciones del Data Week, las Data Rodas y otros encuentros,
se fueron creando otro tipo de constructos comunitarios.
El primero de ellos, y de uso más evidente durante los mismos fueron las libretas
de