ADDED extraplaceins.sty Index: extraplaceins.sty ================================================================== --- extraplaceins.sty +++ extraplaceins.sty @@ -0,0 +1,120 @@ +% P L A C E I N S . S T Y ver 2.2 April 18, 2005 +% Donald Arseneau asnd@triumf.ca +% +% Modified on March 6, 2011 +% Lex Fridman lexfridman@gmail.com +% See: http://bit.ly/h2Se0u +% +% Keep floats `in their place'; don't let them float into another section. +% Instructions are below. +% +% placeins.sty is freely released to the public domain. + + +\def\@fb@botlist{\@botlist} +\def\@fb@topbarrier{\suppressfloats[t]} + +\catcode`\V=14 % `V' is a comment character unless [verbose] + +\@ifundefined{DeclareOption}{}% +{\DeclareOption{below}{\def\@fb@botlist{}} + \DeclareOption{above}{\def\@fb@topbarrier{}} + \DeclareOption{section}{\AtBeginDocument{% + \expandafter\renewcommand\expandafter\section\expandafter + {\expandafter\@fb@secFB\section}% + \newcommand\@fb@secFB{\FloatBarrier + \gdef\@fb@afterHHook{\@fb@topbarrier \gdef\@fb@afterHHook{}}} + \g@addto@macro\@afterheading{\@fb@afterHHook} + \gdef\@fb@afterHHook{} + }} + \DeclareOption{subsection}{\AtBeginDocument{% + \expandafter\renewcommand\expandafter\subsection\expandafter + {\expandafter\@fb@subsecFB\subsection}% + \newcommand\@fb@subsecFB{\FloatBarrier + \gdef\@fb@afterHHook{\@fb@topbarrier \gdef\@fb@afterHHook{}}} + \g@addto@macro\@afterheading{\@fb@afterHHook} + \gdef\@fb@afterHHook{} + }} + \DeclareOption{subsubsection}{\AtBeginDocument{% + \expandafter\renewcommand\expandafter\subsubsection\expandafter + {\expandafter\@fb@subsubsecFB\subsubsection}% + \newcommand\@fb@subsubsecFB{\FloatBarrier + \gdef\@fb@afterHHook{\@fb@topbarrier \gdef\@fb@afterHHook{}}} + \g@addto@macro\@afterheading{\@fb@afterHHook} + \gdef\@fb@afterHHook{} + }} + \DeclareOption{verbose}{\catcode`\V=9 }% Activate things after `V' + \ProvidesPackage{extraplaceins}[2005/04/18 \space v 2.2] + \ProcessOptions +} % end of \@ifundefined + +\def\FloatBarrier{\par\begingroup \let\@elt\relax +V\edef\@tempa{\write\m@ne{Package placeins Info: Float barrier, from +V input line \the\inputlineno, processed on page \thepage, lands on +V page \noexpand\thepage. }}\@tempa + \edef\@tempa{\@fb@botlist\@deferlist\@dbldeferlist}% + \ifx\@tempa\@empty V\PackageInfo{placeins}{No floats held,}% + \else + \ifx\@fltovf\relax % my indicator of recursion + \if@firstcolumn V\PackageWarning{placeins}{Some floats are stuck,}% + \clearpage + \else V\PackageInfo{placeins}{Eject a column and check again:}% + \null\newpage\FloatBarrier + \fi + \else V\PackageInfo{placeins}{Must dump some floats}% + \newpage \let\@fltovf\relax V\PackageInfo{placeins}{Check again:}% + \FloatBarrier % recurse once only + \fi\fi \endgroup + \@fb@topbarrier } + +\catcode`\V=11 +\endinput + +%====================== BEGIN INSTRUCTIONS =========================== + + p l a c e i n s . s t y ver 2.2 April 18, 2005 + Donald Arseneau asnd@triumf.ca + + +Placeins.sty keeps floats `in their place', preventing them from floating +past a "\FloatBarrier" command into another section. To use it, declare +"\usepackage{placeins}" and insert "\FloatBarrier" at places that floats +should not move past, perhaps at every "\section". + +Option: [section] + +A more convenient way to stop floats at section boundaries is to change +the definition of "\section" to include "\FloatBarrier", either at the +beginning, before "\@startsection", or in the `style' specification (see +The LaTeX Companion, section 2.2.2; or 2.3 in the 1st ed). If you specify +"\usepackage[section]{placeins}", then the "\section" command will be +redefined with "\FloatBarrier" inserted at the beginning. + +Options: [above] [below] + +Something you may not like is that, by default, "\FloatBarrier" is very +strict, and will (try to) prevent a float from appearing above the start +of the current section or below the start of the next section, even +though the float is still on the same page as its intended section. +Each restriction can be relaxed separately by using the "[above]" and +"[below]" package options: "[above]" allows floats to appear above their +section, if on the same page; "[below]" allows below. + +NOTE! The original version of placeins.sty acted like it was loaded +with the option "[above]" specified. + +There is a problem with LaTeX's "\suppressfloats" being out of step with +the page breaking (see usenet msg and thread) +which sometimes allows a float to go above a "\FloatBarrier" placed near +the top of a page. Maybe placeins will fix it sometime later. + +Option: [verbose] + +There is a package option "[verbose]" that causes many messages to be +written in the log file. It might be used to answer the question: +`How did *that* get *there*?!?' + +%====================== END INSTRUCTIONS ======================== + +Test file integrity: ASCII 32-57, 58-126: !"#$%&'()*+,-./0123456789 +:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ ADDED fancyhdr.sty Index: fancyhdr.sty ================================================================== --- fancyhdr.sty +++ fancyhdr.sty @@ -0,0 +1,236 @@ +%% +%% This is file `fancyhdr.sty', +%% generated with the docstrip utility. +%% +%% The original source files were: +%% +%% fancyhdr.dtx (with options: `fancyhdr') +%% +%% This is a generated file. +%% +%% This file may be distributed and/or modified under the conditions of +%% the LaTeX Project Public License, either version 1.3 of this license +%% or (at your option) any later version. The latest version of this +%% license is in: +%% +%% http://www.latex-project.org/lppl.txt +%% +%% and version 1.3 or later is part of all distributions of LaTeX version +%% 2005/12/01 or later. +%% +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\NeedsTeXFormat{LaTeX2e} +\ProvidesPackage{fancyhdr}% + [2017/06/30 v3.9a + Extensive control of page headers and footers]% +% Copyright (C) 1994-2016 by Piet van Oostrum +%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% +\def\if@nch@mpty#1{\def\temp@a{#1}\ifx\temp@a\@empty} +\def\f@nch@def#1#2{\if@nch@mpty{#2}\f@nch@gbl\def#1{\leavevmode}\else + \f@nch@gbl\def#1{#2\strut}\fi} +\let\f@nch@gbl\global +\def\f@nch@errmsg#1{% + \ifx\PackageError\undefined \errmessage{#1}\else + \PackageError{Fancyhdr}{#1}{}\fi} +\def\f@nch@warning#1{% + \ifx\PackageWarning\undefined \errmessage{#1}\else + \PackageWarning{Fancyhdr}{#1}{}\fi} +\def\f@nch@forc#1#2#3{\expandafter\f@rc\expandafter#1\expandafter{#2}{#3}} +\def\f@rc#1#2#3{\def\temp@ty{#2}\ifx\@empty\temp@ty\else + \f@nch@rc#1#2\f@nch@rc{#3}\fi} +\def\f@nch@rc#1#2#3\f@nch@rc#4{\def#1{#2}#4\f@rc#1{#3}{#4}} +\newcommand{\f@nch@for}[3]{\edef\@fortmp{#2}% + \expandafter\@forloop#2,\@nil,\@nil\@@#1{#3}} +\newcommand\f@nch@default[3]{% + \edef\temp@a{\lowercase{\edef\noexpand\temp@a{#3}}}\temp@a \def#1{}% + \f@nch@forc\tmpf@ra{#2}% + {\expandafter\f@nch@ifin\tmpf@ra\temp@a{\edef#1{#1\tmpf@ra}}{}}% + \ifx\@empty#1\def#1{#2}\fi} +\newcommand{\f@nch@ifin}[4]{% + \edef\temp@a{#2}\def\temp@b##1#1##2\temp@b{\def\temp@b{##1}}% + \expandafter\temp@b#2#1\temp@b\ifx\temp@a\temp@b #4\else #3\fi} +\newcommand{\fancyhead}[2][]{\f@nch@fancyhf\fancyhead h[#1]{#2}}% +\newcommand{\fancyfoot}[2][]{\f@nch@fancyhf\fancyfoot f[#1]{#2}}% +\newcommand{\fancyhf}[2][]{\f@nch@fancyhf\fancyhf {}[#1]{#2}}% +\newcommand{\fancyheadoffset}[2][]{\f@nch@fancyhfoffs\fancyheadoffset h[#1]{#2}}% +\newcommand{\fancyfootoffset}[2][]{\f@nch@fancyhfoffs\fancyfootoffset f[#1]{#2}}% +\newcommand{\fancyhfoffset}[2][]{\f@nch@fancyhfoffs\fancyhfoffset {}[#1]{#2}}% +\def\f@nch@fancyhf#1#2[#3]#4{% + \def\temp@c{}% + \f@nch@forc\tmpf@ra{#3}% + {\expandafter\f@nch@ifin\tmpf@ra{eolcrhf,EOLCRHF}% + {}{\edef\temp@c{\temp@c\tmpf@ra}}}% + \ifx\@empty\temp@c\else \f@nch@errmsg{Illegal char `\temp@c' in + \string#1 argument: [#3]}% + \fi \f@nch@for\temp@c{#3}% + {\f@nch@default\f@nch@@eo{eo}\temp@c \if@twoside\else \if\f@nch@@eo + e\f@nch@warning {\string#1's `E' option without twoside option is + useless}\fi\fi \f@nch@default\f@nch@@lcr{lcr}\temp@c + \f@nch@default\f@nch@@hf{hf}{#2\temp@c}% + \f@nch@forc\f@nch@eo\f@nch@@eo + {\f@nch@forc\f@nch@lcr\f@nch@@lcr + {\f@nch@forc\f@nch@hf\f@nch@@hf + {\expandafter\f@nch@def\csname + f@nch@\f@nch@eo\f@nch@lcr\f@nch@hf\endcsname {#4}}}}}} +\def\f@nch@fancyhfoffs#1#2[#3]#4{% + \def\temp@c{}% + \f@nch@forc\tmpf@ra{#3}% + {\expandafter\f@nch@ifin\tmpf@ra{eolrhf,EOLRHF}% + {}{\edef\temp@c{\temp@c\tmpf@ra}}}% + \ifx\@empty\temp@c\else \f@nch@errmsg{Illegal char `\temp@c' in + \string#1 argument: [#3]}% + \fi \f@nch@for\temp@c{#3}% + {\f@nch@default\f@nch@@eo{eo}\temp@c \if@twoside\else \if\f@nch@@eo + e\f@nch@warning {\string#1's `E' option without twoside option is + useless}\fi\fi \f@nch@default\f@nch@@lcr{lr}\temp@c + \f@nch@default\f@nch@@hf{hf}{#2\temp@c}% + \f@nch@forc\f@nch@eo\f@nch@@eo + {\f@nch@forc\f@nch@lcr\f@nch@@lcr + {\f@nch@forc\f@nch@hf\f@nch@@hf + {\expandafter\setlength\csname + f@nch@O@\f@nch@eo\f@nch@lcr\f@nch@hf\endcsname {#4}}}}}% + \f@nch@setoffs} +\newcommand{\lhead}[2][\f@nch@olh]% + {\f@nch@def\f@nch@olh{#2}\f@nch@def\f@nch@elh{#1}} +\newcommand{\chead}[2][\f@nch@och]% + {\f@nch@def\f@nch@och{#2}\f@nch@def\f@nch@ech{#1}} +\newcommand{\rhead}[2][\f@nch@orh]% + {\f@nch@def\f@nch@orh{#2}\f@nch@def\f@nch@erh{#1}} +\newcommand{\lfoot}[2][\f@nch@olf]% + {\f@nch@def\f@nch@olf{#2}\f@nch@def\f@nch@elf{#1}} +\newcommand{\cfoot}[2][\f@nch@ocf]% + {\f@nch@def\f@nch@ocf{#2}\f@nch@def\f@nch@ecf{#1}} +\newcommand{\rfoot}[2][\f@nch@orf]% + {\f@nch@def\f@nch@orf{#2}\f@nch@def\f@nch@erf{#1}} +\newlength{\f@nch@headwidth} \let\headwidth\f@nch@headwidth +\newlength{\f@nch@O@elh} +\newlength{\f@nch@O@erh} +\newlength{\f@nch@O@olh} +\newlength{\f@nch@O@orh} +\newlength{\f@nch@O@elf} +\newlength{\f@nch@O@erf} +\newlength{\f@nch@O@olf} +\newlength{\f@nch@O@orf} +\newcommand{\headrulewidth}{0.4pt} +\newcommand{\footrulewidth}{0pt} +\@ifundefined{footruleskip}% + {\newcommand{\footruleskip}{.3\normalbaselineskip}}{} +\newcommand{\plainheadrulewidth}{0pt} +\newcommand{\plainfootrulewidth}{0pt} +\newif\if@fancyplain \@fancyplainfalse +\def\fancyplain#1#2{\if@fancyplain#1\else#2\fi} +\headwidth=-123456789sp +\let\f@nch@raggedleft\raggedleft +\let\f@nch@raggedright\raggedright +\let\f@nch@centering\centering +\let\f@nch@everypar\everypar +\def\f@nch@reset{\f@nch@everypar{}\restorecr\endlinechar=13 + \let\\\@normalcr \let\raggedleft\f@nch@raggedleft + \let\raggedright\f@nch@raggedright \let\centering\f@nch@centering + \def\baselinestretch{1}% + \hsize=\headwidth + \def\nouppercase##1{{\let\uppercase\relax\let\MakeUppercase\relax + \expandafter\let\csname MakeUppercase \endcsname\relax##1}}% + \ifx\undefined\@newbaseline % NFSS not present; 2.09 or 2e + \ifx\@normalsize\undefined \normalsize % for ucthesis.cls + \else \@normalsize \fi \else % NFSS (2.09) present + \@newbaseline% + \fi} +\fancyhf{} +\if@twoside + \fancyhead[el,or]{\fancyplain{}{\slshape\rightmark}} + \fancyhead[er,ol]{\fancyplain{}{\slshape\leftmark}} +\else + \fancyhead[l]{\fancyplain{}{\slshape\rightmark}} + \fancyhead[r]{\fancyplain{}{\slshape\leftmark}} +\fi +\fancyfoot[c]{\rmfamily\thepage} % page number +\def\f@nch@vbox#1#2{\setbox0\vbox{#2}\ifdim\ht0>#1\f@nch@warning + {\string#1 is too small (\the#1): ^^J Make it at least \the\ht0.^^J We + now make it that large for the rest of the document.^^J This may + cause the page layout to be inconsistent, however\@gobble}% + \dimen0=#1\global\setlength{#1}{\ht0}\ht0=\dimen0\fi \box0} +\def\f@nch@head#1#2#3#4#5{#1\hbox to\headwidth{\f@nch@reset + \f@nch@vbox\headheight{\hbox + {\rlap{\parbox[b]{\headwidth}{\raggedright#2}}\hfill + \parbox[b]{\headwidth}{\centering#3}\hfill + \llap{\parbox[b]{\headwidth}{\raggedleft#4}}}\headrule}}#5} +\def\f@nch@foot#1#2#3#4#5{#1\hbox to\headwidth{\f@nch@reset + \f@nch@vbox\footskip{\footrule + \hbox{\rlap{\parbox[t]{\headwidth}{\raggedright#2}}\hfill + \parbox[t]{\headwidth}{\centering#3}\hfill + \llap{\parbox[t]{\headwidth}{\raggedleft#4}}}}}#5} +\def\headrule{{\if@fancyplain\let\headrulewidth\plainheadrulewidth\fi + \hrule\@height\headrulewidth\@width\headwidth + \vskip-\headrulewidth}} +\def\footrule{{\if@fancyplain\let\footrulewidth\plainfootrulewidth\fi + \vskip-\footruleskip\vskip-\footrulewidth + \hrule\@width\headwidth\@height\footrulewidth\vskip\footruleskip}} +\def\ps@fancy{% + \@ifundefined{@chapapp}{\let\@chapapp\chaptername}{}% for amsbook +\@ifundefined{MakeUppercase}{\def\MakeUppercase{\uppercase}}{}% +\ifx\chapter\@undefined \def\sectionmark##1{\markboth + {\MakeUppercase{\ifnum \c@secnumdepth>\z@ \thesection\hskip 1em\relax + \fi ##1}}{}}% +\def\subsectionmark##1{\markright {\ifnum \c@secnumdepth >\@ne + \thesubsection\hskip 1em\relax \fi ##1}}% +\else \def\chaptermark##1{\markboth {\MakeUppercase{\ifnum + \c@secnumdepth>\m@ne \@chapapp\ \thechapter. \ \fi ##1}}{}}% +\def\sectionmark##1{\markright{\MakeUppercase{\ifnum \c@secnumdepth >\z@ + \thesection. \ \fi ##1}}}% +\fi +\ps@@fancy +\gdef\ps@fancy{\@fancyplainfalse\ps@@fancy}% +\ifdim\headwidth<0sp + \global\advance\headwidth123456789sp\global\advance\headwidth\textwidth +\fi} +\def\ps@fancyplain{\ps@fancy \let\ps@plain\ps@plain@fancy} +\def\ps@plain@fancy{\@fancyplaintrue\ps@@fancy} +\let\ps@@empty\ps@empty +\def\ps@@fancy{% + \ps@@empty + \def\@mkboth{\protect\markboth}% + \def\@oddhead{\f@nch@head\f@nch@Oolh\f@nch@olh\f@nch@och\f@nch@orh\f@nch@Oorh}% + \def\@oddfoot{\f@nch@foot\f@nch@Oolf\f@nch@olf\f@nch@ocf\f@nch@orf\f@nch@Oorf}% + \def\@evenhead{\f@nch@head\f@nch@Oelh\f@nch@elh\f@nch@ech\f@nch@erh\f@nch@Oerh}% + \def\@evenfoot{\f@nch@foot\f@nch@Oelf\f@nch@elf\f@nch@ecf\f@nch@erf\f@nch@Oerf}% +} +\def\f@nch@Oolh{\if@reversemargin\hss\else\relax\fi} +\def\f@nch@Oorh{\if@reversemargin\relax\else\hss\fi} +\let\f@nch@Oelh\f@nch@Oorh +\let\f@nch@Oerh\f@nch@Oolh +\let\f@nch@Oolf\f@nch@Oolh +\let\f@nch@Oorf\f@nch@Oorh +\let\f@nch@Oelf\f@nch@Oelh +\let\f@nch@Oerf\f@nch@Oerh +\def\f@nch@offsolh{\headwidth=\textwidth\advance\headwidth\f@nch@O@olh + \advance\headwidth\f@nch@O@orh\hskip-\f@nch@O@olh} +\def\f@nch@offselh{\headwidth=\textwidth\advance\headwidth\f@nch@O@elh + \advance\headwidth\f@nch@O@erh\hskip-\f@nch@O@elh} +\def\f@nch@offsolf{\headwidth=\textwidth\advance\headwidth\f@nch@O@olf + \advance\headwidth\f@nch@O@orf\hskip-\f@nch@O@olf} +\def\f@nch@offself{\headwidth=\textwidth\advance\headwidth\f@nch@O@elf + \advance\headwidth\f@nch@O@erf\hskip-\f@nch@O@elf} +\def\f@nch@setoffs{% + \f@nch@gbl\let\headwidth\f@nch@headwidth + \f@nch@gbl\let\f@nch@Oolh\f@nch@offsolh + \f@nch@gbl\let\f@nch@Oelh\f@nch@offselh \f@nch@gbl\let\f@nch@Oorh\hss + \f@nch@gbl\let\f@nch@Oerh\hss \f@nch@gbl\let\f@nch@Oolf\f@nch@offsolf + \f@nch@gbl\let\f@nch@Oelf\f@nch@offself \f@nch@gbl\let\f@nch@Oorf\hss + \f@nch@gbl\let\f@nch@Oerf\hss +} +\newif\iff@nch@footnote +\AtBeginDocument{% + \let\latex@makecol\@makecol + \def\@makecol{\ifvoid\footins\f@nch@footnotefalse\else\f@nch@footnotetrue\fi + \let\topfloat\@toplist\let\botfloat\@botlist\latex@makecol}% +} +\newcommand\iftopfloat[2]{\ifx\topfloat\empty #2\else #1\fi}% +\newcommand\ifbotfloat[2]{\ifx\botfloat\empty #2\else #1\fi}% +\newcommand\iffloatpage[2]{\if@fcolmade #1\else #2\fi}% +\newcommand\iffootnote[2]{\iff@nch@footnote #1\else #2\fi}% +\newcommand{\fancypagestyle}[2]{% + \@namedef{ps@#1}{\let\f@nch@gbl\relax#2\relax\ps@fancy}} +\endinput +%% +%% End of file `fancyhdr.sty'. ADDED figs/incoming/00-01.jpg Index: figs/incoming/00-01.jpg ================================================================== --- figs/incoming/00-01.jpg +++ figs/incoming/00-01.jpg cannot compute difference between binary files ADDED figs/incoming/00-poster.png Index: figs/incoming/00-poster.png ================================================================== --- figs/incoming/00-poster.png +++ figs/incoming/00-poster.png cannot compute difference between binary files ADDED figs/incoming/01-01.png Index: figs/incoming/01-01.png ================================================================== --- figs/incoming/01-01.png +++ figs/incoming/01-01.png cannot compute difference between binary files ADDED figs/incoming/01-DD.png Index: figs/incoming/01-DD.png ================================================================== --- figs/incoming/01-DD.png +++ figs/incoming/01-DD.png cannot compute difference between binary files ADDED figs/incoming/01-FF.png Index: figs/incoming/01-FF.png ================================================================== --- figs/incoming/01-FF.png +++ figs/incoming/01-FF.png cannot compute difference between binary files ADDED figs/incoming/01-GG.png Index: figs/incoming/01-GG.png ================================================================== --- figs/incoming/01-GG.png +++ figs/incoming/01-GG.png cannot compute difference between binary files ADDED figs/incoming/01-HH.png Index: figs/incoming/01-HH.png ================================================================== --- figs/incoming/01-HH.png +++ figs/incoming/01-HH.png cannot compute difference between binary files ADDED figs/incoming/01-JJ.png Index: figs/incoming/01-JJ.png ================================================================== --- figs/incoming/01-JJ.png +++ figs/incoming/01-JJ.png cannot compute difference between binary files ADDED figs/incoming/01-LL.jpg Index: figs/incoming/01-LL.jpg ================================================================== --- figs/incoming/01-LL.jpg +++ figs/incoming/01-LL.jpg cannot compute difference between binary files ADDED figs/incoming/01-MM.jpg Index: figs/incoming/01-MM.jpg ================================================================== --- figs/incoming/01-MM.jpg +++ figs/incoming/01-MM.jpg cannot compute difference between binary files ADDED figs/incoming/01-XX.jpg Index: figs/incoming/01-XX.jpg ================================================================== --- figs/incoming/01-XX.jpg +++ figs/incoming/01-XX.jpg cannot compute difference between binary files ADDED figs/incoming/01-YY.jpg Index: figs/incoming/01-YY.jpg ================================================================== --- figs/incoming/01-YY.jpg +++ figs/incoming/01-YY.jpg cannot compute difference between binary files ADDED figs/incoming/02-00-cover.png Index: figs/incoming/02-00-cover.png ================================================================== --- figs/incoming/02-00-cover.png +++ figs/incoming/02-00-cover.png cannot compute difference between binary files ADDED figs/incoming/02-00.jpg Index: figs/incoming/02-00.jpg ================================================================== --- figs/incoming/02-00.jpg +++ figs/incoming/02-00.jpg cannot compute difference between binary files ADDED figs/incoming/02-01.png Index: figs/incoming/02-01.png ================================================================== --- figs/incoming/02-01.png +++ figs/incoming/02-01.png cannot compute difference between binary files ADDED figs/incoming/02-02.png Index: figs/incoming/02-02.png ================================================================== --- figs/incoming/02-02.png +++ figs/incoming/02-02.png cannot compute difference between binary files ADDED figs/incoming/02-03-AA.png Index: figs/incoming/02-03-AA.png ================================================================== --- figs/incoming/02-03-AA.png +++ figs/incoming/02-03-AA.png cannot compute difference between binary files ADDED figs/incoming/02-03-CC.png Index: figs/incoming/02-03-CC.png ================================================================== --- figs/incoming/02-03-CC.png +++ figs/incoming/02-03-CC.png cannot compute difference between binary files ADDED figs/incoming/02-03-DD.png Index: figs/incoming/02-03-DD.png ================================================================== --- figs/incoming/02-03-DD.png +++ figs/incoming/02-03-DD.png cannot compute difference between binary files ADDED figs/incoming/02-04.jpg Index: figs/incoming/02-04.jpg ================================================================== --- figs/incoming/02-04.jpg +++ figs/incoming/02-04.jpg cannot compute difference between binary files ADDED figs/incoming/02-05.png Index: figs/incoming/02-05.png ================================================================== --- figs/incoming/02-05.png +++ figs/incoming/02-05.png cannot compute difference between binary files ADDED figs/incoming/02-MM.png Index: figs/incoming/02-MM.png ================================================================== --- figs/incoming/02-MM.png +++ figs/incoming/02-MM.png cannot compute difference between binary files ADDED figs/incoming/02-RR.png Index: figs/incoming/02-RR.png ================================================================== --- figs/incoming/02-RR.png +++ figs/incoming/02-RR.png cannot compute difference between binary files ADDED figs/incoming/02-TT.png Index: figs/incoming/02-TT.png ================================================================== --- figs/incoming/02-TT.png +++ figs/incoming/02-TT.png cannot compute difference between binary files ADDED figs/incoming/02-XY.jpg Index: figs/incoming/02-XY.jpg ================================================================== --- figs/incoming/02-XY.jpg +++ figs/incoming/02-XY.jpg cannot compute difference between binary files ADDED figs/incoming/02-YY.jpg Index: figs/incoming/02-YY.jpg ================================================================== --- figs/incoming/02-YY.jpg +++ figs/incoming/02-YY.jpg cannot compute difference between binary files ADDED figs/incoming/02-ZZ.png Index: figs/incoming/02-ZZ.png ================================================================== --- figs/incoming/02-ZZ.png +++ figs/incoming/02-ZZ.png cannot compute difference between binary files ADDED figs/incoming/03-00-cover.png Index: figs/incoming/03-00-cover.png ================================================================== --- figs/incoming/03-00-cover.png +++ figs/incoming/03-00-cover.png cannot compute difference between binary files ADDED figs/incoming/03-AA.png Index: figs/incoming/03-AA.png ================================================================== --- figs/incoming/03-AA.png +++ figs/incoming/03-AA.png cannot compute difference between binary files ADDED figs/incoming/03-BB.png Index: figs/incoming/03-BB.png ================================================================== --- figs/incoming/03-BB.png +++ figs/incoming/03-BB.png cannot compute difference between binary files ADDED figs/incoming/03-CC.png Index: figs/incoming/03-CC.png ================================================================== --- figs/incoming/03-CC.png +++ figs/incoming/03-CC.png cannot compute difference between binary files ADDED figs/incoming/03-DD.png Index: figs/incoming/03-DD.png ================================================================== --- figs/incoming/03-DD.png +++ figs/incoming/03-DD.png cannot compute difference between binary files ADDED figs/incoming/03-EE.png Index: figs/incoming/03-EE.png ================================================================== --- figs/incoming/03-EE.png +++ figs/incoming/03-EE.png cannot compute difference between binary files ADDED figs/incoming/03-FF.png Index: figs/incoming/03-FF.png ================================================================== --- figs/incoming/03-FF.png +++ figs/incoming/03-FF.png cannot compute difference between binary files ADDED figs/incoming/03-GG.jpg Index: figs/incoming/03-GG.jpg ================================================================== --- figs/incoming/03-GG.jpg +++ figs/incoming/03-GG.jpg cannot compute difference between binary files ADDED figs/incoming/03-LL-01.jpg Index: figs/incoming/03-LL-01.jpg ================================================================== --- figs/incoming/03-LL-01.jpg +++ figs/incoming/03-LL-01.jpg cannot compute difference between binary files ADDED figs/incoming/03-LL-02.jpg Index: figs/incoming/03-LL-02.jpg ================================================================== --- figs/incoming/03-LL-02.jpg +++ figs/incoming/03-LL-02.jpg cannot compute difference between binary files ADDED figs/incoming/03-LL-03.jpg Index: figs/incoming/03-LL-03.jpg ================================================================== --- figs/incoming/03-LL-03.jpg +++ figs/incoming/03-LL-03.jpg cannot compute difference between binary files ADDED figs/incoming/03-MM.png Index: figs/incoming/03-MM.png ================================================================== --- figs/incoming/03-MM.png +++ figs/incoming/03-MM.png cannot compute difference between binary files ADDED figs/incoming/03-OO-01.png Index: figs/incoming/03-OO-01.png ================================================================== --- figs/incoming/03-OO-01.png +++ figs/incoming/03-OO-01.png cannot compute difference between binary files ADDED figs/incoming/03-PP-01.png Index: figs/incoming/03-PP-01.png ================================================================== --- figs/incoming/03-PP-01.png +++ figs/incoming/03-PP-01.png cannot compute difference between binary files ADDED figs/incoming/03-PP-02.png Index: figs/incoming/03-PP-02.png ================================================================== --- figs/incoming/03-PP-02.png +++ figs/incoming/03-PP-02.png cannot compute difference between binary files ADDED figs/incoming/03-PP-03.png Index: figs/incoming/03-PP-03.png ================================================================== --- figs/incoming/03-PP-03.png +++ figs/incoming/03-PP-03.png cannot compute difference between binary files ADDED figs/incoming/03-PP-04.png Index: figs/incoming/03-PP-04.png ================================================================== --- figs/incoming/03-PP-04.png +++ figs/incoming/03-PP-04.png cannot compute difference between binary files ADDED figs/incoming/03-WW.jpg Index: figs/incoming/03-WW.jpg ================================================================== --- figs/incoming/03-WW.jpg +++ figs/incoming/03-WW.jpg cannot compute difference between binary files ADDED figs/incoming/03-XX.jpg Index: figs/incoming/03-XX.jpg ================================================================== --- figs/incoming/03-XX.jpg +++ figs/incoming/03-XX.jpg cannot compute difference between binary files ADDED figs/incoming/03-YY.png Index: figs/incoming/03-YY.png ================================================================== --- figs/incoming/03-YY.png +++ figs/incoming/03-YY.png cannot compute difference between binary files ADDED figs/incoming/03-ZZ-01.png Index: figs/incoming/03-ZZ-01.png ================================================================== --- figs/incoming/03-ZZ-01.png +++ figs/incoming/03-ZZ-01.png cannot compute difference between binary files ADDED figs/incoming/03-ZZ-04.png Index: figs/incoming/03-ZZ-04.png ================================================================== --- figs/incoming/03-ZZ-04.png +++ figs/incoming/03-ZZ-04.png cannot compute difference between binary files ADDED figs/incoming/03-ZZ-06.png Index: figs/incoming/03-ZZ-06.png ================================================================== --- figs/incoming/03-ZZ-06.png +++ figs/incoming/03-ZZ-06.png cannot compute difference between binary files ADDED figs/incoming/03-ZZ-07.png Index: figs/incoming/03-ZZ-07.png ================================================================== --- figs/incoming/03-ZZ-07.png +++ figs/incoming/03-ZZ-07.png cannot compute difference between binary files ADDED figs/incoming/03-ZZ-09.png Index: figs/incoming/03-ZZ-09.png ================================================================== --- figs/incoming/03-ZZ-09.png +++ figs/incoming/03-ZZ-09.png cannot compute difference between binary files ADDED figs/incoming/03-ZZ-ZZ.png Index: figs/incoming/03-ZZ-ZZ.png ================================================================== --- figs/incoming/03-ZZ-ZZ.png +++ figs/incoming/03-ZZ-ZZ.png cannot compute difference between binary files ADDED figs/incoming/03-ZZ.png Index: figs/incoming/03-ZZ.png ================================================================== --- figs/incoming/03-ZZ.png +++ figs/incoming/03-ZZ.png cannot compute difference between binary files ADDED figs/incoming/04-00-cover.png Index: figs/incoming/04-00-cover.png ================================================================== --- figs/incoming/04-00-cover.png +++ figs/incoming/04-00-cover.png cannot compute difference between binary files ADDED figs/incoming/04-01.png Index: figs/incoming/04-01.png ================================================================== --- figs/incoming/04-01.png +++ figs/incoming/04-01.png cannot compute difference between binary files ADDED figs/incoming/04-AA.png Index: figs/incoming/04-AA.png ================================================================== --- figs/incoming/04-AA.png +++ figs/incoming/04-AA.png cannot compute difference between binary files ADDED figs/incoming/04-BB.png Index: figs/incoming/04-BB.png ================================================================== --- figs/incoming/04-BB.png +++ figs/incoming/04-BB.png cannot compute difference between binary files ADDED figs/incoming/04-CC.png Index: figs/incoming/04-CC.png ================================================================== --- figs/incoming/04-CC.png +++ figs/incoming/04-CC.png cannot compute difference between binary files ADDED figs/incoming/04-DD.png Index: figs/incoming/04-DD.png ================================================================== --- figs/incoming/04-DD.png +++ figs/incoming/04-DD.png cannot compute difference between binary files ADDED figs/incoming/04-EE.png Index: figs/incoming/04-EE.png ================================================================== --- figs/incoming/04-EE.png +++ figs/incoming/04-EE.png cannot compute difference between binary files ADDED figs/incoming/04-FF.png Index: figs/incoming/04-FF.png ================================================================== --- figs/incoming/04-FF.png +++ figs/incoming/04-FF.png cannot compute difference between binary files ADDED figs/incoming/04-GG.jpg Index: figs/incoming/04-GG.jpg ================================================================== --- figs/incoming/04-GG.jpg +++ figs/incoming/04-GG.jpg cannot compute difference between binary files ADDED figs/incoming/05-00-cover.png Index: figs/incoming/05-00-cover.png ================================================================== --- figs/incoming/05-00-cover.png +++ figs/incoming/05-00-cover.png cannot compute difference between binary files ADDED figs/incoming/05-AA.png Index: figs/incoming/05-AA.png ================================================================== --- figs/incoming/05-AA.png +++ figs/incoming/05-AA.png cannot compute difference between binary files ADDED figs/incoming/05-BB.png Index: figs/incoming/05-BB.png ================================================================== --- figs/incoming/05-BB.png +++ figs/incoming/05-BB.png cannot compute difference between binary files ADDED figs/incoming/05-BC-graphical-table.png Index: figs/incoming/05-BC-graphical-table.png ================================================================== --- figs/incoming/05-BC-graphical-table.png +++ figs/incoming/05-BC-graphical-table.png cannot compute difference between binary files ADDED figs/incoming/05-BD-choropleth.png Index: figs/incoming/05-BD-choropleth.png ================================================================== --- figs/incoming/05-BD-choropleth.png +++ figs/incoming/05-BD-choropleth.png cannot compute difference between binary files ADDED figs/incoming/05-CC.png Index: figs/incoming/05-CC.png ================================================================== --- figs/incoming/05-CC.png +++ figs/incoming/05-CC.png cannot compute difference between binary files ADDED figs/incoming/05-DD.png Index: figs/incoming/05-DD.png ================================================================== --- figs/incoming/05-DD.png +++ figs/incoming/05-DD.png cannot compute difference between binary files ADDED figs/incoming/05-EE.png Index: figs/incoming/05-EE.png ================================================================== --- figs/incoming/05-EE.png +++ figs/incoming/05-EE.png cannot compute difference between binary files ADDED figs/incoming/05-FF.png Index: figs/incoming/05-FF.png ================================================================== --- figs/incoming/05-FF.png +++ figs/incoming/05-FF.png cannot compute difference between binary files ADDED figs/incoming/05-GG.png Index: figs/incoming/05-GG.png ================================================================== --- figs/incoming/05-GG.png +++ figs/incoming/05-GG.png cannot compute difference between binary files ADDED figs/incoming/05-HH.png Index: figs/incoming/05-HH.png ================================================================== --- figs/incoming/05-HH.png +++ figs/incoming/05-HH.png cannot compute difference between binary files ADDED figs/incoming/05-II.png Index: figs/incoming/05-II.png ================================================================== --- figs/incoming/05-II.png +++ figs/incoming/05-II.png cannot compute difference between binary files ADDED figs/incoming/05-MM.jpg Index: figs/incoming/05-MM.jpg ================================================================== --- figs/incoming/05-MM.jpg +++ figs/incoming/05-MM.jpg cannot compute difference between binary files ADDED figs/incoming/05-MM.png Index: figs/incoming/05-MM.png ================================================================== --- figs/incoming/05-MM.png +++ figs/incoming/05-MM.png cannot compute difference between binary files ADDED figs/incoming/06-00-cover.png Index: figs/incoming/06-00-cover.png ================================================================== --- figs/incoming/06-00-cover.png +++ figs/incoming/06-00-cover.png cannot compute difference between binary files ADDED figs/incoming/06-AA.png Index: figs/incoming/06-AA.png ================================================================== --- figs/incoming/06-AA.png +++ figs/incoming/06-AA.png cannot compute difference between binary files ADDED figs/incoming/06-GG-01.png Index: figs/incoming/06-GG-01.png ================================================================== --- figs/incoming/06-GG-01.png +++ figs/incoming/06-GG-01.png cannot compute difference between binary files ADDED figs/incoming/06-GG-02-b.png Index: figs/incoming/06-GG-02-b.png ================================================================== --- figs/incoming/06-GG-02-b.png +++ figs/incoming/06-GG-02-b.png cannot compute difference between binary files ADDED figs/incoming/06-GG-03.png Index: figs/incoming/06-GG-03.png ================================================================== --- figs/incoming/06-GG-03.png +++ figs/incoming/06-GG-03.png cannot compute difference between binary files ADDED figs/incoming/06-GG-04.png Index: figs/incoming/06-GG-04.png ================================================================== --- figs/incoming/06-GG-04.png +++ figs/incoming/06-GG-04.png cannot compute difference between binary files ADDED figs/incoming/06-GG-05.png Index: figs/incoming/06-GG-05.png ================================================================== --- figs/incoming/06-GG-05.png +++ figs/incoming/06-GG-05.png cannot compute difference between binary files ADDED figs/incoming/06-GG-06.png Index: figs/incoming/06-GG-06.png ================================================================== --- figs/incoming/06-GG-06.png +++ figs/incoming/06-GG-06.png cannot compute difference between binary files ADDED figs/incoming/06-GG-07.png Index: figs/incoming/06-GG-07.png ================================================================== --- figs/incoming/06-GG-07.png +++ figs/incoming/06-GG-07.png cannot compute difference between binary files ADDED figs/incoming/06-GG-08.png Index: figs/incoming/06-GG-08.png ================================================================== --- figs/incoming/06-GG-08.png +++ figs/incoming/06-GG-08.png cannot compute difference between binary files ADDED figs/incoming/06-LL-01.jpg Index: figs/incoming/06-LL-01.jpg ================================================================== --- figs/incoming/06-LL-01.jpg +++ figs/incoming/06-LL-01.jpg cannot compute difference between binary files ADDED figs/incoming/06-LL-02.jpg Index: figs/incoming/06-LL-02.jpg ================================================================== --- figs/incoming/06-LL-02.jpg +++ figs/incoming/06-LL-02.jpg cannot compute difference between binary files ADDED figs/incoming/06-LL-03.png Index: figs/incoming/06-LL-03.png ================================================================== --- figs/incoming/06-LL-03.png +++ figs/incoming/06-LL-03.png cannot compute difference between binary files ADDED figs/incoming/06-LL-04.jpg Index: figs/incoming/06-LL-04.jpg ================================================================== --- figs/incoming/06-LL-04.jpg +++ figs/incoming/06-LL-04.jpg cannot compute difference between binary files ADDED figs/incoming/06-LL-05.jpg Index: figs/incoming/06-LL-05.jpg ================================================================== --- figs/incoming/06-LL-05.jpg +++ figs/incoming/06-LL-05.jpg cannot compute difference between binary files ADDED figs/incoming/06-LL-06.jpg Index: figs/incoming/06-LL-06.jpg ================================================================== --- figs/incoming/06-LL-06.jpg +++ figs/incoming/06-LL-06.jpg cannot compute difference between binary files ADDED figs/incoming/06-LL-07.jpg Index: figs/incoming/06-LL-07.jpg ================================================================== --- figs/incoming/06-LL-07.jpg +++ figs/incoming/06-LL-07.jpg cannot compute difference between binary files ADDED figs/incoming/06-LL-08.jpg Index: figs/incoming/06-LL-08.jpg ================================================================== --- figs/incoming/06-LL-08.jpg +++ figs/incoming/06-LL-08.jpg cannot compute difference between binary files ADDED figs/incoming/06-MM.png Index: figs/incoming/06-MM.png ================================================================== --- figs/incoming/06-MM.png +++ figs/incoming/06-MM.png cannot compute difference between binary files ADDED figs/incoming/06-NN.png Index: figs/incoming/06-NN.png ================================================================== --- figs/incoming/06-NN.png +++ figs/incoming/06-NN.png cannot compute difference between binary files ADDED figs/incoming/06-PP-01.png Index: figs/incoming/06-PP-01.png ================================================================== --- figs/incoming/06-PP-01.png +++ figs/incoming/06-PP-01.png cannot compute difference between binary files ADDED figs/incoming/06-PP-02.png Index: figs/incoming/06-PP-02.png ================================================================== --- figs/incoming/06-PP-02.png +++ figs/incoming/06-PP-02.png cannot compute difference between binary files ADDED figs/incoming/06-PP-03.png Index: figs/incoming/06-PP-03.png ================================================================== --- figs/incoming/06-PP-03.png +++ figs/incoming/06-PP-03.png cannot compute difference between binary files ADDED figs/incoming/06-PP-04.png Index: figs/incoming/06-PP-04.png ================================================================== --- figs/incoming/06-PP-04.png +++ figs/incoming/06-PP-04.png cannot compute difference between binary files ADDED figs/incoming/06-PP-05.png Index: figs/incoming/06-PP-05.png ================================================================== --- figs/incoming/06-PP-05.png +++ figs/incoming/06-PP-05.png cannot compute difference between binary files ADDED figs/incoming/06-PP-06.png Index: figs/incoming/06-PP-06.png ================================================================== --- figs/incoming/06-PP-06.png +++ figs/incoming/06-PP-06.png cannot compute difference between binary files ADDED figs/incoming/06-RR-01.png Index: figs/incoming/06-RR-01.png ================================================================== --- figs/incoming/06-RR-01.png +++ figs/incoming/06-RR-01.png cannot compute difference between binary files ADDED figs/incoming/06-RR-02.png Index: figs/incoming/06-RR-02.png ================================================================== --- figs/incoming/06-RR-02.png +++ figs/incoming/06-RR-02.png cannot compute difference between binary files ADDED figs/incoming/06-RR-03.png Index: figs/incoming/06-RR-03.png ================================================================== --- figs/incoming/06-RR-03.png +++ figs/incoming/06-RR-03.png cannot compute difference between binary files ADDED figs/incoming/06-RR-04.png Index: figs/incoming/06-RR-04.png ================================================================== --- figs/incoming/06-RR-04.png +++ figs/incoming/06-RR-04.png cannot compute difference between binary files ADDED figs/incoming/06-TT-01.gif Index: figs/incoming/06-TT-01.gif ================================================================== --- figs/incoming/06-TT-01.gif +++ figs/incoming/06-TT-01.gif cannot compute difference between binary files ADDED figs/incoming/06-TT-02.jpg Index: figs/incoming/06-TT-02.jpg ================================================================== --- figs/incoming/06-TT-02.jpg +++ figs/incoming/06-TT-02.jpg cannot compute difference between binary files ADDED figs/incoming/06-TT-03.jpg Index: figs/incoming/06-TT-03.jpg ================================================================== --- figs/incoming/06-TT-03.jpg +++ figs/incoming/06-TT-03.jpg cannot compute difference between binary files ADDED figs/incoming/06-TT-04.png Index: figs/incoming/06-TT-04.png ================================================================== --- figs/incoming/06-TT-04.png +++ figs/incoming/06-TT-04.png cannot compute difference between binary files ADDED figs/incoming/06-TT-05.png Index: figs/incoming/06-TT-05.png ================================================================== --- figs/incoming/06-TT-05.png +++ figs/incoming/06-TT-05.png cannot compute difference between binary files ADDED figs/incoming/06-TT-06.png Index: figs/incoming/06-TT-06.png ================================================================== --- figs/incoming/06-TT-06.png +++ figs/incoming/06-TT-06.png cannot compute difference between binary files ADDED figs/incoming/06-TT-07.png Index: figs/incoming/06-TT-07.png ================================================================== --- figs/incoming/06-TT-07.png +++ figs/incoming/06-TT-07.png cannot compute difference between binary files ADDED figs/incoming/06-YY.png Index: figs/incoming/06-YY.png ================================================================== --- figs/incoming/06-YY.png +++ figs/incoming/06-YY.png cannot compute difference between binary files ADDED fltpage.sty Index: fltpage.sty ================================================================== --- fltpage.sty +++ fltpage.sty @@ -0,0 +1,186 @@ +%% +%% This is file `fltpage.sty', +%% generated with the docstrip utility. +%% +%% The original source files were: +%% +%% fltpage.dtx (with options: `package') +%% +%% Copyright (C) 1998 by Sebastian Gross. All rights reserved. +%% +%% +%% This file is part of the fltpage package +%% +%% IMPORTANT NOTICE: +%% +%% This a tool or better yet, an experiments written by Sebastian Gross, +%% who is writing this not only for it utility value, but as part of the +%% process of learning LaTeX. This utility is far from perfect, and +%% comments are welcome. +%% +%% The usual disclaimers apply: If it doesn't work right that's your problem! +%% +%% The usual GNU-style conditions apply: If you change it, you take +%% the blame; if you pass it on, pass on all present conditions; +%% +%% Error Reports in case of UNCHANGED versions to +%% +%% Sebastian Gross +%% +%% +%% \iffalse meta-comment +%% =================================================================== +%% @LaTeX-package-file{ +%% author = {Sebastian Gross}, +%% version = {0.3}, +%% date = {13 Nov 1998}, +%% filename = {fltpage.dtx}, +%% email = {seppel@zedat.fu-berlin.de}, +%% codetable = {ISO/ASCII}, +%% keywords = {LaTeX2e, float, table, figure, caption, FPfigure, FPtable}, +%% supported = {yes}, +%% docstring = {LaTeX package which defines new environments to place +%% captions of tables and figures on the facing/following page.} +%% } +%% =================================================================== +%% \fi +\NeedsTeXFormat{LaTeX2e} +\ProvidesPackage{fltpage}[1998/10/29 v.0.3 Floats on full page (SMU)] +\RequirePackage{ifthen} +\RequirePackage{afterpage} +\newcounter{FP@figureC} +\newcounter{FP@tableC} +\newsavebox{\FP@floatCorpusBOX} +\newcommand*{\FP@guide}{}% +\newcommand*{\FP@guideStyle}{\slshape} +\newcommand*{\FP@guideOneside}{following page} +\newcommand*{\FP@guideTwoside}{facing page} +\newcommand*{\FP@guideAfter}{following page} +\newcommand*{\FP@guideBefore}{preceding page} +\newcommand*{\FP@guideFaceBefore}{preceding page} +\newcommand*{\FP@guideFaceAfter}{following page} +\newcommand*{\FP@separatorCaption}{\rule{\linewidth}{.4pt}} +\newcommand{\FP@positionLabel}{FP\@captype-\number\value{FP@\@captype C}-pos} +\newcommand{\FP@helpNote}[2]{% + \typeout{FP#1 is inserted on page \pageref{#2}!}}% +\newcommand{\FP@floatOneside}{} +\newcommand{\FP@floatTwoside}{} +\newcommand{\FP@float}{} +\DeclareOption{german}{% + \renewcommand{\FP@guideAfter}{n\"achste Seite} + \renewcommand{\FP@guideBefore}{vorhergehende Seite} + \renewcommand{\FP@guideOneside}{\FP@guideAfter} + \renewcommand{\FP@guideFaceBefore}{gegen\"uberliegende Seite} + \renewcommand{\FP@guideFaceAfter}{gegen\"uberliegende Seite} + \renewcommand{\FP@guideTwoside}{\FP@guideFaceAfter} + \PassOptionsToPackage{german}{varioref} +}% +\DeclareOption{varioref}{% + \AtBeginDocument{% + \RequirePackage{varioref} + \ifthenelse{\equal{\reftextbefore}{\@empty}}% + {}{\renewcommand{\FP@guideBefore}{\reftextbefore}}% + \ifthenelse{\equal{\reftextafter}{\@empty}}% + {}{\renewcommand{\FP@guideAfter}{\reftextafter}}% + \renewcommand{\FP@guideOneside}{\FP@guideAfter} + \ifthenelse{\equal{\reftextfacebefore}{\@empty}}% + {}{\renewcommand{\FP@guideFaceBefore}{\reftextfacebefore}}% + \ifthenelse{\equal{\reftextfaceafter}{\@empty}}% + {}{\renewcommand{\FP@guideFaceAfter}{\reftextfaceafter}}% + \renewcommand{\FP@guideTwoside}{\FP@guideFaceAfter}% + }% +}% +\DeclareOption{closeFloats}{% + \renewcommand{\FP@floatOneside}[3]{#3#2#1}% + \renewcommand{\FP@floatTwoside}[4]{% + \ifthenelse{\isodd{\pageref{#1}}}{#2#3#4}{#4#3#2}}% +}% +\DeclareOption{leftFloats}{% + \renewcommand{\FP@floatOneside}[3]{#1#2#3}% + \renewcommand{\FP@floatTwoside}[4]{% + \ifthenelse{\isodd{\pageref{#1}}}{{#2#3#4}}{\afterpage{#2#3#4}}}% + \renewcommand{\FP@guideOneside}{\FP@guideBefore}% + \renewcommand{\FP@guideTwoside}{\FP@guideFaceBefore}% +}% +\DeclareOption{rightFloats}{% + \renewcommand{\FP@floatOneside}[3]{#3#2#1}% + \renewcommand{\FP@floatTwoside}[4]{% + \ifthenelse{\isodd{\pageref{#1}}}{\afterpage{#4#3#2}}{{#4#3#2}}}% + \renewcommand{\FP@guideOneside}{\FP@guideAfter}% + \renewcommand{\FP@guideTwoside}{\FP@guideFaceAfter}% +}% +\DeclareOption{CaptionAfterwards}{\ExecuteOptions{leftFloats}} +\DeclareOption{CaptionBefore}{\ExecuteOptions{rightFloats}}% +\DeclareOption{draft}{% + \renewcommand{\FP@helpNote}[2]{% + \marginpar{Insertion of FP#1}% + \typeout{FP#1 is inserted on page \pageref{#2}!}}% +}% +\DeclareOption{oneside}{% + \renewcommand{\FP@guide}{\FP@guideStyle(\FP@guideOneside)}% + \renewcommand{\FP@float}[4]{\FP@floatOneside{#2}{#3}{#4}} +}% +\DeclareOption{twoside}{% + \renewcommand{\FP@guide}{\FP@guideStyle(\FP@guideTwoside)}% + \renewcommand{\FP@float}[4]{\FP@floatTwoside{#1}{#2}{#3}{#4}} +}% +\DeclareOption{noSeparatorLine}{% + \renewcommand{\FP@separatorCaption}{} +} +\DeclareOption{noHints}{% + \AtBeginDocument{\renewcommand{\FP@guide}{}} +}% +\DeclareOption*{% + \PackageWarning{fltpage}{Unknown option `\CurrentOption'!}% + \PassOptionsToPackage{\currentOption}{varioref} +}% +\ExecuteOptions{closeFloats} +\ExecuteOptions{oneside} +\ProcessOptions* +\relax +\newcommand{\FP@floatBegin}[1]{% + \gdef\@captype{#1}% + \global\let\FP@savedCaptionCommand\caption% + \global\let\FP@savedLabelCommand\label% + \ifthenelse{\equal{\@captype}{figure}} + {\global\let\old@Fnum\fnum@figure}% + {\global\let\old@Fnum\fnum@table}% + \let\FP@LabelText\@empty% + \let\FP@CaptionText\@empty% + \let\FP@optionalCaptionText\@empty% + \renewcommand\label[1]{\gdef\FP@LabelText{##1}}% + \renewcommand\caption[2][]{\gdef\FP@optionalCaptionText{##1}\gdef\FP@CaptionText{##2}}% + \begin{lrbox}{\FP@floatCorpusBOX}% +}% +\newcommand{\FP@floatEnd}{% + \end{lrbox}% + \global\setbox\FP@floatCorpusBOX=\box\FP@floatCorpusBOX + \stepcounter{FP@\@captype C}% + \FP@savedLabelCommand{\FP@positionLabel}% + \FP@helpNote{\@captype}{\FP@positionLabel}% + \FP@float{\FP@positionLabel}% location label test + {\begin{\@captype}[p!] + \usebox{\FP@floatCorpusBOX}% + \refstepcounter{\@captype}% + \ifthenelse{\equal{\FP@LabelText}{\@empty}} + {}{\FP@savedLabelCommand{\expandafter\protect\FP@LabelText}}% + \end{\@captype}} + {\addtocounter{\@captype}{-1}} + {\begin{\@captype}[b!]% + \ifthenelse{\equal{\FP@guide}{\@empty}}% + {}{\ifthenelse{\equal{\@captype}{figure}}% + {\renewcommand{\fnum@figure}{\old@Fnum\ {\FP@guide}}}% + {\renewcommand{\fnum@table}{\old@Fnum\ {\FP@guide}}}}% + \setlength{\abovecaptionskip}{2pt plus2pt minus 1pt} % length above caption + \setlength{\belowcaptionskip}{2pt plus2pt minus 1pt} % length above caption + \FP@separatorCaption% + \ifthenelse{\equal{\FP@optionalCaptionText}{\@empty}}% + {\FP@savedCaptionCommand{\expandafter\protect\FP@CaptionText}}% + {\FP@savedCaptionCommand[\expandafter\protect\FP@optionalCaptionText]{\expandafter\protect\FP@CaptionText}}% + \end{\@captype}}% +}% +\newenvironment{FPfigure}{\FP@floatBegin{figure}}{\FP@floatEnd} +\newenvironment{FPtable}{\FP@floatBegin{table}}{\FP@floatEnd} +\endinput +%% +%% End of file `fltpage.sty'. ADDED img/cc-by-sa.png Index: img/cc-by-sa.png ================================================================== --- img/cc-by-sa.png +++ img/cc-by-sa.png cannot compute difference between binary files ADDED img/notebook.png Index: img/notebook.png ================================================================== --- img/notebook.png +++ img/notebook.png cannot compute difference between binary files ADDED mapeda.markdown Index: mapeda.markdown ================================================================== --- mapeda.markdown +++ mapeda.markdown @@ -0,0 +1,9799 @@ +--- exportedFrom: d42222e8de63b485aa6050c3df00dfc460ef9f50 --- \begin{titlepage} + \begin{center} + + \vspace*{1cm} + +% Dissertation No. + + \vspace*{1cm} + + \large{ \textbf{ \uppercase + {Manual de Periodismo de Datos}}} + + \vspace{0.5cm} + + \vspace{1.5cm} + + \large{Versión 1.0} + + \vspace{0.8cm} + + Editado por\\ + \textbf{Jonathan Gray, \\ Liliana Bonegru \\ y Lucy Chambers} + + \vspace{0.8cm} +% \textit{PhD(c) en Diseño y Creación \\ MSc en Educación \\ Informático-Matemático} + + \vspace{0.8cm} + \vspace{0.5cm} + \vspace{2cm} + +%Insert Creative Commons Artwork +\DeclareGraphicsExtensions{.pdf,.png,.jpg} +\begin{center} +\leavevmode +%Replace image file name below ("by-sa.png") with your license +\includegraphics[width=1in]{./img/cc-by-sa.png} +\end{center} +\label{fig:cc} +%insert a link to the licence and its description below +\scriptsize{ +Esta obra está licenciada bajo una licencia \\ \href{http://creativecommons.org/licenses/by-sa/3.0/}{Creative Commons Attribution-ShareAlike 3.0 Unported License} \\ +y puede ser copiada y modificada de acuerdo a los términos de dicha licencia.\\ +Una versión en línea actualizada de esta obra y su código fuente está publicada en: \\ + \href{http://http://mutabit.com/repos.fossil/mapeda/}{http://mutabit.com/repos.fossil/mapeda/}} + + + \vfill + + % \copyright 2015 por Autores Colectivos + + + + \end{center} + \thispagestyle{empty} +\end{titlepage} + +\newpage +\thispagestyle{empty} +\mbox{} + + +# Páginas preliminares + + + +## Un trabajo en equipo + +![Cómo empezó todo](figs/incoming/00-01.jpg) + +El Manual de Periodismo de Datos nació en un taller de 48 horas +encabezado por European Journalism Centre y la Open Knowledge Foundation +en la MozFest 2011 en Londres. Luego se amplió, convirtiéndose en un +esfuerzo internacional en colaboración, que contó con la participación +de docenas de los principales representantes del periodismo de datos y +sus mejores exponentes. + +En los 6 meses siguientes que pasaron entre el comienzo del libro y su +primera presentación, cientos de personas contribuyeron de diversas +maneras. Si bien hicimos nuestro mejor esfuerzo para reflejar a todos, +hemos tenido una cantidad de anónimo, pseudónimos y editores imposibles +de rastrear. + +A todos los que aportaron y no aparecen en la lista, les decimos dos +cosas. Primero, gracias. Segundo. Pueden por favor decirnos quiénes son +de modo de poder darles el crédito que se merecen. + +## Contribuyentes + +Las siguientes personas redactaron o contribuyeron directamente en la +redacción de los textos en la actual versión del libro (y las +ilustraciones son de la diseñadora gráfica Kate Hudson): + + - Gregor Aisch, Open Knowledge Foundation + - Brigitte Alfter, Journalismfund.eu + - David Anderton, Periodista freelance + - James Ball, The Guardian + - Caelainn Barr, Citywire + - Mariana Berruezo, Hacks/Hackers Buenos Aires + - Michael Blastland, Periodista freelance + - Mariano Blejman, Hacks/Hackers Buenos Aires + - John Bones, Verdens Gang + - Marianne Bouchart, Bloomberg News + - Liliana Bounegru, European Journalism Centre + - Brian Boyer, Chicago Tribune + - Paul Bradshaw, Birmingham City University + - Wendy Carlisle, Australian Broadcasting Corporation + - Lucy Chambers, Open Knowledge Foundation + - Sarah Cohen, Duke University + - Alastair Dant, the Guardian + - Helen Darbishire, Access Info Europe + - Chase Davis, Center for Investigative Reporting + - Steve Doig, Walter Cronkite School of Journalism, Arizona State University + - Lisa Evans, The Guardian + - Tom Fries, Bertelsmann Stiftung + - Duncan Geere, Wired UK + - Jack Gillum, Associated Press + - Jonathan Gray, Open Knowledge Foundation + - Alex Howard, O’Reilly Media + - Bella Hurrell, BBC + - Nicolas Kayser-Bril, Journalism++ + - John Keefe, WNYC + - Scott Klein, ProPublica + - Alexandre Léchenet, Le Monde + - Mark Lee Hunter, INSEAD + - Andrew Leimdorfer, BBC + - Friedrich Lindenberg, Open Knowledge Foundation + - Mike Linksvayer, Creative Commons + - Mirko Lorenz, Deutsche Welle + - Esa Mäkinen, Helsingin Sanomat + - Pedro Markun, Transparência Hacker + - Isao Matsunami, Tokyo Shimbun + - Lorenz Matzat, OpenDataCity + - Geoff McGhee, Stanford University + - Philip Meyer, Professor Emeritus, University of North Carolina at + Chapel Hill + - Claire Miller, WalesOnline + - Cynthia O’Murchu, Financial Times + - Oluseun Onigbinde, BudgIT + - Djordje Padejski, Knight Journalism Fellow, Stanford University + - Jane Park, Creative Commons + - Angélica Peralta Ramos, La Nacion (Argentina) + - Cheryl Phillips, The Seattle Times + - Aron Pilhofer, New York Times + - Lulu Pinney, Diseñador infógrafo freelance + - Paul Radu, Organised Crime and Corruption Reporting Project + - Simon Rogers, The Guardian + - Martin Rosenbaum, BBC + - Amanda Rossi, Amigos de Januária + - Martin Sarsale, Hacks/Hackers Buenos Aires + - Fabrizio Scrollini, London School of Economics and Political Science + - Sarah Slobin, Wall Street Journal + - Sergio Sorin, Hacks/Hackers Buenos Aires + - Jonathan Stray, The Overview Project + - Brian Suda, (optional.is) + - Chris Taggart, OpenCorporates + - Jer Thorp, The New York Times R&D Group + - Andy Tow, Hacks/Hackers Buenos Aires + - Luk N. Van Wassenhove, INSEAD + - Sascha Venohr, Zeit Online + - Jerry Vermanen, NU.nl + - César Viana, University of Goiás + - Farida Vis, University of Leicester + - Pete Warden, Independent Data Analyst and Developer + - Chrys Wu, Hacks/Hackers + +## Lo que este libro es (y lo que no es) + +Este libro busca ser un recurso útil para aquellos interesados en +convertirse en periodistas de datos o que simplemente quieran tomarlo +como un pasatiempo. + +Muchas personas contribuyeron a su escritura, y a través de nuestra +edición hemos tratado de hacer que se reflejen sus distintas voces y +visiones. Esperamos que su lectura resulte una conversación rica e +informativa respecto de lo que es el Periodismo de Datos, por qué es +importante, y cómo hacerlo. + +Lamentablemente, leer este libro no le proveerá un repertorio general de +conocimientos y capacidades que necesitará para convertirse en +periodista de datos. Esto requeriría una vasta biblioteca manejada por +cientos de expertos capaces de responder preguntas sobre cientos de +temas. Por suerte, tal biblioteca existe; se llama Internet. En cambio, +esperamos que este libro lo oriente sobre cómo iniciarse y dónde mirar +si quiere avanzar. Los ejemplos y tutoriales son ilustrativos más que +exhaustivos. + +Consideramos muy afortunado haber contado con tanto tiempo, energía y +paciencia de todos nuestros contribuyentes y nos hemos esforzado por +aprovecharlo de la mejor manera. Esperamos que –además de ser una fuente +de referencia útil- el libro ayude a documentar la pasión y el +entusiasmo, la visión y la energía de un movimiento en crecimiento. El +libro intenta mostrar lo que sucede tras bambalinas, las historias +detrás de los artículos. + +El Manual de Periodismo de Datos es una obra en progreso. Si cree que +algo necesita ser corregido o está notoriamente ausente, por favor +indíquelo para su inclusión en la siguiente versión. También está +disponible gratuitamente bajo una licencia [Creative Commons de +Atribución Compartir](http://creativecommons.org/licenses/by-sa/3.0/) +bajo la misma Licencia y lo alentamos fuertemente a que lo comparta con +quien crea que puede interesarse en su lectura. + +*Liliana Bounegru ([@bb\_liliana](https://twitter.com/bb_liliana))*\ +*Lucy Chambers ([@lucyfedia](https://twitter.com/lucyfedia))*\ +*Jonathan Gray ([@jwyg](https://twitter.com/jwyg))*\ +*March 2012* + +## El Manual de un vistazo + +Este manual a un vistazo: la infografista Lulu PInney creó este +magnífico afiche, que da una visión general del contenido del Manual de +periodismo de datos + +![El Manual de un vistazo](figs/incoming/00-poster.png) + +El Manual de Periodismo de Datos puede ser copiado libremente, +redistribuido y reusado bajo los términos de la licencia [Creative +Commons +Atribución-CompartirIgual](http://creativecommons.org/licenses/by-sa/3.0/). +Los contribuyentes al Manual del Periodimo de Datos retienen el +copyright sobre sus contribuciones respectivas y están de acuerdo en +publicarlas bajo los términos de esta licencia. + + +# Introducción + +¿Qué es el periodismo de datos? ¿Qué potencial tiene? ¿Cuáles son sus +límites? ¿De dónde viene? En esta sección analizamos qué es el +periodismo de datos y lo que puede significar para las organizaciones de +noticias. Paul Bradshaw (Birmingham City University) y Mirko Lorenz +(Deutsche Welle) se refieren a la particular importancia de esta nueva +disciplina. Destacados periodistas de datos comentan las claves a tener +en cuenta y sus ejemplos favoritos. Finalmente Liliana Bounegru +(European Journalism Centre) ubica al Periodismo de Datos en un contexto +histórico más amplio. + +### Qué contiene este capítulo? + +- [¿Qué es el periodismo de datos?](introducción_0.html) +- [Por qué debieran usar datos los periodistas](introducción_1.html) +- [¿Por qué es importante el periodismo de + datos?](introducción_2.html) +- [Algunos ejemplos favoritos](introducción_3.html) +- [El periodismo de datos en perspectiva](introducción_4.html) + + +## ¿Qué es el periodismo de datos? + +¿Qué es el periodismo de datos? Podría contestar, simplemente, que es +periodismo que se hace con datos. Pero eso no es de gran ayuda. + +Tanto “datos” como “periodismo” son términos problemáticos. Algunos +creen que “datos” es cualquier colección de cifras, por lo general +reunidas en una hoja de cálculo. Hace 20 años, esos eran prácticamente +los únicos datos que manejaban los periodistas. Pero ahora vivimos en un +mundo digital, un mundo en el que casi cualquier hecho puede ser (y casi +todo es) descripto con números. + +Su carrera profesional, 300.000 documentos confidenciales, las personas +que componen su círculo de amigos; todo esto puede ser (y es) descripto +con solo dos números: ceros y unos. Fotos, video, y audio; asesinatos, +enfermedades, votos políticos, corrupción y mentiras, también descriptos +con ceros y unos. + +¿Qué es lo que hace que el periodismo de datos sea diferente del resto +del periodismo? Quizás sean las nuevas posibilidades que aparecen, +cuando se combina el tradicional “olfato para las noticias” y la +capacidad de narrar una historia convincente, con la escala y alcance de +la información digital disponible en la actualidad. + +Y esas posibilidades pueden aparecer en cualquier momento del proceso +periodístico: cuando contamos con la programación necesaria para +automatizar el proceso de recoger y combinar información proveniente del +gobierno municipal, la policía y otras fuentes civiles, como hizo Adrian +Holovaty con [ChicagoCrime](http://chicago.everyblock.com/crime/) y +luego [EveryBlock](http://www.everyblock.com/). + +O usar software para encontrar relaciones entre cientos y miles de +documentos, tal como hizo The Telegraph con [los gastos de los +parlamentarios](http://tgr.ph/mps-expenses). + +![Investigue los gastos de su representante parlamentario (The Guardian)](figs/incoming/01-01.png) + +El periodismo de datos puede ayudar a un periodista a contar una +historia convincente por medio de infografías atractivas. Por ejemplo, +las conversaciones espectaculares de Hans Roslign sobre la visualización +de la pobreza mundial con [Gapminder](http://www.gapminder.org/) (que se +puede traducir como Recuerdabrecha, n. del t.) han atraído millones de +visitas en todo el mundo. Y la obra popular de David McCandless al +destilar grandes cifras –tales como poner en contexto el gasto público, +o la polución generada por el volcán islandés- muestra la importancia de +un diseño claro en [Information is Beautiful](http://www.informationisbeautiful.net/). + +O puede ayudar a explicar cómo se relaciona una historia con un +individuo, como hacen ahora la BBC y el Financial Times habitualmente +con sus interactivos sobre el presupuesto (donde usted puede averiguar +cómo el presupuesto lo afecta en particular a usted en vez de a un +genérico “Juan Pueblo”). Y puede abrir el proceso mismo de búsqueda de +información, como hace The Guardian de modo tan exitoso al compartir +datos, contexto y preguntas en su +[Datablog](http://www.guardian.co.uk/news/datablog). + +Los datos pueden ser la fuente del periodismo de datos, o pueden ser la +herramienta con la que se narra la historia o ambas cosas. Como +cualquier fuente, debe tratarse con escepticismo; y como cualquier +herramienta, debemos ser conscientes de cómo puede modelar y limitar las +historias que se crean con la misma. + +— *Paul Bradshaw, Birmingham City University* + + +## Por qué debieran usar datos los periodistas + +El periodismo está sitiado. En el pasado, como sector, nos basábamos en +ser los únicos que operábamos una tecnología para multiplicar y +distribuir lo que había pasado de un día al otro. La imprenta servía +como puerta de entrada. Cualquiera que quisiera llegar a la gente de una +ciudad o una región a la mañana siguiente, recurría a los diarios. Esa +era se acabó. + +Hoy las noticias fluyen al mismo tiempo que suceden, a través de +múltiples fuentes, testigos presenciales y blogs, y lo que ha sucedido +es filtrado a través de una vasta red de conexiones sociales, se +jerarquiza, se comenta y muy a menudo se ignora. + +Por eso el periodismo de datos es tan importante. Reunir, filtrar y +visualizar lo que sucede más allá de lo que nos muestran nuestros ojos +tiene creciente valor. En la economía global de hoy el jugo de naranja +que toma por la mañana, el café que prepara… hay relaciones invisibles +entre estos productos, otra gente y usted. El lenguaje de esta red es el +de los datos: pequeños puntos de información que a menudo son +irrelevantes como instancia individual, pero enormemente importantes +cuando se los ve desde el ángulo correcto. + +En este momento, unos cuantos periodistas pioneros ya están demostrando +cómo se puede usar datos para crear una visión más profunda de lo que +sucede a nuestro alrededor y cómo puede afectarnos. + +El análisis de datos puede revelar “la forma de una historia” (Sarah +Cohen) o proveernos una “nueva cámara” (David McCandless). Usando datos, +la tarea de los periodistas pasa de centrarse en ser los primeros en +informar, a ser los que nos dicen lo que un proceso podría significar +realmente. La gama de temas puede ser amplia. La próxima crisis +financiera en ciernes. Los datos económicos detrás de los productos que +usamos. El mal uso de fondos o errores políticos, presentados con una +visualización convincente que deje poco margen para rebatirla. + +Es por esto que los periodistas debieran ver los datos como una +oportunidad. Es posible, por ejemplo, revelar cómo una amenaza abstracta +(como el desempleo) afecta a la gente de acuerdo a su edad, su género o +su nivel de educación. Usar datos transforma algo abstracto en algo que +todos pueden entender y con lo que pueden relacionarse. + +Pueden crear herramientas de cálculo personalizadas para ayudar a la +gente a tomar decisiones, se trate de comprar un auto o una casa, +decidir un rumbo educativo o profesional en su vida, o hacer un control +de costos para no meterse en deudas. + +Pueden analizar la dinámica de una situación compleja como disturbios o +un debate político, mostrar falacias y ayudar a todos a encontrar +posibles soluciones para problemas complejos. + +Formarse en la búsqueda, depuración y visualización de datos es +transformador para la profesión de reunir información también. Los +periodistas que dominen esto descubrirán que apoyar sus artículos en +datos y la visión que aportan es un alivio. Menos adivinar, menos buscar +citas; en vez de ello, un periodista puede crear una posición fuerte +apoyada en datos y esto puede afectar mucho el rol del periodismo. + +Además, introducirse en el periodismo de datos ofrece una perspectiva +para el futuro. Hoy, cuando las redacciones se reducen, la mayoría de +los periodistas esperan cambiar el área de las relaciones públicas. Pero +los periodistas de datos o los científicos de datos ya son un grupo de +profesionales muy solicitados, no solo por los medios. Las empresas e +instituciones de todo el mundo buscan “gente que encuentre sentido a las +cosas”, y profesionales que sepan cómo revisar datos y convertirlos en +algo tangible. + +Los datos representan una promesa, y esto es lo que entusiasma a las +redacciones, haciéndolas buscar un nuevo tipo de periodista. Para la +gente que trabaja por su cuenta, manejar datos ofrece un camino para +obtener nuevas oportunidades y un salario estable también. Véalo de este +modo: en vez de contratar periodistas que llenen rápidamente páginas y +sitios en la red con contenido de bajo valor, el uso de datos podría +crear demanda para paquetes interactivos, que solo pueden crearse +invirtiendo una semana entera en resolver una cuestión. Esto es un +cambio positivo para muchos sectores de los medios. + +Hay una barrera que impide a los periodistas usar este potencial: la +necesidad de capacitarse para trabajar con datos en todos los pasos, +desde una primera pregunta hasta un gran impacto periodístico basado en +datos. + +Trabajar con datos es como introducirse en un territorio vasto y +desconocido. A primera vista los datos crudos resultan inteligibles para +los ojos y la mente. Tales datos son inmanejables. Es difícil ordenarlos +correctamente para su visualización. Se necesita periodistas +experimentados, que tengan la energía como para analizar datos crudos a +menudo confusos o aburridos y “ver” las historias ocultas allí. + +— *Mirko Lorenz, Deutsche Welle* + + +####El estudio + +El European Journalism Centre realizó una +[encuesta](http://bit.ly/ddjnet-survey) para saber más sobre las +necesidades de capacitación de los periodistas. Descubrimos que hay una +gran disposición de salir de la postura cómoda del periodismo +tradicional, e invertir tiempo para dominar nuevas capacidades. Los +resultados de la encuesta demuestran que los periodistas ven la +oportunidad, pero necesitan un poco de apoyo para superar los problemas +iniciales que les impiden trabajar con daos. Hay confianza de que si el +periodismo de datos fuera adoptado de modo más universal, los flujos de +trabajo, las herramientas y los resultados mejorarían rápidamente. +Pioneros tales como The Guardian, The New York Times, The Texas Tribune, +y Die Zeit siguen elevando el nivel con sus artículos basados en datos. + +¿El periodismo de datos seguirá siendo el dominio de un pequeño puñado +de pioneros o pronto toda organización de noticias tendrá su propio +equipo de periodistas dedicados especialmente a los datos. Esperamos que +este manual ayude a más periodistas y redacciones a aprovechar este +campo emergente. + +![Encuesta del European Journalism Centre sobre necesidades de capacitación](figs/incoming/01-DD.png) + + +## ¿Por qué es importante el periodismo de datos? + +Preguntamos a algunos de los principales practicantes y partidarios del +periodismo de datos por qué piensan que el periodismo de datos es un +desarrollo importante. los datos crudos resultan inteligibles para los +ojos y la mente. Esto es lo que dijeron. + + +### Filtrar el flujo de datos + +Cuando había escasez de información, la mayor parte de nuestros +esfuerzos estaban dedicados a buscarla y reunirla. Ahora que la +información es abundante, es más importante el procesamiento. El +procesamiento tiene dos niveles: 1) análisis para encontrar sentido y +estructura en el flujo sin fin de datos y 2) presentación de esa +información para meter lo que es importante y relevante en la cabeza del +consumidor. Al igual que la ciencia, el periodismo de datos da a conocer +sus métodos y presenta sus descubrimientos de un modo que pueda ser +verificado a través de su replicado. + +— *Philip Meyer, Professor Emeritus, University of North Carolina at +Chapel Hill* + + +### Nuevos enfoques para narrar historias + +El periodismo de datos es un término abarcativo que, para mí, incluye un +conjunto de herramientas, técnicas y enfoques de la narrativa siempre +crecientes. Puede incluir todo, desde el tradicional periodismo asistido +por computadoras (usando datos como una “fuente”) hasta la visualización +más avanzada de datos y aplicaciones de noticias. El objetivo unificador +es periodístico: proveer información y análisis para ayudar a +informarnos todos sobre asuntos importantes de actualidad. + +— *Aron Pilhofer, New York Times* + + +### Como periodismo fotográfico con una laptop + +“El periodismo de datos” difiere del “periodismo escrito” solo en que +usamos un equipo diferente. Todos nos ganamos la vida olfateando, +reportando y relacionando historias. Es como el “periodismo +fotográfico”; solo hay que cambiar la cámara por una laptop. + +— *Brian Boyer, Chicago Tribune* + + +### El periodismo de datos es el futuro + +El periodismo de datos es el futuro. Los periodistas tienen que saber +manejar datos. Hace un tiempo uno descubría cosas hablando con gente en +bares, y puede ser que esto siga sucediendo a veces. Pero ahora también +se trata de analizar datos, equiparse con herramientas, y analizarla y +encontrar lo que es interesante. Tener todo en perspectiva, ayudando a +la gente a ver cómo encajan las piezas (para no repetir todo), y qué +pasa en el país. + +— *Tim Berners-Lee, founder of the World Wide Web* + + + +### El procesamiento de cifras se une al pulido del lenguaje + +El periodismo de datos es tender un puente para superar la brecha entre +los técnicos estadísticos y los cinceladores de palabras. Ubicar cosas +destacadas e identificar tendencias que no solo son significativas +estadísticamente sino que también son relevantes para desentrañar el +mundo de hoy, que es intrínsecamente complejo. + +— *David Anderton, freelance journalist* + + +### Actualizar sus capacidades + +El periodismo de datos implica un nuevo conjunto de habilidades para +buscar, comprender y visualizar fuentes digitales, en una época en que +las capacidades básicas del periodismo tradicional ya no bastan. No lo +reemplaza, le agrega cosas. + +En un momento en que las fuentes se están volviendo digitales, los +periodistas pueden y tienen que estar más en contacto con estas fuentes. +Internet abrió posibilidades que van más allá de lo que podemos entender +hoy. El periodismo de datos es solo el comienzo de la evolución de +nuestras prácticas pasadas para adaptarse al online. + +El periodismo de datos sirve a dos importantes propósitos para las +organizaciones de noticiosas: encontrar historias únicas (no de los +cables) y ejecutar la función de alerta. Especialmente en tiempos de +crisis financieras, estos objetivos son importantes para los diarios. + +Desde el punto de vista de un diario regional, el periodismo de datos es +crucial. Existe el dicho: “una teja floja en su casa se considera más +importante que disturbios en un país lejanos”. A uno lo golpea en la +cara e impacta en su vida de modo más directo. Al mismo tiempo, la +digitalización está en todas partes. Debido a que los diarios locales +tienen este impacto directo en su vecindario y las fuentes se vuelven +digitalizadas, un periodista debe saber cómo encontrar, analizar y +visualizar una historia a partir de datos. + +— *Jerry Vermanen, NU.nl* + + +### Un remedio para la asimetría de la información + +La asimetría de la información –no la falta de información sino la +incapacidad de absorberla y procesarla a la velocidad y con el volumen +que nos llega- es uno de los problemas más significativos que enfrentan +los ciudadanos al elegir cómo vivir sus vidas. La información tomada de +medios impresos, visuales y radiales influye en las opciones y las +acciones de los ciudadanos. El buen periodismo de datos ayuda a combatir +la asimetría de la información. + +— *Tom Fries, Bertelsmann Foundation* + + +### Una respuesta a las relaciones públicas basadas en datos + +La disponibilidad de herramientas de medición y sus precios decrecientes +–en una combinación auto-sustentada que se concentra en el desempeño y +la eficiencia en todos los aspectos de la sociedad- han llevado a +quienes toman las decisiones a cuantificar los avances de sus políticas, +monitorear tendencias e identificar oportunidades. + +Las compañías continuamente encuentran nuevas mediciones que muestran su +buen desempeño. A los políticos les encanta alardear de las cifras sobre +reducción de desempleo y crecimiento del PBI. La falta de conocimientos +por parte de los periodistas respecto de los escándalos de Enron, +Worldcom, Madoff o Solyndra es prueba de la incapacidad de muchos +profesionales de ver más allá de las cifras. Hay una tendencia a aceptar +las cifras más que otros datos, ya que tienen un aura de seriedad, +aunque sean completamente inventadas. + +El saber manejar datos ayudará a los periodistas a aguzar su sentido +crítico al enfrentar cifras, y ojalá que les sirva para avanzar un poco +en su relación con los departamentos de RRPP. + +— *Nicolas Kayser-Bril, Journalism++* + + +### Proveer interpretaciones independientes de información oficial + +Luego del terremoto devastador y el subsecuente desastre de la planta +nuclear de Fukushima en 2011, la importancia del periodismo de datos se +ha hecho claro para la gente de medios en Japón, país que en general va +a la zaga en materia de periodismo digital. + +Quedamos a la deriva cuando el gobierno y los expertos no tuvieron datos +creíbles acerca de los daños. Cuando los funcionarios ocultaron al +público los datos SPEEDI (predicción de difusión de materiales +radioactivos), no estábamos en condiciones de decodificarlos aunque se +hubiesen filtrado. Voluntarios comenzaron a reunir datos sobre +radioactividad usando sus propios recursos, pero no estábamos armados +con conocimientos estadísticos, de interpolación, de visualización y +demás. Los periodistas tienen que tener acceso a los datos en crudo y +aprender a no depender de las interpretaciones oficiales de los mismos. + +— *Isao Matsunami, Tokyo Shimbun* + +### Manejar el diluvio de datos + +Los desafíos y las oportunidades que presenta la revolución digital +siguen complicando al periodismo. En una era de abundancia de +información, los periodistas y los ciudadanos necesitan mejores +herramientas, se trate de curar los samizdat del siglo XXI en Medio +Oriente, procesar una avalancha de datos difundidos a medianoche, o +encontrar la mejor manera de visualizar la calidad del agua en una +nación. Al debatirnos con los desafíos del consumo que presenta este +diluvio de datos, las nuevas plataformas de edición también están dando +a todos el poder de reunir y compartir datos digitalmente, +convirtiéndolos en información. Mientras los periodistas y editores han +sido los vectores tradicionales de la colecta y diseminación de +información, el ambiente horizontal de información ahora hace que las +noticias se conozcan primero online y no en las redacciones. + +En todo el planeta, de hecho, el vínculo entre los datos y el periodismo +se está fortaleciendo. En una era de grandes cantidades de datos, la +creciente importancia del periodismo de datos está en la capacidad de +sus practicantes de dar contexto, claridad y –quizás lo más importante, +encontrar la verdad en la cantidad en expansión de contenido digital en +el mundo. Eso no significa que las organizaciones de medios integradas +de hoy no tengan un rol crucial. Lejos de ello. En la era de la +información, se necesita más que nunca a los periodistas para curar, +verificar, analizar y sintetizar los datos. En ese contexto, el +periodismo de datos tiene una profunda importancia para la sociedad. + +Hoy, encontrarle sentido a los grandes volúmenes de datos, en particular +los datos no estructurados, serán un objetivo central de los científicos +de todo el mundo, trabajen en salas de redacción, Wall Street o Silicon +Valley. Notoriamente esa meta se verá facilitada sustancialmente por un +conjunto creciente de herramientas comunes, sean empleadas por +tecnólogos del estado, tecnólogos de la salud o desarrolladores de las +redacciones. + +— *Alex Howard, O’Reilly Media* + + +### Nuestras vidas son datos + +El buen periodismo de datos es difícil, porque el buen periodismo es +difícil. Significa cómo obtener los datos, cómo entenderlos, y cómo +encontrar la historia. A veces hay callejones sin salida, y a veces no +hay una gran historia. Al fin de cuentas, si solo fuera cuestión de +apretar el botón indicado, no sería periodismo. Pero eso es lo que hace +que valga la pena –en un mundo en el que nuestras vidas cada vez son más +datos-, que sea esencial para una sociedad libre y justa. + +— *Chris Taggart, OpenCorporates* + + +### Una manera de ahorrar tiempo + +Los periodistas no tienen tiempo para perder transcribiendo cosas a mano +y complicarse tratando de obtener información de archivos PDF, por lo +que aprender un poco de código (o saber dónde buscar gente que puede +ayudar) es increíblemente valioso. + +Un periodista de Folha do Sāo Paulo estaba trabajando con el presupuesto +local y me llamó para agradecernos por publicar online las cuentas de la +municipalidad de Sāo Paulo (2 días de trabajo para un solo hacker). Dijo +que las había estado transcribiendo a mano los últimos 3 meses, tratando +de encontrar una historia. También recuerdo haber resuelto un “problema +de PDF” para *Contas Abertas*, una organización que monitorea noticias +parlamentarias: 15 minutos y 15 líneas de código, en vez de un mes de +trabajo. + +— *Pedro Markun, Transparência Hacker* + + +### Una parte esencial del herramental del periodista + +Creo que es importante destacar el aspecto “periodístico” o de reportero +del “periodismo de datos. El ejercicio no debiera ser analizar o +visualizar datos por el gusto de hacerlo, sino utilizarlo como +herramienta de modo de aproximarnos más a la verdad de lo que sucede en +el mundo. Veo la capacidad de analizar e interpretar datos como parte +esencial del set de herramientas actual de los periodistas, en vez de +una disciplina por separado. Al fin de cuentas, todo tiene que ver con +el buen periodismo y contar historias del modo más apropiado. + +El periodismo de datos es otra manera de analizar el mundo y hacer que +los poderes constituidos rindan cuentas. Con una creciente cantidad de +datos disponible, ahora es más importante que nunca que los periodistas +sean conscientes de las técnicas del periodismo de datos. Esta debe ser +una herramienta que cualquier periodista debiera incorporar, se trate de +aprender cómo trabajar directamente con datos, o a colaborar con alguien +que lo pueda hacer. + +Su verdadero potencial está en ayudarlo a obtener información que de +otro modo sería muy difícil de encontrar o demostrar. Un buen ejemplo es +la historia de Steve Doig que analizó patrones de daños del huracán +Andrew. Unió dos conjuntos distintos de datos: uno que mapeaba el nivel +de destrucción causado por el huracán, y otro que muestra las +velocidades de los vientos. Esto le permitió señalar áreas en las cuales +las malas prácticas en la construcción de edificios +contribuyeron/intensificaron el impacto del desastre. Ganó por la +historia un [Pulitzer Prize](http://www.pulitzer.org/awards/1993) en +1993 y sigue siendo un gran ejemplo de lo que es posible. + +Idealmente se usan los datos para descubrir cosas destacadas, +sorprendentes o áreas de interés. En este sentido, actúan como pistas. +Si bien las cifras pueden ser interesantes, no basta escribir solamente +sobre datos. Hay que hacer el trabajo de periodista para explicar qué +significan. + +— *Cynthia O’Murchu, Financial Times* + + + +### Adaptarse a cambios en nuestro ambiente de información + +Las nuevas tecnologías digitales generan nuevas maneras de producir y +diseminar el conocimiento en la sociedad. El periodismo de datos puede +entenderse como el intento de los medios de adaptarse y responder a los +cambios en el ambiente de la información, incluyendo maneras de contar +historias más interactivas y multidimensionales, que permite a los +lectores explorar las fuentes que subyacen a las noticias, alentándolos +a participar en el proceso de crear y evaluar historias. + +— *César Viana, University of Goiás* + + +### Una manera de ver cosas que de otro modo podría no ver + +Algunas historias sólo pueden entenderse y explicarse analizando –y a +veces visualizando- datos. Las relaciones entre personas o entes +poderosos quedarían sin revelar, las muertes causadas por políticas +farmacéuticas permanecerían ocultas, las políticas ambientales que dañan +el medio continuarían sin límite. Pero cada una de estas situaciones han +podido modificarse gracias a los datos obtenidos, analizados y aportados +por los periodistas a los lectores. Los datos pueden ser simples como +una planilla de cálculo, o un registro de llamadas telefónicas, o +complejos como los resultados de pruebas escolares o datos de +infecciones hospitalarias; como sea, allí hay historias que vale la pena +contar. + + +— *Cheryl Phillips, The Seattle Times* + + + +### Una manera de enriquecer los artículos + +Podemos pintar cuadros de nuestras vidas completas con nuestro rastro +digital. Desde lo que consumimos y navegamos, hasta donde y cuando +viajamos, nuestras preferencias musicales, nuestros primeros amores, los +hitos de nuestros hijos, incluso nuestros últimos deseos, todo puede ser +rastreado, digitalizado, almacenado en la nube y difundido.\*\*Este +universo de datos puede ser sacado a la superficie para narrar +historias, responder preguntas e impartir una comprensión de la vida de +maneras que actualmente superan incluso la más rigurosa y cuidadosa +reconstrucción de anécdotas. + +— *Sarah Slobin, Wall Street Journal* + + + +### No se necesitan nuevos datos para tener una primicia + +A veces los datos ya son públicos y están disponibles, pero nadie los ha +analizado atentamente. En el caso del informe de Associated Press sobre +4500 páginas de documentos desclasificados que describen las acciones de +contratistas de seguridad privados durante la guerra de Irak, el +material fue obtenido por un periodista independiente a lo largo de +varios años, usando pedidos de Acceso a la Información dirigidos al +departamento de Estado de EE.UU. Escanearon los resultados impresos y +los subieron a DocumentCloud, lo que nos permitió hacer nuestro análisis +general. + +— *Jonathan Stray, The Overview Project* + + +## Algunos ejemplos favoritos + +Le preguntamos a algunos de nuestros colaboradores acerca de sus +ejemplos favoritos de periodismo de datos y qué les gusta de los mismos. +Sus respuestas, a continuación: + + +### No causar daño, en el Las Vegas Sun + +![No causar daño (The Las Vegas Sun)](figs/incoming/01-GG.png) + +Mi ejemplo favorito es la serie [No causar daño](http://www.lasvegassun.com/hospital-care/) +de 2010 en Las Vegas Sun, sobre la atención en los hospitales. El Sun analizó más de +2.900.000 de registros de aranceles hospitalarios, que revelaron más de +3600 lesiones, infecciones y errores quirúrgicos evitables. Obtuvieron +datos a través de un pedido de acceso a archivos públicos e +identificaron más de 300 casos en que los pacientes murieron por errores +que pudieron haberse prevenido. Contiene distintos elementos, incluyendo +un [gráfico interactivo](http://bit.ly/lvsun-surgery) que permite al +lector ver (por hospital) donde se dieron lesiones quirúrgicas más a +menudo de lo esperado; un [mapa](http://bit.ly/lvsun-infections) con un +cronograma que muestra cómo se extienden las infecciones hospital por +hospital; y un [gráfico interactivo](http://bit.ly/lvsun-events) que +permite a los usuarios ordenar los datos por lesiones evitables o por +hospital, para ver dónde la gente se ve afectada. Me gusta porque es muy +fácil de entender y navegar. Los usuarios pueden explorar los datos de +manera muy intuitiva. + +Además tuvo un impacto real: la legislatura de Nevada respondió con [6 +legislaciones](http://bit.ly/lvsun-milestone). Los periodistas +involucrados trabajaron muy duro para obtener y desmenuzar los datos. +Uno de los periodistas, Alex Richards, envió los datos a los hospitales +y al Estado al menos una docena de veces para lograr que se corrigieran +los errores. + +— *Angélica Peralta Ramos, La Nación (Argentina)* + + +### Base de datos de salarios de empleados del Estado + +![Salarios de Empleados del Estado (The Texas Tribune)](figs/incoming/01-FF.png) + +Me encanta el trabajo que pequeñas organizaciones independientes +realizan todos los días tales como ProPublica o el Texas Tribune, que +tiene a Ryan Murphy como gran periodista de datos. Si tuviera que +elegir, optaría por el proyecto de base de datos de [Salarios de +Empleados del Estado del Texas +Tribune](http://www.texastribune.org/library/data/government-employee-salaries/). +Este proyecto reúne en una base de datos la información de los salarios +de 660.000 empleados estatales para que los usuarios busquen y ayuden a +generar historias. Se puede buscar por ente estatal, nombre o salario. +Es simple, significativo y pone a disposición del público información +hasta ahora inaccesible. Es fácil de usar y genera historias de manera +automática. Es un gran ejemplo que muestra por qué el Texas Tribune +concentra la mayor parte de su tráfico en sus páginas de datos. + +— *Simon Rogers, The Guardian* + + +### Visualización de texto completo de los registros de la guerra de Irak, Associated Press + +![Análisis de los registros de guerra (Associated Press)](figs/incoming/01-YY.jpg) + +El trabajo de Jonathan Stray y Julian Burgess sobre los [registros +(logs) de la Guerra de Irak](http://bit.ly/jstray-warlogs) es una +llamativa incursión en el análisis de texto y la visualización, +utilizando técnicas experimentales para comprender temas que vale la +pena explorar, dentro de un gran conjunto de datos en formato texto. + +Por medio de técnicas y algoritmos de analítica de textos, Jonathan y +Julian crearon un método que muestra concentraciones de palabras clave +contenidas en miles de informes del gobierno de Estados Unidos sobre la +guerra de Irak, difundido por WikiLeaks, en un formato visual. + +Si bien este método tiene limitaciones y el trabajo es experimental, es +un enfoque nuevo e innovador. En vez de tratar de leer todos los +archivos o revisar los registros de guerra con una noción preconcebida +de lo que puede encontrarse ingresando palabras claves y revisando el +resultado, esta técnica calcula y visualiza temas/palabras clave de +particular relevancia. + +Con crecientes cantidades de datos en formato texto (emails, informes, +etc.) y numérico llegando al dominio público, encontrar maneras de +determinar áreas de interés clave se volverá cada vez más importante. Es +un sub-campo interesante del periodismo de datos. + +— *Cynthia O’Murchu, Financial Times* + + +### Misterios de Asesinatos + +![Misterios de asesinatos (Scripps Howard News Service)](figs/incoming/01-XX.jpg) + +Una de mis piezas favoritas de periodismo de datos es el proyecto de +[Misterios de Asesinatos](http://bit.ly/murder-mysteries), por Tom +Hargrove del Scripss Howard News Service. A partir de datos oficiales y +pedidos de acceso a registros públicos, creó una base de datos, que +incluye el detalle demográfico de más de 185.000 asesinatos no +resueltos, y luego diseñó un algoritmo para buscar patrones que sugieran +la posible presencia de asesinos seriales. + +Este proyecto tiene todo: un gran trabajo, una base de datos mejor que +la del estado, análisis inteligente usando técnicas de ciencias +sociales, y una presentación interactiva de datos online de modo que los +lectores puedan explorar por su cuenta. + +— *Steve Doig, Walter Cronkite School of Journalism, Arizona State +University* + + +### Máquina de Mensajes + +![Máquina de Mensajes (ProPublica)](figs/incoming/01-HH.png) + +Me encanta la historia de [Máquina de +Mensajes](http://bit.ly/message-machine) de ProPublica y su [blog +nerd](http://bit.ly/nerd-blog-post). Todo comenzó cuando un grupo de +tuiteros expresó curiosidad por haber recibido correos electrónicos +diferentes de la campaña de Barack Obama. La gente de ProPublica tomó +nota y pidió a su público que reenviaran los correos que recibieran de +la campaña. La presentación es elegante, un análisis diferencial visual +de varios correos diferentes que fueron enviados esa noche. Es admirable +porque recogieron sus propios datos (una pequeña muestra, pero lo +suficiente como para contar la historia). Pero es aún más admirable +porque cuenta la historia de un fenómeno en curso: gran cantidad de +datos utilizados en campañas políticas para dirigir mensajes a +individuos específicos. Es sólo un anticipo de cosas por venir. + +— *Brian Boyer, Chicago Tribune* + + +### Chartball + +![Gráfico de victorias y derrotas (Chartball)](figs/incoming/01-JJ.png) + +Uno de mis proyectos de periodismo de datos favoritos es el trabajo de +Andrew García Phillips sobre +[Chartball](http://www.chartball.com/). +Andrew es fanático de los deportes con un voraz apetito de datos, un ojo +tremendo para el diseño y la capacidad de escribir código. En Chartball +no solo visualiza el conjunto de la historia, sino que detalla los +éxitos y fracasos de jugadores individuales y equipos. Ofrece contexto, +un gráfico atractivo y su trabajo es profundo, divertido e interesante, +y a mí ni siquiera me interesan demasiado los deportes. + +— *Sarah Slobin, Wall Street Journal* + +## El periodismo de datos en perspectiva + +En agosto de 2010 algunos colegas del European Journalism Centre y yo +organizamos lo que creemos que fue una de las primeras [conferencias +internacionales de periodismo de datos](http://bit.ly/ddj-conf), que se +realizó en Ámsterdam, Holanda. En aquel momento no había mucha discusión +respecto del tema, y solo había un par de organizaciones conocidas +ampliamente por su labor en esta área. + +La manera en que organizaciones de noticias como The Guardian y el New +York Times manejaron las grandes cantidades de datos difundidos por +WikiLeaks, es uno de los grandes casos que impulsaron el término. En +aquel momento el concepto comenzó a tener un uso más amplio (junto con +“el periodismo asistido por computadora”) para describir cómo los +periodistas utilizaban datos para mejorar su cobertura y amplificar +investigaciones profundas de un tema dado. + +Hablando con periodistas de datos y estudiosos del periodismo [on +Twitter](http://bit.ly/smfrogers-status), parecería que una de las +formulaciones más tempranas de lo que ahora reconocemos como periodismo +de datos, en 2006 por Adrian Holovaty, fundador de EveryBlock, un +servicio de información que permite a los usuarios saber lo que ha +estado sucediendo en su área, en su manzana. En su breve ensayo [“Un +modo fundamental en que los sitios de diarios tienen que +cambiar”](http://www.holovaty.com/writing/fundamental-change/), sostiene +que los periodistas deben publicar datos estructurados procesables por +la computadora, junto con el “gran bodoque de texto” tradicional: + +> Por ejemplo, digamos que un diario ha escrito una historia sobre un +incendio local. Poder leer la historia en un celular está bien. Viva la +tecnología. Pero lo que realmente quiero poder hacer es explorar los +datos en crudo de esa historia, uno por uno, con capas de atribuciones, +y una infraestructura para comparar detalles del incendio con incendios +anteriores: fecha, momento, lugar, victimas, número de la central de +bomberos, distancia de la central de bomberos, nombres y años de +experiencia de los bomberos que actuaron, el tiempo que les llevó a los +bomberos llegar, e incendios posteriores, cuando sea que sucedan. + +¿Pero qué es lo que distingue esto de otras formas de periodismo que +usan bases de datos o computadoras? ¿Cómo y en qué medida el periodismo +de datos es distinto de otras formas de periodismo del pasado? + + + +### Periodismo Asistido por Computadora y Periodismo de Precisión + +Usar datos para mejorar los informes y presentar información +estructurada (aunque no sea legible por la computadora) al público tiene +una larga historia. Quizás lo más relevante en forma inmediata para lo +que ahora llamamos periodismo de datos es el periodismo asistido por +computadora, conocido por la sigla CAR, que fue el primer abordaje +organizado y sistemático del uso de computadoras para recoger y analizar +datos de modo de mejorar las noticias. + +El CAR fue usado por primera vez en 1952 por CBS para predecir los +resultados de la elección presidencial. Desde la década del ‘60 +periodistas (en su mayoría de investigación y de Estados Unidos) han +buscado controlar el poder de modo independiente analizado bases de +datos de registros públicos con métodos científicos. También conocido +como “periodismo de servicio público” los partidarios de estas técnicas +con ayuda de computadoras han buscado revelar tendencias, demostrar la +falsedad de creencias populares y revelar injusticias perpetradas por +autoridades y corporaciones privadas. Por ejemplo, Philip Meyer trató de +demostrar la falsedad de los informes de los disturbios en Detroit de +1967, para reflejar que no eran solo sureños poco educados los que +participaban. Las historias de Bill Dedman sobre “El Color del Dinero” +en la década del ‘80 reveló prejuicios raciales sistémicos en las +políticas de crédito de las principales instituciones financieras. En su +artículo “Lo Que Salió Mal” Steve Doig buscó analizar los patrones de +daños del huracán Andrew a comienzos de la década del ‘90, para +comprender el efecto de las políticas y prácticas de desarrollo urbanas +fallidas. Los reportes basados en datos han generado valiosos servicios +al público y permitido a los periodistas ganar importantes premios. + +A comienzos de la década del ‘70 el término *periodismo de precisión* +fue acuñado para describir este tipo de recolección de noticias: “la +aplicación de métodos de investigación de las ciencias sociales y de la +conducta a la práctica del periodismo” (de “[The New Precision +Journalism](http://bit.ly/precision-journalism)”, por Philip Meyer). Se +creó el periodismo de precisión para que fuera practicado en las +principales instituciones de medios por profesionales formados en +periodismo y ciencias sociales. Nació en respuesta al “nuevo +periodismo”, una forma de periodismo en el que las técnicas del +periodismo se aplican a las noticias. Meyer sugiere que lo que se +necesita son técnicas científicas de recolección y análisis de datos, en +vez de técnicas literarias, para que el periodismo pueda cumplir con su +cometido de objetividad y verdad. + +Se puede entender el periodismo de precisión como una reacción frente a +algunas de las fallas y debilidades comúnmente citadas: la dependencia +de informes de prensa (lo que se describió luego como “churnalismo”), el +prejuicio en favor de fuentes autorizadas, etc. Meyer ve que estas +debilidades derivan de la falta de aplicación de técnicas científicas de +información y métodos científicos tales como encuestas y registros +públicos. En los ‘60, el periodismo de precisión fue utilizado para +representar a grupos marginales y sus historias. Según +[Meyer](http://bit.ly/p-meyer): + +> El periodismo de precisión era una manera de expandir el herramental del +periodista para hacer que temas antes inaccesibles o sòlo accesibles de +modo tosco, estuvieran abiertos a la investigación periodística. Fue +especialmente útil para dar voz a grupos minoritarios y disidentes que +luchaban por lograr representación. + +Un [artículo influyente](http://bit.ly/oxford-influential) publicado en +la década del ‘80 respecto de la relación entre el periodismo y las +ciencias sociales se hace eco del discurso sobre el periodismo de datos. +Los autores, dos profesores de periodismo estadounidenses, sugieren que +en las décadas de los años ‘70 y ‘80, la comprensión del público de lo +que son las noticias se amplía, de una concepción más estrecha de +“eventos noticiosos” al “reporte situacional” (o informes sobre +tendencias sociales). Por ejemplo, al usar bases de datos de censos o +encuestas, los periodistas logran “ir más allá de la información de +eventos específicos, aislados, para proveer contexto que les da +significado”. + +Como era de esperar, la práctica de usar datos para mejorar el +periodismo existe desde que hay datos. Como +[señala](http://bit.ly/facts-are-sacred) Simon Rogers, el primer ejemplo +de periodismo de datos en The Guardian data de 1821. Es una tabla de +escuelas en Manchester que da la cantidad de estudiantes que asisten a +clases y los costos por escuela, Según Rogers, esto ayudó a mostrar el +número real de estudiantes que recibían educación gratuita, que era +mucho mayor de lo que mostraban las cifras oficiales. + +![Periodismo de datos en The Guardian en 1821 (The Guardian)](figs/incoming/01-LL.jpg) + +Otro ejemplo temprano en Europa es de Florence Nightingale y su informe +clave, ["Mortalidad del Ejército Británico"](http://bit.ly/mortality-army), publicado en 1858. +En su informe al parlamento usó gráficos para promover mejoras en los +servicios de salud para el ejército británico. El más famoso de ellos es +su “coxcomb”, una espiral de secciones que representan muertes por mes, +en el que se destaca que la gran mayoría de las muertes eran por +enfermedades prevenibles, en vez de balas. + +![Mortalidad de la armada británica por Florence Nightingale (imagen de Wikipedia)](figs/incoming/01-MM.jpg) + + +### Periodismo de Datos y Periodismo Asistido por Computadora + +En este momento hay un debate sobre “continuidad y cambio” en torno de +la etiqueta de “periodismo de datos” y su relación con prácticas previas +periodísticas que emplean técnicas computacionales para analizar +conjuntos de datos. + +Algunos sostienen que hay una diferencia entre CAR y el periodismo de +datos. Dicen que CAR es una técnica para recoger y analizar datos como +una manera de fortalecer el periodismo (generalmente de investigación), +mientras que el periodismo de datos presta atención a la manera en que +los datos se ubican en el conjunto del flujo de trabajo periodístico. En +este sentido el periodismo de datos presta tanta –y a veces más- +atención a los datos mismos, en vez de usarlos simplemente como un medio +para encontrar o dar más fuerza a determinadas historias. De allí que +encontremos el Datablog de The Guardian o que el Texas Tribune publica +juegos de datos junto con los artículos –o incluso solo juegos de datos +por sí mismos- para que la gente analice y explore. + +Otra diferencia es que en el pasado los periodistas de investigación se +encontraban faltos de información respecto de una pregunta que trataban +de contestar, o una cuestión que trataban de abordar. Si bien esto sigue +sucediendo, también existe una abundancia abrumadora de información con +la que los periodistas a veces no saben qué hacer. No saben cómo obtener +valor de los datos. Un ejemplo reciente es el Sistema de Información +Online Combinada, la mayor base de datos del Reino Unido de información +sobre gasto público. Esta base de datos fue durante mucho tiempo un +reclamo de los partidarios de la transparencia, pero dejó confundidos y +sin respuesta a muchos periodistas cuando se publicó. Como me escribió +recientemente Philip Meyer: “Cuando la información era escasa, la mayor +parte de nuestros esfuerzos estaban dedicados a buscarla y recogerla. +Ahora que hay información abundante, el procesamiento es más +importante”. + +Por otro lado, algunos sostienen que no hay ninguna diferencia +significativa entre el periodismo de datos y el periodismo asistido por +computadoras. A esta altura resulta claro que incluso las prácticas más +recientes de los medios más novedosos combinan cosas conocidas desde +hace tiempo con algo nuevo. Antes que debatir si el periodismo de datos +es completamente nuevo, una postura más fructífera sería considerarlo +como parte de una tradición más longeva, pero que responde a nuevas +circunstancias y condiciones. Aunque no haya una diferencia en cuanto a +metas y técnicas, el surgimiento de la etiqueta “periodismo de datos” al +comienzo del siglo indica una nueva fase en la que el mero volumen de +los datos libremente disponibles online –combinado con herramientas +sofisticadas centradas en el usuario, la auto edición y las herramientas +de colaboración abierta (crowdsourcing)- permite a más gente trabajar +con más datos de modo más fácil que nunca. + +### El periodismo de datos tiene que ver con la alfabetización masiva en el manejo de datos. + +Las tecnologías digitales y la red están cambiando de modo fundamental +la manera en que se edita la información. El periodismo de datos es una +parte del ecosistema de herramientas y prácticas que han surgido en +torno a los sitios y servicios de datos. El citado y el compartir +materiales de distintas fuentes es parte de la naturaleza de la +estructura de hipervínculos de la red, y la manera en que estamos +acostumbrados a navegar la información hoy. Yendo más hacia atrás, el +principio que está en la base de la estructura de hipervínculos de la +red es el principio de la cita usado en los trabajos académicos. Citar y +compartir materiales y sus fuentes y los datos detrás de la historia es +una de las maneras básicas en las que el periodismo de datos puede +mejorar le periodismo, lo que el fundador de WikiLeaks Julian Assange, +llama el “periodismo científico”. + +Al permitir a cualquier persona recurrir a fuentes de datos y encontrar +información que es relevante, así como verificar afirmaciones y +cuestionar los supuestos comunes, el periodismo de datos representa +efectivamente la democratización masiva de recursos, herramientas, +técnicas y metodologías que antes eran usadas por especialistas, fueran +estos periodistas de investigación, científicos sociales, estadísticos, +analistas u otros expertos. Si bien actualmente citar vínculos con +fuentes de datos es algo específico del periodismo de datos, avanzamos +hacia un mundo en el que los datos estarán integrados sin fisuras en el +tejido de los medios. Los periodistas de datos tienen un rol importante +en cuanto a ayudar a bajar las barreras a la comprensión y el manejo de +datos, e incrementar la alfabetización en datos de sus lectores a escala +masiva. + +En este momento la comunidad creciente de personas que se llaman +periodistas de datos es en gran medida diferente de la comunidad CAR más +madura. Esperemos que en el futuro veamos vínculos más fuertes entre +estas dos comunidades, del mismo modo que vemos a ONG y organizaciones +de medios sociales como ProPublica y el Bureau of Investigative +Journalism trabajando junto con medios tradicionales en investigaciones. +Mientras la comunidad de periodismo de datos puede tener formas más +innovadoras de difundir datos y presentar historias, el enfoque +profundamente analítico y crítico de la comunidad CAR es algo de lo que +el periodismo de datos podría aprender. + +— *Liliana Bounegru, European Journalism Centre* + + +# En la redacción + +![](figs/incoming/02-00-cover.png) + +¿Cómo se ubica el periodismo de datos en las redacciones del mundo? +¿Cómo convencieron importantes periodistas a sus colegas de que es buena +idea publicar bases de datos o lanzar aplicaciones de noticias basadas +en datos? ¿Los periodistas debieran aprender a escribir código o +trabajar en tándem con programadores talentosos? En esta sección +analizamos el rol de los datos y el periodismo de datos en la Australian +Broadcasting Corporation, la BBC, el Chicago Tribune, The Guardian, el +Texas Tribune, y el Zeit Online. Aprendemos cómo descubrir y contratar +buenos programadores, cómo atraer a la gente con un tema a través de +hackatones y otros eventos, cómo colaborar a nivel internacional y cómo +configurar modelos de negocios para periodismo de datos. + +### Qué contiene este capítulo? + +- [La iniciativa de periodismo de datos de + ABC](en_la_redacción_0.html) +- [Periodismo de datos en la BBC](en_la_redacción_1.html) +- [El equipo de aplicaciones de noticias del Chicago + Tribune](en_la_redacción_2.html) +- [El detrás de escena del Datablog de The + Guardian](en_la_redacción_3.html) +- [Periodismo de datos en el Zeit Online](en_la_redacción_4.html) +- [Cómo contratar un hacker](en_la_redacción_5.html) +- [Ayuda externa de expertos a través de + hackatones](en_la_redacción_6.html) +- [Seguir el rastro del dinero: colaboración + internacional](en_la_redacción_7.html) +- [Nuestras historias aparecen en forma de + código](en_la_redacción_8.html) +- [Kaas & Mulvad: Contenido Semi-Terminado para Grupos con + Intereses Específicos.](en_la_redacción_9.html) +- [Modelos de negocios para periodismo de + datos](en_la_redacción_10.html) + + +## La iniciativa de periodismo de datos de ABC + +La Australian Broadcasting Corporation es la difusora pública nacional +de Australia. Sus fondos anuales son de alrededor de 1.000 millones de +dólares australianos, lo que permite sostener 7 cadenas radiales, 60 +estaciones locales de radio, 3 servicios de televisión digital, un nuevo +servicio de televisión internacional y una plataforma online con esta +oferta siempre en expansión de contenido digital y generada por los +usuarios. La última cifra disponible indica que tiene más de 4500 +empleados de tiempo completo, y casi el 70% produce contenido. + +Somos una difusora nacional muy orgullosa de nuestra independencia, +aunque con fondos del estado, por ley estamos claramente separados. +Nuestra tradición es de periodismo de servicio público independiente. La +ABC es considerada la organización de noticias más confiable del país. + +Estos son tiempos que entusiasman; bajo el mando de un director +ejecutivo (el ex ejecutivo del diario Mark Scott), se ha alentado a los +productores de contenido de ABC a ser “ágiles”, como dice el mantra +corporativo. + +Por supuesto que es más fácil decirlo que hacerlo. + +Pero la iniciativa con la que se buscaba alentar esto, ha derivado en +una competencia entre el personal por fondos para desarrollar proyectos +multi-plataforma. Así se concibió el primer proyecto de periodismo de +datos de la ABC. + +En algún momento de comienzos de 2010 me metí en una sesión de +propuestas para enfrentar a 3 jefes de “ideas” con mi proyecto. + +Lo había estado masticando por un tiempo, llenándome con el periodismo +de datos que ofrecía el ya legendario Datablog de The Guardian, y eso +solo para empezar. + +Mi argumento fue que no había duda de que en 5 años la ABC tendría su +propia unidad de periodismo de datos. Era inevitable opiné. Pero la +cuestión era cómo llegaríamos a eso y quién iniciaría la tarea. + +Aquellos lectores que no conocen la ABC deben pensar en una vasta +burocracia construida a lo largo de 70 años. Su oferta primaria siempre +fue radio y televisión. Con el advenimiento de un sitio en la red, en la +última década esta oferta de contenido se extendió a textos, imágenes +fijas y un grado de interactividad hasta entonces inimaginada. El sitio +web estaba forzando a la ABC a repensar cómo distribuía la torta (sus +fondos) y qué tipo de torta estaba cocinando (contenido). + +Por supuesto que es una obra en curso. + +Pero otra cosa estaba pasando con el periodismo de datos. Gobierno 2.0: +(que como descubrimos se cumple habitualmente en la difusión de datos en +Australia)  comenzaba a ofrecer nuevas maneras de narrar historias que +hasta entonces estaban escondidas en ceros y unos.\ +Comenté todo esto a las personas que me escuchaban. También dije que +necesitábamos identificar nuevos conjuntos de capacidades y formar a +periodistas en el manejo de nuevas herramientas. Necesitábamos un +proyecto para comenzar a andar. + +Y me dieron el dinero. + +El 24 de noviembre de 2011, el proyecto multiplataforma de la ABC y ABC +News Online salió en vivo con +["Coal Seam Gas by the Numbers"](http://bit.ly/abc-coal) +(Las cifras de gas metano de carbón). + +![Coal Seam Gas en números (ABC News Online)](figs/incoming/02-01.png) + +Se componía de 5 páginas de mapas interactivos, visualizaciones de datos +y texto. + +No era exclusivamente periodismo de datos, sino un híbrido de periodismo +que nació de la mezcla de gente del equipo y la historia, que ahora es +uno de los temas más calientes en Australia. + +La joya era un mapa interactivo que muestra yacimientos y concesiones de +gas metano de carbón en Australia. Los usuarios podían buscar por lugar +y escoger entre distintos modos para ver concesiones o yacimientos. +Usando el zoom los usuarios podían ver quién estaba a cargo de la +exploración, la situación del yacimiento y la fecha de perforación. Otro +mapa mostraba la ubicación de la actividad en gas metano de carbono con +relación a sistemas de aguas subterráneas en Australia. + +![Mapa interactivo de yacimientos y concesiones petroleras en Australia (ABC News Online)](figs/incoming/02-02.png) + +Teníamos visualizaciones de datos que específicamente abordaban la +cuestión de la producción de desechos de sal y de agua que serían +generados de acuerdo al escenario que se diera. + +Otra sección del proyecto investigó el derrame de productos químicos en +una cuenca fluvial local. + +#### Nuestro equipo + + - Un desarrollador y diseñador de sitios en la red + - Un periodista a cargo + - Un investigador part-time con experiencia en extracción de datos, planillas de cálculos Excel y depuración de datos. + - Un periodista part-time + - Un productor ejecutivo de consultor + - Un consultor académico con conocimientos de búsqueda de datos, visualización de gráficos y capacidades avanzadas de investigación. + - Los servicios de un gerente de proyecto y la asistencia administrativa de la unidad multiplataforma de ABC. + - Algo importante, también teníamos un grupo de referencia de periodistas y otros a los que consultamos según las necesidades. + +#### ¿De dónde obtuvimos los datos? + +Los datos para los mapas interactivos fueron obtenidos de shapefiles (un +tipo común de archivo para datos geo-espaciales) descargados de sitios +web del Estado. + +Otros datos sobre sal y agua fueron tomados de una variedad de informes. + +Los datos sobre deshechos químicos se tomaron de permisos ambientales +emitidos por el Estado. + +#### ¿Qué descubrimos? + +"Las cifras de gas metano de carbón" era ambicioso en contenido y en +escala. Lo más importante para mí era determinar qué habíamos aprendido +y qué debíamos hacer de modo diferente la próxima vez. + +El proyecto de periodismo de datos incorporó a mucha gente que +normalmente no se encuentra en ABC: en términos del vulgo, hackers. +Muchos no hablábamos el mismo idioma ni entendíamos lo que el otro grupo +hace. ¡El periodismo de datos revoluciona las cosas! + +Las cosas prácticas: + + - La ubicación del equipo en un mismo lugar. Nuestro programador y diseñador estaban fuera del lugar y venían para reuniones. ¡Esto definitivamente no era óptimo! Hay que poner a todos en el mismo cuarto que los periodistas. + - Nuestro consultor de producción ejecutiva también estaba en otro nivel del edificio. Necesitábamos estar mucho más cerca, simplemente + por la cuestión de poder pasar a verlo en cualquier momento. + - Escoger una historia que solo se basara en datos. + +#### El cuadro grande: algunas ideas + +Las grandes organizaciones de medios tienen que crear capacidad para +responder a los desafíos del periodismo de datos. Mi intuición es que +hay muchos técnicos y hackers ocultos en los departamentos técnicos de +los medios desesperados por salir a la luz. Por lo que necesitamos +“reuniones de periodistas y hackers”, talleres donde los geeks secretos +(como en agente secreto – se refiere a gente que domina la técnica +informática pero no tiene como trabajo las cuestiones técnicas sino que +son periodistas, etc.), los periodistas más jóvenes, los programadores, +y los diseñadores salen a jugar con periodistas más experimentados para +compartir conocimientos y tener orientación. Tarea: ¡descargar este +conjunto de datos y atacar! + +Ipso facto, el periodismo de datos es interdisciplinario. Los equipos de +periodismo de datos se componen de gente que en el pasado no habría +trabajado junta. El espacio digital ha desdibujado las fronteras. + +Vivimos en una comunidad política fracturada, desconfiada. El modelo de +negocios que antes generaba periodismo independiente profesional –por +imperfecto que sea- está al borde del colapso. Debemos preguntarnos, +como muchos ya lo hacemos, cómo sería el mundo sin un cuarto poder +viable. El periodista e intelectual estadounidense Walter Lippman +comentó en la década de ‘20 que “se reconoce que no puede existir una +opinión pública sana sin acceso a las noticias”. Esa afirmación es +igualmente válida ahora. En el siglo XXI todo el mundo está en la +blogósfera. Es difícil diferenciar a los periodistas profesionales del +cuentero, el mentiroso, el simulador y quién defiende intereses creados. +Cualquier sitio o fuente puede hacerse pasar por creíble, bien +presentado y honesto. Las referencias confiables se mueren junto al +camino. Y en este nuevo espacio de periodismo basura, los hipervínculos +pueden llevar a los lectores interminablemente a otras fuentes más +inútiles pero de aspecto brillante que no hacen más que llevar de un +hipervínculo a otro en el salón digital de los espejos. El término +técnico para esto es que el “macaneo” atonta el cerebro. + +En el espacio digital todo el mundo es un narrador, ¿verdad? No. Si el +periodismo profesional –y con ello me refiero a aquellos que se dedican +a la narración de historias de modo ético, equilibrado, valiente en la +búsqueda de la verdad- ha de sobrevivir, entonces el oficio debe +reafirmarse en el espacio digital. El periodismo de datos es otra +herramienta con la que navegaremos el espacio digital. Es donde +mapearemos, daremos vuelta, separaremos, filtraremos, extraeremos y +veremos la historia en medio de tantos ceros y unos. En el futuro +trabajaremos junto a los hackers, los programadores, los diseñadores. Es +una transición que requiere una seria acumulación de capacidades. +Necesitamos gerentes de noticias que entiendan la conexión entre lo +digital y el periodismo para empezar a invertir en esa construcción. + + +— *Wendy Carlisle, Australian Broadcasting Corporation* + + +## Periodismo de datos en la BBC + +El término “periodismo de datos” puede cubrir una gama de disciplinas y +se usa de modos variados en las organizaciones de noticias, por lo que +puede ser útil definir lo que queremos decir por “periodismo de datos en +la BBC. En general el término cubre proyectos que usan datos para hacer +una o más de las siguientes cosas: + + - Permitir al lector descubrir información que es relevante para + sí mismo. + - Revelar una historia que es llamativa y antes se desconocía + - Ayudar al lector a entender mejor una cuestión compleja. + +Estas categorías pueden superponerse, y en un medio online a menudo +pueden beneficiarse de algún nivel de visualización. + +#### Que sea personal + +En el sitio de BBC News hemos estado usando datos para ofrecer servicios +y herramientas para nuestros usuarios desde hace más de una década. + +El ejemplo más consistente, que se publicó por primera vez en 1999, es +el de nuestras [tablas de liga +escolar](http://bbc.in/school-league-tables), que usan los datos +publicados anualmente por el Estado. Los lectores pueden encontrar las +escuelas locales ingresando el código postal, y compararlas con una +cantidad de indicadores. Periodistas de educación también trabajan con +el equipo de programadores rastreando las historias antes de su +publicación. + +Cuando empezamos a hacer esto, no existía un sitio oficial que ofreciera +al público la posibilidad de explorar datos. Pero ahora que el +Departamento de Educación tiene su propio servicio nuestra tarea se +concentra más en las historias que surgen de los datos. + +El desafío en este área debe ser dar acceso a datos en los que hay un +claro interés público. Un ejemplo reciente de un proyecto en el que +expusimos un gran conjunto de datos no disponible normalmente para el +público en general, fue el informe especial ["Todas las muertes en todos +los caminos"](http://bbc.in/road-deaths). Ofrecimos una búsqueda por +código postal, permitiendo a los usuarios encontrar la locación de todos +los accidentes fatales en caminos en el Reino Unido en la última década. + +Visualizamos algunos de los datos y cifras principales que surgen de los +[datos policiales](http://bbc.in/police-data) y, para dar al proyecto +más dinámica y un rostro humano, hicimos equipo con la London Ambulance +Association y BBC London radio y TV para rastrear choques en la capital +cuando sucedían. Esto se reportó [en vivo +online](http://bbc.in/road-deaths-feed), así como vía Twitter usando el +hashtag \#crash24, y las colisiones fueron incorporadas +[al mapa](http://bbc.in/road-deaths-map) a medida que se informaban. + +#### Herramientas simples + +Además de proveer maneras de explorar grandes conjuntos de datos, +también hemos tenido éxito en crear herramientas simples, que proveen +relevantes recortes de información para los usuarios. Estas herramientas +apelan a los que tienen poco tiempo y pueden no querer explorar análisis +extensos. La capacidad de compartir fácilmente un dato personal es algo +que hemos comenzado a incorporar como estándar. + +Un ejemplo simple de este enfoque es nuestro servicio +[“El mundo en 7000 millones: cuál es su número”](http://bbc.in/KQsSzB) +publicado coincidentemente con la fecha oficial en la que la población mundial +superó los 7000 millones. Ingresando su fecha de nacimiento, el usuario +podía saber que “número” fue en términos de la población global cuando +nació y luego compartir ese número vía Twitter o Facebook. +La aplicación usa datos aportados por el fondo de desarrollo de la población +de la ONU. Fue muy popular y se convirtió en el vínculo más usado en Facebook +en el Reino Unido en 2011. + +![El mundo en 7000 millones (BBC)](figs/incoming/02-05.png) + +Otro ejemplo reciente es [el calculador de presupuesto](http://bbc.in/JepssY) +de la BBC, que permitió a los usuarios descubrir en qué medida estarán mejor +o peor cuando entre en vigor el presupuesto del Tesoro, y luego compartir la cifra. Hicimos +equipo con la firma contable KPMG LLP, que nos dio los cálculos basados +en el presupuesto anual y entonces trabajamos duro para crear una +interface atractiva que alentara a los usuarios a completar la tarea. + +#### Explotar los datos + +¿Pero dónde está el periodismo en todo esto? Encontrar historias en los +datos es una definición más tradicional de periodismo de datos. ¿Hay una +exclusiva enterrada en la base de datos? ¿Son precisas las cifras? +¿Prueban o no que existe el problema? Estas son todas preguntas que un +periodista de datos o un periodista asistido por computadora debe +hacerse. Pero puede llevar mucho tiempo estudiar un conjunto de datos +muy grande con la esperanza de encontrar algo llamativo. + +En esta área nos ha resultado más productivo asociarnos con programas o +equipos de investigación que cuentan con el conocimiento experto y +tiempo para investigar una historia. El programa Panorama de actualidad +de la BBC pasó meses trabajando con el Centre for Investigative +Journalism, recogiendo datos sobre la paga en el sector público. El +resultado fue un documental de TV y un informe especial online, [“La +paga del sector público: las cifras”](http://bbc.in/IKPrL2), donde se +publicó todos los datos y se visualizaba con análisis sector por sector. + + +Además de asociarnos con periodistas de investigación, tener acceso a +numerosos profesionales con conocimiento especializado es esencial. +Cuando un colega del equipo del sector de economía analizó los datos de +recortes del gasto publicados por el gobierno, llegó a la conclusión de +que los hacía aparecer mayores de lo que eran en realidad. El resultado +fue una historia exclusiva, +[“Encontrar sentido a los datos”](http://bbc.in/LcuGFV), complementada +por una clara [visualización](http://bbc.in/IIADrj), que ganó un premio de +la Royal Statistical Society. + +#### Comprender una cuestión + +Pero el periodismo de datos no tiene por qué producir una exclusiva que +nadie más ha descubierto. La tarea del equipo de visualización de datos +es combinar un gran diseño con una narración editorial clara para +ofrecer una experiencia convincente al usuario. Visualizaciones +atractivas de los datos apropiados pueden ser usadas para lograr una +mejor comprensión de una cuestión o historia, y frecuentemente usamos +este enfoque en nuestras narraciones en la BBC. Una técnica utilizada en +[nuestro rastreador de demandantes](http://bbc.in/KF7IKU) es mostrar en +un mapa de calor la evolución de los datos con el paso del tiempo para +dar una clara visión del cambio. + +El servicio de datos +[“Red de deuda de la Eurozona”](http://bbc.in/IIAHHI) explora la red +interconectada de créditos entre países. Ayuda a explicar una cuestión +complicada de un modo visual, usando color y flechas proporcionales +combinadas con un texto claro. +Una consideración importante es alentar al usuario a explorar el servicio +o seguir una narrativa, sin hacerlo sentir abrumado por las cifras. + +#### Visión general de un equipo + +El equipo que produce periodismo de datos para el sitio de BBC News se +compone de alrededor de 20 periodistas, diseñadores y programadores. + +Además de proyectos y visualizaciones de datos, el equipo produce todas +las infografías y recursos multimedia interactivos en el sitio de +noticias. En conjunto todo esto forma parte de una colección de técnicas +de narración que llamamos periodismo visual. No tenemos gente +identificada específicamente como periodistas de datos, pero todo el +personal de redacción del equipo tiene saber usar aplicaciones básicas +de planillas de cálculo tales como Excel y Google Docs para analizar +datos. + +Son centrales a cualquier proyecto de datos las capacidades técnicas, el +asesoramiento de nuestros programadores y las capacidades de +visualización de nuestros diseñadores. Si bien todos somos en primer +lugar periodistas, diseñadores o programadores, seguimos trabajando +fuerte para aumentar nuestra comprensión y dominio de todas las áreas de +conocimiento. + +Los productos centrales para explorar datos son Excel, Google Docs y +Fusion Tables. El equipo también ha usado, aunque en menor medida, +MySQL, bases de datos Access y Solr para explorar conjuntos de datos +mayores; y usó RDF y SPARQL para comenzar a analizar maneras en las que +podemos modelar eventos usando tecnologías Linked Data. Los +programadores también usan su lenguaje de programación preferido, sea +ActionScript, Python, o Perl, para reunir, analizar o desmenuzar en +general un conjunto de datos en los que podemos estar trabajando. Perl +se utiliza para parte de la edición. + +Usamos Google, Bing Maps y Google Earth, junto con ArcMAP de Esri, para +explorar y visualizar datos geográficos. + +Para gráficos utilizamos la Suite de Adobe incluyendo After Effects, +Illustrator, Photoshop y Flash, aunque en estos tiempos rara vez +publicamos archivos Flash en el sitio, dado que JavaScript –en +particular JQuery y otras bibliotecas de JavaScript tales como +Highcharts, Raphael y D3- cada vez más cubren nuestros requisitos de +visualización. + +— *Bella Hurrell and Andrew Leimdorfer, BBC* + + +## El equipo de aplicaciones de noticias del Chicago Tribune + +El equipo de aplicaciones de noticias del Chicago Tribune es una banda +de alegres hackers incrustada en la redacción. Trabajamos en estrecha +relación con editores y periodistas para ayudar a: 1) investigar y +contar historias; 2) ilustrar historias online y 3) crear recursos de la +red siempre actualizados para la buena gente de Chicagolandia. + +Es importante que estemos en la redacción. A menudo nuestro trabajo se +define en conversaciones cara a cara con periodistas. Saben que nos +gusta ayudar a escribir algo que dé vida a un aburrido sitio oficial, +desentrañar una parva de PDF, o convertir de otras maneras lo que no es +datos, en algo que se pueda analizar. Es lo que ayuda a nuestro equipo a +encontrar su rumbo; de este modo nos enteramos de potenciales proyectos +de datos cuando se están gestando. + +A diferencia de muchos equipos en este campo, el nuestro fue fundado por +tecnólogos para quienes el periodismo fue un cambio de carrera. Algunos +adquirimos un título de Maestría en Periodismo después de pasar varios +años programando para empresas, y otros vinieron de la comunidad de +gobierno abierto. + +Trabajamos de modo ágil. Para asegurarnos de estar siempre +sincronizados, cada mañana comienza con una reunión de 5 minutos de a +pie. Frecuentemente programamos de a pares; 2 programadores en un +teclado a menudo son más productivos que 2 programadores en 2 teclados. +La mayoría de los proyectos no requieren más que una semana de +producción, pero en proyectos más largos trabajamos en iteraciones de +una semana y mostramos nuestros trabajo a los interesados (periodistas y +editores por lo general) toda las semanas. El mantra es “fracasar +rápido”. Si uno está haciendo las cosas mal tiene que saberlo lo antes +posible, especialmente cuando se programa con un plazo fijo. + +Esto de \_hackear\_de modo iterativo y con plazos tiene un aspecto +tremendamente positivo: siempre estamos actualizando nuestro set de +herramientas. Cada semana producimos 1 o 2 aplicaciones y luego, a +diferencia de los talleres normales de software, podemos sacarlo de +nuestra mente y pasar al siguiente proyecto. Es una alegría que +compartimos con los periodistas, y cada semana podemos aprender algo +nuevo. + +![El equipo de aplicaciones del The Chicago Tribune (foto por Heather Billings)](figs/incoming/02-00.jpg) + +Todas las ideas de aplicaciones provienen de periodistas y editores en +la redacción. Creo que esto nos diferencia de equipos de aplicaciones de +otras redacciones, que frecuentemente producen sus propias ideas. Hemos +establecido fuertes relaciones personales y profesionales en la +redacción, y la gente sabe que cuando tiene datos viene a nosotros. + +Gran parte de nuestro trabajo en la redacción es de apoyo a los +periodistas. Los ayudamos a trabajar datos, reconvertir PDF en planillas +de cálculo, investigamos en sitios de la red, etc. Es un servicio que +nos gusta dar porque nos permite conocer desde sus inicios el trabajo de +datos que se da en la redacción. Parte de ese trabajo se convierte en +una aplicación de noticias: un mapa, una tabla o a veces sitios de mayor +escala. + +Antes vinculábamos la aplicación a la historia escrita, pero eso no +resultaba en demasiado tráfico. Actualmente, las aplicaciones aparecen +cerca de la parte superior de nuestro sitio y la aplicación tiene un +link con la historia, lo que funciona bien tanto para la aplicación como +para la historia. Hay [una sección del sitio que es para nuestro +trabajo](http://www.chicagotribune.com/news/data/), pero no tiene mucho +tráfico. Eso no es sorprendente. “Oigan, hoy quiero unos datos” no es +algo que se escuche muy seguido. + +Nos encanta la cuenta de visitas del sitio y nos encantan las alabanzas +de nuestros pares, pero eso no es lo importante. La motivación siempre +debe ser el impacto; en la vida de la gente, en las leyes, en hacer que +los políticos rindan cuentas y así siguiendo. La pieza escrita habla de +la tendencia y la humaniza con unas cuantas anécdotas. ¿Pero qué hace el +lector cuando terminó de leer la historia? ¿Está segura su familia? ¿Sus +hijos están siendo educados adecuadamente? Nuestro trabajo da sus frutos +cuando ayuda a un lector a encontrar su propia historia en los datos. +Entre los ejemplos de trabajos impactantes y personalizados que hemos +hecho se incluyen las aplicaciones de [Informes de seguridad en +geriátricos](http://nursinghomes.apps.chicagotribune.com/) y el +[Boletín de Calificaciones de Escuelas](http://schools.chicagotribune.com/). + +— *Brian Boyer, Chicago Tribune* + + +## El detrás de escena del Datablog de The Guardian + +Cuando lanzamos el Datablog, no teníamos idea a quién podrían +interesarle los datos en crudo, las estadísticas y visualizaciones. Como +dijo un jefe en mi oficina: “¿Por qué alguien querría eso?”. + +El [Datablog](http://www.guardian.co.uk/datablog), que yo edito, debía +ser un pequeño blog que ofreciera los conjuntos de datos completos que +respaldan nuestras historias periodísticas. Ahora consiste en [una +primera página](http://guardian.co.uk/data); búsquedas de datos de +gobiernos y desarrollo global; visualizaciones de datos realizadas por +artistas gráficos de The Guardian y de toda la red, y herramientas para +explorar datos de gasto público. Todos los días usamos planillas de +cálculos de Google para compartir los datos completos que respaldan +nuestro trabajo; visualizamos y analizamos esos datos y luego los usamos +para proveer historias para el diario y el sitio. + +Como editor de noticias y periodista trabajando con gráficos, era una +extensión lógica del trabajo que ya venía haciendo, acumulando nuevos +conjuntos de datos y batallando con ellos para tratar de encontrar +sentido a las historias de noticias del día. + +La pregunta que me hicieron fue respondida. Han sido unos años +increíbles para los datos públicos. Obama abrió los archivos de datos +del gobierno de EE.UU. como primer acto legislativo, y su ejemplo pronto +fue seguido por sitios de datos gubernamentales en todo el mundo: +Australia, Nueva Zelanda y el sitio del gobierno británico, Data.gov.uk. + +Hemos tenido el escándalo de los gastos de los parlamentarios, la pieza +más inesperada de periodismo de datos de Gran Bretaña, con el resultado +de que Westminster ahora está comprometido a difundir cantidades +inmensas de datos todos los años. + +Tuvimos una elección general en la que cada uno de los partidos +políticos más importantes se comprometió a la transparencia de datos, +abriendo nuestros propios archivos de datos al mundo. Los diarios han +dedicado valioso centimetraje a la apertura de la base de datos COINS +del Tesoro. + +Al mismo tiempo, a media que la red produce más y más datos, los +lectores de todo el mundo están más interesados que nunca en los datos +en crudo detrás de las noticias. Cuando lanzamos el Datablog, creíamos +que el público serían programadores buscando crear aplicaciones. De +hecho es gente que quiere saber más sobre las emisiones de carbono, +inmigración de Europa oriental, el desglose de las muertes en +Afganistán, o incluso la cantidad de veces que los Beatles usaron la +palabra “amor” en sus canciones (613). + +![Visualización del proceso de producción de The Guardian Datablog (The Guardian)](figs/incoming/02-ZZ.png) + +Gradualmente el trabajo del Datablog ha reflejado y enriquecido las +historias a las que nos enfrentamos. Recurrimos a la opinión del público +sobre 458.000 documentos relacionados con los gastos de los +parlamentarios y analizamos los datos detallados de lo que sostuvieron +los parlamentarios. Ayudamos a nuestros usuarios a explorar bases de +datos de gastos detalladas del Tesoro y publicamos los datos detrás de +las noticias. + +Pero el evento que cambió el juego para el periodismo de datos se dio en +la primavera de 2010, comenzando por una hoja de cálculo: 92.201 filas +de datos, cada una conteniendo un desglose detallado de un evento +militar en Afganistán. Estos fueron los registros de guerra de +WikiLeaks. Es decir, la primera parte. Seguirían dos episodios más: Irak +y los cables. El término oficial para las primeras dos partes fue +SIGACTS: La Base de Datos de Acciones Significativas de las fuerzas +armadas de Estados Unidos. + +Las organizaciones de noticias dependen mucho de la ubicación y la +proximidad con la mesa de noticias. Si uno está cerca, es fácil sugerir +historias y ser parte del proceso: inversamente, no estar cerca es +literalmente ser ignorado. Antes de WikiLeaks estábamos en un piso +diferente, junto con el equipo de Gráficos. Desde WikiLeaks estamos en +el mismo piso, junto a la mesa de noticias. Significa que es más fácil +para nosotros sugerir ideas a la mesa de noticias, y para los +periodistas al otro lado de la redacción pensar en nosotros para que los +ayudemos con historias. + +No hace mucho los periodistas eran quienes controlaban el acceso a los +datos oficiales. Escribíamos historias sobre las cifras y se las +transmitíamos a un público agradecido que no estaba interesado en las +estadísticas en bruto. La idea de incorporar información en crudo a +nuestros diarios era anatema. + +Ahora la dinámica ha cambiado hasta el punto de resultar irreconocible. +Nuestro rol se está convirtiendo en el de intérpretes; ayudar a la gente +a comprender los datos e incluso publicarlos porque son interesantes por +sí mismos. + +Pero las cifras sin análisis son sólo números, que es donde encajamos +nosotros. Cuando el primer ministro de Gran Bretaña sostuvo que los +desmanes de agosto de 2011 no tuvieron nada que ver con la pobreza, +pudimos cruzar el lugar de residencia de los que hicieron los desmanes +con los indicadores de pobreza para mostrar la verdad. + +Detrás de todas nuestras historias de periodismo de datos hay un +proceso. Está cambiando permanentemente, a medida que vamos usando +nuevas herramientas y técnicas. Alguna gente dice que la respuesta es +convertirse en una especie de súper hacker, escribir programas y +sumergirse en SQL. Uno puede tener esa postura. Pero gran parte del +trabajo que hacemos es con Excel. + +Primero ubicamos los datos o los recibimos de una variedad de fuentes, +de historias de noticias nuevas, datos oficiales, investigaciones de +periodistas y así en más. Entonces comenzamos a ver qué podemos hacer +con los datos; ¿necesitamos combinarlos con otro conjunto de datos? +¿Cómo podemos mostrar cambios a lo largo del tiempo? Esas planillas de +cálculo a menudo tienen que ser muy depuradas, porque todas esas +columnas extrañas y celdas fusionadas de modos raros no ayudan a +comprender la información. Y eso suponiendo que no es un PDF, el peor +formato de datos conocido por la humanidad. + +A menudo los datos oficiales vienen con códigos oficiales agregados; +cada escuela, hospital, sector, y municipalidad tiene un código de +identificación. + +Los países también los tienen (el código del Reino Unido por ejemplo es +GB). Son útiles porque uno podría querer cruzar conjuntos de datos, y es +sorprendente la cantidad de formas de escribir las cosas y arreglos de +palabras que pueden trabar eso. Está Birmania y Myanmar, por ejemplo, o +Fayette County en Estados Unidos (hay 11 de ellas en estados que van de +Georgia a Virginia Occidental). Los códigos nos permiten comparar las +cosas comparables. + +Al final del proceso está el producto: ¿será una historia o un gráfico o +una visualización y qué herramientas usaremos? Nuestras principales +herramientas son las gratuitas con las que podemos producir algo +rápidamente. Los gráficos más sofisticados son producidos por nuestro +equipo de desarrollo. + +Esto significa que comúnmente usamos los Google Charts para pequeños +gráficos y tortas lineales, o Google Fusion Tables para crear mapas de +modo rápido y fácil. + +Puede parecer algo nuevo pero no lo es. + +En la primera edición del Manchester Guardian (el sábado 5 de mayo de +1821), las noticias estaban en la página trasera, como en todos los +diarios de aquellos tiempos. El primer ítem en la primera plana era un +aviso de un perro labrador perdido. + +Entre las historias y las citas de poemas, un tercio de la contratapa +está ocupado con datos. Una tabla completa de los costos de escuelas en +la zona nunca antes “presentados al público”, escribe “NH”. + +NH quería que se publicaran sus datos porque de otro modo eclesiásticos +sin formación informarían sobre los mismos. Su motivación era que “la +información que contiene es valiosa; porque si no se sabe en qué medida +se extiende la educación… las opiniones que puedan formarse sobre la +condición y el progreso futuro de la sociedad serán necesariamente +incorrectas”. Dicho de otro modo, si la gente no sabe lo que pasa, ¿cómo +puede mejorar la sociedad? + +No se me ocurre mejor justificación de lo que estamos tratando de hacer +ahora. Lo que hace un tiempo era una historia para la última página, +ahora puede estar en primera plana. + +— *Simon Rogers, the Guardian* + + +## Periodismo de datos en el Zeit Online + +El proyecto [PISA based Wealth Comparison](http://bit.ly/Pisa_Wealth) +(Comparación de Riqueza basada en PISA, es una visualización interactiva +que permite la comparación de niveles de vida en diferentes países. +Utiliza datos del informe de calificación de educación en el mundo, +[PISA 2009](http://bit.ly/Pisa_2009), publicado en diciembre de 2010. El +informe se basa en un cuestionario que interroga a estudiantes de 15 +años sobre su situación de vida en el hogar. + +La idea era analizar y visualizar estos datos para ofrecer una manera +única de comparar los estándares de vida en distintos países. + +![Comparación de riqueza basada en PISA (Zeit Online)](figs/incoming/02-03-AA.png) + +Primero, nuestro equipo editorial decidió qué datos parecían útiles para +hacer comparables los niveles de vida y debían visualizarse, incluyendo: + +- Riqueza (cantidad de TV, autos y baños disponibles en el hogar) +- Situación familiar (si hay abuelos viviendo con la familia, + porcentaje de familias con solo un hijo, desempleo de los padres y + el status laboral de la madre) +- Acceso a fuentes de conocimiento (Internet en el hogar, frecuencia + de uso de correo electrónico y cantidad de libros que son de + propiedad de la familia) +- 3 indicadores adicionales sobre el nivel de desarrollo de cada país. + +Con la ayuda del equipo de diseño, estos datos fueron traducidos a +íconos explícitos. Se creó un diseño de *front-end* para hacer posible +la comparación entre los distintos países viéndolos como si fueran +cartas de juego. + +A continuación contactamos gente de la [Open Data +Network](http://opendata-network.org/) de Alemania para encontrar +programadores dispuestos a ayudar con el proyecto. Esta comunidad de +gente altamente motivada sugirió a Gregor Aisch, como diseñador de +información muy talentoso, para que programara la aplicación que haría +realidad nuestros sueños (sin usar Flash, lo que era muy importante para +nosotros). + +Gregor creó una visualización de muy alta calidad e interactiva, con un +hermoso estilo de burbuja basado en la +[Raphaël-Javascript Library](http://raphaeljs.com/). + +El resultado de nuestra colaboración fue un interactivo muy exitoso que +tuvo mucho tráfico. Es fácil comparar dos países cualesquiera, lo que lo +hace útil como herramienta de referencia. Eso significa que podemos +volver a utilizarlo en nuestra tarea editorial diaria. Por ejemplo, si +estamos cubriendo algo relacionado con las condiciones de vida en +Indonesia, podemos rápida y fácilmente incrustar [un gráfico comparando +las condiciones de vida en Indonesia y +Alemania](http://bit.ly/Pisa_Indonesia_Germany)). El conocimiento +transferido a nuestro equipo fue una gran inversión para proyectos +futuros. + +En el Zeit Online encontramos que +[nuestros proyectos de periodismo de datos](http://www.zeit.de/datenjournalismus) +nos han traído mucho tráfico y han ayudado a atraer al público de nuevas maneras. +Por ejemplo, hubo mucha cobertura de la situación de la planta nuclear en +Fukushima luego del tsunami en Japón. Luego de que material radioactivo +escapara de la usina, todos fueron evacuados en un radio de 30 +kilómetros de la planta. La gente pudo leer y ver muchas cosas sobre la +evacuación. Zeit Online encontró una manera innovadora de explicar el +impacto de ésto para nuestro público alemán. Preguntamos: ¿Cuánta gente +vive cerca de una planta nuclear en Alemania? ¿Cuánta gente vive dentro +de un radio de 30 kilómetros? [Un mapa](http://bit.ly/near_nuclear) +muestra cuanta gente tendría que ser evacuada en una situación similar +en Alemania. El resultado: mucho tráfico; de hecho el proyecto se +expandió como un virus en los medios sociales. Los proyectos de +periodismo de datos pueden ser adaptados con relativa facilidad a otros +idiomas. Creamos una versión en idioma inglés respecto de la proximidad +de las plantas nucleares en Estados Unidos, lo que fue un gran generador +de tráfico. Las organizaciones de noticias quieren ser reconocidas como +fuentes confiables y autorizadas entre sus lectores. Encontramos que los +proyectos de periodismo de datos combinados con permitir a nuestros +lectores ver y volver a utilizar los datos en bruto nos da un alto grado +de credibilidad. + +Por dos años el departamento de Investigación y Desarrollo yel Editor en +Jefe del Zeit Online, Wolfgang Blau, han estado promoviendo el +periodismo de datos como una manera importante de narrar historias. La +transparencia, la credibilidad y la atracción de los usuarios son partes +importantes de nuestra filosofía. Por eso el periodismo de datos es una +parte natural de nuestro trabajo actual y futuro. Las visualizaciones de +datos pueden aportar valor a la recepción de una historia, y son un modo +atractivo de que todo el equipo editorial presente su contenido. + +Por ejemplo, el 9 de noviembre de 2011 el Deutsche Bank se comprometió a +dejar de financiar a los fabricantes de bombas de racimo. Pero según un +estudio de una organización sin fines de lucro Facing Finance, el banco +siguió aprobando créditos a productores de bombas de racimo después de +hacer esa promesa. +[Otras visualizaciones](http://zeit.de/wirtschaft/cluster-munition) basadas en +los datos muestran a nuestros lectores los diferentes flujos de dinero. +Las distintas partes del Deutsche Bank están ordenadas en la parte de +arriba, y las compañías acusadas de estar involucradas en la fabricación +de bombas de racimo, abajo. En el medio se representan los créditos +individuales siguiendo la línea temporal. Cuando se giran los círculos +se ven los detalles de cada transacción. Por supuesto que se hubiera +podido contar la historia por medio de un artículo escrito. Pero la +visualización permite a nuestros lectores comprender y explorar las +dependencias financieras de modo más intuitivo. + +![El negocio de las bombas (Zeit Online)](figs/incoming/02-03-DD.png) + +Otro ejemplo: la Oficina Alemana Federal de Estadísticas ha publicado +[un gran conjunto de datos](https://www.destatis.de/EN/Homepage.html) +sobre estadísticas vitales para Alemania, incluyendo el modelado de +[varios escenarios demográficos hasta 2060](http://bit.ly/German_Federal_Statistics). +La manera típica de representar esto es una [pirámide +poblacional](https://www.destatis.de/bevoelkerungspyramide/), tal como +la de la Agencia Federal de Estadísticas. + +Con nuestros colegas del departamento de Ciencias, intentamos dar a +nuestros lectores una mejor manera de explorar los datos demográficos +proyectados, respecto de nuestra sociedad futura. Con +[nuestra visualización](http://www.zeit.de/wissen/altersstruktur) presentamos un +grupo estadísticamente representativo de 40 personas de distintas edades +desde los años 1950 hasta 2060. Están organizadas en 8 grupos +diferentes. Se ve como una foto grupal de la sociedad alemana en +distintos momentos. Los mismos datos visualizados en una pirámide +poblacional tradicional da solo una visión muy abstracta de la +situación, pero un grupo con chicos, gente joven, adultos, y gente mayor +significa que los lectores pueden relacionarse más fácilmente con los +datos. Basta tocar el botón de play para iniciar un viaje a través de +once décadas. También puede ingresar su propio año de nacimiento y su +género para convertirse en parte de la foto grupal: podrá ver su propio +viaje demográfico a través de las décadas y su propia expectativa de +vida. + +— *Sascha Venohr, Zeit Online* + +![Visualización de datos demográficos (Zeit Online)](figs/incoming/02-03-CC.png) + +## Cómo contratar un hacker + +Una de las cosas que me preguntan regularmente los periodistas es cómo +consigo un programador que me ayude con mis proyectos. No se engañe +pensando que este es un proceso en una sola dirección; los hackers con +preocupaciones sociales y los analistas de datos a menudo están +igualmente interesados en tomar contacto con periodistas. + +Los periodistas son usuarios poderosos de herramientas y servicios +basados en datos. Desde la perspectiva de los programadores, los +periodistas piensan sin esquemas para usar herramientas de datos en +contextos que los programadores no siempre tomaron en cuenta (la +retroalimentación es invalorable). También ayudan a crear contexto e +interés por proyectos, y ayudan a hacer que sean relevantes. Es una +relación simbiótica. + +Por fortuna, esto significa que, esté pensando en contratar un hacker, o +solo busque colaboración con un presupuesto muy restringido, es más que +probable que haya alguien interesado en ayudarlo. + +¿Entonces cómo se los encuentra? Dice Aron Pilhofer de The New York +Times: + +Quizás se encuentre con que su organización ya tiene gente con las +capacidades que necesita, pero no necesariamente se encuentran en su +sala de redacción. Visite los departamentos de tecnología y TI, y es +probable que encuentre oro. También es importante apreciar la cultura de +los programadores: si encuentra a alguien que tiene una computadora que +se ve como la de la Figura 2-9 probablemente tenga un ganador. + +![Marca del honor: los hackers a menudo son fáciles de descubrir (foto por Lucy Chambers)](figs/incoming/02-04.jpg) + +Algunas ideas más: + + Coloque avisos en sitios de la red que ofrecen puestos de trabajo +: Identifique y coloque avisos en sitios que apuntan a programadores + que trabajan en distintos lenguajes. Por ejemplo, [el Python + Job Board.](http://www.python.org/community/jobs/) + + Listas de correo relevantes para contactos +: Por ejemplo las listas de correo + [NICAR-L](http://bit.ly/nicar-subscribe) y [Data + Driven Journalism.](http://bit.ly/ddj-list) + + Organizaciones relevantes para contactos +: Por ejemplo, si quiere buscar datos en la red, puede contactar una + organización como [Scraperwiki](https://scraperwiki.com/) que tienen + un gran directorio de programadores confiables y dispuestos. + + Súmese a grupos/redes relevantes + +: Esté atento a iniciativas tales como + [HACKS/HACKERS](http://hackshackers.com/) que reúnen a periodistas + y técnicos. Ahora están surgiendo grupos de Hacks/Hackers en todo + el mundo. También podría intentar publicar algo en su [newsletter de + búesqueda de empleo](http://bit.ly/hacks-hackers-jobs). + + Comunidades de intereses locales + +: Puede intentar hacer una búsqueda rápida de expertos en determinada + cuestión en su zona (por ejemplo “java-script” + “London”). Sitios + tales como Meetup.com también pueden ser un gran punto de partida. + + Hackatones y competencias + +: Haya o no dinero de premio involucrado, competencias de aplicaciones + y visualizaciones, y días de programación a menudo son un terreno + fértil para colaboraciones y lograr contactos. + + Pregunte a un técnico + +: Los técnicos se juntan con otros técnicos. El boca a boca es siempre + una buena manera de encontrar buena gente para trabajar. + +— *Lucy Chambers, Open Knowledge Foundation* + +Las capacidades de los hackers + +Una vez que se encuentra un hacker, ¿cómo se sabe si es bueno? Le +preguntamos a Alastair Dant de The Guardian cómo descubrir uno bueno: + + Hacen de todo + +: Cuando hay que cumplir un plazo de entrega es mejor contar con + alguien que maneja todas las alternativas, antes que con un maestro + especializado en un recurso. Las aplicaciones de noticias requieren + manejo de datos, gráficos dinámicos y audacia. + + Ven todo el cuadro + +: El pensamiento holístico le da prioridad al valor narrativo por + sobre el detalle técnico. Prefiero escuchar una nota tocada con + sentimiento que el virtuosismo sin fin en escalas oscuras. Averigüe + si a la persona la hace feliz trabajar junto a un diagramador. + + Saben contar una historia + +: La presentación narrativa requiere ordenar las cosas en el espacio y + el tiempo. Averigüe cual es el proyecto del que se siente más + orgulloso, y pídale que le diga cómo fue creado; esto revelará tanto + su capacidad de comunicación como su manejo técnico. + + Hablan de las cosas que van a hacer + +: Crear cosas rápidamente requiere de equipos mixtos trabajando hacia + metas comunes. Cada participante debe respetar a sus compañeros y + estar dispuesto a negociar. Los obstáculos no previstos a menudo + requieren ajustes de planes rápidos y concesiones colectivas. + + Se autoeducan + +: La tecnología evoluciona rápidamente. Es una lucha mantenerse al + día. Habiendo conocido programadores con todo tipo de antecedentes, + el rasgo más común es la disposición a aprender cosas nuevas cuando + se necesita. + +— *Lucy Chambers, Open Knowledge Foundation, entrevista con Alastair +Dant, Lead Interactive Technologist, the Guardian* + +Cómo encontrar el programador de sus sueños + +La diferencia de productividad entre un programador bueno y uno +extraordinario no es lineal, es exponencial. Contratar bien es +extremadamente importante. Desgraciadamente, contratar bien es muy +difícil. Es bastante difícil evaluar candidatos si uno no es un gerente +técnico con experiencia. A eso hay que agregar los sueldos que las +organizaciones de noticias pueden pagar y entonces es todo un desafío. + +En el Tribune, reclutamos con dos ángulos: el atractivo emotivo y el +atractivo técnico. El atractivo emocional es que el periodismo es +esencial para que una democracia funcione. Si trabaja aquí puede cambiar +el mundo. Técnicamente, promocionamos todo lo que puede aprender. +Nuestros proyectos son pequeños, rápidos e iterativos. Cada proyecto +tiene un nuevo conjunto de herramientas, un nuevo idioma, un nuevo +tópico (seguridad anti incendios, el sistema jubilatorio) que debe +aprender. La redacción es un cruce de caminos. Nunca dirigí un equipo +que haya aprendido tanto y tan rápido como nuestro equipo. + +En cuanto a donde buscar, hemos tenido mucha suerte encontrando grandes +hackers en la comunidad de gobierno abierto. La lista de correo Sunlight +Labs es donde los locos por la tecnología que quieren hacer el bien, y +tienen empleos aburridos, se encuentran por la noche. Otro recurso +potencial es Code for America. Cada año un grupo de individuos emergen +de CfA buscando su siguiente gran proyecto. A esto se agrega que CfA +tienen un proceso de selección riguroso; ya han evaluado los candidatos +por usted. Hoy en día los periodistas interesados en programación +también salen de las escuelas de periodismo. Están verdes tienen +toneladas de potencial. + +Por último, no basta con contratar programadores. Se necesita gerencia +técnica. Un programador solitario (especialmente si acaba de salir de la +escuela de periodismo sin experiencia de trabajo) va a tomar muchas +malas decisiones. Incluso el mejor programador, si se lo deja solo, +optará por trabajo técnicamente interesante, por sobre lo que es más +importante para su público. + +Llame a este puesto Editor de aplicaciones de noticias, gerente de +proyecto, lo que sea. Al igual que los redactores, los programadores +necesitan editores, mentores, y alguien que los apure para que tengan el +software listo a tiempo. + +— *Brian Boyer, Chicago Tribune* + + +## Ayuda externa de expertos a través de hackatones + +En marzo de 2010, la organización SETUP de cultura digital con sede en +Utrecht organizó un evento llamado [Hacking +Journalism](http://setup.nl/content/hacking-journalism). El evento fue +organizado para alentar una mayor colaboración entre programadores y +periodistas. + +“Organizamos hackatones para producir aplicaciones atractivas, pero no +podemos reconocer historias interesantes en los datos. Lo que creamos no +tiene relevancia social” dijeron los programadores. “Reconocemos la +importancia de periodismo de datos, pero no tenemos las capacidades +técnicas para crear las cosas que queremos”, dijeron los periodistas. + +![Periodistas y programadores en RegioHack (foto de Heinze Havinga)](figs/incoming/02-XY.jpg) + +Trabajando para un diario regional no había dinero o incentivos para +contratar un programador para la redacción. El periodismo de datos +seguía siendo algo desconocido para los diarios holandeses en aquel +tiempo. + +El modelo de hackatones era perfecto; un ambiente relajado para +colaboración, con abundante pizza y bebidas energizantes. +[RegioHack](http://www.regiohack.nl/) fue un hackatón organizado por mi +empleador, el diario regional [De Stentor](http://www.destentor.nl/), +nuestra publicación hermana [TC Tubantia](http://www.tctubantia.nl/) y +[Saxion Hogescholen Enschede](http://saxion.nl/) que ofreció el lugar +para el evento. + +La organización era así: todos podían anotarse para un hackatón de 30 +horas. Nosotros dábamos la comida y las bebidas. Apuntábamos a 30 +participantes, que dividimos en 6 grupos. Estos grupos se concentrarían +en distintos tópicos, tales como crimen, salud, transporte, seguridad, +envejecimiento y poder. Para nosotros, los 3 objetivos principales para +este evento eran los siguientes: + + Encontrar historias + +: Para nosotros el periodismo de datos es algo nuevo y desconocido. La + única manera que podemos demostrar su utilidad es a través de + historias bien armadas. Planeamos producir al menos 3 historias de + datos. + + Conectar gente + +: Nosotros los periodistas no sabemos cómo se hace periodismo de datos + y no pretendemos saberlo. Al colocar periodistas, estudiantes y + programadores en un cuarto por 30 horas, queremos que compartan + conocimientos y visiones. + + Organizar un evento social + +: Los diarios no organizan muchos eventos sociales, ni hablemos de + hackatones. Queríamos experimentar cómo un evento de esas + características puede dar resultados. De hecho hubiera podido ser + incómodo: 30 horas con extraños, mucha jerga, golpearse la cabeza + contra preguntas básicas y encontrar el terreno en el que cada uno + se siente cómodo. Al convertirlo en un evento social (la pizza y las + bebidas energizantes), queríamos crear un ambiente en el que + periodistas y programadores pudieran sentirse cómodos y colaborar + efectivamente. + +Antes del evento, TC Tubantia realizó una entrevista con la viuda de un +policía que escribió un libro sobre los años de servicio de su marido. +También tenía un documento con todos los asesinatos registrados en la +parte este de Holanda, mantenido por su marido desde 1945. Normalmente, +publicaríamos este documento en nuestro sitio. Esta vez hicimos un +[tablero usando el software Tableau](http://bit.ly/tableau-dashboard). +También [escribimos en el blog](http://bit.ly/regiohack-blog) acerca de +cómo se juntó todo esto en nuestro sitio RegioHack. + +Durante el hackatón, un grupo de proyecto abordó el tema del desarrollo +de escuelas y el envejecimiento de nuestra región. Al hacer una +[visualización de proyecciones futuras](http://bit.ly/tableau-workbook) +vimos qué ciudades estarían en problemas luego de unos años de caída de +la matrícula. Teniendo esto presente, hicimos un artículo sobre la +manera en que esto afectaría las escuelas en nuestra región. + +También iniciamos un proyecto muy ambicioso llamado De Tweehondererd van +twente (en español Los Doscientos de Twente) para determinar quién tenía +más poder en nuestra región y crear una base de datos de la gente más +influyente. A través de un cálculo al estilo Google –quien tiene la +mayor cantidad de vínculos con organizaciones poderosas- se compondrá +una lista de gente influyente. Esto podría llevar a una serie de +artículos, pero también es una herramienta poderosa para periodistas. +¿Quién tiene vínculos con quién? Se puede hacer preguntas a esta base de +datos y usarla en la rutina diaria. Además, esta base de datos tiene +valor cultural. Los artistas ya preguntaban si podían usar esta base de +datos cuando estuviera terminada, para hacer instalaciones de arte +interactivo. + +![Nuevas comunidades en torno al periodismo de datos (foto por Heinze Havinga)](figs/incoming/02-YY.jpg) + +Luego de RegioHack, advertimos que los periodistas consideraban al +periodismo de datos como una adición viable al periodismo tradicional. +Mis colegas siguieron usando y creando en base a las técnicas aprendidas +ese día para generar proyectos más ambiciosos y técnicos, tales como una +base de datos de los costos administrativos de la construcción de +viviendas. Con estos datos, hice un [mapa interactivo en Fusion +Tables](http://bit.ly/stentor-map). Pedimos a nuestros lectores que +jugaran con los datos y obtuvimos los resultados [con la colaboración de +la audiencia (crowdsourcing)](http://bit.ly/scratchbook-crowdsourcing), +por ejemplo. Luego de recibir muchas preguntas respecto de cómo se hace +un mapa en Fusion Tables, también grabé +[un video tutorial](http://bit.ly/vermanen-video). + +¿Qué aprendimos? Aprendimos mucho, pero también encontramos muchos +obstáculos. Reconocimos estos 4: + + ¿Por dónde comenzar, pregunta o datos? + +: Casi todos los proyectos se trababan en la búsqueda de información. + En la mayoría de los casos comenzaban con una pregunta periodística. + ¿Y entonces? ¿Qué datos hay disponibles? ¿Dónde pueden encontrarse? + ¿Y cuando encuentre estos datos podré responder su pregunta? Los + periodistas por lo general saben dónde pueden encontrar información + cuando investigan para un artículo. En el periodismo de datos, la + mayoría de los periodistas no saben qué información está disponible. + + Poco conocimiento técnico + +: El periodismo de datos es una disciplina bastante técnica. A veces + hay que filtrar, otras veces hay que hacer algo de programación para + ver los resultados. Para hacer periodismo de datos se necesitan dos + cosas: la visión periodística de un periodista experimentado y el + conocimiento técnico de alguien que maneje todas las técnicas + digitales. Durante RegioHack esta no era una presencia común. + + ¿Es noticia? + +: Los participantes usaron principalmente un conjunto de datos para + descubrir noticias, en vez de buscar interconexiones entre distintas + fuentes. El motivo de esto es que se necesita algo de conocimiento + estadístico para verificar noticias del periodismo de datos. + + ¿Cómo es la rutina? + +: Todo lo anterior se resume en que no hay rutina. Los participantes + tienen algunas capacidades pero no saben cómo, ni cuándo usarlas. + Uno de los periodistas lo comparó con hacer una torta. “Tenemos los + ingredientes: harina, huevos, leche, etcétera. Lo tiramos en una + bolsa, la sacudimos y esperamos que salga una torta”. Tenemos todos + los ingredientes, pero no conocemos la receta. + +¿Y ahora qué hacemos? Nuestras primeras experiencias con el periodismo +de datos podrían ayudar a otros periodistas o programadores que aspiren +a ingresar en el mismo campo de trabajo, y estamos trabajando para +producir un informe. + +También estamos considerando cómo continuar RegioHack en forma de +hackatón. Nos resultó divertido, educativo y productivo, y una gran +introducción al periodismo de datos. + +Pero para que el periodismo de datos funcione tenemos que integrarlo en +la redacción. Los periodistas tienen que pensar en datos, además de +citas, declaraciones de prensa, reuniones de consejos, etc. Al hacer +RegioHack demostramos a nuestro público que el periodismo de datos no +son solo palabras. Podemos escribir artículos mejor informados y más +claros, presentando a los lectores artículos diferentes impresos y +online. + +— *Jerry Vermanen, NU.nl* + + +## Seguir el rastro del dinero: colaboración internacional + +Los periodistas de investigación y los ciudadanos interesados en +descubrir el crimen organizado y la corrupción que afecta las vidas de +miles de millones en todo el mundo cada día que pasa tienen acceso sin +precedentes a información. Gobiernos y otras organizaciones colocan +inmensos volúmenes de datos online y parece que la tan necesaria +información está cada vez más al alcance de todos. Pero, al mismo +tiempo, funcionarios corruptos en gobiernos y grupos del crimen +organizado están haciendo todo lo que pueden para ocultar información +para que no se conozcan sus crímenes. Se esfuerzan por mantener a la +gente a oscuras mientras concretan negocios sucios que causan problemas +a la sociedad, en todos sus niveles, y llevan a conflictos, hambrunas u +otras crisis. + +Es el deber de los periodistas investigadores exponer tales faltas y, al +hacerlo, trabar los mecanismos corruptos y criminales. + +![El Tablero Investigativo (OCCRP)](figs/incoming/02-RR.png) + +Hay 3 guías principales que, si se siguen, pueden llevar a un buen +periodismo cuando se investigan grandes actos de corrupción y +criminales, incluso en los medios más austeros: + + Piense en buscar fuera de su país + +: En muchas instancias es mucho más fácil obtener información del + extranjero que dentro del país en el que opera el periodista de + investigación. La información obtenida del extranjero vía bases de + datos de otros países o usando las leyes de acceso a la información + de otras naciones puede ser justo lo que necesita para armar el + rompecabezas investigativo. Además, los criminales y los + funcionarios corruptos no guardan su dinero en el lugar de donde lo + robaron. Prefieren depositarlo en bancos extranjeros o invertirlo en + otros países. El crimen es global. Las bases de datos que ayudan al + periodista de investigación a rastrear dinero en todo el mundo + pueden encontrarse en muchos lugares en Internet. Por ejemplo, + [el Investigative Dashboard](http://www.investigativedashboard.org/category/wwd/) + permite a los periodistas seguir el rastro del dinero entre países. + + Haga uso de redes periodísticas de investigación existentes + +: Periodistas de investigación de todo el mundo se agrupan en + organizaciones tales como [The Organized Crime and Corruption + Reporting Project](http://www.reportingproject.net/), [The African + Forum for Investigative Reporting](http://www.fairreporters.org/), + [The Arab Reporters for Investigative Journalism](http://arij.net/) y + [The Global investigative Journalism Network](http://www.gijn.org/). + Los periodistas también pueden usar plataformas de periodismo profesional + tales como IJNet, donde se intercambia información global relacionada con + periodismo todos los días. + Muchos de los periodistas agrupados en redes trabajan en + cuestiones similares y enfrentan situaciones similares, por lo que + tiene mucho sentido intercambiar información y métodos. Hay listas + de correo electrónico o grupos de redes sociales vinculados a estas + redes, por lo que es fácil tomar contacto con colegas periodistas + para pedir información o consejos. También pueden obtener ideas para + historias a investigar en tales foros y listas de correo + electrónico. + + Hacer uso de la tecnología y colaborar con hackers + +: El software ayuda a los periodistas de investigación a acceder y + procesar información. Varios tipos de software ayudan al + investigador a no dejarse distraer por el ruido, a buscar y + encontrar sentido a grandes volúmenes de datos y a encontrar los + documentos indicados para descubrir la historia. Hay muchos + programas de software que pueden usarse como herramientas para + analizar, recoger o interpretar información y, lo que es más + importante, los periodistas de investigación tienen que ser + conscientes de que hay cantidades de programadores dispuestos a + ayudar si se les pide. Estos programadores o hackers saben cómo + obtener y manejar información y pueden ayudar mucho con el esfuerzo + investigativo. Estos programadores, algunos de ellos miembros de + movimientos globales en favor de la apertura de los datos, pueden + convertirse en aliados invalorables en la lucha contra el crimen y + la corrupción, son capaces de asistir a los periodistas en la + recolección y análisis de la información. + +Un buen ejemplo de una interfaz entre programadores y ciudadanos es +[ScraperWiki](https://scraperwiki.com/), un sitio en el que los +periodistas pueden pedir ayuda a programadores en la extracción de datos +de sitios en la red. Investigative Dashboard tiene una [lista de +herramientas listas para usar](http://bit.ly/dashboard-resources) que +podrían ayudar a los periodistas a recoger, dar forma y analizar datos. + +La utilidad de las guías mencionadas se ha hecho visible en muchas +instancias. Un buen ejemplo es el trabajo de Khadija Ismayilova, una +reportera de investigación Azerí muy experimentada que trabaja en un +medio austero en lo que se refiere a acceso a información. Ismayilova ha +superado obstáculos diariamente para ofrecer al público azerí +información buena y confiable. En junio de 2001, Khadija Ismayilova, que +trabajaba en la oficina de Baku Radio Europa Libre/Radio Libertad +(conocida por las siglas RFE/RL), informó que las hijas del presidente +Azerí, Ilham Aliyev, manejaban secretamente una compañía de +telecomunicaciones en rápido ascenso, Azerfon, a través de compañías +offshore con sede en Panamá. La compañía tiene casi 1.700.000 de +suscriptores, cubre el 80 por ciento del territorio del país, y (en +aquel tiempo) era el único proveedor de servicios 3G para Azerbaiján. +Ismayilova pasó 3 años tratando de descubrir quienes eran los dueños de +la compañía de telecomunicaciones, pero el gobierno se negaba a dar +información sobre los accionistas y mintió numerosas veces sobre sus +dueños. Incluso llegaron a decir que la compañía era propiedad de +Siemens AG con sede en Alemania, cosa que ha sido negada directamente +por esa corporación. La reportera azerí logró descubrir que Azerfon era +propiedad de unas cuantas compañías privadas con sede en Panamá. Esto +pareció ser una vía muerta para su informe hasta que recibió ayuda del +exterior. A comienzos de 2011 Ismayilova supo a través del Investigative +Dashboard que las compañías con sede en Panamá pueden ser rastreadas a +través de [una aplicación](http://ohuiginn.net/panama/) desarrollada por +el programador y activista Dan O’Huiginn. Con esta herramienta +finalmente logró sacar a luz el hecho de que las dos hijas del +presidente estaban involucradas en la compañía de telecomunicaciones a +través de las empresas con sede en Panamá. + +O’Huiginn creó una herramienta que ayudó a periodistas de todo el mundo +a informar sobre corrupción: Panamá, un paraíso offshore bien conocido, +ha sido ampliamente utilizado por varios funcionarios corruptos como un +lugar para ocultar dinero robado (desde compinches del ex presidente +egipcio Hosni Mubarak hasta funcionarios sucios de los Balcanes o en +América Latina). Lo que el programador-activista ha hecho se conoce como +*scraping* (literalmente raspado y que se traduce como extraer datos, n. +del t.) de la red: un método que permite la extracción y el reordenado +de información para que pueda ser usada por investigadores. O’Huiginn +extrajo información del [registro de compañías de +Panamá](http://www.registro-publico.gob.pa/) porque este registro, +aunque abierto solo permite búsquedas si el periodista de investigación +conoce el nombre de la compañía comercial que busca. Esto limitaba las +posibilidades de investigaciones, ya que los periodistas generalmente +buscan nombres de personas para rastrear sus activos. Extrajo los datos +y creó un nuevo sitio donde también son posibles búsquedas basadas en +nombres. El nuevo sitio permitió a periodistas de investigación de +muchos países buscar información, tomando como referencia nombres de +funcionarios en gobiernos y parlamentos, y verificar si poseían en +secreto corporaciones en Panamá (tal como sucedía con la familia del +presidente de Azerbaiján). + +Hay otras ventajas del uso de las guías destacadas más arriba, además de +tener mejor acceso a información. Una de ellas tiene que ver con +minimizar el daño y asegurar mejor protección para los investigadores +que trabajan en ambientes hostiles. Esto se debe al hecho que cuando se +trabaja en una red, el periodista no está solo; el periodista de +investigación trabaja con colegas en otros países, por lo que es más +difícil para los criminales descubrir quién es responsable de que se +vean expuestos sus crímenes. Como resultado de ello a los gobiernos y +funcionarios corruptos les resulta mucho más difícil atacarlos. + +Otra cosa a tener en cuenta es que la información que no parece muy +valiosa en una zona geográfica puede ser crucial en otra. El intercambio +de información a través de redes de investigación puede llevar a sacar a +luz historias muy importantes. Por ejemplo, la información de que un +rumano fue atrapado en Colombia con 1 kilogramo de cocaína probablemente +no sea una noticia de primera plana en Bogotá, pero podría ser muy +importante para el público rumano si un periodista local logra descubrir +que la persona que fue atrapada con el narcótico trabaja para el +gobierno de Bucarest. + +El periodismo de investigación eficiente es el resultado de la +cooperación entre periodistas de investigación, programadores y otros +que quieren usar datos para contribuir a crear una sociedad global más +limpia y más justa. + +— *Paul Radu, Organized Crime and Corruption Reporting Project* + + +## Nuestras historias aparecen en forma de código + +[OpenDataCity](http://www.opendatacity.de/9) fue fundado hacia fines de +2010. Por entonces no pasaba nada con lo que uno podría llamar +periodismo de datos en Alemania. + +¿Por qué lo hicimos? Muchas veces habíamos escuchado a gente trabajando +para diarios y a gente de radio y televisión decir: “No estamos listos +para crear una unidad de periodismo de datos en nuestra redacción. Pero +con gusto tercerizaríamos esto a otros”. + +Hasta donde sabemos somos la única compañía que se especializa +exclusivamente en periodismo de datos en Alemania. Actualmente somos 3: +dos somos periodistas y uno tiene un profundo conocimiento de la +programación y la visualización. Contamos con un puñado de hackers, +diseñadores y periodistas que trabajan por cuenta propia. + +En los últimos 12 meses hemos encarado 4 proyectos de periodismo de +datos con diarios y hemos ofrecido capacitación y consultoría a +trabajadores de medios, científicos y escuelas de periodismo. La primera +aplicación que hicimos fue TAZ, una [herramienta interactiva sobre ruido +en aeropuertos](http://bit.ly/taz-airport-noise) referida al nuevo +aeropuerto de Berlín. Nuestro siguiente proyecto notable fue una +[aplicación sobre retención de datos](http://bit.ly/zeit-telephone) de +uso de teléfonos móviles de un político alemán con ZEIT online. Por esto +ganamos un [premio Grimme Online](http://bit.ly/grimme-award), un premio +Lead en Alemania, y un [premio de Periodismo +Online](http://bit.ly/online-news-award) de la Online Journalism +Association en Estados Unidos. En momentos que escribimos estas líneas +tenemos varios proyectos encaminados, que van desde infográficos +interactivos más simples hasta el diseño y el desarrollo de un programa +de periodismo de datos intermedio. + +![Mapa de ruido en aeropuerto (Taz.de)](figs/incoming/02-TT.png) + +Por supuesto que ganar premios ayuda a la reputación. Pero cuando +hablamos con los editores, que tienen que aprobar los proyectos, nuestro +argumento a favor de invertir en periodismo de datos no tiene que ver +con ganar premios. Más bien es ganar audiencia en períodos más +prolongados de modo sustentable. Es decir, crear cosas por su impacto de +largo plazo, no por el golpe periodístico del momento, que a menudo se +olvida en pocos días. + +A continuación presentamos 3 argumentos que hemos usado para alentar a +editores a abordar proyectos de más largo plazo: + + Los proyectos de datos no envejecen + +: De acuerdo a su diseño, se puede agregar nuevo material a las + aplicaciones de periodismo de datos. Y no son solo para los + usuarios, sino que pueden ser usados internamente para hacer + informes y análisis. Si le preocupa que esto signifique que sus + competidores también se beneficien de su inversión, puede resguardar + algunos recursos o datos para uso interno solamente. + + Puede apoyarse en su trabajo pasado + +: Cuando aborda un proyecto de datos a menudo crea tramos de programas + que pueden ser reutilizados o actualizados. El siguiente proyecto + podría llevar la mitad del tiempo, porque sabe mucho mejor qué hacer + (y qué no) y tiene tramos que puede reutilizar. + + El periodismo de datos se pago solo + +: Los proyectos basados en datos son más baratos que las campañas de + marketing tradicionales. Las medios online a menudo invierten en + cosas como Optimización de Motores de Búsqueda (OMB) y Marketing de + Motores de Búsqueda (MMB). Un proyecto de datos ejecutado + normalmente generará muchos clics y comentarios y puede extenderse + como un virus en la red. Los editores comúnmente pagan menos por + esto que por tratar de generar la misma atención a través del MMB. + +Nuestro trabajo no es muy distinto del de otras agencias de nuevos +medios: proveer aplicaciones o servicios para medios informativos. Pero +quizás difiramos en que nos vemos en primer lugar como periodistas. A +nuestros ojos los productos que entregamos son artículos o historias, +aunque no se transmitan con palabras, imágenes, audio o video, sino en +código. Cuando hablamos de periodismo de datos, tenemos que hablar de +tecnología, software, dispositivos y cómo contar una historia con ellos. + +Para dar un ejemplo, acabamos de trabajar en una aplicación que obtiene +datos en tiempo real a través de un programa que extrae (*scrapea*) +información del sitio del ferrocarril alemán, lo que nos permite desarrollar +[un monitor ferroviario interactivo](http://zugmonitor.sueddeutsche.de/) +para Süddeutsche Zeitung que muestra las demoras de trenes de larga distancia en tiempo +real. Los datos de la aplicación son actualizados cada minuto +aproximadamente y también proveemos un API. Empezamos a hacer esto hace +varios meses y hasta ahora hemos acumulado un inmenso conjunto de datos +que se agranda a cada hora. A esta altura incluye cientos de miles de +filas de datos. El proyecto permite al usuario explorar estos datos en +tiempo real, e investigar en el archivo de meses anteriores. Al final la +historia que narramos será definida de modo significativo por la acción +individual de los usuarios. + +En el periodismo tradicional, debido al carácter lineal de los medios +escritos o de difusión, tenemos que pensar en un comienzo, el fin, el +desarrollo de la historia y el largo y el ángulo de nuestra pieza. Con +el periodismo de datos las cosas son diferentes. Sí hay un comienzo. La +gente llega al sitio y tiene una primera impresión de la interfaz. Pero +a partir de allí se las tienen que arreglar solos. Pueden quedarse un +minuto o media hora. + +Nuestro trabajo como periodistas de datos es proveer el marco o el medio +para esto. Junto con escribir código y manejar datos, tenemos que pensar +en maneras ingeniosas de diseñar experiencias. La experiencia del +usuario (UX) deriva principalmente de la Interfaz de Usuario (gráfica – +GUI). Al final, esta es la parte que definirá el éxito de un proyecto. +Se puede tener el mejor código trabajando en el trasfondo, manejando un +conjunto de datos interesante. Pero si la presentación es mala, no le +importará a nadie. + +Aún hay mucho por aprender y experimentar. Pero por suerte está la +industria de los juegos, que ha estado innovando al respecto de las +narrativas, los ecosistemas y las interfaces digitales desde hace varias +décadas. Por lo que cuando desarrollamos aplicaciones de periodismo de +datos, debemos estar atentos a cómo funciona el diseño de juegos y cómo +se narran historias en los juegos. ¿Por qué juegos como Tetris son tan +divertidos? ¿Y qué es lo que define los mundos abiertos de juegos como +Grand Theft Auto o Skyrim rock? + +Creemos que el periodismo de datos ha llegado para quedarse. En pocos +años, los flujos de trabajo del periodismo de datos estarán incrustados +naturalmente en las redacciones porque los sitios de noticias tendrán +que cambiar. La cantidad de información disponible al público seguirá +creciendo. Pero por suerte nuevas tecnologías seguirán permitiéndonos +encontrar nuevas maneras de narrar historias. Algunas de las historias +se basarán en datos y muchas aplicaciones y servicios tendrán carácter +periodístico. La cuestión interesante es qué estrategia desarrollarán +las redacciones para promover este proceso. ¿Crearán equipos de +periodistas de datos integrados en sus redacciones? ¿Habrá departamentos +de investigación y desarrollo, un poco como los departamentos internos +de empresas que se tratan como si fueran independientes? ¿O habrá +tercerización de partes del trabajo a compañías especializadas? Estamos +recién en el comienzo y el tiempo dirá. + +— *Lorenz Matzat, OpenDataCity* + + + +## Kaas & Mulvad: Contenido Semi-Terminado para Grupos con Intereses Específicos. + +Los medios de grupos con intereses específicos constituyen un sector +emergente, en gran medida ignorado por los teóricos de los medios, que +potencialmente podría tener un tremendo impacto a través de redes online +o proveyendo contenido a medios de noticias. Pueden definirse como +medios (por lo general online), controlados por sectores de +organizaciones o instituciones, utilizados para defender ciertos +intereses y a ciertas comunidades. Las ONG comúnmente crean tales +medios; lo mismo hacen los grupos de consumidores, las asociaciones +profesionales, los sindicatos y así en más. La limitación clave de su +capacidad de influir en la opinión pública u otras partes interesadas es +a menudo que no cuentan con la capacidad para descubrir información +importante, con más limitaciones incluso que los medios de noticias que +han reducido su capacidad. Kaas & Muvlad, una corporación danesa con +fines de lucro, es una de las primeras empresas de medios de +investigación que ofrece capacidad experta a estos medios de grupos con +determinados intereses. + +La firma se originó en 2007 al separarse del Instituto Danés de +Periodismo Asistido por Computadora (Dicar) sin fines de lucro, que +vendía informes a medios y capacitaba a periodistas en análisis de +datos. Sus fundadores, Tommy Kaas y Nils Mulvad, fueron previamente +periodistas en la industria de noticias. Su nueva firma ofrece lo que +llaman “datos más visión periodística” (contenido que queda semi +terminado, requiriendo edición o reescritura) principalmente a medios +con determinados intereses, que utilizan el contenido para informes de +prensa o artículos y los distribuyen a través de medios de noticias y +sus propios medios (tales como sitios en la red). Entre los clientes +directos se incluyen instituciones gubernamentales, firmas de Relaciones +Públicas, sindicatos y ONG tales como EU Transparency y World Wildlife +Fund. El trabajo para ONG incluye el seguimiento de subsidios agrícolas +y de pesca y actualizaciones regulares sobre actividades de lobbistas de +la UE generadas a través de *“scraping”* de sitios pertinentes. Entre +los clientes indirectos se incluyen fundaciones que financian proyectos +de ONG. La firma también trabaja con la industria de noticias; por +ejemplo, un diario sensacionalista compró su servicio de seguimiento de +celebridades. + +![Grupos de interés en medios (Fagblaget3F)](figs/incoming/02-MM.png) + +Los proyectos de periodismo de datos en su portfolio incluyen: + + [Mapa de desempleo para 3F](http://bit.ly/3F-unemployment) + +: Una visualización de datos con cifras claves sobre desempleo en + Dinamarca para 3F, que es el sindicato de los trabajadores sin + capacitación en Dinamarca. + + [Condiciones de Vida para 3F](http://bit.ly/3F-living) + +: Otro proyecto para 3F muestra como son las distintas condiciones de + vida en distintas partes de Dinamarca. El mapa usa 24 indicadores + diferentes. + + [Deuda para “Ugebrevet A4”](http://bit.ly/3F-debt-index) + +: Un proyecto que calcula un “índice de deuda” y visualiza las + diferencias de economías privadas. + + [Instalaciones peligrosas en Dinamarca](http://bit.ly/3F-dangerous-facilities) + +: Un proyecto que hace el mapa de y analiza la proximidad de + instalaciones peligrosas con jardines de infantes y otras + instituciones realizado por “Born&Unge”, una revista publicada por + BUPL, El Sindicato Danés de Educadores de la Primera Infancia y + Jóvenes. + + [Datos de Responsabilidad Corporativa para Vestas](http://data.vestas.com/) + +: Visualización de datos de 5 áreas de RC para la compañía de turbinas + de viento danesa, Vestas, que con texto autogenerado. Actualizado + automáticamente quincenalmente con 400 páginas web incluyendo desde + datos a escala mundial hasta unidades individuales de producción. + + [Mapa de Nombres para Experian](http://xpoint.experian.dk/navnekort) + +: Tipee su apellido y mire la distribución de este nombre en distintas + áreas geográficas de Dinamarca. + + [Mapa de Smiley para Ekstra Bladet](http://ekstrabladet.dk/kup/fodevarer) + +: Todos los días Kaas & Mulvad extraen todas las inspecciones por + alimentos en mal estado y hacen el mapa de lo más actual para el + diario danés Ekstra Bladet (a la mitad del sitio está el mapa). + +Kaas & Mulvad no son los primeros periodistas en trabajar con grupos de +determinados intereses en medios. Greenpeace, por ejemplo, habitualmente +recurre a periodistas como colaboradores para sus informes. Pero no +conocemos ninguna otra firma cuyas ofertas a medios de este tipo se +basen en datos; es mucho más común que los periodistas trabajen con ONG +como periodistas, editores o escritores. + +Actualmente los medios informativos con ayuda de computadoras se +concentran en la búsqueda y el descubrimiento (por ejemplo, WikiLeaks); +en esto también Kaas & Mulvad son innovadores al concentrarse en +análisis de datos. Su enfoque requiere no solo capacidades de +programación sino también comprensión de qué tipo de información puede +producir una historia con impacto. Se puede decir con certeza que +cualquiera que desee imitar su servicio probablemente tendría que +adquirir esos dos conjuntos de capacidades a través de asociaciones, +porque raramente los individuos poseen ambos. + +#### Procesos: TI innovadora más análisis + +La firma encara alrededor de 100 proyectos al año, que duran entre pocas +horas y pocos meses. También invierte continuamente en proyectos que +expanden su capacidad y ofertas. El servicio de seguimiento de +celebridades fue uno de tales experimentos. Otro involucró recorrer +Internet en busca de noticias sobre ejecución de hipotecas y crear mapas +de los casos. Los socios dicen que su primer criterio para encarar +proyectos es disfrutar del trabajo y aprender del mismo; se buscan +mercados luego de que se defina un nuevo servicio. Aseguran en que el +sector de noticias les resultó difícil desarrollar nuevos métodos y +nuevos negocios. + +No tenemos editores o jefes que decidan qué proyectos podemos hacer, qué +software o hardware podemos comprar. Podemos comprar las herramientas de +acuerdo a las necesidades de los proyectos, como las mejores soluciones +para búsqueda y extracción de texto. Nuestra meta es estar a la +vanguardia en estas áreas. Tratamos de conseguir clientes que estén +dispuestos a pagar o, si el proyecto es divertido, lo hacemos por menos +dinero. + +#### Valor creado: marcas e ingresos personales y de firmas + +El giro en 2009 fue aproximadamente de 2.500.000 de coronas danesas (€ +336.000). La compañía también sostiene la reputación de los socios como +periodistas de vanguardia, lo que mantiene la demanda para sus servicios +educativos y de conferencias. Sus apariciones públicas al mismo tiempo +sostienen la marca de la firma. + +#### Percepciones claves de este ejemplo + +- La crisis de capacidad en baja del sector informativo es también una + crisis de sub utilización de capacidad. Kaas y Mulvad tuvieron que + dejar el sector para hacer trabajo que valoran y eso da resultados. + Nada impide a las organizaciones de noticias captar ese valor. +- Al menos en algunos sectores, existe un mercado rentable para + “contenido semi-acabado” que puede servir a los grupos de + interesados. +- Sin embargo, esta oportunidad plantea la cuestión de cuánto control + pueden ejercer los periodistas sobre la presentación y uso de su + trabajo por terceros. Recordamos que esta cuestión ya existe dentro + del sector de las noticias (donde los editores pueden imponer + cambios al producto de un periodista) y ha existido en otros + sectores de medios (tales como el cine, donde no son precisamente + raros los conflictos ente directores y estudios por el “corte + final”). No es un riesgo moral particular de los medios de + interesados, y tampoco va a desaparecer. Se necesita prestar más + atención a la ética de esta realidad y mercado en crecimiento. +- Desde el punto de vista de los ingresos, un producto o servicio solo + no basta. Las compañías exitosas que realizan periodismo de denuncia + debieran tener un enfoque de cartera en el que la consultoría, la + enseñanza, las conferencias y otros servicios aportan ingresos extra + y sostienen la marca. +— *Extracto editado de \`\`Disruptive News Technologies: Stakeholder +Media and The Future of Watchdog Journalism Business Models ''de Mark +Lee Hunter y Luk N. Van Wassenhove, INSEAD Working Paper, 2010* + +## Modelos de negocios para periodismo de datos + +En medio de todo el interés y las expectativas respecto del periodismo +basado en datos, hay una cuestión sobre la que siempre hay curiosidad en +las redacciones: ¿cómo son los modelos de negocios? + +Si bien debemos ser cuidadosos respecto de hacer predicciones, un +análisis de la historia reciente y el estado actual del sector de los +medios nos puede dar una visión. Hoy hay muchas organizaciones de +noticias que se han beneficiado al adoptar nuevos enfoques. + +Los términos como “periodismo de datos” y la nueva expresión de moda, +“ciencia de datos”, pueden sonar como que describen algo nuevo, pero no +es estrictamente cierto. En cambio estas nuevas etiquetas son solo +maneras de caracterizar un cambio que ha estado cobrando fuerza a lo +largo de décadas. + +Muchos periodistas parecen inconscientes de la magnitud de los ingresos +que ya se generan a través de la recolección de datos, su análisis y +visualización. Este es el negocio de la refinación de la información. +Con herramientas y tecnologías para procesar datos, es cada vez más +posible echar luz sobre asuntos muy complejos, se trate de finanzas +internacionales, deuda, demografía, educación, y así en más. El término +“inteligencia de negocios” describe una variedad de conceptos de TI que +apuntan a aportar una visión clara de lo que sucede en corporaciones +comerciales. Las compañías grandes y rentables de nuestro tiempo, +incluyendo McDonalds, Zara y H&M, dependen del seguimiento constante de +datos para obtener ganancias. Y para ellos funciona bastante bien. + +Lo que está cambiando es que las herramientas desarrolladas para este +espacio ahora están disponibles para otros dominios, incluyendo los +medios. Y hay periodistas que lo entienden. Está por caso Tableau, una +compañía que provee un conjunto de herramientas de visualización. O el +movimiento “Big Data” (Grandes Datos), en el que compañías de tecnología +usan paquetes de software (a menudo de código abierto) para analizar +pilas de datos, extrayendo conclusiones en milisegundos. + +Estas tecnologías ahora se pueden aplicar al periodismo. Equipos de The +Guardian y The New York Times están constantemente ampliando los límites +de este campo naciente. Y lo que vemos actualmente es solo la punta del +iceberg. + +¿Pero cómo genera esto dinero para periodismo? El gran mercado mundial +que actualmente se está abriendo tiene que ver con la transformación de +datos de disponibilidad pública en algo que podamos procesar: haciendo +que los datos resulten visibles y humanos. Queremos poder relacionarnos +con las grandes cifras que escuchamos todos los días en las noticias, lo +que significan los millones y miles de millones para cada uno de +nosotros. + +Hay una cantidad de compañías de medios basadas en datos, muy rentables, +que simplemente han aplicado este principio antes que otras. Disfrutan +de tasas de crecimiento saludables y a veces ganancias que impresionan. +Un ejemplo es Bloomberg. La compañía opera alrededor de 300.000 +terminales y entrega datos financieros a sus usuarios. Si usted está en +el negocio del dinero, esta es una herramienta poderosa. Cada terminal +viene con un teclado con códigos de colores y hasta 30.000 opciones para +mirar, comparar, analizar y ayudarlo a decidir que hacer a continuación. +Este negocio central genera según se estima US\$ 6300 millones al año, +al menos según [un artículo publicado en 2008](http://nyti.ms/IQcRgY) en +The New York Times. Como resultado de ello Bloomberg ha estado +contratando periodistas por todas partes, compraron la venerable pero +perdidosa “Business Week”, y así siguiendo. + +Otro ejemplo es el conglomerado de medios canadiense conocido hoy como +Thomson Reuters. Comenzaron con un diario, compraron una cantidad de +títulos conocidos en el Reino Unido y luego decidieron hace dos décadas +dejar el negocio de los diarios. En vez de ello, han crecido en base a +servicios de información, apuntando a proveer una perspectiva más +profunda para clientes en una cantidad de sectores. Si le preocupa cómo +ganar dinero con información especializada, mi consejo sería que +simplemente lea [la historia de la compañía en +Wikipedia](http://en.wikipedia.org/wiki/The_Thomson_Corporation). + +Y vea The Economist. La revista ha creado una marca excelente e +influyente por el lado de los medios. Al mismo tiempo la “Economist +Intelligence Unit” ahora es más como una consultora, informando sobre +tendencias y pronósticos relevantes para casi todos los países del +mundo. Emplean cientos de periodistas y sostienen que sirven a 1.500.000 +de clientes en todo el mundo. + +Y hay muchos servicios de nicho basados en datos que podrían servir como +inspiración: eMarketer en Estados Unidos, que ofrece comparaciones, +cuadros y consejos para cualquiera interesado en marketing en Internet; +Stiftung Warentest en Alemania, institución que analiza la calidad de +productos y servicios; Statista, también de Alemania, una nueva empresa +que ayuda a visualizar información públicamente disponible. + +En todo el mundo actualmente hay una oleada de nuevas empresas en este +sector, que cubren naturalmente una amplia gama de áreas; por ejemplo, +Timetric, que apunta a “reinventar los estudios de negocios”, +OpenCorporates, Kasabi, Infochimps y Data Market. Muchas de estas son +experimentos, pero de conjunto pueden considerarse una señal importante +de cambio. + +Y están los medios públicos, que en términos de periodismo de datos, son +un gigante dormido. En Alemania, € 7200 millones van a este sector +anualmente. El periodismo es un producto especial: si se hace bien, no +solo se trata de ganar dinero, sino que sirve un rol importante en la +sociedad. Una vez que queda en claro que el periodismo de datos puede +ofrecer visiones más confiables y de modo más fácil, parte de este +dinero podría usarse para nuevos empleos en las redacciones. + +En el caso del periodismo de datos no se trata solo de ser el primero si +no de ser una fuente de información confiable. En este mundo multicanal, +se puede generar atención en abundancia, pero la *confianza* es un +recurso cada vez más escaso. Los periodistas de datos pueden ayudar a +filtrar, sintetizar y presentar fuentes de información diversas y a +menudo difíciles de un modo que le da al público una visión real de +asuntos complejos. En vez de solo reciclar comunicados de prensa y +repetir las historias que han escuchado en otras partes, los periodistas +de datos pueden dar a los lectores una perspectiva clara, comprensible y +preferentemente adecuada a esos lectores, con gráficos interactivos y +acceso directo a fuentes primarias. No trivial y sin duda valioso. + +¿Entonces cuál es el mejor enfoque para que quienes aspiran a +periodistas de datos exploren este campo y convenzan a la gerencia de +que apoyen proyectos innovadores? + +El primer paso debiera ser buscar oportunidades inmediatas cerca de +donde están: fruta que cuelga del árbol. Por ejemplo usted puede tener +ya colecciones de textos y datos estructurados que puede usar. Un gran +ejemplo de esto es la “base de datos de homicidios” de Los Ángeles +Times. Aquí los datos y las visualizaciones son el centro, no algo +secundario. Los editores recogen información sobre todos los crímenes +que encuentran y recién entonces escriben artículos basados en ello. Con +el tiempo tales colecciones se están volviendo mejores, más profundas y +más valiosas. + +Esto podría no funcionar la primera vez. Pero con el tiempo si lo hará. +Un indicador que da muchas esperanzas es que el Texas Tribune y +ProPublica, que podría decirse que son ambas compañías de medios de la +era posterior a los diarios impresos, informaron que la financiación de +sus organizaciones de periodismo sin fines de lucro superó sus metas +mucho antes de lo planificado. + +Volverse eficiente en todo lo relacionado con datos –como generalista o +como especialista concentrado en un aspecto de la cadena alimenticia de +datos- genera una perspectiva valiosa para la gente que cree en el +periodismo. Como dijo un muy conocido editor en Alemania recientemente +en una entrevista: “Existe este nuevo grupo que se llaman periodista de +datos. Y ya no están dispuestos a trabajar por moneditas”. + +— *Mirko Lorenz, Deutsche Welle* + + +# Estudio de casos + +![](figs/incoming/03-00-cover.png) + +En esta sección analizamos con más profundidad el detrás de escena de +numerosos proyectos de periodismo de datos, desde aplicaciones +desarrolladas en un día, hasta investigaciones de 9 meses de duración. +Nos informamos sobre cómo han sido usadas fuentes de datos para aumentar +y mejorar la cobertura de diferentes temas, desde elecciones hasta +gasto, de disturbios hasta corrupción, desde el nivel educativo de las +escuelas hasta el precio del agua. Junto a organizaciones de grandes +medios, tales como la BBC, el Chicago Tribune, The Guardian, el +Financial Times, Helsingin Sanomar, La Nación, el Wall Street Journal, y +el Zeit Online, también presentamos iniciativas más pequeñas tales como +las de California Watch, Hack/HackersBeunos Aires, ProPublica y un grupo +de ciudadanos-periodistas brasileños llamados amigos de Januária. + +### Qué contiene este capítulo? + +- [La brecha de oportunidades](estudio_de_casos_0.html) +- [Una investigación de 9 meses sobre Fondos Estructurales + Europeos](estudio_de_casos_1.html) +- [El colapso de la Eurozona](estudio_de_casos_2.html) +- [Cubrir el gasto público con + OpenSpending.org](estudio_de_casos_3.html) +- [Elecciones parlamentarias finlandesas y financiación de + campañas](estudio_de_casos_4.html) +- [Hack electoral en tiempo real (Hacks/Hackers Buenos + Aires)](estudio_de_casos_5.html) +- [Datos en las noticias: WikiLeaks](estudio_de_casos_6.html) +- [Hackatón Mapa76](estudio_de_casos_7.html) +- [Cobertura de los disturbios en el Reino Unido por el Datablog de + The Guardian](estudio_de_casos_8.html) +- [Evaluaciones de escuelas de Illinois](estudio_de_casos_9.html) +- [Facturación de hospitales](estudio_de_casos_10.html) +- [Crisis de los geriátricos](estudio_de_casos_11.html) +- [El teléfono que lo dice todo](estudio_de_casos_12.html) +- [Tasas de reprobación de distintos modelos de auto en la prueba + MOT](estudio_de_casos_13.html) +- [Subsidios a colectivos en Argentina](estudio_de_casos_14.html) +- [Ciudadanos periodistas de datos](estudio_de_casos_15.html) +- [El gran cuadro de resultados electorales](estudio_de_casos_16.html) +- [Consulta sobre el precio del agua](estudio_de_casos_17.html) + + +## La brecha de oportunidades + +[The Opportunity Gap](http://projects.propublica.org/schools) (La Brecha +de Oportunidades, usó datos de derechos civiles nunca antes difundidos +del departamento de Educación de Estados Unidos y mostró que algunos +estados, como Florida, han creado una situación equitativa ofreciendo a +estudiantes ricos y pobres un acceso equitativo en términos generales a +cursos de alto nivel, mientras que otros estados, como Kansas, Maryland +y Oklahoma, ofrecen menos oportunidades en distritos con familias más +pobres. + +![The Opportunity Gap project (ProPublica)](figs/incoming/03-YY.png) + +Los datos incluyen a las escuelas públicas de todo distrito con 3000 +estudiantes o más. Estan representados más de 3 cuartos de todos los +alumnos de escuelas públicas. Un reportero de nuestra redacción obtuvo +los datos y nuestro Director de Informes Asistidos por Computadora los +depuró en profundidad. + +Fue un proyecto que llevó aproximadamente 3 meses. En total 6 personas +trabajaron en la historia y la aplicación de noticias: 2 editores, un +redactor, una persona de Informes asistidos por computadora y 2 +programadores. La mayoría no trabajó exclusivamente en este proyecto +durante ese período. + +El proyecto requirió realmente nuestras capacidades combinadas: profundo +conocimiento del tema, una comprensión de las mejores prácticas con +datos, capacidades de diseño y programación. Lo que es más importante, +requirió la capacidad de encontrar la historia en los datos. También +exigió edición, no solo para la historia que la acompaña, sino también +para la aplicación de noticias. + +Para la depuración y análisis de los datos usamos principalmente Excel y +rutinas de depuración, así como MS Access. La aplicación de noticias fue +desarrollada con el programa Ruby on Rails y usa abundantemente +JavaScript. + +Además de un artículo que da el marco general, nuestra cobertura incluyó +una aplicación de noticias interactiva que permite a los lectores +comprender y encontrar ejemplos que se relacionen con su propia +situación dentro de esta gran base de datos nacional. Utilizando nuestra +aplicación de noticias, el lector podía encontrar su escuela local +–digamos, por ejemplo, +[Central High School en Newark, N.J.](http://goo.gl/HJVCf)\_ +y ver inmediatamente el desempeño relativo +de la escuela en una gran variedad de áreas. +Entonces podía cliquear un botón que dice +[“comparar con Escuelas de Alta y Baja Pobreza”](http://goo.gl/WrAIi), +e inmediatamente ver otras escuelas medias y su pobreza relativa, y la +medida en la que ofrecen matemática avanzada, Advanced Placement +(conocido con la sigla AP, un programa de la dirección de Colleges, que +ofrece currícula y exámenes de nivel de College para estudiantes de +secundaria en Estados Unidos, n. del t.) y otros cursos importantes. +En nuestro ejemplo, Central High tiene como +referencia a Millburn Sr. High. La Brecha de Oportunidades muestra que +sólo el 1% de los estudiantes de Milburn recibe almuerzo gratis o a +precio reducido y el 72% de ellos hace al menos un curso de AP. En el +otro extremo, en el International High el 85% de sus estudiantes recibe +almuerzo gratis o a precios reducidos y solo 1% toma cursos AP. + +A través de este ejemplo el lector puede usar información que conoce –de +una escuela media local- para averiguar algo que no sabe: la +distribución de la accesibilidad educativa y en qué medida la pobreza +predice esa accesibilidad. + +También integramos la aplicación con Facebook, de modo que los lectores +pudieran loguearse esta a esta red social y nuestra aplicación +automáticamente les haría saber de escuelas que podrían interesarles. + +El tráfico hacia todas nuestras aplicaciones de noticias es excelente y +estamos particularmente orgullosos del modo en que ella cuenta una +historia compleja; y, lo que va más al grano, ayuda a los lectores a +definir su propia historia. + +Tal como sucede con muchos proyectos que parten de información oficial, +los datos requirieron mucha depuración. Por ejemplo, si bien sólo hay +alrededor de 30 posibles cursos de Advanced Placement, algunas escuelas +informaban que tenían cientos de ellos. Esto exigió muchos chequeos +manuales y llamadas telefónicas a escuelas para confirmaciones y +correcciones. + +También trabajamos fuerte para asegurarnos que la aplicación ofreciera +una versión “lejana” y una versión “cercana” de la historia. Es decir, +la aplicación tenía que presentar al lector un cuadro nacional amplio y +abstracto; una manera de comparar a los estados en materia de acceso +educativo. Pero dado que la abstracción a veces genera confusión en los +lectores respecto de lo que los datos significan para ellos, también +queríamos que los lectores pudieran encontrar sus escuelas locales y +compararlas con escuelas de baja pobreza en su área. + +Si quisiera aconsejar a quienes quieren ser periodistas de datos y +abordar proyectos de este tipo, diría que tienen que conocer el material +y ser inquisitivos. Todas las reglas que valen para otros tipos de +periodismo, valen también aquí. Hay que tener datos ciertos, asegurarse +de contar bien la historia y -cuestión crucial- asegurarse de que su +aplicación de noticias no contradiga la historia que está escribiendo. +Si lo hace, una de las 2 podría estar equivocada. + +Además, si usted quiere aprender a programar, lo más importante es +empezar. Usted puede preferir aprender a través de clases, libros o +videos, pero asegúrese de tener una idea realmente buena para un +proyecto y un plazo para completarlo. Si tiene una historia en la cabeza +que solo puede expresarse a través de una aplicación de noticias, +entonces no saber programar no lo va a detener. + +— *Scott Klein, ProPublica* + + +## Una investigación de 9 meses sobre Fondos Estructurales Europeos + +En 2010, el [Financial Times](http://www.ft.com/intl/eu-funds) y el +[Bureau of Investigative Journalism +(BIJ)](http://bit.ly/bureau-billions) se unieron para investigar los +Fondos Estructurales Europeos. La intención era revisar quiénes son los +beneficiarios de esos fondos y verificar si el dinero se usó para bien. +Con € 347.000 millones a lo largo de 7 años, los Fondos Estructurales +son el segundo programa de subsidios de la Unión Europea. El programa +existe desde hace décadas, pero fuera de informes generales, había poca +transparencia respecto de quiénes eran los beneficiarios. Como parte de +un cambio de reglas en la actual ronda de otorgamiento de fondos, las +autoridades están obligadas a hacer pública una lista de beneficiarios, +incluyendo la descripción de los proyectos y el monto de fondos de la UE +y nacionales recibidos. + +![Investigación de Fondos Estructurales de la UE (Financial Times y el Bureau of Investigative Journalism)](figs/incoming/03-OO-01.png) + +El equipo del proyecto estaba compuesto por 12 periodistas y un +programador tiempo completo colaborando por 9 meses. La recolección de +los datos por sí sola llevó varios meses. + +El proyecto se publicó en 5 días de cobertura en el Financial Times y el +BIJ, un documental radial de la BBC y varios documentales de TV. + +Antes de abordar un proyecto con este nivel de esfuerzo hay que estar +seguro de que lo descubierto es original y que se terminará teniendo +buenas historias que nadie más tiene. + +El proceso se dividió en una serie de pasos diferentes. + +#### 1. Identificar quién registra los datos y cómo + +El Directorio General de las Regiones de la Comisión Europea tiene un +[portal](http://bit.ly/ec-portal) de los sitios de autoridades +regionales que publican los datos. Creíamos que la Comisión tendría una +base de datos general de proyectos a la que podríamos acceder +directamente o que podríamos obtener a través de un pedido de acceso a +la información. No existe tal base de datos con el nivel de definición +requerido. Rápidamente advertimos que muchos de los vínculos provistos +por la comisión eran erróneas y que la mayoría de las autoridades +publicaban los datos en formato PDF, en vez de formatos que faciliten el +análisis tales como CSV o XML. + +Un equipo de 12 personas trabajó para identificar los datos más +actualizadas y ordenar los vínculos reuniéndolos en una planilla de +cálculo que usamos para colaboración. Dado que los campos de datos no +eran uniformes (por ejemplo, los encabezados estaban en distintos +idiomas, algunos conjuntos de datos usaban diferentes divisas, y algunos +incluían descomposición en fondos de UE y nacionales) tuvimos que ser lo +más precisos posible en la traducción y +\[line-through\]\*la\*descripción de los campos de datos disponibles en +cada conjunto. + +#### 2. Descargar y preparar los datos + +El siguiente paso consistió en descargar todas las planillas de cálculo, +PDF y, en algunos casos, recopilar datos originales en la red. + +Cada conjunto de datos tuvo que ser estandarizado. Nuestra mayor tarea +fue extraer datos de cientos de páginas en formato .PDF. Gran parte de +esto se hizo utilizando UnPDF y ABBYY FineReader, que permiten extraer +datos a formatos tales como CSV o Excel. + +También significó verificar y volver a verificar que las herramientas de +extracción de PDF hubiesen captado los datos correctamente. Esto se hizo +filtrando, ordenando y sumando totales (para asegurarnos que se +correspondieran con lo publicado en los PDF). + +#### 3. Crear una base de datos + +El programador del equipo creó una base de datos SQL. Cada uno de los +archivos preparados fue utilizado entonces como unidad para la +construcción de la base de datos SQL general. Con un proceso diario se +cargaba todos los archivos individuales de datos en una gran base de +datos SQL, en la que se podían realizar búsquedas en cualquier momento a +través de su interfaz con palabras claves. + +#### 4. Doble verificación y análisis + +El equipo analizó los datos de 2 maneras principales: + + Vía la interfaz de la base de datos + +: Esto significó tipear palabras claves de interés (por ejemplo, + “tabaco”, “hotel”, “compañía A” en el motor de búsquedas. Con la + ayuda de Google Translate, que fue incorporado a la funcionalidad de + búsquedas de nuestra base de datos, esas palabras claves se + traducían a 21 idiomas, obteniendo los resultados apropiados. Estos + se podían descargar y los periodistas podían continuar su + investigación en proyectos individuales de su interés. + + Por macro-análisis usando toda la base de datos + +: Ocasionalmente descargábamos un conjunto de datos completo, que + entonces podía ser analizado (por ejemplo, usando palabras clave o + agregando datos por país, región, tipo de gasto, número de proyectos + por beneficiarios, etc.) + +Nuestras historias se conformaron con ambos métodos, pero también a +través de investigación de campo y de escritorio. + +Hacer la doble verificación de la integridad de los datos (agregando y +verificando en comparación con lo que las autoridades dijeron que fue +asignado) llevó una gran cantidad de tiempo. Uno de los principales +problemas fue que las autoridades mayormente solo divulgaban la cantidad +de “fondos de la UE y nacionales”. Bajo las reglas de la UE, cada +programa puede cubrir un porcentaje del costo total usando fondos de la +UE. El nivel de financiación por la UE es determinado, al nivel del +programa, por la llamada tasa de co-financiación. Cada programa (por +ejemplo, competitividad regional) está compuesto de numerosos proyectos. +Al nivel de los proyectos, técnicamente, uno podría recibir ciento por +ciento de financiación de la UE y otro nada, mientras el monto total de +la financiación por la UE al nivel de los programas no superara la tasa +de co-financiación aprobada. + +Esto significó que tuvimos que verificar con cada compañía beneficiaria +el monto de financiación de la UE que citamos en nuestras historias. + +— *Cynthia O’Murchu, Financial Times* + + +## El colapso de la Eurozona + +Estamos [cubriendo el colapso de la Eurozona](http://on.wsj.com/tYM82O). +Todos los aspectos. El dramatismo de los enfrentamientos entre gobiernos +y la pérdida de los ahorros de toda la vida; la reacción de los líderes +mundiales, las medidas de austeridad, y las protestas en contra de estas +medidas. Todos los días en el Wall Street Journal hay cuadros sobre +pérdidas de empleos, caída de PBI y hundimiento de los mercados +mundiales. Es incremental. Y aturde. + +Los editores de tapa convocan una reunión para debatir ideas sobre la +cobertura de fin de año y en momentos en que me voy de la reunión, me +pregunto: ¿Cómo será vivir esto? + +¿Es esto como 2008 cuando me echaron y las malas noticias eran +incesantes? Hablábamos de empleo y dinero todas las noche en la cena, +casi sin pensar en cómo podía intranquilizar a mi hija. Y los fines de +semana eran lo peor. Yo trataba de negar el temor que parecía dominarme +permanentemente y la ansiedad que no me dejaba respirar. ¿Así vive una +familia ahora mismo en Grecia? ¿En España? + +Me volví y seguí a Mike Allen, el editor de tapa, a su oficina le +propuse la idea de contar la crisis a través de familias en la Eurozona +mirando primero los datos, encontrando perfiles demográficos para +entender la composición familiar y luego sacando eso a luz junto con las +imágenes y entrevistas, audio de las distintas generaciones. Usaríamos +hermosos elementos de retrato, las voces … y los datos. + +Cuando volví a mi escritorio escribí un resumen y dibujé un logo. + +![El colapso de la Eurozona: resumen (Wall Street Journal)](figs/incoming/03-ZZ-01.png) + +Durante las siguientes 3 semanas perseguí cifras: métricas sobre +matrimonio, mortalidad, el tamaño de las familias y gasto en salud. Leí +sobre condiciones de vida y tasas de divorcio, miré encuestas sobre +bienestar y tasas de ahorro. Estudié estadísticas nacionales, llamé al +bureau de población de la ONU, el FMI, Eurostat, y la OCDE hasta que +encontré un economista que había pasado su carrera siguiendo familias. +Me conectó con una estudiosa sobre composición familiar. Me indicó +trabajos sobre mi tema. + +Con mi editor, Sam Enriquez, redujimos el número de países. Reunimos un +equipo para debatir el enfoque visual y qué periodistas producirían +palabras, audio y la historia. Matt Craig, el editor fotográfico de +tapa, se puso a trabajar para encontrar fotógrafos. Matt Murray, el +subeditor ejecutivo para cobertura mundial, envió un memo a los jefes de +sección pidiendo ayuda de los periodistas. (Esto fue crucial: la orden +de la máxima jerarquía). + +Pero primero los datos. Por la mañana yo exportaba datos a planillas de +cálculo y hacía cuadros para ver tendencias: caída del ahorro, +desaparición de pensiones, la vuelta de madres al trabajo, gasto en +salud, junto con deuda pública y desempleo. Por la tarde analizaba esos +datos agrupados, comparando los países para encontrar historias. + +Lo hice durante una semana antes de enredarme en los yuyos y comenzar a +dudar de mi misma. Quizás fuera un enfoque equivocado. Quizás no debía +tratarse de países, sino de padres y madres, y niños y abuelos. Los +datos aumentaron. + +Y se redujeron. A veces pasaba horas reuniendo información que en +definitiva no me decía nada. Había buscado un conjunto de cifras +equivocado. En algunos casos los datos eran simplemente demasiado +viejos. + +![Juzgar la utilidad de un conjunto de datos puede ser una tarea que lleve mucho tiempo Sarah Slobin)](figs/incoming/03-ZZ-04.png) + +Luego los datos volvieron a aumentar al advertir que aún tenía +interrogantes y no entendía las familias. + +Necesitaba verlo, moldearlo. Por lo que hice una serie rápida de +gráficos en Illustrator y comencé a ordenarlos y editarlos. + +Al emerger los cuadros, también apareció una imagen cohesionada de las +familias. + +![Visualizaciones gráficas: encontrar sentido a tendencias y patrones escondidos en los conjuntos de datos (Sarah Slobin)](figs/incoming/03-ZZ-06.png) + +![Las cifras son gente: el valor de los datos está en las historias individuales que representan (Wall Street Journal)](figs/incoming/03-ZZ-07.png) + +Lanzamos el proyecto. Llamé a cada periodista. Les mandé los cuadros, la +idea general y una invitación abierta a encontrar historias que ellos +consideraran significativas, que acercaran la crisis a nuestros +lectores. Necesitábamos una familia pequeña en Ámsterdam y familias más +grandes en España e Italia. Queríamos saber de múltiples generaciones +para ver cómo la historia personal moldea las respuestas. + +A partir de aquí, me levantaba temprano para ver mi correo electrónico +teniendo en cuenta la brecha de horarios. Los periodistas respondieron +con temas hermosos, síntesis y sorpresas que no había previsto. + +En cuanto a fotografías, sabíamos que queríamos retratos de +generaciones. La visión de Matt era lograr que sus fotógrafos siguieran +a cada miembro de la familia a lo largo de un día en sus vidas. Escogió +periodistas visuales que hubiesen cubierto el mundo, cubierto noticias e +incluso guerras. Matt quería que cada sesión terminara en la cena. Sam +sugirió que incluyéramos los menúes de las comidas. + +A partir de allí era cuestión de esperar a ver qué historia contaban las +fotos. Esperar a ver qué decían las familias. Diseñamos el aspecto del +material interactivo. Robé una paleta de colores de una novela de Tintin +y trabajamos la interacción. Y cuando reunimos todo en paneles, +agregamos nuevamente algunos (no todos, algunos) de los cuadros +originales. Lo suficiente para puntuar cada historia, lo suficiente para +endurecer los temas. Los datos se convirtieron en una pausa en la +historia, una manera de bajar un cambio. + +![La vida en la Eurozona (Wall Street Journal)](figs/incoming/03-ZZ-09.png) + +Al final, los datos eran la gente; eran las fotografías y las historias. +Era lo que enmarcaba cada narración y provocaba la tensión entre países. + +Para cuando publicamos el proyecto, justo antes de fin de año, mientras +todos contemplábamos lo que había en el horizonte, ya conocía a todos +los miembros de las familias por su nombre. Me sigo preguntando cómo +estarán ahora. Y si esto no parece un proyecto de datos, no hay +problema. Porque los momentos que quedaron documentados en la *Vida en +la zona del Euro*, esas historias de sentarse a comer y hablar sobre el +trabajo y la vida con su familia es algo que pudimos compartir con +nuestros lectores. Entender los datos es lo que lo hizo posible. + +— *Sarah Slobin, Wall Street Journal* + + + +## Cubrir el gasto público con OpenSpending.org + +En 2007, Jonathan vino a la Open Knowledge Foundation con una propuesta +de una carilla para un proyecto llamado +[Where Does My Money Go](http://www.wheredoesmymoneygo.org/) +(A dónde va mi dinero, que apuntaba a facilitarle a los ciudadanos británicos +la comprensión de cómo se gastan los fondos públicos. La intención era que fuera +una demostración de un concepto para un proyecto mayor que representara +visualmente la información pública, basándonos en trabajos pioneros del +Istoype Institute de Otto y Marie Neurath de la década del ‘40. + +![¿A dónde va mi dinero? (Open Knowledge Foundation)](figs/incoming/03-PP-02.png) + +El proyecto Where Does My Money Go? permitió a los usuarios explorar +datos públicos de una amplia variedad de fuentes usando herramientas de +código abierto intuitivas. Obtuvimos apoyo para desarrollar un prototipo +del proyecto, y luego recibimos fondos del 4IP de Channel 4, para +convertir esto en una aplicación de la red plenamente funcional. El gurú +del diseño informático, David McCandless (de +[Information is Beautiful](http://www.informationisbeautiful.net/); creó varias +vistas distintas de los datos que ayudan a la gente a ubicarse respecto de las +grandes cifras, incluyendo el “Analisis del País y Regional”, que +muestra cómo se gastan los fondos en distintas partes del país, y +[“Daily Bread”](http://wheredoesmymoneygo.org/dailybread.html) (Pan +diario, que muestra a los ciudadanos un desglose de sus contribuciones +fiscales por día en libras y centavos. + +![Calculador impositivo Daily Bread de ¿A dónde va mi dinero? (Open Knowledge Foundation)](figs/incoming/03-PP-01.png) + +En aquel tiempo, el santo grial para el proyecto eran los datos de lo +que se llamaba +[Combined Online Information System](http://data.gov.uk/dataset/coins) +(COINS, Sistema de Información Combinada Online, que era la base de datos +más abarcativa y detallada de finanzas públicas británicas. +Trabajando con Lisa Evans (antes de que se sumara al equipo del Datablog en +The Guardian), Julian Todd y Francis Irving (conocidos por Scraperwiki), +Martin Rosenbaum (BBC) y otros, presentamos numerosos pedidos de datos, +muchos de ellos con éxito (la saga está parcialmente documentada por Lisa en +el cuadro de texto “Using FOI to Understand Spending”) (Usar LDI para entender el +gasto, en la página 120 de este manual.) + +Cuando los datos fueron finalmente difundidos a mediados de 2010, fue +considerado un golpe en favor de la transparencia. Se nos dio acceso por +adelantado a los datos para poder cargarlos en nuestra aplicación en la +red y recibimos significativa atención de la prensa cuando se hizo +público este hecho. El día en que se puso a disposición del público, +tuvimos docenas de periodistas que aparecieron en nuestro canal de chat +para debatir y preguntar sobre el hecho, así como averiguar cómo abrir +la aplicación y explorarla (los archivos tenían decenas de gigabytes). +Si bien algunos críticos sostuvieron que la publicación masiva de datos +era tan complicada que en los hechos era [oscurecer las cosas de tanta +transparencia](http://bit.ly/archive-silicon), muchos periodistas +valientes se metieron a investigar en los datos para dar a sus lectores +un cuadro sin precedentes del gasto público. The Guardian [transmitió el +evento en vivo](http://bit.ly/guardian-coins) en su blog y otros medios +lo cubrieron y ofrecieron conclusiones basadas en los datos. + +No tardaron mucho en llegar pedidos y preguntas respecto de proyectos +similares en otros países del mundo. Poco después de lanzar +[OffenerHaushalt](http://offenerhaushalt.de/) -una versión del proyecto +para el presupuesto estatal alemán creado por Friedrich Lendenberg- +lanzamos [OpenSpending](http://openspending.org/), una versión +internacional del proyecto, que apunta a ayudar a los usuarios a seguir +el gasto público de todo el mundo, un poco como el OpenStreetMap ayudó a +hacer el mapa de accidentes geográficos. Implementamos nuevos diseños +con ayuda del talentoso Gregor Aisch, basados parcialmente en los +diseños originales de David McCandless. + +![OffenerHaushalt, la versión alemana de ¿A dónde va mi dinero? (Open Knowledge Foundation)](figs/incoming/03-PP-03.png) + +Con OpenSpending, hemos trabajado extensamente con periodistas para +adquirir, representar, interpretar y presentar datos de gasto público. +El proyecto es en primer lugar una base de datos enorme del gasto +público –tanto información presupuestaria de alto nivel como gasto +efectivo al nivel de las transacciones- en la que se puede hacer +búsquedas. Sobre esto se ha construido una serie de visualizaciones +tales como "treemaps"(gráficos de rectángulos anidados) y "bubbletrees" +(gráficos de burbujas anidadas). Cualquiera puede cargar los datos de su +municipalidad y producir visualizaciones. + +Inicialmente creímos que habría mayor demanda de nuestras +visualizaciones más sofisticadas, pero luego de hablar con +organizaciones de noticias advertimos que había necesidades más básicas +que debían ser satisfechas primero, tales como la capacidad de insertar +tablas dinámicas de datos en sus blogs. Deseosos de alentaras a dar +acceso público a los datos junto con sus historias, también creamos una +aplicación para esto. + +Nuestro primer gran lanzamiento fue en la época del primer Festival +Internacional de Periodismo en Perugia. Un grupo de programadores, +periodistas y empleados públicos colaboraron para cargar datos italianos +en la plataforma de OpenSpending, que daba una rica visión de cómo se +dividía el gasto entre las administraciones regionales y locales y +central. Apareció en +[Il Fatto Quotidiano](http://bit.ly/ilfatto-spending), +[Il Post](http://bit.ly/ilpost-spending), +[La Stampa](http://bit.ly/lastampa-spending), +[Repubblica](http://bit.ly/repubblica-spending), y +[Wired Italia](http://bit.ly/wired-italy-spending), así como en +[The Guardian](http://bit.ly/guardian-italy-spending). + +![Versión italiana de ¿A dónde va mi dinero? (La Stampa)](figs/incoming/03-PP-04.png) + +En 2011 trabajamos con +[Publish What You Fund](http://www.publishwhatyoufund.org/) (Publique lo que financia), y +el [Overseas Development Institute](http://www.odi.org.uk/) (Instituto +de Desarrollo en el Extranjero, para rastrear la ayuda financiera a +Uganda de 2003-2006. Esto era nuevo porque por primera vez se podía ver +los flujos de ayuda junto con el presupuesto nacional, lo que permite +ver en qué medida las prioridades de los donantes están alineadas con +las prioridades de los gobiernos. Hubo algunas conclusiones +interesantes, por ejemplo tanto los programas contra el HIV como la +planificación familiar resultaron estar financiadas casi completamente +por donantes externos. Esto fue cubierto en +[The Guardian](http://bit.ly/guardian-uganda-viz). + +También hemos estado trabajando con ONGs y grupos interesados para +cruzar los datos del gasto con otras fuentes de información. Por +ejemplo, Privacy International se conectó con nosotros trayendo una +larga lista de compañías de tecnología de vigilancia y una lista de +entes que participaron de una feria internacional de la vigilancia muy +famosa, que se conoce como la “fiesta de los que colocan micrófonos +ocultos”. Cruzando nombres de empresas con conjuntos de datos de gasto, +fue posible identificar qué compañías tenían contratos oficiales, los +que a partir de allí podían seguirse a través de pedidos de acceso a la +información al Estado. Esto fue cubierto por +[The Guardian](http://bit.ly/guardian-surveillance). + +Actualmente, estamos trabajando para aumentar el entendimiento de los +datos fiscales por periodistas y el público en general como parte de un +proyecto llamado [Spending Stories](http://bit.ly/ss-faq) (Historias de +Gastos, que permite a los usuarios vincular datos de gasto público con +historias relacionadas, para ver las cifras detrás de las noticias y las +noticias a partir de los números. + +A través de nuestro trabajo en esta área aprendimos que: + +- Los periodistas a menudo no están acostumbrados a trabajar con datos + en crudo y muchos no consideran tenerlos como base para sus + informes. Basar historias en información cruda sigue siendo una idea + relativamente nueva. +- Analizar y comprender datos es un proceso que exige mucho tiempo, + incluso si se tiene las capacidades requeridas. Es difícil encajar + esto en un ciclo de noticias de corto plazo, por lo que el + periodismo de datos a menudo es utilizado en proyectos de + investigación de más largo plazo. +- Los datos difundidos por los gobiernos a menudo están incompletos o + son viejos. Muy a menudo, las bases de datos públicas no pueden ser + usadas para propósitos de investigación sin el agregado de piezas de + información más específicas requeridas a través de las normas de + acceso a la información pública. +- Grupos de interesados, estudiosos e investigadores a menudo tienen + más tiempo y recursos para realizar investigaciones basadas en datos + más extensas que los periodistas. Puede ser muy fructífero hacer + equipo con ellos. + +— *Lucy Chambers and Jonathan Gray, Open Knowledge Foundation* + + +## Elecciones parlamentarias finlandesas y financiación de campañas + + +En los últimos meses ha habido juicios relacionados con financiación de +campañas en las elecciones generales finlandesas de 2007. + +Después de esos comicios la prensa descubrió que las leyes sobre +publicidad de la financiación de las campañas no tenía efecto sobre los +políticos. Básicamente, se ha utilizado la financiación de campañas para +comprar los favores de políticos que no declararon su financiación tal +como lo ordena la ley finlandesa. + +A partir de estos incidentes, las leyes se volvieron más estrictas. +Luego de la elección general de marzo de 2011, Helsingin Sanomat decidió +explorar cuidadosamente todos los datos disponibles sobre financiación +de campañas. La nueva ley estipula que se debe declarar la financiación +electoral, y solo las donaciones de menos de 1500 euros pueden ser +anónimas. + +#### 1. Encontrar datos y programadores + +Helsingin Sanomat ha organizado hackatones HS Open desde marzo 2011. +Invitamos programadores, periodistas y diseñadores gráficos finlandeses +al sótano de nuestro edificio. Los participantes son divididos en grupos +de 3 personas y se los alienta a desarrollar aplicaciones y +visualizaciones. Hemos tenido alrededor de 60 participantes en cada uno +de nuestros 3 eventos hasta la fecha. Decidimos que los datos de +finanzas de campaña debían ser el centro de HS Open \#2, en mayo de +2011. + +La Oficina Nacional de Auditoría de Finlandia es la autoridad que lleva +registro de las finanzas de campaña. Esa fue la parte fácil. El jefe de +información, Jaakko Hamunen, construyó un sitio en la red que da acceso +en tiempo real a su base de datos de finanzas de campaña. La Oficina de +Auditoría lo hizo solo en 2 meses después de nuestro pedido. + +El sitio [Vaalirahoitus.fi](http://www.vaalirahoitus.fi/) proveerá al +público y la prensa información de las finanzas de campaña para cada +elección a partir de ahora. + +![Finanzas electorales (Helsingin Sanomat)](figs/incoming/03-DD.png) + +#### 2. Tormenta de ideas + +Los participantes de HS Open 2 generaron veinte prototipos distintos +respecto de qué hacer con los datos. Puede encontrar todos los +prototipos [en nuestro sitio](http://bit.ly/hs-prototype), (texto en +finlandés). + +El investigador de bio-informática Janne Peltola señaló que los datos de +las finanzas de campaña se veían parecidos a los datos de genes que +ellos investigan, en términos de contener muchas interdependencias. + +En la bio-informática hay una herramienta de código abierto llamada +[Cytoscape](http://www.cytoscape.org/) que se usa para mapear estas +interdependencias. Por lo que procesamos los datos con Cytoscape, y +obtuvimos un prototipo muy interesante. + +#### 3. Implementar la idea en papel y en la red + +La ley de financiación de campañas dice que los miembros electos del +parlamento deben declarar su financiación 2 meses después de las +elecciones. En la práctica esto significó que obtuvimos los datos reales +a mediados de junio. En HS Open solo tuvimos datos de parlamentarios que +habían presentado su información antes del vencimiento del plazo. + +También hubo un problema con el formato de los datos. La Oficina +Nacional de Auditoría los proveyó en 2 archivos CSV. Uno contenía el +presupuesto total de las campañas, el otro listaba todos los donantes. +Tuvimos que combinar estos 2 creando un archivo que contenía 3 columnas: +donantes, receptor y monto. Si los políticos habían usado su propio +dinero, en nuestro formato de datos se veía como que el Político A donó +X euros al Político A. Quizás resulte contra-intuitivo, pero funcionó +para Cytoscape. + +Cuando los datos fueron depurados y reformateados, lo corrimos con +Cytoscape. Entonces nuestro departamento interactivo hizo un gráfico a +toda página. + +Finalmente creamos una hermosa visualización en nuestro sitio. Este no +fue un gráfico de análisis de redes. Queríamos ofrecer a la gente una +manera fácil de explorar los fondos de campaña y quién los dona. La +primera vista muestra la distribución de fondos entre parlamentarios. +Cuando se cliquea en un parlamentario se tiene el desglose de su +financiación. También se puede votar si este donante particular es bueno +o no. La visualización fue hecha por Juha Rouvinen y Jukka Kokko, de una +agencia publicitaria llamada Satumaa. + +La versión de la red de la visualización de finanzas de campaña usa los +mismos datos que el análisis de redes. + +#### 4. Publicar los datos + +Por supuesto que la Oficina Nacional de Auditoría ya publica los datos, +por lo que no hay necesidad de volver a publicarlos. Pero, como habíamos +depurado los datos y les habíamos dado una mejor estructura, decidimos +publicarlos. Damos nuestros datos con una [licencia de Creative Commons +Attribution](http://creativecommons.org/licenses/by/3.0/). Después +varios programadores independientes hicieron visualizaciones de los +datos, algunas de las cuales hemos publicado. + +Las herramientas que usamos para el proyecto fueron Excel y Google +Refine para la depuración y análisis de los datos; Cytoscape para el +análisis de redes; e Illustrator y Flash para las visualizaciones. El +Flash debió haber sido HTML5, pero se nos acabó el tiempo. + +¿Qué aprendimos? Quizás la lección más importante fue que las +estructuras de datos pueden ser muy difíciles. Si los datos originales +no están en un formato adecuado, recalcular y convertirlos lleva mucho +tiempo. + + +## Hack electoral en tiempo real (Hacks/Hackers Buenos Aires) + +![Elecciones 2011 (Hacks/Hackers Buenos Aires)](figs/incoming/03-FF.png) + +[Electoral Hack](http://elecciones.hhba.info/) es un proyecto de +análisis político que visualiza datos de los resultados provisionales de +las elecciones de octubre de 2011 en la Argentina. El sistema también +incluye información de anteriores elecciones y estadísticas demográficas +de todo el país. El proyecto fue actualizado en tiempo real con +información del recuento provisional de las elecciones nacionales de +2011 en ese país y dio resúmenes de los resultados. Fue una iniciativa +de Hacks/Hackers Buenos Aires con el analista político Andy Tow, y un +esfuerzo colaborativo de periodistas, programadores, diseñadores, +analistas, cientistas políticos e otros integrantes del capítulo local +de Hacks/Hackers. + +#### ¿Qué datos usamos? + +Todos los datos provienen de fuentes oficiales: la Dirección Nacional +Electoral dio acceso a los datos del recuento provisional por Indra; el +Ministerio del Interior dio información sobre cargos electorales y +candidatos de los distintos partidos políticos; [un proyecto +universitario](http://yoquierosaber.org/) dio información biográfica y +las plataformas políticas de cada lista electoral; mientras que la +información socio-demográfica provino del Censo Nacional de 2001 de +Población y Vivienda (INDEC), el censo de 2010 (INDEC) y el ministerio +de Salud. + +#### ¿Cómo se desarrolló? + +La aplicación fue generada durante el Hackatón Electoral 2011 de +Hacks/Hackers Buenos Aires, el día antes de las elecciones del 23 de +octubre de 2011. El hackatón tuvo la participación de 30 voluntarios de +una variedad de especialidades. El Hack Electoral fue desarrollado como +una plataforma abierta que podría mejorarse con el tiempo. Para la +tecnología usamos Google Fusion Tables, Google Maps y bibliotecas de +gráficos vectoriales. + +Trabajamos en la construcción de polígonos para presentar mapeado +geográfico y demografía electoral. Combinando polígonos en software GIS +y geometrías de tablas públicas en las Tablas de Fusión Google, +generamos tablas con claves correspondientes a la base de datos +electorales del ministerio del Interior, Indra y datos +socio-demográficos de INDEC. A partir de esto creamos visualizaciones en +Google Maps. + +Usando el API Google Maps, publicamos varios mapas temáticos +representando la distribución espacial de la votación con distintos +tonos de color, donde la intensidad del color representaba el porcentaje +de votos para varias candidaturas presidenciales en distintos +departamentos administrativos y centros de votación, con particular +énfasis en centros urbanos importantes: de la ciudad de Buenos Aires, +los 24 distritos del Gran Buenos Aires y las ciudades de Córdoba y +Rosario. + +Usamos la misma técnica para generar mapas temáticos de elecciones +anteriores, a saber las primarias presidenciales de 2011 y la elección +de 2007, así como la distribución de los datos socio-demográficos, tales +como los de pobreza, mortalidad infantil y condiciones de vida, +permitiendo análisis y comparaciones. El proyecto también mostró la +distribución espacial de las diferencias porcentuales de votos obtenidos +por cada candidatura en la elección general de octubre, comparado con la +elección primaria de agosto. + +Luego, usando datos de recuentos parciales, creamos un mapa animado +presentando la anatomía del recuento, en el que se muestra el avance del +mismo desde el cierre de la votación hasta la mañana siguiente. + +#### Pros + +- Nos propusimos representar datos y lo logramos. Teníamos la + [base de datos socio-demográfica infantil](http://infoargentina.unicef.org.ar/) + de UNICEF, a mano así como la base de datos creada por el yoquierosaber.org + de la Universidad Torcuato Di Tella. Durante el hackatón reunimos un gran + volumen de datos adicionales que terminamos no incluyendo. +- Claramente el trabajo periodístico y de programación se vio + enriquecido por los estudios académicos. Sin la contribución de Andy + Tow e Hilario Moreno Campos, el proyecto no se hubiera podido + realizar. + +#### Contras + +- Los datos socio-demográficos que pudimos utilizar no estaban + actualizados (la mayor parte era del censo de 2001) y no era muy + granular. Por ejemplo, no incluía detalles de PBI promedio local, + principal actividad económica, nivel educativo, número de escuelas, + médicos per cápita y muchas otras cosas que hubiera sido bueno + tener. +- Originalmente el sistema debía ser una herramienta que pudiera + usarse para combinar y mostrar datos arbitrariamente, de modo que el + periodista pudiera mostrar fácilmente datos que le interesaran en la + red. Pero tuvimos que dejar esto para otro momento. +- Dado que el proyecto fue creado por voluntarios en un plazo breve, + fue imposible hacer todo lo que queríamos. De todos modos avanzamos + mucho en el sentido adecuado. +- Por el mismo motivo, todo el trabajo colaborativo de 30 personas + terminó condensado en un solo programador cuando los datos del + gobierno comenzaron a aparecer, y tuvimos problemas para importar + datos en tiempo real. Estos problemas se resolvieron en cuestión de + horas. + +#### Implicancias + +La plataforma de Hack Electoral tuvo gran impacto en los medios, con +cobertura en televisión, radio, medios impresos y online. Mapas del +proyecto fueron utilizados por varias plataformas de medios durante las +elecciones y en días subsecuentes. Con el paso del tiempo, los mapas y +visualizaciones fueron actualizados, incrementando aún más el tráfico. +El día de la elección, el sitio creado ese mismo día recibió alrededor +de 20.000 visitantes diferentes y sus mapas fueron reproducidos en la +tapa del diario Página/12 2 días consecutivos, así como en artículos en +La Nación. Algunos mapas aparecieron en las ediciones impresas del +diario Clarín. Fue la primera vez en la historia del periodismo +argentino que se utilizó un despliegue interactivo de mapas en tiempo +real. En los mapas centrales se podía ver claramente la victoria +abrumadora de Cristina Fernández de Kirchner por el 54 por ciento de los +votos, desglosada por la saturación de color. También sirvió para ayudar +a los usuarios a entender casos específicos donde candidatos locales +tuvieron victorias por amplio margen en las provincias. + +— *Mariano Blejman, Mariana Berruezo, Sergio Sorín, Andy Tow, and Martín +Sarsale from Hacks/Hackers Buenos Aires* + + +## Datos en las noticias: WikiLeaks + +Comenzó con uno de los integrantes del equipo de periodismo +investigativo preguntando: “¿Ustedes son buenos con las planillas de +cálculo verdad?” Y esta era una enorme planilla de cálculo: 92.201 filas +de datos, cada una conteniendo un análisis de un evento militar en +Afganistán. Estos fueron los registros de [la guerra de +WikiLeaks](http://bit.ly/guardian-warlogs). En realidad, la primera +parte. Siguieron 2 episodios más: Irak y los cables. El término oficial +fue SIGACTS: la base de datos de Acciones Significativas de las Fuerzas +Armadas de Estados Unidos. + +Los registros de guerra de Afganistán –compartidos con The New York +Times y Der Spiegel- fueron periodismo de datos en acción. Lo que +queríamos hacer era permitir a nuestro equipo de periodistas +especializados obtener grandes historias humanas a partir de la +información y queríamos analizarlos para tener el cuadro general, +mostrar cómo iba la guerra realmente. + +Desde el comienzo fue central para lo que íbamos a hacer saber que no +publicaríamos toda la base de datos. WikiLeaks ya iba a hacer eso y +queríamos estar seguros de no revelar los nombres de los informantes, o +poner en peligro innecesariamente tropas de la OTAN. Al mismo tiempo, +teníamos que hacer más fácil el uso de los datos para nuestro equipo de +periodistas investigadores encabezados por David Leigh y Nick Davies +(que habían negociado la difusión de los datos con Julian Assange). +También queríamos simplificar el acceso a información clave en el mundo +real, haciéndola tan clara y abierta como pudiéramos. + +Los datos llegaron a nosotros como un inmenso archivo Excel, más de +92.201 filas de datos, algunas conteniendo nada o mal formateadas. No le +servía a los periodistas que trataban de buscar historias y era +demasiado grande como para hacer informes significativos. + +Nuestro equipo creó una base de datos interna simple usando SQL. Los +periodistas podían a partir de allí buscar por medio de palabras clave o +eventos. De pronto el conjunto de datos se volvió accesible y generar +historias se hizo más fácil. + +Los datos estaban bien estructurados: cada evento tenía los siguientes +datos claves: hora, día, descripción, cifras de bajas y, crucialmente, +latitud y longitud detalladas. + +También comenzamos a filtrar los datos para ayudarnos a contar una de +las historias claves de la guerra: el aumento de los ataques con DEI +(dispositivos explosivos improvisados), bombas caseras al costado del +camino que son impredecibles y difíciles de combatir. Este conjunto de +datos seguía siendo enorme pero más fácil de manejar. Hubo alrededor de +7500 explosiones o emboscadas con DEI (una emboscada es donde el ataque +se combina, por ejemplo, con fuego de armas pequeñas o de misiles con +granadas) entre 2004 y 2009. Hubo otros 8000 DEI descubiertos y +desactivados. Queríamos ver cómo cambiaban con el tiempo y hacer +comparaciones. Estos datos nos permitieron ver que el sur, donde estaban +las tropas británicas y canadienses, era la zona más golpeada, lo que +confirmaba lo que sabían nuestros corresponsales que habían cubierto la +guerra. + +La difusión de los registros de la guerra de Irak en octubre de 2010 +descargó otros 391.000 registros de la guerra de Irak en la escena +pública. + +Esto estaba en una categoría diferente de la filtración sobre +Afganistán; se puede decir que \[line-through\]\*esto\*convirtió a esta +en la guerra más documentada de la historia. Ahora contábamos con cada +detalle menor para analizarlo y desglosarlo. Pero se destaca un factor: +el volumen de las muertes, la mayoría de las cuales eran de civiles. + +Tal como en el caso de Afganistán, The Guardian decidió no volver a +publicar la base de datos completa, en gran medida porque no podíamos +estar seguros de que el conjunto no contuviera detalles confidenciales +de informantes y demás. + +![Los registros de guerra de The WikiLeaks (The Guardian)](figs/incoming/03-GG.jpg) + +Pero sí permitimos a nuestros usuarios descargar una planilla de cálculo +que contenía los registros de cada incidente en el que alguien murió, +casi 60.000 en total. Eliminamos el sumario por lo que solo estaban los +datos básicos: el encabezado militar, la cantidad de muertes y la +ubicación geográfica. + +También tomamos todos estos incidentes en los que murió alguien y los pusimos +en [un mapa usando Google Fusion Tables](http://bit.ly/guardian-iraq-map). +No era perfecto, pero sí un comienzo para tratar de mapear los patrones +de destrucción que habían devastado Irak. + +Los cables se difundieron en diciembre de 2010. Esto entraba en otra +liga, un inmenso conjunto de datos de documentos oficiales: 251.287 +despachos, de más de 250 embajadas y consulados estadounidenses. Es un +cuadro único de lenguaje diplomático de EE.UU., incluyendo más de 50.000 +documentos que cubren la actual administración Obama. ¿Qué incluían los +datos? + +Los cables mismos vinieron vía el inmenso Secret Internet Protocol +Router Network (Red de Ruteo del Protocolo Secreto de Internet), +conocido por la sigla SIPRNet. Es el sistema de Internet mundial militar +de Estados Unidos, que se mantiene separado de la Internet civil común y +es dirigida por el departamento de Defensa en Washington. Desde los +ataques de septiembre de 2001 había habido una iniciativa en Estados +Unidos de vincular archivos de información gubernamental, con la +esperanza de que datos claves de inteligencia ya no quedaran atrapados +en compartimentos estancos o presentados fuera de contexto. Un número +creciente de embajadas de EE.UU. han sido conectados a SIPRNet en la +última década, de modo que pueda compartirse la información militar y +diplomática. Para 2001, había 125 embajadas en SIPRNet; para 2005 la +cifra había crecido a 180 y a esta altura la gran mayoría de las +misiones de EE.UU. en el mundo entero están vinculadas con el sistema, +que es el motivo por el que grueso de estos cables son de 2008 y 2009. +Como escribió David Leigh: + +> Un despacho de embajada marcado como SIPDIS es descargado +automáticamente al sitio clasificado de la embajada. Allí no solo puede +verlo cualquiera en el departamento de Estado, sino cualquiera de las +fuerzas armadas de EE.UU. que tenga acceso de seguridad de nivel +“Secreto”, una clave, y una computadora conectada a SIPRNet. + +> 1. lo que asombrosamente abarca a 3.000.000 de personas. Hay varias + capas de datos aquí; llegando hasta la clasificación de *SECRET + NOFORN*, que significa que no podrán mostrarse jamás a quienes no + sean ciudadanos estadounidenses. En cambio se supone que son para + que los lean funcionarios en Washington hasta el nivel de la + secretaria de Estado, Hillary Clinton. Los cables normalmente son + redactados por el embajador local o subordinados. No se puede + acceder a los documentos de “Secreto Máximo” y por encima de + documento de inteligencia extranjera desde SIPRNet. + +A diferencia de las anteriores entregas, esta era predominantemente de +texto, no cuantificada ni con datos idénticos. Esto es lo que incluía: + + Una fuente + +: La embajada o el ente que envió los datos + + Una lista de receptores + +: Normalmente los cables eran enviados a una cantidad de embajadas y + entes. + + Un campo de tema + +: Una síntesis del cable. + + Etiquetas + +: Cada cable estaba etiquetado con una cantidad de abreviaturas + claves. + + Cuerpo del texto + +: El cable mismo. Optamos por no publicar estos completos por razones + obvias. + +Un detalle interesante de esta historia es cómo los cables casi crearon +filtraciones a demanda. Durante semanas ocuparon el centro de las +noticias al ser publicada; ahora, cada vez que aparece una historia +acerca de algún régimen corrupto o un escándalo internacional, el acceso +a los cables nos da nuevas historias. + +El análisis de los cables es una tarea enorme que quizás nunca se +termine por completo. + +— *Esta es una versión editdada de un capítulo publicado en Facts are +Sacred: The Power of Data de Simon Rogers, the Guardian (published on +Kindle)* + + +## Hackatón Mapa76 + +Inauguramos el capítulo de +[Hacks/Hackers de Buenos Aires](http://www.meetup.com/HacksHackersBA/) +en abril de 2011. Fuimos anfitriones de 2 encuentros iniciales para difundir la +idea de mayor colaboración entre periodistas y programadores que incluyó +entre 120 y 150 personas en cada evento. Para una tercera reunión tuvimos +un hackatón de 30 horas con 8 personas en una conferencia de periodismo +digital en la ciudad de Rosario, a 300 kilómetros de Buenos Aires. + +Un tema recurrente en estas reuniones fue el deseo de recoger grandes +volúmenes de datos de la red y luego representarlos visualmente. Para +ayudar con esto, nació un proyecto llamado Mapa76.info, que ayuda a los +usuarios a extraer datos y luego desplegarlos usando mapas y líneas de +tiempo. Una tarea nada fácil. + +![Mapa76 (Hacks/Hackers Buenos Aires)](figs/incoming/03-MM.png) + +¿Por qué Mapa76? El 24 de marzo de 1976 hubo un golpe de Estado en la +Argentina, que duró hasta 1983. En ese período hubo según se estima +30.000 desaparecidos, miles de muertes y 500 niños nacidos en cautiverio +apropiados por la dictadura militar. Pasados más de 30 años, la cantidad +de gente condenada en la Argentina por crímenes de lesa humanidad +cometidos durante la dictadura llega a 262 personas (septiembre de +2011). En este momento hay 14 juicios en curso y 7 con fecha de comienzo +establecida. Hay 802 personas en varios casos en las cortes. + +Estos juicios generan grandes volúmenes de datos que son difíciles de +procesar para los investigadores, periodistas, organizaciones de +derechos humanos, jueces, fiscales y otros. Los datos se producen de +modo distribuido y los investigadores a menudo no recurren a +herramientas de software para ayudarse a interpretarlos. Esto significa +que a menudo no son tenidos en cuenta y las hipótesis son limitadas. +Mapa76 es una herramienta de investigación que da acceso abierto a esta +información con propósitos periodísticos, legales, jurídicos e +históricos. + +Para preparar el hackatón creamos una plataforma que programadores y +periodistas pudieran usar para colaborar en el día del evento. Martín +Sarsale desarrolló algunos algoritmos básicos para extraer datos +estructurados de documentos de texto simples. También se usaron algunas +bibliotecas del proyecto DocumentCloud.org, pero no demasiadas. La +plataforma analiza y extrae de manera automática nombres, fechas y +lugares de textos y permite a los usuarios explorar datos claves sobre +distintos casos (por ejemplo, fecha de nacimiento, lugar de arresto, +supuesto lugar de desaparición y así siguiendo). + +Nuestra meta era proveer una plataforma para la extracción automática de +datos sobre los juicios contra la dictadura militar en la Argentina. +Queríamos una manera de desplegar automáticamente (o al menos +semi-automáticamente) datos claves relacionados con casos entre 1976 y +1983 basado en evidencias escritas, argumentos y juicios. Los datos +extraídos (nombres, lugares y fechas) son recogidos, almacenados y +pueden ser analizados y refinados por el investigador, así como +explorados usando mapas, líneas de tiempo y herramientas de análisis de +redes. + +El proyecto permitirá a periodistas e investigadores, fiscales y +testigos seguir la historia de vida de una persona, incluyendo por +supuesto su cautiverio y posterior desaparición o liberación. Donde +falte información, los usuarios pueden buscar en un vasto número de +documentos que podrían ser de posible relevancia para el caso. + +Para el hackatón hicimos un anuncio público a través de [Hacks/Hackers +Buenos Aires](http://www.meetup.com/HacksHackersBA/), que entonces tenía +alrededor de 200 miembros (en el momento de escribir este informe hay +alrededor de 540). También contactamos muchas asociaciones de derechos +humanos. De la reunión participaron unas cuarenta personas, incluyendo +periodistas, organizaciones de defensa de los derechos humanos, +programadores y diseñadores. + +Durante el hackatón identificamos tareas que distintos tipos de +participantes podían desarrollar de forma independiente para ayudar a +que las cosas funcionaran bien. Por ejemplo, pedimos a diseñadores que +trabajaran en una interfaz que combinara mapas y líneas de tiempos, +pedimos a programadores que analizaran maneras de extraer datos +estructurados y logaritmos para eliminar ambigüedades relacionadas con +nombres, y pedimos a periodistas que investigaran qué había pasado con +gente específica, para comparar distintas versiones de historias y +analizar documentos para narrar historias sobre casos particulares. + +Probablemente el principal problema que tuvimos después del hackatón fue +que nuestro proyecto era muy ambicioso, nuestros objetivos de corto +plazo exigentes, y es difícil coordinar una red de voluntarios +dispersos. Casi todos los involucrados con el proyecto tenían empleos +que les ocupaban mucho tiempo y muchos participaban además de otros +eventos y proyectos. Hacks/Hackers Buenos Aires tuvo 9 reuniones en 2011. + +El proyecto está actualmente en desarrollo activo. Hay un equipo central +de 4 personas trabajando con más de una docena de colaboradores. Tenemos +una [lista de correo pública](http://groups.google.com/group/mapa76-dev/) y un +[centro de almacenado de código](https://github.com/mapa76/) a través del cual +cualquiera puede involucrarse en el proyecto. + +— *Mariano Blejman, Hacks/Hackers Buenos Aires* + + +## Cobertura de los disturbios en el Reino Unido por el Datablog de The Guardian + +Durante el verano de 2011, hubo una oleada de disturbios en el Reino +Unido. En aquel momento, algunos políticos sugirieron que estas acciones +categóricamente no estaban vinculadas con la pobreza y los que saquearon +fueron simplemente criminales. Lo que es más, el primer ministro, junto +con los principales políticos conservadores, culparon a los medios +sociales por causar los disturbios, sugiriendo que había habido +incitación desde estas plataformas y que los disturbios fueron +organizados a través de Facebook, Twitter y Blackberry Messenger (BBM). +Hubo reclamos para cerrar temporariamente los medios sociales. Debido a +que el gobierno no hizo una investigación de por qué se dieron los +disturbios, The Guardian, en colaboración con la London School of +Economics, creó un proyecto innovador para abordar estas cuestiones, llamado +[Reading the Riots](http://www.guardian.co.uk/uk/series/reading-the-riots) +(Leer los Disturbios), + +![Los disturbuios en Reino Unido: todos los incidentes verificados (The Guardian)](figs/incoming/03-ZZ.png) + +El diario usó periodismo de datos a gran escala para permitir al público +comprender mejor quién saqueaba y por qué. También trabajaron con otro +equipo de académicos, encabezados por el profesor Rob Procter de la +universidad de Manchester para entender mejor el rol de los medios +sociales, que The Guardian mismo había usado abundantemente para sus +informes durante los disturbios. El equipo de *Reading the Riots* fue +encabezado por Paul Lewis, el Editor de Proyectos Especiales de The +Guardian. Durante los disturbios Paul reportó desde el lugar de los +eventos en ciudades de toda Inglaterra (fundamentalmente a través de su +cuenta de Twitter @paullewis). Este segundo equipo trabajó a partir de +26.000.000 de tweets sobre los disturbios puestos a disposición por +Twitter. El objetivo principal de este trabajo con los medios sociales +fue ver cómo circulan los rumores en esa red social, la función que +tienen distintos usuarios/actores en la propagación y difusión de flujos +de información, para ver si se usó la plataforma para incitar, y para +examinar otras formas de organización. + +En términos del uso del periodismo de datos y visualizaciones, es útil +distinguir 2 períodos claves: el período de los disturbios mismos y las +maneras en que los datos ayudaron a narrar historias mientras se +desarrollaban los disturbios; y luego un segundo período de +investigación mucho más intensa con 2 conjuntos de equipos académicos +trabajando con The Guardian, para recolectar datos, analizarlos, y +escribir informes con análisis de fondo sobre lo descubierto. Los +resultados de la primera fase del proyecto *Reading the Riots* fueron +publicados durante una semana de cobertura extensiva a comienzos de +diciembre de 2011. A continuación aparecen algunos ejemplos claves de +cómo se usó el periodismo de datos durante ambos períodos. + +#### Primera fase: los disturbios mientras sucedían + +Usando mapas simples, el equipo de datos de The Guardian mostró +[localizaciones de lugares de disturbios confirmados](http://bit.ly/guardian-riots-map) +y combinando datos de pobreza con +[los lugares donde se dieron los disturbios](http://bit.ly/guardian-riots-poverty), +se comenzó a dejar sin sustento el discurso político central de que no había ningún vínculo +con la pobreza. En ambos ejemplos se utilizaron herramientas de mapeo +preexistentes y, en el segundo caso, se combinaron datos de ubicación +con otro conjunto de datos para comenzar a establecer otras conexiones y +vínculos. + +En relación al uso de medios sociales durante los disturbios (en este +caso, Twitter), el diario creó +[una visualización de hashtags](http://bit.ly/guardian-riots-twitter) +relacionadas con los disturbios usadas durante este período, lo que destacó que Twitter fue +usado principalmente para responder a disturbios en vez de para +organizar a gente para saquear, con \#riotcleanup, la campaña espontánea +para limpiar las calles después de los disturbios, mostrando el salto +más significativo durante el período de los disturbios. + +#### Fase 2: análisis de los disturbios + +Con relación al momento en que el diario informó sus conclusiones luego +de meses de investigaciones intensivas trabajando en estrecha +colaboración con 2 equipos académicos, se destacan 2 visualizaciones que +han sido ampliamente debatidas. La primera, +[un video corto](http://bit.ly/guardian-riots-commute), muestra los resultados de +combinar los lugares conocidos donde la gente protagonizó disturbios con +sus lugares de vivienda y mostrando lo que se llamó “viaje a los +disturbios”. Aquí el diario trabajó con un especialista en mapeo de +transporte, ITO World, para hacer un modelo de la ruta más probable +utilizada por quienes protagonizaron los disturbios al dirigirse a los +distintos lugares donde saquearon, lo que destaca patrones diferentes +para distintas ciudades, con viajes largos en algunas de ellas. + +La segunda se refiere a las maneras en que se extienden los rumores en +Twitter. En debate con el equipo académico, se escogieron 7 rumores para +su análisis. El equipo académico entonces recolectó todos los datos +relacionados con cada rumor y diseñó un código que identifica cada tweet +de acuerdo a los 4 códigos principales: gente que simplemente repite el +rumor (afirma algo), lo rechaza (afirma algo contrario), lo cuestiona +(interrogación) o simplemente lo comenta (comentario). Todos los tweets +fueron codificados por triplicado y los resultados +[fueron visualizados](http://bit.ly/guardian-riots) por el equipo interactivo de +The Guardian. El equipo de The Guardian +[escribió acerca de cómo construyó las visualizaciones](http://bit.ly/guardian-riots-twitter-interactive). + +Lo llamativo de esta visualización es que muestra de manera potente lo +que es muy difícil de describir y que es la naturaleza viral de los +rumores y las maneras en que se desarrolla su ciclo vital a lo largo del +tiempo. El rol de los principales medios es evidente en algunos de estos +rumores (por ejemplo, rechazándolos abiertamente, o confirmándolos +rápidamente como noticias), al igual que la naturaleza correctiva de +Twitter mismo en términos de responder a tales rumores. Esta +visualización no solo ayudó mucho a narrar la historia, sino que también +dio una visión real de cómo funcionan los rumores en Twitter, lo que +aporta información útil para responder a eventos futuros. + +Lo que resulta claro a partir del último ejemplo es la poderosa sinergia +entre el diario y un equipo académico capaz de un análisis profundo de +2.600.000 de tweets producidos en los disturbios. Si bien el equipo +académico creó un conjunto de herramientas para hacer su análisis, ahora +están trabajando para hacer que estas estén disponibles para cualquiera +que desee utilizarlas ofreciendo un centro de trabajo para su análisis. +Combinado con la explicación de cómo hacer las cosas aportada por el +equipo de The Guardian, constituye un estudio de caso que es útil porque +muestra cómo el análisis de medios sociales y las visualizaciones pueden +ser usadas para narrar historias importantes. + +— *Farida Vis, University of Leicester* + + +## Evaluaciones de escuelas de Illinois + +Cada año la Dirección Estadual de Educación de Illinois difunde +“evaluaciones” de escuelas, datos sobre la demografía y el desempeño de +todas las escuelas públicas de Illinois. Es un conjunto de datos masivo. +El informe de este año tenía 9500 columnas de ancho. El problema con esa +cantidad de datos es decidir qué presentar. (Como sucede con cualquier +proyecto de software, lo difícil no es crear el software, sino crear el +software correcto). + +Trabajamos con los periodistas y el editor de Educación para escoger los +datos más relevantes. (hay muchos datos que parecen interesantes, pero +que un periodista le dirá que en realidad son falsos o engañosos). + +También encuestamos y entrevistamos gente con hijos en edad escolar en +nuestra redacción. Hicimos esto por la existencia de una brecha de +empatía: ninguno de los miembros del equipo de aplicaciones de noticias +tiene chicos en edad escolar. Por esta vía descubrimos muchas cosas +acerca de nuestros usuarios y de la practicidad (o falta de ella) de la +versión anterior de nuestro sitio sobre escuelas. + +![2011 Los boletines de las escuelas de Illinois (Chicago Tribune)](figs/incoming/03-EE.png) + +Nos orientamos a diseñar para un par de usuarios y casos de uso +específicos: + +- Padres con un niño en la escuela que quieren saber cómo es el + desempeño de su escuela +- Padres que trataban de determinar dónde les convenía vivir, dado que + la calidad de las escuelas a menudo tiene un gran impacto sobre esa + decisión + +La primera vez el sitio sobre escuelas fue un proyecto de 2 diseñadores +de alrededor de 6 semanas. La actualización de 2011 fue un proyecto de 2 +diseñadores de 4 semanas. (en realidad hubo 3 personas trabajando +activamente en el proyecto más reciente, pero ninguna de ellas era +full-time, por lo que equivalen a 2). + +Una pieza clave de este proyecto fue el diseño de la información. Aunque +presentamos mucho menos datos de los que hay disponibles, siguen siendo +*muchos* datos, y hacerlos digeribles fue un desafío. Por suerte, +pudimos tomar alguien prestado de nuestra mesa de gráficos, un diseñador +especializado en presentar información complicada. Nos enseñó mucho +acerca del diseño de cuadros y, en general, nos guió para producir una +presentación que es legible, pero no subestima la capacidad o el deseo +del lector de entender las cifras. + +El sitio fue creado con Python y Django. Los datos están almacenados en +MongoDB: los datos sobre escuelas son heterogéneos y jerárquicos, lo que +hace que no funcionen bien en una base de datos relacional (de otro modo +probablemente hubiésemos usado PostgreSQL). + +Por primera vez experimentamos con el marco de interfaz de usuario +Bootstrap de Twitter en este proyecto y los resultados nos dejaron +contentos. Los gráficos fueron dibujados con Flot. + +La aplicación también alberga las muchas historias sobre evaluación +escolar que hemos escrito. En ese sentido es una especie de portal; +cuando hay una nueva historia de evaluación de escuelas la ubicamos a la +cabeza de la aplicación, junto con listas de escuelas que son relevantes +para la historia (y cuando aparece una nueva historia, a los lectores de +[chicagotribune.com](http://www.chicagotribune.como/) se los reorienta +hacia la aplicación, no el artículo). + +Los primeros indicios muestran que a los lectores les encanta la +aplicación sobre las escuelas. La retroalimentación que hemos recibido +en gran medida ha sido positiva (o al menos constructiva) y la cantidad +de visitas es enorme. Como premio, estos datos mantendrán su interés +todo un año, por lo que aunque prevemos que se reducirán las visitas al +ir desapareciendo las historias sobre escuelas en la página de inicio, +nuestra experiencia nos indica que los lectores recurren a esta +aplicación todo el año. + +Algunas ideas claves que surgieron del proyecto son: + +- Los diseñadores gráficos son nuestros amigos. Son buenos para hacer + digerible información compleja. +- Hay que pedir ayuda a la redacción. Este es el segundo proyecto para + el que realizamos una encuesta y entrevistas en la redacción, y es + una gran manera de tener opiniones de gente reflexiva que, como + nuestro público, es diversa en cuanto a sus inclinaciones y en + general se siente incómoda con las computadoras. +- ¡Muestre su trabajo! Gran parte de la retroalimentación tomó la + forma de pedidos de los datos que usó la aplicación. Pusimos muchos + datos a disposición del público vía una API, y pronto difundiremos + todo lo que no incluimos inicialmente. + +— *Brian Boyer, Chicago Tribune* + + +## Facturación de hospitales + +Periodistas de investigación de +[California Watch](http://californiawatch.org/) recibieron informes de que +una gran cadena de hospitales de ese estado norteamericano podía estar +haciendo trampas sistemáticamente contra el programa federal Medicare +que paga los tratamientos médicos de estadounidenses de 65 años o más. +La trampa denunciada se llama *upcoding* (subir el código), que significa +reportar pacientes con problemas más complicados de salud –con reembolsos +más elevados- que los reales. Pero una fuente clave era un sindicato que +estaba enfrentado con la administración de la cadena de hospitales, y el +equipo de California Watch sabía que era necesaria una verificación +independiente para que la historia tuviera credibilidad. + +Por suerte, el departamento de Salud de California tiene registros +públicos que dan información muy detallada sobre cada caso tratado en +todos los hospitales del estado. Las 128 variables incluyen hasta 25 +códigos de diagnóstico del manual de “Clasificación Estadística +Internacional de Enfermedades y Problemas de Salud Relacionados” +(conocido comúnmente como ICD-9) publicado por la Organización Mundial +de la Salud (OMS). Aunque no se identifica a los pacientes por su +nombre, si aparece la edad del paciente, cómo se pagó por el tratamiento +y qué hospital lo trató. Los periodistas advirtieron que con estos +registros, podían ver si los hospitales propiedad de la cadena estaban +informando ciertas enfermedades inusuales en proporciones +significativamente mayores que en otros hospitales. + +![Kwashiorkor (California Watch)](figs/incoming/03-AA.png) + +Los conjuntos de datos eran grandes: casi 4.000.000 de registros por +año. Los periodistas querían estudiar los registros de 6 años para ver +cómo cambiaban los patrones a lo largo del tiempo. Pidieron los datos al +ente estatal; llegaron en varios CD-ROM que se copiaron fácilmente a una +computadora de escritorio. El periodista que hizo el análisis de los +datos usó un sistema [llamado SAS](http://www.sas.com/) para trabajar +con los datos. SAS es muy poderoso (permitiendo el análisis de muchos +millones de registros) y es usado por numerosos entes estatales, +incluyendo el departamento de Salud de California, pero es costoso. Se +pudo haber hecho el mismo tipo de análisis usando una variedad de +herramientas de bases de datos, tales como el Access de Microsoft o +[MySQL](http://www.mysql.com/) de código abierto. + + +Con los datos y los programas para estudiarlos, encontrar patrones +sospechosos fue relativamente simple. Por ejemplo, una acusación era que +la cadena estaba informando de gente con diversos grados de desnutrición +con porcentajes mucho más altos que lo que se veía en otros hospitales. +Usando SAS, el analista de datos extrajo tablas de frecuencia que +muestran la cantidad de casos de desnutrición informados cada año por +cada uno de los más de 300 hospitales de agudos de California. Las +tablas de frecuencia luego eran importadas a Microsoft Excel para un +análisis más fino de los patrones de cada hospital; la capacidad de +Excel de ordenar, filtrar y calcular tasas a partir de las cifras en +bruto facilitó la tarea de encontrar patrones. + +Eran particularmente llamativos los informes de una enfermedad llamada +Kwashiorkor, un síndrome de deficiencia de proteínas que se ve casi +exclusivamente en infantes que mueren por desnutrición en países en +desarrollo afectados por hambrunas. Pero la cadena estaba informando que +sus hospitales diagnosticaban Kwashiorkor entre personas mayores de +California en cantidades 770 veces mayores que [el promedio de los +hospitales del estado](http://bit.ly/californiawatch-malnutrition). + +Para otras historias, los análisis usaron técnicas similares para +examinar las cantidades reportadas de [enfermedades como septicemia, +encefalopatía, hipertensión maligna y desórdenes nerviosos +autonómicos](http://bit.ly/californiawatch-rare). Otro estudio analizó +las denuncias de que la cadena estaba admitiendo en internación, +provenientes de sus salas de emergencias, porcentajes +[inusualmente elevados de pacientes de Medicare](http://bit.ly/californiawatch-chains), +cuya fuente de pagos de cuidados hospitalarios es más segura que lo que +sucede con muchos otros pacientes atendidos en salas de emergencias. + +En síntesis, historias como estas son posibles cuando se usan datos para +producir evidencias que evalúan de forma independiente acusaciones de +fuentes que pueden tener sus propios objetivos. Estas historias también +son un buen ejemplo de la necesidad de leyes de registro público +robustas; el motivo por el que el estado requiere que los hospitales +informen estos datos es para que se pueda hacer este tipo de análisis, +ya sea por el propio estado o por académicos, investigadores o incluso +ciudadanos periodistas. El tema de estas historias es importante porque +examina si se está gastando como corresponde millones de dólares de +fondos públicos. + +— *Steve Doig, Walter Cronkite School of Journalism, Arizona State University* + + +## Crisis de los geriátricos + + Una [investigación del Financial Times](http://on.ft.com/care-home-crisis) +sobre geriátricos sacó a luz como algunos inversores de capitales privados +convierten el cuidado de las personas mayores en una máquina de obtener +ganancias, y destacó los costos mortales de un modelo de negocios que +promueve las ganancias por encima de los cuidados. + +El análisis se hizo en un buen momento, porque los problemas financieros +de Southern Cross, entonces el mayor operador de geriátricos del país, +estaban llegando a un punto álgido. El gobierno había impulsado durante +décadas la privatización en el sector de los geriátricos y seguía +aplaudiendo al sector privado por sus prácticas de negocios astutas. + +Nuestra investigación comenzó con el análisis de datos que obtuvimos del +ente regulador británico a cargo de inspeccionar los geriátricos. La +información era pública, pero se requirió mucha persistencia para +conseguir los datos en una forma que fuera utilizable. + +Los datos incluían calificaciones (ahora eliminadas) del desempeño de +geriátricos individuales y un desglose de si eran privados, estatales o +sin fines de lucro. La Comisión de Calidad de Cuidados (CQC) hasta junio +de 2010 calificaba a los geriátricos de acuerdo a su calidad (0 +estrellas = mala, 3 estrellas = excelente). + +El primer paso requirió mucha depuración de datos, ya que la información +provista por la Comisión de Calidad de Cuidados contenían +categorizaciones que no eran uniformes. Esto se hizo primordialmente +usando Excel. También determinamos –a través de investigaciones de +escritorio y telefónicas- si había geriátricos particulares que fueran +propiedad de grupos de capitales privados. Antes de la crisis +financiera, el sector de los geriátricos era un imán para el capital +privado e inversores inmobiliarios, pero varios de ellos -tales como +Southern Cross- habían comenzado a tener serias dificultades +financieras. Queríamos establecer qué efecto, si es que había alguno, +tenía el hecho de la presencia de capitales privados en la calidad de +los cuidados. + +Un conjunto de cálculos relativamente simples con Excel nos permitieron +establecer que los geriátricos sin fines de lucro y estatales en +promedio tenían un desempeño significativamente mejor que los del sector +privado. Algunos grupos de geriátricos de capitales privados funcionaban +por encima del promedio y otros por debajo. + +Junto con informes in situ, estudios de casos de abandono, un análisis +profundo de las fallas de las políticas regulatorias, así como otros +datos sobre niveles de paga, tasas de rotación, etc., nuestro análisis +nos permitió armar un cuadro del estado real de los geriátricos. + +Algunos consejos: + +- Asegúrese de tomar notas de cómo manipula los datos originales. +- Tenga una copia de los datos originales y nunca los modifique. +- Verifique y vuelva a verificar los datos. Haga el análisis varias + veces (si es necesario, a partir de cero). +- Si menciona compañías o individuos particulares, deles derecho a + réplica. + +— *Cynthia O’Murchu, Financial Times* + + +## El teléfono que lo dice todo + +La comprensión de la mayoría de las personas de lo que puede hacerse con +los datos que nos proveen nuestros celulares es teórica; había pocos +ejemplos de la vida real. Es por eso que Malte Spitz del partido Verde +Alemán decidió publicar sus propios datos. Para acceder a la información +tuvo que presentar una demanda contra el gigante de las +telecomunicaciones Deutsche Telekom. Los datos, contenidos en un inmenso +documento de Excel, fueron la base para el mapa interactivo del Zeit +Online. Cada una de las 35.831 filas de la planilla de cálculo +representa una instancia en la que el teléfono de Spitz transfirió +información en un período de medio año. + +Vistas por separado, cada pieza de datos es casi inofensiva. Pero +tomadas de conjunto aportan lo que los investigadores llaman un perfil +de llamadas: un claro cuadro de los hábitos y preferencias de una +persona y por cierto de su vida. Este perfil revela cuándo Spitz +caminaba por la calle, cuánto tomó un tren, cuándo estaba en un avión. +Muestra que trabaja principalmente en Berlín y qué ciudades visitó. +Muestra cuándo estaba despierto y cuándo dormía. + +![El teléfono que lo dice todo (Zeit Online)](figs/incoming/03-BB.png) + +El conjunto de datos de Deutsche Telekom mantenía en privado una parte +del registro de los datos de Spitz, a saber, a quién llamó y quién lo +llamó a él. Ese tipo de información no solo podría infringir la +privacidad de mucha otra gente relacionada con él, también –aunque los +números estuviesen encriptados- revelaría demasiado acerca de Spitz +(pero los agentes del gobierno en el mundo real tendrían acceso a esta +información). + +Pedimos a Lorenz Matzat y Michael Kreil de OpenDataCity que exploraran +los datos y encontraran una solución para la presentación visual. “Al +principio usamos herramientas como Excel y Fusion Tables para comprender +los datos. Luego comenzamos a desarrollar una interfaz del mapa que +permitiera al público interactuar con los datos de un modo no lineal”, +dijo Matzat. Para ilustrar hasta qué punto pueden obtenerse detalles de +la vida de alguien a partir de estos datos almacenados, se le sumó +información del dominio público acerca de su actividad (Twitter, +entradas en blogs, información partidaria como entradas en el calendario +público de su sitio en la red). Es el tipo de proceso que cualquier buen +investigador usaría probablemente para hacer el perfil de una persona en +observación. Junto con los gráficos del propio Zeit Online y los del +equipo de investigación y desarrollo, se creó una gran interfaz para +navegar: apretando el botón de play se inicia un viaje a través de la +vida de Malte Spitz. + +Luego de un lanzamiento muy exitoso del proyecto en Alemania, advertimos +que recibíamos muchísimo tráfico de fuera de Alemania y decidimos crear +una versión en inglés de la aplicación. Luego de recibir el premio +Grimme Online Alemán, el proyecto recibió un premio ONA en septiembre de +2011, lo que fue la primera vez que lo recibía un sitio de noticias +alemán. Todos los datos están disponibles en una +[planilla de cálculo de Google Docs](http://bit.ly/zeitonline-data). +Lea la historia [en Zeit Online](http://www.zeit.de/datenschutz/malte-spitz-data-retention). + +— *Sascha Venohr, Zeit Online* + + +## Tasas de reprobación de distintos modelos de auto en la prueba MOT + +En enero de 2010 la BBC obtuvo datos sobre aprobaciones y rechazos en la +prueba del Ministerio de Transporte (MOT, Ministry of Transport Test) +para distintas marcas y modelos de autos. Esta es la prueba que evalúa +si un auto es seguro y está en condiciones para andar por la calle; todo +auto de más de 3 años tiene que pasar una prueba MOT anual. + +Obtuvimos los datos bajo la ley de acceso a la Información luego de una +larga batalla con VOSA, el ente del departamento de Transporte que +supervisa el sistema MOT. VOSA rechazó nuestro pedido de estas cifras +con el argumento de que violaría la confidencialidad comercial. Sostuvo +que podría *causar daño comercial* a fabricantes de vehículos con altas +tasas de rechazo. Entonces apelamos al Comisionado de información, que +dictaminó que dar a conocer la información iría en favor del interés del +público. Entonces VOSA entregó los datos, 18 meses después de que los +pidiéramos. + +Analizamos las cifras, concentrándonos en los modelos más populares y +comparando autos de la misma antigüedad. Esto mostró grandes +discrepancias. Por ejemplo, entre los autos de 3 años de antigüedad, 28% +de los Renault Mégane no aprobaron su MOT, en contraste con solo el 11% +de los Toyota Corolla. Las cifras se difundieron por televisión, radio y +online. + +![Difusión de las tasas de rechazo en la prueba MOT (BBC)](figs/incoming/03-CC.png) + +Nos entregaron los datos en la forma de un documento PDF de 1200 +páginas, que tuvimos que convertir en planilla de cálculo para hacer el +análisis. Además de informar nuestras conclusiones, publicamos la +planilla de cálculo Excel (con más de 14.000 líneas de datos) en el +sitio de BBC News +[junto con nuestra historia](http://bbc.in/mot-failure-rates). +Esto permitió el acceso a los datos en formato usable a todos. + +El resultado fue que entonces otros usaron estos datos para sus propios +análisis, que nosotros no tuvimos tiempo de hacer por el apuro de +difundir la historia rápidamente (y que en algunos casos hubiera +superado nuestra capacidad técnica de aquel momento). Esto incluyó el +examen de las tasas de rechazo para autos de otras antigüedades, +comparar los registros de fabricantes en vez de modelos individuales y +crear bases de datos para buscar los resultados de modelos individuales. +Agregamos vínculos a estos sitios en nuestra historia online, de modo +que los lectores pudieran conocer estos trabajos. + +Esto ilustra algunas de las ventajas de publicar los datos en crudo +junto con una historia basada en datos. Puede haber excepciones (por +ejemplo si piensa usar los datos para otras historias posteriores y +quiere quedárselos mientras tanto), pero en general publicar los datos +tiene varios beneficios importantes: + +- Su trabajo es descubrir cosas y contarle a los ciudadanos. Si se + tomó el trabajo de obtener los datos es parte de su trabajo + difundirlos. +- Otras personas pueden descubrir cuestiones de interés significativo + que usted no vio o simplemente detalles que les importan a ellos, + aunque no le importaran lo suficiente a usted como para incluirlos + en su historia. +- Otros pueden basarse en su trabajo para desarrollar un análisis más + detallado, o usar distintas técnicas para presentar o visualizar las + cifras, usando sus propias ideas o capacidades técnicas que pueden + sondear los datos de modo productivo y de maneras alternativas. +- Es parte de incorporar la rendición de cuentas y la transparencia al + proceso periodístico. Otros pueden entender sus métodos y verificar + su trabajo si quieren. + +— *Martin Rosenbaum, BBC* + + +## Subsidios a colectivos en Argentina + +Desde 2002 los subsidios para el sistema de transporte público de +pasajeros en la Argentina han estado creciendo de modo exponencial, +rompiendo un record cada año. Pero en 2011, luego de ganar las +elecciones, el nuevo gobierno argentino anunció reducciones de los +subsidios para los servicios públicos a partir del mes de diciembre de +ese año. Al mismo tiempo, decidió transferir la administración de líneas +locales de ómnibus y del subte al Gobierno de la Ciudad de Buenos Aires. +Dado que no se ha clarificado la transferencia de subsidios a este +gobierno municipal y hay falta de fondos locales para garantizar la +seguridad el sistema de transporte, el Gobierno porteño rechazó esta +decisión. + +Mientras esto sucedía, junto con mis colegas en La Nación nos reunimos +por primera vez para discutir cómo iniciar nuestra propia operación de +periodismo de datos. Nuestro editor de la sección financiera sugirió que +los datos sobre subsidios publicados [por la secretaría de +Transporte](http://www.transporte.gov.ar/) sería un buen desafío para +comenzar, considerando que era muy difícil encontrarles sentido debido +al formato y la terminología. + +Las malas condiciones del sistema de transporte público afectan la vida +de más de 5800000 pasajeros diarios. Demoras, huelgas, desperfectos de +vehículos, o incluso accidentes suceden a menudo. Por tanto, decidimos +analizar a dónde van los subsidios para el sistema de transporte público +en la Argentina y poner estos datos a disposición de todos los +ciudadanos argentinos por medio de un “Explorador de Subsidios del +Transporte”, que actualmente está en construcción. + +![El explorador de subsidios al transporte (La Nación)](figs/incoming/03-LL-01.jpg) + +Comenzamos por calcular cuánto reciben cada mes las compañías de ómnibus +de parte del Estado. Para hacerlo, tomamos los datos publicados en el +[sitio del departamento de Transporte](http://www.transporte.gov.ar/content/subsidios-sistau/), +donde se publican desde 2006 más de 400 PDF conteniendo pagos mensuales +en efectivo a más de 1300 compañías. + +![Ranking de empresas de transporte subsidiadas (La Nación)](figs/incoming/03-LL-02.jpg) + +Formamos equipo con un programador experimentado para desarrollar un +recopilador de información de modo de automatizar la descarga regular y +la conversión de estos PDF en archivos de Excel y Base de datos. Estamos +usando el conjunto de datos resultante con más de 285.000 registros para +nuestras investigaciones y visualizaciones, tanto en versión impresa +como online. Además, estamos difundiendo estos datos en formato legible +por computadora para que todo argentino pueda utilizarlos y +compartirlos. + +El siguiente paso fue identificar cuánto le cuesta en promedio al +gobierno el mantenimiento mensual de un vehículo de transporte público. +Para descubrirlo consultamos otro sitio oficial, el +[de la Comisión Nacional de Regulación del Transporte](http://www.cnrt.gov.ar/index2.htm), +responsable de la regulación del transporte en la Argentina. En este sitio encontramos una +lista de compañías de ómnibus que poseen en total 9000 vehículos. +Desarrollamos un normalizador para permitirnos conciliar los nombres de +las compañías de transporte y hacer referencias cruzadas entre los 2 +conjuntos de datos. + +Para continuar, necesitábamos el número de registro de cada vehículo. En +el sitio de la CNRT encontramos una lista de vehículos discriminados por +línea de colectivo y compañía, con sus números de licencia. En +Argentina, estos registros están compuestos de letras y cifras que se +corresponden con la edad del vehículo. Por ejemplo, mi auto tiene el +número de registro IDF234, y la “I” corresponde a marzo-abril 2011. +Hicimos el cálculo inverso a partir de las licencias de los ómnibus +propiedad de las compañías registradas, para descubrir la edad promedio +de los ómnibus y mostrar cuánto dinero recibe cada compañía y finalmente +comparar los montos en base a la edad promedio de sus vehículos. + +En medio de este proceso, cambió misteriosamente el contenido de los PDF +oficiales con los datos, aunque las URL y los nombres de los archivos no +se modificaron. En algunos PDF ahora faltaban los “totales” verticales, +lo que hace imposible cruzar los mismos en todo el período investigado, +2002-2011. + +Llevamos este caso a un hackatón organizado por Hacks/Hackers en Boston, +donde el programador Matt Perry generosamente creó lo que llamamos el +“Espía de PDF”. Esta aplicación ganó la categoría “más intrigante” en +ese evento. El [Espía de PDFs](http://gristlabs.com/2011/09/24/pdfspy/) +apunta a una página web llena de PDF y verifica si el contenido dentro +de los PDF ha cambiado. “Nunca serán engañados nuevamente por la +supuesta “transparencia del gobierno’”, escribe Matt Perry. + +![Comparación de antigüedad de flotas con el monto de dinero que reciben del Estado (La Nación)](figs/incoming/03-LL-03.jpg) + +#### ¿Quién trabajó en el proyecto? + +Un equipo de 7 periodistas, programadores y un diseñador interactivo +durante 13 meses. + +Las capacidades que necesitamos para este proyecto fueron: + +- Periodistas con conocimiento sobre cómo funcionan los subsidios para + el sistema de transporte público y cuáles eran los riesgos; + conocimiento del mercado de compañías de ómnibus. +- Un programador capacitado en recopilar datos de la red, su análisis, + normalización y extracción de datos de PDF a planillas de cálculo + Excel. +- Un especialista en estadística para el análisis de los datos y los + distintos cálculos. +- Un diseñador para producir las visualizaciones interactivas de + datos. + +#### ¿Qué herramientas utilizamos? + +Usamos VBasic para aplicaciones, Excel Macros, Tableau Public y la +Plataforma Abierta de datos Junar, así como Ruby on Rails, la API de +cuadros Google, y Mysql para el Explorador de Subsidios. + +El proyecto tuvo gran impacto. Hemos tenido decenas de miles de visitas +y la investigación apareció en la primera plana de la edición impresa de +La Nación. + +El éxito de este primer proyecto de periodismo de datos nos ayudó +internamente para argumentar en favor de la creación de una operación de +datos que cubra periodismo de investigación y provea servicio al +público. Esto resultó en Data.lanacion.com.ar, una plataforma donde +publicamos datos abiertos sobre distintos tópicos de interés público en +formatos procesables por computadora. + +— *Angélica Peralta Ramos, La Nación (Argentina)* + + +## Ciudadanos periodistas de datos + +No solo las grandes redacciones pueden trabajar en historias basadas en +datos. Las mismas capacidades que son útiles para los periodistas de +datos también pueden ayudar a ciudadanos periodistas a acceder a datos +sobre sus localidades y convertirlos en historias. + +Ese fue la principal motivación para el proyecto de medios ciudadanos de +[Amigos de Januária](http://amigosdejanuaria.wordpress.com/), en Brasil, +que recibió un subsidio +([de Rising Voices](http://rising.globalvoicesonline.org/), la rama de extensión de +[Global Voices Online](http://globalvoicesonline.org/) y apoyo adicional +de [la organización Article 19](http://www.article19.org/). Entre +septiembre y octubre de 2011, un grupo de jóvenes residentes de un +pequeño pueblo localizado al norte del estado de Minas Gerais, una de +las regiones más pobres de Brasil, fue capacitado en técnicas básicas de +periodismo y control de presupuesto. También aprendió cómo hacer pedidos +de acceso a la información y cómo obtener información pública de bases +de datos oficiales en internet. + +![El proyecto de medios ciudadanos Amigos de Januária da capacidades claves a los ciudadanos para convertirlos en periodistas de datos](figs/incoming/03-XX.jpg) + +Januária, un pueblo de aproximadamente 65.000 residentes, también es +conocido por las fallas de sus políticos locales. En 3 períodos de 4 +años tuvo 7 alcaldes diferentes. Casi todos fueron removidos de sus +funciones por mal desempeño en sus administraciones, incluyendo +acusaciones de corrupción. + +Los pequeños pueblos como Januária a menudo no atraen la atención de los +medios brasileños, que tienden a concentrarse en ciudades mayores y +capitales de estado. Sin embargo hay una oportunidad para que los +residentes de pequeños pueblos se conviertan en aliados potenciales en +el monitoreo de la administración pública, porque conocen mejor que +nadie los desafíos cotidianos que enfrentan las comunidades locales. +Teniendo a Internet como otro aliado importante, los residentes ahora +pueden acceder mejor a datos del presupuesto y otra información local. + +Luego de participar de 12 talleres, algunos de los nuevos ciudadanos +periodistas de Januária comenzaron a demostrar cómo este concepto de +acceder a datos públicos en pequeños pueblos puede ponerse en práctica. +Por ejemplo, Soraia Amorim, una periodista ciudadana de 22 años, +escribió una historia sobre una cantidad de doctores que está en la +nómina municipal según datos del gobierno federal. Sin embargo, +descubrió que la cifra oficial no se correspondía con la situación en el +pueblo. Para escribir esta pieza, Soraia tuvo acceso a datos de salud, +que están disponibles online en [el sitio del SUS](http://bit.ly/tabnet-datasus) +(Sistema Único de Saúde,un programa federal que provee ayuda médica gratuita +a la población brasileña. Según los datos de US, Januária debiera tener 71 doctores +en varias especialidades de salud. + +El número de doctores indicado por los datos de SUS no se correspondía +con lo que Soraia sabía acerca de los doctores de la zona: los +residentes siempre se quejaban de la falta de doctores y algunos +pacientes tenían que viajar a pueblos vecinos para ver un profesional. +Más tarde entrevistó a una mujer que había estado recientemente en un +accidente de motocicleta, y no pudo conseguir ayuda médica en el +hospital de Januária porque no había ningún doctor disponible. También +habló con el secretario de Salud del pueblo, que reconoció que había +menos doctores en el pueblo de lo que indicaba la cifra publicada por el +SUS. + +Estas conclusiones iniciales plantean muchos interrogantes respecto de +los motivos de estas diferencias entre la información oficial publicada +online, y la realidad del pueblo. Uno de ellos es que los datos +federales pueden estar equivocados, lo que significaría que hay una +importante falta de información de salud en Brasil. Otra posibilidad +puede ser que Januária está reportando incorrectamente la información al +SUS. Ambas posibilidades debieran llevar a una investigación más +profunda para encontrar la respuesta definitiva. Sin embargo, la +historia de Soria es una parte importante de esta cadena porque destaca +una inconsistencia y puede también alentar a otros a analizar esta +cuestión con más detenimiento. + +“Yo antes vivía en el campo y terminé la secundaria con mucha +dificultad”, dice Soraia. “Cuando la gente me preguntaba qué quería +hacer de mi vida, siempre dije que quería ser periodista. Pero imaginaba +que era casi imposible debido al mundo en el que vivía”. Luego de +participar en la capacitación de Amigos de Januária, Soraia cree que el +acceso a datos es una herramienta importante para cambiar la realidad de +su pueblo. “Me siento capaz de ayudar a cambiar mi pueblo, mi país, el +mundo”, agrega. + +Otro periodista ciudadano del proyecto es Alyson Montiériton, de 20 +años, que también usó datos para un artículo. Fue durante la primera +clase del proyecto, cuando los periodistas ciudadanos caminaron por la +ciudad en busca de temas que pudieran convertirse en historias, que +Alysson decidió escribir sobre un semáforo roto ubicado en una +intersección muy importante, que había permanecido en ese estado desde +el comienzo del año. Luego de aprender a conseguir datos en Internet, +buscó la cantidad de vehículos que existe en el pueblo y la cantidad de +impuestos que pagan los dueños de autos. Escribió: + +La situación en Januária empeora debido al alto número de vehículos en +el pueblo. Según el IBGE (el instituto de investigaciones estadísticas +más importante de Brasil), Januária tenía 13771 vehículos (entre ellos +7979 motos) en 2010… Los residentes del pueblo creen que la demora en +arreglar el semáforo no es resultado de la falta de recursos. Según el +Secretario del Tesoro del estado de Minas Gerais, el pueblo recibió +470.000 reales en impuestos sobre vehículos en 2010. + +Teniendo acceso a los datos, Alysson pudo mostrar que Januária tiene +muchos vehículos (casi 1 por cada 5 residentes) y que un semáforo roto +podía poner en peligro a mucha gente. Lo que es más, pudo decirle a su +público la cantidad de fondos recibidos por el pueblo de impuestos +pagados por dueños de vehículos y basado en ello cuestionar si este +dinero no sería suficiente para reparar el semáforo garantizando +condiciones de seguridad a conductores y peatones. + +Si bien las 2 historias escritas por Soraia y Alysson son muy simples, +muestran que los datos pueden ser usados por cronistas ciudadanos. No se +necesita estar en una gran redacción con muchos especialistas para usar +datos en sus artículos. Luego de 12 talleres, Soraia y Alysson, ninguno +de los cuales ha estudiado periodismo, pudieron trabajar en historias +basadas en datos y escribir piezas interesantes sobre su situación +local. Además sus artículos muestran que los datos mismos pueden ser +útiles incluso a escala pequeña. Dicho de otro modo también hay +información valiosa en conjuntos de datos y tablas pequeñas, no solo en +bases de datos inmensas. + +— *Amanda Rossi, Friends of Januária* + + +## El gran cuadro de resultados electorales + +Los resultados electorales ofrecen grandes oportunidades para contar +historias de forma visual para cualquier organización de noticias, pero +durante años esta fue para nosotros una oportunidad perdida. En 2008 con +los diseñadores gráficos nos propusimos cambiar eso. + +Queríamos encontrar una manera de desplegar resultados que contara una +historia y que no se viera como simplemente una mezcla de cifras en una +tabla o mapa. En anteriores elecciones eso es exactamente +[lo](http://nyti.ms/senate-1) [que](http://nyti.ms/senate-2) +[hicimos](http://nyti.ms/senate-3). + +No es que una gran bolsa de números –lo que llamo el “modelo CNN” de +tablas, tablas y más tablas- tenga algo de malo necesariamente. Funciona +porque da al lector lo que quiere saber: quién ganó. + +Y es peligroso meterse con algo que no está roto. Al hacer algo +radicalmente diferente y alejarnos de lo que la gente espera podríamos +haber hecho más confusas las cosas. + +Por fin, fue Shan Carter de la mesa de diseño el que dio la respuesta +adecuada, lo que terminamos llamando el “gran cuadro”. Cuando vi los +bosquejos por primera vez, fue literalmente una cachetada a la cara. + +Era exactamente lo que había que hacer. + +![El gran cuadro de resultados electorales (New York Times)](figs/incoming/03-ZZ-ZZ.png) + +¿Qué es lo que hace de esto una gran pieza de periodismo visual? Por +empezar, la mirada del lector es atraída inmediatamente a la gran barra +que muestra los votos del colegio electoral arriba, lo que en el +contexto periodístico podríamos llamar el \_copete.\_Le dice al lector +exactamente lo que quiere saber y lo hace de modo rápido, simple y sin +ruido visual. + +A continuación el lector es atraído al agrupamiento de estados en 5 +columnas más abajo, organizado de acuerdo a la probabilidad que el Times +asignaba a que un estado dado se inclinara por uno u otro candidato. En +la columna del medio está lo que en el contexto periodístico podríamos +llamar nuestro *gráfico central*, donde explicamos por qué Obama ganó. +El interactivo lo deja totalmente claro: Obama se quedó con los estados +que se preveía y 4 de los 5 más disputados. + +Para mi esta construcción en 5 columnas es un ejemplo de cómo el +periodismo visual difiere de otras formas de diseño. Idealmente una gran +pieza de periodismo visual será tanto hermosa como informativa. Pero +cuando tiene que decidir entre la historia y la estética, el periodista +debe volcarse para el lado de la historia. Aunque este diseño puede no +ser la manera en que un diseñador puro podría preferir presentar los +datos, presenta la historia muy, pero muy bien. + +Y finalmente, como cualquier buen recurso interactivo de la red, este +invita al lector a profundizar más. Hay detalles como porcentajes de +votos, estado por estado, informes de la cantidad de votos electorales y +porcentajes deliberadamente colocados en un segundo plano para no +competir con lo principal de la historia. + +Todo esto hace que el “gran cuadro” sea una gran pieza de periodismo +visual que hace un mapa casi perfecto siguiendo el esquema probado de la +pirámide invertida. + +— *Aron Pilhofer, New York Times* + + +## Consulta sobre el precio del agua + +Desde marzo de 2011, la información sobre el agua de la canilla en toda +Francia se obtiene a través de un experimento de consulta a la +población. En solo 4 meses, mas de 5000 personas hartas del control +corporativo del mercado de agua se tomaron el tiempo de buscar su +factura, escanearla y cargarla en [el proyecto Prix de +l’Eau](http://www.prixdeleau.fr/) (“precio del agua”); El resultado es +una investigación sin precedentes que reunió técnicos, ONG y medios +tradicionales para mejorar la transparencia en torno de proyectos de +agua. + +![El precio del agua (Fundación France Liberté)](figs/incoming/03-WW.jpg) + +El mercado de servicios de agua consiste en más de 10.000 clientes +(ciudades que compran agua para distribuir a sus contribuyentes) y sólo +un puñado de compañías. La relación de fuerzas en este oligopolio está +distorsionado en favor de las corporaciones, que en algunos casos cobran +precios distintos a pueblos vecinos. + +La ONG francesa France Libertés ha estado tratando con cuestiones de +agua en todo el mundo en los últimos 25 años. Ahora se concentra en +mejorar la transparencia del mercado francés y en dar poder a ciudadanos +y alcaldes que negocian acuerdos de servicios de agua. El gobierno +francés decidió enfrentar el problema hace 2 años con un censo nacional +del precio y la calidad el agua. Hasta ahora sólo se ha recogido el 3% +de los datos. Para ir más rápido, [France Libertés](http://www.france-libertes.org/) +quería involucrar ciudadanos directamente. + +Junto con el equipo OWNI diseñé una interfaz para la consulta en la que +los usuarios estudiaban su factura de agua e ingresaban el precio que +pagaban por el agua de la canilla en +[prixdeleau.fr/](http://www.prixdeleau.fr/). En los últimos 4 meses, +8500 se inscribieron y sean cargado y validado más de 5000 facturas. + +Si bien esto no permite una evaluación perfecta de la situación del +mercado, le mostró a los interesados, tales como los entes de +supervisión del agua, que había una preocupación genuina, a nivel +popular, por el precio del agua corriente. Al principio eran escépticos +respecto de la transparencia, pero cambiaron de idea en el curso de la +operación, sumándose progresivamente a France Libertés en su lucha +contra la opacidad y la mala praxis corporativa. ¿Qué pueden aprender de +esto las organizaciones de medios? + + Asociarse con ONG + +: Las ONG necesitan gran cantidad de datos para diseñar trabajos de + política. Estarán más dispuestas a pagar por una operación e + recolección de datos que un ejecutivo de diario. + + Los usuarios pueden aportar datos en crudo + +: Las consultas funcionan del mejor modo cuando los usuarios cumplen + una tarea de recolección de datos o refinado de datos. + + Pedir la fuente de la información + +: Evaluamos si pedir a los usuarios una copia de la factura original, + pensando que disuadiría a algunos de ellos (especialmente dado que + nuestro público era mayor en promedio). Si bien pudo haber sido una + traba para algunos, aumentó la credibilidad de los datos. + + Crear un mecanismo de validación + +: Diseñamos un sistema de puntaje y un mecanismo [de revisión por los + pares](http://www.prixdeleau.fr/valider) para controlar los aportes + de los usuarios. Esto demostró ser demasiado engorroso para los + usuarios, que tenían pocos incentivos para hacer visitas repetidas + al sitio. Pero fue utilizado por el equipo de France Libertés, cuyos + empleados, alrededor de 10, se sintieron motivados por el sistema de + puntaje. + + Mantenerlo simple + +: Creamos un mecanismo de correo automatizado de modo que los usuarios + pudieran presentar un pedido de acceso a la información respecto de + precios del agua con solo unos pocos clics. Aunque innovador y bien + diseñado, este recurso no generó un número sustancial de pedidos + (solo 100 fueron enviados). + + Defina su público + +: France Libertés se asoció con la revista dedicada a los derechos de + los consumidores *60 Millions de Consommateurs*, que lograron una + gran participación de su comunidad. Fue la unión prefecta para esta + operación. + + Elija cuidadosamente sus indicadores claves de desempeño + +: El proyecto tuvo solo 45.000 visitantes en 4 meses, equivalente a 15 + minutos de tráfico en [nytimes.com](http://www.nytimes.com/). Lo + importante es que 1 de cada 5 se inscribió y 1 de cada 10 se tomó el + tiempo de escanear y subir su factura. + +— *Nicolas Kayser-Bril, Journalism++* + + +# Obtener datos + +![](figs/incoming/04-00-cover.png) + +Así que está listo para comenzar con su primer proyecto de periodismo de +datos. ¿Y ahora qué? Primero necesita algunos datos. Esta sección +analiza de dónde puede obtenerlos. Aquí aprenderemos cómo encontrar +datos en la red, cómo pedirlos usando las leyes de acceso a la +información, cómo usar el "screen scraping" (peinado de pantalla) para +recoger datos de fuentes no estructuradas, y cómo usar la “colaboración +del público” (crowdsourcing) para obtener sus propios conjuntos de datos +de sus lectores. Finalmente analizamos lo que dicen las leyes respecto +de la re-edición de conjuntos de datos, y cómo usar herramientas legales +simples para permitir a otros reutilizar sus datos. + +### Qué contiene este capítulo? + +- [Una guía para trabajos de campo de 5 minutos](obtener_datos_0.html) +- [Su Derecho a la Información](obtener_datos_1.html) +- [El Wobbing\* funciona. ¡Úselo!](obtener_datos_2.html) +- [Obtener datos de la red](obtener_datos_3.html) +- [La red como fuente de datos](obtener_datos_4.html) +- [Herramientas web](obtener_datos_5.html) +- [Crowdsourcing en el Datablog de The Guardian](obtener_datos_6.html) +- [Cómo el Datablog usó "crowdsourcing" para cubrir la venta de + entradas para las Olimpíadas](obtener_datos_7.html) +- [Usar y compartir datos: las reglas técnicas legales, la letra chica + y la realidad](obtener_datos_8.html) + + +## Una guía para trabajos de campo de 5 minutos + +¿Busca datos sobre un tópico o cuestión particular? ¿No está seguro de +qué es lo que hay o dónde encontrarlo? ¿No sabe por dónde empezar? En +esta sección analizamos cómo comenzar la búsqueda de fuentes de datos +públicos en la red. + +#### Ajustar la búsqueda + +Aunque pueden no ser siempre fáciles de encontrar, muchas bases de datos +en la red están indexadas por motores de búsqueda, fuera ello o no la +intención del editor. Unos cuantos consejos: + +- Cuando busque datos asegúrese de incluir tanto términos de búsqueda + relacionados con el contenido de los datos que trata de encontrar, + como algo de información sobre el formato o la fuente en la que + prevé encontrarlos. Google y otros motores de búsqueda le permiten + buscar por tipo de archivo. Por ejemplo, puede buscar solo planillas + de cálculo (agregando a su búsqueda “filetype:XLS filetype:CSV”), + datos geográficos (“filetype:shp”), o extractos de bases de datos + (“filetype:MDB, filetype:SQL, filetype:DB). Si así lo desea incluso + puede buscar PDF (“filetype:pdf”). + +- También puede buscar con una parte de una URL. Hacer una búsqueda en + Google de “inurl:donwloads filetype:xls” o “inurl:descargas + filetype:xls” significa buscar todos los archivos Excel que tienen + “downloads” o “descargas” en su dirección de la red (si encuentra + una sola descarga, a menudo vale la pena simplemente verificar qué + otros resultados existen para la misma carpeta en el servidor de la + red). También puede limitar su búsqueda solo a aquellos resultados + dentro de un solo nombre de dominio, buscando “site:agency.gov”, + por ejemplo. + +- Otro truco popular es no buscar determinado contenido directamente, + sino lugares donde puede haber datos disponibles en gran cantidad. + Por ejemplo “sitio:ente.gov Directory Listing” puede darle algunos + listados generados por el servidor de la red con fácil acceso a + archivos en bruto, mientas que “sitio:ente.gov Database Download” + buscará listados creados intencionalmente. + +> Ir Directo a la fuente + +> El primer truco que uso para obtener datos que están en manos de un ente +público es tratar de ir directo a quien tiene los datos, no la persona +de relaciones públicas, ni a través de un pedido de acceso a la +información (PAI). Podría por supuesto hacer un PAI o un pedido de +registros públicos, pero eso hace que los engranajes comiencen a girar +con lentitud. Es probable que reciba la respuesta de que los datos no +están en el formato que solicité o (tal como ha sucedido en algunos +casos) que el ente oficial usa un software propio y no puede extraer los +datos en el formato que requerí. Pero si empiezo por llegar a la persona +que maneja los datos para esa organización, puedo hacer preguntas +respecto de qué datos tienen sobre el tema y cómo los guardan. Puedo +conocer el formato, hablar en el lenguaje de los datos y descubrir lo +que necesito saber para pedir los datos y tener éxito. ¿Las barreras que +se enfrentan en este caso? A menudo es difícil llegar a estas personas. +El encargado/a de Información Pública (EIP) va a querer que trate +directamente con él/ella. En esos casos he descubierto que lo mejor es +tratar de organizar una llamada colectiva o, aún mejor, una reunión en +persona con el/la EIP, el gurú de datos, y yo. Y lo puedo organizar de +un modo que les resulte difícil decir que no. “No quiero darles +trabajo”, digo. “No quiero crear una carga innecesaria ni hacer un +pedido demasiado amplio, de modo que una reunión me ayudará a entender +exactamente lo que tienen y cómo pedir exactamente lo que necesito”. + +> Si este método no funciona, la alternativa es hacer un pedido de conocer +cómo está organizado su archivo y su diccionario de datos. Entonces pido +los datos efectivamente. A veces pregunto también cómo guardan y qué +sistema usan. De ese modo puedo investigar de qué modo exportar los +datos antes de escribir mi pedido. + +> Por último, mi mejor historia de éxito es de cuando estaba trabajando en +un pequeño diario en Montana. Necesitaba algunos datos de países, me +dijeron que no podían exportarse de la computadora central. Investigué +un poco y ofrecí ir a ayudarlos. Trabajé con la persona de datos, +hicimos un pequeño guión y copiamos los datos a un disquete (esto fue +hace mucho tiempo). Tenía mis datos y el condado ahora estaba en +condiciones de proveer los datos a cualquiera que los pidiera. No +querían que eso sucediera, pero a veces ellos también necesitaban +extraer datos y no entendían su sistema por completo, de modo que nos +ayudamos entre todos. + +> — *Cheryl Philips, The Seattle Times* + +#### Explore sitios y servicios de datos + +En los últimos años han aparecido una cantidad de portales y centros de +datos dedicados y otros sitios de datos en la red. Son buenos lugares +para llegar a conocer los tipos de datos que hay. Para empezar podría +ver: + +![datacatalogs.org (Open Knowledge Foundation)](figs/incoming/04-01.png) + + Portales oficiales de datos + +: La disposición del gobierno a entregar ciertos conjuntos de datos + varía de país en país. Un número creciente de países está lanzando + portales de datos (inspirados por el data.gov de EE.UU. y el + data.gov.uk del R.U.) para promover la reutilización civil y + comercial de información oficial. Se puede encontrar un índice + global actualizado de tales sitios en + [datacatalogs.org/](http://datacatalogs.org/). Otro sitio práctico + es el [Guardian World Government + Data](http://www.guardian.co.uk/world-government-data), un + meta-motor de búsquedas que incluye muchos catálogos de datos + gubernamentales internacionales. + + [El Data Hub](http://thedatahub.org/) + +: Un recurso comunitario manejado por la Open Knowledge Foundation que + facilita buscar, compartir y re-utilizar fuentes de datos + abiertamente disponibles, especialmente de maneras automatizadas. + + [Scraperwiki](https://scraperwiki.com/) + +: Una herramienta online para hacer que el proceso de extraer “datos + útiles sea más fácil de modo que puedan ser utilizados en otras + aplicaciones o que periodistas e investigadores puedan *scrapear* + en ellos”. La mayoría de los "scrapers" y sus bases de datos son + públicos y pueden ser reutilizados. + +Portales de datos del [Banco Mundial](http://data.worldbank.org/) y las +[Naciones Unidas](http://data.un.org/):: + +Estos servicios ofrecen indicadores de alto nivel para todos los países +y en muchos casos cubren muchos años. + +[Buzzdata](http://buzzdata.com/), +[Infochimps](http://www.infochimps.com/) y +[DataMarket](http://datamarket.com/):: + +Sitios nuevos que apuntan a crear comunidades dedicadas a compartir +datos y su reventa. + + [DataCouch](http://datacouch.com/) + +: Un lugar donde subir, refinar, compartir y visualizar sus datos. + + [Freebase](http://www.freebase.com/) + +: Una interesante subsidiaria de Google que ofrece “un gráfico de + entidades de gente, lugares y cosas, creado por una comunidad amante + de la información abierta”. + + Datos de investigación + +: Hay compiladores nacionales y disciplinarios de datos de + investigación como el [UK Data + Archive](http://www.data-archive.ac.uk/). Si bien hay mucha + información gratuita en el punto de acceso, también hay muchos datos + que requieren una suscripción, o que no pueden ser reutilizados o + redistribuidos sin obtener autorización. + +Obtener datos de archivos de papel + +Justo después de la difusión por WikiLeaks de documentos militares de +EE.UU. sobre Afganistán e Irak, decidimos adaptar el concepto para +conmemorar el 50 aniversario de la Guerra de Argelia publicando los +Diarios de la Guerra de Argelia. Nos propusimos obtener y digitalizar +los archivos del Ejército Francés en Argelia. Estos están disponibles en +el archivo del ministerio de Guerra en París, aunque en formato impreso. +Enviamos a nuestros periodistas y estudiantes a tomar fotografías de los +documentos. Tratamos de escanearlos usando un scanner Canon P-150 +portátil, pero no funcionó principalmente porque gran parte de los +archivos están abrochados. + +Por fin se recogieron alrededor de 10000 páginas en pocas semanas. Las +pasamos por un software de reconocimiento de texto (ABBYY FineReader) +que produjo resultados pobres. Lo que es más, el ministerio +arbitrariamente negó acceso a las cajas más interesantes de archivos. +Por encima de todo, el ministerio prohíbe reeditar documentos que pueden +ser fotografiados libremente en el lugar, por lo que decidimos que no se +justificaba el riesgo y el proyecto quedó en suspenso. + +— *Nicolas Kayser-Bril, Journalism++* + +#### Pregunte en un foro + +Busque respuestas existentes o haga una pregunta en +[Get The Data](http://getthedata.org/) o [Quora](http://www.quora.com/). +GetTheData es un sitio de preguntas y respuestas donde puede hacer sus +preguntas relacionadas con datos, incluyendo donde encontrar datos +relacionados con un asunto particular, cómo interrogar o encontrar una +determinada fuente de datos, qué herramientas usar para explorar de modo +visual, como expurgar datos, o ponerlos en un formato con el que pueda +trabajar. + +#### Pregunte en una lista de correo + +Las listas de correo aprovechan la sabiduría de una comunidad entera +sobre un tópico particular. Para los periodistas de datos, la +[Data-Driven Journalism List](http:/bit.ly/ddj-list) y la +[NICAR-L](http://bit.ly/nicar-subscribe/) son excelentes puntos de +partida. Ambas listas están pobladas de periodistas de datos y expertos +en Periodismo Asistido por Computadora (Computer-Assisted Reporting – +CAR) que trabajan en todo tipo de proyectos. Es posible que alguien haya +hecho una historia como la suya y puede tener una idea de por dónde +empezar, si es que no un vínculo directo con los datos que busca. +También podría probar con [Project Wombat](http://project-wombat.org/); +(“una lista de discusión para preguntas de referencia difíciles”), las +muchas listas de correo de [la Open Knowledge +Foundation](http://lists.okfn.org/mailman/listinfo), listas de correo en +[the Info](http://theinfo.org/), o buscar listas de correo sobre el +tópico o en la región que está interesado. + +#### Súmese a Hacks/Hackers + +[Hacks/Hackers](http://hackshackers.com/) es una organización +periodística internacional de base en rápida expansión con docenas de +secciones y miles de miembros en 4 continentes. Su misión es crear una +red de periodistas (“Hacks”) y tecnólogos (Hackers”) que reflexionan +sobre el futuro de las noticias y la información. Con una red tan +amplia, tiene grandes probabilidades de encontrar a alguien que sepa +dónde encontrar lo que busca. + +#### Pregunte a un experto + +Profesores, empleados públicos y gente de los distintos sectores a +menudo saben dónde buscar. Llámelos. Mándeles un correo electrónico. +Abórdelos en eventos. Aparézcase en su oficina. Pregunte amablemente. +“Estoy escribiendo una historia sobre X. ¿Dónde encuentro esto? ¿Sabe +quién tiene esto?” + +#### Conozca la TI (Tecnología Informática) de los entes oficiales + +A menudo ayuda entender el contexto técnico y administrativo en el que +los entes oficiales tienen su información cuando se quiere acceder a +datos. Se trate de CORDIS, COINS o THOMAS, las grandes bases de datos a +menudo resultan más útiles cuando uno conoce algo del objetivo con el +que se crearon. + +Encuentre los cuadros organizativos de los entes oficiales y busque +departamentos/unidades con una función que los atraviese (por ejemplo, +informaciones, servicios TI), luego explore sus sitios en la red. Muchos +datos se archivan en distintos departamentos y mientras que para uno de +ellos la base de datos que le interesa puede ser su tesoro, otro puede +dársela sin problemas. + +Busque infografías dinámicas de sitios oficiales. Estas a menudo se +basan en fuentes de datos estructurados/API que pueden ser usadas de +modo independiente (por ejemplo, aplicaciones que rastrean vuelos, +aplicaciones Java que pronostican el clima). + +> Investigar registros de llamadas telefónicas + +> Hace pocos meses quise analizar los registros de llamadas telefónicas +del gobernador de Texas, Rick Perry (por entonces candidato +presidencial). Fue el resultado de un pedido, largamente esperado, de +registros públicos estaduales. Los datos vinieron esencialmente en el +formato de más de 120 páginas de documentos en calidad de fax. Era un +esfuerzo que requería ingresar datos y expurgarlos, seguido del uso de +una aplicación que permitiera buscar en la guía los titulares de los +teléfonos con los que se había comunicado el gobernador. + +> Combinando nombres con datos electorales estaduales y federales, +descubrimos que Perry tomó contacto con donantes a su campaña y con +súper comités de acción política (los llamados super PAC, que +supuestamente no deben organizar la recolección de fondos) +[desde teléfonos de oficinas públicas estaduales](http://bo.st/perry-phone), +práctica mal vista y que planteó interrogantes sobre los vínculos entre +él y un “super PAC” que trabaja para él. + +> — *Jack Gillum, Associated Press* + +#### Busque nuevamente + +Cuando sepa más sobre lo que está buscando, vuelva a buscar usando +frases y conjuntos de palabras improbables que descubrió desde la última +vez. ¡Quizá tenga más suerte con los motores de búsqueda! + +#### Escriba un pedido de acceso a la información + +Si usted cree que un ente oficial tiene los datos que necesita, un +Pedido de Acceso a Información puede ser su mejor herramienta. Vea la +siguiente sección para más información respecto de cómo presentarlo. + +— *Brian Boyer (Chicago Tribune), John Keefe (WNYC), Friedrich +Lindenberg (Open Knowledge Foundation), Jane Park (Creative Commons), +Chrys Wu (Hacks/Hackers)* + +> Cuando falla la ley +> Luego de leer un [artículo académico](http://bit.ly/hygiene-inspections) +que explica que publicar el resultado de inspecciones de higiene en +restaurantes redujo la cantidad de enfermedades relacionadas con +alimentos en Los Ángeles, pedí a los servicios de higiene parisinos la +lista de inspecciones. Siguiendo el procedimiento establecido por la ley +de Acceso a la Información francesa, esperé 30 días su negativa a +contestar, entonces fui a la Comisión de Acceso a los Datos públicos +(CADA en francés), que determina la legitimidad de los pedidos de acceso +a información. CADA apoyó mi pedido y ordenó a la administración +entregar los datos. La administración a continuación pidió dos meses más +y CADA lo aceptó. Dos meses más tarde la administración aún no había +hecho nada. + +> Traté de conseguir el apoyo de defensores del libre acceso a la +información famosos (y con muchos recursos) para presentar una demanda +legal (lo que hubiera costado € 5000 y se hubiera ganado sin duda con el +apoyo de CADA), pero temían complicar sus relaciones con los programas +de datos abiertos oficiales. Este ejemplo es uno entre muchos en los que +la administración francesa simplemente ignora la ley y las iniciativas +oficiales no hacen nada para apoyar pedidos de datos de periodistas +comunes. +> — *Nicolas Kayser-Bril, Journalism++* + + +## Su Derecho a la Información + +Antes de hacer un pedido de acceso a información, debiera verificar si +los datos que está buscando ya están disponibles o si otros ya los han +pedido. El capítulo anterior tiene algunas sugerencias respecto de dónde +puede averiguar. Si ha estado mirando y aún no pudo conseguir los datos +que necesita, entonces puede querer presentar un pedido formal. Algunos +consejos que pueden ayudar a hacer más efectivo su pedido. + + Planifique anticipadamente para ahorrar tiempo + +: Piense en presentar un pedido formal de acceso cuando se proponga + buscar información. Es mejor no esperar hasta haber agotado todas + las demás posibilidades. Ahorrará tiempo presentado un pedido al + comienzo de su investigación y desarrollando otras + investigaciones paralelamente. Esté preparado para las demoras: a + veces los entes públicos tardan en procesar pedidos, por lo que es + mejor prever esto. + + Verifique las normas respecto de aranceles + +: Antes de comenzar a presentar un pedido, verifique las normas + respecto de aranceles para presentar pedidos o recibir información. + De ese modo, si un funcionario público de pronto le pide dinero, + sabrá cuáles son sus derechos. Puede pedir documentos electrónicos + para evitar costos de copiado y correo, mencione en su pedido que + prefiere tener la información en formato electrónico. De ese modo + evitará pagar un arancel, a menos por supuesto que la información no + esté disponible electrónicamente, aunque en estos tiempos por lo + general es posible escanear documentos que no están digitalizados + aún y luego enviarlos como agregado por correo electrónico. + + Conozca sus derechos + +: Sepa cuáles son sus derechos antes de comenzar, de modo de saber + donde está parado y qué cosas están obligadas a hacer las + autoridades y qué cosas no. Por ejemplo, la mayoría de las leyes de + libre acceso a información establecen un plazo para que las + autoridades respondan. Globalmente, en la mayoría de las leyes los + plazos varían de unos pocos días a un mes. Asegúrese de conocer el + plazo antes de comenzar y anote la fecha en la que presenta + su pedido. + +Los entes oficiales no están obligados a procesar los datos para usted, +pero debieran darle todos los datos que tienen, y si son datos que +debieran tener para cumplir con sus obligaciones legales, por cierto que +debieran entregárselos. + + Diga que conoce sus derechos + +: Habitualmente no se requiere que usted mencione las leyes de acceso + a información o de libertad de información, pero esto se recomienda + porque muestra que conoce sus derechos y esto probablemente promueva + una respuesta acorde con el derecho vigente. Señalamos que en el + caso de pedidos a la UE, es importante mencionar que es un pedido de + acceso a documentos y es mejor mencionar específicamente la + Norma 1049/2001. + + Hágalo simple + +: En todos los países es mejor comenzar con un simple pedido de + información y luego agregar más preguntas cuando obtiene la + información inicial. De ese modo no corre el riesgo de que el ente + público pida extensión del plazo por tratarse de un + “pedido complejo”. + + Concentre su pedido + +: Un pedido de información que solo está en manos de una parte de un + ente público probablemente tenga respuesta más rápida que un pedido + que requiere una búsqueda en todo un ente. Un pedido que involucra + que el ente consulte a terceros (p.ej., una empresa privada que + aportó la información, otro gobierno que se ve afectado por + la misma) puede llevar un tiempo particularmente prolongado. + Sea persistente. + + Piense que hay dentro del archivo + +: Intente averiguar qué datos se recogen. Por ejemplo, si recibe una + copia en blanco del formulario que llena la policía después de + accidentes de tráfico, puede ver qué información toman en cuenta y + cual no respecto de choques de autos. + + Sea específico + +: Antes de presentar su pedido piense: ¿es ambiguo en algún sentido? + Esto es especialmente importante si piensa comparar datos de + distintos entes públicos. Por ejemplo, si pide cifras de los + *últimos 3 años*, algunos entes le enviarán información de los + últimos 3 años calendario y otros de los 3 últimos años financieros, + los que no podrá comparar directamente. Si decide ocultar su + verdadero pedido en otro más general, entonces debe hacer su pedido + lo suficientemente amplio como para que abarque la información que + quiere pero no tanto como para resultar poco claro o como para + desalentar a las autoridades a responder. Los pedidos específicos y + claros tienden a tener respuestas más celeras y mejores. + + Presente múltiples pedidos + +: Si no está seguro donde presentar su pedido, nada le impide + presentar su pedido a 2, 3 o más entes al mismo tiempo. En algunos + casos, los varios entes le darán distintas respuestas, pero esto en + realidad le puede ser de ayuda en cuanto a darle un cuadro más + completo de la información disponible en la materia que investiga. + + Presente pedidos internacionales + +: Cada vez hay más posibilidades de presentar pedidos por vía + electrónica, por lo que no importa donde vive. Alternativamente, si + no vive en el país en el que quiere presentar su pedido, puede en + algunos casos enviar el pedido a la embajada y desde allí deben + transferir el pedido al ente público competente. Tendrá que + verificar en la embajada correspondiente si están en condiciones de + hacer esto: a veces el personal de la embajada no está capacitado en + la cuestión del derecho a la información y si este parece ser el + caso, es más seguro presentar le pedido directamente al ente + público correspondiente. + + Haga una prueba + +: Si piensa mandar el mismo pedido a muchos entes públicos, empiece + por enviar un primer texto del pedido a unos pocos entes como + ejercicio piloto. Esto le mostrará si está usando la terminología + adecuada para obtener el material que quiere y si es factible que + contesten sus preguntas, de modo de poder revisar el pedido si fuera + necesario antes de enviarlo a todos los destinatarios. + + Anticipe las excepciones + +: Si cree que pueden aplicarse excepciones a su pedido entonces, + cuando prepare sus preguntas, separe las preguntas relativas a + información potencialmente delicada del resto de la información que + el sentido común diría que no tiene porque ser motivo de + una excepción. Luego divida sus preguntas en 2 y presente los 2 + pedidos por separado. + + Pida acceso a los archivos + +: Si vive cerca del lugar donde se guarda la información (por ej., en + la capital en la que se guardan los documentos), también puede pedir + inspeccionar los documentos originales. Esto puede ser de ayuda en + la investigación de información que puede estar contenida en una + gran cantidad de documentos que le gustaría ver. Tal inspección + debiera ser gratuita y debe poder realizarse en un momento que sea + razonable y conveniente para usted. + + ¡Guarde registro! + +: Haga su pedido por escrito y guarde una copia o un archivo de modo + que en el futuro pueda demostrar que envío su pedido, en caso de + tener que apelar por falta de respuesta. Esto también le da + evidencias de haber presentado el pedido si piensa hacer un artículo + sobre el tema. + + Hágalo público + +: Acelere las respuestas haciendo público que presentó un pedido: si + escribe o transmite la información de que se ha presentado el pedido + puede crear presión sobre la institución pública para que procese y + responda al pedido. Puede actualizar la información cuando reciba + respuesta a su pedido si pasa el plazo y no hay respuesta, puede + transformar esto en una noticia también. Hacer esto tiene el + beneficio adicional de educar al público respecto del derecho de + acceso a la información y cómo funciona en la práctica. + +
+ ++--------------------------------------+--------------------------------------+ +|
| | +| | | +| Note | También hay varios servicios | +| | excelentes que puede usar para hacer | +|
| público su pedido y toda respuesta | +| | subsecuente, poniéndolas a | +| | disposición del público en la red, | +| | tales como [¿Qué | +| | saben?](http://www.whatdotheyknow.co | +| | m/) | +| | para entes públicos en el RU, [Frag | +| | den Staat](https://fragdenstaat.de/) | +| | para entes públicos alemanes, y [Ask | +| | the EU](http://www.asktheeu.org/)) | +| | para instituciones de la UE. El | +| | proyecto | +| | [Alaveteli](http://www.alaveteli.org | +| | /) | +| | está ayudando a crear servicios | +| | similares en docenas de países en | +| | todo el mundo. | +| | | +| |
| ++--------------------------------------+--------------------------------------+ + + + +![ ¿Qué saben? (My Society)](figs/incoming/04-AA.png) + + Involucre a colegas + +: Si sus colegas son escépticos respecto del valor de los pedidos de + acceso a la información, una de las mejores maneras de convencerlos + es escribir un artículo basado en información que obtuvo usando una + ley de acceso a la información. También se recomienda mencionar en + el artículo final o en su alocución por radio o televisión que usó + la ley, como un modo de subrayar su valor y aumentando la conciencia + del público de la existencia de ese derecho. + + Pida datos en crudo + +: Si quiere analizar, explorar, o manejar datos usando una + computadora, entonces debe pedir explícitamente datos en formato + electrónico que la máquina pueda leer. Puede clarificar esto + especificando, por ejemplo, que requiere una información + presupuestaria en un formato “adecuado para su análisis con + software contable”. También puede querer pedir explícitamente la + información en forma desagregada o granular. Puede leer más acerca + de esto en este informe () + +Preguntar sobre organizaciones eximidas de las leyes de acceso a la +información:: + +Usted puede querer investigar acerca de ONG, compañías privadas, +organizaciones religiosas y/u otras organizaciones que no están +obligadas a entregar documentación bajo las leyes de acceso a la +información. Sin embargo es posible encontrar información acerca de +ellas a través de entes públicos que sí están cubiertos por las leyes de +acceso a la información. Por ejemplo, puede preguntar a un departamento +o ministerio si han dado fondos o tratado con una compañía privada u ONG +específica y pedir documentos que respalden la información. Si necesita +más ayuda para hacer su pedido de acceso a la información puede +consultar también el [Legal Leaks](http://www.legalleaks.info/toolkit.html) + +— *Helen Darbishire (Access Info Europe), Djordje Padejski (Knight +Journalism Fellow, Stanford University), Martin Rosenbaum (BBC), y +Fabrizio Scrollini (London School of Economics and Political Science)* + + +> Usar pedidos de acceso a la información para entender el gasto + +> He usado pedidos de acceso a información de un par de maneras diferentes +para ayudar a cubrir COINS, la mayor base de datos de gasto, presupuesto +e información financiera del estado británico. Al comienzo de 2010 +George Osborne sostuvo que si era nombrado al frente del Tesoro, daría +acceso a COINS para facilitar una mayor transparencia. En ese momento +pareció una buena idea investigar los datos y la estructura de COINS por +lo que envíe unos cuantos pedidos de acceso a la información, uno para +[el esquema de la base de datos](http://bit.ly/wdtk-coins-1), otro para +la orientación que reciben los trabajadores del Tesoro cuando trabajan +con [COINS](http://bit.ly/wdtk-coins-2) y un tercero para el [contrato +del Tesoro con el proveedor de la base de +datos](http://bit.ly/wdtk-coins-3). Todo lo cual resultó en la +publicación de datos útiles. También pedí todos los códigos de gasto en +la base de datos, información [que también fue +publicada](http://bit.ly/wdtk-coins-4). Todo esto ayudó a entender COINS +cuando George Osborne llegó al Tesoro en mayo de 2010 y publicó COINS en +junio de 2010. Los datos de COINS fueron usados en una cantidad de +sitios de la red alentando al público a investigar los mismos, +incluyendo OpenSpending.org y el [Coins Data +Explorer](http://coins.guardian.co.uk/coins-explorer/search) de The +Guardian. + +> Luego de investigar un poco más pareció que faltaba una gran parte de la +base de datos: la Whole of Government Accounts (WGA) que son 1500 +conjuntos de cuentas para entes con financiación estatal. Usé un [pedido +de acceso a la información para solicitar los datos WGA de +2008/09](http://bit.ly/wdtk-coins-5) pero no obtuve resultados. También +pedí el informe de la oficina de auditoría para WGA, que esperaba que +explicara los motivos por los que la WGA no estaba en condiciones de +publicarse. Eso también [se me negó](http://bit.ly/wdtk-coins-6). + +> En diciembre de 2011 la WGA fue publicada en los datos COINS. Sin +embargo quería asegurarme de que hubiera suficiente orientación para +crear un conjunto completo de cuentas para cada uno de los 1500 entes +incluidos en el ejercicio de la WGA. Esto me lleva a la segunda manera +en que usé un pedido de acceso a información: para asegurarme de que los +datos difundidos bajo el plan de transparencia británico estuvieran bien +explicados y contuvieran lo que debían. Presenté un pedido de acceso a +la información [del conjunto de cuentas para cada ente público incluido +en la WGA](http://bit.ly/wdtk-coins-7). + +> — *Lisa Evans, the Guardian* + + +## El Wobbing* funciona. ¡Úselo! + +- N. del t. Wobbing es un neologismo surgido de la jerga + periodística holandesa. La legislación de libre acceso a la + información en Holanda se conoce por la sigla WOB. De allí se deriva + el término. + +Usar la legislación de acceso a la información –o wobbing, como se lo +llama a veces- es una herramienta excelente pero requiere método y, a +menudo, persistencia. A continuación, 3 ejemplos de mi propio trabajo +como periodista de investigación que ilustran los puntos fuertes y los +desafíos que plantea el wobbing. + +#### Estudio de caso 1: subsidios agropecuarios + +Todos los años la UE paga casi € 60.000 millones a productores y el +sector agropecuario. Todos los años. Esto sucede desde fines de la +década de 1950 y el discurso político era que los subsidios ayudan a los +productores más pobres. Sin embargo, un primer logro en base a un pedido +de acceso a la información en Dinamarca en 2004 mostró que esto eran +solo palabras. Los pequeños productores estaban en graves dificultades, +de lo que a menudo se quejaban en privado y en público, y en realidad la +mayor parte de los fondos iban a unos pocos grandes terratenientes y a +la gran industria agropecuaria. De modo que obviamente quise saber: +¿Esto es un patrón que abarca a toda Europa? + +En el verano de 2004 le pedí los datos a la Comisión Europea. Todos los +años en febrero la Comisión recibe datos de los estados miembros. Los +datos muestran quien solicita fondos de la UE, cuánto reciben los +beneficiarios y si lo reciben por explotar su tierra, desarrollar su +región o para exportar leche en polvo. En aquel momento la Comisión +recibía las cifras como archivos CSV en un CD. Muchos datos, pero con +los que en principio era fácil trabajar. Es decir, si uno podía +obtenerlos. + +En 2004 la Comisión se negó a entregar los datos; el argumento clave fue +que los datos estaban cargados en una base de datos y recuperarlos +exigía mucho trabajo. Argumento que el Ombudsman Europeo llamó *mala +administración*. Puede encontrar todos los documentos de este caso en el +[sitio sobre wobbing.eu](http://bit.ly/eu-wobbing). Allá por 2004 no +teníamos tiempo de enredarnos en cuestiones legales. Queríamos los +datos. + +![El sitio de los subsidios agrícolas (Farmsubsidy.org)](figs/incoming/04-BB.png) + +Por lo que nos asociamos con gente de toda Europa para obtener los datos +país por país. Colegas ingleses, suecos y holandeses obtuvieron los +datos en 2005. Finlandia, Polonia, Portugal y regiones de España, +Eslovenia y otros países también ofrecieron su información. Incluso en +Alemania, enemiga del wobbing, logré obtener algunos datos de la +provincia del Norte del Rin – Westfalia en 2007. Tuve que recurrir a las +cortes para obtener los datos, pero resultó en algunos buenos artículos +en [la revista Stern y en Stern online](http://bit.ly/stern-wobbing). + +¿Fue casualidad que Dinamarca y el RU fueran los primeros en dar acceso +a sus datos? No necesariamente. Si se mira el cuadro político general, +los subsidios agropecuarios en aquel tiempo debían verse en el contexto +de las negociaciones de la OMC en las que había presión contra los +subsidios agropecuarios. Dinamarca y el RU se cuentan entre los países +más liberales de Europa, de modo que bien pudo ser que los vientos +políticos soplaran en dirección a una mayor transparencia en esos +países. + +La historia no se acaba allí; para consultar más episodios y los datos, +ver [Farm Subsidy](http://farmsubsidy.org/). + +> Conozca sus derechos + +> Cuando publica datos, ¿debe preocuparse por el copyright y otros +derechos en los datos? Aunque debe consultar siempre con su equipo +legal, como regla: si está publicado por el estado no tiene porque pedir +perdón ni permiso; si es publicado por una organización que no gana +dinero vendiendo datos, no tiene mucho de qué preocuparse; si lo publica +una organización que obtiene ganancias con la venta de datos, entonces +decididamente tiene que pedir permiso. +> — *Simon Rogers, the Guardian* + +#### Estudio de caso 2: efectos colaterales + +Todos somos conejillos de Indias en lo que se refiere a tomar +medicamentos. Las drogas pueden tener efectos secundarios. Todos sabemos +esto: sopesamos los beneficios y riesgos potenciales, y tomamos una +decisión. Desgraciadamente, esta a menudo no es una decisión basada en +información. + +Cuando los adolescentes toman una píldora en contra de los granitos, +esperan tener piel suave, no un mal estado de ánimo. Pero esto es +precisamente lo que sucedió con una droga, con la que los jóvenes se +deprimieron y hasta tuvieron tendencias suicidas por tomarla. El peligro +de este efecto secundario en particular –-evidentemente una historia +periodística-- no era algo demasiado conocido. + +Hay datos sobre efectos secundarios. Los productores tienen que entregar +información regularmente a las autoridades de salud acerca de los +efectos secundarios observados. Esa información está en manos de las +autoridades nacionales y europeas una vez que se permite la venta de la +droga. + +Nuevamente en este caso se tuvo un primer logro a nivel nacional en +Dinamarca. Durante una investigación internacional de un equipo danés, +holandés y belga, Holanda también dio la información. Otro ejemplo de +salir de ronda con el *wobbing*: nos ayudó mucho poder señalar a las +autoridades holandesas que los datos estaban accesibles en Dinamarca. + +Pero la historia era cierta: en Europa había gente joven con tendencias +suicidas y lamentablemente también hubo suicidios en varios países como +resultado del uso de la droga. Periodistas, investigadores y las +familias de una joven víctima presionaban duro para obtener acceso a +esta información. El Ombudsman Europeo ayudó a presionar por más +transparencia en el Ente Europeo de Medicina y [parece que tuvo +éxito](http://bit.ly/eu-ombudsman). Por lo que ahora a los periodistas +les corresponde obtener los datos y analizar el material a fondo. ¿Somos +todos conejillos de Indias, como dijo un investigador, o son buenos los +mecanismos de control? + +Lecciones: no acepte una negativa cuando de lo que se trata es de +transparencia. Sea persistente y siga una historia a lo largo de los +años. Las cosas pueden cambiar, permitiendo mejor información con mejor +acceso en un momento posterior. + +#### Estudio de caso 3: contrabando de muerte + +La historia reciente puede ser muy dolorosa para poblaciones enteras, en +particular después de guerras y en tiempos de transición. ¿Entonces cómo +pueden obtener datos duros los periodistas para investigar, cuando –por +ejemplo- los que se beneficiaron de la última guerra ahora están en el +poder? Esta es la tarea que se propuso un equipo de periodistas +eslovenos, croatas y bosnios. + +El equipo se dispuso a investigar los negocios con armas en la ex +Yugoslavia durante el embargo de la ONU a comienzos de la década de +1990. La base del trabajo fueron documentos de investigaciones +parlamentarias sobre el tema. Para documentar las rutas de embarque y +comprender la estructura del comercio, se debía rastrear el transporte +con números de embarcaciones en los puertos y las licencias de los +camiones. + +Comisiones parlamentarias eslovenas han hecho investigaciones sobre las +ganancias obtenidas en las guerras de los Balcanes, pero nunca han +llegado a ninguna conclusión. Pero había un rastro extremadamente +valioso de documentos y datos desclasificados, incluyendo 6000 páginas +que el equipo esloveno obtuvo a través de un pedido de acceso a +información. + +En este caso los datos debieron extraerse de documentos y bases de +datos. Al aumentar los datos con más información, análisis e +investigaciones, pudieron determinar numerosas [rutas del comercio +ilegal de armas](http://bit.ly/kaasogmulvad-smuggling). + +El equipo tuvo éxito y los resultados son +[únicos](http://bit.ly/journalismfund-smuggling1) y ya le han +significado al equipo su primer premio. Lo que es más importante, la +historia es valiosa para toda la región y bien puede ser retomada por +periodistas en otros países por los que pasó la carga mortífera. + +Lecciones: publique buen material en crudo aunque lo encuentre en +lugares inesperados y combínelo con datos existentes de acceso público. + +— *Brigitte Alfter, Journalismfund.eu* + +> Pedidos de acceso a la información con amigos + +> Muchos países balcánicos tienen problemas de corrupción gubernamental. +La corrupción a menudo es incluso peor cuando se trata de que los +gobiernos municipales rindan cuentas en esos países. Durante varios +meses un grupo de periodistas serbios vinculados con el [Centre for +Investigative Reporting de Belgrado](http://www.cins.org.rs/) han estado +cuestionando documentos del año 2009 de más de 30 municipalidades. Antes +de eso, casi nada estaba accesible al público. La idea era obtener los +registros originales y poner los datos en hojas de cálculo, para hacer +controles y comparaciones básicas entre las municipalidades y obtener +las cifras máximas y mínimas. Los indicadores básicos eran las cifras +presupuestarias, gastos regulares y especiales, salarios de +funcionarios, gastos de viaje, número de empleados, gastos de uso de +celular, gastos diarios, cifras de compras oficiales, y así siguiendo. +Era la primera vez que reporteros pedían esa información. + +> El resultado fue una base de datos que desnuda numerosas +representaciones falsas, prácticas ilegales y casos de corrupción. Una +lista de los alcaldes mejor pagos indicaba que unos cuantos de ellos +recibían más dinero que el presidente serbio. Muchos otros funcionarios +tenían sueldos excesivos, recibiendo muchos de ellos reintegros enormes +de expensas de viaje y por gastos. Los datos de gasto público obtenidos +con mucho esfuerzo ayudaron a sacar a luz un enredo oficial. De la base +de datos derivaron más de 150 artículos y muchos de ellos fueron +reeditados por los medios locales y nacionales en Serbia. + +> Aprendimos que comparar los registros con datos comparables de entes +gubernamentales similares puede sacar a luz desviaciones y echar luz +sobre probables hechos de corrupción. Los gastos exagerados e inusuales +solo pueden ser detectados por comparación. + +> — *Djordje Padejski, Knight Journalism Fellow, Stanford University* + +## Obtener datos de la red + +Ha probado todo y no ha logrado obtener los datos que quiere. Encontró +los datos en la red pero lamentablemente no hay opciones de descarga y +fracasó en el intento de copiar y pegar. No tema, aún puede haber una +manera de obtener los datos. Por ejemplo, puede: + +- Obtener datos de APIs (interfaces de programación de aplicaciones) + online, tales como interfaces provistas por bases de datos y muchas + aplicaciones modernas (incluyendo Twitter, Facebook y otras). Esta + es una manera fantástica de acceder a datos oficiales o comerciales, + así como datos de redes sociales. +- Extraer datos de PDF. Esto es muy difícil, dado que PDF es un + lenguaje para impresoras y no retiene mucha información sobre la + estructura de los datos presentados en el documento. Extraer + información de PDF va más allá del alcance de este libro, pero hay + algunas herramientas y tutoriales que pueden ayudarlo a hacerlo. +- Usar "screen scraping" para obtener datos de sitios de la red. Se + trata de extraer contenido estructurado de una página normal de la + red con la ayuda de un programa de de recuperación de información o + escribiendo una pequeña pieza de software. Si bien este método es + muy poderoso y puede ser usado en muchos lugares, requiere + comprender un poco cómo funciona la red. + +Con todas esas opciones técnicas, no olvide las opciones simples: a +menudo vale la pena invertir un poco de tiempo en buscar un archivo con +datos que pueden ser interpretados por una computadora o llamar a la +institución que tiene los datos que usted quiere. + +En este capítulo presentamos un ejemplo muy básico de *scrapear* datos +de una página HTML. + +#### ¿Qué son los datos procesables por computadora? + +Para la mayoría de estos métodos, el objetivo es obtener acceso a datos +que puedan ser nterpretados por una computadora. Tales datos son creados +para ser procesados por una computadora en vez de ser presentados a un +usuario humano. La estructura de estos datos se relaciona con la +información contenida en ellos, y no la manera en que será presentada +eventualmente. Entre los ejemplos de formatos que son fáciles de +interpretar por una computadora se incluyen CSV, XML, JSON, y los +archivos Excel, mientras que formatos como los de documentos Word, +páginas HTML, y archivos PDF están más relacionados con la presentación +visual de la información. Por ejemplo, PDF es un lenguaje que le habla +directamente a su impresora; le interesa la posición de líneas y puntos +en una página, en vez de caracteres distinguibles. + +===="Scrapear" sitios de la red: ¿Para qué? + +Todos lo han hecho: se va a un sitio de la red, uno ve una tabla +interesante y trata de copiarla a Excel de modo de poder agregar algunas +cifras o guardarla para después. Pero a menudo esto no funciona +realmente, o la información que quiere está desparramada en una gran +cantidad de sitios. Copiar a mano se puede volver rápidamente muy +tedioso, por lo que tiene sentido usar un poco de código para hacerlo. + +La ventaja del "scraping" es que se puede hacer prácticamente con +cualquier sitio, desde el pronóstico del tiempo hasta el gasto +gubernamental, incluso si el sitio no tiene una API para acceso a los +datos en crudo. + +#### Lo que se puede y lo que no se puede "scrapear" + +Por supuesto, hay límites a lo que se puede\_scrapear\_. Entre los +factores que dificultan *scrapear* en un sitio se incluyen: + +- Código HTML mal formateado con poco o nada de información + estructural (por ejemplo, sitios oficiales más antiguos). +- Los sistemas de autenticación que se supone impiden el acceso + automático (códigos CAPTCHA y exigencia de suscripción paga). +- Sistemas basados en sesiones que usan cookies de navegador para + rastrear lo que hace el usuario. +- Falta de listados completos de ítems y ausencia de posibilidades de + búsquedas con comodines. +- Bloqueado de acceso por administradores de servidores. + +Otro conjunto de limitaciones son las barreras legales: algunos países +reconocen los derechos de bases de datos, lo que puede limitar su +derecho a reutilizar información que ha sido publicada online. A veces +se puede ignorar la licencia y usarla de todos modos, dependiendo de su +jurisdicción, puede tener derechos especiales como periodista. No +debería haber problema en "scrapear" datos del estado de libre +disponibilidad, pero quizás sea mejor cerciorarse antes de publicarlos. +Organizaciones comerciales -–y ciertas ONGs-- reaccionan con menos +tolerancia y pueden tratar de sostener que usted está “saboteando” sus +sistemas. Otras informaciones pueden violar la privacidad de individuos, +y por tanto, violar las leyes de privacidad de datos o la ética +profesional. + +> Emparchar, "Scrapear", compilar, limpiar + +> El desafío con muchos datos británicos no es lograr obtenerlos, si no +ponerlos en un formato que se pueda usar. Se publican muchos datos sobre +hospitalidad, los intereses de los parlamentarios fuera de su función +pública, lobbys, y más como cosa habitual, pero en formatos difíciles de +analizar. + +> Para algunos datos, la única alternativa es el trabajo duro: unir +docenas de archivos Excel, cada uno conteniendo solo una docena de +registros, fue la única manera de hacer listas completas de reuniones +ministeriales. Para otros datos, "scrapear" la red se demostró +increíblemente útil. + +> Usar un servicio como ScraperWiki para pedir a programadores que +produzcan un *scraper* que permita reunir información como el Registro +de intereses de parlamentarios, nos ahorró la mitad del trabajo: tuvimos +toda la información de los parlamentarios en una hoja, lista para la +“larga” tarea de analizarla y expurgarla. + +> Servicios como éste (o herramientas tales como Outwit Hub) son de +inmensa ayuda para periodistas que tratan de compilar datos complicados +y que son capaces de programar. + +> — *James Ball, the Guardian* + +#### Herramientas que lo ayudan a "scrapear" + +Hay muchos programas que pueden ser usados para extraer información en +masa de un sitio, incluyendo extensiones de navegadores y algunos +servicios de la red. Según el navegador que use, herramientas como +[Readability](http://www.readability.com/), que ayuda a extraer texto de +una página o [DownThemAll](http://www.downthemall.net/), que le permite +descargar muchos archivos al mismo tiempo), le ayudarán a automatizar +algunas tareas tediosas, mientras que la [extensión Scraper de +Chrome](http://bit.ly/chrome-scraper) fue creada explícitamente para +extraer tablas de sitios de la red. Extensiones para programadores como +[FireBug](http://getfirebug.com/) para Firefox, lo mismo ya viene +incluido en Chrome, Safari e IE) le permite ver exactamente como está +estructurado un sitio y qué comunicaciones se dan entre su navegador y +el servidor. + +ScraperWiki es un sitio que le permite crear *scrapers* en una cantidad +de lenguajes de programación diferentes., incluyendo Python, Ruby y PHP. +Si quiere comenzar a *scrapear* sin la complicación de instalar una +plataforma de programación en su computadora esta es la manera de +hacerlo. Otros servicios de la red, tales como las Hojas de Cálculo de +Google y Yahoo! Pipes, también permiten realizar extracciones de otros +sitios. + +#### ¿Cómo funciona un "Scraper" de la red? + +Los "scrapers" de la red por lo general son piezas pequeñas de código +escritas en un lenguaje de programación tal como Python, Ruby o PHP. +Escoger el lenguaje adecuado depende en gran medida de a qué comunidad +tiene acceso: si en su redacción o ciudad hay alguien que ya trabaja con +uno de estos lenguajes, entonces tiene sentido adoptar el mismo +lenguaje. + +Si bien algunas de las herramientas de "scraping" con las que basta +cliquear y apuntar mencionadas más arriba pueden ser de ayuda para +comenzar, lo verdaderamente complejo a la hora de *scrapear* en un sitio +es encontrar las páginas indicadas y los elementos indicados dentro de +estas páginas para extraer la información deseada. Estas tareas no +tienen que ver con programación, sino con comprender la estructura del +sitio y la base de datos. + +Al presentar un sitio, su navegador casi siempre usará dos tecnologías, +HTTP, para comunicarse con el servidor y pedir recursos específicos, +tales como documentos, imágenes o videos; y HTML, el lenguaje en el que +se componen los sitios. + +#### La anatomía de una página de la red + +Toda página HTML está estructurada como una jerarquía de módulos (que +están definidos por etiquetas de HTML). Un módulo grande contiene muchos +módulos más pequeños –por ejemplo una tabla que tiene muchas divisiones +más pequeñas: filas y celdas. Hay muchos tipos de etiquetas que realizan +distintas funciones: algunas producen módulos, otras tablas, imágenes o +vínculos. Las etiquetas también pueden tener propiedades adicionales +(por ejemplo, pueden ser identificadores únicos y pueden pertenecer a +grupos llamados “clases” que hacen posible apuntar a y capturar +elementos individuales dentro de un documento). Escoger elementos +apropiados de esta manera y extraer su contenido es la clave para +escribir un "scraper". + +Viendo los elementos en una página de la red, todo puede dividirse en +módulos dentro de módulos. + +Para "scrapear" en páginas de la red tendrá que aprender un poco acerca +de los distintos tipos de elementos que pueden encontrarse en un +documento HTML. Por ejemplo, el elemento <table> abarca toda una +tabla, que tiene <tr> (table row) elementos para sus filas, que a +su vez contienen <td> (table data) para cada celda. El tipo de +elemento más común que encontrará es <div>, que puede significar +básicamente cualquier bloque de contenido. La manera más fácil de +conocer estos elementos es usar la barra de desarrolladores, +[developer toolbar](http://bit.ly/developer-toolbar), de su navegador: +le permitirá posicionarse sobre cualquier parte de una página de la red +y ver el código correspondiente. + +Las etiquetas funcionan como el comienzo y el fin de un libro, marcando +el comienzo y el fin de una unidad. Por ejemplo `` *significa el +comienzo de un tramo de texto en itálica o destacado y* `` +significa el fin de ese tramo. Fácil. + +#### Un ejemplo: "Scraping" de incidentes nucleares con Python + +[NEWS](http://www-news.iaea.org/EventList.aspx) es el portal de la +Agencia Internacional de Energía Atómica (AIEA) que sigue los incidentes +de radiación en todo el mundo (y disputa el título máximo del club de +los títulos raros). La página tiene listas de incidentes en un sitio +simple, tipo blog, que puede ser fácilmente "scrapeado". + +![El portal de la Agencia Internacinal de Energía Atómica (IAEA) (news.iaea.org)](figs/incoming/04-CC.png) + +Para empezar, cree un nuevo scraper Python en ScraperWiki y se le +presentará un área para texto mayormente vacía, salvo por algo de código +de soporte. En otra pestaña del navegador abra el + de AIEA y abra la +barra para desarrolladores de su navegador. En la vista de “elementos” +trate de encontrar el elemento HTML de uno de los títulos de noticias. +La barra para desarrolladores de su navegador le ayudará a relacionar +los elementos en la página con el código HTML correspondiente. + +Al investigar esta página se revelará que los títulos son elementos +`

` dentro de una <table>. Cada evento es una fila ``, que +también contiene una descripción y una fecha. Si queremos extraer los +títulos de todos los eventos, debiéramos buscar la manera de seleccionar +cada fila en la tabla secuencialmente, recopilando todo el texto dentro +de los elementos de título. + +Para convertir este proceso en código, tenemos que tomar conciencia de +todos los pasos. Para tener idea del tipo de pasos requeridos, juguemos +un juego simple: en su ventana de ScraperWiki trate de escribir +instrucciones individuales para cada cosa que va a hacer mientras +escribe este "scraper", como los pasos de una receta (ponga al comienzo +de cada línea un signo de numeral para indicarle a Python que no es un +verdadero código de computación). Por ejemplo: + + # Buscar todas las filas en la tabla + # Unicornio no debe desbordar el lado izquierdo. + +Trate de ser lo más preciso posible y no suponga que el programa sabe +algo acerca de la página que intenta *scrapear*. + +Una vez que haya escrito algo de este seudo-código, comparemos esto con +el código esencial para nuestro primer *scraper*: + + import scraperwiki + from lxml import html + +En esta primera sección estaba importando funcionalidad existente de +bibliotecas, recortes de código ya escrito. `Scraperwiki` nos dará la +capacidad de descargar sitios de la red, mientras que `lxml` es una +herramienta para el análisis estructurado de documentos HTML. Buena +noticia: si está escribiendo un scraper con ScraperWiki, estas dos +líneas siempre serán las mismas. + + url = "http://www-news.iaea.org/EventList.aspx" + doc_text = scraperwiki.scrape(url) + doc = html.fromstring(doc_text) + +A continuación el código hace un nombre (variable): url, y asigna el URL +de la página de la AIEA como su valor. Esto le dice al "scraper" que +esta cosa existe y que queremos prestarle atención. Nótese que el URL +mismo está entre comillas ya que no es parte del código del programa +sino un *string*, una secuencia de caracteres. + +Entonces usamos la variable del url como entrada de una función, +`scraperwiki.scrape`. Una función que producirá una tarea definida, en +este caso, descargará una página de la red. Cuando termine, asignará su +producto a otra variable, `doc_text`. `doc_text` ahora contendrá el +texto del sitio; no la forma visual que ve en su navegador, sino el +código fuente, incluyendo todas las etiquetas. Dado que esta forma no es +muy fácil de analizar, usaremos otra función, `html.fromstring`, para +generar una representación especial, en la que podamos fácilmente +referirnos a elementos, el así llamado modelo de documento de objeto o +document object model (DOM). + + for row in doc.cssselect("#tblEvents tr"): + link_in_header = row.cssselect("h4 a").pop() + event_title = link_in_header.text + print event_title + +En este paso final, usamos el DOM para encontrar cada fila de nuestra +tabla y extraer el título del evento de su encabezado. Se usan dos +conceptos nuevos: el riso "for loop" y selección de elemento o "element +selection" (`.cssselect`). El "for loop" hace esencialmente lo que +implica su nombre; atraviesa una lista de ítems, asignando a cada uno un +alias temporal (`row` en este caso) y luego aplicará las instrucciones +con sangría para cada ítem. + +El otro concepto nuevo, selección de elemento o "element selection", es +hacer uso de un lenguaje especial para encontrar elementos en el +documento. Los selectores CSS son usados normalmente para agregar +información de diseño a elementos HTML y puede ser usado para extraer +con precisión un elemento de una página. En este caso (línea 6) estamos +seleccionando \#tb1Events tr, que hará corresponder cada `` en el +elemento tabla con el ID tb1Events (el signo numeral simplemente +significa ID). Nótese que esto producirá una lista de elementos ``. + +Eso puede verse en la siguiente línea (línea 7i), donde estamos +aplicando otro selector para encontrar cualquier `` (que es un +hipervínculo) dentro de un `

` (un título). Aquí sólo queremos ver un +elemento (solo hay un título por fila), de modo que tenemos que sacarlo +del encabezado de la lista creada por nuestro selector con la función +`.pop()`. + +Nótese que algunos elementos en el DOM contienen texto (es decir, aneder +usando la sintaxis `[element].text` que se ve en la línea 8. Finalmente +en la línea 9 estamos imprimiendo ese texto a la consola ScraperWiki. Si +hace clic en "run" en su "scraper", la ventana más pequeña ahora debiera +comenzar a listar los nombres del evento del sitio de la AIEA. + +![Un scraper en acción (ScraperWiki)](figs/incoming/04-DD.png) + +Ahora puede ver un "scraper" básico operando: descarga la página, la +transforma a la forma DOM, y luego le permite seleccionar y extraer +cierto contenido. Dado este esqueleto, puede tratar de resolver algunos +de los problemas que quedan usando la documentación del ScraperWiki y +Python: + +- ¿Puede encontrar la dirección del vínculo en el título de cada + evento? +- ¿Puede seleccionar el pequeño módulo que contiene la fecha y el + lugar usando su nombre de clase CSS y extraer el texto del elemento? +- ScraperWiki ofrece una pequeña base de datos para cada scraper, de + modo que pueda almacenar los resultados; copie el ejemplo + correspondiente de sus docs y adáptelo de modo que guarde los + títulos, vínculos y fechas del evento. +- La lista de eventos tiene muchas páginas; ¿puede *scrapear* + múltiples páginas para obtener eventos históricos también? + +Mientras intenta resolver estos desafíos, investigue un poco el +ScraperWiki: hay muchos ejemplos útiles en los "scrapers" existentes; a +menudo los datos son bastante interesantes también. De este modo no +necesita comenzar su "scraper" de cero: simplemente escoja uno similar, +tómelo y adáptelo a su problema. + +— *Friedrich Lindenberg, Open Knowledge Foundation* + +> "Scrapear" en una base de datos pública + +> Algunos médicos franceses pueden establecer libremente sus honorarios, +por lo que uno puede pagar entre € 70 y € 500 por una consulta de 30 +minutos con un oncólogo, por ejemplo. Los datos sobre honorarios por ley +son públicos, pero la administración solo ofrece una base de datos +online difícil de navegar. Para tener una buena visión de los honorarios +de los médicos para Le Monde, decidí "scrapear" toda la base de datos. + +> Ahí comenzó la diversión. De entrada, el formulario de búsqueda era una +aplicación Flash que redirigía a una página de resultados HTML vía un +pedido POST. Con ayuda de Nicolas Kayser-Bril, nos llevó algo de tiempo +descubrir que la aplicación usaba una tercera página como paso “oculto” +entre el formulario de búsqueda y la página de resultado. Esta página se +usaba en realidad para almacenar un cookie con valores del formulario de +búsqueda al que entonces accedía la página de resultados. Hubiese sido +difícil imaginarse un proceso más enredado, pero las opciones de la +biblioteca cURL en PHP permiten superar fácilmente las vallas, una vez +que se sabe cuáles son. Finalmente apoderarnos de la base de datos llevó +10 horas, pero valió la pena. + +> — *Alexandre Léchenet, Le Monde* + + +## La red como fuente de datos + +¿Cómo puede saber más de algo que solo existe en Internet? Esté buscando +una dirección de correo electrónico, sitio, imagen o artículo de +Wikipedia, en este capítulo haré con usted una recorrida por las +herramientas que le dirán más sobre ellos. + +## Herramientas web + +Primero, unos cuantos servicios diferentes que puede usar para descubrir +algo más sobre todo un sitio, en vez de una página particular: + + Whois + +: Si va a [whois.domaintools.com/](http://whois.domaintools.com/) o + simplemente tipea whois seguido de un URL *www.ejemplo.com* en + Terminal.app en una Mac puede obtener la información básica de + registro de cualquier sitio. En los últimos años algunos dueños han + preferido el registro privado, lo que oculta sus detalles, pero en + muchos casos verá un nombre, dirección, correo electrónico y número + de teléfono de la persona que registró el sitio. También puede + ingresar direcciones IP numéricas aquí y obtener datos sobre la + organización o el individuo que es dueño del servidor. Esto es + especialmente útil cuando trata de encontrar más información sobre + un usuario abusivo o malicioso de un servicio, ya que la mayoría de + los sitios registran una dirección IP de todo el que accede a ellos. + + Blekko + +: El motor de búsquedas ([Blekko](http://blekko.com/) ofrece una + cantidad inusual de información sobre las estadísticas internas que + reúne sobre sitios mientras recorre la red. Si tipea un nombre de + dominio seguido de “/seo”, verá una página de información sobre ese + URL. La primera pestaña en [Figure 7](#FIG048) le muestra qué otros + sitios se vinculan con el dominio por orden de popularidad. Esto + puede ser extremadamente útil cuando está tratando de comprender qué + tipo de cobertura recibe un sitio y por qué tiene un alto ranking en + los resultados de búsquedas de Google, ya que estos se basan en esos + vínculos entrantes. [Figure 8](#FIG049) le dice qué otros sitios + funcionan en la misma máquina. Es común que estafadores y la gente + que envía spam se trate de legitimar construyendo múltiples sitios + que se ensalzan y vinculan mutuamente. Parecen dominios + independientes e incluso pueden tener detalles de registro + diferentes, pero a menudo están en el mismo servidor porque eso es + mucho más barato. Estas estadísticas le dan una visión de la + estructura oculta del sitio que investiga. + +![El buscador Blekko Blekko.com)](figs/incoming/06-PP-01.png) + +![Comprender la popularidad en la red, ¿quién se vincula con quién? La otra pestaña útil es “Estadísticas de Navegación"), especialmente la sección “Co-huesped con”.(Blekko.com)](figs/incoming/06-PP-02.png) + +![Descubrir spammers y estafadores de la red (Blekko.com)](figs/incoming/06-PP-03.png) + + Compete.com + +: Al estudiar una muestra representativa de consumidores + estadounidenses, [Compete.com](http://ww.compete.com/) acumula + estadísticas de uso detalladas para la mayoría de los sitios y pone + a disposición gratuitamente algunos detalles básicos. Elija la + pestaña de Site Profile (Perfil de Sitio) e ingrese un dominio + ([Figure 9](#FIG0410)). Entonces verá un gráfico del tráfico del + sitio en el último año, junto con cifras de cuánta gente lo visitó y + con qué frecuencia (como en [Figure 10](#FIG0411)). Dado que se + basan en muestras los números son solo aproximados, pero yo los + encontré razonablemente precisos cuando pude compararlos con la + analítica interna. En particular, parecen ser una buena fuente para + comparar dos sitios, dado que aunque las cifras absolutas pueden ser + equivocadas para ambos, de todos modos es una buena representación + de su diferencia relativa en cuanto a popularidad. Pero solo + estudian a los consumidores estadounidenses, por lo que los datos + serán pobres para los sitios predominantemente internacionales. + +![El servicio de perfil de Compete (Compete.com)](figs/incoming/06-PP-04.png) + +![¿Qué está de moda? ¿De qué hay demanda?: Lugares calientes de la red (Compete.com)](figs/incoming/06-PP-05.png) + + El buscador de sitios (Site Search) de Google + +: Un recurso que puede ser extremadamente útil cuando trata de + explorar todo el contenido de un dominio particular es ingresar en + el buscador los términos “sitio”: palabra clave. Si agrega + “site:ejemplo.com” a su frase de búsqueda, Google solo presentará + resultados del sitio que ha especificado. Incluso puede afinar aún + más la búsqueda incluyendo el prefijo de las páginas que le + interesan, por ejemplo, “site: ejemplo.com/páginas/”, y solo verá + los resultados que responden a ese patrón. Esto puede ser + extremadamente útil cuando trata de encontrar información que los + dueños de dominios ofrecen públicamente pero que no desean difundir, + de modo que elegir las palabras claves correctas puede permitir + descubrir material muy revelador. + +#### Páginas, imágenes y videos en la red + +A veces lo que interesa es la actividad que rodea una historia +específica, en vez de un sitio entero. Las herramientas que se presentan +a continuación le dan distintos ángulos de cómo lee, responde, copia y +comparte contenido la gente en la red. + + Bit.ly + +: Siempre recurro a [bitly.com](http://bitly.com/) cuando quiero saber + cómo comparte la gente un vínculo particular. Para usarlo, ingrese + el URL que le interesa. Luego haga clic en el vínculo Info Page+. + Eso lo lleva a la página de estadísticas completas (aunque puede + tener que escoger el vínculo “aggregate bit.ly” primero si ha + ingresado en el servicio). Esto le dará una idea de la popularidad + de la página, incluyendo actividad en Facebook y Twitter y debajo de + eso verá conversaciones públicas respecto del vínculo provistas por + backtype.com. Esta combinación de datos de tráfico y conversaciones + me resulta muy útil cuando trato de comprender por qué un sitio o + página es popular y quiénes son sus fans. Por ejemplo me aportó + fuertes evidencias de que la opinión dominante respecto de la + relación de Sarah Palin con los delegados de base era equivocada. + + Twitter + +: Al ser el servicio de micro-blogging más usado, es útil parar ver en + qué medida la gente comparte y habla acerca de piezas de + contenido individuales. Es engañosamente simple descubrir + conversaciones públicas sobre un vínculo. Uno simplemente pega el + URL en el que está interesado en la ventana de búsqueda y luego + posiblemente hace clic en “más tweets” para ver todos + los resultados. + + Cache de Google + +: Cuando una página se vuelve polémica los editores la pueden bajar o + alterarla sin reconocerlo. Si cree que se está encontrando con este + problema, el primer lugar a ir es el cache de Google de la página + tal como era cuando hizo su último recorrido. La frecuencia de los + recorridos está aumentando constantemente, por lo que tendrá más + suerte si intenta esto dentro de las pocas horas posteriores a que + se produjeron los supuestos cambios. Ingrese el URL correspondiente + en la ventana de búsqueda de Google y luego haga clic en la flecha + triple, a la derecha del resultado para esa página. Debiera aparecer + una vista gráfica y si tiene suerte habrá un pequeño vínculo de + “Cache” arriba. Haga clic allí para ver la toma de Google de + la página. Si hay problemas para que cargue, puede cambiar a la + página más primitiva, solo de texto, haciendo clic en otro link + arriba de la página en cache completa. Usted tendrá que guardar la + imagen de la pantalla o copiar y pegar el contenido significativo + que encuentre, dado que puede quedar invalidado en cualquier momento + por nuevos cambios. + + La Wayback Machine (Máquina de Hace Tiempo) del Archivo de Internet + +: Si necesita saber cómo ha cambiado una página particular en un + período de tiempo más largo, como meses o años, el Archivo de + Internet tiene un servicio llamado [The Wayback + Machine](http://archive.org/web/web.php) que periódicamente hace + tomas de las páginas más populares de la red. Vaya al sitio, ingresa + el vínculo que quiere buscar y si hay copias, le mostrará un + calendario para el momento que quiere examinar. Entonces presentará + una versión de la página aproximadamente como era en aquel momento. + A menudo le faltará diseño o imágenes, pero por lo general basta + para entender cuál era el foco del contenido de la página en + ese momento. + + Ver el Código Fuente + +: Es algo un poco improbable, pero los diseñadores a menudo dejan + comentarios u otros indicios en el código HTML de cualquier página. + Estará en distintos menúes según el navegador que use, pero siempre + hay una opción de “view source” (ver código fuente), que le + permitirá recorrer el HTML en crudo. No necesita entender lo que + significan las partes solo legibles para la máquina, solo esté + atento a los tramos de texto que a menudo están desparramados en + medio del código. Aunque solo sean referencias de copyright o + menciones de los nombres del autor, estos a menudo pueden dar pistas + importantes acerca de la creación y el objetivo de la página. + + TinEye + +: A veces uno realmente quiere conocer el origen de una imagen, pero + sin un texto claro que lo indique no hay ninguna manera evidente de + hacerlo con motores de búsqueda tradicionales como Google. + [TinEye](http://www.tineye.com/) ofrece un proceso especializado de + “búsqueda inversa de imagen”, donde uno le da la imagen que tiene y + encuentra otras imágenes en la red que se ven muy similares. Debido + a que usa reconocimiento de imagen para hacer la búsqueda, funciona + incluso cuando una copia ha sido recortada, distorsionada + o comprimida. Esto puede ser extremadamente efectivo cuando usted + sospecha que una imagen que se presenta como original o nueva no lo + es, dado que puede reconducirlo a la verdadera fuente original. + + YouTube + +: Si hace clic en el ícono de estadísticas en el ángulo inferior + derecho de cualquier video, puede conseguir información valiosa + sobre su público a lo largo del tiempo. Si bien no es completa, es + útil para entender aproximadamente quienes son los espectadores, de + donde vienen y cuándo. + +#### Correo electrónico + +Si está investigando correos electrónicos, a menudo querrá conocer más +detalles sobre la identidad y ubicación del que los envió. No hay una +buena herramienta disponible para ayudar con esto, pero puede ser muy +útil conocer lo básico acerca de los encabezados ocultos incluidos en +todo mensaje de correo electrónico. Estos funcionan como indicadores +para el correo y pueden revelar mucho acerca del remitente. En +particular, a menudo incluyen la dirección IP de la máquina desde la que +fue enviado el correo, parecido a la identidad del que hace una llamada +telefónica. Puede entonces usar "whois" con ese número IP para saber qué +organización posee esa máquina. Si resulta ser alguien como Comcast o +AT&T que proveen conexiones a consumidores, entonces puede visitar +MaxMind para obtener su ubicación aproximada. + +Para ver estos encabezados en Gmail abra el mensaje y +\[line-through\]\*abra\*el menú junto a la respuesta arriba a la derecha +y elija “Mostrar original”. + +Entonces verá una nueva página que revela el contenido oculto. Al +comienzo habrá un par de docenas de líneas que son palabras seguidas por +una coma. La dirección IP que busca puede estar allí, pero el nombre +dependerá de cómo fue enviado el correo. Si se envió desde Hotmail, se +llamará `X-Originating-IP:`, pero si fue enviado desde Outlook o Yahoo +estará en la primera línea que comienza con `Received:`. + +Si investigo la dirección con Whois me dice que está asignado a Virgin +Media, un ISP del RU, por lo que uso el servicio de ubicación geográfica +de MaxMind para descubrir que viene de mi ciudad, Cambridge. Esto +significa que puedo estar razonablemente confiado de que se trata +efectivamente de un correo de mis padres y no de impostores. + +#### Tendencias + +Si está investigando un tema amplio en vez de un sitio o ítem +particular, estas son algunas herramientas que pueden ayudar: + + Wikipedia Article Traffic (Tráfico de Artículos de Wikipedia) + +: Si le interesa conocer cómo ha variado el interés del público sobre + un tema o persona a lo largo del tiempo, puede encontrar cifras de + vistas día por día para cualquiera página de Wikipedia en + [stats.grok.se](http://stats.grok.se/). Es un sitio un poco tosco, + pero le permitirá descubrir la información que necesita revolviendo + un poco. Ingrese el nombre que le interesa para tener una visión + mensual del tráfico en esa página. Eso le presentará un gráfico que + muestra cuántas veces fue vista la página cada día del mes que + usted especifique. Desgraciadamente solo se puede ver un mes por + vez, por lo que tendrá que seleccionar otro mes y volver a buscar, + para ver cambios en períodos más prolongados. + + Google Insights + +: Puede tener una clara visión de los hábitos de búsquedas del público + usando [Insights de Google](http://www.google.com/insights/search/) + ([Figure 11](#FIG0412)). Ingrese un par de frases de búsquedas + comunes, como “Justin Bieber vs Lady Gaga”, y verá un gráfico de sus + números relativos de búsquedas con el paso del tiempo. Hay muchas + opciones para refinar su vista de los datos, desde zonas geográficas + más reducidas hasta más detalle a medida que pasa el tiempo. Lo + único que falta son valores absolutos: solo verá porcentajes + relativos, lo que puede ser difícil de interpretar. + +![Google Insights (Google)](figs/incoming/06-PP-06.png) + +— *Pete Warden, analista de datos y diseñador independiente* + + +## Crowdsourcing en el Datablog de The Guardian + + +"Crowdsourcing", [según Wikipedia](http://es.wikipedia.org/wiki/Crowdsourcing), +“consiste en externalizar tareas que, tradicionalmente, realizaba un empleado o +contratista, a un grupo numeroso de personas o una comunidad, a través +de una convocatoria abierta”. Lo que sigue está tomado de una entrevista +con Simon Rogers acerca de cómo el Datablog usó "crowdsourcing" para +cubrir el escándalo de los gastos de parlamentarios, el uso de drogas y +los papeles de Sarah Palin: + +A veces uno recibe una tonelada de archivos, estadísticas o informes que +es imposible que una persona pueda analizar. También puede conseguir +material que es inaccesible o está en un mal formato y no puede hacer +demasiado. Es en esto que puede ayudar el "crowdsourcing". + +Una cosa que tiene The Guardian es muchos lectores, muchos pares de +ojos. Si hay un proyecto interesante en el que necesitamos su ayuda, +entonces se lo pedimos. Es lo que hicimos con los +[Gastos de los parlamentarios](http://mps-expenses.guardian.co.uk/). +Teníamos 450.000 documentos y poco tiempo para hacer algo. +¿Entonces qué cosa mejor que repartir la tarea entre los lectores? + +![Una copia redactada de los gastos incidentales de Stephen Pound (The Guardian)](figs/incoming/04-EE.png){FIG0413} + +El proyecto de los gastos de los parlamentarios generó muchas pistas. +Tuvimos más historias que datos. El proyecto fue llamativamente exitoso +en términos de tráfico. A la gente realmente le gustó. + +Actualmente estamos +[haciendo algo con MixMag sobre el uso de drogas](http://bit.ly/guardian-drugs), +que también ha sido fenomenal. +Parece que va a ser más grande que la encuesta sobre crímenes en Gran +Bretaña en términos de la cantidad de gente que vuelve, lo que es +brillante. + +Lo que ambos proyectos tienen en común es que se refieren a temas que +realmente le importan a la gente, por lo que está dispuesta a dedicarles +su tiempo. Mucho del *crowdsourcing* que hemos hecho depende de la ayuda +de obsesivos. Con los gastos de los parlamentarios tuvimos una cantidad +masiva de tráfico al comienzo y luego bajó. Pero seguimos teniendo gente +que lee obsesivamente cada página buscando anomalías e historias. Una +persona ha leído 30.000 páginas. Saben muchas cosas. + +También usamos "crowdsourcing" con +[los papeles de Sarah Palin](http://bit.ly/guardian-palin-papers). +También en este caso fue de gran ayuda para estudiar la información en +crudo en busca de historias. + +En términos de generar historias el "crowdsourcing" ha funcionado muy +bien. A la gente realmente le gusta e hizo quedar bien a The Guardian. +Pero en términos de generar datos no hemos usado el "crowdsourcing" +tanto. + +Algunos de los proyectos de "crowdsourcing" que hemos hecho y que +funcionaron realmente bien, han sido encuestas a la antigua. Cuando uno +le pregunta a la gente acerca de su experiencia, su vida, lo que han +hecho, eso funciona muy bien porque la gente no tiende a inventar en +esos casos. Dice lo que siente. Cuando le pedimos a la gente que haga +nuestro trabajo por nosotros hay que encontrar una especie de marco para +que la gente produzca datos de un modo que resulten confiables. + +Respecto de la confiabilidad de los datos, creo que la postura de +[Old Weather](http://www.oldweather.org/) es realmente buena. Consiguen +que 10 personas hagan cada entrada, que es una buena manera de asegurarse +precisión. Con los gastos de los parlamentarios tratamos de minimizar el +riesgo de que los mismos parlamentarios se metieran online a editar sus +datos para quedar mejor. Pero no se puede estar permanentemente +cuidándose de esto. Sólo se puede estar atento a ciertos URL o si +provienen de la zona SW1 de Londres. Así que eso es un poco más difícil. +Los datos que sacábamos no eran siempre confiables. Aunque las historias +eran muy buenas, no producía números en crudo que pudiéramos usar con +certeza. + +Si tuviera que dar consejos a quienes aspiran a ser periodistas de datos +y que quieren usar el "crowdsourcing" para obtener datos, los alentaría +a hacerlo con algo que a la gente realmente le importa y que le seguirá +importando cuando deje de producir titulares de primera página. Además, +si uno puede crear algo que se parezca a un juego, eso puede ayudar +realmente a atraer a la gente. Cuando hicimos la historia de los gastos +por segunda vez, fue mucho más como un juego con tareas individuales +para que las hiciera la gente. Realmente fue de ayuda dar a la gente +tareas específicas. Eso fue importante porque creo que si uno solo le +presenta a la gente una montaña de información que tiene que ver y le +dice “mire esto”, puede resultar un trabajo duro y poco grato. Por lo +que creo que es realmente importante hacer que sea divertido. + +— *Marianne Bouchart, Data Journalism Blog, interviewing Simon Rogers, +the Guardian* + + +## Cómo el Datablog usó "crowdsourcing" para cubrir la venta de entradas para las Olimpíadas + +Creo que el proyecto de *croudsourcing* que tuvo la mayor respuesta fue +un [trabajo sobre la subasta de entradas para las +Olimpíadas](http://bit.ly/guardian-olympics). Miles de personas en el RU +trataron de obtener entradas para la Olimpíada de 2012 y hubo mucha +indignación porque la gente no las recibió. La gente había hecho pedidos +por cientos de libras y se les dijo que no recibirían nada. Pero nadie +sabía si eran solo unas pocas personas las que se quejaban ruidosamente +mientras la mayoría estaba contenta. Por lo que intentamos encontrar una +manera de saberlo. + +Decidimos que lo mejor que podíamos hacer realmente, dado que no había +buenos datos sobre el tema, era preguntar a la gente. Y pensamos que +tendríamos que tratarlo como un tema no demasiado serio, porque no +teníamos una muestra representativa. + +Creamos un formulario en Google e +[hicimos preguntas muy específicas](http://bit.ly/guardian-olympics2). +En realidad era un cuestionario largo: preguntaba cuánto era el valor de las +entradas que habían pedido, cuánto habían debitado de sus tarjetas de crédito, +qué eventos querían ver, este tipo de cosas. + +![Figure 13. ¿Cuántas entradas Olímpicas consiguió?: los resultados de los lectores (The Guardian)](figs/incoming/04-FF.png){FIG0414} + +Lo pusimos como una pequeña imagen a la cabeza del sitio y se difundió +rápidamente. Creo que esta es una de las cosas claves; no se puede solo +pensar “¿Qué es lo que quiero saber para mi historia?”. Hay que pensar: +“¿Qué me quiere contar la gente ahora?” Y el "crowdsourcing" es exitoso +cuando uno descubre de qué quiere hablar la gente. El volumen de +respuestas para este proyecto, que es uno de nuestros primeros intentos +de "crowdsourcing", fue inmenso. Tuvimos 1.000 respuestas en menos de +una hora y 7.000 para el final del día. + +Por lo que obviamente, tomamos un poco más seriamente la presentación de +los resultados en este momento. Inicialmente no sabíamos cómo nos iba a +ir. Por lo que agregamos algunas consideraciones: los lectores del +Guardian pueden tener mayores ingresos que otra gente, la gente que +recibió menos de lo esperado podía estar más dispuesta a hablar con +nosotros, y así siguiendo. + +No sabíamos cuánto valor tendrían los resultados. Terminamos con unos +7.000 registros en los cuales basar nuestro trabajo, y descubrimos que +alrededor de la mitad de la gente que pidió entradas no recibió nada. +Presentamos todo esto y debido a que tanta gente había participado el +día anterior, hubo mucho interés en los resultados. + +Pocas semanas más tarde salió el informe oficial y nuestras cifras +resultaron llamativamente precisas. Eran casi exactas. Creo que en parte +fue por una cuestión de suerte, pero también porque logramos que +respondiera tanta gente. + +Si uno le pregunta a sus lectores sobre algo así y contestan en los +comentarios de la nota, estará limitado en lo que puede hacer con los +resultados. De modo que tiene que empezar por pensar: “¿Cuál es la mejor +herramienta para lo que quiero saber?” ¿Es un hilo de comentarios? ¿O +tengo que crear una aplicación? Y si es crear una aplicación, hay que +pensar: “¿Vale la pena la espera? ¿Y se justifican los recursos +requeridos para hacer esto?” + +En este caso pensamos en los Formularios Google. Si alguien llena el +formulario el resultado aparece como una fila en una hoja de cálculo. +Esto significa que aunque aún si se estuviera actualizando, aún si +siguieran entrando resultados, se podría abrir la hoja de cálculo y ver +todos los resultados. + +Pude haber tratado de hacer el trabajo en Google, pero lo descargué a +Microsoft Excel y luego ordené la información de menor a mayor; también +encontré las entradas en las que la gente para decir lo que gastó, había +escrito los números como palabras (en vez de colocar los dígitos), y +arreglé eso. Decidí excluir lo menos posible. De modo que en vez de solo +aceptar las respuestas válidas, traté de arreglar lo que tenía. Algunos +habían usado divisas extranjeras, así que las convertí a libras, todo lo +cual fue un poco trabajoso. + +Pero hice todo el análisis en pocas horas y eliminé las entradas +obviamente tontas. Mucha gente decidió decir que no había gastado nada +en entradas. Eso es un poco gracioso, pero está bien. Eran menos de cien +en más de 7.000 entradas. + +También hubo unas pocas docenas de personas que ingresaron cifras +demasiado elevadas para tratar de distorsionar los resultados. Cosas +como 10.000.000 de libras. Por lo que eso me dejó con un conjunto de +datos que podía usar con los principios normales que usamos todos los +días. Hice lo que se llama una “tabla dinámica” (pivot table). Hice +algunos porcentajes. Ese tipo de cosas. + +No teníamos idea del impacto que tendría el proyecto, de modo que +trabajé yo solo con el editor del blog de deportes. Juntamos cabezas y +pensamos que este podía ser un proyecto divertido. Lo hicimos, de +comienzo a fin, en 24 horas. Tuvimos la idea, a la hora del almuerzo +armamos algo, lo pusimos a la cabeza del sitio, vimos que resultaba +bastante popular, lo dejamos a la cabeza del sitio el resto del día y +presentamos los resultados online a la mañana siguiente. + +Decidimos usar Google Docs porque da completo control sobre los +resultados. No necesitaba usar las herramientas analíticas de otra +gente. Lo puedo trasladar fácilmente a un software de base de datos o a +hojas de cálculo. Cuando uno usa el software de consultas de +especialistas, a menudo se ve restringido a usar las herramientas de +ellos. Si hubiésemos estado pidiendo información muy delicada, quizás +hubiésemos dudado de usar Google y pensado en hacer algo “interno”. Pero +por lo general es muy fácil incorporar Google Forms a una página de The +Guardian y para el usuario es prácticamente invisible el hecho de que +estamos usando ese formulario. Por lo que es muy conveniente. + +En términos de consejos para periodistas de datos que quieren usar el +"crowdsourcing", hay que definir cosas muy específicas para consultar a +la gente. En lo posible, haga preguntas tipo “multiple choice” (elegir +entre opciones fijas). Trate de conseguir datos demográficos básicos de +a quién se dirige, de modo de ver si su muestra puede ser distorsionada. +Si está pidiendo cantidades y cosas por el estilo, trate de especificar +que requiere la información en dígitos, que tienen que usar una moneda +específica, y así. Muchos no lo harán, pero cuanto más los guíe en todo, +tanto mejor. Y siempre, siempre, agregue una ventana para comentarios +porque mucha gente llenará los otros campos pero lo que realmente quiere +es darle su opinión sobre el tema. Especialmente si se trata de algo que +tiene que ver con los consumidores o un escándalo. + +— *Marianne Bouchart, Data Journalism Blog, interviewing James Ball, the +Guardian* + + +## Usar y compartir datos: las reglas técnicas legales, la letra chica y la realidad + + +En esta sección echaremos un rápido vistazo al estado de las leyes +relacionadas con datos y bases de datos, y lo que puede hacer para +ofrecer sus datos al público usando licencias comunes y herramientas +legales. No deje que nada de lo que sigue ahogue su entusiasmo por el +periodismo de datos. Las restricciones al manejo de datos por lo general +no serán una traba y fácilmente puede asegurarse de que no sean una +traba para otros que usen los datos que usted publica. + +Para decir lo obvio, obtener datos nunca fue más fácil. Antes de la +publicación generalizada de datos en la red, aunque uno hubiera +identificado un conjunto de datos que necesitaba, tenía que pedir a +quien tuviera una copia que se la pusiera a disposición, lo que +posiblemente involucrara el uso del correo o una visita personal. Ahora +uno hace que su computadora le pida a la computadora del otro que le +envíe una copia. Conceptualmente es algo similar, pero usted tiene una +copia de inmediato y el otro (el creador o editor) no ha hecho nada, y +probablemente no tenga idea de que usted descargó una copia. + +¿Y qué pasa cuando se trata de descargar datos con un programa (lo que a +veces se llama “scrapear”) y condiciones de uso del servicio (en inglés +Terms of Service o ToS)? Considere la frase anterior: su navegador es +justamente ese tipo de programa. Puede ser que el ToS solo permita +acceso con cierto tipo de programa. Si tiene tiempo y dinero ilimitados +para gastar en la lectura de tales documentos y quizás para pedir +asesoramiento a un abogado, hágalo sin dudar. Pero por lo general trate +de no ser un idiota: si su programa causa daño a un sitio, su red puede +ver bloqueado el acceso al sitio en cuestión y quizás usted se lo +merezca. Ahora hay mucha experiencia respecto de acceder y "scrapear" +datos en la red. Si piensa hacer esto, le será provechoso leer los +ejemplos que se dan en sitios como ScraperWiki. + +Una vez que tiene datos de interés, puede interrogar, desmenuzar, +ordenar, visualizar, correlacionar y realizar cualquier tipo de análisis +que guste con su copia de los datos. Puede publicar su análisis, citando +cualquier dato. La frase hecha “los datos son libres” (en el mismo +sentido que la palabra es libre) dice mucho, o quizás sea solo una frase +hecha de los que piensan demasiado en las cuestiones legales +relacionadas con las bases de datos o en sentido aún más amplio (y +retorcido) el aspecto legal del manejo de datos. + +¿Qué sucede si, siendo un periodista de datos bueno o que aspira a ser +bueno, tiene la intención de publicar no solo su análisis, incluyendo +algunos hechos o datos puntuales, sino también los conjuntos de +datos/bases de datos que usó –y a los que quizás incorporó más +información- al realizar su análisis? O quizás solo está curando datos y +no ha hecho ningún análisis (eso es bueno: el mundo necesita curadores +de datos). Si usted está usando datos recopilados por algún otro ente, +podría haber alguna complicación. (Si su base de datos ha sido armada +totalmente por usted, de todos modos lea el siguiente párrafo como +motivación para las prácticas de compartir información que aparecen en +el párrafo posterior). + +Si usted está familiarizado con el modo en que el copyright limita el +trabajo creativo –si el titular del copyright no ha dado permiso para +usar un trabajo (o el trabajo está en el dominio público o su uso puede +estar cubierto por excepciones y limitaciones tal como el uso leal) y +usted usa –distribuye, realiza, etc.- el trabajo de todos modos, el +titular del copyright podría obligarlo a interrumpirlo. Aunque los datos +son libres, los conjuntos de datos pueden ser restringidos de modo muy +similar, aunque hay más variaciones en las leyes relevantes que en el +caso del copyright aplicado a obras creativas. En síntesis, una base de +datos puede estar sujeta a copyright, como obra creativa. En muchas +jurisdicciones, por “el sudor de la frente”, simplemente armar una base +de datos, incluso de modo no creativo, hace que la base de datos esté +sujeta a copyright. En Estados Unidos en particular, tiende a exigirse +un mínimo mayor de creatividad para que haya derecho de autor (Feist v. +Rural, un caso sobre una guía telefónica, es el caso clásico +estadounidense si quiere buscarlo). Pero en algunas jurisdicciones +también hay “derechos de base de datos” que restringen el uso de bases +de datos, como cosa distinta al copyright (aunque hay mucha +superposición en términos de lo que está cubierto, en particular donde +los umbrales de creatividad para la existencia de copyright son +prácticamente inexistentes). Los más conocidos de estos son los derechos +de base de datos *sui generis* de la Unión Europea. De nuevo, +especialmente si se encuentra en Europa, quizás quiera asegurarse de que +tiene autorización antes de publicar una base de datos de otra entidad. + +Obviamente tales restricciones no son la mejor manera de promover un +ecosistema de periodismo basado en datos (tampoco es algo bueno para la +sociedad en general; científicos sociales y otros le dijeron a la UE que +no lo serían antes de la aparición de los derechos *sui generis*, y +estudios realizados desde su aparición han demostrado que tenían razón). +Afortunadamente como editor de una base de datos usted puede eliminar +tales restricciones para el uso de la base de datos (suponiendo que no +contiene elementos sobre los que usted no tiene autorización para +otorgar permiso), esencialmente otorgando permiso por adelantado. Puede +hacer esto publicando su base de datos bajo una licencia pública o una +dedicatoria al dominio público, del mismo modo que muchos programadores +difunden sus códigos bajo una licencia libre y de libre acceso, de modo +que otros puedan utilizar su código (dado que el periodismo basado en +datos a menudo involucra código, no solo datos, por supuesto que usted +debe autorizar el uso de su código también, de modo que su colección de +datos y su análisis sean reproducibles). Hay muchos motivos para dar +libre acceso a sus datos. Por ejemplo, su público podría crear nuevas +visualizaciones o aplicaciones con los mismos y con las que usted puede +crear un vínculo, como hace The Guardian con su grupo en Flickr de +visualización de datos. Sus conjuntos de datos pueden combinarse con +otros conjuntos de datos para que usted y sus lectores tengan una mejor +visión de un tema. Las cosas que hacen otros con sus datos pueden darle +pistas para nuevas historias, o ideas para historias, o ideas para otros +proyectos basados en datos. Y sin duda le dará prestigio. + +![Distintivos de datos abiertos (Open Knowledge Foundation)](figs/incoming/04-GG.jpg){FIG0415} + +Cuando uno advierte que difundir trabajos bajo licencias públicas es una +necesidad, la cuestión pasa a ser: ¿cuál licencia? Esa pregunta +complicada frecuentemente será respondida por el proyecto o la comunidad +en cuyo trabajo usted basa el suyo, o al que espera poder contribuir con +su trabajo: use la licencia que ellos usan. Si necesita investigar más a +fondo, empiece por el conjunto de licencias que son libres y abiertas, +es decir, que autorizan a cualquiera a darle cualquier uso (puede +requerirse tanto libertad de atribución como de compartir). La +[Definición de Conocimiento Abierto](http://opendefinition.org/) , en +español , significa +para todo otro conocimiento, incluyendo las bases de datos, lo mismo que +la Definición de Software Libre y la Definición de Código Libre +significan para el software: define lo que hace que una obra sea de +libre acceso y lo que las licencias de libre acceso permiten hacer a los +usuarios. + +Puede visitar el sitio de Open Knowledge Definition para ver el +[actual conjunto de licencias](http://opendefinition.org/licenses/), algunas +definiciones en español en +[Creative Commons](http://es.wikipedia.org/wiki/Licencias_Creative_Commons)). +En síntesis, básicamente hay 3 clases de licencias abiertas: + + Dominio Público + +: Estas también sirven como licencias de máxima permisividad; no hay + condiciones impuestas al uso de la obra. + + Licencias permisivas o sólo de atribución + +: Reconocer la autoría es la única condición sustancial de + estas licencias. + + Licencias copyleft, recíprocas o de compartir por igual + +: Estas también requieren que si se publican obras modificadas, sean + compartidas bajo la misma licencia. + +Si usted está usando un conjunto de datos publicados por otro bajo una +licencia abierta, considere el párrafo anterior como una breve guía +respecto de cómo debe cumplir las condiciones de esa licencia abierta. +Las licencias más comunes de Creative Commons, Open data Commons y +varios gobiernos por lo general van acompañadas de una síntesis que le +permitirá ver fácilmente cuáles son las condiciones sustanciales +requeridas. Comúnmente la licencia se presentará en una página de la red +de la que puede descargarse un conjunto de datos (o de donde pueden ser +"scrapeados", ya que, por supuestos, las páginas de la red pueden +contener conjuntos de datos) o en un lugar conspicuo dentro del conjunto +de datos mismos, según el formato. Esto es lo que usted debiera hacer +también cuando autoriza el acceso a sus conjuntos de datos. + +Volviendo al comienzo, ¿qué pasa si el conjunto de datos que necesita no +está disponibles online aún o hay algún tipo de control sobre los +mismos? Considere la posibilidad de pedir acceso no solo para usted, +sino que los datos se abran al uso de todo el mundo. Usted puede dar +algunas indicaciones de algunas de las grandes cosas que podrían suceder +con esos datos si así se hiciera. + +El tema de compartir datos con todo el mundo podría llevar a la cuestión +de que algunos conjuntos de datos pueden afectar derechos de privacidad +y otras consideraciones y regulaciones. Por cierto, el hecho de que el +carácter abierto de la información elimina muchas barreras técnicas y de +copyright,, o del tipo del copyright no significa que no haya que +cumplir otras leyes. Pero, en el caso de que su sentido común le indique +que existe la necesidad de investigar esa cuestión, tenga en cuenta que +esto siempre fue así y que hay tremendos recursos y en algunos casos +medidas de protección para periodistas. + +¡Buena suerte! Pero probablemente necesite la suerte mucho más para +otros aspectos de su proyecto que para enfrentar los (escasos) riesgos +legales. + +— *Mike Linksvayer, Creative Commons* + + +# Entender los datos + +![](figs/incoming/05-00-cover.png) + +Una vez que tiene sus datos, ¿qué hace con ellos? ¿Qué debe buscar? ¿Qué +herramientas debe usar? Esta sección comienza con algunas ideas acerca +de cómo mejorar su conocimiento del manejo de datos, consejos para +trabajar con cifras y estadísticas, y cosas a tener en cuenta cuando +trabaja con conjuntos de datos desordenados, imperfectos y a menudo poco +documentados. Podemos luego aprender a obtener historias de los datos, +cuáles son las herramientas preferidas de los periodistas de datos, y +cómo usar la visualización de datos para que ayude a entender el tópico +en cuestión. + +### Qué contiene este capítulo? + +- [Aprenda a manejar datos con 3 pasos + simples](entender_los_datos_0.html) +- [Consejos para trabajar con cifras en las + noticias](entender_los_datos_1.html) +- [Pasos básicos para trabajar con datos](entender_los_datos_2.html) +- [La pieza de pan de £ 32](entender_los_datos_3.html) +- [Empiece por los datos, termine con una + historia](entender_los_datos_4.html) +- [Historias basadas en datos](entender_los_datos_5.html) +- [Los periodistas de datos debaten sobre sus herramientas + preferidas](entender_los_datos_6.html) +- [Usar visualizaciones para descubrir cosas en los + datos](entender_los_datos_7.html) + + +## Aprenda a manejar datos con 3 pasos simples + +Así como la alfabetización refiere a “la capacidad de leer para conocer, +escribir de modo coherente y pensar críticamente acerca de material +impreso”, la alfabetización en materia de datos es la capacidad de +manejar datos para conocer, producir coherentemente y pensar +críticamente acerca de datos. La alfabetización en materia de datos +incluye la alfabetización estadística, pero también comprende cómo +trabajar con grandes conjuntos de datos, cómo fueron producidos, como +relacionar varios conjuntos de datos y como interpretarlos. + +![[Cavar en los datos](http://www.flickr.com/photos/jdhancock/3386035827/) (photo by JDHancock)](figs/incoming/05-MM.jpg) + +Poynter News University ofrece clases de [matemática para +periodistas](http://www.newsu.org/courses/math-journalists) que ayudan a +dominar conceptos tales como cambios porcentuales y promedios. Es +interesante que estos conceptos se enseñen simultáneamente cerca de las +oficinas de Poynter, en escuelas de Florida a estudiantes de quinto +grado (10-11 años), como lo atestigua [la currícula](http://bit.ly/k12-courses). + +Que los periodistas necesiten ayuda con temas matemáticos normalmente +vistos antes de la escuela secundaria muestra lo lejos que están las +redacciones de saber manejar datos. Esto es un problema. ¿Cómo puede una +periodista hacer uso de una cantidad de cifras sobre cambio climático si +no sabe lo que significa un intervalo de confianza? ¿Cómo puede un +periodista de datos escribir una historia sobre distribución del ingreso +si no sabe la [diferencia entre media y mediana](http://bit.ly/karenberger-mean-median)? + +Una periodista por cierto no necesita tener un título en estadística +para ser más eficiente en el manejo de los datos. Enfrentada a las +cifras, unos pocos trucos simples pueden ayudarla a armar una historia +mucho mejor. Como dice el profesor del Instituto Max Planck, Gerd +Gigerenzer, tener mejores herramientas no permitirá hacer mejor +periodismo si éstas no son utilizadas con visión. Aunque no tenga ningún +conocimiento de matemática o estadísticas, puede convertirse fácilmente +en una periodista de datos experimentada haciendo 3 preguntas muy +simples. + +#### 1. ¿Cómo se obtuvieron los datos? + +#### Sorprendente crecimiento del PBI + +La manera más fácil de darse aires con datos espectaculares es +fabricarlos. Suena obvio, pero datos tan comúnmente comentados como las +cifras del PBI bien pueden ser falsos. El ex embajador británico Craig +Murray informa en su libro, Asesinato en Samarcanda, que las tasas de +crecimiento en Uzbekistán están sujetas a intensas negociaciones entre +el gobierno local y entes internacionales. Dicho de otro modo, no tienen +nada que ver con la economía local. + +El PBI es usado como el principal indicador porque los gobiernos tienen +que controlar su principal fuente de ingresos: el IVA. Cuando un +gobierno no se financia con el IVA, o cuando no informa públicamente de +su presupuesto, no tiene motivos para recoger datos sobre el PBI y le +vendrá mejor inventarlos. + +#### El crimen siempre está en aumento + +“El crimen en España creció un 3%”, +[escribe El País](http://bit.ly/elpais-numeracy). +Bruselas es presa de un aumento del crimen de extranjeros ilegales y drogadictos, +[escribe RTL](http://bit.ly/rtl-numeracy). Este tipo de de informes basados en +estadísticas recogidas por la policía es común, pero no nos dice gran +cosa sobre la violencia. + +Podemos confiar en que dentro de la Unión Europea los datos no son +falsificados. Pero el personal policial responde a incentivos. Cuando el +desempeño está ligado a la tasa de esclarecimiento, por ejemplo, los +policías tienen un incentivo para informar lo más posible de incidentes +que no requieren investigación. Uno de tales crímenes es el de fumar +marihuana. Esto explica por qué los crímenes relacionados con las drogas +en Francia se multiplicaron por 4 en los últimos 15 años, mientras que +el consumo se mantuvo constante. + +#### Qué se puede hacer + +Cuando dude de la credibilidad de una cifra, verifíquela, tal como lo +haría si se tratara de una declaración de un político. En el caso +uzbeco, una llamada a alguien que haya vivido allí un tiempo basta (“¿Es +cierto que el país es 3 veces más rico que en 1995, como muestran las +cifras oficiales?”). + +Para los datos policiales, los sociólogos a menudo realizan estudios de +victmización, en los que preguntan a la gente si es víctima de crímenes. +Estos estudios son mucho menos volátiles que los datos policiales. +Quizás ese sea el motivo por el que no se los destaca en los medios. + +Otros tests permiten evaluar la credibilidad de los datos, tales como la +ley de Benford, pero ninguno de ellos suplanta su pensamiento crítico. + +#### 2. ¿Qué se puede aprender de ello? + +#### El riesgo de esclerosis múltiple aumenta al doble cuando se trabaja de noche + +Sin duda cualquier alemana que no esté loca dejaría de trabajar de noche +luego de [leer este titular](http://bit.ly/dmsg-numeracy). Pero el +artículo no nos dice cuál es el riesgo realmente. + +Tome 1000 alemanes. Solo uno tendrá EM. Si todos estos 1000 alemanes +trabajaran de noche, el número de pacientes de EM se iría a 2. El riesgo +adicional de tener EM trabajando de noche es 1 en 1000, no 100%. Sin +duda esta información es más útil al ponderar si aceptar un empleo. + +#### En promedio, 1 de cada 15 europeos es totalmente analfabeto + +Este titular asusta. Además es cierto. Entre los 500 millones de +europeos, 36 millones probablemente no saben leer. Agreguemos que 36 +millones también tienen menos de 7 años; +[datos de Eurostat](http://bit.ly/eurostat-numeracy). + +Cuando escriba sobre un promedio, siempre piense: ¿Un promedio de qué? +¿La población de referencia es homogénea? Los patrones de distribución +desigual explican por qué la mayoría de la gente maneja mejor que el +promedio, por ejemplo. Mucha gente tiene cero o solo un accidente en +toda su vida. Unos pocos conductores irresponsables tienen muchos, lo +que hace que el número promedio de accidentes sea mucho más elevado de +lo que es la experiencia de la mayoría de la gente. Lo mismo vale para +la distribución del ingreso: la mayoría de la gente gana menos que el +promedio. + +#### Qué puede hacer + +Siempre tome en cuenta la distribución y la tasa base. Verificar el +media y la mediana así como la moda (el valor más frecuente en la +distribución) le ayuda a interpretar los datos. Conocer el orden de +magnitud hace más fácil contextualizar, como en el ejemplo de EM. +Finalmente, informar en base a frecuencias naturales (1 de cada 100) es +mucho más fácil de entender para los lectores que usar porcentuales (1%). + +#### 3. ¿En qué medida es confiable la información? + +##### El problema del tamaño de la muestra + +“80% insatisfecho con el sistema judicial”, dice una encuesta de la que +se informa en [el Diario de Navarra](http://bit.ly/diariodenavarra) con +sede en Zaragoza. ¿Cómo se puede extrapolar de 800 encuestados a +46.000.000 de españoles? Sin duda esto es poco serio. + +Cuando se investiga una gran población (más de unos pocos miles) rara +vez se necesita más que un millar de encuestados para lograr un margen +de error de menos del 3%. Significa que si fuera a rehacer la encuesta +con una muestra totalmente distinta, 19 veces de 20 las respuestas que +recibiría estarían dentro del intervalo de 3 puntos porcentuales del +valor encontrado, comparado con lo que hubiera sucedido si entrevistaba +a todas las personas. + +##### Tomar té reduce el riesgo de infarto + +Los artículos acerca de los beneficios de tomar té son comunes. +[Este artículo](http://bit.ly/welt-tea) breve en Die Welt que dice que el té +reduce el riesgo de infarto del miocardio no es la excepción. Si bien +los efectos del té son estudiados seriamente por algunos, muchas piezas +de investigación no toman en cuenta factores de estilo de vida, tales +como dieta, ocupación, o deportes. + +En la mayoría de los países, el té es la bebida de las clases altas +preocupadas por la salud. Si los investigadores no toman en cuenta los +factores de estilo de vida en sus estudios sobre el té, no nos dicen más +que “los ricos son más sanos y probablemente toman té”. + +##### Lo que puede hacer + +La matemática que es la base de las correlaciones y los márgenes de +error en los estudios sobre el té es por cierto correcta, al menos la +mayoría de las veces. Pero si los investigadores no buscan correlaciones +(por ejemplo, tomar té se correlaciona con hacer deporte), sus +resultados son de escaso valor. Como periodista, tiene poco sentido +cuestionar los resultados numéricos de un estudio, tales como el tamaño +de la muestra, a menos que haya serias dudas al respecto. Sin embargo, +es fácil de ver si los investigadores no tomaron en cuenta elementos +relevantes de información. + +— *Nicolas Kayser-Bril, Journalism++* + + +## Consejos para trabajar con cifras en las noticias + +- El mejor consejo para manejar datos es que lo disfrute. Los datos + pueden parecer algo intimidantes. Pero si se deja intimidar no + llegará a nada. Trátelos como algo para jugar y explorar y a menudo + entregarán secretos e historias con sorprendente facilidad. De modo + que manéjelos de manera simple, como lo hace con otras evidencias, + sin temor ni parcialidad. En particular, piense en esto como un + ejercicio de su imaginación. Sea creativo pensando en las historias + alternativas que podrían ser coherentes con los datos y los explican + mejor, luego póngalas a prueba con más evidencias. “¿Qué otra + historia podría explicar esto?”, puede ser una buena pregunta para + pensar cómo esta cifra evidentemente grande o equivocada, esta clara + prueba de esto o aquello, podría no ser nada por el estilo. + +- No confunda el escepticismo respecto de los datos con cinismo. El + escepticismo es bueno; el cinismo simplemente es darse por vencido. + Si cree en el periodismo de datos (y probablemente es así o no + estaría leyendo este libro), entonces debe creer que los datos + tienen algo mucho mejor que ofrecer que las mentiras de caricatura o + los datos de titulares impactantes. Los datos a menudo nos dan + conocimiento profundo, si se los usa cuidadosamente. No necesitamos + ser cínicos ni ingenuos, sino estar alertas. + +- Si le digo que se bebe más durante la recesión, podría decirme que + se debe a que todos están deprimidos. Si le digo que se bebe menos, + podría decirme que es porque nadie tiene plata. Dicho de otro modo, + lo que digan los datos no incide en la interpretación que usted esté + decidido a hacer, a saber, que las cosas están muy mal no importa lo + que suceda con la bebida. Si aumenta, es malo; si se reduce, es + malo. La cuestión aquí es que si usted cree en los datos, trate de + dejar que hablen antes de imponerles su propio estado de ánimo, + creencias o expectativas. Hay tantos datos que a menudo podría + encontrar confirmación de sus creencias previas si busca un poco. + Dicho de otro modo, el periodismo de datos, al menos para mí, agrega + poco valor si usted no tiene la mente abierta. Es solo objetivo en + la medida que usted lo hace objetivo y no en virtud de que se basa + en números. + +- La incertidumbre no es problema. Asociamos las cifras con la + autoridad y la certidumbre. Muy a menudo la respuesta es que no hay + respuesta, o la respuesta es la mejor que tenemos pero no es para + nada precisa. Creo que debemos decir estas cosas. Si eso suena como + una buena manera de matar una historia, sostendría que es una gran + manera de generar nuevos interrogantes. Del mismo modo, a menudo + puede haber más de un modo legítimo de ordenar los datos. Los + números no tienen que ser ciertos o falsos. + +- La investigación es una historia. La historia de cómo intentó + descubrir algo, al avanzar de un elemento de evidencia a otro, puede + ser excelente periodismo y esto se aplica especialmente a la + evidencia de los datos, donde rara vez basta con una cifra. + Distintas fuentes dan nuevos ángulos de interpretación, nuevas ideas + y una comprensión enriquecida. Me pregunto si estamos demasiado + preocupados por ganar autoridad y darle la respuesta a la gente, + hasta el punto de que desaprovechamos un recurso, que es mostrar + nuestra investigación. +- Las mejores preguntas son las de siempre: ¿eso realmente es un + número grande? ¿De dónde salió? ¿Está seguro de que cuenta lo que + usted cree que cuenta? Estos por lo general son solo incentivos para + mirar lo que rodea a los datos, las cosas que quedaron de lado por + mirar un solo número, las complicaciones de la vida real, la amplia + gama de otras comparaciones posibles con relación al tiempo, el + grupo o la geografía; en síntesis, el contexto. + +— *Michael Blastland, freelance journalist* + + +## Pasos básicos para trabajar con datos + +Hay al menos 3 conceptos clave que tiene que entender cuando comience un +proyecto de datos: + +- Los pedidos de datos deben comenzar con una lista de preguntas que + quiere contestar +- Los datos a menudo vienen sucios y hay que limpiarlos +- Los datos pueden tener aspectos sin documentar + +![Figure 2. Datos desordenados](figs/incoming/05-MM.png) + +#### Sepa para qué preguntas quiere respuestas + +En muchos sentidos, trabajar con datos es como entrevistar una fuente en +vivo. Usted le hace preguntas a los datos y logra que revelen las +respuestas. Pero así como una fuente solo puede dar respuestas respecto +de las cuales tiene información, un conjunto de datos solo puede +responder preguntas para las que tiene los registros adecuados y las +variables correspondientes. Esto significa que usted debe considerar +cuidadosamente qué preguntas quiere responder antes de obtener datos. +Básicamente se trabaja hacia atrás. Primero, la lista de afirmaciones +basadas en datos que quieres presentar en su historia. Luego decida qué +variables y evidencias tendrá que obtener y analizar para hacer esas +afirmaciones. + +Considere un ejemplo que tiene que ver con los informes de crímenes +locales. Digamos que quiere escribir una historia que analice los +patrones del crimen en su ciudad, y las cosas que quiere decir tienen +que ver con la hora del día y los días de la semana en los que es más +común que se den ciertos tipos de crímenes, así como en qué zonas de la +ciudad se concentran varias categorías de crímenes. + +Tendría que advertir que su pedido de datos tiene que incluir la fecha y +el momento en que cada crimen fue informado, el tipo de crimen +(asesinato, robo, asalto, etc.), así como la dirección de donde se dio +el crimen. De modo que fecha, hora, categoría de crimen y dirección son +las variables mínimas que necesita para responder a esas preguntas. + +Pero sea consciente de que hay una cantidad de preguntas potencialmente +interesantes que este conjunto de datos de 4 variables no puede +responder, como la raza y el género de las víctimas, o el valor total de +la propiedad robada, o qué agentes son más productivos en cuanto a +lograr arrestos. Además quizás solo pueda conseguir los registros de +cierto período, como los últimos 3 años, lo que quiere decir que no +podría saber si los patrones del crimen han cambiado respecto de un +período más prolongado. Esas preguntas pueden quedar por fuera del plan +de su historia, y eso no es problema. Pero usted no querrá meterse en su +análisis de los datos y de pronto advertir que necesita saber qué +porcentaje de los crímenes en distintas zonas de la ciudad son resueltos +con arrestos. + +Una lección aquí es que a menudo es buena idea pedir todas las variables +y registros en la base de datos, en vez del subconjunto que respondería +a las preguntas para la historia inmediata. (de hecho, obtener todos los +datos puede ser más barato que obtener un subconjunto, si tiene que +pagar a la agencia por la programación necesaria para producir el +subconjunto.) Siempre puede armar el subconjunto de datos por su cuenta +y tener acceso al conjunto de datos completo le permitirá responder +nuevas preguntas que pueden surgir durante su trabajo e incluso producir +nuevas ideas para la continuación de la historia. Puede ser que las +leyes de confidencialidad u otras políticas signifiquen que algunas +variables, tales como las identidades de las víctimas o los nombres de +informantes confidenciales, no puedan difundirse. Pero incluso una base +de datos parcial es mejor que nada, siempre que usted entienda qué +preguntas puede o no contestar la base de datos. + +#### Limpiar datos no normalizados + +Uno de los mayores problemas en el trabajo con bases de datos es que a +menudo usará datos para análisis que han sido recogidos por motivos +burocráticos. El problema es que el nivel exigido de precisión es +bastante diferente. + +Por ejemplo, una función clave de un sistema de bases de datos para la +justicia penal es asegurarse que el acusado Jones sea traído de la +cárcel al juzgado para estar frente la juez Smith en el momento de su +audiencia. Para ese propósito no importa mucho si la fecha de nacimiento +de Jones es incorrecta, o que esté mal escrito el nombre de la calle en +la que vive o siquiera si la inicial de su segundo nombre sea +equivocada. En general el sistema aún puede usar este registro +imperfecto para llevar a Jones al juzgado de Smith a la hora indicada. + +Pero tales errores pueden complicar los esfuerzos del periodista por +descubrir patrones en la base de datos. Por ese motivo, la primera gran +tarea que debe encarar cuando obtiene un nuevo conjunto de datos es +examinar hasta donde tiene problemas y solucionarlos. Una manera rápida +de buscar datos no normalizados es crear tablas de frecuencias de las +variables por categoría, las que uno esperaría que tengan un número +relativamente pequeño de valores diferentes. (Cuando use Excel, por +ejemplo, usted puede usar Filtros o Tablas Dinámicas para cada variable +categórica.) + +Tomemos por caso “género”, un ejemplo simple. Usted puede descubrir que +el campo de Género incluye cualquier mezcla de valores como estos: +Masculino, Femenino, M, F, 1, 0, MASCULINO, FEMENINO, etc., incluyendo +errores de escritura como “Femeno”. Para hacer un análisis de género +adecuado debe estandarizar – quizás se decida por M y F- y luego cambiar +todas las variaciones para que coincidan con los estándares. Otra base +de datos común con este tipo de problemas es la de los registros +financieros de campañas electorales de Estados Unidos, donde en el campo +de Ocupación puede dar las distintas variantes de abogado en inglés +(Lawyer, Attorney, Atty, Counsel, Trial lawyer y muchas otras) además de +los errores de escritura; nuevamente el truco es estandarizar los +títulos de ocupación en una lista de posibilidades más corta. + +La limpieza de los datos se vuelve aún más problemática cuando se +trabaja con nombres. ¿“Joseph T. Smith”, “Joseph Smith”, “J.T. Smith”, +“Jos. Smith” y “Joe Smith” son todos la misma persona? Quizás haya que +mirar otras variables como dirección o fecha de nacimiento, o hacer una +investigación aún más profunda en otros registros, para decidir. Pero +herramientas como Google Refine pueden hacer que la limpieza y +estandarización sean más rápidas y menos tediosas. + +Datos sucios + +Gracias a las leyes de registro público por lo general fuertes en +Estados Unidos, obtener datos aquí no es un problema tan grande como en +muchos otros países. Pero una vez que los tenemos, aún quedan los +problemas de trabajar con datos que han sido recogidos por motivos +burocráticos y no con propósitos analíticos. Los datos a menudo vienen +“sucios”, con valores que no están estandarizados. Varias veces he +recibido datos que no se corresponden con el supuesto diagrama del +archivo y el diccionario de datos que los acompañan. Algunas entidades +insistirán en darle los datos en formatos poco útiles como .PDF, que +tienen que ser convertidos. Problemas como estos hacen que uno lo +aprecie cuando ocasionalmente recibe un conjunto de datos sin +complicaciones. + +— *Steve Doig, Walter Cronkite School of Journalism, Arizona State +University* + +#### Los datos pueden tener aspectos no documentados + +La Piedra de Roseta de cualquier base de datos es el llamado diccionario +de datos. Comúnmente, este archivo (puede ser texto PDF o incluso una +hoja de cálculo) le dirá cómo está formateado el archivo de los datos +(texto delimitado, texto de ancho fijo, Excel, dBase, etc.), el orden de +las variables, los nombres de cada variable y el tipo de datos de cada +variable (hilo de texto, entero, decimal, etc.). Usted usará esta +información para que lo ayude a importar adecuadamente el archivo de +datos al software de análisis que piensa usar (Excel, Access, SPSS, +Fusion Tables, distintas variantes de SQL, etc.) + +El otro elemento clave de un diccionario de datos es una explicación de +los códigos que puedan usar variables particulares. Por ejemplo, género +puede estar codificado de tal modo que “1=Masculino” y “0=Femenino”. Los +crímenes pueden estar codificados de acuerdo a los números estatutarios +de su jurisdicción para cada tipo de crimen. Los registros de +tratamientos hospitalarios pueden usar cualquiera de los cientos de +códigos de 5 dígitos existentes para el diagnóstico de las enfermedades +por las que está tratando a un paciente. Sin el diccionario de datos, +estos conjuntos de datos serían difíciles o incluso imposibles de +analizar adecuadamente. + +Pero incluso contando con un diccionario de datos puede haber problemas. +Un ejemplo de tales problemas es lo que le sucedió a periodistas del +Miami Herald en Florida hace algunos años, cuando estaban haciendo el +análisis de los variados castigos que distintos jueces estaban +imponiendo a gente arrestada por manejar ebria e intoxicada. Los +periodistas obtuvieron los registros de condenas del sistema judicial y +analizaron las cifras con las 3 variables distintas de castigos en el +diccionario de datos: cantidad de tiempo en prisión, cantidad de tiempo +detenido y cantidad de multa. Las cifras variaban bastante entre los +jueces, dando a los periodistas evidencias para una historia acerca de +que algunos jueces eran duros y otros más permisivos. + +Pero para todos los jueces, en alrededor del 1-2 por ciento de los casos +no había tiempo de prisión, ni de detención, ni multa. Por lo que el +cuadro que mostraba los patrones de condenas de cada juez incluía una +cantidad pequeña de casos como “Sin castigo”, casi como una nota al +margen. Cuando la historia y el cuadro se publicaron, los jueces +aullaron de indignación, diciendo que el Herald los acusaba de violar +una ley estatal que exige que cualquiera condenado por manejar borracho +sufra castigo. + +Por lo que los periodistas volvieron a la oficina del empleado de la +corte que les había dado el archivo de datos y le preguntaron qué era lo +que había causado el error. Se les dijo que los casos en cuestión +involucraban a acusados indigentes que eran arrestados por primera vez. +Normalmente se les hubiera impuesto una multa pero no tenían dinero. Por +lo que los jueces los condenaban a servicios comunitarios, tales como +limpiar la basura en los caminos. Resultó que la ley que requería el +castigo había sido aprobada después de que fuera creada la estructura de +la base de datos. Por lo que los empleados de la corte sabían que en los +datos los ceros en las 3 variables de prisión-detención-multa +significaban servicio comunitario. Sin embargo, esto no aparecía en el +diccionario de datos y por tanto el Herald tuvo que publicar la +correspondiente rectificación. + +La lección en este caso es que siempre hay que preguntar al ente que le +da los datos si hay elementos no documentados de los mismos, lo que +podría significar códigos nuevos que no están incluidos en el +diccionario de datos, cambios en el ordenamiento del archivo, o +cualquier otra cosa. Además examine siempre los resultados de su +análisis y pregúntese: “¿Esto tiene sentido?” Los periodistas del Herald +estaban armando el cuadro apurados por el plazo de entrega y estaban tan +concentrados en los niveles de castigo promedio de cada juez, que no +prestaron atención a los pocos casos que parecían no tener castigo. +Debieron haberse preguntado si tenía sentido que todos los jueces +aparentemente estuvieran violando la ley estatal, aunque más no fuera en +mínima medida. + +— *Steve Doig, Walter Cronkite School of Journalism, Arizona State +University* + +> Datos mezclados, ocultos y faltantes + +> Recuerdo una situación graciosa en la que tratamos de acceder a los +datos de Hungría sobre subsidios agropecuarios de la UE: estaban todos +allí, pero en un documento PDF excesivamente pesado y mezclado con datos +sobre subsidios agropecuarios nacionales. Nuestros programadores +tuvieron que trabajar horas antes de que los datos pudieran ser +utilizados. + +> También tuvimos una experiencia bastante interesante con datos sobre +subsidios de pesca de la UE, que los entes nacionales encargados de los +pagos de los 27 estados miembros están obligados a dar a conocer. Esto +está tomado de un informe que escribimos [sobre el +tema](http://bit.ly/alfter-eu27): “En el Reino Unido, por ejemplo, el +formato de los datos varía de páginas de búsqueda HTML muy fáciles de +usar hasta resúmenes en PDF o incluso listas de receptores en formatos +variados disimulados al final de declaraciones de prensa. Todo esto de +un solo estado miembro. Mientras tanto, en Alemania y Bulgaria se +publican listas vacías. Tienen los encabezados apropiados, pero sin +datos”. + +> — *Brigitte Alfter, Journalismfund.eu* + + +## La pieza de pan de £ 32 + +Una historia para el Wales On Sunday acerca de cuánto gasta el gobierno +galés en órdenes para productos libre de gluten contenía un titular que +indicaba que pagaba £32 por una pieza de pan. Pero en realidad eran 11 +piezas que costaban £2,82 cada una. + +Los datos, tomados de una respuesta por escrito de la Legislatura Galesa +y un informe estadístico del Servicio de Salud de Gales, estaban +presentados con el formato del costo por cada ítem de las órdenes. Sin +embargo en el diccionario de datos no daban ninguna definición adicional +de lo que podría ser un ítem de orden o cómo podría definirlo una +columna de cantidades por separado. + +La suposición era que se refería a un ítem individual –es decir, una +pieza de pan- en vez de lo que era en realidad, varias piezas. + +Nadie, ni la gente que dio la respuesta por escrito ni la oficina de +prensa, plantearon la cuestión de la cantidad hasta el lunes posterior a +la publicación de la historia. + +Por lo que no debe dar por supuesto que las notas de soporte de los +datos oficiales ayudarán a explicar qué información se presenta, o que +la gente responsable de los datos advertirá que la información no es +clara, incluso cuando usted les presente una suposición equivocada. + +Por lo general los diarios quieren cosas que produzcan buenos titulares, +de modo que, a menos que algo contradiga evidentemente una +interpretación, por lo general es más fácil aceptar lo que permite hacer +un buen titular y no investigar demasiado, con el riesgo de que se hunda +la historia, especialmente a la hora del cierre. + +![Las órdenes de pan libre de gluten le cuestan a los contribuyentes (WalesOnline)](figs/incoming/05-AA.png) + +Pero los periodistas tienen la responsabilidad de verificar las +afirmaciones ridículas, aunque signifique que esto hace caer la noticia. + +— *Claire Miller, WalesOnline* + + +## Empiece por los datos, termine con una historia + +Para atraer a sus lectores tiene que poder darles una cifra en los +titulares que los haga prestar atención. Casi se debiera poder leer la +historia sin tener que saber que se basa en un conjunto de datos. Hágala +interesante y recuerde quién es su público. + +Un ejemplo de esto puede encontrarse en un proyecto del Bureau of +Investigative Journalism que utiliza el [Sistema de Transparencia +Financiera](http://bit.ly/ec-fts) de la Comisión de la UE. La historia +se construyó con el conjunto de datos teniendo en mente interrogantes +específicos. + +Investigamos en los datos con términos clave tales como “coctel”, “golf” +y “días de descanso”. Esto nos permitió establecer lo que la Comisión +había gastado en estos ítems y esto planteó numerosas preguntas e +historias para seguir. + +Pero los términos clave no siempre le dan lo que quiere; a veces tiene +que tomarse un respiro y pensar qué es realmente lo que busca. Durante +este proyecto también queríamos descubrir cuánto gastan los comisionados +en viajes en jet privado pero como el conjunto de datos no contenía la +frase “jet privado” tuvimos que obtener el nombre de sus proveedores de +viajes por otros medios. Una vez que tuvimos el nombre del proveedor de +servicios de la Comisión, “Abelag”, pudimos buscar en los datos cuánto +se estaba gastando en servicios provistos por Abelag. + +Con este enfoque teníamos un objetivo claramente definido para +investigar con los datos: encontrar una cifra que pudiera proveer un +titular; el colorido de la noticia siguió a ello. + +Otro enfoque es comenzar con una lista negra y buscar exclusiones. ¿Una +manera fácil de encontrar historias en los datos es saber qué cosas no +debiera encontrar allí! Un buen ejemplo de cómo esto puede funcionar es +ilustrado por el proyecto en colaboración de Fondos Estructurales de la +UE, entre el Financial Times y el Bureau of Investigative Journalism. + +Investigamos los datos basándonos en las reglas de la Comisión respecto +de qué compañías y asociaciones no deben recibir fondos estructurales. +Un ejemplo era el gasto en tabaco y productores de tabaco. + +Investigando los datos con los nombres de las compañías, productores y +cultivadores de tabaco, encontramos datos que revelaron que British +American Tabaco estaba recibiendo € 1.500.000 para una planta en +Alemania. + +Dado que esa financiación violaba las normas de gastos de la Comisión, +fue una manera rápida de encontrar una historia en los datos. + +Nunca se sabe lo que uno puede encontrar en un conjunto de datos, así +que eche una mirada. Hay que ser bastante audaz y este enfoque funciona +mejor por lo general cuando se trata de identificar características +evidentes que se verán con el filtrado (los mayores, los extremos, los +más comunes, etc.). + +— *Caelainn Barr, Citywire* + + +## Historias basadas en datos + +El periodismo de datos a veces puede dar la impresión que principalmente +se trata de la presentación de los datos, tales como visualizaciones que +son instrumentos poderosos que permiten comprender rápidamente algún +aspecto de las cifras, o bases de datos interactivas que permiten a los +individuos buscar lugares como su propia calle o un hospital. Todo esto +puede ser muy valioso, pero al igual que otras formas de periodismo, el +periodismo de datos también debe ser sobre historias. ¿Qué tipos de +historias pueden encontrarse en los datos? Basándome en mi experiencia +en la BBC he armado una lista o “tipología” de distintos tipos de +historias basadas en datos. + +Creo que es útil tener en cuenta esta lista, no solo cuando analiza +datos, sino también en la fase previa, cuando los está buscando (sean +datos a disposición del público o los que exigen presentar pedidos de +acceso a la información). + + Medición + +: La historia simple; contar o hacer el total: “Los consejos + municipales de todo el país gastaron un total de \$x miles de + millones en broches de papel el año pasado”. Pero a menudo es + difícil saber si eso es mucho o poco. Para eso se necesita contexto, + lo que puede ser aportado por: + + Proporción + +: “El año pasado los consejos municipales gastaron 2/3 de su + presupuesto de librería en broches de papel” + + Comparación interna + +: “Los consejos municipales gastan más en broches para papel que en + proveer comidas para personas mayores”. + + Comparación externa + +: “El gasto de los consejos en broches de papel el año pasado fue el + doble del presupuesto de la nación de ayuda a otros países”. + +También hay otras maneras de explorar los datos de un modo contextual o +comparativo: + + Cambio a lo largo del tiempo + +: “El gasto de los consejos en broches para papel se ha triplicado en + los últimos 4 años”. + + “Tablas comparativas” + +: Estas a menudo son geográficas o por institución, y debe asegurarse + de que la base de comparación sea justa (por ejemplo, que tome en + cuenta el tamaño de la población local). “El Consejo de Borsetshire + gasta más en broches para papel por cada miembro del personal que + cualquier otra municipalidad, con una tasa de 4 veces el promedio + nacional”. + +O puede dividir los temas de los datos en grupos: + + Análisis por categorías + +: “Los consejos dirigidos por el Partido Violeta gastan 50% más en + broches de papel que los controlados por el Partido Amarillo”. + +O puede relacionar los factores numéricamente: + + Asociación + +: “Los consejos dirigidos por políticos que han recibido aportes de + campaña de compañías de productos de librería gastan más en broches + de papel, con el gasto aumentando en promedio £ 100 por cada libra + aportada en la campaña”. + +Pero, por supuesto, recuerde que correlación y causa no son la misma +cosa. + +De modo que si está investigando el gasto en broches de papel, ¿está +obteniendo también las siguientes cifras? + +- Gasto total para dar contexto +- Referencias geográficas/ históricas/de otro tipo para poder dar + datos comparativos +- Los datos adicionales que necesita para asegurarse de que las + comparaciones son justas, tales como el tamaño de la población. +- Otros datos que podrían facilitar un análisis interesante o con los + cuales comparar o relacionar el gasto. + +— *Martin Rosenbaum, BBC* + + + +## Los periodistas de datos debaten sobre sus herramientas preferidas + +Sssssss. Es el sonido de sus datos descomprimiéndose al abrirse su +envoltorio al vacío. ¿Y ahora qué? ¿Qué busca? ¿Y qué herramientas usa? +Pedimos a periodistas de datos que nos contaran un poco de cómo trabajan +con datos. Esto es lo que nos dijeron: + +En el Datablog de The Guardian nos gusta interactuar con nuestros +lectores y permitirles replicar nuestro periodismo de datos rápidamente +significa que pueden desarrollar el trabajo que hacemos y a veces ver +cosas que se nos pasaron. Por lo que cuanto más intuitivas son las +herramientas de datos mejor. Tratamos de elegir herramientas que +cualquiera pueda manejar sin tener que aprender un lenguaje de +programación o que requieran fuerte capacitación a un costo elevado. + +Por este motivo actualmente usamos mucho productos de Google. Todos los +conjuntos de datos que ordenamos y difundimos aparecen como Google +Fusion Tables, lo que significa que gente que tenga una cuenta de Google +puede descargar los datos, importarlos a su propia cuenta y hacer sus +propios cuadros, ordenar los datos y crear tablas comparativas, o pueden +importar los datos a la herramienta que prefieran. + +Para mapear los datos usamosa Google Fusion Tables. Cuando creamos mapas +de calor en Fusion, compartimos nuestros archivos KML de modo que los +lectores puedan descargar y crear sus propios mapas de calor –quizás +agregando más capas de datos al mapa original del Datablog. El otro +aspecto positivo de estas herramientas de Google es que funcionan con +las muchas plataformas que usan nuestros lectores para acceder al blog, +incluyendo PC, celulares y tabletas. + +Además de las de Google Spreadsheets y Google Fusion Tables, usamos +otras dos herramientas en nuestro trabajo cotidiano. La primera es +Tableau, para visualizar conjuntos de datos multidimensionales; y la +segunda es ManyEyes, para un análisis rápido de datos. Ninguna de estas +herramientas es perfecta, por lo que seguimos buscando mejores +herramientas de visualización que nuestros lectores puedan disfrutar. + +*The Guardian*\ +— Lisa Evans + +¿Llegaré a ser programador alguna vez? ¡Es muy improbable! Por cierto +que no creo que todos los periodistas tengan que saber programar. Pero +sí creo que es muy valioso que todos tengan una conciencia general de +qué cosas son posibles y cómo hablar con programadores. + +Si está recién comenzando, camine, no corra. Tiene que persuadir a sus +colegas y editores que trabajar con datos le puede permitir conseguir +historias que de otro modo no tendría y que valen la pena. Cuando +adviertan el valor de este enfoque, puede comenzar a hacer historias y +proyectos más complejos. + +Mi consejo es aprender Excel y hacer algunas historias simples primero. +Comience por cosas pequeñas y vaya recorriendo el camino hasta el +análisis y mapeo de bases de datos. Se puede hacer tanto en Excel; es +una herramienta extremadamente poderosa y la mayoría de la gente no usa +siquiera una mínima parte de su funcionalidad. Si puede haga un curso de +Excel para periodistas, tales como los que ofrece el Centre for +Investigative Journalism. + +Con respecto a interpretar datos: no lo tome a la ligera. Tiene que ser +detallista. Preste atención a los detalles y cuestione sus resultados. +Tome notas de cómo procesa los datos y guarde una copia de los datos +originales. Es fácil cometer un error. Siempre hago mi análisis 2 o 3 +veces prácticamente desde cero. Incluso mejor sería conseguir que su +editor u otra persona analice los datos por su cuenta y compare los +resultados. + +*Financial Times*\ +— Cynthia O'Murchu + +La capacidad de escribir, instalar y ejecutar software complejo tan +rápido como un periodista puede escribir una historia es algo bastante +nuevo. Antes llevaba mucho más tiempo. Las cosas cambiaron gracias al +desarrollo de bases de desarrollo rápido de código abierto: Django y +Ruby on Rails; ambos se conocieron a mediados de la década del 2000. + +Django, que está construido sobre el lenguaje de programación Python, +fue desarrollado por Adrian Holovaty y un equipo que trabajaba en una +redacción, el Lawrence Journal-World en Lawrence, Kansas. Ruby on Rails +fue desarrollado en Chicago por David Heinemeier Hansson y 37Signals, +una compañía de aplicaciones para la red. + +Si bien estas plataformas tienen enfoques diferentes del “patrón MVC”, +ambas son excelentes y hacen posible crear aplicaciones para la red +rápidamente, incluso muy complejas. Eliminan parte del trabajo +rudimentario en la creación de una aplicación. Cosas como crear y buscar +ítems de la base de datos, y hacer corresponder URL con códigos +específicos en una aplicación, están incorporados a esas plataformas, +por lo que los diseñadores no necesitan escribir programas o hacer cosas +básicas como esas. + +El desarrollo de servicios de provisión de espacio en servidores rápidos +de la red como los Amazon Web Services eliminaron parte de lo que hacía +del lanzamiento de una aplicación un proceso lento. + +Aparte de eso, usamos herramientas bastante estándar para el trabajo con +datos: Google Refine y Microsoft Excel para limpiar los datos; SPSS y R +para hacer estadísticas; ArcGIS y QGIS para hacer GIS; Git para el +manejo de códigos fuente; TextMate, Vim y Sublime Text para escribir +código; y una mezcla de MySql, PostgreSQL y SQL Server para bases de +datos. Creamos nuestra propia plataforma de JavaScript llamada “Glass” +que nos ayuda a crear aplicaciones para usuarios pesadas en JavaScript +muy rápidamente. + +*ProPublica*\ +— Scott Klein + +A veces la mejor herramienta es la más simple, es fácil subestimar el +poder de una planilla de cálculo. Pero usar una planilla de cálculo en +los tiempos en que todo funcionaba con DOS me permitió entender una +fórmula compleja del acuerdo de asociación de los dueños de los Texas +Rangers, cuando George W. Bush era uno de los propietarios claves. Una +planilla de cálculo me permite descubrir datos importantes o errores en +cálculos. Puedo escribir líneas de código en algún lenguaje de +programación (script) para limpieza, normalización y más. Es un elemento +básico del set de herramientas del periodista de datos. + +Dicho eso, mis herramientas favoritas son aún más poderosas: SPSS para +análisis estadístico y mapear programas que me permiten ver patrones +geográficos. + +*The Seattle Times*\ +— Cheryl Phillips + +Soy fanático de Python. Es un lenguaje de programación de código abierto +maravilloso que es fácil de leer y escribir (por ejemplo, no hay que +escribir un punto y coma después de cada línea). Lo que es más +importante, Python tiene una base tremenda de usuarios y por tanto tiene +plugins (llamados paquetes) para todo lo que uno necesite. + +Considero que Django es algo que los periodistas de datos rara vez +necesitan. Es una plataforma basada en Python para aplicaciones en la +red, es decir una herramienta para crear aplicaciones grandes en la red +con bases de datos. Decididamente es demasiado pesado para infografías +interactivas pequeñas. + +También uso QGis, que es una herramienta de código abierto con una gran +variedad de funciones GIS, que son necesarias para periodistas de datos +que de vez en cuanto tienen que manejar datos geográficos. Si necesita +convertir datos geo-espaciales de un formato a otro, entonces QGis es lo +que necesita. Puede manejar casi cualquier formato de geo-datos que +exista (Shapefiles, KML, GeoJSON, etc.). Si necesita recortar unas +cuantas regiones, QGis también puede hacerlo. Además hay una inmensa +comunidad en torno de QGis, por lo que hay toneladas de recursos [como +tutoriales](http://bit.ly/goettingen-tutorial) en la red. + +R fue creada principalmente como herramienta de visualización +científica. Es difícil encontrar un método de visualización o técnica de +manejo de datos que no esté incorporado a R. R es un universo en sí +mismo, la meca del análisis visual de datos. Una contra es que hay que +aprender otro lenguaje de programación, ya que R tiene su propio +lenguaje. Pero una vez que superó los primeros pasos en la curva de +aprendizaje, no hay herramienta más poderosa que R. Los periodistas de +datos capacitados pueden usar R para analizar conjuntos de datos +inmensos que extienden los limites de Excel (por ejemplo, si tiene una +tabla con un millón de filas). + +Lo realmente lindo de R es que se puede tener un “protocolo” exacto de +lo que está haciendo con los datos durante todo el proceso, desde la +lectura de un archivo CSV a generar cuadros. Si los datos cambian puede +regenerar el cuadro usando un clic. Si alguien tiene curiosidad respecto +de la integridad de su cuadro, puede mostrarle la fuente exacta, lo que +permite a cualquiera recrear el mismo cuadro por su cuenta (o quizás +encontrar los errores que usted cometió). + +NumPy + MatPlotLIb es una manera de hacer lo mismo en Python. Es una +opción si ya está capacitado en Python. De hecho, NumPy y MatPlotLIb son +dos ejemplos de paquetes de Python. Pueden ser usados para análisis y +visualización de datos y los dos se limitan a visualizaciones estáticas. +No pueden usarse para crear cuadros interactivos con consejos sobre el +manejo de herramientas y cosas más avanzadas. + +Yo no uso MapBox, pero supe que es una gran herramienta si se quiere +presentar mapas más sofisticados basados en OpenStreetMap. Permite por +ejemplo adecuar los estilos del mapa (colores, etiquetas, etc.). También +hay un acompañante de MapBox, llamado Leaflet. Es básicamente una +biblioteca de JavaScript de más alto nivel para mapear que le permite +pasar de un proveedor de mapas a otro fácilmente (OSM, MapBox, Google +Maps, Bing, etc.). + +RaphaelJS es una biblioteca de visualización más bien de bajo nivel que +le permite trabajar con elementos primitivos (como círculos, líneas, +texto) y animarlos, agregar interacciones, etc. No contiene nada +parecido a un cuadro de barras listo para usar, por lo que usted mismo +tiene que dibujar un conjunto de rectángulos. + +Sin embargo, lo bueno de Raphael es que todo lo que crea funciona +también en Internet Explorer. Eso no sucede con muchas otras bibliotecas +de visualización (asombrosas) como D3. Lamentablemente, tantos usuarios +siguen usando IE y ninguna redacción puede darse le lujo de ignorar al +30% de sus usuarios. + +Además de RaphaelJS, también está la opción de crear una alternativa en +Flash para IE. Es básicamente lo que está haciendo el New York Times. +Eso significa que tiene que desarrollar cada aplicación dos veces. + +Aún no estoy convencido de cuál es el “mejor” proceso para crear +visualizaciones para IE y navegadores modernos. A menudo resulta que las +aplicaciones creadas con RapahelJS funcionan muy lentas en IE, alrededor +de 10 veces más lentas que con Flash usando navegadores modernos. Por lo +que las alternativas en Flash pueden ser mejor opción si quiere ofrecer +visualizaciones animadas de alta calidad para todos los usuarios. + +*Open Knowledge Foundation*\ +— Gregor Aisch + +Mi herramienta preferida es Excel, que puede manejar la mayoría de los +problemas CAR (periodismo asistido por computadoras) y tiene las +ventajas de ser fácil de aprender y estar disponible para la mayoría de +los periodistas. Cuando necesito fusionar tablas, comúnmente uso Access, +pero luego exporto la tabla fusionada de nuevo a Excel para más trabajo. +Uso el ArcMap de ESRI para análisis geográficos; es poderoso y es +utilizado por las agencias que recopilan datos geo-codificados. +TextWrangler es muy bueno para examinar datos de texto con diseños y +delimitadores complicados, y puede hacer búsqueda y reemplazo +sofisticada con expresiones regulares. Cuando se necesita técnicas +estadística, como regresión lineal, uso SPSS; tiene un menú para señalar +y cliquear fácil de usar. Para trabajos realmente pesados, como las +tareas con conjuntos de datos que tienen millones de registros que +necesitan un importante filtrado y transformaciones de variables +programadas, uso software SAS. + +*Walter Cronkite School of Journalism*\ +— Steve Doig + +Entre nuestras herramientas preferidas se incluyen Python y Django para +hackear, scrapear y jugar con datos; y PostGIS, QGIS y las herramientas +de MapBow para crear mapas locos en la red. R y MumPy + MatPlotLib +actualmente disputan la supremacía como nuestro equipo de trabajo para +análisis de datos exploratorio, aunque últimamente nuestra herramienta +de datos preferida es de nuestra propia cosecha: CSVKit. Hacemos casi +todo en la nube. + +*Chicago Tribune*\ +— Brian Boyer + +En La Nación usamos: + +- Excel para limpiar, organizar y analizar datos, +- Google Spreadsheets para edición y conexión con servicios tales como + Google Fusion Tables y la Junar Open Data Platform, +- Junar para compartir nuestros datos e incrustarlos en nuestros + artículos y actualizaciones del blog, +- Tableau Public para nuestras visualizaciones de datos interactivas, +- Qlikview, una herramienta de inteligencia para empresas muy rápida + para analizar y filtrar conjuntos de datos grandes, +- NitroPDF para convertir PDF a archivos de texto y Excel, +- Google Fusion Tables para visualizaciones de mapas. + +*La Nacion (Argentina)*\ +— Angélica Peralta Ramos + +Como comunidad de base sin preferencias técnicas, en Transparency +Hackers usamos muchas herramientas y lenguajes de programación +diferentes. Cada miembro tiene su propio conjunto de preferencias y esta +gran variedad es al mismo tiempo nuestro punto fuerte y nuestra +debilidad. Algunos estamos construyendo una “Versión de Linux para +Hackers de Transparencia”, que podamos iniciar en cualquier parte para +hackear datos. Este recurso tiene algunas herramientas y bibliotecas +interesantes para manejar datos como Refine, RStudio y OpenOffice Calc +(por lo general una herramienta poco usada por la gente que conoce del +tema, pero realmente útil para cosas rápidas/pequeñas). También hemos +estado usando ScraperWiki mucho para hacer prototipos rápidamente y +guardar resultados de datos online. + +Hay muchas herramientas que nos gustan para visualizaciones de datos y +gráficos. Python y NumPy son bastante poderosas. Alguna gente de la +comunidad ha estado jugando con R, pero en definitiva las bibliotecas +para ploteado de gráficos, como D3, Flot, y RaphaelJS es lo que se +termina usando en la mayoría de nuestros proyectos. Finalmente, hemos +estado experimentando mucho con mapeado, y Tilemill ha sido una +herramienta muy interesante para este trabajo. + +*Transparência Hacker*\ +— Pedro Markun + + +## Usar visualizaciones para descubrir cosas en los datos + +La visualización es crítica para el análisis de datos. Aporta una +primera línea de ataque, revelando estructuras intrincadas en datos que +no pueden ser absorbidas de otro modo. Descubrimos efectos inimaginados +y cuestionamos aquellos que han sido imaginados. + +*Hobart Press*\\ — William S. Cleveland (de Visualizing Data + +Los datos por sí mismos, que consisten de bits y bytes almacenados en un +archivo en el disco rígido de una computadora, son invisibles. Para +poder verlos y encontrarles sentido, necesitamos visualizarlos. En esta +sección voy a usar el término visualizar en un sentido más amplio, que +incluye incluso representaciones textuales puras de datos. Por ejemplo, +simplemente cargar un conjunto de datos en un software de planilla de +cálculo puede considerarse una visualización de datos. Los datos +invisibles de pronto se convierten en una “imagen” visible en nuestra +pantalla. Por tanto, la pregunta no debe ser si los periodistas +necesitan visualizar los datos o no, sino qué tipo de visualización +puede ser la más útil en cada situación. + +Dicho de otro modo: ¿cuándo tiene sentido ir más allá de la +visualización en tablas? La respuesta más simple es: casi siempre. Las +tablas por sí solas decididamente no bastan para darnos una visión +general de un conjunto de datos. Y las tablas por sí solas no nos +permiten identificar inmediatamente patrones dentro de los datos. El +ejemplo más común aquí son los patrones geográficos que solo pueden +observarse al visualizar datos en un mapa. Pero también hay otros tipos +de patrones, que veremos luego en esta sección. + +#### Usar visualización de datos para descubrir información clarificadora + +No es realista esperar que herramientas y técnicas de visualización de +datos disparen una andanada de historias listas para usar a partir de +los conjuntos de datos. No hay reglas ni “protocolos” que nos garanticen +que tendremos una historia. En cambio, creo que tiene más sentido buscar +“percepciones”, que un buen periodista puede incorporar a historias. + +Cada nueva visualización puede darnos percepciones sobre nuestros datos. +Parte de esa información reveladora puede ser conocida ya (pero quizás +aún no demostrada), mientras que otros aspectos pueden resultarnos +completamente nuevos o incluso sorprendentes. Algunas cosas nuevas que +percibimos podrían significar el comienzo de una historia, mientras que +otras podrían ser simplemente el resultado de errores en los datos, que +es más probable que encontremos visualizando los datos. + +Para hacer más efectiva la búsqueda de nuevas percepciones en los datos, +me resulta de gran ayuda el proceso representado en [Figure 4](#FIG054) +(y descripto en el resto de esta sección). + +![Figure 4. Información reveladora en datos; una visualización (Gregor Aisch)](figs/incoming/05-BB.png) + +##### Aprenda a visualizar datos + +La visualización ofrece una perspectiva particular sobre el conjunto de +datos. Usted puede visualizar datos de muchas maneras diferentes. + +Las tablas son muy poderosas cuando se trata de un número relativamente +pequeño de puntos. Muestran etiquetas y montos del modo más estructurado +y organizado y revelan su potencial plenamente cuando se las combina con +la capacidad de ordenar y filtrar los datos. Adicionalmente, Edward +Tufte sugirió incluir pequeños gráficos dentro de columnas de tablas, +por ejemplo, una barra por fila o una pequeña línea de cuadro (desde +entonces conocida también como sparkline). Pero aún así, y tal como ya +dijimos, las tablas claramente tienen limitaciones. Son muy buenas para +mostrar cuestiones unidimensionales, como los primeros 10, pero son muy +pobres cuando se trata de comparar múltiples dimensiones simultáneamente +(por ejemplo, población por país a lo largo del tiempo). + +![Consejos de Tufte: sparklines (Gregor Aisch) ](figs/incoming/05-BC-graphical-table.png) + +Los cuadros, en general, le permiten vincular dimensiones de sus datos +con propiedades visuales de formas geométricas. Mucho se ha escrito +sobre la efectividad de las propiedades visuales individuales, y la +versión más breve de todo ello es: el color es difícil, la posición es +todo. En un diagrama de dispersión, por ejemplo, se relaciona dos +dimensiones con las posiciones x- e y-. Incluso se puede presentar una +tercera dimensión relacionada con el color o el tamaño de los símbolos +presentados. Los cuadros lineales son especialmente adecuados para +mostrar evoluciones temporales, mientras que los cuadros de barras son +perfectos para comparar datos de categorías. Se puede apilar elementos +de cuadros. Si desea comparar un pequeño número de grupos de sus datos, +presentar múltiples instancias del mismo gráfico es una forma muy +poderosa de hacerlo (también conocido como múltiplos pequeños). En todos +los cuadros se puede usar distintos tipos de escalas para explorar +aspectos diferentes de los datos (por ejemplo, lineal o escala +logarítmica). + +De hecho la mayor parte de los datos que manejamos están relacionados de +algún modo con gente real. El poder de los mapas es que reconectan los +datos con nuestro mundo físico. Imagine un conjunto de datos de +incidentes criminales ubicados geográficamente. Lo crucial es ver dónde +suceden los crímenes. Además los mapas pueden revelar relaciones +geográficas dentro de los datos (por ejemplo, una tendencia de norte a +sur, o de zonas urbanas a rurales). + +![Mapa coroplético (Gregor Aisch)](figs/incoming/05-BD-choropleth.png) + +Hablando de relaciones, el cuarto tipo más importante de visualización +es el gráfico. Los gráficos sirven para mostrar las interconexiones +(bordes) de sus puntos de datos (nodos). La posición de los nodos se +calcula entonces por algoritmos de diagrama de gráficos más o menos +complejos que nos permiten ver inmediatamente la estructura dentro de la +red. El truco de la visualización por gráficos en general es encontrar +el modo adecuado para modelar la red misma. No todos los conjuntos de +datos incluyen ya relaciones y aunque las incluyan puede no ser el +aspecto más interesante. A veces el periodista tiene que definir los +bordes entre nodos. Un ejemplo perfecto de esto es el +[Gráfico Socialdel Senado](http://slate.me/senate-social) de EE.UU., cuyos bordes +conectan senadores que votaron lo mismo en más del 65% de los casos. + +##### Analice e intérprete lo que ve + +Una vez que haya visualizado sus datos, el siguiente paso es aprender +algo del cuadro que creó. Podría preguntarse: + +- ¿Qué puedo ver en esta imagen? ¿Es lo que esperaba? - ¿Hay patrones +interesantes? - ¿Qué significa esto en el contexto de los datos? + +A veces puede terminar con una visualización que, pese a su belleza, +puede no decirle nada de interés de sus datos. Pero casi siempre hay +algo que puede aprender de cualquier visualización, por trivial que sea. + +##### Documente sus percepciones y sus pasos + +Si piensa en este proceso como un viaje a través del conjunto de datos, +la documentación es su diario de viaje. Dirá a dónde viajó, que ha visto +allí y cómo tomó sus decisiones para sus siguientes pasos. Incluso puede +comenzar con su documentación antes de echar su primera mirada a los +datos. + +En la mayoría de los casos cuando comenzamos a trabajar con un conjunto +de datos que no hemos visto previamente, ya estamos llenos de +expectativas y supuestos sobre los datos. Por lo general hay un motivo +por el que estamos interesados en el conjunto de datos que estamos +mirando. Es buena idea comenzar la documentación escribiendo estos +pensamientos iniciales. Esto nos ayuda a identificar nuestros prejuicios +y reduce el riesgo de malas interpretaciones de los datos encontrando +simplemente lo que queríamos encontrar originalmente. + +Realmente creo que la documentación es el paso más importante del +proceso, y es también el que somos más proclives a dejar de lado. Como +verá en el ejemplo que viene a continuación, el proceso descripto +involucra mucha planificación y manejo de datos. Mirar un conjunto de 15 +cuadros que ha creado puede ser muy confuso, especialmente al +transcurrir algún tiempo. De hecho esos cuadros solo son valiosos (para +usted o cualquier persona a la que quiera comunicar lo que descubrió) si +se los presenta en el contexto en el que fueron creados. Por tanto debe +tomarse algún tiempo para hacer notas sobre cosas como: + +- ¿Por qué creé este cuadro? +- ¿Qué he hecho con los datos para crearlo? +- ¿Qué me dice este cuadro? + +##### Transforme los datos + +Naturalmente con las nuevas cosas que percibió con la última +visualización, puede tener una idea de lo que quiere ver a continuación. +Puede haber encontrado algún patrón interesante en el conjunto de datos +que ahora quiere inspeccionar con más detalle. + +Las posibles transformaciones: + +Acercamiento (zoom) : Para ver cierto detalle en la visualización +Agregación : Combinar muchos puntos de datos en un solo grupo. Filtrado +: Eliminar (temporariamente) puntos de datos que no son de nuestro mayor +interés Eliminación de datos atípicos : Eliminar puntos individuales que +no son representativos del 99% del conjunto de datos. + +Situémonos en el caso de que usted ha visualizado un gráfico y lo que +surgió no fue más que un enredo de nodos conectados por cientos de +bordes (un resultado muy común cuando se visualiza lo que se llama redes +densamente conectadas). Un paso de transformación común sería filtrar +algunos bordes. Si, por ejemplo, los bordes representan flujos de dinero +de países donantes a países receptores, podríamos eliminar todos los +flujos menores a cierto monto. + +#### Qué herramientas usar + +La cuestión de las herramientas no es fácil. Toda herramienta de +visualización de datos disponible es buena para algo. La visualización y +el manejo de los datos debe ser fácil y barato. Si cambiar los +parámetros de las visualizaciones le lleva horas, no va a experimentar +demasiado. Eso no quiere decir necesariamente que no deba aprender cómo +usar la herramienta. Pero una vez que aprendió, debiera ser realmente +eficiente. + +A menudo hay que tener mucho criterio para elegir una herramienta que +cubra tanto las cuestiones del manejo de los datos como la visualización +de datos. Separar las tareas en distintas herramientas significa que +tiene que importar y exportar datos muy a menudo. Esta es una breve +lista de algunas herramientas de visualización y manejo de datos: + +- Planillas de cálculo como LibreOffice, Excel o Google Docs - +Plataformas de programación estadística como R (r-project.org) o Pandas +(pandas-pydata.org) - Sistemas de Información Geográfica (GIS) como +Quantum GIS, ARcGIS, o GRASS - Biblitoecas de Visualización como d3.js +(mbostock.github.com/d3), Prefuse (prefuse.org) o Flare +(flare.prefuse.org) - Herramientas de manejo de datos como Google Refine +o Datawrangler - Software para crear visualizaciones como ManyEyes o +Tableau Public (tableausoftware.com/products/public) + +Las visualizaciones de muestra en la siguiente sección fueron creadas +usando R, que es el cortaplumas suizo de la visualización de datos +(científica). + +#### Un ejemplo: encontrarle sentido a los datos sobre contribuciones electorales + +Veamos la base de datos de las Finanzas de la Campaña Presidencial de +Estados Unidos, que contiene alrededor de 450.000 aportes a candidatos +presidenciales estadounidenses. El archivo CSV es de 60 megabytes y +demasiado grande para manejar fácilmente en un programa como Excel. + +En el primer paso escribiré explícitamente mis supuestos iniciales +respecto del conjunto de datos sobre contribuciones para las campañas +electorales: + +- Obama recibe la mayor suma en contribuciones (dado que es el +presidente y tiene la mayor popularidad) - La cantidad de contribuciones +aumenta al acercarse la fecha de las elecciones. - Obama recibe más +contribuciones pequeñas que los candidatos republicanos + +Para responder a la primera pregunta, tenemos que transformar los datos. +En vez de cada contribución individual, necesitamos sumar el total de lo +aportado a cada candidato. Luego de visualizar los resultados en una +tabla ordenada, confirmamos nuestro supuesto de que Obama obtendría la +mayor cantidad de dinero: + ++-----------------------------------+-----------------------------------+ +| Candidato | Monto ($) | ++===================================+===================================+ +| Obama, Barack | 72.453.620,39 | ++-----------------------------------+-----------------------------------+ +| Romney, Mitt | 50.372.334,87 | ++-----------------------------------+-----------------------------------+ +| Perry, Rick | 18.529.490,47 | ++-----------------------------------+-----------------------------------+ +| Paul, Ron | 11.844.361,96 | ++-----------------------------------+-----------------------------------+ +| Cain, Herman | 7.010.445,99 | ++-----------------------------------+-----------------------------------+ +| Gingrich, Newt | 6.311.193,03 | ++-----------------------------------+-----------------------------------+ +| Pawlenty, Timothy | 4.202.769,03 | ++-----------------------------------+-----------------------------------+ +| Huntsman, Jon | 2.955.726,98 | ++-----------------------------------+-----------------------------------+ +| Bachmann, Michelle | 2.607.916,06 | ++-----------------------------------+-----------------------------------+ +| Santorum, Rick | 1.413.552,45 | ++-----------------------------------+-----------------------------------+ +| Johnson, Gary Earl | 413.276,89 | ++-----------------------------------+-----------------------------------+ +| Roemer, Charles E. \*Buddy\* III | 291.218,80 | ++-----------------------------------+-----------------------------------+ +| McCotter, Thaddeus G | 37.030,00 | ++-----------------------------------+-----------------------------------+ + +Si bien esta tabla muestra los montos mínimo y máximo y el orden, no +dice demasiado acerca de los patrones subyacentes al ranking de los +candidatos. [Figure 7](#FIG059) es otra vista de los datos, un tipo +de cuadro conocido como “cuadro de puntos”, en el que podemos ver todo +lo que aparece en la tabla más los patrones dentro del campo. Por +ejemplo, el cuadro de puntos nos permite comparar inmediatamente la +distancia entre Obama y Romney y Romney y Perry, sin tener que restar +valores. (Nota: este cuadro de puntos fue creado usando R. Puede +encontrar vínculos con el código fuente al final de este capítulo). + +![Visualizaciones para descubrir patrones subyacentes (Gregor Aisch)](figs/incoming/05-CC.png) + +Ahora procedamos con un cuadro más grande del conjunto de datos. Como +primer paso, visualicé todos los montos aportados a lo largo del tiempo +en una sola vista. Podemos ver que casi todas las contribuciones son +muy, muy pequeñas comparado con 3 casos salientes. Una investigación más +a fondo revela que estas contribuciones inmensas provienen del “Fondo +para la Victoria de Obama 2012” (también conocido como SuperPAC) y se +hicieron el 9 de junio (US$ 450.000), septiembre 29 (US$1.500.000) y diciembre 30 (US$ 1,900.000). + +![3 casos salientes (Gregor Aisch)](figs/incoming/05-DD.png) + +Si bien las contribuciones de Súper PACs por si solas son sin duda la +historia más importante en los datos, podría ser interesante mirar más +allá. La cuestión ahora es que estas grandes contribuciones perturban +nuestra visión de las contribuciones más pequeñas que provienen de +individuos, por lo que vamos a quitarlas de los datos. Esta +transformación se conoce comúnmente como eliminación de datos atípicos. +Luego de visualizar nuevamente, podemos ver que la mayoría de las +donaciones están dentro del rango de entre US\\\$ 5.000 y US\\\$ 10.000. + +![Eliminar datos atípicos (Gregor Aisch)](figs/incoming/05-EE.png) + +De acuerdo al límite a las contribuciones establecidos por FECA +(autoridad electoral), no se permite a los individuos donar más de +US$ 2500 a cada candidato. Como podemos ver en el gráfico, hay +numerosas donaciones por encima de ese límite. En particular, nos llaman +la atención dos grandes contribuciones en mayo. Parece que son +compensadas por montos negativos (reembolsos) en junio y julio. Una +investigación más a fondo de los datos revela las siguientes +transacciones: + +- El 10 de mayo, *Stephen James Davis*, de San Francisco, empleado en +Banneker Partners (abogados), ha donado **US$ 25.800** a Obama. - +El 25 de mayo, *Cynthia Murphy*, de Little Rock, empleada en el Murphy +Group (relaciones públicas), ha donado **US$ 33.300** a Obama - +El 15 de junio el monto de **US$ 30.800** fue devuelto a +*Cynthia Murphy*, lo que redujo el monto donado a US$ 2500. +- El 8 de julio, se devolvió el monto de **US$ 25.800** a +*Stephen James Davis*, lo que redujo el monto donado a US$ 0. + +¿Qué tienen de interesantes estas cifras? Los US$ 30.800 devueltos a +Cynthia Murphy equivalen al monto máximo que pueden dar individuos a +comités nacionales de partidos al año. Quizás quería combinar ambas +donaciones en una transacción, que fue rechazada. Los US$ 25.800 +devueltos a Stephen James Davis posiblemente equivalen a los US$30.800 +menos US$ 5000 (el límite de aportes a cualquier otro comité político). + +Otra cosa interesante descubierta en el último gráfico es un patrón +lineal horizontal de contribuciones para candidatos republicanos por +US$ 5000 y -US$ 2500. Para verlos con más detalle, visualicé solo +las donaciones a republicanos. El gráfico resultante es un gran ejemplo +de patrones en datos que serían invisibles sin visualización de datos. + +![Eliminación de datos atípicos 2 (Gregor Aisch)](figs/incoming/05-FF.png) + +Lo que podemos ver es que hay muchas donaciones de US$ 5000 a +candidatos republicanos. De hecho, un análisis de los datos da que hay +1243 de estas donaciones, que es solo el 0,3% del número total de +donaciones, pero debido a que esas donaciones se reparten de modo parejo +en el tiempo, la línea aparece. Lo interesante de la línea es que las +donaciones de individuos estaban limitadas a US$ 2500. En +consecuencia cada dólar que superó ese límite fue devuelto a los +donantes, lo que resulta en la segunda línea de –US$ 2500. En +contraste, las contribuciones a Barack Obama no muestran un patrón +similar. + +![Eliminación de datos atípicos 3 (Gregor Aisch)](figs/incoming/05-GG.png) + +Por lo que podría ser interesante averiguar por qué miles de donantes +republicanos no advirtieron los límites para donaciones de individuos. +Para analizar más en profundidad el tema, podemos ver el número total de +donaciones de US$ 5000 por candidato. + +![Donaciones por candidato (Gregor Aisch)](figs/incoming/05-HH.png) + +Por supuesto que esta es una visión distorsionada dado que no considera +los montos totales de donaciones recibidas por cada candidato. El +siguiente gráfico muestra el porcentaje de donaciones de US\\\$ 5000 por +candidato. + +![ ¿De dónde viene la plata del senador?: donaciones por candidato (Gregor Aisch)](figs/incoming/05-II.png) + +#### Qué aprender de esto + +A menudo tal análisis visual de un nuevo conjunto de datos se vive como +un viaje excitante a un país desconocido. Uno comienza como un +extranjero contando solo con los datos y sus supuestos, pero con cada +paso que da, con cada cuadro que produce, percibe cosas nuevas sobre el +tópico. Basado en esas percepciones, toma decisiones respecto de sus +siguientes pasos y que cuestiones ameritan una mayor investigación. Como +habrá visto en este capítulo, este proceso de visualizar, analizar y +transformar datos podría repetirse casi al infinito. + +#### Consiga el código fuente + +Todos los cuadros que se muestran en este capítulo fueron creados usando +el maravilloso y poderoso software R. Creado principalmente como +herramienta de visualización científica, es difícil encontrar alguna +técnica de visualización o manejo de datos que no esté incorporada a R. +Para aquellos interesados en saber cómo visualizar y manejar datos +usando R, a continuación aparecen los códigos fuente para los cuadros +generados en este capítulo: + +- [Cuadro de puntos: contribuciones por candidato](https://gist.github.com/1769733) +- [Gráfico: todas las contribuciones a lo largo del tiempo](https://gist.github.com/1816161) +- [Gráfico: contribuciones por comités autorizados](https://gist.github.com/1816169) + +Hay también una gran variedad de libros y tutoriales disponibles. + +— *Gregor Aisch, Open Knowledge Foundation* + + +# Difundir datos + +![](figs/incoming/06-00-cover.png) + +Una vez que analizó bien sus datos y decidió que hay algo interesante +sobre lo cual escribir, ¿cómo puede difundirlos al público? Esta sección +se inicia con breves anécdotas acerca de cómo conocidos periodistas +presentaron los datos a sus lectores: desde infografías, pasando por +plataformas de datos, hasta *links* para descarga. Luego analizamos con +más detenimiento cómo crear nuevas aplicaciones y los detalles de la +visualización de datos. Finalmente analizamos lo que puede hacer para +que su proyecto le resulte atractivo al público. + +### Qué contiene este capítulo? + +- [Presentar datos al público](difundir_datos_0.html) +- [Cómo crear una aplicación de noticias](difundir_datos_1.html) +- [Aplicaciones de noticias en ProPublica](difundir_datos_2.html) +- [La visualización como el caballo de tiro del periodismo de + datos](difundir_datos_3.html) +- [El uso de visualizaciones para narrar + historias](difundir_datos_4.html) +- [Cuadros diferentes dicen cosas diferentes](difundir_datos_5.html) +- [Selección de herramientas "Hágalo Ud. mismo" para hacer sus propias + visualizaciones de datos.](difundir_datos_6.html) +- [Cómo presentamos los datos en el Verdens + Gang](difundir_datos_7.html) +- [Los datos públicos se vuelven sociales](difundir_datos_8.html) +- [Interactuar con la audiencia en torno a sus + datos](difundir_datos_9.html) + + + +## Presentar datos al público + +Hay muchas maneras diferentes de presentar los datos al público, desde +publicar conjuntos de datos en crudo con historias, hasta crear hermosas +visualizaciones y aplicaciones interactivas en la web. Pedimos consejos +a periodistas de datos con experiencia sobre cómo presentar datos al +público. + +#### Visualizar o no visualizar + +Hay momentos en que los datos pueden contar la historia mejor que +palabras o fotos y es por eso que términos como “aplicación de noticias” +y “visualización de datos” han adquirido el status de palabras clave en +tantas redacciones en los últimos tiempos. También promueve el interés +la gran cosecha de nuevas herramientas y tecnologías (a menudo +gratuitas) destinadas a ayudar incluso al periodista menos dotado +técnicamente a convertir datos en una presentación visual de una +historia. + +Herramientas como Google Fusion Tables, Many Eyes, Tableau, Dipity, y +otras hacen más fácil que nunca crear mapas, cuadros, gráficos o incluso +aplicaciones con datos que hasta aquí eran el dominio de especialistas. +Siendo las barreras al ingreso ahora apenas un lomo de burro, la +cuestión para los periodistas ahora no es tanto si pueden convertir sus +conjuntos de datos en una visualización sino si les conviene hacerlo. +Una [mala visualización de datos](http://bit.ly/niemanlab-wordcloud) es +peor en muchos sentidos que ninguna visualización. + +— *Aron Pilhofer, New York Times* + +#### El uso de gráficos con movimiento + +Con un guión ajustado, animaciones bien cronometradas y explicaciones +claras, los gráficos con movimiento pueden dar vida a números o ideas +complejas, orientando a su público. Las videoconferencias de Hans +Rosling son un buen ejemplo de cómo los datos pueden narrar una historia +en la pantalla. Concuerde o no usted con su metodología, yo también creo +que el [índice Shoe-throwers](http://econ.st/shoethrowers) de The +Economist es un buen ejemplo del uso del video para contar una historia +basada en números. Usted no presentaría este gráfico como una imagen +estática o al menos no debería hacerlo. Suceden demasiadas cosas en la +presentación. Pero habiendo llegado paso a paso, a uno le queda la +comprensión de cómo y por qué llegaron a este índice. Con gráficos con +movimiento y cortos animados, puede reforzar lo que el público está +escuchando. Los recursos visuales explicativos con la voz *en off* +ofrecen una manera poderosa y memorable de contar una historia. + +— *Lulu Pinney, freelance infographic designer* + + +#### Contarle al mundo + +Nuestro flujo de trabajo por lo general comienza con Excel. Es una +manera fácil de descubrir si hay algo interesante en los datos. Si +tenemos la sensación de que hay algo, entonces vamos a la mesa de +noticias. Tenemos suerte de estar ubicados junto a la principal mesa de +noticias de The Guardian. Entonces analizamos cómo visualizarlo o +mostrarlo en la página. Luego escribimos el texto que lo acompaña. +Cuando escribo por lo general tengo una versión reducida de la planilla +de cálculo junto al editor de texto. A menudo hago análisis parciales +mientras escribo, para encontrar cosas interesantes. Publico en el blog +y me dedico un rato a hacer tweets al respecto, escribiendo a distintas +personas y asegurándome de que tiene links a todos los lugares +indicados. + +La mitad del tráfico de algunas de las cosas que subimos al blog vienen +de Twitter y Facebook. Estamos bastante orgullosos de que el tiempo +promedio dedicado a un artículo en nuestro Datablog es de 6 minutos, +comparado con un promedio de 1 minuto para el resto del sitio de The +Guardian. Seis minutos es bastante bueno y el tiempo en la página es una +de las métricas claves al analizar nuestro tráfico. + +Esto también ayuda a convencer a nuestros colegas acerca del valor de lo +que estamos haciendo. Eso y las grandes historias basadas en datos en +las que hemos trabajado que todos los demás en la redacción conocen: +COINS, WikiLeaks y los disturbios en el Reino Unido. Para los datos de +gasto de COINS, tuvimos 5-6 periodistas especializados trabajando en The +Guardian para dar sus puntos de vista sobre los datos cuando fueron +difundidos por el gobierno del Reino Unido. También tuvimos otro equipo +de 5-6 periodistas cuando el gobierno difundió los datos de gastos por +encima de las £25000 libras, incluyendo periodistas muy conocidas como +Polly Curtis. WikiLeaks también obviamente fue muy importante, con +muchas historias sobre Irak y Afganistán. Los disturbios también fueron +bastante importantes, con más de 550.000 vistas en 2 días. + +Pero no se trata solo de las visitas de corto plazo: también tiene que +ver con ser una fuente confiable de información útil. Tratamos de ser el +lugar donde usted puede obtener información buena y significativa sobre +los temas que cubrimos. + +— *Simon Rogers, the Guardian* + +#### Publicar los datos + +A menudo publicamos los datos en nuestro sitio en una visualización y de +una forma que permite la fácil descarga del conjunto de datos. Nuestros +lectores pueden explorar los datos detrás de las historias interactuando +en las visualizaciones o usando los datos mismos de otros modos. ¿Por +qué es importante esto? Aumenta la transparencia de The Seattle Times. +Mostramos a los lectores los mismos datos que usamos para sacar +poderosas conclusiones. ¿Y quién las usa? Nuestros críticos sin duda, +así como todos los que simplemente están interesados en la historia y +todas sus ramificaciones. Al dar acceso a los datos también podemos +recibir comentarios de estos mismos críticos y los lectores en general +respecto de lo que no vimos y qué más podemos explorar, todas cosas +valiosas para un periodismo que importa. + +— *Cheryl Phillips, The Seattle Times* + +#### Dar acceso a sus datos + +Dar a los consumidores de noticias acceso fácil a los datos que usamos +para nuestro trabajo es lo correcto por varios motivos. Los lectores +pueden asegurarse de que no estamos torturando a los datos para llegar a +conclusiones forzadas. Dar acceso a nuestros datos continúa la tradición +de las ciencias sociales de permitir que investigadores reproduzcan +nuestro trabajo. Alentar a los lectores a estudiar los datos puede +generar ideas que lleven a la continuación de las historias. Finalmente, +los lectores interesados en sus datos van a ser proclives a volver una y +otra vez. + +— *Steve Doig, Walter Cronkite School of Journalism, Arizona State +University* + +#### Crear una plataforma de datos abierta + +En La Nación publicar datos con libre acceso es una parte integral de +nuestras actividades periodísticas de datos. En la argentina no existe +una Ley de Acceso a la Información ni un portal nacional de datos, por +lo que nos parece importante proveer a nuestros lectores el acceso a los +datos que usamos en nuestras historias. + +Por tanto publicamos datos estructurados en crudo a través de [nuestra +plataforma](http://data.lanacion.com.ar/) integrada Junar así como en +Google Spreadsheets. Explícitamente autorizamos y alentamos a terceros a +reutilizar nuestros datos y explicamos un poco acerca de cómo hacer esto +[con documentación y tutoriales en video](http://bit.ly/lanacion-tutorials). + +Lo que es más, presentamos algunos de estos conjuntos de datos y +visualizaciones en nuestro [blog NACION DATA](http://blogs.lanacion.com.ar/data/). +Hacemos esto para evangelizar sobre nuestros datos y herramientas de edición de datos +en la Argentina y mostrar a otros cómo reunimos nuestros datos, como los usamos y cómo +pueden reutilizarlos. + +Desde que lanzamos la plataforma en febrero de 2012, hemos recibido +sugerencias e ideas para conjuntos de datos, principalmente de +académicos e investigadores, así como estudiantes de universidades que +se muestran muy agradecidos cada vez que contestamos con una solución o +un conjunto de datos específico. Hay gente que conoce y comenta nuestros +datos en Tableau y varias veces hemos sido el ítem más comentado y visto +en el sitio. En 2011 tuvimos 7 de las 100 [visualizaciones más +vistas](http://bit.ly/tableau-7-100). + +— *Angélica Peralta Ramos, La Nación (Argentina)* + +#### Humanizar los datos + +Al ampliarse el conocimiento del debate en torno a los grandes conjuntos +de datos, una parte importante ha estado notoriamente ausente: el +elemento humano. Mientras muchos pensamos en los datos como números +disociados, flotando en el vacío, en realidad son mediciones de cosas +tangibles (y a menudo humanas). Los datos están unidos a la vida de +gente real y cuando abordamos los números, debemos considerar los +sistemas del mundo real de los que provienen. + +Tomemos, por ejemplo, los datos de ubicación que se están recogiendo en +este momento de cientos de millones de celulares y dispositivos móviles. +Es fácil pensar en estos datos (cifras que representan latitud, longitud +y tiempo) como “descarga digital”, pero en realidad son datos destilados +de momentos de nuestras narrativas personales. Si bien pueden ser secos +y clínicos cuando se leen en una planilla de cálculo, cuando permitimos +a la gente incorporar sus propios datos a un mapa y reproducirlos, +experimentan una especie de replay de la memoria que es poderoso y +humano. + +En este momento, los datos de localización son utilizados por muchos +diseñadores de aplicaciones, grandes marcas y anunciantes. Mientras las +segundas (empresas de telecomunicaciones y administradores de +dispositivos) son dueños y almacenan los datos, el primero en esta +ecuación –usted- no tiene acceso ni control de esta información. En el +grupo de Investigación y Desarrollo del NYTimes, hemos lanzado un +proyecto prototipo llamado [OpenPaths](https://openpaths.cc/) para +permitir al público explorar sus propios datos de locación y +experimentar el concepto de propiedad de los datos. Al fin de cuentas, +la gente debiera tener control de estas cifras tan estrechamente ligadas +a sus propias vidas y experiencias. + +Los periodistas tienen un rol muy importante en sacar a luz esta +humanidad inherente a los datos. Al hacerlo, tienen el poder de cambiar +la comprensión del público tanto de los datos como de los sistemas de +los que emergieron los números. + +— *Jer Thorp, Data Artist in Residence: New York Times R&D Group* + + +#### Datos abiertos, fuentes abiertas, noticias abiertas + +El 2012 bien pudo ser el año de las noticias abiertas. Está en el centro +de nuestra ideología editorial y es un mensaje clave de nuestra marca +actualmente. En medio de todo esto, está claro de que necesitamos un +proceso abierto para el periodismo basado en datos. Este proceso no solo +debe ser alimentado de datos abiertos, sino también facilitado por +herramientas abiertas. Para fin de año esperamos poder acompañar cada +visualización que publicamos con acceso tanto a los datos como al código +con el que se construyó. + +Muchas de las herramientas usadas en la visualización hoy son de fuente +cerrada. Otras vienen con licencias restrictivas que prohíben el uso de +datos derivados. Las bibliotecas de fuente abierta existentes a menudo +resuelven un problema bien pero no ofrecen una metodología más amplia. +De conjunto esto dificulta a la gente apoyarse en el trabajo de los +demás. Esto cierra conversaciones en vez de abrirlas. Con este fin, +estamos desarrollando una cantidad de herramientas abiertas para narrar +historias interactivas. El Miso Project (@themisoproject) es un ejemplo. + +Estamos analizando este trabajo con una cantidad de organizaciones de +medios. Se requiere de la participación de la comunidad para realizar +plenamente el potencial del software de código abierto. Si tenemos éxito +introducirá una dinámica fundamentalmente diferente con nuestros +lectores. Las contribuciones pueden ir más allá del comentario a +bifurcar nuestro trabajo, solucionar problemas o re-utilizar datos de +maneras inesperadas. + +— *Alastair Dant, the Guardian* + +#### Agregue un link de descarga + +En los últimos años trabajé con unos cuantos gigabytes de datos para +proyectos o artículos, desde el escaneado de tablas escritas a máquina +de la década del ‘60 hasta los 1,5 gigabytes de cables publicados por +WikiLeaks. Siempre ha sido difícil convencer a los editores de publicar +sistemáticamente los datos en formato abierto y accesible. Para superar +el problema, agregué links para “Descargar los datos” dentro de los +artículos, apuntando a los archivos que los contenían o los Google Docs +relevantes. El interés de potenciales reutilizadores coincidía con lo +que vemos en los programas promovidos por el Estado (es decir, muy, pero +muy escaso). Sin embargo, las pocas instancias de reutilización +aportaron nuevas visiones o promovieron conversaciones que bien valen +los pocos minutos extra por proyecto. + + +— *Nicolas Kayser-Bril, Journalism++* + +#### Conozca su alcance + +Hay una gran diferencia entre hackear por diversión y hacer ingeniería +de sistemas buscando escala y buen desempeño. Asegúrese de asociarse con +gente que tenga las capacidades apropiadas para su proyecto. No olvide +el diseño. La facilidad de uso, la experiencia del usuario y el diseño +de la presentación pueden afectar mucho el éxito de su proyecto. + +— *Chrys Wu, Hacks/Hackers* + + + +## Cómo crear una aplicación de noticias + +Son ventanas que muestran los datos en los que se apoya la historia. +Pueden ser bases de datos abiertas a búsquedas, visualizaciones +elegantes, o algo totalmente distinto. Pero no importa la forma que +asuman, las aplicaciones alientan a los lectores a interactuar con los +datos en un contexto que es significativo para ellos: investigar +tendencias criminalísticas en su zona, verificar los antecedentes de su +médico local o analizar las contribuciones políticas de su candidato. + +Más que infografías de alta tecnología, las mejores aplicaciones de +noticias son productos durables. Tienen vida por fuera del ciclo de las +noticias, ayudando a menudo a los lectores a resolver problemas del +mundo real, o respondiendo preguntas de un modo tan útil como novedoso +que se convierten en recursos perdurables. Cuando periodistas de +ProPublica quisieron explorar en qué medida eran seguras las clínicas de +diálisis de riñón estadounidenses, crearon una +[aplicación](http://projects.propublica.org/dialysis/) que ayudaba a los +usuarios a verificar si las instalaciones en su ciudad eran seguras. +Proveer un servicio tan importante y relevante crea una relación con los +usuarios que va mucho más allá de lo que una historia narrativa puede +hacer por sí sola. + +Allí está el desafío y la promesa de crear aplicaciones de noticias que +son lo último en materia tecnológica: crear algo de valor duradero. Sea +usted un diseñador o un gerente, cualquier discusión acerca de crear una +gran aplicación debe comenzar con una mentalidad de desarrollo de un +producto: mantenerse enfocado en el usuario y trabajar para lograr el +mayor impacto con su inversión. Por lo que, antes de comenzar a crear +una aplicación, es bueno hacerse tres preguntas, que se abordan en las +siguientes secciones. + +![Monitor de instalaciones para diálisis (ProPublica)](figs/incoming/06-AA.png) + +#### ¿Cuál es mi público y cuáles son sus necesidades? + +Las aplicaciones de noticias no sirven a la historia por la historia +misma, sirven al usuario. Según el proyecto, el usuario puede ser un +paciente de diálisis que quiere conocer los antecedentes de su clínica o +incluso una dueña de casa que no conoce el riesgo de terremoto cerca de +su hogar. No importa quién sea, toda discusión sobre la creación de una +aplicación de noticias, como cualquier buen producto, debe empezar por +la gente que la va a usar. + +Una sola aplicación puede servir a muchos usuarios. Por ejemplo, un +proyecto llamado [Curbwise](http://curbwise.com/), creado por el Omaha +(Nebraska) World-Herald le sirve a propietarios de casas que creen que +les están cobrando impuestos excesivos, a residentes curiosos +interesados en los valores de propiedades cercanas y trabajadores +inmobiliarios que buscan seguir las tendencias de las ventas recientes. +En cada uno de esos casos, la aplicación responde a necesidades +específicas que hacen que los usuarios vuelvan. + +Los propietarios de casas, por ejemplo, podrían necesitar ayuda para +reunir información sobre propiedades próximas de modo de poder demostrar +que sus impuestos son injustamente elevados. Reunir esa información +exige tiempo y es complicado, un problema que Curbwise resuelve para sus +usuarios compilando [un informe fácil de +usar](http://curbwise.com/how-to-protest) de toda la información que +necesitan para cuestionar los impuestos a sus propiedades ante las +autoridades municipales. Curbwise vende ese informe por US\$ 20 y la +gente lo paga porque le resuelve un problema real de sus vidas. + +Sea que su aplicación resuelva un problema del mundo real como Curbwise +o acompañe la narrativa de una historia con visualizaciones +interesantes, siempre sea consciente de la gente que la usará. +Concéntrese en diseñar y crear los componentes basados en sus +necesidades. + +#### ¿Cuánto tiempo debo dedicar a esto? + +Los programadores en la redacción son como agua en el desierto: muy +buscados y escasos. Crear aplicaciones de noticias significa equilibrar +las necesidades diarias de una redacción con los compromisos de largo +plazo que se necesita para crear productos realmente buenos. + +Digamos que su editor le viene con una idea: el Consejo Municipal va a +votar la semana entrante si demoler o no varias propiedades históricas +en su ciudad. Sugiere crear una aplicación simple que le permita a los +usuarios ver los edificios en un mapa. + +Como programador, usted tiene unas pocas opciones. Puede flexionar su +músculo de ingeniero de sistemas creando un mapa fabuloso usando +software especialmente desarrollado para el caso. O puede usar +herramientas existentes como las Google Fusion Tables o bibliotecas de +mapeado de código abierto y terminar el trabajo en un par de horas. La +primera opción le dará una mejor aplicación; pero la segunda puede darle +más tiempo para crear otra cosa con mayores probabilidades de tener un +impacto duradero. + +El hecho de que una historia sea apta para crear una aplicación compleja +y hermosa no significa que tenga que crearla. Es crítico saber medir las +prioridades. La cuestión es recordar que toda aplicación que usted cree +tiene un costo: a saber, otra aplicación potencialmente más impactante +en la que pudo haber estado trabajando. + +#### ¿Cómo puedo llevar la cosa al siguiente nivel? + +Crear aplicaciones de noticias sofisticadas puede exigir mucho tiempo y +ser costoso. Por eso siempre se justifica preguntar cuál será el rédito. +¿Cómo se convierte una aplicación maravillosa pero que produce solo un +impacto momentáneo en algo especial y duradero? + +Crear un proyecto duradero que trascienda el ciclo de las noticias es +una manera de hacerlo. Otra manera es crear una herramienta que le +ahorre tiempo en el futuro (y haciéndolo con código abierto) o aplicar +un sistema de medición avanzada a su aplicación para saber más de su +público. + +Muchas organizaciones crean mapas en base al censo para mostrar los +cambios demográficos en sus ciudades. Pero cuando el equipo de +aplicaciones interactivas del Chicago Tribune [hizo el +suyo](http://bit.ly/chicago-census), llevó las cosas al siguiente nivel +desarrollando herramientas y técnicas para crear esos mapas rápidamente, +y que luego [pusieron a disposición de otras +organizaciones](http://bit.ly/chicagotribune-maps). + +En mi lugar de empleo, el Center for Investigative Reporting, unimos una +base de datos simple en la que se podía hacer búsquedas, con una +plataforma de búsqueda fina que nos permitió saber, entre otras cosas, +cuántos usuarios valoran los hallazgos fortuitos y la exploración en +nuestras aplicaciones. + +A riesgo de parecer que lo único que le importa es la plata, siempre +piense en términos de [ganancias sobre la +inversión](http://bit.ly/cironline-return). Resuelva un problema +genérico; cree una nueva manera de atraer a los usuarios; ofrezca partes +de su trabajo con código abierto; use sistemas de medición para saber +más acerca de sus usuarios; o incluso descubra cómo puede generar +ingresos con partes de su aplicación, como lo hace Curbwise. + +#### En síntesis + +La creación de aplicaciones de noticias ha recorrido un largo camino en +muy poco tiempo. Las aplicaciones 1.0 eran muy parecidas a infografías +2.0, visualizaciones de datos interactivas, mezcladas con bases de datos +en las que se podía hacer búsquedas, dirigidas primordialmente a +sostener la narrativa de la historia. Ahora muchas de esas aplicaciones +pueden ser diseñadas por periodistas incluso cuando están apurados por +plazos de entrega usando herramientas de código abierto, lo que deja a +los programadores libres para pensar en cosas más importantes. + +Las aplicaciones 2.0, que es hacia donde se dirige el sector, tienen que +ver con combinar la narración y los puntos fuertes del periodismo como +servicio público con el desarrollo de productos y los conocimientos +tecnológicos. El resultado, sin duda, será una explosión de innovación +en torno a maneras de hacer que los datos sean relevantes, interesantes +y especialmente útiles para nuestro público y, al mismo tiempo, +esperemos que ayude al periodismo a hacer esto mismo. + +— *Chase Davis, Center for Investigative Reporting* + + + +## Aplicaciones de noticias en ProPublica + +Una aplicación es una gran base de datos interactiva que narra una +historia noticiosa. Piense en ella como lo haría con cualquier otra +pieza de periodismo. Simplemente usa software en vez de palabras e +imágenes. + +Al mostrar a cada lector datos que son específicos a él, una aplicación +puede ayudar a cada lector a comprender una historia de un modo que sea +personalmente significativo. Puede ayudar a un lector a comprender su +relación personal con un fenómeno nacional amplio y ayudarlo a +relacionar lo que sabe con lo que no sabe y por tanto alentar una +comprensión profunda de conceptos abstractos. + +Tendemos a crear aplicaciones de noticias cuando tenemos un conjunto de +datos (o creemos que podemos adquirir un conjunto de datos) que sea de +alcance nacional y a la vez lo suficientemente granular como para +exponer detalles significativos. + +Una aplicación debiera narrar una historia, y al igual que cualquier +buena historia, necesita un titular, una firma, un encabezado y una +síntesis que presente el contenido. Algunos de estos conceptos pueden +ser difíciles de distinguir en una pieza de software interactivo, pero +están allí si uno lo estudia atentamente. + +Además, una aplicación debiera ser generadora de más historias y más +informes. Las mejores aplicaciones de ProPublica han sido usadas como +base para historias locales. + +Por ejemplo, tomemos el caso de nuestra aplicación [Dollars for Docs](http://projects.propublica.org/docdollars). +Rastreaba pagos de compañías farmacéuticas por millones de dólares a médicos para que +hicieran consultoría, dieran conferencias y otras cosas por el estilo. +La aplicación que creamos permite a los lectores hacer una búsqueda +sobre su propio médico y ver los pagos que recibió. Periodistas de otras +organizaciones también usaron los datos. Más de 125 organizaciones de +noticias locales, incluyendo el Boston Globe, Chicago Tribune y St. +Louis Post-Dispatch hicieron investigaciones sobre médicos locales +basados en datos de Dollars for Docs. + +Unas cuantas de estas historias locales fueron resultado de asociaciones +formales, pero la mayoría se hicieron de modo independiente, en algunos +casos no tuvimos demasiado conocimiento –si es que supimos algo - de que +se estaba trabajando en la historia hasta que apareció. Como +organización pequeña pero de alcance nacional, este tipo de repercusión +es crucial para nosotros. No podemos tener conocimiento de lo que sucede +en 125 ciudades, pero si nuestros datos pueden ayudar a periodistas que +tienen conocimiento local a narrar historias con impacto, estamos +cumpliendo nuestra misión. + +Una de mis aplicaciones favoritas es [Mapping L.A.](http://projects.latimes.com/mapping-la/neighborhoods/) +de Los Ángeles Times, que comenzó como un mapa de varios barrios de esa ciudad +con datos del público y que hasta su aparición no tenían límites +aceptados por todos. Luego del primer proyecto con aportes del público +(crowdsourcing) el Times pudo usar los barrios como un gran dispositivo +de base para hacer informes de datos: cosas como la tasa de criminalidad +por barrio, calidad de las escuelas por barrio, etc., que antes no podía +hacer. De modo que Mapping L.A. no solo es a la vez genérico y +específico, es generador de proyectos y cuenta las historias de la +propia gente. + +Los recursos necesarios para crear una aplicación son muy variados. The +New York Times tiene docenas de personas trabajando en aplicaciones y +gráficos interactivos. Pero [Talking Points +Memo](http://polltracker.talkingpointsmemo.com/) hizo un seguidor de +encuestas políticas de última generación con 2 empleados, ninguno de los +cuales tenía título en ciencias de la computación. + +Al igual que la mayoría de los programadores que trabajan en +redacciones, seguimos una metodología Agile modificada para crear +nuestras aplicaciones. Iteramos rápidamente y mostramos borradores a la +otra gente de la redacción con la que trabajamos. Es de la mayor +importancia el hecho de que trabajamos en estrecho contacto con +periodistas y leemos sus borradores, incluso los muy iniciales. +Trabajamos mucho más como periodistas que como programadores +tradicionales. Además de escribir código, llamamos a las fuentes, +reunimos información y acumulamos experiencia. Sería difícil hacer una +buena aplicación usando material que no entendemos. + +¿Por qué debieran interesarse las redacciones en producir aplicaciones +basadas en datos? Tres razones: es excelente periodismo, es inmensamente +popular –los contenidos más populares de ProPublica son aplicaciones de +noticias- y si no lo hacemos, otro lo hará. Piense en todas las +exclusivas que nos perderíamos. Lo que es más importante, las +redacciones debieran saber que pueden hacerlo también. Es más fácil de +lo que parece. + +— *Scott Klein, ProPublica* + + + +## La visualización como el caballo de tiro del periodismo de datos + +Antes de lanzarse a tratar de armar cuadros o mapas con sus datos, +tómese un minuto para pensar acerca de los muchos roles que los +elementos gráficos estáticos e interactivos tienen en su trabajo +periodístico. + +En la fase de buscar la información, las visualizaciones pueden: + +- Ayudarlo a identificar temas y cuestiones para el resto de su tarea. +- Identificar cosas fuera de lugar: buenas historias o quizás errores + en sus datos. +- Ayudarlo a encontrar ejemplos típicos. +- Mostrar baches en sus informes. + +Las visualizaciones también tienen múltiples roles en la edición. +Pueden: + +- Ilustrar un argumento de una historia de un modo más convincente. +- Quitar información técnica innecesaria de la prosa. +- En particular cuando son interactivos y permiten la exploración, + ofrecen transparencia respecto de su proceso de información a sus + lectores. + +Estos roles sugieren que debiera comenzar temprano y a menudo con +visualizaciones en sus informes, sea o no que comience con datos o +registros electrónicos. No lo considere un paso por separado, algo a +considerar una vez que la historia en gran medida ya esté escrita. +Permita que este trabajo ayude a guiar su tarea periodística. + +Comenzar a veces significa simplemente poner las notas que ya tomó en +formato visual. Considere el gráfico en la Figura 6-2, que se publicó en +el Washington Post en 2006. + +![Subsidios agropecuarios a lo largo del tiempo (Washington Post)](figs/incoming/06-MM.png) + +Muestra la porción del ingreso agropecuario asociado con subsidios y +eventos claves en los últimos 45 años, y fue creado a lo largo de una +serie de meses. Encontrar datos que pudieran utilizarse para largos +períodos de tiempo con definiciones y significados similares fue un +desafío. Investigar todas las alzas y bajas nos ayudó a tener presente +el contexto mientras hacíamos el resto de nuestro trabajo. También +significó que la tarea estuvo prácticamente acabada antes de que se +escribieran las historias. + +A continuación, algunos consejos sobre el uso de visualizaciones para +comenzar a explorar sus conjuntos de datos. + +#### Consejo 1: Use pequeños múltiplos para orientarse rápidamente en un conjunto de datos grande + +Usé esta técnica en el Washington Post cuando seguimos una pista de que +la administración de George W. Bush estaba otorgando subsidios por +motivos políticos y no de fondo. La mayoría de estos programas de ayuda +se guían por fórmulas y otros han sido financiados desde hace años, por +lo que estábamos curiosos por ver si pudiéramos encontrar un patrón +analizando casi 1500 casos diferentes discrecionales. + +Creé un gráfico para cada programa, con puntos rojos indicando un año +con elecciones presidenciales y puntos verdes indicando elecciones +parlamentarias. El problema: sí, había un salto en los seis meses antes +de la elección presidencial en varios de estos programas –los puntos +rojos con los números pico junto a ellos- pero es el año electoral +equivocado. El patrón apareció de modo sistemático durante la elección +presidencial del 2000 entre Al Gore y George W. Bush, no la elección de +2004. + +![Subsidios HHS: los sparklines ayudan a encontrar historias (Washington Post)](figs/incoming/06-NN.png) + +Esto fue realmente fácil de ver en una serie de gráficos en vez de una +tabla numérica, y un formulario interactivo nos permitió verificar +varios tipos de subsidios, regiones y entes. Los mapas con pequeños +múltiplos pueden ser una manera un modo de mostrar tiempo y lugar en una +imagen estática que es fácil de comparar, a veces incluso más fácil que +la versión interactiva. + +Este ejemplo fue creado con un programa breve escrito en PHP, pero ahora +es mucho más fácil de hacer con Excel 2007 y los \_sparklines\_de 2010. +Edward Tufte, el experto en visualización, inventó estos “gráficos +intensos, simples, como palabras” para transmitir información con una +sola mirada basados en un conjunto de datos grandes. Ahora se los ve en +todas partes, desde los pequeños gráficos bajo las cotizaciones de la +bolsa hasta los records de triunfos y derrotas en deportes. + +#### Consejo 2: Mire sus datos del derecho y del revés + +Cuando trata de entender una historia o un conjunto de datos, no hay una +manera equivocada de mirar; inténtelo de todas las maneras que se le +ocurren y tendrán muchas perspectivas distintas. Si está informando +sobre criminalidad, podría ver un conjunto de cuadros con cambios en los +crímenes violentos en un año; otro podría indicar el cambio porcentual; +otro podría ser una comparación con otras ciudades, y otro podría ser de +cambios en el tiempo. Use cifras crudas, porcentajes e índices. + +Mírelos en distintas escalas. Trate de seguir la regla de que el eje de +las x debe estar en cero. Luego viole esa regla y vea si encuentra más +cosas. Pruebe con logaritmos y raíces cuadradas para datos con +distribuciones extrañas. + +Tenga en mente las investigaciones hechas con percepciones visuales. Los +experimentos de William Cleveland mostraron que los ojos ven cambios en +una imagen cuando la inclinación promedio es de alrededor de 45 grados. +Esto sugiere que hay que ignorar las admoniciones de que siempre se debe +comenzar desde cero y en cambio trabajar pensando en los gráficos que +permitan ver más cosas. Otras investigaciones sobre epidemiología han +sugerido que se puede encontrar un nivel determinado como delimitador +para su cuadro. Cada uno de estos modos permite ver los datos de modo +diferente. Cuando ya no le dicen nada nuevo sabe que acabó su tarea. + +#### Consejo 3: No dé nada por supuesto + +Ahora que ha mirado sus datos de distintos modos, probablemente habrá +encontrado registros que no parecen correctos: puede no haber entendido +lo que significaban o hay algunos casos fuera de lo común que parecen +errores de tipeo o hay tendencias que parecen invertir las cosas. + +Si quiere publicar algo basado en sus primeras exploraciones o en una +visualización, tiene que resolver estas cuestiones y no dar nada por +supuesto. Son historias interesantes o errores; desafíos interesantes a +las verdades sabidas o confusiones. + +No es inusual que gobiernos municipales den planillas de cálculo llenas +de errores, y es también fácil confundirse con la jerga oficial en un +conjunto de datos. + +Primero, vuelva a mirar su trabajo. ¿Ha leído la documentación, sus +advertencias, y existe el problema en la versión original de los datos? +Si todo lo hecho por usted parece estar bien, entonces es hora de tomar +el teléfono. Tendrá que conseguir resolverlo si quiere usarlo, por lo +que mejor ponerse ya mismo en marcha. + +Dicho esto, no todo error es importante. En los registros de finanzas de +campañas electorales, es común que haya varios cientos de códigos +postales que no existen en una base de datos de 100.000 registros. +Siempre que no sean todos en la misma ciudad o estén relacionados con un +mismo candidato, el registro ocasional equivocado simplemente no +importa. + +La pregunta que debe hacerse: ¿si fueran a usar esto, los lectores +tendrían una visión acertada en lo esencial de lo que dicen los datos? + +#### Consejo 4: Evite obsesionarse con la precisión + +La contracara de no hacer suficientes preguntas es obsesionarse con la +precisión antes de que importe. Sus gráficos exploratorios debieran ser +correctos en general, pero no se preocupe si tiene varios niveles de +redondeo, si no suman exactamente 100 por ciento o si le faltan datos de +1 o 2 años en 20 años. Esto es parte del proceso exploratorio. Aún así +verá las grandes tendencias y sabrá lo que tiene que buscar antes de que +llegue el momento de publicar. + +De hecho, podría considerar eliminar las marcas y los indicadores de +escala, como en los cuadros de más arriba, para tener una mejor visión +del sentido general de los datos. + +#### Consejo 5: Cree cronologías de casos y eventos + +Al comienzo de cualquier historia compleja, comience a crear cronologías +de eventos y casos claves. Puede usar Excel, un documento en Word, o una +herramienta especial como TimeFlow para la tarea, pero en algún punto +encontrará un conjunto de datos que puede usar como base de referencia. +Releerlo periódicamente le mostrará qué baches tiene en su informe que +deben cubrirse. + +#### Consejo 6: Reúnase desde el comienzo y a menudo con el departamento gráfico + +Intercambie ideas respecto de gráficos posibles con los ilustradores y +diagramadores de su redacción. Ellos tendrán buenas alternativas para +ver sus datos, sugerencias de cómo podría funcionar interactivamente, y +saben cómo conectar datos e historias. Le hará mucho más fácil su tarea +si sabe desde el comienzo qué es lo que tiene que buscar o si puede +alertar a su equipo de que no es posible realizar determinado gráfico +cuando no logra obtener los datos necesarios. + +#### Consejos para la publicación de datos + +Puede haber pasado solo unos pocos días o unas pocas horas en su +exploración, o puede haber tardado meses en reunir la información para +su historia. Pero cuando se acerca el momento de publicarla, hay dos +aspectos que se vuelven importantes. + +¿Se acuerda de ese año que le faltó en sus exploraciones iniciales? De +pronto ya no puede avanzar más sin esos datos. ¿Todos los datos con +problemas que ignoró en sus informes? Ahora vuelven como fantasmas. La +razón es que no se puede simplemente esquivar los problemas. Se tiene +todo lo que se necesita para un gráfico o no se lo tiene, y no hay +solución intermedia. + +El esfuerzo de recolección de los datos tiene que coincidir con lo que +requiere el gráfico interactivo:: No hay modo de ocultarse en un gráfico +interactivo. Si realmente va a hacer que sus lectores puedan explorar +los datos de cualquier manera que quieran, entonces cada elemento de los +datos tiene que ser lo que dice ser. Los usuarios pueden encontrar +cualquier error en cualquier momento, y eso podría afectarlo por meses o +años. Si está creando su propia base de datos, tiene que prever la +corrección de errores, el control de datos y la edición del texto de +toda la base de datos. Si está usando archivos oficiales, debe decidir +cuánto los va a controlar y qué piensa hacer cuando encuentre el +inevitable error. + + Diseñe pensando en dos tipos de lectores + +: El gráfico –sea un elemento interactivo que se presenta solo o una + visualización estática que acompaña su artículo- debe satisfacer a + dos tipos diferentes de lectores. Debe ser fácil de entender de un + vistazo, pero lo suficientemente complejo como para ofrecer algo + interesante a la gente que quiere ir más allá. Si lo hace + interactivo, asegúrese de que sus lectores obtengan algo más que una + sola cifra o número. + + Transmita una idea y luego simplifique + +: Asegúrese de que haya una cosa que quiere que la gente vea. Decida + cuál es la impresión general que quiere que tenga el lector y haga + que todo lo demás desaparezca. En muchos casos, esto significa + eliminar información aún cuando Internet le permita proveer todo. A + menos que su objetivo principal sea la transparencia en su actividad + periodística, la mayor parte de los detalles que ha recogido en su + línea de tiempo y cronología simplemente no son demasiado + importantes. En un gráfico estático serán intimidantes. En un + gráfico interactivo serán aburridos. + +— *Sarah Cohen, Duke University* + + +## El uso de visualizaciones para narrar historias + +La visualización de datos amerita su consideración por varios motivos. +No solo puede ser llamativamente hermosa y atraer la atención –recurso +social valioso para compartir y atraer a los lectores- también aprovecha +una ventaja cognitiva poderosa: la mitad del cerebro humano está +dedicado a procesar información visual. Cuando se presenta a un usuario +un gráfico informativo, se está llegando a él a través de la vía de +banda más ancha de acceso a la mente. Una visualización de datos bien +diseñada puede ofrecer a los que la ven una impresión inmediata y +profunda, e ir al grando de la cuestión sin enredarse con todo lo que +hay en una historia compleja. + +Pero a diferencia de otros medios visuales –tales como la fotografía y +el video- la visualización de datos también está enraizada en hechos +mensurables. Aunque atractiva estéticamente, tiene menos carga +emocional, está más interesada en echar luz que calor. En una era de +medios con foco estrecho que a menudo están hechos a medida de públicos +con puntos de vista particulares, la visualización de datos (y el +periodismo de datos en general) ofrece la oportunidad tentadora de +narrar historias orientadas principalmente por los hechos y no el +fanatismo. + +Lo que es más, al igual que otras formas de periodismo narrativo, la +visualización de datos puede ser efectiva tanto para presentar noticias +nuevas –transmitiendo rápidamente nueva información al estilo de la +ubicación de un accidente y el número de víctimas- como artículos de +fondo, donde puede profundizar en un tema y ofrecer una nueva +perspectiva, ayudándolo a ver algo familiar de un modo completamente +nuevo. + +#### Ver lo familiar de un modo nuevo + +De hecho, la capacidad de las visualizaciones de datos de cuestionar las +verdades aceptadas es ejemplificada por un [gráfico +interactivo](http://nyti.ms/employment-lines) publicado por The New York +Times a fines de 2009, un año después de que comenzara la crisis +económica global. Con la tasa de desempleo nacional de Estados Unidos en +torno 9 %, los usuarios podían analizar la población del país con varios +filtros demográficos y educativos, para ver lo dramáticos que eran los +cambios en las tasas. Resultó que la tasa iba, de menos del 4% para +mujeres de edad media con títulos avanzados, hasta casi la mitad de +todos los jóvenes negros que no habían terminado la escuela secundaria, +y además esta disparidad no era nada nuevo: dato subrayado por líneas de +fiebre que mostraban los valores históricos para cada uno de esto +grupos. + +![La tasa de desempleo para personas como usted (New York Times)](figs/incoming/06-GG-01.png) + +Incluso cuando ya ha dejado de mirarla, una buena visualización de datos +se mete en su cabeza y deja un modelo mental duradero de un hecho, una +tendencia o un proceso. ¿Cuánta gente vio [la animación de +tsunamis](http://1.usa.gov/tsunami-animation) presentada por los +investigadores en diciembre de 2004, que mostraba olas en cascada +irradiando desde un terremoto indonesio a través del océano Índico, +amenazando a millones de residentes costeros en el sur de Asia y África +oriental? + +Las visualizaciones de datos –y las asociaciones estéticas que +engendran- pueden incluso convertirse en hitos culturales, tales como la +representación de las profundas divisiones políticas en Estados Unidos +luego de las elecciones del 2000 y 2004, cuando los estados republicanos +“rojos” llenaban el centro del país y los estados demócratas “azules” +formaban núcleos en el noreste y el lejano oeste. No importa que en los +medios de EE.UU. antes del 2000 las principales cadenas de medios habían +intercambiado el azul y el rojo muchas veces para representar a cada +partido, optando algunas incluso por alternar cada cuatro años. De allí +el recuerdo de algunos estadounidenses de la victoria épica en 49 +estados “azules” para los republicanos en 1984 liderada por Ronald +Reagan. + +Pero por cada gráfico que engendra un cliché visual, aparece otro que +aporta un poderoso testimonio fáctico, tal como [el mapa de +2006](http://nyti.ms/diaspora-graphic) de The New York Times que usó +círculos de distintos tamaños para mostrar donde vivían cientos de miles +de evacuados de New Orleans, desparramados por todo el continente por +una mezcla de vínculos personales y programas de relocalización. ¿Estos +evacuados “varados” podrían volver alguna vez a sus hogares? + +Ahora que hemos hablado del poder de la visualización de datos, es justo +preguntar cuándo debemos usarla y cuando *no*. Primero analizaremos +algunos ejemplos en los que la visualización de datos podría ser útil +para ayudar a narrar una historia a sus lectores. + +#### Mostrar el cambio a lo largo del tiempo + +Quizás el uso más común de la visualización de datos –personificado en +el humilde gráfico de fiebre- es mostrar cómo han cambiado valores a lo +largo del tiempo. El crecimiento de la +[población china desde 1960](http://bit.ly/google-china-population) o el +salto en el desempleo desde la caída económica de 2008, son buenos ejemplos. +Pero las visualizaciones de datos también pueden mostrar de modo muy poderoso +el cambio a lo largo del tiempo a través de otras formas gráficas. El +investigador portugués Pedro M. Cruz utilizó cuadros con forma de +círculos animados para mostrar dramáticamente la declinación de los +[imperios europeos occidentales](http://pmcruz.com/visual-experiments/visualizing-empires) +desde comienzos del siglo XIX. Medidos por su población total, Gran +Bretaña, Francia, España y Portugal estallan como burbujas al lograr la +independencia sus territorios extranjeros. Allí va México, Brasil, +Australia, la India, y esperen… allí van muchas colonias africanas a +comienzos de la década de 1960, con lo que casi desaparece Francia. + +Un [gráfico del Wall Street Journal](http://on.wsj.com/tech-empire) +muestra el número de meses que les llevó a varios empresarios llegar al +número de US\$ 50 millones en ganancias. Creado utilzando Tableau +Public, una herramienta de gráficos y análisis de datos gratuita, la +comparación semeja las estelas superpuestas que dejan múltiples +aeronaves al despegar, algunas rápidas, otras lentas, algunas pesadas,. + +Hablando de aviones, otro gráfico interesante que muestra el cambio en +el tiempo presenta la participación en el [mercado de las principales +aerolíneas](http://nyti.ms/airline-merger) estadounidenses durante +varias décadas de concentración en el sector. + +Luego de que la administración Carter desregulara la aviación de +pasajeros, una seguidilla de adquisiciones financiadas con deuda creó +compañías de aeronavegación nacionales a partir de pequeñas aerolíneas +regionales, como ilustra este gráfico de The New York Times. + +![Rutas de vuelo convergentes (New York Times)](figs/incoming/06-GG-02-b.png) + +Dado que casi todos los lectores casuales ven el eje horizontal, de las +“x” de un cuadro, como representa el tiempo, a veces es fácil creer que +*todas* las visualizaciones deben mostrar el cambio en el tiempo. + +#### Comparar valores + +![Contar el costo humano de la guerra (BBC)](figs/incoming/06-GG-03.png) + +La visualización de datos también es útil cuando se trata de ayudar a +los lectores a comparar dos o más valores discretos, sea para poner en +contexto la pérdida trágica de hombres y mujeres de las fuerzas armadas +en los conflictos de Irak y Afganistán (comparándolos con los tantos +miles de muertos en Vietnam y los millones que murieron en la segunda +Guerra Mundial, como hizo la BBC en un slideshow de +[transparencias animadas](http://bbc.in/animated-slideshow) que acompaña +su base de datos de bajas); o cuando el National Geographic, utilizando un +[cuadro muy minimalista](http://bit.ly/ngm-hearts), mostró cuanto mayores +son las probabilidades de morir de enfermedad coronaria (probabilidad de 1 +en 5) o infarto (1 en 24) que en accidentes de aviación (1 en 5051) o +por una picadura de abeja (1 en 56789), mostrando las probabilidades +relativas de las distintas causas de muerte (todo dominado por un arco +inmenso que representa las probabilidades generales de morirse: 1 en 1). + +La BBC, en colaboración con la agencia Berg Design, también desarrolló +el sitio [“Dimensions”](http://howbigreally.com/), que le permite +superponer los contornos de los principales eventos mundiales –el +derrame de petróleo de la plataforma marina Deepwater Horizon o las +inundaciones paquistaníes, por ejemplo- a un Google Map de su propia +comunidad. + +#### Mostrar conexiones y flujos + +La introducción del ferrocarril de alta velocidad en Francia en 1981 no +achicó realmente el país, pero una representación visual ingeniosa +muestra cuanto menos tiempo lleva alcanzar distintos destinos comparado +con el ferrocarril convencional. Una grilla superpuesta al país aparece +de forma cuadrada en la imagen de “antes”, pero se ve aplastada hacia el +centro, París, en la de “después”, mostrando no solo que los destinos +están más “cerca”, sino que la mayor ganancia de tiempo se da en la +primera parte del viaje, antes de que los trenes tengan que bajar la +velocidad al llegar a vías no mejoradas. + +Para comparar entre dos variables distintas, vea +[el cuadro de Ben Fry](http://benfry.com/salaryper/) +evaluando el desempeño de equipo de Baseball de las Grandes Ligas relativo +a lo que ganan sus jugadores. +Una línea dibujada en rojo (mal desempeño) o azul (buen desempeño) conecta +los dos valores, dando de forma práctica una sensación de qué dueños de +equipos lamentan lo mal que le ha ido con jugadores caros. Más aún, el +recorrido de una línea de tiempo ofrece una imagen vívida de la +competencia por el campeonato. + +![Salario vs. desempeño (Ben Fry)](figs/incoming/06-GG-04.png) + +#### Diseñar con datos + +Similares a las conexiones gráficas en un sentido, los diagramas de +flujo también codifican información en las líneas de conexión, +generalmente de acuerdo al grosor y/o el color de las mismas. Por +ejemplo, con la Eurozona en crisis y varios miembros incapacitados para +pagar sus deudas, The New York Times buscó desentrañar +[la madeja de deudas](http://nyti.ms/eurozone-crisis) que vincula a los +miembros de la UE con sus socios comerciales al otro lado del Atlántico y en Asia. +En un “estado” de la visualización, el ancho de las líneas refleja el monto +del crédito que pasa de un país a otro, y tonos que van del amarillo al +naranja indican lo “preocupante” de la deuda, es decir, la +improbabilidad de su repago. + +Sobre un tópico más feliz, la revista National Geographic produjo un +[gráfico que parece simple](http://bit.ly/sankey-wine), mostrando las +conexiones de tres ciudades de EE.UU. –New York, Chicago y Los Ángeles- +con regiones productoras de vino importantes, y cómo los métodos de +transporte con los que se trae el producto de cada una de las fuentes +podrían resultar en una huella de carbono drásticamente diferente, +haciendo que para los neoyorquinos, por ejemplo, comprar en Burdeos sea +más “verde” que comprar vino de California. + +“SourceMap”, un proyecto iniciado en la escuela de estudios empresarios +del MIT, usa diagramas de flujo para analizar rigurosamente el +abastecimiento global de productos manufacturados, sus componentes y +materias primas. Gracias a mucha investigación un usuario ahora puede +buscar productos que van desde [zapatos de marca +Ecco](http://sourcemap.com/view/1760) hasta [jugo de +naranja](http://sourcemap.com/view/1011), y saber qué rincón del globo +es su origen y su correspondiente huella de carbono. + +#### Mostrar jerarquías + +En 1991 el investigador Ben Shneiderman inventó una nueva forma de +visualización llamada +["treemap"](http://www.cs.umd.edu/hcil/treemap-history/) que consiste de +múltiples cajas concéntricas. El área de cada caja indica la cantidad +que representa, en sí misma y como adición de sus contenidos. Se trate +de [visualizar un presupuesto nacional](http://openspending.org/) +dividido por entes oficiales y sub-entes, la bolsa de valores por sector +y compañía, o un lenguaje de programación por clases y sub-clases, el +"treemap" es una interfaz compacta e intuitiva para representar un ente +y sus partes constituyentes. Otro formato efectivo es el dendrograma, +que se ve como un cuadro de organización más típico, donde las +subcategorías salen de un solo tronco central. + +![OpenSpending.org (Open Knowledge Foundation)](figs/incoming/06-GG-06.png) + +#### Explorar grandes bases de datos + +A veces la visualización de datos es muy efectiva para tomar información +familiar y mostrarla desde un ángulo totalmente nuevo, ¿pero qué sucede +cuándo se tiene información nueva que la gente quiere navegar? La era de +los datos trae consigno descubrimientos nuevos sorprendentes casi todos +los días, desde el brillante análisis de [fotos de Flickr de Eric +Fischer](http://bit.ly/flickr-analysis) hasta la difusión por la +municipalidad de la ciudad de New York de miles de [evaluaciones de +docentes](http://projects.wsj.com/nyc-teachers/) hasta ese momento +confidenciales. + +Estas bases de datos son más poderosas cuando los usuarios pueden meter +mano y llegar hasta la información que les resulta más relevante. + +A comienzos de 2010, se le dio acceso a The New York Times a los +registros privados de Netflix de qué películas se alquilan más en cada +área. Si bien Netflix se negó a difundir las cifras en crudo, el Times +creó una [base de datos interactiva atractiva](http://nyti.ms/interactive-database) +que permite a los usuarios explorar las 100 películas más alquiladas en 12 zonas +metropolitanas de EE.UU., subdivididas hasta el nivel de código postal. +Un “mapa de calor” graduado por colores superpuesto a cada comunidad +permitía a los usuarios ver rápidamente dónde un título en particular +era más popular. + +Hacia el fin del mismo año, el Times publicó los resultados del +[censo decenal](http://nyti.ms/census-explorer) de los Estados Unidos, +apenas horas después de que fuera difundido. La interfaz, creada con Adobe +Flash, ofrecía una cantidad de opciones de visualización y permitía a +los usuarios llegar al nivel de cada bloque del censo en el país (de 8,2 +millones) para ver la distribución de residentes por raza, ingreso y +educación. Tal era la resolución de la base de datos que cuando se +buceaba en el conjunto de datos en las primeras horas después de su +publicación uno podía llegar a preguntarse si era la primera persona del +mundo en explorar determinado rincón de la base de datos. + +Entre los usos igualmente aplaudibles de la visualización como +presentación de una base de datos se incluyen la investigación por la +BBC de [muertes en las rutas](http://bbc.in/road-deaths) y muchos de los +intentos de indexar rápidamente grandes cúmulos de datos como la +difusión por WikiLeaks de los registros de guerra de Irak y Afganistán. + +![Cada muerte en las rutas de Gran Bretaña 1999-2010 (BBC)](figs/incoming/06-GG-07.png) + +#### La regla de 65k + +Al recibir la primera pila de datos de los registros de la guerra de +Afganistán de WikiLeaks, el equipo que los procesaba comenzó a +manifestar su entusiasmo por tener acceso a 65.000 registros militares. + +Esto inmediatamente hizo sonar la alarma entre quienes tenían +experiencia con Excel de Microsoft. Gracias a una limitación histórica +del modo en que se accede a las filas, la herramienta de importación de +Excel no procesa más de 65.536 registros. En este caso se descubrió que +faltaban 25.000 filas. + +La moraleja de esta historia (además de evitar usar Excel para tales +tareas) es siempre desconfiar de cualquiera que alardee de tener 65.000 +filas de datos. + +— *Alastair Dant, the Guardian* + +#### Imaginar resultados alternativos + +En The New York Times, el “cuadro puercoespín” de Amanda Cox con +[proyecciones de déficit de EE.UU.](http://nyti.ms/porcupine-graph) +trágicamente optimistas a lo largo de los años, muestra cómo a veces lo +que sucedió es menos interesante que lo que no sucedió. La curva de Cox +que muestra el alza del déficit fiscal luego de una década de guerra y +exenciones impositivas muestra lo poco realistas que pueden resultar las +expectativas del futuro. + +![Pronósticos presupuestarios, comparados con la realidad (New York Times)](figs/incoming/06-GG-08.png) + +Bret Victor, un diseñador de interfaces de Apple de larga trayectoria (y +originador de la teoría “\_kill math\_” o “matar la matemática” de +visualización para comunicar información cuantitativa), ha hecho un +[prototipo](http://worrydream.com/#!/TenBrighterIdeas) de una especie de +documento que se actualiza de conjunto cada vez que se modifica un dato. +En su ejemplo, las ideas de conservación de la energía incluyen premisas +modificables, por la que un paso simple como apagar las luces de los +cuartos en los que no hay gente podría ahorrar a los estadounidenses la +generación de 2 a 40 plantas de carbón. Cambiar el porcentaje que +aparece en el medio de un párrafo de texto hace que el resto de la +página se actualice en consonancia. + +Para más ejemplos y sugerencias, aquí va el link con una [lista de +links](http://bit.ly/ericson-links) de distintos usos de +visualizaciones, mapas y gráficos interactivos compilada por Matthew +Ericson de The New York Times. + +#### Cuándo no usar visualización de datos + +En definitiva, la visualización de datos efectiva depende de contar con +información buena, limpia, precisa y significativa. Así como muchas +citas, datos, y descripciones alimentan el buen periodismo narrativo, la +visualización de datos es tan buena como los datos que la alimentan. + +En qué casos su historia puede ser mejor narrada a través de texto o +multimedia:: A veces los datos por sí solos no narran la historia del +modo más convincente. Si bien un cuadro simple que ilustre una tendencia +o una estadística puede ser útil, una narrativa que relate las +consecuencias de una cuestión en el mundo real puede ser más inmediata y +de mayor impacto para un lector. + + Cuando tiene muy pocos datos + +: Se ha dicho que “una cifra aislada no quiere decir nada”. Una frase + común de los editores de noticias en respuesta a una estadística + citada es: “¿comparado con qué?” ¿La tendencia sube o baja? ¿Qué es + lo normal? + +Cuando tiene escasa variación en su datos, sin una tendencia o +conclusión clara:: A veces organiza sus datos en Excel o una aplicación +similar y descubre que la información es ruidosa, tiene mucha +fluctuación y muestra una tendencia relativamente chata. ¿Conviene +elevar la base de cero a justo debajo del valor más bajo para dar un +poco más de forma a la línea? ¡No! Parece que lo que tiene son datos +ambiguos y necesita buscar y analizar un poco más. + + Cuando un mapa no es un mapa + +: A veces el elemento espacial no es significativo ni convincente, o + distrae la atención de las tendencias numéricas pertinentes, como el + cambio en el tiempo o mostrar las similitudes entre zonas no + adyacentes. + + Cuando bastaría con una tabla + +: Si cuenta con relativamente pocos puntos de datos pero tiene + información que podría ser útil para algunos de sus lectores, + considere simplemente presentar los datos en forma tabular. Es + limpio, de fácil lectura y no crea expectativas no realistas de una + “historia”. De hecho, las tablas pueden ser una forma muy eficiente + y elegante de presentar información básica. + +— *Geoff McGhee, Stanford University* + + +## Cuadros diferentes dicen cosas diferentes + +En este mundo digital, con la promesa de experiencias 3D de inmersión, +tendemos a olvidar que por tanto tiempo solo tuvimos tinta en papel. +Ahora pensamos en este medio estático, plano, como un ciudadano de +segunda, pero de hecho a lo largo de los siglos que hemos estado +escribiendo e imprimiendo, hemos logrado una increíble riqueza de +conocimiento y prácticas para representar los datos en una página. +Aunque los cuadros, las visualizaciones de datos y las infografías +interactivas son la gran moda, nos llevan a dejar de lado muchas de las +mejores prácticas que hemos aprendido. Solo estudiando la historia de +cuadros y gráficos bien logrados es que podemos entender esos +conocimientos acumulados y aprovecharlos con los nuevos medios. + +Algunos de los cuadros y gráficos más famosos derivan de la necesidad de +explicar mejor tablas de datos densas. William Playfair era un políglota +escocés que vivió desde fines del siglo XVIII hasta comienzos del XIX. +Por sí solo presentó al mundo muchos de los cuadros y gráficos que +seguimos utilizando hoy. En su libro de 1786, *Commercial and Political +Atlas* (Atlas Comercial y Político), Playfair introdujo el gráfico de +barras para mostrar claramente las cantidades de importaciones y +exportaciones de Escocia de un modo nuevo y visual. + +Luego popularizó el cuadro de torta en su libro de 1801, *Statistical +Breviary* (Breviario Estadístico). La necesidad de estas nuevas formas +de cuadros y gráficos provino del comercio, pero con el paso del tiempo +aparecieron otros que fueron utilizados para salvar vidas. En 1854 John +Snow creó su ahora famoso “Cholera Map of London” (Mapa del Cólera de +Londres), agregando una pequeña barra negra sobre cada dirección en la +que se reportó un incidente. Con el tiempo, se pudo ver cualquier +densidad evidente de la epidemia y actuar en consecuencia para contener +el problema. + +Con la práctica los practicantes de estos nuevos cuadros y gráficos se +volvieron más audaces y experimentaron más allá, llevando el recurso a +los niveles que conocemos hoy. André-Michel Guerry fue el primero en +publicar la idea de un mapa en el que regiones individuales se +identificaban con distintos colores basados en alguna variable. En 1829 +creó el primer coroplético dando distinto tono a las regiones de Francia +representando niveles de criminalidad. Hoy vemos tales mapas utilizados +para mostrar los resultados de encuestas políticas, quién votó por +quién, distribución de la riqueza y muchas otras variables con +distribución geográfica. Parece una idea tan simple pero aún hoy es +difícil de dominar y comprender si no se la usa juiciosamente. + +![Uno de los primeros gráficos de barras (William Playfair)](figs/incoming/06-TT-01.gif) + +![Mapa del cólera de Londres (John Snow)](figs/incoming/06-TT-02.jpg) + +![Mapa coroplético de Francia mostrando niveles de criminalidad (André-Michel Guerry)](figs/incoming/06-TT-03.jpg) + +Hay muchas herramientas que un buen periodista tiene que entender y +tener en su herramental para construir visualizaciones. En vez de +zambullirse directo en la parte más honda de la piscina, es importante +tener una base en materia de cuadros y gráficos. Todo lo que cree tiene +que originarse en una serie de cuadros y gráficos atómicos. Si puede +dominar lo básico, entonces puede construir visualizaciones más +complejas que se arman a partir de estas unidades básicas. + +Dos de los tipos más básicos de gráficos son los de barras y de curvas. +Si bien son muy similares en cuanto a los casos en los que se usan, +también pueden diferir mucho en su significado. Tomemos por caso las +ventas de una compañía para cada mes del año. Tendríamos las 12 barras +que representan el monto de dinero que entra cada mes ([Figure14](#FIG0618)). + +Analicemos por qué esto debe hacerse con barras en vez de un gráfico de +curvas. Los gráficos de líneas son ideales para datos continuos. En el +caso de las cifras de ventas, se trata de la suma de cada mes, no datos +continuos. En base a las barras, sabemos que en enero, la compañía tuvo +ingresos por \$ 100 y en febrero \$ 120. Si convertimos esto en un +gráfico lineal, de todos modos representaría \$ 100 y \$ 120 el primero +de cada mes, pero al día 15 del mes parece que hubiera tenido ingresos +de \$ 110. Lo que no es cierto. Las barras se usan para unidades +discretas de medida, mientras que las líneas se usan cuando se trata de +un valor continuo, como la temperatura. + +![Un cuadro de barras simple: útil para representar cantidad discreta de información](figs/incoming/06-TT-04.png) + +Podemos ver que a las 8:00 la temperatura era de 20°C y a las 9:00, +22°C. Si miramos la curva para adivinar la temperatura a las 8:30 +diríamos 21°C, lo que es un estimado correcto dado que la temperatura es +continua y cada punto no es la suma de otros valores; representa el +valor exacto en el momento o un estimado entre dos mediciones exactas. + +![Gráficos de curva simples: útiles para representar información continua](figs/incoming/06-TT-05.png) + +Tanto el gráfico de barras como el de curvas tienen una variante de +gráfico apilado ([Figure 17](#FIG0621)). Esta es una excelente +herramienta para narrar historias que puede funcionar de distintos +modos. Pensemos, por ejemplo, en una compañía que tiene tres tiendas. + +Para cada mes tenemos 3 barras, una por cada tienda, 36 en total para el +año. Cuando las colocamos una junta a la otra ([Figure 16](#FIG0620)) +podemos ver rápidamente qué tienda ganó más en cada mes. Esta es una +historia interesante y válida, pero hay otra oculta en los mismos datos. +Si apilamos las barras, de modo que haya una sola por cada mes, ahora +perdemos la posibilidad de ver fácilmente cuál tienda gana más, pero +podemos ver en qué meses la compañía tiene mejores resultados de +conjunto. + +![Un gráfico de barras agrupadas](figs/incoming/06-TT-06.png) + +![Un gráfico de barras apiladas](figs/incoming/06-TT-07.png){#FIG0621} + +Ambas son representaciones válidas de la misma información, pero +presentan dos historias diferentes usando los mismos datos. Como +periodista, el aspecto más importante de trabajar con datos es que +primero debe escoger qué historia quiere contar. ¿Se trata de cuál es el +mejor mes en cuanto a ingresos totales o cuál tienda es la nave +insignia? Este es solo un ejemplo simple, pero muestra cuál es el centro +del periodismo de datos: Hacer la pregunta indicada antes de avanzar +demasiado. La historia es la que guía la elección de la visualización. + +Los gráficos de barras y curvas son en realidad lo básico del periodismo +de datos. De allí se puede expandir a los histogramas, diagramas de +área, "sparklines", gráficos de flujo y otros, que tienen propiedades +similares y son adecuados para situación con ligeras diferencias, +incluyendo la cantidad de datos o fuentes de datos y la ubicación del +gráfico en términos del texto. + +En periodismo uno de los recursos gráficos más comúnmente utilizados son +los mapas. En ellos hay tiempo, cantidades y geografía. Siempre queremos +saber cuánto hay en un área comparada con otra área y cómo fluyen los +datos de un área a otra. Los diagramas de flujo y los mapas coropléticos +son herramientas muy útiles cuando se trata de visualizaciones para +periodismo. Es clave saber cómo codificar un mapa con colores sin dar +una representación equivocada o confundir a los lectores. Los mapas +políticos por lo general tienen un código de color que indica todo a +nada para determinadas regiones, aún si un candidato ganó en una parte +del país por 1%. El color no tiene por qué reducirse a una opción +binaria; se puede usar con cuidado gradientes de color basados en +grupos. Entender los mapas es una parte importante del periodismo. +Contestan fácilmente una de las cinco preguntas claves: ¿Dónde? + +Una vez dominados los tipos básicos de cuadros y gráficos, se pueden +comenzar a crear visualizaciones de datos más sofisticadas. Si no +entiende lo básico, entonces está parado sobre terreno poco firme. De la +misma manera que aprende a ser buen escritor –hacer frases cortas, tener +presente el público y no complicar exageradamente las cosas para hacerse +sonar inteligente, sino más bien transmitir el significado al lector- +también debe aprender a mesurarse con los datos. Comenzar por algo +pequeño es la manera más efectiva de narrar la historia, incrementando +lentamente en la medida de lo necesario. + +> La escritura vigorosa es concisa. Una frase no debe contener palabras +innecesarias, el párrafo no debe contener frases innecesarias, por el +mismo motivo que un dibujo no debe tener líneas innecesarias y una +máquina no debe tener partes innecesarias. Esto requiere no que el +escritor haga que todas sus frases sean cortas o que evite dar detalles +y que solo de un bosquejo de sus personajes, sino que toda palabra sea +dicente. + +> — William Strunk Jr. *Elements of Style (1918)*\ + +Está bien no usar todos los datos que tiene en su historia. No debiera +tener que pedir permiso para ser conciso, esa debe ser la norma. + +— *Brian Suda, (optional.is)* + + +## Selección de herramientas "Hágalo Ud. mismo" para hacer sus propias visualizaciones de datos. + +¿Qué herramientas de visualizaciones de datos se consiguen en la red en +forma gratuita? [Aquí](http://www.guardian.co.uk/data) en el Datablog y +Datastore tratamos de hacer lo más posible usando las poderosas opciones +gratuitas de internet. + +Eso puede sonar un poco falso, dado que obviamente tenemos acceso a los +increíbles equipos de gráficos e interactivos de The Guardian para las +piezas en las que contamos con un poco más de tiempo, tales como este +[mapa de gasto público](http://bit.ly/guardian-spending), creado +utilizando Adobe Illustrator) o este [interactivo de +disturbios](http://bit.ly/guardian-riots) de Twitter. + +Pero para nuestro trabajo cotidiano, a menudo usamos herramientas a las +que cualquiera tiene acceso y creamos gráficos que cualquiera puede +hacer. + +¿Entonces, qué usamos? + +#### Google Fusion Tables + +[Esta base de datos y herramienta de mapeado online](http://www.google.com/fusiontables/Home/) se ha vuelto nuestra primera elección para producir mapas rápidos y detallados, +especialmente aquellos que requieren zoom. Se tiene la alta resolución de Google + Maps, pero puede abrir muchos datos, por ejemplo, 100 MB de CSV. +La primera vez que uno lo intenta las Fusion Tables pueden parecer un poco +complicadas, pero no se rinda. Lo utilizamos para producir mapas como el +de Irak en la [Figure 18](#FIG0622) y también mapas de fronteras como la +[Figure 19](#FIG0623) sobre los sin techo. + +![Los registros de guerra de WikiLeaks (The Guardian)](figs/incoming/06-LL-01.jpg){#FIG0622} + +![Mapa interactivo de personas sin hogar (The Guardian)](figs/incoming/06-LL-02.jpg){#FIG0623} + +La principal ventaja es la flexibilidad –puede subir un archivo KML de +fronteras regionales, por ejemplo- y luego fusionar eso con una tabla de +datos. Además va a tener una nueva interfaz de usuario, lo que debe +facilitar su uso. + +No se necesita ser programador para hacerlo y esta +[herramienta de fusión de capas](http://bit.ly/fusion-layers) le permite unir distintos +mapas o crear opciones de búsqueda o filtrado, que luego puede +incorporar en un blog o sitio. + +Este excelente [tutorial de Kathryn Hurley](http://bit.ly/fusiontables-tutorial) de Google es un gran +recurso para comenzar. + + ++-----------------------------------+-----------------------------------+ +|
| | +| | | +| Note | Use | +| | [shpescape](http://www.shpescape. | +| | com/) | +| | para convertir archivos .shp | +| | oficiales en Google *Fusion | +| | Tables*. También esté atento a | +| | que los mapas no sean demasiado | +| | complicados porque el programa no | +| | puede manejar más de un millón de | +| | puntos por celda. | +| | | +| | | ++-----------------------------------+-----------------------------------+ + +#### Tableau Public + +Si no necesita el espacio ilimitado de la edición profesional, [Tableau +Public](http://www.tableausoftware.com/public) es gratuito. Con este +servicio visualizaciones bastante complejas de hasta 100.000 filas de +modo simple y fácil. Lo utilizamos cuando tenemos que unir distintos +tipos de cuadros, como en este [mapa de tasas +impositivas](http://bit.ly/guardian-top-tax) máximas en todo el mundo, +que también tiene un cuadro de barras). + +O incluso puede usarlo como explorador de datos, que es lo que hicimos +en la [Figure 20](#FIG0624) con los [datos de gastos en las elecciones +federales de EE.UU](http://bit.ly/guardianelections-us), si bien nos +quedamos cortos de espacio en la versión gratuita… algo a tener en +cuenta). Tableau también necesita que los datos estén formateados de +modos bastante específicos para poder aprovecharlo al máximo. Pero si +logra manejar eso tiene algo intuitivo que funciona bien. Por ejemplo, +La Nación en la Argentina ha construido toda su [operación de periodismo +de datos](http://www.lanacion.com.ar/data/) en torno a Tableau. + +![Finanzas de la campaña presidencial 2012 (The Guardian)](figs/incoming/06-LL-03.png){#FIG0624} + +Tableau tiene algunos [tutoriales online](http://www.tableausoftware.com/learn/training) +buenos con los cuales puede comenzar. + ++-----------------------------------+-----------------------------------+ +|
| | +| | | +| Note | Tableau es para PC aunque se está | +| | preparando una versión para Mac. | +| | Use un "mirror" tal como | +| | "parallels" para hacerlo | +| | funcionar. (N. del T.: una | +| | aplicación de MAC para poder usar | +| | programas de Windows). | +| | | +| | | ++-----------------------------------+-----------------------------------+ + + +#### Gráficos con Google Spreadsheets + +Puede acceder a esta herramienta en [Google Spreadsheets](http://google-d-s/spreadsheets/) + +![Gasto público e impuestos Reino Unido (The Guardian)](figs/incoming/06-LL-04.jpg) + +Luego de algo simple (como un gráfico de barras o curvas, o un gráfico +de torta), encontrará que las Google Spreadsheets (que se crean con los +documentos de su cuenta Google) pueden generar algunos gráficos bastante +buenos, incluyendo las burbujas animadas usadas por el +[Gapminder](http://www.gapminder.org/) de Hans Rosling. A diferencia de +los [gráficos API](http://code.google.com/apis/chart/) no necesita +preocuparse por el código; es bastante similar a hacer un gráfico en +Excel, en el sentido de que uno selecciona los datos y hace clic en el +*widget* de gráficos. También vale la pena explorar las opciones de +personalización; se puede cambiar el color, los encabezados y las +escalas. Son bastante neutrales respecto del diseño, lo que es útil en +gráficos pequeños. Los gráficos de curvas también tienen algunas +opciones lindas, incluyendo opciones para anotaciones. + ++-----------------------------------+-----------------------------------+ +|
| | +| | | +| Note | Dedique algo de tiempo a las | +| | opciones de personalización de | +| | los gráficos; puede crear su | +| | propia paleta de colores. | +| | | +| | | ++-----------------------------------+-----------------------------------+ + + +#### Datamarket + +Más conocido como proveedor de datos, +[Datamarket](http://bit.ly/datamarket-explore) es en realidad una +herramienta práctica para visualizar cifras. Puede subir sus propios +datos o usar algunos de los muchos conjuntos de datos que ofrecen, pero +las opciones son mejores si paga por una cuenta Pro. + ++-----------------------------------+-----------------------------------+ +|
| | +| | | +| Note | Datamarket funciona de la mejor | +| | manera con datos de series | +| | temporales, pero no deje de ver | +| | su extensa variedad de datos. | +| | | +| | | ++-----------------------------------+-----------------------------------+ + +#### Many Eyes + +Si hay un sitio que está necesitado de un poco de atención y cuidado es +[Many Eyes](http://ibm.co/ibm-manyeyes) de IBM. Cuando se presentó, +creado por [Fernanda B. Viégas](http://fernandaviegas.com/) y [Martín +Wattenberg](http://www.bewitched.com/), fue un ejercicio único en cuanto +a permitir a la gente subir conjuntos de datos de modo simple y +visualizarlos. Ahora, con sus creadores trabajando para Google, el sitio +parece un poco desatendido, con sus paletas de colores apagados; hace +tiempo que no ofrece nada nuevo en materia de visualizaciones. + +![[Villanos de Doctor Who](http://bit.ly/guardian-dr-who); The Guardian](figs/incoming/06-LL-06.jpg) + ++-----------------------------------+-----------------------------------+ +|
| | +| | | +| Note | No se puede editar los datos una | +| | vez subidos, de modo que | +| | asegúrese de que estén bien antes | +| | de crear la visualización. | +| | | +| | | ++-----------------------------------+-----------------------------------+ + +#### Color Brewer + +No es estrictamente una herramienta de visualización, +[Color Brewer](http://colorbrewer2.org/) sirve en realidad para elegir colores +de mapas. Puede escoger su color de base y obtener los códigos para toda +la paleta. + +#### Y algunos más + +Si ninguno de estos le sirve, vale la pena ver lo que hay en +[DailyTekk](http://bit.ly/dailytekk-infographic) que tiene aún más +opciones. Las señaladas no son las únicas herramientas, solo aquellas +que usamos con mayor frecuencia. Hay muchas más por allí, incluyendo: + +- [Chartsbin](http://chartsbin.com/), una herramienta para crear + mapamundis en los que se puede hacer clic. +- [iCharts](http://www.icharts.net/), que se especializa en pequeños + "widgets" de gráficos +- [Geoccomons](http://geocommons.com/) que ofrece datos y datos de + fronteras para crear mapas globales y locales. +- Y también está [pikctochart.com](http://piktochart.com/) que ofrece + plantillas para esas visualizaciones de texto/cifras que son + populares. + +— *Simon Rogers, the Guardian* + + +## Cómo presentamos los datos en el Verdens Gang + +El periodismo busca llevar nueva información al lector lo más rápido +posible. La manera más rápida de hacerlo puede ser mediante un video, +una foto, un texto, un gráfico, una tabla o una combinación de éstos. +Respecto de las visualizaciones, el objetivo debiera ser el mismo: +información rápida. Las nuevas herramientas de datos permiten a los +periodistas encontrar historias que de otro modo no podrían descubrir, y +presentarlas de nuevas maneras. Estos son unos cuantos ejemplos que +muestran cómo presentamos los datos en el diario más leído de Noruega, +Verdens Gang (VG). + +#### Cifras + +[Esta historia](http://bit.ly/vg-lotto) se basa en datos de la Dirección +de Estadísticas de Noruega, datos de contribuyentes, y del monopolio +nacional de lotería. En este gráfico interactivo el lector podría +encontrar distintos tipos de información de cada condado y municipalidad +noruega. La tabla muestra el porcentaje de los ingresos que se usa para +jugar. Se creó usando Access, Excel, MySql y Flash. + +#### Redes + +Analizamos las redes sociales para estudiar las relaciones entre 157 +hijos e hijas de las personas más ricas de Noruega. Nuestro análisis +mostró que los herederos de la gente más rica de Noruega también +heredaron las redes de sus padres. En total había más de 26.000 +conexiones, y los gráficos se terminaron a mano usando Photoshop. Usamos +Access, Excel, Notepad, y la herramienta de análisis de redes sociales +Ucinet. + +![Mapeado de datos de contribuyentes y de la lotería (Verdens Gang)](figs/incoming/06-RR-01.png) + +![Los pájaros del mismo plumaje se unen (Verdens Gang)](figs/incoming/06-RR-02.png) + +#### Mapas + +En este [mapa de calor animado](http://bit.ly/vg-heatmap) combinado con +un gráfico de barras simple se puede ver la incidencia de crímenes en un +mapa del centro de Oslo, hora por hora, a lo largo de los fines de +semana por varios meses. En el mismo mapa de calor animado, se puede ver +la cantidad de agentes de policía trabajando al mismo tiempo. En los +momentos en que se dan los crímenes, la cantidad de agentes de policía +está en su punto más bajo. + +![Mapa de calor animado (Verdens Gang)](figs/incoming/06-RR-03.png) + +#### "Text Mining" (Minado de texto) + +Para [esta visualización](http://bit.ly/vg-vis), hicimos minería de +texto de los discursos de siete líderes de partidos noruegos durante sus +congresos. Todos los discursos fueron analizados y los análisis +aportaron los argumentos de algunas historias. Cada historia se vinculó +con el gráfico y los lectores pudieron explorar y estudiar el lenguaje +utilizado por los políticos. Creamos esta visualización utilizando +Excel, Access, Flash e Illustrator. Si ésto se hubiera hecho en 2012, +hubiéramos creado el gráfico interactivo con JavaScript. + +![Minado de texto de discursos de líderes partidarios (Verdens Gang)](figs/incoming/06-RR-04.png) + +#### Notas finales + +¿Cuándo necesitamos visualizar una historia? La mayoría de las veces no +es necesario, pero a veces queremos hacerlo para ayudar a nuestros +lectores. Las historias que contienen una gran cantidad de datos a +menudo necesitan de una visualización. Pero tenemos que ser bastante +críticos al elegir qué tipo de datos vamos a presentar. Conocemos todo +tipo de cosas cuando informamos sobre algo, ¿pero qué necesita saber +realmente el lector sobre la historia? Quizás baste una tabla, o un +gráfico simple que muestra un proceso que va del año A al año C. Cuando +se trabaja con periodismo de datos, el objetivo no es necesariamente +presentar grandes cantidades de datos. Se trata de periodismo. + +Ha habido una clara tendencia en los últimos dos o tres años a crear +gráficos y tablas interactivas que permiten al lector investigar +distintos temas. Una buena visualización es como una buena imagen. Se +entiende de qué se trata con solo mirar uno o dos instantes. Cuanto más +se mira la visualización, más se ve. La visualización es mala cuando el +lector no sabe por dónde empezar o donde termina, y cuando la +visualización está sobrecargada de detalles. En este caso, quizás una +pieza de texto sería mejor. + + +— *John Bones, Verdens Gang* + + + +## Los datos públicos se vuelven sociales + +Los datos son valiosos. El acceso a los datos tiene el potencial de +clarificar cuestiones de un modo que genere resultados. Pero el mal +manejo de los datos puede ubicar los hechos en una estructura opaca que +no comunica nada. Si no promueven la discusión o aportan una comprensión +en contexto, los datos pueden ser de limitado valor para el público. + +Nigeria volvió a la democracia en 1999 luego de largos años de gobierno +militar. Analizar los hechos detrás de los datos se consideraba una +afrenta a la autoridad y como un intento de cuestionar la manchada +reputación de la junta. La Ley de Secreto Oficial obligaba a los +empleados públicos a no difundir información oficial. Aún pasados trece +años del regreso a la democracia, el acceso a los datos públicos puede +ser una tarea difícil. Los datos sobre el gasto público comunican poco a +la mayoría del público que no conoce demasiado la contabilidad +financiera y la aritmética compleja. + +Al imponerse el uso de dispositivos móviles y con un creciente número de +nigerianos online, junto con BudgIT vimos una gran oportunidad de usar +tecnologías de visualización de datos para explicar y hacer que la gente +se interesara por el gasto público. Para hacer esto, tuvimos que +dirigirnos a usuarios de todo tipo de plataformas y llegar a los +ciudadanos vía organizaciones no gubernamentales. Este proyecto apunta a +convertir los datos públicos en objeto social y crear una red extensa +que exija cambios. + +![La aplicación de BudgIT (BudgIT Nigeria)](figs/incoming/06-YY.png) + +Para entablar exitosamente la relación con los usuarios, tenemos que +entender lo que quieren. ¿Qué le importa al ciudadano nigeriano? ¿Dónde +sienten que hay falta de información? ¿Cómo podemos hacer que los datos +sean relevantes para sus vidas? El blanco inmediato de BudgIT es el +nigeriano alfabetizado promedio conectado a foros online y medios +sociales. Para competir por la limitada atención de los usuarios +inmersos en una amplia variedad e intereses (juegos, lectura, +socialización) tenemos que presentar los datos de modo breve y conciso. +Luego de difundir una imagen de los datos como un tuit o una infografía, +existe la oportunidad de una relación más sostenida con una experiencia +más interactiva para dar a los usuarios una visión más amplia. + +Al visualizar datos es importante comprender el nivel de manejo de datos +que tienen nuestros usuarios. Por hermosos y sofisticados que puedan +ser, los diagramas complejos y las aplicaciones interactivas pueden no +comunicar de un modo significativo a nuestros usuarios en base a sus +anteriores experiencias con la interpretación de datos. Una buena +visualización habla al usuario en un lenguaje que puede entender, y +presentará una historia con la que puede relacionarse fácilmente. + +Hemos consultado a más de 10.000 nigerianos respecto del presupuesto, y +los dividimos en tres categorías de acuerdo a su perfil para asegurar el +valor óptimo. Explicamos brevemente las categorías a continuación: + + Usuarios ocasionales + +: Son usuarios que quieren información de modo simple y rápido. Les + interesa tener una idea de los datos, no un análisis detallado. + Podemos dirigirnos a ellos vía tweet o gráficos interactivos. + + Usuarios activos + +: Usuarios que estimulan el debate y usan los datos para incrementar + su conocimiento de un área determinada o cuestionan los supuestos de + los datos. A estos usuarios, queremos proveerles mecanismos de + retroalimentación y la posibilidad de compartir su visión con sus + pares vía las redes sociales. + + Acaparadores de datos + +: Estos usuarios quieren datos en crudo para hacer visualizaciones o + análisis. Simplemente les damos los datos para sus propósitos. + +Con BudgIT nuestra relación con los usuarios se basa en lo siguiente: + + Estimular debates en torno a tendencias actuales + +: BudgIT sigue debates online y offline y busca proveer datos sobre + estos tópicos. Por ejemplo, con las huelgas del combustible en enero + de 2012, hubo constante agitación entre los manifestantes respecto + de la necesidad de que volviera a haber subsidios al combustible y + reducir los gastos públicos extravagantes e innecesarios. BudgIT + siguió el debate vía los medios sociales y en 36 horas con mucho + esfuerzo creó una aplicación que permite a los ciudadanos + reorganizar el presupuesto nigeriano. + + Buenos mecanismos de retroalimentación + +: Nos relacionamos con los usuarios a través de canales de debate y + medios sociales. Muchos usuarios quieren conocer las historias + detrás de los datos y muchos nos piden nuestra opinión. Nos + aseguramos de que nuestras respuestas solo expliquen los hechos + detrás de los datos y no se vean afectadas por nuestros puntos de + vista personales o políticos. Tenemos que mantener abiertos canales + de retroalimentación, responder activamente a comentarios y + relacionarnos con los usuarios de modo creativo para asegurar que se + mantenga la comunidad creada en torno a los datos. + + Hacerlo local + +: En el caso de un conjunto de datos que apunta a un grupo en + particular, BudgIT busca localizar su contenido y promover un canal + de debate que se relacione con las necesidades e intereses de grupos + particulares de usuarios. En particular, nos interesa relacionarnos + con usuarios en torno a cuestiones que les preocupan vía SMS. + +Luego de poner los datos sobre el gasto público en yourbudgit.com, +buscamos tomar contacto con los ciudadanos a través de varias ONG. +También pensamos desarrollar un marco de participación en el que +ciudadanos e instituciones oficiales puedan realizar asambleas públicas +para definir ítems claves del presupuesto que deben ser priorizados. + +El proyecto ha sido cubierto por medios locales y extranjeros, desde +[CP-Africa](http://bit.ly/cp-africa-budget) hasta [la +BBC](http://bbc.in/africa-budget). Hemos emprendido un estudio de los +presupuestos entre 2002 y 2011 para el sector de seguridad para un +periodista de la AP, Yinka Ibukun. La mayoría de las organizaciones de +medios son “acaparadores de datos” y nos han pedido datos para usar en +sus informes. Estamos planeando nuevas colaboraciones con periodistas y +organizaciones noticiosas en los meses venideros. + + +— *Oluseun Onigbinde, BudgIT Nigeria* + + + +## Interactuar con la audiencia en torno a sus datos + +### Los datos públicos se vuelven sociales + +Los datos son valiosos. El acceso a los datos tiene el potencial de +clarificar cuestiones de un modo que genere resultados. Pero el mal +manejo de los datos puede ubicar los hechos en una estructura opaca que +no comunica nada. Si no promueven la discusión o aportan una comprensión +en contexto, los datos pueden ser de limitado valor para el público. + +Nigeria volvió a la democracia en 1999 luego de largos años de gobierno +militar. Analizar los hechos detrás de los datos se consideraba una +afrenta a la autoridad y como un intento de cuestionar la manchada +reputación de la junta. La Ley de Secreto Oficial obligaba a los +empleados públicos a no difundir información oficial. Aún pasados trece +años del regreso a la democracia, el acceso a los datos públicos puede +ser una tarea difícil. Los datos sobre el gasto público comunican poco a +la mayoría del público que no conoce demasiado la contabilidad +financiera y la aritmética compleja. + + +Al imponerse el uso de dispositivos móviles y con un creciente número de +nigerianos online, junto con BudgIT vimos una gran oportunidad de usar +tecnologías de visualización de datos para explicar y hacer que la gente +se interesara por el gasto público. Para hacer esto, tuvimos que +dirigirnos a usuarios de todo tipo de plataformas y llegar a los +ciudadanos vía organizaciones no gubernamentales. Este proyecto apunta a +convertir los datos públicos en objeto social y crear una red extensa +que exija cambios. + +![Figure 27. La aplicación de BudgIT (BudgIT Nigeria)](figs/incoming/06-YY.png) + +Para entablar exitosamente la relación con los usuarios, tenemos que +entender lo que quieren. ¿Qué le importa al ciudadano nigeriano? ¿Dónde +sienten que hay falta de información? ¿Cómo podemos hacer que los datos +sean relevantes para sus vidas? El blanco inmediato de BudgIT es el +nigeriano alfabetizado promedio conectado a foros online y medios +sociales. Para competir por la limitada atención de los usuarios +inmersos en una amplia variedad e intereses (juegos, lectura, +socialización) tenemos que presentar los datos de modo breve y conciso. +Luego de difundir una imagen de los datos como un tuit o una infografía, +existe la oportunidad de una relación más sostenida con una experiencia +más interactiva para dar a los usuarios una visión más amplia. + +Al visualizar datos es importante comprender el nivel de manejo de datos +que tienen nuestros usuarios. Por hermosos y sofisticados que puedan +ser, los diagramas complejos y las aplicaciones interactivas pueden no +comunicar de un modo significativo a nuestros usuarios en base a sus +anteriores experiencias con la interpretación de datos. Una buena +visualización habla al usuario en un lenguaje que puede entender, y +presentará una historia con la que puede relacionarse fácilmente. + +Hemos consultado a más de 10.000 nigerianos respecto del presupuesto, y +los dividimos en tres categorías de acuerdo a su perfil para asegurar el +valor óptimo. Explicamos brevemente las categorías a continuación: + + Usuarios ocasionales + +: Son usuarios que quieren información de modo simple y rápido. Les + interesa tener una idea de los datos, no un análisis detallado. + Podemos dirigirnos a ellos vía tweet o gráficos interactivos. + + Usuarios activos + +: Usuarios que estimulan el debate y usan los datos para incrementar + su conocimiento de un área determinada o cuestionan los supuestos de + los datos. A estos usuarios, queremos proveerles mecanismos de + retroalimentación y la posibilidad de compartir su visión con sus + pares vía las redes sociales. + + Acaparadores de datos + +: Estos usuarios quieren datos en crudo para hacer visualizaciones o + análisis. Simplemente les damos los datos para sus propósitos. + +Con BudgIT nuestra relación con los usuarios se basa en lo siguiente: + + Estimular debates en torno a tendencias actuales + +: BudgIT sigue debates online y offline y busca proveer datos sobre + estos tópicos. Por ejemplo, con las huelgas del combustible en enero + de 2012, hubo constante agitación entre los manifestantes respecto + de la necesidad de que volviera a haber subsidios al combustible y + reducir los gastos públicos extravagantes e innecesarios. BudgIT + siguió el debate vía los medios sociales y en 36 horas con mucho + esfuerzo creó una aplicación que permite a los ciudadanos + reorganizar el presupuesto nigeriano. + + Buenos mecanismos de retroalimentación + +: Nos relacionamos con los usuarios a través de canales de debate y + medios sociales. Muchos usuarios quieren conocer las historias + detrás de los datos y muchos nos piden nuestra opinión. Nos + aseguramos de que nuestras respuestas solo expliquen los hechos + detrás de los datos y no se vean afectadas por nuestros puntos de + vista personales o políticos. Tenemos que mantener abiertos canales + de retroalimentación, responder activamente a comentarios y + relacionarnos con los usuarios de modo creativo para asegurar que se + mantenga la comunidad creada en torno a los datos. + + Hacerlo local + +: En el caso de un conjunto de datos que apunta a un grupo en + particular, BudgIT busca localizar su contenido y promover un canal + de debate que se relacione con las necesidades e intereses de grupos + particulares de usuarios. En particular, nos interesa relacionarnos + con usuarios en torno a cuestiones que les preocupan vía SMS. + +Luego de poner los datos sobre el gasto público en yourbudgit.com, +buscamos tomar contacto con los ciudadanos a través de varias ONG. +También pensamos desarrollar un marco de participación en el que +ciudadanos e instituciones oficiales puedan realizar asambleas públicas +para definir ítems claves del presupuesto que deben ser priorizados. + +El proyecto ha sido cubierto por medios locales y extranjeros, desde +[CP-Africa](http://bit.ly/cp-africa-budget) hasta [laBBC](http://bbc.in/africa-budget). +Hemos emprendido un estudio de los presupuestos entre 2002 y 2011 +para el sector de seguridad para un periodista de la AP, Yinka Ibukun. +La mayoría de las organizaciones de medios son “acaparadores de datos” +y nos han pedido datos para usar en sus informes. +Estamos planeando nuevas colaboraciones con periodistas y +organizaciones noticiosas en los meses venideros. + +— *Oluseun Onigbinde, BudgIT Nigeria* + + + ADDED mapeda.ston Index: mapeda.ston ================================================================== --- mapeda.ston +++ mapeda.ston @@ -0,0 +1,12594 @@ +OrderedCollection [ + GrafoscopioNode { + #header : '%metadata', + #body : '', + #tags : OrderedCollection [ + 'código' + ], + #children : OrderedCollection [ ], + #parent : GrafoscopioNode { + #header : 'Arbol principal', + #body : '', + #tags : OrderedCollection [ + 'text' + ], + #children : @1, + #level : 0, + #nodesInPreorder : OrderedCollection [ + @5, + @2, + GrafoscopioNode { + #header : '%idea Portada', + #body : '\\begin{titlepage} + \\begin{center} + + \\vspace*{1cm} + +% Dissertation No. + + \\vspace*{1cm} + + \\large{ \\textbf{ \\uppercase + {Manual de Periodismo de Datos}}} + + \\vspace{0.5cm} + + \\vspace{1.5cm} + + \\large{Versión 1.0} + + \\vspace{0.8cm} + + Editado por\\\\ + \\textbf{Jonathan Gray, \\\\ Liliana Bonegru \\\\ y Lucy Chambers} + + \\vspace{0.8cm} +% \\textit{PhD(c) en Diseño y Creación \\\\ MSc en Educación \\\\ Informático-Matemático} + + \\vspace{0.8cm} + \\vspace{0.5cm} + \\vspace{2cm} + +%Insert Creative Commons Artwork +\\DeclareGraphicsExtensions{.pdf,.png,.jpg} +\\begin{center} +\\leavevmode +%Replace image file name below ("by-sa.png") with your license +\\includegraphics[width=1in]{./img/cc-by-sa.png} +\\end{center} +\\label{fig:cc} +%insert a link to the licence and its description below +\\scriptsize{ +Esta obra está licenciada bajo una licencia \\\\ \\href{http://creativecommons.org/licenses/by-sa/3.0/}{Creative Commons Attribution-ShareAlike 3.0 Unported License} \\\\ +y puede ser copiada y modificada de acuerdo a los términos de dicha licencia.\\\\ +Una versión en línea actualizada de esta obra y su código fuente está publicada en: \\\\ + \\href{http://http://mutabit.com/repos.fossil/mapeda/}{http://mutabit.com/repos.fossil/mapeda/}} + + + \\vfill + + % \\copyright 2015 por Autores Colectivos + + + + \\end{center} + \\thispagestyle{empty} +\\end{titlepage} + +\\newpage +\\thispagestyle{empty} +\\mbox{} +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @5, + #level : 1, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Páginas preliminares', + #body : '', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'Un trabajo en equipo', + #body : '![Cómo empezó todo](figs/incoming/00-01.jpg) + +El Manual de Periodismo de Datos nació en un taller de 48 horas +encabezado por European Journalism Centre y la Open Knowledge Foundation +en la MozFest 2011 en Londres. Luego se amplió, convirtiéndose en un +esfuerzo internacional en colaboración, que contó con la participación +de docenas de los principales representantes del periodismo de datos y +sus mejores exponentes. + +En los 6 meses siguientes que pasaron entre el comienzo del libro y su +primera presentación, cientos de personas contribuyeron de diversas +maneras. Si bien hicimos nuestro mejor esfuerzo para reflejar a todos, +hemos tenido una cantidad de anónimo, pseudónimos y editores imposibles +de rastrear. + +A todos los que aportaron y no aparecen en la lista, les decimos dos +cosas. Primero, gracias. Segundo. Pueden por favor decirnos quiénes son +de modo de poder darles el crédito que se merecen.', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @12, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/p%C3%A1ginas_preliminares_0.html' + ] + }, + GrafoscopioNode { + #header : 'Contribuyentes', + #body : 'Las siguientes personas redactaron o contribuyeron directamente en la +redacción de los textos en la actual versión del libro (y las +ilustraciones son de la diseñadora gráfica Kate Hudson): + + - Gregor Aisch, Open Knowledge Foundation + - Brigitte Alfter, Journalismfund.eu + - David Anderton, Periodista freelance + - James Ball, The Guardian + - Caelainn Barr, Citywire + - Mariana Berruezo, Hacks/Hackers Buenos Aires + - Michael Blastland, Periodista freelance + - Mariano Blejman, Hacks/Hackers Buenos Aires + - John Bones, Verdens Gang + - Marianne Bouchart, Bloomberg News + - Liliana Bounegru, European Journalism Centre + - Brian Boyer, Chicago Tribune + - Paul Bradshaw, Birmingham City University + - Wendy Carlisle, Australian Broadcasting Corporation + - Lucy Chambers, Open Knowledge Foundation + - Sarah Cohen, Duke University + - Alastair Dant, the Guardian + - Helen Darbishire, Access Info Europe + - Chase Davis, Center for Investigative Reporting + - Steve Doig, Walter Cronkite School of Journalism, Arizona State University + - Lisa Evans, The Guardian + - Tom Fries, Bertelsmann Stiftung + - Duncan Geere, Wired UK + - Jack Gillum, Associated Press + - Jonathan Gray, Open Knowledge Foundation + - Alex Howard, O’Reilly Media + - Bella Hurrell, BBC + - Nicolas Kayser-Bril, Journalism++ + - John Keefe, WNYC + - Scott Klein, ProPublica + - Alexandre Léchenet, Le Monde + - Mark Lee Hunter, INSEAD + - Andrew Leimdorfer, BBC + - Friedrich Lindenberg, Open Knowledge Foundation + - Mike Linksvayer, Creative Commons + - Mirko Lorenz, Deutsche Welle + - Esa Mäkinen, Helsingin Sanomat + - Pedro Markun, Transparência Hacker + - Isao Matsunami, Tokyo Shimbun + - Lorenz Matzat, OpenDataCity + - Geoff McGhee, Stanford University + - Philip Meyer, Professor Emeritus, University of North Carolina at + Chapel Hill + - Claire Miller, WalesOnline + - Cynthia O’Murchu, Financial Times + - Oluseun Onigbinde, BudgIT + - Djordje Padejski, Knight Journalism Fellow, Stanford University + - Jane Park, Creative Commons + - Angélica Peralta Ramos, La Nacion (Argentina) + - Cheryl Phillips, The Seattle Times + - Aron Pilhofer, New York Times + - Lulu Pinney, Diseñador infógrafo freelance + - Paul Radu, Organised Crime and Corruption Reporting Project + - Simon Rogers, The Guardian + - Martin Rosenbaum, BBC + - Amanda Rossi, Amigos de Januária + - Martin Sarsale, Hacks/Hackers Buenos Aires + - Fabrizio Scrollini, London School of Economics and Political Science + - Sarah Slobin, Wall Street Journal + - Sergio Sorin, Hacks/Hackers Buenos Aires + - Jonathan Stray, The Overview Project + - Brian Suda, (optional.is) + - Chris Taggart, OpenCorporates + - Jer Thorp, The New York Times R&D Group + - Andy Tow, Hacks/Hackers Buenos Aires + - Luk N. Van Wassenhove, INSEAD + - Sascha Venohr, Zeit Online + - Jerry Vermanen, NU.nl + - César Viana, University of Goiás + - Farida Vis, University of Leicester + - Pete Warden, Independent Data Analyst and Developer + - Chrys Wu, Hacks/Hackers', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @12, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/p%C3%A1ginas_preliminares_1.html' + ] + }, + GrafoscopioNode { + #header : 'Lo que este libro es (y lo que no es)', + #body : 'Este libro busca ser un recurso útil para aquellos interesados en +convertirse en periodistas de datos o que simplemente quieran tomarlo +como un pasatiempo. + +Muchas personas contribuyeron a su escritura, y a través de nuestra +edición hemos tratado de hacer que se reflejen sus distintas voces y +visiones. Esperamos que su lectura resulte una conversación rica e +informativa respecto de lo que es el Periodismo de Datos, por qué es +importante, y cómo hacerlo. + +Lamentablemente, leer este libro no le proveerá un repertorio general de +conocimientos y capacidades que necesitará para convertirse en +periodista de datos. Esto requeriría una vasta biblioteca manejada por +cientos de expertos capaces de responder preguntas sobre cientos de +temas. Por suerte, tal biblioteca existe; se llama Internet. En cambio, +esperamos que este libro lo oriente sobre cómo iniciarse y dónde mirar +si quiere avanzar. Los ejemplos y tutoriales son ilustrativos más que +exhaustivos. + +Consideramos muy afortunado haber contado con tanto tiempo, energía y +paciencia de todos nuestros contribuyentes y nos hemos esforzado por +aprovecharlo de la mejor manera. Esperamos que –además de ser una fuente +de referencia útil- el libro ayude a documentar la pasión y el +entusiasmo, la visión y la energía de un movimiento en crecimiento. El +libro intenta mostrar lo que sucede tras bambalinas, las historias +detrás de los artículos. + +El Manual de Periodismo de Datos es una obra en progreso. Si cree que +algo necesita ser corregido o está notoriamente ausente, por favor +indíquelo para su inclusión en la siguiente versión. También está +disponible gratuitamente bajo una licencia [Creative Commons de +Atribución Compartir](http://creativecommons.org/licenses/by-sa/3.0/) +bajo la misma Licencia y lo alentamos fuertemente a que lo comparta con +quien crea que puede interesarse en su lectura. + +*Liliana Bounegru ([@bb\\_liliana](https://twitter.com/bb_liliana))*\\ +*Lucy Chambers ([@lucyfedia](https://twitter.com/lucyfedia))*\\ +*Jonathan Gray ([@jwyg](https://twitter.com/jwyg))*\\ +*March 2012*', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @12, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/p%C3%A1ginas_preliminares_2.html' + ] + }, + GrafoscopioNode { + #header : 'El Manual de un vistazo', + #body : 'Este manual a un vistazo: la infografista Lulu PInney creó este +magnífico afiche, que da una visión general del contenido del Manual de +periodismo de datos + +![El Manual de un vistazo](figs/incoming/00-poster.png) + +El Manual de Periodismo de Datos puede ser copiado libremente, +redistribuido y reusado bajo los términos de la licencia [Creative +Commons +Atribución-CompartirIgual](http://creativecommons.org/licenses/by-sa/3.0/). +Los contribuyentes al Manual del Periodimo de Datos retienen el +copyright sobre sus contribuciones respectivas y están de acuerdo en +publicarlas bajo los términos de esta licencia. +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @12, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/p%C3%A1ginas_preliminares_3.html' + ] + } + ], + #parent : @5, + #level : 1, + #links : OrderedCollection [ + '' + ] + }, + @15, + @19, + @23, + @27, + GrafoscopioNode { + #header : 'Introducción', + #body : '¿Qué es el periodismo de datos? ¿Qué potencial tiene? ¿Cuáles son sus +límites? ¿De dónde viene? En esta sección analizamos qué es el +periodismo de datos y lo que puede significar para las organizaciones de +noticias. Paul Bradshaw (Birmingham City University) y Mirko Lorenz +(Deutsche Welle) se refieren a la particular importancia de esta nueva +disciplina. Destacados periodistas de datos comentan las claves a tener +en cuenta y sus ejemplos favoritos. Finalmente Liliana Bounegru +(European Journalism Centre) ubica al Periodismo de Datos en un contexto +histórico más amplio. + +### Qué contiene este capítulo? + +- [¿Qué es el periodismo de datos?](introducción_0.html) +- [Por qué debieran usar datos los periodistas](introducción_1.html) +- [¿Por qué es importante el periodismo de + datos?](introducción_2.html) +- [Algunos ejemplos favoritos](introducción_3.html) +- [El periodismo de datos en perspectiva](introducción_4.html) +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : '¿Qué es el periodismo de datos?', + #body : '¿Qué es el periodismo de datos? Podría contestar, simplemente, que es +periodismo que se hace con datos. Pero eso no es de gran ayuda. + +Tanto “datos” como “periodismo” son términos problemáticos. Algunos +creen que “datos” es cualquier colección de cifras, por lo general +reunidas en una hoja de cálculo. Hace 20 años, esos eran prácticamente +los únicos datos que manejaban los periodistas. Pero ahora vivimos en un +mundo digital, un mundo en el que casi cualquier hecho puede ser (y casi +todo es) descripto con números. + +Su carrera profesional, 300.000 documentos confidenciales, las personas +que componen su círculo de amigos; todo esto puede ser (y es) descripto +con solo dos números: ceros y unos. Fotos, video, y audio; asesinatos, +enfermedades, votos políticos, corrupción y mentiras, también descriptos +con ceros y unos. + +¿Qué es lo que hace que el periodismo de datos sea diferente del resto +del periodismo? Quizás sean las nuevas posibilidades que aparecen, +cuando se combina el tradicional “olfato para las noticias” y la +capacidad de narrar una historia convincente, con la escala y alcance de +la información digital disponible en la actualidad. + +Y esas posibilidades pueden aparecer en cualquier momento del proceso +periodístico: cuando contamos con la programación necesaria para +automatizar el proceso de recoger y combinar información proveniente del +gobierno municipal, la policía y otras fuentes civiles, como hizo Adrian +Holovaty con [ChicagoCrime](http://chicago.everyblock.com/crime/) y +luego [EveryBlock](http://www.everyblock.com/). + +O usar software para encontrar relaciones entre cientos y miles de +documentos, tal como hizo The Telegraph con [los gastos de los +parlamentarios](http://tgr.ph/mps-expenses). + +![Investigue los gastos de su representante parlamentario (The Guardian)](figs/incoming/01-01.png) + +El periodismo de datos puede ayudar a un periodista a contar una +historia convincente por medio de infografías atractivas. Por ejemplo, +las conversaciones espectaculares de Hans Roslign sobre la visualización +de la pobreza mundial con [Gapminder](http://www.gapminder.org/) (que se +puede traducir como Recuerdabrecha, n. del t.) han atraído millones de +visitas en todo el mundo. Y la obra popular de David McCandless al +destilar grandes cifras –tales como poner en contexto el gasto público, +o la polución generada por el volcán islandés- muestra la importancia de +un diseño claro en [Information is Beautiful](http://www.informationisbeautiful.net/). + +O puede ayudar a explicar cómo se relaciona una historia con un +individuo, como hacen ahora la BBC y el Financial Times habitualmente +con sus interactivos sobre el presupuesto (donde usted puede averiguar +cómo el presupuesto lo afecta en particular a usted en vez de a un +genérico “Juan Pueblo”). Y puede abrir el proceso mismo de búsqueda de +información, como hace The Guardian de modo tan exitoso al compartir +datos, contexto y preguntas en su +[Datablog](http://www.guardian.co.uk/news/datablog). + +Los datos pueden ser la fuente del periodismo de datos, o pueden ser la +herramienta con la que se narra la historia o ambas cosas. Como +cualquier fuente, debe tratarse con escepticismo; y como cualquier +herramienta, debemos ser conscientes de cómo puede modelar y limitar las +historias que se crean con la misma. + +— *Paul Bradshaw, Birmingham City University* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : GrafoscopioNode { + #header : 'Introducción', + #body : Text { + #string : '', + #runs : RunArray { + #runs : [ ], + #values : [ ] + } + }, + #tags : OrderedCollection [ + 'text' + ], + #children : @34, + #level : 1, + #links : OrderedCollection [ + '' + ] + }, + #level : 2, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Por qué debieran usar datos los periodistas', + #body : 'El periodismo está sitiado. En el pasado, como sector, nos basábamos en +ser los únicos que operábamos una tecnología para multiplicar y +distribuir lo que había pasado de un día al otro. La imprenta servía +como puerta de entrada. Cualquiera que quisiera llegar a la gente de una +ciudad o una región a la mañana siguiente, recurría a los diarios. Esa +era se acabó. + +Hoy las noticias fluyen al mismo tiempo que suceden, a través de +múltiples fuentes, testigos presenciales y blogs, y lo que ha sucedido +es filtrado a través de una vasta red de conexiones sociales, se +jerarquiza, se comenta y muy a menudo se ignora. + +Por eso el periodismo de datos es tan importante. Reunir, filtrar y +visualizar lo que sucede más allá de lo que nos muestran nuestros ojos +tiene creciente valor. En la economía global de hoy el jugo de naranja +que toma por la mañana, el café que prepara… hay relaciones invisibles +entre estos productos, otra gente y usted. El lenguaje de esta red es el +de los datos: pequeños puntos de información que a menudo son +irrelevantes como instancia individual, pero enormemente importantes +cuando se los ve desde el ángulo correcto. + +En este momento, unos cuantos periodistas pioneros ya están demostrando +cómo se puede usar datos para crear una visión más profunda de lo que +sucede a nuestro alrededor y cómo puede afectarnos. + +El análisis de datos puede revelar “la forma de una historia” (Sarah +Cohen) o proveernos una “nueva cámara” (David McCandless). Usando datos, +la tarea de los periodistas pasa de centrarse en ser los primeros en +informar, a ser los que nos dicen lo que un proceso podría significar +realmente. La gama de temas puede ser amplia. La próxima crisis +financiera en ciernes. Los datos económicos detrás de los productos que +usamos. El mal uso de fondos o errores políticos, presentados con una +visualización convincente que deje poco margen para rebatirla. + +Es por esto que los periodistas debieran ver los datos como una +oportunidad. Es posible, por ejemplo, revelar cómo una amenaza abstracta +(como el desempleo) afecta a la gente de acuerdo a su edad, su género o +su nivel de educación. Usar datos transforma algo abstracto en algo que +todos pueden entender y con lo que pueden relacionarse. + +Pueden crear herramientas de cálculo personalizadas para ayudar a la +gente a tomar decisiones, se trate de comprar un auto o una casa, +decidir un rumbo educativo o profesional en su vida, o hacer un control +de costos para no meterse en deudas. + +Pueden analizar la dinámica de una situación compleja como disturbios o +un debate político, mostrar falacias y ayudar a todos a encontrar +posibles soluciones para problemas complejos. + +Formarse en la búsqueda, depuración y visualización de datos es +transformador para la profesión de reunir información también. Los +periodistas que dominen esto descubrirán que apoyar sus artículos en +datos y la visión que aportan es un alivio. Menos adivinar, menos buscar +citas; en vez de ello, un periodista puede crear una posición fuerte +apoyada en datos y esto puede afectar mucho el rol del periodismo. + +Además, introducirse en el periodismo de datos ofrece una perspectiva +para el futuro. Hoy, cuando las redacciones se reducen, la mayoría de +los periodistas esperan cambiar el área de las relaciones públicas. Pero +los periodistas de datos o los científicos de datos ya son un grupo de +profesionales muy solicitados, no solo por los medios. Las empresas e +instituciones de todo el mundo buscan “gente que encuentre sentido a las +cosas”, y profesionales que sepan cómo revisar datos y convertirlos en +algo tangible. + +Los datos representan una promesa, y esto es lo que entusiasma a las +redacciones, haciéndolas buscar un nuevo tipo de periodista. Para la +gente que trabaja por su cuenta, manejar datos ofrece un camino para +obtener nuevas oportunidades y un salario estable también. Véalo de este +modo: en vez de contratar periodistas que llenen rápidamente páginas y +sitios en la red con contenido de bajo valor, el uso de datos podría +crear demanda para paquetes interactivos, que solo pueden crearse +invirtiendo una semana entera en resolver una cuestión. Esto es un +cambio positivo para muchos sectores de los medios. + +Hay una barrera que impide a los periodistas usar este potencial: la +necesidad de capacitarse para trabajar con datos en todos los pasos, +desde una primera pregunta hasta un gran impacto periodístico basado en +datos. + +Trabajar con datos es como introducirse en un territorio vasto y +desconocido. A primera vista los datos crudos resultan inteligibles para +los ojos y la mente. Tales datos son inmanejables. Es difícil ordenarlos +correctamente para su visualización. Se necesita periodistas +experimentados, que tengan la energía como para analizar datos crudos a +menudo confusos o aburridos y “ver” las historias ocultas allí. + +— *Mirko Lorenz, Deutsche Welle* + + +####El estudio + +El European Journalism Centre realizó una +[encuesta](http://bit.ly/ddjnet-survey) para saber más sobre las +necesidades de capacitación de los periodistas. Descubrimos que hay una +gran disposición de salir de la postura cómoda del periodismo +tradicional, e invertir tiempo para dominar nuevas capacidades. Los +resultados de la encuesta demuestran que los periodistas ven la +oportunidad, pero necesitan un poco de apoyo para superar los problemas +iniciales que les impiden trabajar con daos. Hay confianza de que si el +periodismo de datos fuera adoptado de modo más universal, los flujos de +trabajo, las herramientas y los resultados mejorarían rápidamente. +Pioneros tales como The Guardian, The New York Times, The Texas Tribune, +y Die Zeit siguen elevando el nivel con sus artículos basados en datos. + +¿El periodismo de datos seguirá siendo el dominio de un pequeño puñado +de pioneros o pronto toda organización de noticias tendrá su propio +equipo de periodistas dedicados especialmente a los datos. Esperamos que +este manual ayude a más periodistas y redacciones a aprovechar este +campo emergente. + +![Encuesta del European Journalism Centre sobre necesidades de capacitación](figs/incoming/01-DD.png) +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @38, + #level : 2, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : '¿Por qué es importante el periodismo de datos?', + #body : 'Preguntamos a algunos de los principales practicantes y partidarios del +periodismo de datos por qué piensan que el periodismo de datos es un +desarrollo importante. los datos crudos resultan inteligibles para los +ojos y la mente. Esto es lo que dijeron. +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'Filtrar el flujo de datos', + #body : 'Cuando había escasez de información, la mayor parte de nuestros +esfuerzos estaban dedicados a buscarla y reunirla. Ahora que la +información es abundante, es más importante el procesamiento. El +procesamiento tiene dos niveles: 1) análisis para encontrar sentido y +estructura en el flujo sin fin de datos y 2) presentación de esa +información para meter lo que es importante y relevante en la cabeza del +consumidor. Al igual que la ciencia, el periodismo de datos da a conocer +sus métodos y presenta sus descubrimientos de un modo que pueda ser +verificado a través de su replicado. + +— *Philip Meyer, Professor Emeritus, University of North Carolina at +Chapel Hill* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Nuevos enfoques para narrar historias', + #body : 'El periodismo de datos es un término abarcativo que, para mí, incluye un +conjunto de herramientas, técnicas y enfoques de la narrativa siempre +crecientes. Puede incluir todo, desde el tradicional periodismo asistido +por computadoras (usando datos como una “fuente”) hasta la visualización +más avanzada de datos y aplicaciones de noticias. El objetivo unificador +es periodístico: proveer información y análisis para ayudar a +informarnos todos sobre asuntos importantes de actualidad. + +— *Aron Pilhofer, New York Times* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Como periodismo fotográfico con una laptop', + #body : '“El periodismo de datos” difiere del “periodismo escrito” solo en que +usamos un equipo diferente. Todos nos ganamos la vida olfateando, +reportando y relacionando historias. Es como el “periodismo +fotográfico”; solo hay que cambiar la cámara por una laptop. + +— *Brian Boyer, Chicago Tribune* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'El periodismo de datos es el futuro', + #body : 'El periodismo de datos es el futuro. Los periodistas tienen que saber +manejar datos. Hace un tiempo uno descubría cosas hablando con gente en +bares, y puede ser que esto siga sucediendo a veces. Pero ahora también +se trata de analizar datos, equiparse con herramientas, y analizarla y +encontrar lo que es interesante. Tener todo en perspectiva, ayudando a +la gente a ver cómo encajan las piezas (para no repetir todo), y qué +pasa en el país. + +— *Tim Berners-Lee, founder of the World Wide Web* + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'El procesamiento de cifras se une al pulido del lenguaje', + #body : 'El periodismo de datos es tender un puente para superar la brecha entre +los técnicos estadísticos y los cinceladores de palabras. Ubicar cosas +destacadas e identificar tendencias que no solo son significativas +estadísticamente sino que también son relevantes para desentrañar el +mundo de hoy, que es intrínsecamente complejo. + +— *David Anderton, freelance journalist* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Actualizar sus capacidades', + #body : 'El periodismo de datos implica un nuevo conjunto de habilidades para +buscar, comprender y visualizar fuentes digitales, en una época en que +las capacidades básicas del periodismo tradicional ya no bastan. No lo +reemplaza, le agrega cosas. + +En un momento en que las fuentes se están volviendo digitales, los +periodistas pueden y tienen que estar más en contacto con estas fuentes. +Internet abrió posibilidades que van más allá de lo que podemos entender +hoy. El periodismo de datos es solo el comienzo de la evolución de +nuestras prácticas pasadas para adaptarse al online. + +El periodismo de datos sirve a dos importantes propósitos para las +organizaciones de noticiosas: encontrar historias únicas (no de los +cables) y ejecutar la función de alerta. Especialmente en tiempos de +crisis financieras, estos objetivos son importantes para los diarios. + +Desde el punto de vista de un diario regional, el periodismo de datos es +crucial. Existe el dicho: “una teja floja en su casa se considera más +importante que disturbios en un país lejanos”. A uno lo golpea en la +cara e impacta en su vida de modo más directo. Al mismo tiempo, la +digitalización está en todas partes. Debido a que los diarios locales +tienen este impacto directo en su vecindario y las fuentes se vuelven +digitalizadas, un periodista debe saber cómo encontrar, analizar y +visualizar una historia a partir de datos. + +— *Jerry Vermanen, NU.nl* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Un remedio para la asimetría de la información', + #body : 'La asimetría de la información –no la falta de información sino la +incapacidad de absorberla y procesarla a la velocidad y con el volumen +que nos llega- es uno de los problemas más significativos que enfrentan +los ciudadanos al elegir cómo vivir sus vidas. La información tomada de +medios impresos, visuales y radiales influye en las opciones y las +acciones de los ciudadanos. El buen periodismo de datos ayuda a combatir +la asimetría de la información. + +— *Tom Fries, Bertelsmann Foundation* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Una respuesta a las relaciones públicas basadas en datos', + #body : 'La disponibilidad de herramientas de medición y sus precios decrecientes +–en una combinación auto-sustentada que se concentra en el desempeño y +la eficiencia en todos los aspectos de la sociedad- han llevado a +quienes toman las decisiones a cuantificar los avances de sus políticas, +monitorear tendencias e identificar oportunidades. + +Las compañías continuamente encuentran nuevas mediciones que muestran su +buen desempeño. A los políticos les encanta alardear de las cifras sobre +reducción de desempleo y crecimiento del PBI. La falta de conocimientos +por parte de los periodistas respecto de los escándalos de Enron, +Worldcom, Madoff o Solyndra es prueba de la incapacidad de muchos +profesionales de ver más allá de las cifras. Hay una tendencia a aceptar +las cifras más que otros datos, ya que tienen un aura de seriedad, +aunque sean completamente inventadas. + +El saber manejar datos ayudará a los periodistas a aguzar su sentido +crítico al enfrentar cifras, y ojalá que les sirva para avanzar un poco +en su relación con los departamentos de RRPP. + +— *Nicolas Kayser-Bril, Journalism++* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Proveer interpretaciones independientes de información oficial', + #body : 'Luego del terremoto devastador y el subsecuente desastre de la planta +nuclear de Fukushima en 2011, la importancia del periodismo de datos se +ha hecho claro para la gente de medios en Japón, país que en general va +a la zaga en materia de periodismo digital. + +Quedamos a la deriva cuando el gobierno y los expertos no tuvieron datos +creíbles acerca de los daños. Cuando los funcionarios ocultaron al +público los datos SPEEDI (predicción de difusión de materiales +radioactivos), no estábamos en condiciones de decodificarlos aunque se +hubiesen filtrado. Voluntarios comenzaron a reunir datos sobre +radioactividad usando sus propios recursos, pero no estábamos armados +con conocimientos estadísticos, de interpolación, de visualización y +demás. Los periodistas tienen que tener acceso a los datos en crudo y +aprender a no depender de las interpretaciones oficiales de los mismos. + +— *Isao Matsunami, Tokyo Shimbun*', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Manejar el diluvio de datos', + #body : 'Los desafíos y las oportunidades que presenta la revolución digital +siguen complicando al periodismo. En una era de abundancia de +información, los periodistas y los ciudadanos necesitan mejores +herramientas, se trate de curar los samizdat del siglo XXI en Medio +Oriente, procesar una avalancha de datos difundidos a medianoche, o +encontrar la mejor manera de visualizar la calidad del agua en una +nación. Al debatirnos con los desafíos del consumo que presenta este +diluvio de datos, las nuevas plataformas de edición también están dando +a todos el poder de reunir y compartir datos digitalmente, +convirtiéndolos en información. Mientras los periodistas y editores han +sido los vectores tradicionales de la colecta y diseminación de +información, el ambiente horizontal de información ahora hace que las +noticias se conozcan primero online y no en las redacciones. + +En todo el planeta, de hecho, el vínculo entre los datos y el periodismo +se está fortaleciendo. En una era de grandes cantidades de datos, la +creciente importancia del periodismo de datos está en la capacidad de +sus practicantes de dar contexto, claridad y –quizás lo más importante, +encontrar la verdad en la cantidad en expansión de contenido digital en +el mundo. Eso no significa que las organizaciones de medios integradas +de hoy no tengan un rol crucial. Lejos de ello. En la era de la +información, se necesita más que nunca a los periodistas para curar, +verificar, analizar y sintetizar los datos. En ese contexto, el +periodismo de datos tiene una profunda importancia para la sociedad. + +Hoy, encontrarle sentido a los grandes volúmenes de datos, en particular +los datos no estructurados, serán un objetivo central de los científicos +de todo el mundo, trabajen en salas de redacción, Wall Street o Silicon +Valley. Notoriamente esa meta se verá facilitada sustancialmente por un +conjunto creciente de herramientas comunes, sean empleadas por +tecnólogos del estado, tecnólogos de la salud o desarrolladores de las +redacciones. + +— *Alex Howard, O’Reilly Media* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Nuestras vidas son datos', + #body : 'El buen periodismo de datos es difícil, porque el buen periodismo es +difícil. Significa cómo obtener los datos, cómo entenderlos, y cómo +encontrar la historia. A veces hay callejones sin salida, y a veces no +hay una gran historia. Al fin de cuentas, si solo fuera cuestión de +apretar el botón indicado, no sería periodismo. Pero eso es lo que hace +que valga la pena –en un mundo en el que nuestras vidas cada vez son más +datos-, que sea esencial para una sociedad libre y justa. + +— *Chris Taggart, OpenCorporates* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Una manera de ahorrar tiempo', + #body : 'Los periodistas no tienen tiempo para perder transcribiendo cosas a mano +y complicarse tratando de obtener información de archivos PDF, por lo +que aprender un poco de código (o saber dónde buscar gente que puede +ayudar) es increíblemente valioso. + +Un periodista de Folha do Sāo Paulo estaba trabajando con el presupuesto +local y me llamó para agradecernos por publicar online las cuentas de la +municipalidad de Sāo Paulo (2 días de trabajo para un solo hacker). Dijo +que las había estado transcribiendo a mano los últimos 3 meses, tratando +de encontrar una historia. También recuerdo haber resuelto un “problema +de PDF” para *Contas Abertas*, una organización que monitorea noticias +parlamentarias: 15 minutos y 15 líneas de código, en vez de un mes de +trabajo. + +— *Pedro Markun, Transparência Hacker* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Una parte esencial del herramental del periodista', + #body : 'Creo que es importante destacar el aspecto “periodístico” o de reportero +del “periodismo de datos. El ejercicio no debiera ser analizar o +visualizar datos por el gusto de hacerlo, sino utilizarlo como +herramienta de modo de aproximarnos más a la verdad de lo que sucede en +el mundo. Veo la capacidad de analizar e interpretar datos como parte +esencial del set de herramientas actual de los periodistas, en vez de +una disciplina por separado. Al fin de cuentas, todo tiene que ver con +el buen periodismo y contar historias del modo más apropiado. + +El periodismo de datos es otra manera de analizar el mundo y hacer que +los poderes constituidos rindan cuentas. Con una creciente cantidad de +datos disponible, ahora es más importante que nunca que los periodistas +sean conscientes de las técnicas del periodismo de datos. Esta debe ser +una herramienta que cualquier periodista debiera incorporar, se trate de +aprender cómo trabajar directamente con datos, o a colaborar con alguien +que lo pueda hacer. + +Su verdadero potencial está en ayudarlo a obtener información que de +otro modo sería muy difícil de encontrar o demostrar. Un buen ejemplo es +la historia de Steve Doig que analizó patrones de daños del huracán +Andrew. Unió dos conjuntos distintos de datos: uno que mapeaba el nivel +de destrucción causado por el huracán, y otro que muestra las +velocidades de los vientos. Esto le permitió señalar áreas en las cuales +las malas prácticas en la construcción de edificios +contribuyeron/intensificaron el impacto del desastre. Ganó por la +historia un [Pulitzer Prize](http://www.pulitzer.org/awards/1993) en +1993 y sigue siendo un gran ejemplo de lo que es posible. + +Idealmente se usan los datos para descubrir cosas destacadas, +sorprendentes o áreas de interés. En este sentido, actúan como pistas. +Si bien las cifras pueden ser interesantes, no basta escribir solamente +sobre datos. Hay que hacer el trabajo de periodista para explicar qué +significan. + +— *Cynthia O’Murchu, Financial Times* + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Adaptarse a cambios en nuestro ambiente de información', + #body : 'Las nuevas tecnologías digitales generan nuevas maneras de producir y +diseminar el conocimiento en la sociedad. El periodismo de datos puede +entenderse como el intento de los medios de adaptarse y responder a los +cambios en el ambiente de la información, incluyendo maneras de contar +historias más interactivas y multidimensionales, que permite a los +lectores explorar las fuentes que subyacen a las noticias, alentándolos +a participar en el proceso de crear y evaluar historias. + +— *César Viana, University of Goiás* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Una manera de ver cosas que de otro modo podría no ver', + #body : 'Algunas historias sólo pueden entenderse y explicarse analizando –y a +veces visualizando- datos. Las relaciones entre personas o entes +poderosos quedarían sin revelar, las muertes causadas por políticas +farmacéuticas permanecerían ocultas, las políticas ambientales que dañan +el medio continuarían sin límite. Pero cada una de estas situaciones han +podido modificarse gracias a los datos obtenidos, analizados y aportados +por los periodistas a los lectores. Los datos pueden ser simples como +una planilla de cálculo, o un registro de llamadas telefónicas, o +complejos como los resultados de pruebas escolares o datos de +infecciones hospitalarias; como sea, allí hay historias que vale la pena +contar. + + +— *Cheryl Phillips, The Seattle Times* + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Una manera de enriquecer los artículos ', + #body : 'Podemos pintar cuadros de nuestras vidas completas con nuestro rastro +digital. Desde lo que consumimos y navegamos, hasta donde y cuando +viajamos, nuestras preferencias musicales, nuestros primeros amores, los +hitos de nuestros hijos, incluso nuestros últimos deseos, todo puede ser +rastreado, digitalizado, almacenado en la nube y difundido.\\*\\*Este +universo de datos puede ser sacado a la superficie para narrar +historias, responder preguntas e impartir una comprensión de la vida de +maneras que actualmente superan incluso la más rigurosa y cuidadosa +reconstrucción de anécdotas. + +— *Sarah Slobin, Wall Street Journal* + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'No se necesitan nuevos datos para tener una primicia', + #body : 'A veces los datos ya son públicos y están disponibles, pero nadie los ha +analizado atentamente. En el caso del informe de Associated Press sobre +4500 páginas de documentos desclasificados que describen las acciones de +contratistas de seguridad privados durante la guerra de Irak, el +material fue obtenido por un periodista independiente a lo largo de +varios años, usando pedidos de Acceso a la Información dirigidos al +departamento de Estado de EE.UU. Escanearon los resultados impresos y +los subieron a DocumentCloud, lo que nos permitió hacer nuestro análisis +general. + +— *Jonathan Stray, The Overview Project* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @50, + #level : 3, + #links : OrderedCollection [ + '' + ] + } + ], + #parent : @38, + #level : 2, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Algunos ejemplos favoritos', + #body : 'Le preguntamos a algunos de nuestros colaboradores acerca de sus +ejemplos favoritos de periodismo de datos y qué les gusta de los mismos. +Sus respuestas, a continuación: +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'No causar daño, en el Las Vegas Sun', + #body : '![No causar daño (The Las Vegas Sun)](figs/incoming/01-GG.png) + +Mi ejemplo favorito es la serie [No causar daño](http://www.lasvegassun.com/hospital-care/) +de 2010 en Las Vegas Sun, sobre la atención en los hospitales. El Sun analizó más de +2.900.000 de registros de aranceles hospitalarios, que revelaron más de +3600 lesiones, infecciones y errores quirúrgicos evitables. Obtuvieron +datos a través de un pedido de acceso a archivos públicos e +identificaron más de 300 casos en que los pacientes murieron por errores +que pudieron haberse prevenido. Contiene distintos elementos, incluyendo +un [gráfico interactivo](http://bit.ly/lvsun-surgery) que permite al +lector ver (por hospital) donde se dieron lesiones quirúrgicas más a +menudo de lo esperado; un [mapa](http://bit.ly/lvsun-infections) con un +cronograma que muestra cómo se extienden las infecciones hospital por +hospital; y un [gráfico interactivo](http://bit.ly/lvsun-events) que +permite a los usuarios ordenar los datos por lesiones evitables o por +hospital, para ver dónde la gente se ve afectada. Me gusta porque es muy +fácil de entender y navegar. Los usuarios pueden explorar los datos de +manera muy intuitiva. + +Además tuvo un impacto real: la legislatura de Nevada respondió con [6 +legislaciones](http://bit.ly/lvsun-milestone). Los periodistas +involucrados trabajaron muy duro para obtener y desmenuzar los datos. +Uno de los periodistas, Alex Richards, envió los datos a los hospitales +y al Estado al menos una docena de veces para lograr que se corrigieran +los errores. + +— *Angélica Peralta Ramos, La Nación (Argentina)* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @122, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Base de datos de salarios de empleados del Estado', + #body : '![Salarios de Empleados del Estado (The Texas Tribune)](figs/incoming/01-FF.png) + +Me encanta el trabajo que pequeñas organizaciones independientes +realizan todos los días tales como ProPublica o el Texas Tribune, que +tiene a Ryan Murphy como gran periodista de datos. Si tuviera que +elegir, optaría por el proyecto de base de datos de [Salarios de +Empleados del Estado del Texas +Tribune](http://www.texastribune.org/library/data/government-employee-salaries/). +Este proyecto reúne en una base de datos la información de los salarios +de 660.000 empleados estatales para que los usuarios busquen y ayuden a +generar historias. Se puede buscar por ente estatal, nombre o salario. +Es simple, significativo y pone a disposición del público información +hasta ahora inaccesible. Es fácil de usar y genera historias de manera +automática. Es un gran ejemplo que muestra por qué el Texas Tribune +concentra la mayor parte de su tráfico en sus páginas de datos. + +— *Simon Rogers, The Guardian* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @122, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Visualización de texto completo de los registros de la guerra de Irak, Associated Press', + #body : '![Análisis de los registros de guerra (Associated Press)](figs/incoming/01-YY.jpg) + +El trabajo de Jonathan Stray y Julian Burgess sobre los [registros +(logs) de la Guerra de Irak](http://bit.ly/jstray-warlogs) es una +llamativa incursión en el análisis de texto y la visualización, +utilizando técnicas experimentales para comprender temas que vale la +pena explorar, dentro de un gran conjunto de datos en formato texto. + +Por medio de técnicas y algoritmos de analítica de textos, Jonathan y +Julian crearon un método que muestra concentraciones de palabras clave +contenidas en miles de informes del gobierno de Estados Unidos sobre la +guerra de Irak, difundido por WikiLeaks, en un formato visual. + +Si bien este método tiene limitaciones y el trabajo es experimental, es +un enfoque nuevo e innovador. En vez de tratar de leer todos los +archivos o revisar los registros de guerra con una noción preconcebida +de lo que puede encontrarse ingresando palabras claves y revisando el +resultado, esta técnica calcula y visualiza temas/palabras clave de +particular relevancia. + +Con crecientes cantidades de datos en formato texto (emails, informes, +etc.) y numérico llegando al dominio público, encontrar maneras de +determinar áreas de interés clave se volverá cada vez más importante. Es +un sub-campo interesante del periodismo de datos. + +— *Cynthia O’Murchu, Financial Times* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @122, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Misterios de Asesinatos', + #body : '![Misterios de asesinatos (Scripps Howard News Service)](figs/incoming/01-XX.jpg) + +Una de mis piezas favoritas de periodismo de datos es el proyecto de +[Misterios de Asesinatos](http://bit.ly/murder-mysteries), por Tom +Hargrove del Scripss Howard News Service. A partir de datos oficiales y +pedidos de acceso a registros públicos, creó una base de datos, que +incluye el detalle demográfico de más de 185.000 asesinatos no +resueltos, y luego diseñó un algoritmo para buscar patrones que sugieran +la posible presencia de asesinos seriales. + +Este proyecto tiene todo: un gran trabajo, una base de datos mejor que +la del estado, análisis inteligente usando técnicas de ciencias +sociales, y una presentación interactiva de datos online de modo que los +lectores puedan explorar por su cuenta. + +— *Steve Doig, Walter Cronkite School of Journalism, Arizona State +University* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @122, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Máquina de Mensajes', + #body : '![Máquina de Mensajes (ProPublica)](figs/incoming/01-HH.png) + +Me encanta la historia de [Máquina de +Mensajes](http://bit.ly/message-machine) de ProPublica y su [blog +nerd](http://bit.ly/nerd-blog-post). Todo comenzó cuando un grupo de +tuiteros expresó curiosidad por haber recibido correos electrónicos +diferentes de la campaña de Barack Obama. La gente de ProPublica tomó +nota y pidió a su público que reenviaran los correos que recibieran de +la campaña. La presentación es elegante, un análisis diferencial visual +de varios correos diferentes que fueron enviados esa noche. Es admirable +porque recogieron sus propios datos (una pequeña muestra, pero lo +suficiente como para contar la historia). Pero es aún más admirable +porque cuenta la historia de un fenómeno en curso: gran cantidad de +datos utilizados en campañas políticas para dirigir mensajes a +individuos específicos. Es sólo un anticipo de cosas por venir. + +— *Brian Boyer, Chicago Tribune* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @122, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Chartball', + #body : '![Gráfico de victorias y derrotas (Chartball)](figs/incoming/01-JJ.png) + +Uno de mis proyectos de periodismo de datos favoritos es el trabajo de +Andrew García Phillips sobre +[Chartball](http://www.chartball.com/). +Andrew es fanático de los deportes con un voraz apetito de datos, un ojo +tremendo para el diseño y la capacidad de escribir código. En Chartball +no solo visualiza el conjunto de la historia, sino que detalla los +éxitos y fracasos de jugadores individuales y equipos. Ofrece contexto, +un gráfico atractivo y su trabajo es profundo, divertido e interesante, +y a mí ni siquiera me interesan demasiado los deportes. + +— *Sarah Slobin, Wall Street Journal*', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @122, + #level : 3, + #links : OrderedCollection [ + '' + ] + } + ], + #parent : @38, + #level : 2, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'El periodismo de datos en perspectiva', + #body : 'En agosto de 2010 algunos colegas del European Journalism Centre y yo +organizamos lo que creemos que fue una de las primeras [conferencias +internacionales de periodismo de datos](http://bit.ly/ddj-conf), que se +realizó en Ámsterdam, Holanda. En aquel momento no había mucha discusión +respecto del tema, y solo había un par de organizaciones conocidas +ampliamente por su labor en esta área. + +La manera en que organizaciones de noticias como The Guardian y el New +York Times manejaron las grandes cantidades de datos difundidos por +WikiLeaks, es uno de los grandes casos que impulsaron el término. En +aquel momento el concepto comenzó a tener un uso más amplio (junto con +“el periodismo asistido por computadora”) para describir cómo los +periodistas utilizaban datos para mejorar su cobertura y amplificar +investigaciones profundas de un tema dado. + +Hablando con periodistas de datos y estudiosos del periodismo [on +Twitter](http://bit.ly/smfrogers-status), parecería que una de las +formulaciones más tempranas de lo que ahora reconocemos como periodismo +de datos, en 2006 por Adrian Holovaty, fundador de EveryBlock, un +servicio de información que permite a los usuarios saber lo que ha +estado sucediendo en su área, en su manzana. En su breve ensayo [“Un +modo fundamental en que los sitios de diarios tienen que +cambiar”](http://www.holovaty.com/writing/fundamental-change/), sostiene +que los periodistas deben publicar datos estructurados procesables por +la computadora, junto con el “gran bodoque de texto” tradicional: + +> Por ejemplo, digamos que un diario ha escrito una historia sobre un +incendio local. Poder leer la historia en un celular está bien. Viva la +tecnología. Pero lo que realmente quiero poder hacer es explorar los +datos en crudo de esa historia, uno por uno, con capas de atribuciones, +y una infraestructura para comparar detalles del incendio con incendios +anteriores: fecha, momento, lugar, victimas, número de la central de +bomberos, distancia de la central de bomberos, nombres y años de +experiencia de los bomberos que actuaron, el tiempo que les llevó a los +bomberos llegar, e incendios posteriores, cuando sea que sucedan. + +¿Pero qué es lo que distingue esto de otras formas de periodismo que +usan bases de datos o computadoras? ¿Cómo y en qué medida el periodismo +de datos es distinto de otras formas de periodismo del pasado? + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'Periodismo Asistido por Computadora y Periodismo de Precisión ', + #body : 'Usar datos para mejorar los informes y presentar información +estructurada (aunque no sea legible por la computadora) al público tiene +una larga historia. Quizás lo más relevante en forma inmediata para lo +que ahora llamamos periodismo de datos es el periodismo asistido por +computadora, conocido por la sigla CAR, que fue el primer abordaje +organizado y sistemático del uso de computadoras para recoger y analizar +datos de modo de mejorar las noticias. + +El CAR fue usado por primera vez en 1952 por CBS para predecir los +resultados de la elección presidencial. Desde la década del ‘60 +periodistas (en su mayoría de investigación y de Estados Unidos) han +buscado controlar el poder de modo independiente analizado bases de +datos de registros públicos con métodos científicos. También conocido +como “periodismo de servicio público” los partidarios de estas técnicas +con ayuda de computadoras han buscado revelar tendencias, demostrar la +falsedad de creencias populares y revelar injusticias perpetradas por +autoridades y corporaciones privadas. Por ejemplo, Philip Meyer trató de +demostrar la falsedad de los informes de los disturbios en Detroit de +1967, para reflejar que no eran solo sureños poco educados los que +participaban. Las historias de Bill Dedman sobre “El Color del Dinero” +en la década del ‘80 reveló prejuicios raciales sistémicos en las +políticas de crédito de las principales instituciones financieras. En su +artículo “Lo Que Salió Mal” Steve Doig buscó analizar los patrones de +daños del huracán Andrew a comienzos de la década del ‘90, para +comprender el efecto de las políticas y prácticas de desarrollo urbanas +fallidas. Los reportes basados en datos han generado valiosos servicios +al público y permitido a los periodistas ganar importantes premios. + +A comienzos de la década del ‘70 el término *periodismo de precisión* +fue acuñado para describir este tipo de recolección de noticias: “la +aplicación de métodos de investigación de las ciencias sociales y de la +conducta a la práctica del periodismo” (de “[The New Precision +Journalism](http://bit.ly/precision-journalism)”, por Philip Meyer). Se +creó el periodismo de precisión para que fuera practicado en las +principales instituciones de medios por profesionales formados en +periodismo y ciencias sociales. Nació en respuesta al “nuevo +periodismo”, una forma de periodismo en el que las técnicas del +periodismo se aplican a las noticias. Meyer sugiere que lo que se +necesita son técnicas científicas de recolección y análisis de datos, en +vez de técnicas literarias, para que el periodismo pueda cumplir con su +cometido de objetividad y verdad. + +Se puede entender el periodismo de precisión como una reacción frente a +algunas de las fallas y debilidades comúnmente citadas: la dependencia +de informes de prensa (lo que se describió luego como “churnalismo”), el +prejuicio en favor de fuentes autorizadas, etc. Meyer ve que estas +debilidades derivan de la falta de aplicación de técnicas científicas de +información y métodos científicos tales como encuestas y registros +públicos. En los ‘60, el periodismo de precisión fue utilizado para +representar a grupos marginales y sus historias. Según +[Meyer](http://bit.ly/p-meyer): + +> El periodismo de precisión era una manera de expandir el herramental del +periodista para hacer que temas antes inaccesibles o sòlo accesibles de +modo tosco, estuvieran abiertos a la investigación periodística. Fue +especialmente útil para dar voz a grupos minoritarios y disidentes que +luchaban por lograr representación. + +Un [artículo influyente](http://bit.ly/oxford-influential) publicado en +la década del ‘80 respecto de la relación entre el periodismo y las +ciencias sociales se hace eco del discurso sobre el periodismo de datos. +Los autores, dos profesores de periodismo estadounidenses, sugieren que +en las décadas de los años ‘70 y ‘80, la comprensión del público de lo +que son las noticias se amplía, de una concepción más estrecha de +“eventos noticiosos” al “reporte situacional” (o informes sobre +tendencias sociales). Por ejemplo, al usar bases de datos de censos o +encuestas, los periodistas logran “ir más allá de la información de +eventos específicos, aislados, para proveer contexto que les da +significado”. + +Como era de esperar, la práctica de usar datos para mejorar el +periodismo existe desde que hay datos. Como +[señala](http://bit.ly/facts-are-sacred) Simon Rogers, el primer ejemplo +de periodismo de datos en The Guardian data de 1821. Es una tabla de +escuelas en Manchester que da la cantidad de estudiantes que asisten a +clases y los costos por escuela, Según Rogers, esto ayudó a mostrar el +número real de estudiantes que recibían educación gratuita, que era +mucho mayor de lo que mostraban las cifras oficiales. + +![Periodismo de datos en The Guardian en 1821 (The Guardian)](figs/incoming/01-LL.jpg) + +Otro ejemplo temprano en Europa es de Florence Nightingale y su informe +clave, ["Mortalidad del Ejército Británico"](http://bit.ly/mortality-army), publicado en 1858. +En su informe al parlamento usó gráficos para promover mejoras en los +servicios de salud para el ejército británico. El más famoso de ellos es +su “coxcomb”, una espiral de secciones que representan muertes por mes, +en el que se destaca que la gran mayoría de las muertes eran por +enfermedades prevenibles, en vez de balas. + +![Mortalidad de la armada británica por Florence Nightingale (imagen de Wikipedia)](figs/incoming/01-MM.jpg) +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @150, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Periodismo de Datos y Periodismo Asistido por Computadora ', + #body : 'En este momento hay un debate sobre “continuidad y cambio” en torno de +la etiqueta de “periodismo de datos” y su relación con prácticas previas +periodísticas que emplean técnicas computacionales para analizar +conjuntos de datos. + +Algunos sostienen que hay una diferencia entre CAR y el periodismo de +datos. Dicen que CAR es una técnica para recoger y analizar datos como +una manera de fortalecer el periodismo (generalmente de investigación), +mientras que el periodismo de datos presta atención a la manera en que +los datos se ubican en el conjunto del flujo de trabajo periodístico. En +este sentido el periodismo de datos presta tanta –y a veces más- +atención a los datos mismos, en vez de usarlos simplemente como un medio +para encontrar o dar más fuerza a determinadas historias. De allí que +encontremos el Datablog de The Guardian o que el Texas Tribune publica +juegos de datos junto con los artículos –o incluso solo juegos de datos +por sí mismos- para que la gente analice y explore. + +Otra diferencia es que en el pasado los periodistas de investigación se +encontraban faltos de información respecto de una pregunta que trataban +de contestar, o una cuestión que trataban de abordar. Si bien esto sigue +sucediendo, también existe una abundancia abrumadora de información con +la que los periodistas a veces no saben qué hacer. No saben cómo obtener +valor de los datos. Un ejemplo reciente es el Sistema de Información +Online Combinada, la mayor base de datos del Reino Unido de información +sobre gasto público. Esta base de datos fue durante mucho tiempo un +reclamo de los partidarios de la transparencia, pero dejó confundidos y +sin respuesta a muchos periodistas cuando se publicó. Como me escribió +recientemente Philip Meyer: “Cuando la información era escasa, la mayor +parte de nuestros esfuerzos estaban dedicados a buscarla y recogerla. +Ahora que hay información abundante, el procesamiento es más +importante”. + +Por otro lado, algunos sostienen que no hay ninguna diferencia +significativa entre el periodismo de datos y el periodismo asistido por +computadoras. A esta altura resulta claro que incluso las prácticas más +recientes de los medios más novedosos combinan cosas conocidas desde +hace tiempo con algo nuevo. Antes que debatir si el periodismo de datos +es completamente nuevo, una postura más fructífera sería considerarlo +como parte de una tradición más longeva, pero que responde a nuevas +circunstancias y condiciones. Aunque no haya una diferencia en cuanto a +metas y técnicas, el surgimiento de la etiqueta “periodismo de datos” al +comienzo del siglo indica una nueva fase en la que el mero volumen de +los datos libremente disponibles online –combinado con herramientas +sofisticadas centradas en el usuario, la auto edición y las herramientas +de colaboración abierta (crowdsourcing)- permite a más gente trabajar +con más datos de modo más fácil que nunca.', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @150, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'El periodismo de datos tiene que ver con la alfabetización masiva en el manejo de datos. ', + #body : 'Las tecnologías digitales y la red están cambiando de modo fundamental +la manera en que se edita la información. El periodismo de datos es una +parte del ecosistema de herramientas y prácticas que han surgido en +torno a los sitios y servicios de datos. El citado y el compartir +materiales de distintas fuentes es parte de la naturaleza de la +estructura de hipervínculos de la red, y la manera en que estamos +acostumbrados a navegar la información hoy. Yendo más hacia atrás, el +principio que está en la base de la estructura de hipervínculos de la +red es el principio de la cita usado en los trabajos académicos. Citar y +compartir materiales y sus fuentes y los datos detrás de la historia es +una de las maneras básicas en las que el periodismo de datos puede +mejorar le periodismo, lo que el fundador de WikiLeaks Julian Assange, +llama el “periodismo científico”. + +Al permitir a cualquier persona recurrir a fuentes de datos y encontrar +información que es relevante, así como verificar afirmaciones y +cuestionar los supuestos comunes, el periodismo de datos representa +efectivamente la democratización masiva de recursos, herramientas, +técnicas y metodologías que antes eran usadas por especialistas, fueran +estos periodistas de investigación, científicos sociales, estadísticos, +analistas u otros expertos. Si bien actualmente citar vínculos con +fuentes de datos es algo específico del periodismo de datos, avanzamos +hacia un mundo en el que los datos estarán integrados sin fisuras en el +tejido de los medios. Los periodistas de datos tienen un rol importante +en cuanto a ayudar a bajar las barreras a la comprensión y el manejo de +datos, e incrementar la alfabetización en datos de sus lectores a escala +masiva. + +En este momento la comunidad creciente de personas que se llaman +periodistas de datos es en gran medida diferente de la comunidad CAR más +madura. Esperemos que en el futuro veamos vínculos más fuertes entre +estas dos comunidades, del mismo modo que vemos a ONG y organizaciones +de medios sociales como ProPublica y el Bureau of Investigative +Journalism trabajando junto con medios tradicionales en investigaciones. +Mientras la comunidad de periodismo de datos puede tener formas más +innovadoras de difundir datos y presentar historias, el enfoque +profundamente analítico y crítico de la comunidad CAR es algo de lo que +el periodismo de datos podría aprender. + +— *Liliana Bounegru, European Journalism Centre* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @150, + #level : 3, + #links : OrderedCollection [ + '' + ] + } + ], + #parent : @38, + #level : 2, + #links : OrderedCollection [ + '' + ] + } + ], + #parent : @5, + #level : 1, + #nodesInPreorder : OrderedCollection [ + @32, + @35, + @46, + @50, + @122, + @150 + ], + #links : @44 + }, + @35, + @46, + @50, + @53, + @57, + @61, + @65, + @69, + @73, + @77, + @81, + @85, + @89, + @93, + @97, + @101, + @105, + @109, + @113, + @117, + @122, + @125, + @129, + @133, + @137, + @141, + @145, + @150, + @153, + @157, + @161, + GrafoscopioNode { + #header : 'En la redacción', + #body : '![](figs/incoming/02-00-cover.png) + +¿Cómo se ubica el periodismo de datos en las redacciones del mundo? +¿Cómo convencieron importantes periodistas a sus colegas de que es buena +idea publicar bases de datos o lanzar aplicaciones de noticias basadas +en datos? ¿Los periodistas debieran aprender a escribir código o +trabajar en tándem con programadores talentosos? En esta sección +analizamos el rol de los datos y el periodismo de datos en la Australian +Broadcasting Corporation, la BBC, el Chicago Tribune, The Guardian, el +Texas Tribune, y el Zeit Online. Aprendemos cómo descubrir y contratar +buenos programadores, cómo atraer a la gente con un tema a través de +hackatones y otros eventos, cómo colaborar a nivel internacional y cómo +configurar modelos de negocios para periodismo de datos. + +### Qué contiene este capítulo? + +- [La iniciativa de periodismo de datos de + ABC](en_la_redacción_0.html) +- [Periodismo de datos en la BBC](en_la_redacción_1.html) +- [El equipo de aplicaciones de noticias del Chicago + Tribune](en_la_redacción_2.html) +- [El detrás de escena del Datablog de The + Guardian](en_la_redacción_3.html) +- [Periodismo de datos en el Zeit Online](en_la_redacción_4.html) +- [Cómo contratar un hacker](en_la_redacción_5.html) +- [Ayuda externa de expertos a través de + hackatones](en_la_redacción_6.html) +- [Seguir el rastro del dinero: colaboración + internacional](en_la_redacción_7.html) +- [Nuestras historias aparecen en forma de + código](en_la_redacción_8.html) +- [Kaas & Mulvad: Contenido Semi-Terminado para Grupos con + Intereses Específicos.](en_la_redacción_9.html) +- [Modelos de negocios para periodismo de + datos](en_la_redacción_10.html) +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'La iniciativa de periodismo de datos de ABC', + #body : 'La Australian Broadcasting Corporation es la difusora pública nacional +de Australia. Sus fondos anuales son de alrededor de 1.000 millones de +dólares australianos, lo que permite sostener 7 cadenas radiales, 60 +estaciones locales de radio, 3 servicios de televisión digital, un nuevo +servicio de televisión internacional y una plataforma online con esta +oferta siempre en expansión de contenido digital y generada por los +usuarios. La última cifra disponible indica que tiene más de 4500 +empleados de tiempo completo, y casi el 70% produce contenido. + +Somos una difusora nacional muy orgullosa de nuestra independencia, +aunque con fondos del estado, por ley estamos claramente separados. +Nuestra tradición es de periodismo de servicio público independiente. La +ABC es considerada la organización de noticias más confiable del país. + +Estos son tiempos que entusiasman; bajo el mando de un director +ejecutivo (el ex ejecutivo del diario Mark Scott), se ha alentado a los +productores de contenido de ABC a ser “ágiles”, como dice el mantra +corporativo. + +Por supuesto que es más fácil decirlo que hacerlo. + +Pero la iniciativa con la que se buscaba alentar esto, ha derivado en +una competencia entre el personal por fondos para desarrollar proyectos +multi-plataforma. Así se concibió el primer proyecto de periodismo de +datos de la ABC. + +En algún momento de comienzos de 2010 me metí en una sesión de +propuestas para enfrentar a 3 jefes de “ideas” con mi proyecto. + +Lo había estado masticando por un tiempo, llenándome con el periodismo +de datos que ofrecía el ya legendario Datablog de The Guardian, y eso +solo para empezar. + +Mi argumento fue que no había duda de que en 5 años la ABC tendría su +propia unidad de periodismo de datos. Era inevitable opiné. Pero la +cuestión era cómo llegaríamos a eso y quién iniciaría la tarea. + +Aquellos lectores que no conocen la ABC deben pensar en una vasta +burocracia construida a lo largo de 70 años. Su oferta primaria siempre +fue radio y televisión. Con el advenimiento de un sitio en la red, en la +última década esta oferta de contenido se extendió a textos, imágenes +fijas y un grado de interactividad hasta entonces inimaginada. El sitio +web estaba forzando a la ABC a repensar cómo distribuía la torta (sus +fondos) y qué tipo de torta estaba cocinando (contenido). + +Por supuesto que es una obra en curso. + +Pero otra cosa estaba pasando con el periodismo de datos. Gobierno 2.0: +(que como descubrimos se cumple habitualmente en la difusión de datos en +Australia)  comenzaba a ofrecer nuevas maneras de narrar historias que +hasta entonces estaban escondidas en ceros y unos.\\ +Comenté todo esto a las personas que me escuchaban. También dije que +necesitábamos identificar nuevos conjuntos de capacidades y formar a +periodistas en el manejo de nuevas herramientas. Necesitábamos un +proyecto para comenzar a andar. + +Y me dieron el dinero. + +El 24 de noviembre de 2011, el proyecto multiplataforma de la ABC y ABC +News Online salió en vivo con +["Coal Seam Gas by the Numbers"](http://bit.ly/abc-coal) +(Las cifras de gas metano de carbón). + +![Coal Seam Gas en números (ABC News Online)](figs/incoming/02-01.png) + +Se componía de 5 páginas de mapas interactivos, visualizaciones de datos +y texto. + +No era exclusivamente periodismo de datos, sino un híbrido de periodismo +que nació de la mezcla de gente del equipo y la historia, que ahora es +uno de los temas más calientes en Australia. + +La joya era un mapa interactivo que muestra yacimientos y concesiones de +gas metano de carbón en Australia. Los usuarios podían buscar por lugar +y escoger entre distintos modos para ver concesiones o yacimientos. +Usando el zoom los usuarios podían ver quién estaba a cargo de la +exploración, la situación del yacimiento y la fecha de perforación. Otro +mapa mostraba la ubicación de la actividad en gas metano de carbono con +relación a sistemas de aguas subterráneas en Australia. + +![Mapa interactivo de yacimientos y concesiones petroleras en Australia (ABC News Online)](figs/incoming/02-02.png) + +Teníamos visualizaciones de datos que específicamente abordaban la +cuestión de la producción de desechos de sal y de agua que serían +generados de acuerdo al escenario que se diera. + +Otra sección del proyecto investigó el derrame de productos químicos en +una cuenca fluvial local. + +#### Nuestro equipo + + - Un desarrollador y diseñador de sitios en la red + - Un periodista a cargo + - Un investigador part-time con experiencia en extracción de datos, planillas de cálculos Excel y depuración de datos. + - Un periodista part-time + - Un productor ejecutivo de consultor + - Un consultor académico con conocimientos de búsqueda de datos, visualización de gráficos y capacidades avanzadas de investigación. + - Los servicios de un gerente de proyecto y la asistencia administrativa de la unidad multiplataforma de ABC. + - Algo importante, también teníamos un grupo de referencia de periodistas y otros a los que consultamos según las necesidades. + +#### ¿De dónde obtuvimos los datos? + +Los datos para los mapas interactivos fueron obtenidos de shapefiles (un +tipo común de archivo para datos geo-espaciales) descargados de sitios +web del Estado. + +Otros datos sobre sal y agua fueron tomados de una variedad de informes. + +Los datos sobre deshechos químicos se tomaron de permisos ambientales +emitidos por el Estado. + +#### ¿Qué descubrimos? + +"Las cifras de gas metano de carbón" era ambicioso en contenido y en +escala. Lo más importante para mí era determinar qué habíamos aprendido +y qué debíamos hacer de modo diferente la próxima vez. + +El proyecto de periodismo de datos incorporó a mucha gente que +normalmente no se encuentra en ABC: en términos del vulgo, hackers. +Muchos no hablábamos el mismo idioma ni entendíamos lo que el otro grupo +hace. ¡El periodismo de datos revoluciona las cosas! + +Las cosas prácticas: + + - La ubicación del equipo en un mismo lugar. Nuestro programador y diseñador estaban fuera del lugar y venían para reuniones. ¡Esto definitivamente no era óptimo! Hay que poner a todos en el mismo cuarto que los periodistas. + - Nuestro consultor de producción ejecutiva también estaba en otro nivel del edificio. Necesitábamos estar mucho más cerca, simplemente + por la cuestión de poder pasar a verlo en cualquier momento. + - Escoger una historia que solo se basara en datos. + +#### El cuadro grande: algunas ideas + +Las grandes organizaciones de medios tienen que crear capacidad para +responder a los desafíos del periodismo de datos. Mi intuición es que +hay muchos técnicos y hackers ocultos en los departamentos técnicos de +los medios desesperados por salir a la luz. Por lo que necesitamos +“reuniones de periodistas y hackers”, talleres donde los geeks secretos +(como en agente secreto – se refiere a gente que domina la técnica +informática pero no tiene como trabajo las cuestiones técnicas sino que +son periodistas, etc.), los periodistas más jóvenes, los programadores, +y los diseñadores salen a jugar con periodistas más experimentados para +compartir conocimientos y tener orientación. Tarea: ¡descargar este +conjunto de datos y atacar! + +Ipso facto, el periodismo de datos es interdisciplinario. Los equipos de +periodismo de datos se componen de gente que en el pasado no habría +trabajado junta. El espacio digital ha desdibujado las fronteras. + +Vivimos en una comunidad política fracturada, desconfiada. El modelo de +negocios que antes generaba periodismo independiente profesional –por +imperfecto que sea- está al borde del colapso. Debemos preguntarnos, +como muchos ya lo hacemos, cómo sería el mundo sin un cuarto poder +viable. El periodista e intelectual estadounidense Walter Lippman +comentó en la década de ‘20 que “se reconoce que no puede existir una +opinión pública sana sin acceso a las noticias”. Esa afirmación es +igualmente válida ahora. En el siglo XXI todo el mundo está en la +blogósfera. Es difícil diferenciar a los periodistas profesionales del +cuentero, el mentiroso, el simulador y quién defiende intereses creados. +Cualquier sitio o fuente puede hacerse pasar por creíble, bien +presentado y honesto. Las referencias confiables se mueren junto al +camino. Y en este nuevo espacio de periodismo basura, los hipervínculos +pueden llevar a los lectores interminablemente a otras fuentes más +inútiles pero de aspecto brillante que no hacen más que llevar de un +hipervínculo a otro en el salón digital de los espejos. El término +técnico para esto es que el “macaneo” atonta el cerebro. + +En el espacio digital todo el mundo es un narrador, ¿verdad? No. Si el +periodismo profesional –y con ello me refiero a aquellos que se dedican +a la narración de historias de modo ético, equilibrado, valiente en la +búsqueda de la verdad- ha de sobrevivir, entonces el oficio debe +reafirmarse en el espacio digital. El periodismo de datos es otra +herramienta con la que navegaremos el espacio digital. Es donde +mapearemos, daremos vuelta, separaremos, filtraremos, extraeremos y +veremos la historia en medio de tantos ceros y unos. En el futuro +trabajaremos junto a los hackers, los programadores, los diseñadores. Es +una transición que requiere una seria acumulación de capacidades. +Necesitamos gerentes de noticias que entiendan la conexión entre lo +digital y el periodismo para empezar a invertir en esa construcción. + + +— *Wendy Carlisle, Australian Broadcasting Corporation* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : GrafoscopioNode { + #header : 'En la redacción', + #body : Text { + #string : '', + #runs : RunArray { + #runs : [ ], + #values : [ ] + } + }, + #tags : OrderedCollection [ + 'text' + ], + #children : @169, + #level : 1, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/en_la_redacci%C3%B3n.html' + ] + }, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/en_la_redacci%C3%B3n_0.html' + ] + }, + GrafoscopioNode { + #header : 'Periodismo de datos en la BBC', + #body : 'El término “periodismo de datos” puede cubrir una gama de disciplinas y +se usa de modos variados en las organizaciones de noticias, por lo que +puede ser útil definir lo que queremos decir por “periodismo de datos en +la BBC. En general el término cubre proyectos que usan datos para hacer +una o más de las siguientes cosas: + + - Permitir al lector descubrir información que es relevante para + sí mismo. + - Revelar una historia que es llamativa y antes se desconocía + - Ayudar al lector a entender mejor una cuestión compleja. + +Estas categorías pueden superponerse, y en un medio online a menudo +pueden beneficiarse de algún nivel de visualización. + +#### Que sea personal + +En el sitio de BBC News hemos estado usando datos para ofrecer servicios +y herramientas para nuestros usuarios desde hace más de una década. + +El ejemplo más consistente, que se publicó por primera vez en 1999, es +el de nuestras [tablas de liga +escolar](http://bbc.in/school-league-tables), que usan los datos +publicados anualmente por el Estado. Los lectores pueden encontrar las +escuelas locales ingresando el código postal, y compararlas con una +cantidad de indicadores. Periodistas de educación también trabajan con +el equipo de programadores rastreando las historias antes de su +publicación. + +Cuando empezamos a hacer esto, no existía un sitio oficial que ofreciera +al público la posibilidad de explorar datos. Pero ahora que el +Departamento de Educación tiene su propio servicio nuestra tarea se +concentra más en las historias que surgen de los datos. + +El desafío en este área debe ser dar acceso a datos en los que hay un +claro interés público. Un ejemplo reciente de un proyecto en el que +expusimos un gran conjunto de datos no disponible normalmente para el +público en general, fue el informe especial ["Todas las muertes en todos +los caminos"](http://bbc.in/road-deaths). Ofrecimos una búsqueda por +código postal, permitiendo a los usuarios encontrar la locación de todos +los accidentes fatales en caminos en el Reino Unido en la última década. + +Visualizamos algunos de los datos y cifras principales que surgen de los +[datos policiales](http://bbc.in/police-data) y, para dar al proyecto +más dinámica y un rostro humano, hicimos equipo con la London Ambulance +Association y BBC London radio y TV para rastrear choques en la capital +cuando sucedían. Esto se reportó [en vivo +online](http://bbc.in/road-deaths-feed), así como vía Twitter usando el +hashtag \\#crash24, y las colisiones fueron incorporadas +[al mapa](http://bbc.in/road-deaths-map) a medida que se informaban. + +#### Herramientas simples + +Además de proveer maneras de explorar grandes conjuntos de datos, +también hemos tenido éxito en crear herramientas simples, que proveen +relevantes recortes de información para los usuarios. Estas herramientas +apelan a los que tienen poco tiempo y pueden no querer explorar análisis +extensos. La capacidad de compartir fácilmente un dato personal es algo +que hemos comenzado a incorporar como estándar. + +Un ejemplo simple de este enfoque es nuestro servicio +[“El mundo en 7000 millones: cuál es su número”](http://bbc.in/KQsSzB) +publicado coincidentemente con la fecha oficial en la que la población mundial +superó los 7000 millones. Ingresando su fecha de nacimiento, el usuario +podía saber que “número” fue en términos de la población global cuando +nació y luego compartir ese número vía Twitter o Facebook. +La aplicación usa datos aportados por el fondo de desarrollo de la población +de la ONU. Fue muy popular y se convirtió en el vínculo más usado en Facebook +en el Reino Unido en 2011. + +![El mundo en 7000 millones (BBC)](figs/incoming/02-05.png) + +Otro ejemplo reciente es [el calculador de presupuesto](http://bbc.in/JepssY) +de la BBC, que permitió a los usuarios descubrir en qué medida estarán mejor +o peor cuando entre en vigor el presupuesto del Tesoro, y luego compartir la cifra. Hicimos +equipo con la firma contable KPMG LLP, que nos dio los cálculos basados +en el presupuesto anual y entonces trabajamos duro para crear una +interface atractiva que alentara a los usuarios a completar la tarea. + +#### Explotar los datos + +¿Pero dónde está el periodismo en todo esto? Encontrar historias en los +datos es una definición más tradicional de periodismo de datos. ¿Hay una +exclusiva enterrada en la base de datos? ¿Son precisas las cifras? +¿Prueban o no que existe el problema? Estas son todas preguntas que un +periodista de datos o un periodista asistido por computadora debe +hacerse. Pero puede llevar mucho tiempo estudiar un conjunto de datos +muy grande con la esperanza de encontrar algo llamativo. + +En esta área nos ha resultado más productivo asociarnos con programas o +equipos de investigación que cuentan con el conocimiento experto y +tiempo para investigar una historia. El programa Panorama de actualidad +de la BBC pasó meses trabajando con el Centre for Investigative +Journalism, recogiendo datos sobre la paga en el sector público. El +resultado fue un documental de TV y un informe especial online, [“La +paga del sector público: las cifras”](http://bbc.in/IKPrL2), donde se +publicó todos los datos y se visualizaba con análisis sector por sector. + + +Además de asociarnos con periodistas de investigación, tener acceso a +numerosos profesionales con conocimiento especializado es esencial. +Cuando un colega del equipo del sector de economía analizó los datos de +recortes del gasto publicados por el gobierno, llegó a la conclusión de +que los hacía aparecer mayores de lo que eran en realidad. El resultado +fue una historia exclusiva, +[“Encontrar sentido a los datos”](http://bbc.in/LcuGFV), complementada +por una clara [visualización](http://bbc.in/IIADrj), que ganó un premio de +la Royal Statistical Society. + +#### Comprender una cuestión + +Pero el periodismo de datos no tiene por qué producir una exclusiva que +nadie más ha descubierto. La tarea del equipo de visualización de datos +es combinar un gran diseño con una narración editorial clara para +ofrecer una experiencia convincente al usuario. Visualizaciones +atractivas de los datos apropiados pueden ser usadas para lograr una +mejor comprensión de una cuestión o historia, y frecuentemente usamos +este enfoque en nuestras narraciones en la BBC. Una técnica utilizada en +[nuestro rastreador de demandantes](http://bbc.in/KF7IKU) es mostrar en +un mapa de calor la evolución de los datos con el paso del tiempo para +dar una clara visión del cambio. + +El servicio de datos +[“Red de deuda de la Eurozona”](http://bbc.in/IIAHHI) explora la red +interconectada de créditos entre países. Ayuda a explicar una cuestión +complicada de un modo visual, usando color y flechas proporcionales +combinadas con un texto claro. +Una consideración importante es alentar al usuario a explorar el servicio +o seguir una narrativa, sin hacerlo sentir abrumado por las cifras. + +#### Visión general de un equipo + +El equipo que produce periodismo de datos para el sitio de BBC News se +compone de alrededor de 20 periodistas, diseñadores y programadores. + +Además de proyectos y visualizaciones de datos, el equipo produce todas +las infografías y recursos multimedia interactivos en el sitio de +noticias. En conjunto todo esto forma parte de una colección de técnicas +de narración que llamamos periodismo visual. No tenemos gente +identificada específicamente como periodistas de datos, pero todo el +personal de redacción del equipo tiene saber usar aplicaciones básicas +de planillas de cálculo tales como Excel y Google Docs para analizar +datos. + +Son centrales a cualquier proyecto de datos las capacidades técnicas, el +asesoramiento de nuestros programadores y las capacidades de +visualización de nuestros diseñadores. Si bien todos somos en primer +lugar periodistas, diseñadores o programadores, seguimos trabajando +fuerte para aumentar nuestra comprensión y dominio de todas las áreas de +conocimiento. + +Los productos centrales para explorar datos son Excel, Google Docs y +Fusion Tables. El equipo también ha usado, aunque en menor medida, +MySQL, bases de datos Access y Solr para explorar conjuntos de datos +mayores; y usó RDF y SPARQL para comenzar a analizar maneras en las que +podemos modelar eventos usando tecnologías Linked Data. Los +programadores también usan su lenguaje de programación preferido, sea +ActionScript, Python, o Perl, para reunir, analizar o desmenuzar en +general un conjunto de datos en los que podemos estar trabajando. Perl +se utiliza para parte de la edición. + +Usamos Google, Bing Maps y Google Earth, junto con ArcMAP de Esri, para +explorar y visualizar datos geográficos. + +Para gráficos utilizamos la Suite de Adobe incluyendo After Effects, +Illustrator, Photoshop y Flash, aunque en estos tiempos rara vez +publicamos archivos Flash en el sitio, dado que JavaScript –en +particular JQuery y otras bibliotecas de JavaScript tales como +Highcharts, Raphael y D3- cada vez más cubren nuestros requisitos de +visualización. + +— *Bella Hurrell and Andrew Leimdorfer, BBC* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @173, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/en_la_redacci%C3%B3n_1.html' + ] + }, + GrafoscopioNode { + #header : 'El equipo de aplicaciones de noticias del Chicago Tribune', + #body : 'El equipo de aplicaciones de noticias del Chicago Tribune es una banda +de alegres hackers incrustada en la redacción. Trabajamos en estrecha +relación con editores y periodistas para ayudar a: 1) investigar y +contar historias; 2) ilustrar historias online y 3) crear recursos de la +red siempre actualizados para la buena gente de Chicagolandia. + +Es importante que estemos en la redacción. A menudo nuestro trabajo se +define en conversaciones cara a cara con periodistas. Saben que nos +gusta ayudar a escribir algo que dé vida a un aburrido sitio oficial, +desentrañar una parva de PDF, o convertir de otras maneras lo que no es +datos, en algo que se pueda analizar. Es lo que ayuda a nuestro equipo a +encontrar su rumbo; de este modo nos enteramos de potenciales proyectos +de datos cuando se están gestando. + +A diferencia de muchos equipos en este campo, el nuestro fue fundado por +tecnólogos para quienes el periodismo fue un cambio de carrera. Algunos +adquirimos un título de Maestría en Periodismo después de pasar varios +años programando para empresas, y otros vinieron de la comunidad de +gobierno abierto. + +Trabajamos de modo ágil. Para asegurarnos de estar siempre +sincronizados, cada mañana comienza con una reunión de 5 minutos de a +pie. Frecuentemente programamos de a pares; 2 programadores en un +teclado a menudo son más productivos que 2 programadores en 2 teclados. +La mayoría de los proyectos no requieren más que una semana de +producción, pero en proyectos más largos trabajamos en iteraciones de +una semana y mostramos nuestros trabajo a los interesados (periodistas y +editores por lo general) toda las semanas. El mantra es “fracasar +rápido”. Si uno está haciendo las cosas mal tiene que saberlo lo antes +posible, especialmente cuando se programa con un plazo fijo. + +Esto de \\_hackear\\_de modo iterativo y con plazos tiene un aspecto +tremendamente positivo: siempre estamos actualizando nuestro set de +herramientas. Cada semana producimos 1 o 2 aplicaciones y luego, a +diferencia de los talleres normales de software, podemos sacarlo de +nuestra mente y pasar al siguiente proyecto. Es una alegría que +compartimos con los periodistas, y cada semana podemos aprender algo +nuevo. + +![El equipo de aplicaciones del The Chicago Tribune (foto por Heather Billings)](figs/incoming/02-00.jpg) + +Todas las ideas de aplicaciones provienen de periodistas y editores en +la redacción. Creo que esto nos diferencia de equipos de aplicaciones de +otras redacciones, que frecuentemente producen sus propias ideas. Hemos +establecido fuertes relaciones personales y profesionales en la +redacción, y la gente sabe que cuando tiene datos viene a nosotros. + +Gran parte de nuestro trabajo en la redacción es de apoyo a los +periodistas. Los ayudamos a trabajar datos, reconvertir PDF en planillas +de cálculo, investigamos en sitios de la red, etc. Es un servicio que +nos gusta dar porque nos permite conocer desde sus inicios el trabajo de +datos que se da en la redacción. Parte de ese trabajo se convierte en +una aplicación de noticias: un mapa, una tabla o a veces sitios de mayor +escala. + +Antes vinculábamos la aplicación a la historia escrita, pero eso no +resultaba en demasiado tráfico. Actualmente, las aplicaciones aparecen +cerca de la parte superior de nuestro sitio y la aplicación tiene un +link con la historia, lo que funciona bien tanto para la aplicación como +para la historia. Hay [una sección del sitio que es para nuestro +trabajo](http://www.chicagotribune.com/news/data/), pero no tiene mucho +tráfico. Eso no es sorprendente. “Oigan, hoy quiero unos datos” no es +algo que se escuche muy seguido. + +Nos encanta la cuenta de visitas del sitio y nos encantan las alabanzas +de nuestros pares, pero eso no es lo importante. La motivación siempre +debe ser el impacto; en la vida de la gente, en las leyes, en hacer que +los políticos rindan cuentas y así siguiendo. La pieza escrita habla de +la tendencia y la humaniza con unas cuantas anécdotas. ¿Pero qué hace el +lector cuando terminó de leer la historia? ¿Está segura su familia? ¿Sus +hijos están siendo educados adecuadamente? Nuestro trabajo da sus frutos +cuando ayuda a un lector a encontrar su propia historia en los datos. +Entre los ejemplos de trabajos impactantes y personalizados que hemos +hecho se incluyen las aplicaciones de [Informes de seguridad en +geriátricos](http://nursinghomes.apps.chicagotribune.com/) y el +[Boletín de Calificaciones de Escuelas](http://schools.chicagotribune.com/). + +— *Brian Boyer, Chicago Tribune* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @173, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/en_la_redacci%C3%B3n_2.html' + ] + }, + GrafoscopioNode { + #header : 'El detrás de escena del Datablog de The Guardian', + #body : 'Cuando lanzamos el Datablog, no teníamos idea a quién podrían +interesarle los datos en crudo, las estadísticas y visualizaciones. Como +dijo un jefe en mi oficina: “¿Por qué alguien querría eso?”. + +El [Datablog](http://www.guardian.co.uk/datablog), que yo edito, debía +ser un pequeño blog que ofreciera los conjuntos de datos completos que +respaldan nuestras historias periodísticas. Ahora consiste en [una +primera página](http://guardian.co.uk/data); búsquedas de datos de +gobiernos y desarrollo global; visualizaciones de datos realizadas por +artistas gráficos de The Guardian y de toda la red, y herramientas para +explorar datos de gasto público. Todos los días usamos planillas de +cálculos de Google para compartir los datos completos que respaldan +nuestro trabajo; visualizamos y analizamos esos datos y luego los usamos +para proveer historias para el diario y el sitio. + +Como editor de noticias y periodista trabajando con gráficos, era una +extensión lógica del trabajo que ya venía haciendo, acumulando nuevos +conjuntos de datos y batallando con ellos para tratar de encontrar +sentido a las historias de noticias del día. + +La pregunta que me hicieron fue respondida. Han sido unos años +increíbles para los datos públicos. Obama abrió los archivos de datos +del gobierno de EE.UU. como primer acto legislativo, y su ejemplo pronto +fue seguido por sitios de datos gubernamentales en todo el mundo: +Australia, Nueva Zelanda y el sitio del gobierno británico, Data.gov.uk. + +Hemos tenido el escándalo de los gastos de los parlamentarios, la pieza +más inesperada de periodismo de datos de Gran Bretaña, con el resultado +de que Westminster ahora está comprometido a difundir cantidades +inmensas de datos todos los años. + +Tuvimos una elección general en la que cada uno de los partidos +políticos más importantes se comprometió a la transparencia de datos, +abriendo nuestros propios archivos de datos al mundo. Los diarios han +dedicado valioso centimetraje a la apertura de la base de datos COINS +del Tesoro. + +Al mismo tiempo, a media que la red produce más y más datos, los +lectores de todo el mundo están más interesados que nunca en los datos +en crudo detrás de las noticias. Cuando lanzamos el Datablog, creíamos +que el público serían programadores buscando crear aplicaciones. De +hecho es gente que quiere saber más sobre las emisiones de carbono, +inmigración de Europa oriental, el desglose de las muertes en +Afganistán, o incluso la cantidad de veces que los Beatles usaron la +palabra “amor” en sus canciones (613). + +![Visualización del proceso de producción de The Guardian Datablog (The Guardian)](figs/incoming/02-ZZ.png) + +Gradualmente el trabajo del Datablog ha reflejado y enriquecido las +historias a las que nos enfrentamos. Recurrimos a la opinión del público +sobre 458.000 documentos relacionados con los gastos de los +parlamentarios y analizamos los datos detallados de lo que sostuvieron +los parlamentarios. Ayudamos a nuestros usuarios a explorar bases de +datos de gastos detalladas del Tesoro y publicamos los datos detrás de +las noticias. + +Pero el evento que cambió el juego para el periodismo de datos se dio en +la primavera de 2010, comenzando por una hoja de cálculo: 92.201 filas +de datos, cada una conteniendo un desglose detallado de un evento +militar en Afganistán. Estos fueron los registros de guerra de +WikiLeaks. Es decir, la primera parte. Seguirían dos episodios más: Irak +y los cables. El término oficial para las primeras dos partes fue +SIGACTS: La Base de Datos de Acciones Significativas de las fuerzas +armadas de Estados Unidos. + +Las organizaciones de noticias dependen mucho de la ubicación y la +proximidad con la mesa de noticias. Si uno está cerca, es fácil sugerir +historias y ser parte del proceso: inversamente, no estar cerca es +literalmente ser ignorado. Antes de WikiLeaks estábamos en un piso +diferente, junto con el equipo de Gráficos. Desde WikiLeaks estamos en +el mismo piso, junto a la mesa de noticias. Significa que es más fácil +para nosotros sugerir ideas a la mesa de noticias, y para los +periodistas al otro lado de la redacción pensar en nosotros para que los +ayudemos con historias. + +No hace mucho los periodistas eran quienes controlaban el acceso a los +datos oficiales. Escribíamos historias sobre las cifras y se las +transmitíamos a un público agradecido que no estaba interesado en las +estadísticas en bruto. La idea de incorporar información en crudo a +nuestros diarios era anatema. + +Ahora la dinámica ha cambiado hasta el punto de resultar irreconocible. +Nuestro rol se está convirtiendo en el de intérpretes; ayudar a la gente +a comprender los datos e incluso publicarlos porque son interesantes por +sí mismos. + +Pero las cifras sin análisis son sólo números, que es donde encajamos +nosotros. Cuando el primer ministro de Gran Bretaña sostuvo que los +desmanes de agosto de 2011 no tuvieron nada que ver con la pobreza, +pudimos cruzar el lugar de residencia de los que hicieron los desmanes +con los indicadores de pobreza para mostrar la verdad. + +Detrás de todas nuestras historias de periodismo de datos hay un +proceso. Está cambiando permanentemente, a medida que vamos usando +nuevas herramientas y técnicas. Alguna gente dice que la respuesta es +convertirse en una especie de súper hacker, escribir programas y +sumergirse en SQL. Uno puede tener esa postura. Pero gran parte del +trabajo que hacemos es con Excel. + +Primero ubicamos los datos o los recibimos de una variedad de fuentes, +de historias de noticias nuevas, datos oficiales, investigaciones de +periodistas y así en más. Entonces comenzamos a ver qué podemos hacer +con los datos; ¿necesitamos combinarlos con otro conjunto de datos? +¿Cómo podemos mostrar cambios a lo largo del tiempo? Esas planillas de +cálculo a menudo tienen que ser muy depuradas, porque todas esas +columnas extrañas y celdas fusionadas de modos raros no ayudan a +comprender la información. Y eso suponiendo que no es un PDF, el peor +formato de datos conocido por la humanidad. + +A menudo los datos oficiales vienen con códigos oficiales agregados; +cada escuela, hospital, sector, y municipalidad tiene un código de +identificación. + +Los países también los tienen (el código del Reino Unido por ejemplo es +GB). Son útiles porque uno podría querer cruzar conjuntos de datos, y es +sorprendente la cantidad de formas de escribir las cosas y arreglos de +palabras que pueden trabar eso. Está Birmania y Myanmar, por ejemplo, o +Fayette County en Estados Unidos (hay 11 de ellas en estados que van de +Georgia a Virginia Occidental). Los códigos nos permiten comparar las +cosas comparables. + +Al final del proceso está el producto: ¿será una historia o un gráfico o +una visualización y qué herramientas usaremos? Nuestras principales +herramientas son las gratuitas con las que podemos producir algo +rápidamente. Los gráficos más sofisticados son producidos por nuestro +equipo de desarrollo. + +Esto significa que comúnmente usamos los Google Charts para pequeños +gráficos y tortas lineales, o Google Fusion Tables para crear mapas de +modo rápido y fácil. + +Puede parecer algo nuevo pero no lo es. + +En la primera edición del Manchester Guardian (el sábado 5 de mayo de +1821), las noticias estaban en la página trasera, como en todos los +diarios de aquellos tiempos. El primer ítem en la primera plana era un +aviso de un perro labrador perdido. + +Entre las historias y las citas de poemas, un tercio de la contratapa +está ocupado con datos. Una tabla completa de los costos de escuelas en +la zona nunca antes “presentados al público”, escribe “NH”. + +NH quería que se publicaran sus datos porque de otro modo eclesiásticos +sin formación informarían sobre los mismos. Su motivación era que “la +información que contiene es valiosa; porque si no se sabe en qué medida +se extiende la educación… las opiniones que puedan formarse sobre la +condición y el progreso futuro de la sociedad serán necesariamente +incorrectas”. Dicho de otro modo, si la gente no sabe lo que pasa, ¿cómo +puede mejorar la sociedad? + +No se me ocurre mejor justificación de lo que estamos tratando de hacer +ahora. Lo que hace un tiempo era una historia para la última página, +ahora puede estar en primera plana. + +— *Simon Rogers, the Guardian* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @173, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/en_la_redacci%C3%B3n_3.html' + ] + }, + GrafoscopioNode { + #header : 'Periodismo de datos en el Zeit Online', + #body : 'El proyecto [PISA based Wealth Comparison](http://bit.ly/Pisa_Wealth) +(Comparación de Riqueza basada en PISA, es una visualización interactiva +que permite la comparación de niveles de vida en diferentes países. +Utiliza datos del informe de calificación de educación en el mundo, +[PISA 2009](http://bit.ly/Pisa_2009), publicado en diciembre de 2010. El +informe se basa en un cuestionario que interroga a estudiantes de 15 +años sobre su situación de vida en el hogar. + +La idea era analizar y visualizar estos datos para ofrecer una manera +única de comparar los estándares de vida en distintos países. + +![Comparación de riqueza basada en PISA (Zeit Online)](figs/incoming/02-03-AA.png) + +Primero, nuestro equipo editorial decidió qué datos parecían útiles para +hacer comparables los niveles de vida y debían visualizarse, incluyendo: + +- Riqueza (cantidad de TV, autos y baños disponibles en el hogar) +- Situación familiar (si hay abuelos viviendo con la familia, + porcentaje de familias con solo un hijo, desempleo de los padres y + el status laboral de la madre) +- Acceso a fuentes de conocimiento (Internet en el hogar, frecuencia + de uso de correo electrónico y cantidad de libros que son de + propiedad de la familia) +- 3 indicadores adicionales sobre el nivel de desarrollo de cada país. + +Con la ayuda del equipo de diseño, estos datos fueron traducidos a +íconos explícitos. Se creó un diseño de *front-end* para hacer posible +la comparación entre los distintos países viéndolos como si fueran +cartas de juego. + +A continuación contactamos gente de la [Open Data +Network](http://opendata-network.org/) de Alemania para encontrar +programadores dispuestos a ayudar con el proyecto. Esta comunidad de +gente altamente motivada sugirió a Gregor Aisch, como diseñador de +información muy talentoso, para que programara la aplicación que haría +realidad nuestros sueños (sin usar Flash, lo que era muy importante para +nosotros). + +Gregor creó una visualización de muy alta calidad e interactiva, con un +hermoso estilo de burbuja basado en la +[Raphaël-Javascript Library](http://raphaeljs.com/). + +El resultado de nuestra colaboración fue un interactivo muy exitoso que +tuvo mucho tráfico. Es fácil comparar dos países cualesquiera, lo que lo +hace útil como herramienta de referencia. Eso significa que podemos +volver a utilizarlo en nuestra tarea editorial diaria. Por ejemplo, si +estamos cubriendo algo relacionado con las condiciones de vida en +Indonesia, podemos rápida y fácilmente incrustar [un gráfico comparando +las condiciones de vida en Indonesia y +Alemania](http://bit.ly/Pisa_Indonesia_Germany)). El conocimiento +transferido a nuestro equipo fue una gran inversión para proyectos +futuros. + +En el Zeit Online encontramos que +[nuestros proyectos de periodismo de datos](http://www.zeit.de/datenjournalismus) +nos han traído mucho tráfico y han ayudado a atraer al público de nuevas maneras. +Por ejemplo, hubo mucha cobertura de la situación de la planta nuclear en +Fukushima luego del tsunami en Japón. Luego de que material radioactivo +escapara de la usina, todos fueron evacuados en un radio de 30 +kilómetros de la planta. La gente pudo leer y ver muchas cosas sobre la +evacuación. Zeit Online encontró una manera innovadora de explicar el +impacto de ésto para nuestro público alemán. Preguntamos: ¿Cuánta gente +vive cerca de una planta nuclear en Alemania? ¿Cuánta gente vive dentro +de un radio de 30 kilómetros? [Un mapa](http://bit.ly/near_nuclear) +muestra cuanta gente tendría que ser evacuada en una situación similar +en Alemania. El resultado: mucho tráfico; de hecho el proyecto se +expandió como un virus en los medios sociales. Los proyectos de +periodismo de datos pueden ser adaptados con relativa facilidad a otros +idiomas. Creamos una versión en idioma inglés respecto de la proximidad +de las plantas nucleares en Estados Unidos, lo que fue un gran generador +de tráfico. Las organizaciones de noticias quieren ser reconocidas como +fuentes confiables y autorizadas entre sus lectores. Encontramos que los +proyectos de periodismo de datos combinados con permitir a nuestros +lectores ver y volver a utilizar los datos en bruto nos da un alto grado +de credibilidad. + +Por dos años el departamento de Investigación y Desarrollo yel Editor en +Jefe del Zeit Online, Wolfgang Blau, han estado promoviendo el +periodismo de datos como una manera importante de narrar historias. La +transparencia, la credibilidad y la atracción de los usuarios son partes +importantes de nuestra filosofía. Por eso el periodismo de datos es una +parte natural de nuestro trabajo actual y futuro. Las visualizaciones de +datos pueden aportar valor a la recepción de una historia, y son un modo +atractivo de que todo el equipo editorial presente su contenido. + +Por ejemplo, el 9 de noviembre de 2011 el Deutsche Bank se comprometió a +dejar de financiar a los fabricantes de bombas de racimo. Pero según un +estudio de una organización sin fines de lucro Facing Finance, el banco +siguió aprobando créditos a productores de bombas de racimo después de +hacer esa promesa. +[Otras visualizaciones](http://zeit.de/wirtschaft/cluster-munition) basadas en +los datos muestran a nuestros lectores los diferentes flujos de dinero. +Las distintas partes del Deutsche Bank están ordenadas en la parte de +arriba, y las compañías acusadas de estar involucradas en la fabricación +de bombas de racimo, abajo. En el medio se representan los créditos +individuales siguiendo la línea temporal. Cuando se giran los círculos +se ven los detalles de cada transacción. Por supuesto que se hubiera +podido contar la historia por medio de un artículo escrito. Pero la +visualización permite a nuestros lectores comprender y explorar las +dependencias financieras de modo más intuitivo. + +![El negocio de las bombas (Zeit Online)](figs/incoming/02-03-DD.png) + +Otro ejemplo: la Oficina Alemana Federal de Estadísticas ha publicado +[un gran conjunto de datos](https://www.destatis.de/EN/Homepage.html) +sobre estadísticas vitales para Alemania, incluyendo el modelado de +[varios escenarios demográficos hasta 2060](http://bit.ly/German_Federal_Statistics). +La manera típica de representar esto es una [pirámide +poblacional](https://www.destatis.de/bevoelkerungspyramide/), tal como +la de la Agencia Federal de Estadísticas. + +Con nuestros colegas del departamento de Ciencias, intentamos dar a +nuestros lectores una mejor manera de explorar los datos demográficos +proyectados, respecto de nuestra sociedad futura. Con +[nuestra visualización](http://www.zeit.de/wissen/altersstruktur) presentamos un +grupo estadísticamente representativo de 40 personas de distintas edades +desde los años 1950 hasta 2060. Están organizadas en 8 grupos +diferentes. Se ve como una foto grupal de la sociedad alemana en +distintos momentos. Los mismos datos visualizados en una pirámide +poblacional tradicional da solo una visión muy abstracta de la +situación, pero un grupo con chicos, gente joven, adultos, y gente mayor +significa que los lectores pueden relacionarse más fácilmente con los +datos. Basta tocar el botón de play para iniciar un viaje a través de +once décadas. También puede ingresar su propio año de nacimiento y su +género para convertirse en parte de la foto grupal: podrá ver su propio +viaje demográfico a través de las décadas y su propia expectativa de +vida. + +— *Sascha Venohr, Zeit Online* + +![Visualización de datos demográficos (Zeit Online)](figs/incoming/02-03-CC.png)', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @173, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/en_la_redacci%C3%B3n_4.html' + ] + }, + GrafoscopioNode { + #header : 'Cómo contratar un hacker', + #body : 'Una de las cosas que me preguntan regularmente los periodistas es cómo +consigo un programador que me ayude con mis proyectos. No se engañe +pensando que este es un proceso en una sola dirección; los hackers con +preocupaciones sociales y los analistas de datos a menudo están +igualmente interesados en tomar contacto con periodistas. + +Los periodistas son usuarios poderosos de herramientas y servicios +basados en datos. Desde la perspectiva de los programadores, los +periodistas piensan sin esquemas para usar herramientas de datos en +contextos que los programadores no siempre tomaron en cuenta (la +retroalimentación es invalorable). También ayudan a crear contexto e +interés por proyectos, y ayudan a hacer que sean relevantes. Es una +relación simbiótica. + +Por fortuna, esto significa que, esté pensando en contratar un hacker, o +solo busque colaboración con un presupuesto muy restringido, es más que +probable que haya alguien interesado en ayudarlo. + +¿Entonces cómo se los encuentra? Dice Aron Pilhofer de The New York +Times: + +Quizás se encuentre con que su organización ya tiene gente con las +capacidades que necesita, pero no necesariamente se encuentran en su +sala de redacción. Visite los departamentos de tecnología y TI, y es +probable que encuentre oro. También es importante apreciar la cultura de +los programadores: si encuentra a alguien que tiene una computadora que +se ve como la de la Figura 2-9 probablemente tenga un ganador. + +![Marca del honor: los hackers a menudo son fáciles de descubrir (foto por Lucy Chambers)](figs/incoming/02-04.jpg) + +Algunas ideas más: + + Coloque avisos en sitios de la red que ofrecen puestos de trabajo +: Identifique y coloque avisos en sitios que apuntan a programadores + que trabajan en distintos lenguajes. Por ejemplo, [el Python + Job Board.](http://www.python.org/community/jobs/) + + Listas de correo relevantes para contactos +: Por ejemplo las listas de correo + [NICAR-L](http://bit.ly/nicar-subscribe) y [Data + Driven Journalism.](http://bit.ly/ddj-list) + + Organizaciones relevantes para contactos +: Por ejemplo, si quiere buscar datos en la red, puede contactar una + organización como [Scraperwiki](https://scraperwiki.com/) que tienen + un gran directorio de programadores confiables y dispuestos. + + Súmese a grupos/redes relevantes + +: Esté atento a iniciativas tales como + [HACKS/HACKERS](http://hackshackers.com/) que reúnen a periodistas + y técnicos. Ahora están surgiendo grupos de Hacks/Hackers en todo + el mundo. También podría intentar publicar algo en su [newsletter de + búesqueda de empleo](http://bit.ly/hacks-hackers-jobs). + + Comunidades de intereses locales + +: Puede intentar hacer una búsqueda rápida de expertos en determinada + cuestión en su zona (por ejemplo “java-script” + “London”). Sitios + tales como Meetup.com también pueden ser un gran punto de partida. + + Hackatones y competencias + +: Haya o no dinero de premio involucrado, competencias de aplicaciones + y visualizaciones, y días de programación a menudo son un terreno + fértil para colaboraciones y lograr contactos. + + Pregunte a un técnico + +: Los técnicos se juntan con otros técnicos. El boca a boca es siempre + una buena manera de encontrar buena gente para trabajar. + +— *Lucy Chambers, Open Knowledge Foundation* + +Las capacidades de los hackers + +Una vez que se encuentra un hacker, ¿cómo se sabe si es bueno? Le +preguntamos a Alastair Dant de The Guardian cómo descubrir uno bueno: + + Hacen de todo + +: Cuando hay que cumplir un plazo de entrega es mejor contar con + alguien que maneja todas las alternativas, antes que con un maestro + especializado en un recurso. Las aplicaciones de noticias requieren + manejo de datos, gráficos dinámicos y audacia. + + Ven todo el cuadro + +: El pensamiento holístico le da prioridad al valor narrativo por + sobre el detalle técnico. Prefiero escuchar una nota tocada con + sentimiento que el virtuosismo sin fin en escalas oscuras. Averigüe + si a la persona la hace feliz trabajar junto a un diagramador. + + Saben contar una historia + +: La presentación narrativa requiere ordenar las cosas en el espacio y + el tiempo. Averigüe cual es el proyecto del que se siente más + orgulloso, y pídale que le diga cómo fue creado; esto revelará tanto + su capacidad de comunicación como su manejo técnico. + + Hablan de las cosas que van a hacer + +: Crear cosas rápidamente requiere de equipos mixtos trabajando hacia + metas comunes. Cada participante debe respetar a sus compañeros y + estar dispuesto a negociar. Los obstáculos no previstos a menudo + requieren ajustes de planes rápidos y concesiones colectivas. + + Se autoeducan + +: La tecnología evoluciona rápidamente. Es una lucha mantenerse al + día. Habiendo conocido programadores con todo tipo de antecedentes, + el rasgo más común es la disposición a aprender cosas nuevas cuando + se necesita. + +— *Lucy Chambers, Open Knowledge Foundation, entrevista con Alastair +Dant, Lead Interactive Technologist, the Guardian* + +Cómo encontrar el programador de sus sueños + +La diferencia de productividad entre un programador bueno y uno +extraordinario no es lineal, es exponencial. Contratar bien es +extremadamente importante. Desgraciadamente, contratar bien es muy +difícil. Es bastante difícil evaluar candidatos si uno no es un gerente +técnico con experiencia. A eso hay que agregar los sueldos que las +organizaciones de noticias pueden pagar y entonces es todo un desafío. + +En el Tribune, reclutamos con dos ángulos: el atractivo emotivo y el +atractivo técnico. El atractivo emocional es que el periodismo es +esencial para que una democracia funcione. Si trabaja aquí puede cambiar +el mundo. Técnicamente, promocionamos todo lo que puede aprender. +Nuestros proyectos son pequeños, rápidos e iterativos. Cada proyecto +tiene un nuevo conjunto de herramientas, un nuevo idioma, un nuevo +tópico (seguridad anti incendios, el sistema jubilatorio) que debe +aprender. La redacción es un cruce de caminos. Nunca dirigí un equipo +que haya aprendido tanto y tan rápido como nuestro equipo. + +En cuanto a donde buscar, hemos tenido mucha suerte encontrando grandes +hackers en la comunidad de gobierno abierto. La lista de correo Sunlight +Labs es donde los locos por la tecnología que quieren hacer el bien, y +tienen empleos aburridos, se encuentran por la noche. Otro recurso +potencial es Code for America. Cada año un grupo de individuos emergen +de CfA buscando su siguiente gran proyecto. A esto se agrega que CfA +tienen un proceso de selección riguroso; ya han evaluado los candidatos +por usted. Hoy en día los periodistas interesados en programación +también salen de las escuelas de periodismo. Están verdes tienen +toneladas de potencial. + +Por último, no basta con contratar programadores. Se necesita gerencia +técnica. Un programador solitario (especialmente si acaba de salir de la +escuela de periodismo sin experiencia de trabajo) va a tomar muchas +malas decisiones. Incluso el mejor programador, si se lo deja solo, +optará por trabajo técnicamente interesante, por sobre lo que es más +importante para su público. + +Llame a este puesto Editor de aplicaciones de noticias, gerente de +proyecto, lo que sea. Al igual que los redactores, los programadores +necesitan editores, mentores, y alguien que los apure para que tengan el +software listo a tiempo. + +— *Brian Boyer, Chicago Tribune* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @173, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/en_la_redacci%C3%B3n_5.html' + ] + }, + GrafoscopioNode { + #header : 'Ayuda externa de expertos a través de hackatones', + #body : 'En marzo de 2010, la organización SETUP de cultura digital con sede en +Utrecht organizó un evento llamado [Hacking +Journalism](http://setup.nl/content/hacking-journalism). El evento fue +organizado para alentar una mayor colaboración entre programadores y +periodistas. + +“Organizamos hackatones para producir aplicaciones atractivas, pero no +podemos reconocer historias interesantes en los datos. Lo que creamos no +tiene relevancia social” dijeron los programadores. “Reconocemos la +importancia de periodismo de datos, pero no tenemos las capacidades +técnicas para crear las cosas que queremos”, dijeron los periodistas. + +![Periodistas y programadores en RegioHack (foto de Heinze Havinga)](figs/incoming/02-XY.jpg) + +Trabajando para un diario regional no había dinero o incentivos para +contratar un programador para la redacción. El periodismo de datos +seguía siendo algo desconocido para los diarios holandeses en aquel +tiempo. + +El modelo de hackatones era perfecto; un ambiente relajado para +colaboración, con abundante pizza y bebidas energizantes. +[RegioHack](http://www.regiohack.nl/) fue un hackatón organizado por mi +empleador, el diario regional [De Stentor](http://www.destentor.nl/), +nuestra publicación hermana [TC Tubantia](http://www.tctubantia.nl/) y +[Saxion Hogescholen Enschede](http://saxion.nl/) que ofreció el lugar +para el evento. + +La organización era así: todos podían anotarse para un hackatón de 30 +horas. Nosotros dábamos la comida y las bebidas. Apuntábamos a 30 +participantes, que dividimos en 6 grupos. Estos grupos se concentrarían +en distintos tópicos, tales como crimen, salud, transporte, seguridad, +envejecimiento y poder. Para nosotros, los 3 objetivos principales para +este evento eran los siguientes: + + Encontrar historias + +: Para nosotros el periodismo de datos es algo nuevo y desconocido. La + única manera que podemos demostrar su utilidad es a través de + historias bien armadas. Planeamos producir al menos 3 historias de + datos. + + Conectar gente + +: Nosotros los periodistas no sabemos cómo se hace periodismo de datos + y no pretendemos saberlo. Al colocar periodistas, estudiantes y + programadores en un cuarto por 30 horas, queremos que compartan + conocimientos y visiones. + + Organizar un evento social + +: Los diarios no organizan muchos eventos sociales, ni hablemos de + hackatones. Queríamos experimentar cómo un evento de esas + características puede dar resultados. De hecho hubiera podido ser + incómodo: 30 horas con extraños, mucha jerga, golpearse la cabeza + contra preguntas básicas y encontrar el terreno en el que cada uno + se siente cómodo. Al convertirlo en un evento social (la pizza y las + bebidas energizantes), queríamos crear un ambiente en el que + periodistas y programadores pudieran sentirse cómodos y colaborar + efectivamente. + +Antes del evento, TC Tubantia realizó una entrevista con la viuda de un +policía que escribió un libro sobre los años de servicio de su marido. +También tenía un documento con todos los asesinatos registrados en la +parte este de Holanda, mantenido por su marido desde 1945. Normalmente, +publicaríamos este documento en nuestro sitio. Esta vez hicimos un +[tablero usando el software Tableau](http://bit.ly/tableau-dashboard). +También [escribimos en el blog](http://bit.ly/regiohack-blog) acerca de +cómo se juntó todo esto en nuestro sitio RegioHack. + +Durante el hackatón, un grupo de proyecto abordó el tema del desarrollo +de escuelas y el envejecimiento de nuestra región. Al hacer una +[visualización de proyecciones futuras](http://bit.ly/tableau-workbook) +vimos qué ciudades estarían en problemas luego de unos años de caída de +la matrícula. Teniendo esto presente, hicimos un artículo sobre la +manera en que esto afectaría las escuelas en nuestra región. + +También iniciamos un proyecto muy ambicioso llamado De Tweehondererd van +twente (en español Los Doscientos de Twente) para determinar quién tenía +más poder en nuestra región y crear una base de datos de la gente más +influyente. A través de un cálculo al estilo Google –quien tiene la +mayor cantidad de vínculos con organizaciones poderosas- se compondrá +una lista de gente influyente. Esto podría llevar a una serie de +artículos, pero también es una herramienta poderosa para periodistas. +¿Quién tiene vínculos con quién? Se puede hacer preguntas a esta base de +datos y usarla en la rutina diaria. Además, esta base de datos tiene +valor cultural. Los artistas ya preguntaban si podían usar esta base de +datos cuando estuviera terminada, para hacer instalaciones de arte +interactivo. + +![Nuevas comunidades en torno al periodismo de datos (foto por Heinze Havinga)](figs/incoming/02-YY.jpg) + +Luego de RegioHack, advertimos que los periodistas consideraban al +periodismo de datos como una adición viable al periodismo tradicional. +Mis colegas siguieron usando y creando en base a las técnicas aprendidas +ese día para generar proyectos más ambiciosos y técnicos, tales como una +base de datos de los costos administrativos de la construcción de +viviendas. Con estos datos, hice un [mapa interactivo en Fusion +Tables](http://bit.ly/stentor-map). Pedimos a nuestros lectores que +jugaran con los datos y obtuvimos los resultados [con la colaboración de +la audiencia (crowdsourcing)](http://bit.ly/scratchbook-crowdsourcing), +por ejemplo. Luego de recibir muchas preguntas respecto de cómo se hace +un mapa en Fusion Tables, también grabé +[un video tutorial](http://bit.ly/vermanen-video). + +¿Qué aprendimos? Aprendimos mucho, pero también encontramos muchos +obstáculos. Reconocimos estos 4: + + ¿Por dónde comenzar, pregunta o datos? + +: Casi todos los proyectos se trababan en la búsqueda de información. + En la mayoría de los casos comenzaban con una pregunta periodística. + ¿Y entonces? ¿Qué datos hay disponibles? ¿Dónde pueden encontrarse? + ¿Y cuando encuentre estos datos podré responder su pregunta? Los + periodistas por lo general saben dónde pueden encontrar información + cuando investigan para un artículo. En el periodismo de datos, la + mayoría de los periodistas no saben qué información está disponible. + + Poco conocimiento técnico + +: El periodismo de datos es una disciplina bastante técnica. A veces + hay que filtrar, otras veces hay que hacer algo de programación para + ver los resultados. Para hacer periodismo de datos se necesitan dos + cosas: la visión periodística de un periodista experimentado y el + conocimiento técnico de alguien que maneje todas las técnicas + digitales. Durante RegioHack esta no era una presencia común. + + ¿Es noticia? + +: Los participantes usaron principalmente un conjunto de datos para + descubrir noticias, en vez de buscar interconexiones entre distintas + fuentes. El motivo de esto es que se necesita algo de conocimiento + estadístico para verificar noticias del periodismo de datos. + + ¿Cómo es la rutina? + +: Todo lo anterior se resume en que no hay rutina. Los participantes + tienen algunas capacidades pero no saben cómo, ni cuándo usarlas. + Uno de los periodistas lo comparó con hacer una torta. “Tenemos los + ingredientes: harina, huevos, leche, etcétera. Lo tiramos en una + bolsa, la sacudimos y esperamos que salga una torta”. Tenemos todos + los ingredientes, pero no conocemos la receta. + +¿Y ahora qué hacemos? Nuestras primeras experiencias con el periodismo +de datos podrían ayudar a otros periodistas o programadores que aspiren +a ingresar en el mismo campo de trabajo, y estamos trabajando para +producir un informe. + +También estamos considerando cómo continuar RegioHack en forma de +hackatón. Nos resultó divertido, educativo y productivo, y una gran +introducción al periodismo de datos. + +Pero para que el periodismo de datos funcione tenemos que integrarlo en +la redacción. Los periodistas tienen que pensar en datos, además de +citas, declaraciones de prensa, reuniones de consejos, etc. Al hacer +RegioHack demostramos a nuestro público que el periodismo de datos no +son solo palabras. Podemos escribir artículos mejor informados y más +claros, presentando a los lectores artículos diferentes impresos y +online. + +— *Jerry Vermanen, NU.nl* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @173, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/en_la_redacci%C3%B3n_6.html' + ] + }, + GrafoscopioNode { + #header : 'Seguir el rastro del dinero: colaboración internacional', + #body : 'Los periodistas de investigación y los ciudadanos interesados en +descubrir el crimen organizado y la corrupción que afecta las vidas de +miles de millones en todo el mundo cada día que pasa tienen acceso sin +precedentes a información. Gobiernos y otras organizaciones colocan +inmensos volúmenes de datos online y parece que la tan necesaria +información está cada vez más al alcance de todos. Pero, al mismo +tiempo, funcionarios corruptos en gobiernos y grupos del crimen +organizado están haciendo todo lo que pueden para ocultar información +para que no se conozcan sus crímenes. Se esfuerzan por mantener a la +gente a oscuras mientras concretan negocios sucios que causan problemas +a la sociedad, en todos sus niveles, y llevan a conflictos, hambrunas u +otras crisis. + +Es el deber de los periodistas investigadores exponer tales faltas y, al +hacerlo, trabar los mecanismos corruptos y criminales. + +![El Tablero Investigativo (OCCRP)](figs/incoming/02-RR.png) + +Hay 3 guías principales que, si se siguen, pueden llevar a un buen +periodismo cuando se investigan grandes actos de corrupción y +criminales, incluso en los medios más austeros: + + Piense en buscar fuera de su país + +: En muchas instancias es mucho más fácil obtener información del + extranjero que dentro del país en el que opera el periodista de + investigación. La información obtenida del extranjero vía bases de + datos de otros países o usando las leyes de acceso a la información + de otras naciones puede ser justo lo que necesita para armar el + rompecabezas investigativo. Además, los criminales y los + funcionarios corruptos no guardan su dinero en el lugar de donde lo + robaron. Prefieren depositarlo en bancos extranjeros o invertirlo en + otros países. El crimen es global. Las bases de datos que ayudan al + periodista de investigación a rastrear dinero en todo el mundo + pueden encontrarse en muchos lugares en Internet. Por ejemplo, + [el Investigative Dashboard](http://www.investigativedashboard.org/category/wwd/) + permite a los periodistas seguir el rastro del dinero entre países. + + Haga uso de redes periodísticas de investigación existentes + +: Periodistas de investigación de todo el mundo se agrupan en + organizaciones tales como [The Organized Crime and Corruption + Reporting Project](http://www.reportingproject.net/), [The African + Forum for Investigative Reporting](http://www.fairreporters.org/), + [The Arab Reporters for Investigative Journalism](http://arij.net/) y + [The Global investigative Journalism Network](http://www.gijn.org/). + Los periodistas también pueden usar plataformas de periodismo profesional + tales como IJNet, donde se intercambia información global relacionada con + periodismo todos los días. + Muchos de los periodistas agrupados en redes trabajan en + cuestiones similares y enfrentan situaciones similares, por lo que + tiene mucho sentido intercambiar información y métodos. Hay listas + de correo electrónico o grupos de redes sociales vinculados a estas + redes, por lo que es fácil tomar contacto con colegas periodistas + para pedir información o consejos. También pueden obtener ideas para + historias a investigar en tales foros y listas de correo + electrónico. + + Hacer uso de la tecnología y colaborar con hackers + +: El software ayuda a los periodistas de investigación a acceder y + procesar información. Varios tipos de software ayudan al + investigador a no dejarse distraer por el ruido, a buscar y + encontrar sentido a grandes volúmenes de datos y a encontrar los + documentos indicados para descubrir la historia. Hay muchos + programas de software que pueden usarse como herramientas para + analizar, recoger o interpretar información y, lo que es más + importante, los periodistas de investigación tienen que ser + conscientes de que hay cantidades de programadores dispuestos a + ayudar si se les pide. Estos programadores o hackers saben cómo + obtener y manejar información y pueden ayudar mucho con el esfuerzo + investigativo. Estos programadores, algunos de ellos miembros de + movimientos globales en favor de la apertura de los datos, pueden + convertirse en aliados invalorables en la lucha contra el crimen y + la corrupción, son capaces de asistir a los periodistas en la + recolección y análisis de la información. + +Un buen ejemplo de una interfaz entre programadores y ciudadanos es +[ScraperWiki](https://scraperwiki.com/), un sitio en el que los +periodistas pueden pedir ayuda a programadores en la extracción de datos +de sitios en la red. Investigative Dashboard tiene una [lista de +herramientas listas para usar](http://bit.ly/dashboard-resources) que +podrían ayudar a los periodistas a recoger, dar forma y analizar datos. + +La utilidad de las guías mencionadas se ha hecho visible en muchas +instancias. Un buen ejemplo es el trabajo de Khadija Ismayilova, una +reportera de investigación Azerí muy experimentada que trabaja en un +medio austero en lo que se refiere a acceso a información. Ismayilova ha +superado obstáculos diariamente para ofrecer al público azerí +información buena y confiable. En junio de 2001, Khadija Ismayilova, que +trabajaba en la oficina de Baku Radio Europa Libre/Radio Libertad +(conocida por las siglas RFE/RL), informó que las hijas del presidente +Azerí, Ilham Aliyev, manejaban secretamente una compañía de +telecomunicaciones en rápido ascenso, Azerfon, a través de compañías +offshore con sede en Panamá. La compañía tiene casi 1.700.000 de +suscriptores, cubre el 80 por ciento del territorio del país, y (en +aquel tiempo) era el único proveedor de servicios 3G para Azerbaiján. +Ismayilova pasó 3 años tratando de descubrir quienes eran los dueños de +la compañía de telecomunicaciones, pero el gobierno se negaba a dar +información sobre los accionistas y mintió numerosas veces sobre sus +dueños. Incluso llegaron a decir que la compañía era propiedad de +Siemens AG con sede en Alemania, cosa que ha sido negada directamente +por esa corporación. La reportera azerí logró descubrir que Azerfon era +propiedad de unas cuantas compañías privadas con sede en Panamá. Esto +pareció ser una vía muerta para su informe hasta que recibió ayuda del +exterior. A comienzos de 2011 Ismayilova supo a través del Investigative +Dashboard que las compañías con sede en Panamá pueden ser rastreadas a +través de [una aplicación](http://ohuiginn.net/panama/) desarrollada por +el programador y activista Dan O’Huiginn. Con esta herramienta +finalmente logró sacar a luz el hecho de que las dos hijas del +presidente estaban involucradas en la compañía de telecomunicaciones a +través de las empresas con sede en Panamá. + +O’Huiginn creó una herramienta que ayudó a periodistas de todo el mundo +a informar sobre corrupción: Panamá, un paraíso offshore bien conocido, +ha sido ampliamente utilizado por varios funcionarios corruptos como un +lugar para ocultar dinero robado (desde compinches del ex presidente +egipcio Hosni Mubarak hasta funcionarios sucios de los Balcanes o en +América Latina). Lo que el programador-activista ha hecho se conoce como +*scraping* (literalmente raspado y que se traduce como extraer datos, n. +del t.) de la red: un método que permite la extracción y el reordenado +de información para que pueda ser usada por investigadores. O’Huiginn +extrajo información del [registro de compañías de +Panamá](http://www.registro-publico.gob.pa/) porque este registro, +aunque abierto solo permite búsquedas si el periodista de investigación +conoce el nombre de la compañía comercial que busca. Esto limitaba las +posibilidades de investigaciones, ya que los periodistas generalmente +buscan nombres de personas para rastrear sus activos. Extrajo los datos +y creó un nuevo sitio donde también son posibles búsquedas basadas en +nombres. El nuevo sitio permitió a periodistas de investigación de +muchos países buscar información, tomando como referencia nombres de +funcionarios en gobiernos y parlamentos, y verificar si poseían en +secreto corporaciones en Panamá (tal como sucedía con la familia del +presidente de Azerbaiján). + +Hay otras ventajas del uso de las guías destacadas más arriba, además de +tener mejor acceso a información. Una de ellas tiene que ver con +minimizar el daño y asegurar mejor protección para los investigadores +que trabajan en ambientes hostiles. Esto se debe al hecho que cuando se +trabaja en una red, el periodista no está solo; el periodista de +investigación trabaja con colegas en otros países, por lo que es más +difícil para los criminales descubrir quién es responsable de que se +vean expuestos sus crímenes. Como resultado de ello a los gobiernos y +funcionarios corruptos les resulta mucho más difícil atacarlos. + +Otra cosa a tener en cuenta es que la información que no parece muy +valiosa en una zona geográfica puede ser crucial en otra. El intercambio +de información a través de redes de investigación puede llevar a sacar a +luz historias muy importantes. Por ejemplo, la información de que un +rumano fue atrapado en Colombia con 1 kilogramo de cocaína probablemente +no sea una noticia de primera plana en Bogotá, pero podría ser muy +importante para el público rumano si un periodista local logra descubrir +que la persona que fue atrapada con el narcótico trabaja para el +gobierno de Bucarest. + +El periodismo de investigación eficiente es el resultado de la +cooperación entre periodistas de investigación, programadores y otros +que quieren usar datos para contribuir a crear una sociedad global más +limpia y más justa. + +— *Paul Radu, Organized Crime and Corruption Reporting Project* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @173, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/en_la_redacci%C3%B3n_7.html' + ] + }, + GrafoscopioNode { + #header : 'Nuestras historias aparecen en forma de código', + #body : '[OpenDataCity](http://www.opendatacity.de/9) fue fundado hacia fines de +2010. Por entonces no pasaba nada con lo que uno podría llamar +periodismo de datos en Alemania. + +¿Por qué lo hicimos? Muchas veces habíamos escuchado a gente trabajando +para diarios y a gente de radio y televisión decir: “No estamos listos +para crear una unidad de periodismo de datos en nuestra redacción. Pero +con gusto tercerizaríamos esto a otros”. + +Hasta donde sabemos somos la única compañía que se especializa +exclusivamente en periodismo de datos en Alemania. Actualmente somos 3: +dos somos periodistas y uno tiene un profundo conocimiento de la +programación y la visualización. Contamos con un puñado de hackers, +diseñadores y periodistas que trabajan por cuenta propia. + +En los últimos 12 meses hemos encarado 4 proyectos de periodismo de +datos con diarios y hemos ofrecido capacitación y consultoría a +trabajadores de medios, científicos y escuelas de periodismo. La primera +aplicación que hicimos fue TAZ, una [herramienta interactiva sobre ruido +en aeropuertos](http://bit.ly/taz-airport-noise) referida al nuevo +aeropuerto de Berlín. Nuestro siguiente proyecto notable fue una +[aplicación sobre retención de datos](http://bit.ly/zeit-telephone) de +uso de teléfonos móviles de un político alemán con ZEIT online. Por esto +ganamos un [premio Grimme Online](http://bit.ly/grimme-award), un premio +Lead en Alemania, y un [premio de Periodismo +Online](http://bit.ly/online-news-award) de la Online Journalism +Association en Estados Unidos. En momentos que escribimos estas líneas +tenemos varios proyectos encaminados, que van desde infográficos +interactivos más simples hasta el diseño y el desarrollo de un programa +de periodismo de datos intermedio. + +![Mapa de ruido en aeropuerto (Taz.de)](figs/incoming/02-TT.png) + +Por supuesto que ganar premios ayuda a la reputación. Pero cuando +hablamos con los editores, que tienen que aprobar los proyectos, nuestro +argumento a favor de invertir en periodismo de datos no tiene que ver +con ganar premios. Más bien es ganar audiencia en períodos más +prolongados de modo sustentable. Es decir, crear cosas por su impacto de +largo plazo, no por el golpe periodístico del momento, que a menudo se +olvida en pocos días. + +A continuación presentamos 3 argumentos que hemos usado para alentar a +editores a abordar proyectos de más largo plazo: + + Los proyectos de datos no envejecen + +: De acuerdo a su diseño, se puede agregar nuevo material a las + aplicaciones de periodismo de datos. Y no son solo para los + usuarios, sino que pueden ser usados internamente para hacer + informes y análisis. Si le preocupa que esto signifique que sus + competidores también se beneficien de su inversión, puede resguardar + algunos recursos o datos para uso interno solamente. + + Puede apoyarse en su trabajo pasado + +: Cuando aborda un proyecto de datos a menudo crea tramos de programas + que pueden ser reutilizados o actualizados. El siguiente proyecto + podría llevar la mitad del tiempo, porque sabe mucho mejor qué hacer + (y qué no) y tiene tramos que puede reutilizar. + + El periodismo de datos se pago solo + +: Los proyectos basados en datos son más baratos que las campañas de + marketing tradicionales. Las medios online a menudo invierten en + cosas como Optimización de Motores de Búsqueda (OMB) y Marketing de + Motores de Búsqueda (MMB). Un proyecto de datos ejecutado + normalmente generará muchos clics y comentarios y puede extenderse + como un virus en la red. Los editores comúnmente pagan menos por + esto que por tratar de generar la misma atención a través del MMB. + +Nuestro trabajo no es muy distinto del de otras agencias de nuevos +medios: proveer aplicaciones o servicios para medios informativos. Pero +quizás difiramos en que nos vemos en primer lugar como periodistas. A +nuestros ojos los productos que entregamos son artículos o historias, +aunque no se transmitan con palabras, imágenes, audio o video, sino en +código. Cuando hablamos de periodismo de datos, tenemos que hablar de +tecnología, software, dispositivos y cómo contar una historia con ellos. + +Para dar un ejemplo, acabamos de trabajar en una aplicación que obtiene +datos en tiempo real a través de un programa que extrae (*scrapea*) +información del sitio del ferrocarril alemán, lo que nos permite desarrollar +[un monitor ferroviario interactivo](http://zugmonitor.sueddeutsche.de/) +para Süddeutsche Zeitung que muestra las demoras de trenes de larga distancia en tiempo +real. Los datos de la aplicación son actualizados cada minuto +aproximadamente y también proveemos un API. Empezamos a hacer esto hace +varios meses y hasta ahora hemos acumulado un inmenso conjunto de datos +que se agranda a cada hora. A esta altura incluye cientos de miles de +filas de datos. El proyecto permite al usuario explorar estos datos en +tiempo real, e investigar en el archivo de meses anteriores. Al final la +historia que narramos será definida de modo significativo por la acción +individual de los usuarios. + +En el periodismo tradicional, debido al carácter lineal de los medios +escritos o de difusión, tenemos que pensar en un comienzo, el fin, el +desarrollo de la historia y el largo y el ángulo de nuestra pieza. Con +el periodismo de datos las cosas son diferentes. Sí hay un comienzo. La +gente llega al sitio y tiene una primera impresión de la interfaz. Pero +a partir de allí se las tienen que arreglar solos. Pueden quedarse un +minuto o media hora. + +Nuestro trabajo como periodistas de datos es proveer el marco o el medio +para esto. Junto con escribir código y manejar datos, tenemos que pensar +en maneras ingeniosas de diseñar experiencias. La experiencia del +usuario (UX) deriva principalmente de la Interfaz de Usuario (gráfica – +GUI). Al final, esta es la parte que definirá el éxito de un proyecto. +Se puede tener el mejor código trabajando en el trasfondo, manejando un +conjunto de datos interesante. Pero si la presentación es mala, no le +importará a nadie. + +Aún hay mucho por aprender y experimentar. Pero por suerte está la +industria de los juegos, que ha estado innovando al respecto de las +narrativas, los ecosistemas y las interfaces digitales desde hace varias +décadas. Por lo que cuando desarrollamos aplicaciones de periodismo de +datos, debemos estar atentos a cómo funciona el diseño de juegos y cómo +se narran historias en los juegos. ¿Por qué juegos como Tetris son tan +divertidos? ¿Y qué es lo que define los mundos abiertos de juegos como +Grand Theft Auto o Skyrim rock? + +Creemos que el periodismo de datos ha llegado para quedarse. En pocos +años, los flujos de trabajo del periodismo de datos estarán incrustados +naturalmente en las redacciones porque los sitios de noticias tendrán +que cambiar. La cantidad de información disponible al público seguirá +creciendo. Pero por suerte nuevas tecnologías seguirán permitiéndonos +encontrar nuevas maneras de narrar historias. Algunas de las historias +se basarán en datos y muchas aplicaciones y servicios tendrán carácter +periodístico. La cuestión interesante es qué estrategia desarrollarán +las redacciones para promover este proceso. ¿Crearán equipos de +periodistas de datos integrados en sus redacciones? ¿Habrá departamentos +de investigación y desarrollo, un poco como los departamentos internos +de empresas que se tratan como si fueran independientes? ¿O habrá +tercerización de partes del trabajo a compañías especializadas? Estamos +recién en el comienzo y el tiempo dirá. + +— *Lorenz Matzat, OpenDataCity* + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @173, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/en_la_redacci%C3%B3n_8.html' + ] + }, + GrafoscopioNode { + #header : 'Kaas & Mulvad: Contenido Semi-Terminado para Grupos con Intereses Específicos.', + #body : 'Los medios de grupos con intereses específicos constituyen un sector +emergente, en gran medida ignorado por los teóricos de los medios, que +potencialmente podría tener un tremendo impacto a través de redes online +o proveyendo contenido a medios de noticias. Pueden definirse como +medios (por lo general online), controlados por sectores de +organizaciones o instituciones, utilizados para defender ciertos +intereses y a ciertas comunidades. Las ONG comúnmente crean tales +medios; lo mismo hacen los grupos de consumidores, las asociaciones +profesionales, los sindicatos y así en más. La limitación clave de su +capacidad de influir en la opinión pública u otras partes interesadas es +a menudo que no cuentan con la capacidad para descubrir información +importante, con más limitaciones incluso que los medios de noticias que +han reducido su capacidad. Kaas & Muvlad, una corporación danesa con +fines de lucro, es una de las primeras empresas de medios de +investigación que ofrece capacidad experta a estos medios de grupos con +determinados intereses. + +La firma se originó en 2007 al separarse del Instituto Danés de +Periodismo Asistido por Computadora (Dicar) sin fines de lucro, que +vendía informes a medios y capacitaba a periodistas en análisis de +datos. Sus fundadores, Tommy Kaas y Nils Mulvad, fueron previamente +periodistas en la industria de noticias. Su nueva firma ofrece lo que +llaman “datos más visión periodística” (contenido que queda semi +terminado, requiriendo edición o reescritura) principalmente a medios +con determinados intereses, que utilizan el contenido para informes de +prensa o artículos y los distribuyen a través de medios de noticias y +sus propios medios (tales como sitios en la red). Entre los clientes +directos se incluyen instituciones gubernamentales, firmas de Relaciones +Públicas, sindicatos y ONG tales como EU Transparency y World Wildlife +Fund. El trabajo para ONG incluye el seguimiento de subsidios agrícolas +y de pesca y actualizaciones regulares sobre actividades de lobbistas de +la UE generadas a través de *“scraping”* de sitios pertinentes. Entre +los clientes indirectos se incluyen fundaciones que financian proyectos +de ONG. La firma también trabaja con la industria de noticias; por +ejemplo, un diario sensacionalista compró su servicio de seguimiento de +celebridades. + +![Grupos de interés en medios (Fagblaget3F)](figs/incoming/02-MM.png) + +Los proyectos de periodismo de datos en su portfolio incluyen: + + [Mapa de desempleo para 3F](http://bit.ly/3F-unemployment) + +: Una visualización de datos con cifras claves sobre desempleo en + Dinamarca para 3F, que es el sindicato de los trabajadores sin + capacitación en Dinamarca. + + [Condiciones de Vida para 3F](http://bit.ly/3F-living) + +: Otro proyecto para 3F muestra como son las distintas condiciones de + vida en distintas partes de Dinamarca. El mapa usa 24 indicadores + diferentes. + + [Deuda para “Ugebrevet A4”](http://bit.ly/3F-debt-index) + +: Un proyecto que calcula un “índice de deuda” y visualiza las + diferencias de economías privadas. + + [Instalaciones peligrosas en Dinamarca](http://bit.ly/3F-dangerous-facilities) + +: Un proyecto que hace el mapa de y analiza la proximidad de + instalaciones peligrosas con jardines de infantes y otras + instituciones realizado por “Born&Unge”, una revista publicada por + BUPL, El Sindicato Danés de Educadores de la Primera Infancia y + Jóvenes. + + [Datos de Responsabilidad Corporativa para Vestas](http://data.vestas.com/) + +: Visualización de datos de 5 áreas de RC para la compañía de turbinas + de viento danesa, Vestas, que con texto autogenerado. Actualizado + automáticamente quincenalmente con 400 páginas web incluyendo desde + datos a escala mundial hasta unidades individuales de producción. + + [Mapa de Nombres para Experian](http://xpoint.experian.dk/navnekort) + +: Tipee su apellido y mire la distribución de este nombre en distintas + áreas geográficas de Dinamarca. + + [Mapa de Smiley para Ekstra Bladet](http://ekstrabladet.dk/kup/fodevarer) + +: Todos los días Kaas & Mulvad extraen todas las inspecciones por + alimentos en mal estado y hacen el mapa de lo más actual para el + diario danés Ekstra Bladet (a la mitad del sitio está el mapa). + +Kaas & Mulvad no son los primeros periodistas en trabajar con grupos de +determinados intereses en medios. Greenpeace, por ejemplo, habitualmente +recurre a periodistas como colaboradores para sus informes. Pero no +conocemos ninguna otra firma cuyas ofertas a medios de este tipo se +basen en datos; es mucho más común que los periodistas trabajen con ONG +como periodistas, editores o escritores. + +Actualmente los medios informativos con ayuda de computadoras se +concentran en la búsqueda y el descubrimiento (por ejemplo, WikiLeaks); +en esto también Kaas & Mulvad son innovadores al concentrarse en +análisis de datos. Su enfoque requiere no solo capacidades de +programación sino también comprensión de qué tipo de información puede +producir una historia con impacto. Se puede decir con certeza que +cualquiera que desee imitar su servicio probablemente tendría que +adquirir esos dos conjuntos de capacidades a través de asociaciones, +porque raramente los individuos poseen ambos. + +#### Procesos: TI innovadora más análisis + +La firma encara alrededor de 100 proyectos al año, que duran entre pocas +horas y pocos meses. También invierte continuamente en proyectos que +expanden su capacidad y ofertas. El servicio de seguimiento de +celebridades fue uno de tales experimentos. Otro involucró recorrer +Internet en busca de noticias sobre ejecución de hipotecas y crear mapas +de los casos. Los socios dicen que su primer criterio para encarar +proyectos es disfrutar del trabajo y aprender del mismo; se buscan +mercados luego de que se defina un nuevo servicio. Aseguran en que el +sector de noticias les resultó difícil desarrollar nuevos métodos y +nuevos negocios. + +No tenemos editores o jefes que decidan qué proyectos podemos hacer, qué +software o hardware podemos comprar. Podemos comprar las herramientas de +acuerdo a las necesidades de los proyectos, como las mejores soluciones +para búsqueda y extracción de texto. Nuestra meta es estar a la +vanguardia en estas áreas. Tratamos de conseguir clientes que estén +dispuestos a pagar o, si el proyecto es divertido, lo hacemos por menos +dinero. + +#### Valor creado: marcas e ingresos personales y de firmas + +El giro en 2009 fue aproximadamente de 2.500.000 de coronas danesas (€ +336.000). La compañía también sostiene la reputación de los socios como +periodistas de vanguardia, lo que mantiene la demanda para sus servicios +educativos y de conferencias. Sus apariciones públicas al mismo tiempo +sostienen la marca de la firma. + +#### Percepciones claves de este ejemplo + +- La crisis de capacidad en baja del sector informativo es también una + crisis de sub utilización de capacidad. Kaas y Mulvad tuvieron que + dejar el sector para hacer trabajo que valoran y eso da resultados. + Nada impide a las organizaciones de noticias captar ese valor. +- Al menos en algunos sectores, existe un mercado rentable para + “contenido semi-acabado” que puede servir a los grupos de + interesados. +- Sin embargo, esta oportunidad plantea la cuestión de cuánto control + pueden ejercer los periodistas sobre la presentación y uso de su + trabajo por terceros. Recordamos que esta cuestión ya existe dentro + del sector de las noticias (donde los editores pueden imponer + cambios al producto de un periodista) y ha existido en otros + sectores de medios (tales como el cine, donde no son precisamente + raros los conflictos ente directores y estudios por el “corte + final”). No es un riesgo moral particular de los medios de + interesados, y tampoco va a desaparecer. Se necesita prestar más + atención a la ética de esta realidad y mercado en crecimiento. +- Desde el punto de vista de los ingresos, un producto o servicio solo + no basta. Las compañías exitosas que realizan periodismo de denuncia + debieran tener un enfoque de cartera en el que la consultoría, la + enseñanza, las conferencias y otros servicios aportan ingresos extra + y sostienen la marca. +— *Extracto editado de \\`\\`Disruptive News Technologies: Stakeholder +Media and The Future of Watchdog Journalism Business Models \'\'de Mark +Lee Hunter y Luk N. Van Wassenhove, INSEAD Working Paper, 2010*', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @173, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/en_la_redacci%C3%B3n_9.html' + ] + }, + GrafoscopioNode { + #header : 'Modelos de negocios para periodismo de datos', + #body : 'En medio de todo el interés y las expectativas respecto del periodismo +basado en datos, hay una cuestión sobre la que siempre hay curiosidad en +las redacciones: ¿cómo son los modelos de negocios? + +Si bien debemos ser cuidadosos respecto de hacer predicciones, un +análisis de la historia reciente y el estado actual del sector de los +medios nos puede dar una visión. Hoy hay muchas organizaciones de +noticias que se han beneficiado al adoptar nuevos enfoques. + +Los términos como “periodismo de datos” y la nueva expresión de moda, +“ciencia de datos”, pueden sonar como que describen algo nuevo, pero no +es estrictamente cierto. En cambio estas nuevas etiquetas son solo +maneras de caracterizar un cambio que ha estado cobrando fuerza a lo +largo de décadas. + +Muchos periodistas parecen inconscientes de la magnitud de los ingresos +que ya se generan a través de la recolección de datos, su análisis y +visualización. Este es el negocio de la refinación de la información. +Con herramientas y tecnologías para procesar datos, es cada vez más +posible echar luz sobre asuntos muy complejos, se trate de finanzas +internacionales, deuda, demografía, educación, y así en más. El término +“inteligencia de negocios” describe una variedad de conceptos de TI que +apuntan a aportar una visión clara de lo que sucede en corporaciones +comerciales. Las compañías grandes y rentables de nuestro tiempo, +incluyendo McDonalds, Zara y H&M, dependen del seguimiento constante de +datos para obtener ganancias. Y para ellos funciona bastante bien. + +Lo que está cambiando es que las herramientas desarrolladas para este +espacio ahora están disponibles para otros dominios, incluyendo los +medios. Y hay periodistas que lo entienden. Está por caso Tableau, una +compañía que provee un conjunto de herramientas de visualización. O el +movimiento “Big Data” (Grandes Datos), en el que compañías de tecnología +usan paquetes de software (a menudo de código abierto) para analizar +pilas de datos, extrayendo conclusiones en milisegundos. + +Estas tecnologías ahora se pueden aplicar al periodismo. Equipos de The +Guardian y The New York Times están constantemente ampliando los límites +de este campo naciente. Y lo que vemos actualmente es solo la punta del +iceberg. + +¿Pero cómo genera esto dinero para periodismo? El gran mercado mundial +que actualmente se está abriendo tiene que ver con la transformación de +datos de disponibilidad pública en algo que podamos procesar: haciendo +que los datos resulten visibles y humanos. Queremos poder relacionarnos +con las grandes cifras que escuchamos todos los días en las noticias, lo +que significan los millones y miles de millones para cada uno de +nosotros. + +Hay una cantidad de compañías de medios basadas en datos, muy rentables, +que simplemente han aplicado este principio antes que otras. Disfrutan +de tasas de crecimiento saludables y a veces ganancias que impresionan. +Un ejemplo es Bloomberg. La compañía opera alrededor de 300.000 +terminales y entrega datos financieros a sus usuarios. Si usted está en +el negocio del dinero, esta es una herramienta poderosa. Cada terminal +viene con un teclado con códigos de colores y hasta 30.000 opciones para +mirar, comparar, analizar y ayudarlo a decidir que hacer a continuación. +Este negocio central genera según se estima US\\$ 6300 millones al año, +al menos según [un artículo publicado en 2008](http://nyti.ms/IQcRgY) en +The New York Times. Como resultado de ello Bloomberg ha estado +contratando periodistas por todas partes, compraron la venerable pero +perdidosa “Business Week”, y así siguiendo. + +Otro ejemplo es el conglomerado de medios canadiense conocido hoy como +Thomson Reuters. Comenzaron con un diario, compraron una cantidad de +títulos conocidos en el Reino Unido y luego decidieron hace dos décadas +dejar el negocio de los diarios. En vez de ello, han crecido en base a +servicios de información, apuntando a proveer una perspectiva más +profunda para clientes en una cantidad de sectores. Si le preocupa cómo +ganar dinero con información especializada, mi consejo sería que +simplemente lea [la historia de la compañía en +Wikipedia](http://en.wikipedia.org/wiki/The_Thomson_Corporation). + +Y vea The Economist. La revista ha creado una marca excelente e +influyente por el lado de los medios. Al mismo tiempo la “Economist +Intelligence Unit” ahora es más como una consultora, informando sobre +tendencias y pronósticos relevantes para casi todos los países del +mundo. Emplean cientos de periodistas y sostienen que sirven a 1.500.000 +de clientes en todo el mundo. + +Y hay muchos servicios de nicho basados en datos que podrían servir como +inspiración: eMarketer en Estados Unidos, que ofrece comparaciones, +cuadros y consejos para cualquiera interesado en marketing en Internet; +Stiftung Warentest en Alemania, institución que analiza la calidad de +productos y servicios; Statista, también de Alemania, una nueva empresa +que ayuda a visualizar información públicamente disponible. + +En todo el mundo actualmente hay una oleada de nuevas empresas en este +sector, que cubren naturalmente una amplia gama de áreas; por ejemplo, +Timetric, que apunta a “reinventar los estudios de negocios”, +OpenCorporates, Kasabi, Infochimps y Data Market. Muchas de estas son +experimentos, pero de conjunto pueden considerarse una señal importante +de cambio. + +Y están los medios públicos, que en términos de periodismo de datos, son +un gigante dormido. En Alemania, € 7200 millones van a este sector +anualmente. El periodismo es un producto especial: si se hace bien, no +solo se trata de ganar dinero, sino que sirve un rol importante en la +sociedad. Una vez que queda en claro que el periodismo de datos puede +ofrecer visiones más confiables y de modo más fácil, parte de este +dinero podría usarse para nuevos empleos en las redacciones. + +En el caso del periodismo de datos no se trata solo de ser el primero si +no de ser una fuente de información confiable. En este mundo multicanal, +se puede generar atención en abundancia, pero la *confianza* es un +recurso cada vez más escaso. Los periodistas de datos pueden ayudar a +filtrar, sintetizar y presentar fuentes de información diversas y a +menudo difíciles de un modo que le da al público una visión real de +asuntos complejos. En vez de solo reciclar comunicados de prensa y +repetir las historias que han escuchado en otras partes, los periodistas +de datos pueden dar a los lectores una perspectiva clara, comprensible y +preferentemente adecuada a esos lectores, con gráficos interactivos y +acceso directo a fuentes primarias. No trivial y sin duda valioso. + +¿Entonces cuál es el mejor enfoque para que quienes aspiran a +periodistas de datos exploren este campo y convenzan a la gerencia de +que apoyen proyectos innovadores? + +El primer paso debiera ser buscar oportunidades inmediatas cerca de +donde están: fruta que cuelga del árbol. Por ejemplo usted puede tener +ya colecciones de textos y datos estructurados que puede usar. Un gran +ejemplo de esto es la “base de datos de homicidios” de Los Ángeles +Times. Aquí los datos y las visualizaciones son el centro, no algo +secundario. Los editores recogen información sobre todos los crímenes +que encuentran y recién entonces escriben artículos basados en ello. Con +el tiempo tales colecciones se están volviendo mejores, más profundas y +más valiosas. + +Esto podría no funcionar la primera vez. Pero con el tiempo si lo hará. +Un indicador que da muchas esperanzas es que el Texas Tribune y +ProPublica, que podría decirse que son ambas compañías de medios de la +era posterior a los diarios impresos, informaron que la financiación de +sus organizaciones de periodismo sin fines de lucro superó sus metas +mucho antes de lo planificado. + +Volverse eficiente en todo lo relacionado con datos –como generalista o +como especialista concentrado en un aspecto de la cadena alimenticia de +datos- genera una perspectiva valiosa para la gente que cree en el +periodismo. Como dijo un muy conocido editor en Alemania recientemente +en una entrevista: “Existe este nuevo grupo que se llaman periodista de +datos. Y ya no están dispuestos a trabajar por moneditas”. + +— *Mirko Lorenz, Deutsche Welle* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @173, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/en_la_redacci%C3%B3n_10.html' + ] + } + ], + #parent : @5, + #level : 1, + #nodesInPreorder : OrderedCollection [ + @167, + @170, + @181, + @185, + @189, + @193, + @197, + @201, + @205, + @209, + @213, + @217 + ], + #links : @179 + }, + @170, + @181, + @185, + @189, + @193, + @197, + @201, + @205, + @209, + @213, + @217, + GrafoscopioNode { + #header : 'Estudio de casos', + #body : '![](figs/incoming/03-00-cover.png) + +En esta sección analizamos con más profundidad el detrás de escena de +numerosos proyectos de periodismo de datos, desde aplicaciones +desarrolladas en un día, hasta investigaciones de 9 meses de duración. +Nos informamos sobre cómo han sido usadas fuentes de datos para aumentar +y mejorar la cobertura de diferentes temas, desde elecciones hasta +gasto, de disturbios hasta corrupción, desde el nivel educativo de las +escuelas hasta el precio del agua. Junto a organizaciones de grandes +medios, tales como la BBC, el Chicago Tribune, The Guardian, el +Financial Times, Helsingin Sanomar, La Nación, el Wall Street Journal, y +el Zeit Online, también presentamos iniciativas más pequeñas tales como +las de California Watch, Hack/HackersBeunos Aires, ProPublica y un grupo +de ciudadanos-periodistas brasileños llamados amigos de Januária. + +### Qué contiene este capítulo? + +- [La brecha de oportunidades](estudio_de_casos_0.html) +- [Una investigación de 9 meses sobre Fondos Estructurales + Europeos](estudio_de_casos_1.html) +- [El colapso de la Eurozona](estudio_de_casos_2.html) +- [Cubrir el gasto público con + OpenSpending.org](estudio_de_casos_3.html) +- [Elecciones parlamentarias finlandesas y financiación de + campañas](estudio_de_casos_4.html) +- [Hack electoral en tiempo real (Hacks/Hackers Buenos + Aires)](estudio_de_casos_5.html) +- [Datos en las noticias: WikiLeaks](estudio_de_casos_6.html) +- [Hackatón Mapa76](estudio_de_casos_7.html) +- [Cobertura de los disturbios en el Reino Unido por el Datablog de + The Guardian](estudio_de_casos_8.html) +- [Evaluaciones de escuelas de Illinois](estudio_de_casos_9.html) +- [Facturación de hospitales](estudio_de_casos_10.html) +- [Crisis de los geriátricos](estudio_de_casos_11.html) +- [El teléfono que lo dice todo](estudio_de_casos_12.html) +- [Tasas de reprobación de distintos modelos de auto en la prueba + MOT](estudio_de_casos_13.html) +- [Subsidios a colectivos en Argentina](estudio_de_casos_14.html) +- [Ciudadanos periodistas de datos](estudio_de_casos_15.html) +- [El gran cuadro de resultados electorales](estudio_de_casos_16.html) +- [Consulta sobre el precio del agua](estudio_de_casos_17.html) +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'La brecha de oportunidades', + #body : '[The Opportunity Gap](http://projects.propublica.org/schools) (La Brecha +de Oportunidades, usó datos de derechos civiles nunca antes difundidos +del departamento de Educación de Estados Unidos y mostró que algunos +estados, como Florida, han creado una situación equitativa ofreciendo a +estudiantes ricos y pobres un acceso equitativo en términos generales a +cursos de alto nivel, mientras que otros estados, como Kansas, Maryland +y Oklahoma, ofrecen menos oportunidades en distritos con familias más +pobres. + +![The Opportunity Gap project (ProPublica)](figs/incoming/03-YY.png) + +Los datos incluyen a las escuelas públicas de todo distrito con 3000 +estudiantes o más. Estan representados más de 3 cuartos de todos los +alumnos de escuelas públicas. Un reportero de nuestra redacción obtuvo +los datos y nuestro Director de Informes Asistidos por Computadora los +depuró en profundidad. + +Fue un proyecto que llevó aproximadamente 3 meses. En total 6 personas +trabajaron en la historia y la aplicación de noticias: 2 editores, un +redactor, una persona de Informes asistidos por computadora y 2 +programadores. La mayoría no trabajó exclusivamente en este proyecto +durante ese período. + +El proyecto requirió realmente nuestras capacidades combinadas: profundo +conocimiento del tema, una comprensión de las mejores prácticas con +datos, capacidades de diseño y programación. Lo que es más importante, +requirió la capacidad de encontrar la historia en los datos. También +exigió edición, no solo para la historia que la acompaña, sino también +para la aplicación de noticias. + +Para la depuración y análisis de los datos usamos principalmente Excel y +rutinas de depuración, así como MS Access. La aplicación de noticias fue +desarrollada con el programa Ruby on Rails y usa abundantemente +JavaScript. + +Además de un artículo que da el marco general, nuestra cobertura incluyó +una aplicación de noticias interactiva que permite a los lectores +comprender y encontrar ejemplos que se relacionen con su propia +situación dentro de esta gran base de datos nacional. Utilizando nuestra +aplicación de noticias, el lector podía encontrar su escuela local +–digamos, por ejemplo, +[Central High School en Newark, N.J.](http://goo.gl/HJVCf)\\_ +y ver inmediatamente el desempeño relativo +de la escuela en una gran variedad de áreas. +Entonces podía cliquear un botón que dice +[“comparar con Escuelas de Alta y Baja Pobreza”](http://goo.gl/WrAIi), +e inmediatamente ver otras escuelas medias y su pobreza relativa, y la +medida en la que ofrecen matemática avanzada, Advanced Placement +(conocido con la sigla AP, un programa de la dirección de Colleges, que +ofrece currícula y exámenes de nivel de College para estudiantes de +secundaria en Estados Unidos, n. del t.) y otros cursos importantes. +En nuestro ejemplo, Central High tiene como +referencia a Millburn Sr. High. La Brecha de Oportunidades muestra que +sólo el 1% de los estudiantes de Milburn recibe almuerzo gratis o a +precio reducido y el 72% de ellos hace al menos un curso de AP. En el +otro extremo, en el International High el 85% de sus estudiantes recibe +almuerzo gratis o a precios reducidos y solo 1% toma cursos AP. + +A través de este ejemplo el lector puede usar información que conoce –de +una escuela media local- para averiguar algo que no sabe: la +distribución de la accesibilidad educativa y en qué medida la pobreza +predice esa accesibilidad. + +También integramos la aplicación con Facebook, de modo que los lectores +pudieran loguearse esta a esta red social y nuestra aplicación +automáticamente les haría saber de escuelas que podrían interesarles. + +El tráfico hacia todas nuestras aplicaciones de noticias es excelente y +estamos particularmente orgullosos del modo en que ella cuenta una +historia compleja; y, lo que va más al grano, ayuda a los lectores a +definir su propia historia. + +Tal como sucede con muchos proyectos que parten de información oficial, +los datos requirieron mucha depuración. Por ejemplo, si bien sólo hay +alrededor de 30 posibles cursos de Advanced Placement, algunas escuelas +informaban que tenían cientos de ellos. Esto exigió muchos chequeos +manuales y llamadas telefónicas a escuelas para confirmaciones y +correcciones. + +También trabajamos fuerte para asegurarnos que la aplicación ofreciera +una versión “lejana” y una versión “cercana” de la historia. Es decir, +la aplicación tenía que presentar al lector un cuadro nacional amplio y +abstracto; una manera de comparar a los estados en materia de acceso +educativo. Pero dado que la abstracción a veces genera confusión en los +lectores respecto de lo que los datos significan para ellos, también +queríamos que los lectores pudieran encontrar sus escuelas locales y +compararlas con escuelas de baja pobreza en su área. + +Si quisiera aconsejar a quienes quieren ser periodistas de datos y +abordar proyectos de este tipo, diría que tienen que conocer el material +y ser inquisitivos. Todas las reglas que valen para otros tipos de +periodismo, valen también aquí. Hay que tener datos ciertos, asegurarse +de contar bien la historia y -cuestión crucial- asegurarse de que su +aplicación de noticias no contradiga la historia que está escribiendo. +Si lo hace, una de las 2 podría estar equivocada. + +Además, si usted quiere aprender a programar, lo más importante es +empezar. Usted puede preferir aprender a través de clases, libros o +videos, pero asegúrese de tener una idea realmente buena para un +proyecto y un plazo para completarlo. Si tiene una historia en la cabeza +que solo puede expresarse a través de una aplicación de noticias, +entonces no saber programar no lo va a detener. + +— *Scott Klein, ProPublica* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : GrafoscopioNode { + #header : 'Estudio de casos', + #body : Text { + #string : '', + #runs : RunArray { + #runs : [ ], + #values : [ ] + } + }, + #tags : OrderedCollection [ + 'text' + ], + #children : @224, + #level : 1, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos.html' + ] + }, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_0.html' + ] + }, + GrafoscopioNode { + #header : 'Una investigación de 9 meses sobre Fondos Estructurales Europeos', + #body : 'En 2010, el [Financial Times](http://www.ft.com/intl/eu-funds) y el +[Bureau of Investigative Journalism +(BIJ)](http://bit.ly/bureau-billions) se unieron para investigar los +Fondos Estructurales Europeos. La intención era revisar quiénes son los +beneficiarios de esos fondos y verificar si el dinero se usó para bien. +Con € 347.000 millones a lo largo de 7 años, los Fondos Estructurales +son el segundo programa de subsidios de la Unión Europea. El programa +existe desde hace décadas, pero fuera de informes generales, había poca +transparencia respecto de quiénes eran los beneficiarios. Como parte de +un cambio de reglas en la actual ronda de otorgamiento de fondos, las +autoridades están obligadas a hacer pública una lista de beneficiarios, +incluyendo la descripción de los proyectos y el monto de fondos de la UE +y nacionales recibidos. + +![Investigación de Fondos Estructurales de la UE (Financial Times y el Bureau of Investigative Journalism)](figs/incoming/03-OO-01.png) + +El equipo del proyecto estaba compuesto por 12 periodistas y un +programador tiempo completo colaborando por 9 meses. La recolección de +los datos por sí sola llevó varios meses. + +El proyecto se publicó en 5 días de cobertura en el Financial Times y el +BIJ, un documental radial de la BBC y varios documentales de TV. + +Antes de abordar un proyecto con este nivel de esfuerzo hay que estar +seguro de que lo descubierto es original y que se terminará teniendo +buenas historias que nadie más tiene. + +El proceso se dividió en una serie de pasos diferentes. + +#### 1. Identificar quién registra los datos y cómo + +El Directorio General de las Regiones de la Comisión Europea tiene un +[portal](http://bit.ly/ec-portal) de los sitios de autoridades +regionales que publican los datos. Creíamos que la Comisión tendría una +base de datos general de proyectos a la que podríamos acceder +directamente o que podríamos obtener a través de un pedido de acceso a +la información. No existe tal base de datos con el nivel de definición +requerido. Rápidamente advertimos que muchos de los vínculos provistos +por la comisión eran erróneas y que la mayoría de las autoridades +publicaban los datos en formato PDF, en vez de formatos que faciliten el +análisis tales como CSV o XML. + +Un equipo de 12 personas trabajó para identificar los datos más +actualizadas y ordenar los vínculos reuniéndolos en una planilla de +cálculo que usamos para colaboración. Dado que los campos de datos no +eran uniformes (por ejemplo, los encabezados estaban en distintos +idiomas, algunos conjuntos de datos usaban diferentes divisas, y algunos +incluían descomposición en fondos de UE y nacionales) tuvimos que ser lo +más precisos posible en la traducción y +\\[line-through\\]\\*la\\*descripción de los campos de datos disponibles en +cada conjunto. + +#### 2. Descargar y preparar los datos + +El siguiente paso consistió en descargar todas las planillas de cálculo, +PDF y, en algunos casos, recopilar datos originales en la red. + +Cada conjunto de datos tuvo que ser estandarizado. Nuestra mayor tarea +fue extraer datos de cientos de páginas en formato .PDF. Gran parte de +esto se hizo utilizando UnPDF y ABBYY FineReader, que permiten extraer +datos a formatos tales como CSV o Excel. + +También significó verificar y volver a verificar que las herramientas de +extracción de PDF hubiesen captado los datos correctamente. Esto se hizo +filtrando, ordenando y sumando totales (para asegurarnos que se +correspondieran con lo publicado en los PDF). + +#### 3. Crear una base de datos + +El programador del equipo creó una base de datos SQL. Cada uno de los +archivos preparados fue utilizado entonces como unidad para la +construcción de la base de datos SQL general. Con un proceso diario se +cargaba todos los archivos individuales de datos en una gran base de +datos SQL, en la que se podían realizar búsquedas en cualquier momento a +través de su interfaz con palabras claves. + +#### 4. Doble verificación y análisis + +El equipo analizó los datos de 2 maneras principales: + + Vía la interfaz de la base de datos + +: Esto significó tipear palabras claves de interés (por ejemplo, + “tabaco”, “hotel”, “compañía A” en el motor de búsquedas. Con la + ayuda de Google Translate, que fue incorporado a la funcionalidad de + búsquedas de nuestra base de datos, esas palabras claves se + traducían a 21 idiomas, obteniendo los resultados apropiados. Estos + se podían descargar y los periodistas podían continuar su + investigación en proyectos individuales de su interés. + + Por macro-análisis usando toda la base de datos + +: Ocasionalmente descargábamos un conjunto de datos completo, que + entonces podía ser analizado (por ejemplo, usando palabras clave o + agregando datos por país, región, tipo de gasto, número de proyectos + por beneficiarios, etc.) + +Nuestras historias se conformaron con ambos métodos, pero también a +través de investigación de campo y de escritorio. + +Hacer la doble verificación de la integridad de los datos (agregando y +verificando en comparación con lo que las autoridades dijeron que fue +asignado) llevó una gran cantidad de tiempo. Uno de los principales +problemas fue que las autoridades mayormente solo divulgaban la cantidad +de “fondos de la UE y nacionales”. Bajo las reglas de la UE, cada +programa puede cubrir un porcentaje del costo total usando fondos de la +UE. El nivel de financiación por la UE es determinado, al nivel del +programa, por la llamada tasa de co-financiación. Cada programa (por +ejemplo, competitividad regional) está compuesto de numerosos proyectos. +Al nivel de los proyectos, técnicamente, uno podría recibir ciento por +ciento de financiación de la UE y otro nada, mientras el monto total de +la financiación por la UE al nivel de los programas no superara la tasa +de co-financiación aprobada. + +Esto significó que tuvimos que verificar con cada compañía beneficiaria +el monto de financiación de la UE que citamos en nuestras historias. + +— *Cynthia O’Murchu, Financial Times* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_1.html' + ] + }, + GrafoscopioNode { + #header : 'El colapso de la Eurozona', + #body : 'Estamos [cubriendo el colapso de la Eurozona](http://on.wsj.com/tYM82O). +Todos los aspectos. El dramatismo de los enfrentamientos entre gobiernos +y la pérdida de los ahorros de toda la vida; la reacción de los líderes +mundiales, las medidas de austeridad, y las protestas en contra de estas +medidas. Todos los días en el Wall Street Journal hay cuadros sobre +pérdidas de empleos, caída de PBI y hundimiento de los mercados +mundiales. Es incremental. Y aturde. + +Los editores de tapa convocan una reunión para debatir ideas sobre la +cobertura de fin de año y en momentos en que me voy de la reunión, me +pregunto: ¿Cómo será vivir esto? + +¿Es esto como 2008 cuando me echaron y las malas noticias eran +incesantes? Hablábamos de empleo y dinero todas las noche en la cena, +casi sin pensar en cómo podía intranquilizar a mi hija. Y los fines de +semana eran lo peor. Yo trataba de negar el temor que parecía dominarme +permanentemente y la ansiedad que no me dejaba respirar. ¿Así vive una +familia ahora mismo en Grecia? ¿En España? + +Me volví y seguí a Mike Allen, el editor de tapa, a su oficina le +propuse la idea de contar la crisis a través de familias en la Eurozona +mirando primero los datos, encontrando perfiles demográficos para +entender la composición familiar y luego sacando eso a luz junto con las +imágenes y entrevistas, audio de las distintas generaciones. Usaríamos +hermosos elementos de retrato, las voces … y los datos. + +Cuando volví a mi escritorio escribí un resumen y dibujé un logo. + +![El colapso de la Eurozona: resumen (Wall Street Journal)](figs/incoming/03-ZZ-01.png) + +Durante las siguientes 3 semanas perseguí cifras: métricas sobre +matrimonio, mortalidad, el tamaño de las familias y gasto en salud. Leí +sobre condiciones de vida y tasas de divorcio, miré encuestas sobre +bienestar y tasas de ahorro. Estudié estadísticas nacionales, llamé al +bureau de población de la ONU, el FMI, Eurostat, y la OCDE hasta que +encontré un economista que había pasado su carrera siguiendo familias. +Me conectó con una estudiosa sobre composición familiar. Me indicó +trabajos sobre mi tema. + +Con mi editor, Sam Enriquez, redujimos el número de países. Reunimos un +equipo para debatir el enfoque visual y qué periodistas producirían +palabras, audio y la historia. Matt Craig, el editor fotográfico de +tapa, se puso a trabajar para encontrar fotógrafos. Matt Murray, el +subeditor ejecutivo para cobertura mundial, envió un memo a los jefes de +sección pidiendo ayuda de los periodistas. (Esto fue crucial: la orden +de la máxima jerarquía). + +Pero primero los datos. Por la mañana yo exportaba datos a planillas de +cálculo y hacía cuadros para ver tendencias: caída del ahorro, +desaparición de pensiones, la vuelta de madres al trabajo, gasto en +salud, junto con deuda pública y desempleo. Por la tarde analizaba esos +datos agrupados, comparando los países para encontrar historias. + +Lo hice durante una semana antes de enredarme en los yuyos y comenzar a +dudar de mi misma. Quizás fuera un enfoque equivocado. Quizás no debía +tratarse de países, sino de padres y madres, y niños y abuelos. Los +datos aumentaron. + +Y se redujeron. A veces pasaba horas reuniendo información que en +definitiva no me decía nada. Había buscado un conjunto de cifras +equivocado. En algunos casos los datos eran simplemente demasiado +viejos. + +![Juzgar la utilidad de un conjunto de datos puede ser una tarea que lleve mucho tiempo Sarah Slobin)](figs/incoming/03-ZZ-04.png) + +Luego los datos volvieron a aumentar al advertir que aún tenía +interrogantes y no entendía las familias. + +Necesitaba verlo, moldearlo. Por lo que hice una serie rápida de +gráficos en Illustrator y comencé a ordenarlos y editarlos. + +Al emerger los cuadros, también apareció una imagen cohesionada de las +familias. + +![Visualizaciones gráficas: encontrar sentido a tendencias y patrones escondidos en los conjuntos de datos (Sarah Slobin)](figs/incoming/03-ZZ-06.png) + +![Las cifras son gente: el valor de los datos está en las historias individuales que representan (Wall Street Journal)](figs/incoming/03-ZZ-07.png) + +Lanzamos el proyecto. Llamé a cada periodista. Les mandé los cuadros, la +idea general y una invitación abierta a encontrar historias que ellos +consideraran significativas, que acercaran la crisis a nuestros +lectores. Necesitábamos una familia pequeña en Ámsterdam y familias más +grandes en España e Italia. Queríamos saber de múltiples generaciones +para ver cómo la historia personal moldea las respuestas. + +A partir de aquí, me levantaba temprano para ver mi correo electrónico +teniendo en cuenta la brecha de horarios. Los periodistas respondieron +con temas hermosos, síntesis y sorpresas que no había previsto. + +En cuanto a fotografías, sabíamos que queríamos retratos de +generaciones. La visión de Matt era lograr que sus fotógrafos siguieran +a cada miembro de la familia a lo largo de un día en sus vidas. Escogió +periodistas visuales que hubiesen cubierto el mundo, cubierto noticias e +incluso guerras. Matt quería que cada sesión terminara en la cena. Sam +sugirió que incluyéramos los menúes de las comidas. + +A partir de allí era cuestión de esperar a ver qué historia contaban las +fotos. Esperar a ver qué decían las familias. Diseñamos el aspecto del +material interactivo. Robé una paleta de colores de una novela de Tintin +y trabajamos la interacción. Y cuando reunimos todo en paneles, +agregamos nuevamente algunos (no todos, algunos) de los cuadros +originales. Lo suficiente para puntuar cada historia, lo suficiente para +endurecer los temas. Los datos se convirtieron en una pausa en la +historia, una manera de bajar un cambio. + +![La vida en la Eurozona (Wall Street Journal)](figs/incoming/03-ZZ-09.png) + +Al final, los datos eran la gente; eran las fotografías y las historias. +Era lo que enmarcaba cada narración y provocaba la tensión entre países. + +Para cuando publicamos el proyecto, justo antes de fin de año, mientras +todos contemplábamos lo que había en el horizonte, ya conocía a todos +los miembros de las familias por su nombre. Me sigo preguntando cómo +estarán ahora. Y si esto no parece un proyecto de datos, no hay +problema. Porque los momentos que quedaron documentados en la *Vida en +la zona del Euro*, esas historias de sentarse a comer y hablar sobre el +trabajo y la vida con su familia es algo que pudimos compartir con +nuestros lectores. Entender los datos es lo que lo hizo posible. + +— *Sarah Slobin, Wall Street Journal* + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_2.html' + ] + }, + GrafoscopioNode { + #header : 'Cubrir el gasto público con OpenSpending.org', + #body : 'En 2007, Jonathan vino a la Open Knowledge Foundation con una propuesta +de una carilla para un proyecto llamado +[Where Does My Money Go](http://www.wheredoesmymoneygo.org/) +(A dónde va mi dinero, que apuntaba a facilitarle a los ciudadanos británicos +la comprensión de cómo se gastan los fondos públicos. La intención era que fuera +una demostración de un concepto para un proyecto mayor que representara +visualmente la información pública, basándonos en trabajos pioneros del +Istoype Institute de Otto y Marie Neurath de la década del ‘40. + +![¿A dónde va mi dinero? (Open Knowledge Foundation)](figs/incoming/03-PP-02.png) + +El proyecto Where Does My Money Go? permitió a los usuarios explorar +datos públicos de una amplia variedad de fuentes usando herramientas de +código abierto intuitivas. Obtuvimos apoyo para desarrollar un prototipo +del proyecto, y luego recibimos fondos del 4IP de Channel 4, para +convertir esto en una aplicación de la red plenamente funcional. El gurú +del diseño informático, David McCandless (de +[Information is Beautiful](http://www.informationisbeautiful.net/); creó varias +vistas distintas de los datos que ayudan a la gente a ubicarse respecto de las +grandes cifras, incluyendo el “Analisis del País y Regional”, que +muestra cómo se gastan los fondos en distintas partes del país, y +[“Daily Bread”](http://wheredoesmymoneygo.org/dailybread.html) (Pan +diario, que muestra a los ciudadanos un desglose de sus contribuciones +fiscales por día en libras y centavos. + +![Calculador impositivo Daily Bread de ¿A dónde va mi dinero? (Open Knowledge Foundation)](figs/incoming/03-PP-01.png) + +En aquel tiempo, el santo grial para el proyecto eran los datos de lo +que se llamaba +[Combined Online Information System](http://data.gov.uk/dataset/coins) +(COINS, Sistema de Información Combinada Online, que era la base de datos +más abarcativa y detallada de finanzas públicas británicas. +Trabajando con Lisa Evans (antes de que se sumara al equipo del Datablog en +The Guardian), Julian Todd y Francis Irving (conocidos por Scraperwiki), +Martin Rosenbaum (BBC) y otros, presentamos numerosos pedidos de datos, +muchos de ellos con éxito (la saga está parcialmente documentada por Lisa en +el cuadro de texto “Using FOI to Understand Spending”) (Usar LDI para entender el +gasto, en la página 120 de este manual.) + +Cuando los datos fueron finalmente difundidos a mediados de 2010, fue +considerado un golpe en favor de la transparencia. Se nos dio acceso por +adelantado a los datos para poder cargarlos en nuestra aplicación en la +red y recibimos significativa atención de la prensa cuando se hizo +público este hecho. El día en que se puso a disposición del público, +tuvimos docenas de periodistas que aparecieron en nuestro canal de chat +para debatir y preguntar sobre el hecho, así como averiguar cómo abrir +la aplicación y explorarla (los archivos tenían decenas de gigabytes). +Si bien algunos críticos sostuvieron que la publicación masiva de datos +era tan complicada que en los hechos era [oscurecer las cosas de tanta +transparencia](http://bit.ly/archive-silicon), muchos periodistas +valientes se metieron a investigar en los datos para dar a sus lectores +un cuadro sin precedentes del gasto público. The Guardian [transmitió el +evento en vivo](http://bit.ly/guardian-coins) en su blog y otros medios +lo cubrieron y ofrecieron conclusiones basadas en los datos. + +No tardaron mucho en llegar pedidos y preguntas respecto de proyectos +similares en otros países del mundo. Poco después de lanzar +[OffenerHaushalt](http://offenerhaushalt.de/) -una versión del proyecto +para el presupuesto estatal alemán creado por Friedrich Lendenberg- +lanzamos [OpenSpending](http://openspending.org/), una versión +internacional del proyecto, que apunta a ayudar a los usuarios a seguir +el gasto público de todo el mundo, un poco como el OpenStreetMap ayudó a +hacer el mapa de accidentes geográficos. Implementamos nuevos diseños +con ayuda del talentoso Gregor Aisch, basados parcialmente en los +diseños originales de David McCandless. + +![OffenerHaushalt, la versión alemana de ¿A dónde va mi dinero? (Open Knowledge Foundation)](figs/incoming/03-PP-03.png) + +Con OpenSpending, hemos trabajado extensamente con periodistas para +adquirir, representar, interpretar y presentar datos de gasto público. +El proyecto es en primer lugar una base de datos enorme del gasto +público –tanto información presupuestaria de alto nivel como gasto +efectivo al nivel de las transacciones- en la que se puede hacer +búsquedas. Sobre esto se ha construido una serie de visualizaciones +tales como "treemaps"(gráficos de rectángulos anidados) y "bubbletrees" +(gráficos de burbujas anidadas). Cualquiera puede cargar los datos de su +municipalidad y producir visualizaciones. + +Inicialmente creímos que habría mayor demanda de nuestras +visualizaciones más sofisticadas, pero luego de hablar con +organizaciones de noticias advertimos que había necesidades más básicas +que debían ser satisfechas primero, tales como la capacidad de insertar +tablas dinámicas de datos en sus blogs. Deseosos de alentaras a dar +acceso público a los datos junto con sus historias, también creamos una +aplicación para esto. + +Nuestro primer gran lanzamiento fue en la época del primer Festival +Internacional de Periodismo en Perugia. Un grupo de programadores, +periodistas y empleados públicos colaboraron para cargar datos italianos +en la plataforma de OpenSpending, que daba una rica visión de cómo se +dividía el gasto entre las administraciones regionales y locales y +central. Apareció en +[Il Fatto Quotidiano](http://bit.ly/ilfatto-spending), +[Il Post](http://bit.ly/ilpost-spending), +[La Stampa](http://bit.ly/lastampa-spending), +[Repubblica](http://bit.ly/repubblica-spending), y +[Wired Italia](http://bit.ly/wired-italy-spending), así como en +[The Guardian](http://bit.ly/guardian-italy-spending). + +![Versión italiana de ¿A dónde va mi dinero? (La Stampa)](figs/incoming/03-PP-04.png) + +En 2011 trabajamos con +[Publish What You Fund](http://www.publishwhatyoufund.org/) (Publique lo que financia), y +el [Overseas Development Institute](http://www.odi.org.uk/) (Instituto +de Desarrollo en el Extranjero, para rastrear la ayuda financiera a +Uganda de 2003-2006. Esto era nuevo porque por primera vez se podía ver +los flujos de ayuda junto con el presupuesto nacional, lo que permite +ver en qué medida las prioridades de los donantes están alineadas con +las prioridades de los gobiernos. Hubo algunas conclusiones +interesantes, por ejemplo tanto los programas contra el HIV como la +planificación familiar resultaron estar financiadas casi completamente +por donantes externos. Esto fue cubierto en +[The Guardian](http://bit.ly/guardian-uganda-viz). + +También hemos estado trabajando con ONGs y grupos interesados para +cruzar los datos del gasto con otras fuentes de información. Por +ejemplo, Privacy International se conectó con nosotros trayendo una +larga lista de compañías de tecnología de vigilancia y una lista de +entes que participaron de una feria internacional de la vigilancia muy +famosa, que se conoce como la “fiesta de los que colocan micrófonos +ocultos”. Cruzando nombres de empresas con conjuntos de datos de gasto, +fue posible identificar qué compañías tenían contratos oficiales, los +que a partir de allí podían seguirse a través de pedidos de acceso a la +información al Estado. Esto fue cubierto por +[The Guardian](http://bit.ly/guardian-surveillance). + +Actualmente, estamos trabajando para aumentar el entendimiento de los +datos fiscales por periodistas y el público en general como parte de un +proyecto llamado [Spending Stories](http://bit.ly/ss-faq) (Historias de +Gastos, que permite a los usuarios vincular datos de gasto público con +historias relacionadas, para ver las cifras detrás de las noticias y las +noticias a partir de los números. + +A través de nuestro trabajo en esta área aprendimos que: + +- Los periodistas a menudo no están acostumbrados a trabajar con datos + en crudo y muchos no consideran tenerlos como base para sus + informes. Basar historias en información cruda sigue siendo una idea + relativamente nueva. +- Analizar y comprender datos es un proceso que exige mucho tiempo, + incluso si se tiene las capacidades requeridas. Es difícil encajar + esto en un ciclo de noticias de corto plazo, por lo que el + periodismo de datos a menudo es utilizado en proyectos de + investigación de más largo plazo. +- Los datos difundidos por los gobiernos a menudo están incompletos o + son viejos. Muy a menudo, las bases de datos públicas no pueden ser + usadas para propósitos de investigación sin el agregado de piezas de + información más específicas requeridas a través de las normas de + acceso a la información pública. +- Grupos de interesados, estudiosos e investigadores a menudo tienen + más tiempo y recursos para realizar investigaciones basadas en datos + más extensas que los periodistas. Puede ser muy fructífero hacer + equipo con ellos. + +— *Lucy Chambers and Jonathan Gray, Open Knowledge Foundation* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_3.html' + ] + }, + GrafoscopioNode { + #header : 'Elecciones parlamentarias finlandesas y financiación de campañas', + #body : ' +En los últimos meses ha habido juicios relacionados con financiación de +campañas en las elecciones generales finlandesas de 2007. + +Después de esos comicios la prensa descubrió que las leyes sobre +publicidad de la financiación de las campañas no tenía efecto sobre los +políticos. Básicamente, se ha utilizado la financiación de campañas para +comprar los favores de políticos que no declararon su financiación tal +como lo ordena la ley finlandesa. + +A partir de estos incidentes, las leyes se volvieron más estrictas. +Luego de la elección general de marzo de 2011, Helsingin Sanomat decidió +explorar cuidadosamente todos los datos disponibles sobre financiación +de campañas. La nueva ley estipula que se debe declarar la financiación +electoral, y solo las donaciones de menos de 1500 euros pueden ser +anónimas. + +#### 1. Encontrar datos y programadores + +Helsingin Sanomat ha organizado hackatones HS Open desde marzo 2011. +Invitamos programadores, periodistas y diseñadores gráficos finlandeses +al sótano de nuestro edificio. Los participantes son divididos en grupos +de 3 personas y se los alienta a desarrollar aplicaciones y +visualizaciones. Hemos tenido alrededor de 60 participantes en cada uno +de nuestros 3 eventos hasta la fecha. Decidimos que los datos de +finanzas de campaña debían ser el centro de HS Open \\#2, en mayo de +2011. + +La Oficina Nacional de Auditoría de Finlandia es la autoridad que lleva +registro de las finanzas de campaña. Esa fue la parte fácil. El jefe de +información, Jaakko Hamunen, construyó un sitio en la red que da acceso +en tiempo real a su base de datos de finanzas de campaña. La Oficina de +Auditoría lo hizo solo en 2 meses después de nuestro pedido. + +El sitio [Vaalirahoitus.fi](http://www.vaalirahoitus.fi/) proveerá al +público y la prensa información de las finanzas de campaña para cada +elección a partir de ahora. + +![Finanzas electorales (Helsingin Sanomat)](figs/incoming/03-DD.png) + +#### 2. Tormenta de ideas + +Los participantes de HS Open 2 generaron veinte prototipos distintos +respecto de qué hacer con los datos. Puede encontrar todos los +prototipos [en nuestro sitio](http://bit.ly/hs-prototype), (texto en +finlandés). + +El investigador de bio-informática Janne Peltola señaló que los datos de +las finanzas de campaña se veían parecidos a los datos de genes que +ellos investigan, en términos de contener muchas interdependencias. + +En la bio-informática hay una herramienta de código abierto llamada +[Cytoscape](http://www.cytoscape.org/) que se usa para mapear estas +interdependencias. Por lo que procesamos los datos con Cytoscape, y +obtuvimos un prototipo muy interesante. + +#### 3. Implementar la idea en papel y en la red + +La ley de financiación de campañas dice que los miembros electos del +parlamento deben declarar su financiación 2 meses después de las +elecciones. En la práctica esto significó que obtuvimos los datos reales +a mediados de junio. En HS Open solo tuvimos datos de parlamentarios que +habían presentado su información antes del vencimiento del plazo. + +También hubo un problema con el formato de los datos. La Oficina +Nacional de Auditoría los proveyó en 2 archivos CSV. Uno contenía el +presupuesto total de las campañas, el otro listaba todos los donantes. +Tuvimos que combinar estos 2 creando un archivo que contenía 3 columnas: +donantes, receptor y monto. Si los políticos habían usado su propio +dinero, en nuestro formato de datos se veía como que el Político A donó +X euros al Político A. Quizás resulte contra-intuitivo, pero funcionó +para Cytoscape. + +Cuando los datos fueron depurados y reformateados, lo corrimos con +Cytoscape. Entonces nuestro departamento interactivo hizo un gráfico a +toda página. + +Finalmente creamos una hermosa visualización en nuestro sitio. Este no +fue un gráfico de análisis de redes. Queríamos ofrecer a la gente una +manera fácil de explorar los fondos de campaña y quién los dona. La +primera vista muestra la distribución de fondos entre parlamentarios. +Cuando se cliquea en un parlamentario se tiene el desglose de su +financiación. También se puede votar si este donante particular es bueno +o no. La visualización fue hecha por Juha Rouvinen y Jukka Kokko, de una +agencia publicitaria llamada Satumaa. + +La versión de la red de la visualización de finanzas de campaña usa los +mismos datos que el análisis de redes. + +#### 4. Publicar los datos + +Por supuesto que la Oficina Nacional de Auditoría ya publica los datos, +por lo que no hay necesidad de volver a publicarlos. Pero, como habíamos +depurado los datos y les habíamos dado una mejor estructura, decidimos +publicarlos. Damos nuestros datos con una [licencia de Creative Commons +Attribution](http://creativecommons.org/licenses/by/3.0/). Después +varios programadores independientes hicieron visualizaciones de los +datos, algunas de las cuales hemos publicado. + +Las herramientas que usamos para el proyecto fueron Excel y Google +Refine para la depuración y análisis de los datos; Cytoscape para el +análisis de redes; e Illustrator y Flash para las visualizaciones. El +Flash debió haber sido HTML5, pero se nos acabó el tiempo. + +¿Qué aprendimos? Quizás la lección más importante fue que las +estructuras de datos pueden ser muy difíciles. Si los datos originales +no están en un formato adecuado, recalcular y convertirlos lleva mucho +tiempo. +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_4.html' + ] + }, + GrafoscopioNode { + #header : 'Hack electoral en tiempo real (Hacks/Hackers Buenos Aires)', + #body : '![Elecciones 2011 (Hacks/Hackers Buenos Aires)](figs/incoming/03-FF.png) + +[Electoral Hack](http://elecciones.hhba.info/) es un proyecto de +análisis político que visualiza datos de los resultados provisionales de +las elecciones de octubre de 2011 en la Argentina. El sistema también +incluye información de anteriores elecciones y estadísticas demográficas +de todo el país. El proyecto fue actualizado en tiempo real con +información del recuento provisional de las elecciones nacionales de +2011 en ese país y dio resúmenes de los resultados. Fue una iniciativa +de Hacks/Hackers Buenos Aires con el analista político Andy Tow, y un +esfuerzo colaborativo de periodistas, programadores, diseñadores, +analistas, cientistas políticos e otros integrantes del capítulo local +de Hacks/Hackers. + +#### ¿Qué datos usamos? + +Todos los datos provienen de fuentes oficiales: la Dirección Nacional +Electoral dio acceso a los datos del recuento provisional por Indra; el +Ministerio del Interior dio información sobre cargos electorales y +candidatos de los distintos partidos políticos; [un proyecto +universitario](http://yoquierosaber.org/) dio información biográfica y +las plataformas políticas de cada lista electoral; mientras que la +información socio-demográfica provino del Censo Nacional de 2001 de +Población y Vivienda (INDEC), el censo de 2010 (INDEC) y el ministerio +de Salud. + +#### ¿Cómo se desarrolló? + +La aplicación fue generada durante el Hackatón Electoral 2011 de +Hacks/Hackers Buenos Aires, el día antes de las elecciones del 23 de +octubre de 2011. El hackatón tuvo la participación de 30 voluntarios de +una variedad de especialidades. El Hack Electoral fue desarrollado como +una plataforma abierta que podría mejorarse con el tiempo. Para la +tecnología usamos Google Fusion Tables, Google Maps y bibliotecas de +gráficos vectoriales. + +Trabajamos en la construcción de polígonos para presentar mapeado +geográfico y demografía electoral. Combinando polígonos en software GIS +y geometrías de tablas públicas en las Tablas de Fusión Google, +generamos tablas con claves correspondientes a la base de datos +electorales del ministerio del Interior, Indra y datos +socio-demográficos de INDEC. A partir de esto creamos visualizaciones en +Google Maps. + +Usando el API Google Maps, publicamos varios mapas temáticos +representando la distribución espacial de la votación con distintos +tonos de color, donde la intensidad del color representaba el porcentaje +de votos para varias candidaturas presidenciales en distintos +departamentos administrativos y centros de votación, con particular +énfasis en centros urbanos importantes: de la ciudad de Buenos Aires, +los 24 distritos del Gran Buenos Aires y las ciudades de Córdoba y +Rosario. + +Usamos la misma técnica para generar mapas temáticos de elecciones +anteriores, a saber las primarias presidenciales de 2011 y la elección +de 2007, así como la distribución de los datos socio-demográficos, tales +como los de pobreza, mortalidad infantil y condiciones de vida, +permitiendo análisis y comparaciones. El proyecto también mostró la +distribución espacial de las diferencias porcentuales de votos obtenidos +por cada candidatura en la elección general de octubre, comparado con la +elección primaria de agosto. + +Luego, usando datos de recuentos parciales, creamos un mapa animado +presentando la anatomía del recuento, en el que se muestra el avance del +mismo desde el cierre de la votación hasta la mañana siguiente. + +#### Pros + +- Nos propusimos representar datos y lo logramos. Teníamos la + [base de datos socio-demográfica infantil](http://infoargentina.unicef.org.ar/) + de UNICEF, a mano así como la base de datos creada por el yoquierosaber.org + de la Universidad Torcuato Di Tella. Durante el hackatón reunimos un gran + volumen de datos adicionales que terminamos no incluyendo. +- Claramente el trabajo periodístico y de programación se vio + enriquecido por los estudios académicos. Sin la contribución de Andy + Tow e Hilario Moreno Campos, el proyecto no se hubiera podido + realizar. + +#### Contras + +- Los datos socio-demográficos que pudimos utilizar no estaban + actualizados (la mayor parte era del censo de 2001) y no era muy + granular. Por ejemplo, no incluía detalles de PBI promedio local, + principal actividad económica, nivel educativo, número de escuelas, + médicos per cápita y muchas otras cosas que hubiera sido bueno + tener. +- Originalmente el sistema debía ser una herramienta que pudiera + usarse para combinar y mostrar datos arbitrariamente, de modo que el + periodista pudiera mostrar fácilmente datos que le interesaran en la + red. Pero tuvimos que dejar esto para otro momento. +- Dado que el proyecto fue creado por voluntarios en un plazo breve, + fue imposible hacer todo lo que queríamos. De todos modos avanzamos + mucho en el sentido adecuado. +- Por el mismo motivo, todo el trabajo colaborativo de 30 personas + terminó condensado en un solo programador cuando los datos del + gobierno comenzaron a aparecer, y tuvimos problemas para importar + datos en tiempo real. Estos problemas se resolvieron en cuestión de + horas. + +#### Implicancias + +La plataforma de Hack Electoral tuvo gran impacto en los medios, con +cobertura en televisión, radio, medios impresos y online. Mapas del +proyecto fueron utilizados por varias plataformas de medios durante las +elecciones y en días subsecuentes. Con el paso del tiempo, los mapas y +visualizaciones fueron actualizados, incrementando aún más el tráfico. +El día de la elección, el sitio creado ese mismo día recibió alrededor +de 20.000 visitantes diferentes y sus mapas fueron reproducidos en la +tapa del diario Página/12 2 días consecutivos, así como en artículos en +La Nación. Algunos mapas aparecieron en las ediciones impresas del +diario Clarín. Fue la primera vez en la historia del periodismo +argentino que se utilizó un despliegue interactivo de mapas en tiempo +real. En los mapas centrales se podía ver claramente la victoria +abrumadora de Cristina Fernández de Kirchner por el 54 por ciento de los +votos, desglosada por la saturación de color. También sirvió para ayudar +a los usuarios a entender casos específicos donde candidatos locales +tuvieron victorias por amplio margen en las provincias. + +— *Mariano Blejman, Mariana Berruezo, Sergio Sorín, Andy Tow, and Martín +Sarsale from Hacks/Hackers Buenos Aires* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_5.html' + ] + }, + GrafoscopioNode { + #header : 'Datos en las noticias: WikiLeaks', + #body : 'Comenzó con uno de los integrantes del equipo de periodismo +investigativo preguntando: “¿Ustedes son buenos con las planillas de +cálculo verdad?” Y esta era una enorme planilla de cálculo: 92.201 filas +de datos, cada una conteniendo un análisis de un evento militar en +Afganistán. Estos fueron los registros de [la guerra de +WikiLeaks](http://bit.ly/guardian-warlogs). En realidad, la primera +parte. Siguieron 2 episodios más: Irak y los cables. El término oficial +fue SIGACTS: la base de datos de Acciones Significativas de las Fuerzas +Armadas de Estados Unidos. + +Los registros de guerra de Afganistán –compartidos con The New York +Times y Der Spiegel- fueron periodismo de datos en acción. Lo que +queríamos hacer era permitir a nuestro equipo de periodistas +especializados obtener grandes historias humanas a partir de la +información y queríamos analizarlos para tener el cuadro general, +mostrar cómo iba la guerra realmente. + +Desde el comienzo fue central para lo que íbamos a hacer saber que no +publicaríamos toda la base de datos. WikiLeaks ya iba a hacer eso y +queríamos estar seguros de no revelar los nombres de los informantes, o +poner en peligro innecesariamente tropas de la OTAN. Al mismo tiempo, +teníamos que hacer más fácil el uso de los datos para nuestro equipo de +periodistas investigadores encabezados por David Leigh y Nick Davies +(que habían negociado la difusión de los datos con Julian Assange). +También queríamos simplificar el acceso a información clave en el mundo +real, haciéndola tan clara y abierta como pudiéramos. + +Los datos llegaron a nosotros como un inmenso archivo Excel, más de +92.201 filas de datos, algunas conteniendo nada o mal formateadas. No le +servía a los periodistas que trataban de buscar historias y era +demasiado grande como para hacer informes significativos. + +Nuestro equipo creó una base de datos interna simple usando SQL. Los +periodistas podían a partir de allí buscar por medio de palabras clave o +eventos. De pronto el conjunto de datos se volvió accesible y generar +historias se hizo más fácil. + +Los datos estaban bien estructurados: cada evento tenía los siguientes +datos claves: hora, día, descripción, cifras de bajas y, crucialmente, +latitud y longitud detalladas. + +También comenzamos a filtrar los datos para ayudarnos a contar una de +las historias claves de la guerra: el aumento de los ataques con DEI +(dispositivos explosivos improvisados), bombas caseras al costado del +camino que son impredecibles y difíciles de combatir. Este conjunto de +datos seguía siendo enorme pero más fácil de manejar. Hubo alrededor de +7500 explosiones o emboscadas con DEI (una emboscada es donde el ataque +se combina, por ejemplo, con fuego de armas pequeñas o de misiles con +granadas) entre 2004 y 2009. Hubo otros 8000 DEI descubiertos y +desactivados. Queríamos ver cómo cambiaban con el tiempo y hacer +comparaciones. Estos datos nos permitieron ver que el sur, donde estaban +las tropas británicas y canadienses, era la zona más golpeada, lo que +confirmaba lo que sabían nuestros corresponsales que habían cubierto la +guerra. + +La difusión de los registros de la guerra de Irak en octubre de 2010 +descargó otros 391.000 registros de la guerra de Irak en la escena +pública. + +Esto estaba en una categoría diferente de la filtración sobre +Afganistán; se puede decir que \\[line-through\\]\\*esto\\*convirtió a esta +en la guerra más documentada de la historia. Ahora contábamos con cada +detalle menor para analizarlo y desglosarlo. Pero se destaca un factor: +el volumen de las muertes, la mayoría de las cuales eran de civiles. + +Tal como en el caso de Afganistán, The Guardian decidió no volver a +publicar la base de datos completa, en gran medida porque no podíamos +estar seguros de que el conjunto no contuviera detalles confidenciales +de informantes y demás. + +![Los registros de guerra de The WikiLeaks (The Guardian)](figs/incoming/03-GG.jpg) + +Pero sí permitimos a nuestros usuarios descargar una planilla de cálculo +que contenía los registros de cada incidente en el que alguien murió, +casi 60.000 en total. Eliminamos el sumario por lo que solo estaban los +datos básicos: el encabezado militar, la cantidad de muertes y la +ubicación geográfica. + +También tomamos todos estos incidentes en los que murió alguien y los pusimos +en [un mapa usando Google Fusion Tables](http://bit.ly/guardian-iraq-map). +No era perfecto, pero sí un comienzo para tratar de mapear los patrones +de destrucción que habían devastado Irak. + +Los cables se difundieron en diciembre de 2010. Esto entraba en otra +liga, un inmenso conjunto de datos de documentos oficiales: 251.287 +despachos, de más de 250 embajadas y consulados estadounidenses. Es un +cuadro único de lenguaje diplomático de EE.UU., incluyendo más de 50.000 +documentos que cubren la actual administración Obama. ¿Qué incluían los +datos? + +Los cables mismos vinieron vía el inmenso Secret Internet Protocol +Router Network (Red de Ruteo del Protocolo Secreto de Internet), +conocido por la sigla SIPRNet. Es el sistema de Internet mundial militar +de Estados Unidos, que se mantiene separado de la Internet civil común y +es dirigida por el departamento de Defensa en Washington. Desde los +ataques de septiembre de 2001 había habido una iniciativa en Estados +Unidos de vincular archivos de información gubernamental, con la +esperanza de que datos claves de inteligencia ya no quedaran atrapados +en compartimentos estancos o presentados fuera de contexto. Un número +creciente de embajadas de EE.UU. han sido conectados a SIPRNet en la +última década, de modo que pueda compartirse la información militar y +diplomática. Para 2001, había 125 embajadas en SIPRNet; para 2005 la +cifra había crecido a 180 y a esta altura la gran mayoría de las +misiones de EE.UU. en el mundo entero están vinculadas con el sistema, +que es el motivo por el que grueso de estos cables son de 2008 y 2009. +Como escribió David Leigh: + +> Un despacho de embajada marcado como SIPDIS es descargado +automáticamente al sitio clasificado de la embajada. Allí no solo puede +verlo cualquiera en el departamento de Estado, sino cualquiera de las +fuerzas armadas de EE.UU. que tenga acceso de seguridad de nivel +“Secreto”, una clave, y una computadora conectada a SIPRNet. + +> 1. lo que asombrosamente abarca a 3.000.000 de personas. Hay varias + capas de datos aquí; llegando hasta la clasificación de *SECRET + NOFORN*, que significa que no podrán mostrarse jamás a quienes no + sean ciudadanos estadounidenses. En cambio se supone que son para + que los lean funcionarios en Washington hasta el nivel de la + secretaria de Estado, Hillary Clinton. Los cables normalmente son + redactados por el embajador local o subordinados. No se puede + acceder a los documentos de “Secreto Máximo” y por encima de + documento de inteligencia extranjera desde SIPRNet. + +A diferencia de las anteriores entregas, esta era predominantemente de +texto, no cuantificada ni con datos idénticos. Esto es lo que incluía: + + Una fuente + +: La embajada o el ente que envió los datos + + Una lista de receptores + +: Normalmente los cables eran enviados a una cantidad de embajadas y + entes. + + Un campo de tema + +: Una síntesis del cable. + + Etiquetas + +: Cada cable estaba etiquetado con una cantidad de abreviaturas + claves. + + Cuerpo del texto + +: El cable mismo. Optamos por no publicar estos completos por razones + obvias. + +Un detalle interesante de esta historia es cómo los cables casi crearon +filtraciones a demanda. Durante semanas ocuparon el centro de las +noticias al ser publicada; ahora, cada vez que aparece una historia +acerca de algún régimen corrupto o un escándalo internacional, el acceso +a los cables nos da nuevas historias. + +El análisis de los cables es una tarea enorme que quizás nunca se +termine por completo. + +— *Esta es una versión editdada de un capítulo publicado en Facts are +Sacred: The Power of Data de Simon Rogers, the Guardian (published on +Kindle)* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_6.html' + ] + }, + GrafoscopioNode { + #header : 'Hackatón Mapa76', + #body : 'Inauguramos el capítulo de +[Hacks/Hackers de Buenos Aires](http://www.meetup.com/HacksHackersBA/) +en abril de 2011. Fuimos anfitriones de 2 encuentros iniciales para difundir la +idea de mayor colaboración entre periodistas y programadores que incluyó +entre 120 y 150 personas en cada evento. Para una tercera reunión tuvimos +un hackatón de 30 horas con 8 personas en una conferencia de periodismo +digital en la ciudad de Rosario, a 300 kilómetros de Buenos Aires. + +Un tema recurrente en estas reuniones fue el deseo de recoger grandes +volúmenes de datos de la red y luego representarlos visualmente. Para +ayudar con esto, nació un proyecto llamado Mapa76.info, que ayuda a los +usuarios a extraer datos y luego desplegarlos usando mapas y líneas de +tiempo. Una tarea nada fácil. + +![Mapa76 (Hacks/Hackers Buenos Aires)](figs/incoming/03-MM.png) + +¿Por qué Mapa76? El 24 de marzo de 1976 hubo un golpe de Estado en la +Argentina, que duró hasta 1983. En ese período hubo según se estima +30.000 desaparecidos, miles de muertes y 500 niños nacidos en cautiverio +apropiados por la dictadura militar. Pasados más de 30 años, la cantidad +de gente condenada en la Argentina por crímenes de lesa humanidad +cometidos durante la dictadura llega a 262 personas (septiembre de +2011). En este momento hay 14 juicios en curso y 7 con fecha de comienzo +establecida. Hay 802 personas en varios casos en las cortes. + +Estos juicios generan grandes volúmenes de datos que son difíciles de +procesar para los investigadores, periodistas, organizaciones de +derechos humanos, jueces, fiscales y otros. Los datos se producen de +modo distribuido y los investigadores a menudo no recurren a +herramientas de software para ayudarse a interpretarlos. Esto significa +que a menudo no son tenidos en cuenta y las hipótesis son limitadas. +Mapa76 es una herramienta de investigación que da acceso abierto a esta +información con propósitos periodísticos, legales, jurídicos e +históricos. + +Para preparar el hackatón creamos una plataforma que programadores y +periodistas pudieran usar para colaborar en el día del evento. Martín +Sarsale desarrolló algunos algoritmos básicos para extraer datos +estructurados de documentos de texto simples. También se usaron algunas +bibliotecas del proyecto DocumentCloud.org, pero no demasiadas. La +plataforma analiza y extrae de manera automática nombres, fechas y +lugares de textos y permite a los usuarios explorar datos claves sobre +distintos casos (por ejemplo, fecha de nacimiento, lugar de arresto, +supuesto lugar de desaparición y así siguiendo). + +Nuestra meta era proveer una plataforma para la extracción automática de +datos sobre los juicios contra la dictadura militar en la Argentina. +Queríamos una manera de desplegar automáticamente (o al menos +semi-automáticamente) datos claves relacionados con casos entre 1976 y +1983 basado en evidencias escritas, argumentos y juicios. Los datos +extraídos (nombres, lugares y fechas) son recogidos, almacenados y +pueden ser analizados y refinados por el investigador, así como +explorados usando mapas, líneas de tiempo y herramientas de análisis de +redes. + +El proyecto permitirá a periodistas e investigadores, fiscales y +testigos seguir la historia de vida de una persona, incluyendo por +supuesto su cautiverio y posterior desaparición o liberación. Donde +falte información, los usuarios pueden buscar en un vasto número de +documentos que podrían ser de posible relevancia para el caso. + +Para el hackatón hicimos un anuncio público a través de [Hacks/Hackers +Buenos Aires](http://www.meetup.com/HacksHackersBA/), que entonces tenía +alrededor de 200 miembros (en el momento de escribir este informe hay +alrededor de 540). También contactamos muchas asociaciones de derechos +humanos. De la reunión participaron unas cuarenta personas, incluyendo +periodistas, organizaciones de defensa de los derechos humanos, +programadores y diseñadores. + +Durante el hackatón identificamos tareas que distintos tipos de +participantes podían desarrollar de forma independiente para ayudar a +que las cosas funcionaran bien. Por ejemplo, pedimos a diseñadores que +trabajaran en una interfaz que combinara mapas y líneas de tiempos, +pedimos a programadores que analizaran maneras de extraer datos +estructurados y logaritmos para eliminar ambigüedades relacionadas con +nombres, y pedimos a periodistas que investigaran qué había pasado con +gente específica, para comparar distintas versiones de historias y +analizar documentos para narrar historias sobre casos particulares. + +Probablemente el principal problema que tuvimos después del hackatón fue +que nuestro proyecto era muy ambicioso, nuestros objetivos de corto +plazo exigentes, y es difícil coordinar una red de voluntarios +dispersos. Casi todos los involucrados con el proyecto tenían empleos +que les ocupaban mucho tiempo y muchos participaban además de otros +eventos y proyectos. Hacks/Hackers Buenos Aires tuvo 9 reuniones en 2011. + +El proyecto está actualmente en desarrollo activo. Hay un equipo central +de 4 personas trabajando con más de una docena de colaboradores. Tenemos +una [lista de correo pública](http://groups.google.com/group/mapa76-dev/) y un +[centro de almacenado de código](https://github.com/mapa76/) a través del cual +cualquiera puede involucrarse en el proyecto. + +— *Mariano Blejman, Hacks/Hackers Buenos Aires* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_7.html' + ] + }, + GrafoscopioNode { + #header : 'Cobertura de los disturbios en el Reino Unido por el Datablog de The Guardian', + #body : 'Durante el verano de 2011, hubo una oleada de disturbios en el Reino +Unido. En aquel momento, algunos políticos sugirieron que estas acciones +categóricamente no estaban vinculadas con la pobreza y los que saquearon +fueron simplemente criminales. Lo que es más, el primer ministro, junto +con los principales políticos conservadores, culparon a los medios +sociales por causar los disturbios, sugiriendo que había habido +incitación desde estas plataformas y que los disturbios fueron +organizados a través de Facebook, Twitter y Blackberry Messenger (BBM). +Hubo reclamos para cerrar temporariamente los medios sociales. Debido a +que el gobierno no hizo una investigación de por qué se dieron los +disturbios, The Guardian, en colaboración con la London School of +Economics, creó un proyecto innovador para abordar estas cuestiones, llamado +[Reading the Riots](http://www.guardian.co.uk/uk/series/reading-the-riots) +(Leer los Disturbios), + +![Los disturbuios en Reino Unido: todos los incidentes verificados (The Guardian)](figs/incoming/03-ZZ.png) + +El diario usó periodismo de datos a gran escala para permitir al público +comprender mejor quién saqueaba y por qué. También trabajaron con otro +equipo de académicos, encabezados por el profesor Rob Procter de la +universidad de Manchester para entender mejor el rol de los medios +sociales, que The Guardian mismo había usado abundantemente para sus +informes durante los disturbios. El equipo de *Reading the Riots* fue +encabezado por Paul Lewis, el Editor de Proyectos Especiales de The +Guardian. Durante los disturbios Paul reportó desde el lugar de los +eventos en ciudades de toda Inglaterra (fundamentalmente a través de su +cuenta de Twitter @paullewis). Este segundo equipo trabajó a partir de +26.000.000 de tweets sobre los disturbios puestos a disposición por +Twitter. El objetivo principal de este trabajo con los medios sociales +fue ver cómo circulan los rumores en esa red social, la función que +tienen distintos usuarios/actores en la propagación y difusión de flujos +de información, para ver si se usó la plataforma para incitar, y para +examinar otras formas de organización. + +En términos del uso del periodismo de datos y visualizaciones, es útil +distinguir 2 períodos claves: el período de los disturbios mismos y las +maneras en que los datos ayudaron a narrar historias mientras se +desarrollaban los disturbios; y luego un segundo período de +investigación mucho más intensa con 2 conjuntos de equipos académicos +trabajando con The Guardian, para recolectar datos, analizarlos, y +escribir informes con análisis de fondo sobre lo descubierto. Los +resultados de la primera fase del proyecto *Reading the Riots* fueron +publicados durante una semana de cobertura extensiva a comienzos de +diciembre de 2011. A continuación aparecen algunos ejemplos claves de +cómo se usó el periodismo de datos durante ambos períodos. + +#### Primera fase: los disturbios mientras sucedían + +Usando mapas simples, el equipo de datos de The Guardian mostró +[localizaciones de lugares de disturbios confirmados](http://bit.ly/guardian-riots-map) +y combinando datos de pobreza con +[los lugares donde se dieron los disturbios](http://bit.ly/guardian-riots-poverty), +se comenzó a dejar sin sustento el discurso político central de que no había ningún vínculo +con la pobreza. En ambos ejemplos se utilizaron herramientas de mapeo +preexistentes y, en el segundo caso, se combinaron datos de ubicación +con otro conjunto de datos para comenzar a establecer otras conexiones y +vínculos. + +En relación al uso de medios sociales durante los disturbios (en este +caso, Twitter), el diario creó +[una visualización de hashtags](http://bit.ly/guardian-riots-twitter) +relacionadas con los disturbios usadas durante este período, lo que destacó que Twitter fue +usado principalmente para responder a disturbios en vez de para +organizar a gente para saquear, con \\#riotcleanup, la campaña espontánea +para limpiar las calles después de los disturbios, mostrando el salto +más significativo durante el período de los disturbios. + +#### Fase 2: análisis de los disturbios + +Con relación al momento en que el diario informó sus conclusiones luego +de meses de investigaciones intensivas trabajando en estrecha +colaboración con 2 equipos académicos, se destacan 2 visualizaciones que +han sido ampliamente debatidas. La primera, +[un video corto](http://bit.ly/guardian-riots-commute), muestra los resultados de +combinar los lugares conocidos donde la gente protagonizó disturbios con +sus lugares de vivienda y mostrando lo que se llamó “viaje a los +disturbios”. Aquí el diario trabajó con un especialista en mapeo de +transporte, ITO World, para hacer un modelo de la ruta más probable +utilizada por quienes protagonizaron los disturbios al dirigirse a los +distintos lugares donde saquearon, lo que destaca patrones diferentes +para distintas ciudades, con viajes largos en algunas de ellas. + +La segunda se refiere a las maneras en que se extienden los rumores en +Twitter. En debate con el equipo académico, se escogieron 7 rumores para +su análisis. El equipo académico entonces recolectó todos los datos +relacionados con cada rumor y diseñó un código que identifica cada tweet +de acuerdo a los 4 códigos principales: gente que simplemente repite el +rumor (afirma algo), lo rechaza (afirma algo contrario), lo cuestiona +(interrogación) o simplemente lo comenta (comentario). Todos los tweets +fueron codificados por triplicado y los resultados +[fueron visualizados](http://bit.ly/guardian-riots) por el equipo interactivo de +The Guardian. El equipo de The Guardian +[escribió acerca de cómo construyó las visualizaciones](http://bit.ly/guardian-riots-twitter-interactive). + +Lo llamativo de esta visualización es que muestra de manera potente lo +que es muy difícil de describir y que es la naturaleza viral de los +rumores y las maneras en que se desarrolla su ciclo vital a lo largo del +tiempo. El rol de los principales medios es evidente en algunos de estos +rumores (por ejemplo, rechazándolos abiertamente, o confirmándolos +rápidamente como noticias), al igual que la naturaleza correctiva de +Twitter mismo en términos de responder a tales rumores. Esta +visualización no solo ayudó mucho a narrar la historia, sino que también +dio una visión real de cómo funcionan los rumores en Twitter, lo que +aporta información útil para responder a eventos futuros. + +Lo que resulta claro a partir del último ejemplo es la poderosa sinergia +entre el diario y un equipo académico capaz de un análisis profundo de +2.600.000 de tweets producidos en los disturbios. Si bien el equipo +académico creó un conjunto de herramientas para hacer su análisis, ahora +están trabajando para hacer que estas estén disponibles para cualquiera +que desee utilizarlas ofreciendo un centro de trabajo para su análisis. +Combinado con la explicación de cómo hacer las cosas aportada por el +equipo de The Guardian, constituye un estudio de caso que es útil porque +muestra cómo el análisis de medios sociales y las visualizaciones pueden +ser usadas para narrar historias importantes. + +— *Farida Vis, University of Leicester* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_8.html' + ] + }, + GrafoscopioNode { + #header : 'Evaluaciones de escuelas de Illinois', + #body : 'Cada año la Dirección Estadual de Educación de Illinois difunde +“evaluaciones” de escuelas, datos sobre la demografía y el desempeño de +todas las escuelas públicas de Illinois. Es un conjunto de datos masivo. +El informe de este año tenía 9500 columnas de ancho. El problema con esa +cantidad de datos es decidir qué presentar. (Como sucede con cualquier +proyecto de software, lo difícil no es crear el software, sino crear el +software correcto). + +Trabajamos con los periodistas y el editor de Educación para escoger los +datos más relevantes. (hay muchos datos que parecen interesantes, pero +que un periodista le dirá que en realidad son falsos o engañosos). + +También encuestamos y entrevistamos gente con hijos en edad escolar en +nuestra redacción. Hicimos esto por la existencia de una brecha de +empatía: ninguno de los miembros del equipo de aplicaciones de noticias +tiene chicos en edad escolar. Por esta vía descubrimos muchas cosas +acerca de nuestros usuarios y de la practicidad (o falta de ella) de la +versión anterior de nuestro sitio sobre escuelas. + +![2011 Los boletines de las escuelas de Illinois (Chicago Tribune)](figs/incoming/03-EE.png) + +Nos orientamos a diseñar para un par de usuarios y casos de uso +específicos: + +- Padres con un niño en la escuela que quieren saber cómo es el + desempeño de su escuela +- Padres que trataban de determinar dónde les convenía vivir, dado que + la calidad de las escuelas a menudo tiene un gran impacto sobre esa + decisión + +La primera vez el sitio sobre escuelas fue un proyecto de 2 diseñadores +de alrededor de 6 semanas. La actualización de 2011 fue un proyecto de 2 +diseñadores de 4 semanas. (en realidad hubo 3 personas trabajando +activamente en el proyecto más reciente, pero ninguna de ellas era +full-time, por lo que equivalen a 2). + +Una pieza clave de este proyecto fue el diseño de la información. Aunque +presentamos mucho menos datos de los que hay disponibles, siguen siendo +*muchos* datos, y hacerlos digeribles fue un desafío. Por suerte, +pudimos tomar alguien prestado de nuestra mesa de gráficos, un diseñador +especializado en presentar información complicada. Nos enseñó mucho +acerca del diseño de cuadros y, en general, nos guió para producir una +presentación que es legible, pero no subestima la capacidad o el deseo +del lector de entender las cifras. + +El sitio fue creado con Python y Django. Los datos están almacenados en +MongoDB: los datos sobre escuelas son heterogéneos y jerárquicos, lo que +hace que no funcionen bien en una base de datos relacional (de otro modo +probablemente hubiésemos usado PostgreSQL). + +Por primera vez experimentamos con el marco de interfaz de usuario +Bootstrap de Twitter en este proyecto y los resultados nos dejaron +contentos. Los gráficos fueron dibujados con Flot. + +La aplicación también alberga las muchas historias sobre evaluación +escolar que hemos escrito. En ese sentido es una especie de portal; +cuando hay una nueva historia de evaluación de escuelas la ubicamos a la +cabeza de la aplicación, junto con listas de escuelas que son relevantes +para la historia (y cuando aparece una nueva historia, a los lectores de +[chicagotribune.com](http://www.chicagotribune.como/) se los reorienta +hacia la aplicación, no el artículo). + +Los primeros indicios muestran que a los lectores les encanta la +aplicación sobre las escuelas. La retroalimentación que hemos recibido +en gran medida ha sido positiva (o al menos constructiva) y la cantidad +de visitas es enorme. Como premio, estos datos mantendrán su interés +todo un año, por lo que aunque prevemos que se reducirán las visitas al +ir desapareciendo las historias sobre escuelas en la página de inicio, +nuestra experiencia nos indica que los lectores recurren a esta +aplicación todo el año. + +Algunas ideas claves que surgieron del proyecto son: + +- Los diseñadores gráficos son nuestros amigos. Son buenos para hacer + digerible información compleja. +- Hay que pedir ayuda a la redacción. Este es el segundo proyecto para + el que realizamos una encuesta y entrevistas en la redacción, y es + una gran manera de tener opiniones de gente reflexiva que, como + nuestro público, es diversa en cuanto a sus inclinaciones y en + general se siente incómoda con las computadoras. +- ¡Muestre su trabajo! Gran parte de la retroalimentación tomó la + forma de pedidos de los datos que usó la aplicación. Pusimos muchos + datos a disposición del público vía una API, y pronto difundiremos + todo lo que no incluimos inicialmente. + +— *Brian Boyer, Chicago Tribune* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_9.html' + ] + }, + GrafoscopioNode { + #header : 'Facturación de hospitales', + #body : 'Periodistas de investigación de +[California Watch](http://californiawatch.org/) recibieron informes de que +una gran cadena de hospitales de ese estado norteamericano podía estar +haciendo trampas sistemáticamente contra el programa federal Medicare +que paga los tratamientos médicos de estadounidenses de 65 años o más. +La trampa denunciada se llama *upcoding* (subir el código), que significa +reportar pacientes con problemas más complicados de salud –con reembolsos +más elevados- que los reales. Pero una fuente clave era un sindicato que +estaba enfrentado con la administración de la cadena de hospitales, y el +equipo de California Watch sabía que era necesaria una verificación +independiente para que la historia tuviera credibilidad. + +Por suerte, el departamento de Salud de California tiene registros +públicos que dan información muy detallada sobre cada caso tratado en +todos los hospitales del estado. Las 128 variables incluyen hasta 25 +códigos de diagnóstico del manual de “Clasificación Estadística +Internacional de Enfermedades y Problemas de Salud Relacionados” +(conocido comúnmente como ICD-9) publicado por la Organización Mundial +de la Salud (OMS). Aunque no se identifica a los pacientes por su +nombre, si aparece la edad del paciente, cómo se pagó por el tratamiento +y qué hospital lo trató. Los periodistas advirtieron que con estos +registros, podían ver si los hospitales propiedad de la cadena estaban +informando ciertas enfermedades inusuales en proporciones +significativamente mayores que en otros hospitales. + +![Kwashiorkor (California Watch)](figs/incoming/03-AA.png) + +Los conjuntos de datos eran grandes: casi 4.000.000 de registros por +año. Los periodistas querían estudiar los registros de 6 años para ver +cómo cambiaban los patrones a lo largo del tiempo. Pidieron los datos al +ente estatal; llegaron en varios CD-ROM que se copiaron fácilmente a una +computadora de escritorio. El periodista que hizo el análisis de los +datos usó un sistema [llamado SAS](http://www.sas.com/) para trabajar +con los datos. SAS es muy poderoso (permitiendo el análisis de muchos +millones de registros) y es usado por numerosos entes estatales, +incluyendo el departamento de Salud de California, pero es costoso. Se +pudo haber hecho el mismo tipo de análisis usando una variedad de +herramientas de bases de datos, tales como el Access de Microsoft o +[MySQL](http://www.mysql.com/) de código abierto. + + +Con los datos y los programas para estudiarlos, encontrar patrones +sospechosos fue relativamente simple. Por ejemplo, una acusación era que +la cadena estaba informando de gente con diversos grados de desnutrición +con porcentajes mucho más altos que lo que se veía en otros hospitales. +Usando SAS, el analista de datos extrajo tablas de frecuencia que +muestran la cantidad de casos de desnutrición informados cada año por +cada uno de los más de 300 hospitales de agudos de California. Las +tablas de frecuencia luego eran importadas a Microsoft Excel para un +análisis más fino de los patrones de cada hospital; la capacidad de +Excel de ordenar, filtrar y calcular tasas a partir de las cifras en +bruto facilitó la tarea de encontrar patrones. + +Eran particularmente llamativos los informes de una enfermedad llamada +Kwashiorkor, un síndrome de deficiencia de proteínas que se ve casi +exclusivamente en infantes que mueren por desnutrición en países en +desarrollo afectados por hambrunas. Pero la cadena estaba informando que +sus hospitales diagnosticaban Kwashiorkor entre personas mayores de +California en cantidades 770 veces mayores que [el promedio de los +hospitales del estado](http://bit.ly/californiawatch-malnutrition). + +Para otras historias, los análisis usaron técnicas similares para +examinar las cantidades reportadas de [enfermedades como septicemia, +encefalopatía, hipertensión maligna y desórdenes nerviosos +autonómicos](http://bit.ly/californiawatch-rare). Otro estudio analizó +las denuncias de que la cadena estaba admitiendo en internación, +provenientes de sus salas de emergencias, porcentajes +[inusualmente elevados de pacientes de Medicare](http://bit.ly/californiawatch-chains), +cuya fuente de pagos de cuidados hospitalarios es más segura que lo que +sucede con muchos otros pacientes atendidos en salas de emergencias. + +En síntesis, historias como estas son posibles cuando se usan datos para +producir evidencias que evalúan de forma independiente acusaciones de +fuentes que pueden tener sus propios objetivos. Estas historias también +son un buen ejemplo de la necesidad de leyes de registro público +robustas; el motivo por el que el estado requiere que los hospitales +informen estos datos es para que se pueda hacer este tipo de análisis, +ya sea por el propio estado o por académicos, investigadores o incluso +ciudadanos periodistas. El tema de estas historias es importante porque +examina si se está gastando como corresponde millones de dólares de +fondos públicos. + +— *Steve Doig, Walter Cronkite School of Journalism, Arizona State University* +', + #tags : OrderedCollection [ + '' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_10.html' + ] + }, + GrafoscopioNode { + #header : 'Crisis de los geriátricos', + #body : ' Una [investigación del Financial Times](http://on.ft.com/care-home-crisis) +sobre geriátricos sacó a luz como algunos inversores de capitales privados +convierten el cuidado de las personas mayores en una máquina de obtener +ganancias, y destacó los costos mortales de un modelo de negocios que +promueve las ganancias por encima de los cuidados. + +El análisis se hizo en un buen momento, porque los problemas financieros +de Southern Cross, entonces el mayor operador de geriátricos del país, +estaban llegando a un punto álgido. El gobierno había impulsado durante +décadas la privatización en el sector de los geriátricos y seguía +aplaudiendo al sector privado por sus prácticas de negocios astutas. + +Nuestra investigación comenzó con el análisis de datos que obtuvimos del +ente regulador británico a cargo de inspeccionar los geriátricos. La +información era pública, pero se requirió mucha persistencia para +conseguir los datos en una forma que fuera utilizable. + +Los datos incluían calificaciones (ahora eliminadas) del desempeño de +geriátricos individuales y un desglose de si eran privados, estatales o +sin fines de lucro. La Comisión de Calidad de Cuidados (CQC) hasta junio +de 2010 calificaba a los geriátricos de acuerdo a su calidad (0 +estrellas = mala, 3 estrellas = excelente). + +El primer paso requirió mucha depuración de datos, ya que la información +provista por la Comisión de Calidad de Cuidados contenían +categorizaciones que no eran uniformes. Esto se hizo primordialmente +usando Excel. También determinamos –a través de investigaciones de +escritorio y telefónicas- si había geriátricos particulares que fueran +propiedad de grupos de capitales privados. Antes de la crisis +financiera, el sector de los geriátricos era un imán para el capital +privado e inversores inmobiliarios, pero varios de ellos -tales como +Southern Cross- habían comenzado a tener serias dificultades +financieras. Queríamos establecer qué efecto, si es que había alguno, +tenía el hecho de la presencia de capitales privados en la calidad de +los cuidados. + +Un conjunto de cálculos relativamente simples con Excel nos permitieron +establecer que los geriátricos sin fines de lucro y estatales en +promedio tenían un desempeño significativamente mejor que los del sector +privado. Algunos grupos de geriátricos de capitales privados funcionaban +por encima del promedio y otros por debajo. + +Junto con informes in situ, estudios de casos de abandono, un análisis +profundo de las fallas de las políticas regulatorias, así como otros +datos sobre niveles de paga, tasas de rotación, etc., nuestro análisis +nos permitió armar un cuadro del estado real de los geriátricos. + +Algunos consejos: + +- Asegúrese de tomar notas de cómo manipula los datos originales. +- Tenga una copia de los datos originales y nunca los modifique. +- Verifique y vuelva a verificar los datos. Haga el análisis varias + veces (si es necesario, a partir de cero). +- Si menciona compañías o individuos particulares, deles derecho a + réplica. + +— *Cynthia O’Murchu, Financial Times* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_11.html' + ] + }, + GrafoscopioNode { + #header : 'El teléfono que lo dice todo', + #body : 'La comprensión de la mayoría de las personas de lo que puede hacerse con +los datos que nos proveen nuestros celulares es teórica; había pocos +ejemplos de la vida real. Es por eso que Malte Spitz del partido Verde +Alemán decidió publicar sus propios datos. Para acceder a la información +tuvo que presentar una demanda contra el gigante de las +telecomunicaciones Deutsche Telekom. Los datos, contenidos en un inmenso +documento de Excel, fueron la base para el mapa interactivo del Zeit +Online. Cada una de las 35.831 filas de la planilla de cálculo +representa una instancia en la que el teléfono de Spitz transfirió +información en un período de medio año. + +Vistas por separado, cada pieza de datos es casi inofensiva. Pero +tomadas de conjunto aportan lo que los investigadores llaman un perfil +de llamadas: un claro cuadro de los hábitos y preferencias de una +persona y por cierto de su vida. Este perfil revela cuándo Spitz +caminaba por la calle, cuánto tomó un tren, cuándo estaba en un avión. +Muestra que trabaja principalmente en Berlín y qué ciudades visitó. +Muestra cuándo estaba despierto y cuándo dormía. + +![El teléfono que lo dice todo (Zeit Online)](figs/incoming/03-BB.png) + +El conjunto de datos de Deutsche Telekom mantenía en privado una parte +del registro de los datos de Spitz, a saber, a quién llamó y quién lo +llamó a él. Ese tipo de información no solo podría infringir la +privacidad de mucha otra gente relacionada con él, también –aunque los +números estuviesen encriptados- revelaría demasiado acerca de Spitz +(pero los agentes del gobierno en el mundo real tendrían acceso a esta +información). + +Pedimos a Lorenz Matzat y Michael Kreil de OpenDataCity que exploraran +los datos y encontraran una solución para la presentación visual. “Al +principio usamos herramientas como Excel y Fusion Tables para comprender +los datos. Luego comenzamos a desarrollar una interfaz del mapa que +permitiera al público interactuar con los datos de un modo no lineal”, +dijo Matzat. Para ilustrar hasta qué punto pueden obtenerse detalles de +la vida de alguien a partir de estos datos almacenados, se le sumó +información del dominio público acerca de su actividad (Twitter, +entradas en blogs, información partidaria como entradas en el calendario +público de su sitio en la red). Es el tipo de proceso que cualquier buen +investigador usaría probablemente para hacer el perfil de una persona en +observación. Junto con los gráficos del propio Zeit Online y los del +equipo de investigación y desarrollo, se creó una gran interfaz para +navegar: apretando el botón de play se inicia un viaje a través de la +vida de Malte Spitz. + +Luego de un lanzamiento muy exitoso del proyecto en Alemania, advertimos +que recibíamos muchísimo tráfico de fuera de Alemania y decidimos crear +una versión en inglés de la aplicación. Luego de recibir el premio +Grimme Online Alemán, el proyecto recibió un premio ONA en septiembre de +2011, lo que fue la primera vez que lo recibía un sitio de noticias +alemán. Todos los datos están disponibles en una +[planilla de cálculo de Google Docs](http://bit.ly/zeitonline-data). +Lea la historia [en Zeit Online](http://www.zeit.de/datenschutz/malte-spitz-data-retention). + +— *Sascha Venohr, Zeit Online* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_12.html' + ] + }, + GrafoscopioNode { + #header : 'Tasas de reprobación de distintos modelos de auto en la prueba MOT', + #body : 'En enero de 2010 la BBC obtuvo datos sobre aprobaciones y rechazos en la +prueba del Ministerio de Transporte (MOT, Ministry of Transport Test) +para distintas marcas y modelos de autos. Esta es la prueba que evalúa +si un auto es seguro y está en condiciones para andar por la calle; todo +auto de más de 3 años tiene que pasar una prueba MOT anual. + +Obtuvimos los datos bajo la ley de acceso a la Información luego de una +larga batalla con VOSA, el ente del departamento de Transporte que +supervisa el sistema MOT. VOSA rechazó nuestro pedido de estas cifras +con el argumento de que violaría la confidencialidad comercial. Sostuvo +que podría *causar daño comercial* a fabricantes de vehículos con altas +tasas de rechazo. Entonces apelamos al Comisionado de información, que +dictaminó que dar a conocer la información iría en favor del interés del +público. Entonces VOSA entregó los datos, 18 meses después de que los +pidiéramos. + +Analizamos las cifras, concentrándonos en los modelos más populares y +comparando autos de la misma antigüedad. Esto mostró grandes +discrepancias. Por ejemplo, entre los autos de 3 años de antigüedad, 28% +de los Renault Mégane no aprobaron su MOT, en contraste con solo el 11% +de los Toyota Corolla. Las cifras se difundieron por televisión, radio y +online. + +![Difusión de las tasas de rechazo en la prueba MOT (BBC)](figs/incoming/03-CC.png) + +Nos entregaron los datos en la forma de un documento PDF de 1200 +páginas, que tuvimos que convertir en planilla de cálculo para hacer el +análisis. Además de informar nuestras conclusiones, publicamos la +planilla de cálculo Excel (con más de 14.000 líneas de datos) en el +sitio de BBC News +[junto con nuestra historia](http://bbc.in/mot-failure-rates). +Esto permitió el acceso a los datos en formato usable a todos. + +El resultado fue que entonces otros usaron estos datos para sus propios +análisis, que nosotros no tuvimos tiempo de hacer por el apuro de +difundir la historia rápidamente (y que en algunos casos hubiera +superado nuestra capacidad técnica de aquel momento). Esto incluyó el +examen de las tasas de rechazo para autos de otras antigüedades, +comparar los registros de fabricantes en vez de modelos individuales y +crear bases de datos para buscar los resultados de modelos individuales. +Agregamos vínculos a estos sitios en nuestra historia online, de modo +que los lectores pudieran conocer estos trabajos. + +Esto ilustra algunas de las ventajas de publicar los datos en crudo +junto con una historia basada en datos. Puede haber excepciones (por +ejemplo si piensa usar los datos para otras historias posteriores y +quiere quedárselos mientras tanto), pero en general publicar los datos +tiene varios beneficios importantes: + +- Su trabajo es descubrir cosas y contarle a los ciudadanos. Si se + tomó el trabajo de obtener los datos es parte de su trabajo + difundirlos. +- Otras personas pueden descubrir cuestiones de interés significativo + que usted no vio o simplemente detalles que les importan a ellos, + aunque no le importaran lo suficiente a usted como para incluirlos + en su historia. +- Otros pueden basarse en su trabajo para desarrollar un análisis más + detallado, o usar distintas técnicas para presentar o visualizar las + cifras, usando sus propias ideas o capacidades técnicas que pueden + sondear los datos de modo productivo y de maneras alternativas. +- Es parte de incorporar la rendición de cuentas y la transparencia al + proceso periodístico. Otros pueden entender sus métodos y verificar + su trabajo si quieren. + +— *Martin Rosenbaum, BBC* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_13.html' + ] + }, + GrafoscopioNode { + #header : 'Subsidios a colectivos en Argentina', + #body : 'Desde 2002 los subsidios para el sistema de transporte público de +pasajeros en la Argentina han estado creciendo de modo exponencial, +rompiendo un record cada año. Pero en 2011, luego de ganar las +elecciones, el nuevo gobierno argentino anunció reducciones de los +subsidios para los servicios públicos a partir del mes de diciembre de +ese año. Al mismo tiempo, decidió transferir la administración de líneas +locales de ómnibus y del subte al Gobierno de la Ciudad de Buenos Aires. +Dado que no se ha clarificado la transferencia de subsidios a este +gobierno municipal y hay falta de fondos locales para garantizar la +seguridad el sistema de transporte, el Gobierno porteño rechazó esta +decisión. + +Mientras esto sucedía, junto con mis colegas en La Nación nos reunimos +por primera vez para discutir cómo iniciar nuestra propia operación de +periodismo de datos. Nuestro editor de la sección financiera sugirió que +los datos sobre subsidios publicados [por la secretaría de +Transporte](http://www.transporte.gov.ar/) sería un buen desafío para +comenzar, considerando que era muy difícil encontrarles sentido debido +al formato y la terminología. + +Las malas condiciones del sistema de transporte público afectan la vida +de más de 5800000 pasajeros diarios. Demoras, huelgas, desperfectos de +vehículos, o incluso accidentes suceden a menudo. Por tanto, decidimos +analizar a dónde van los subsidios para el sistema de transporte público +en la Argentina y poner estos datos a disposición de todos los +ciudadanos argentinos por medio de un “Explorador de Subsidios del +Transporte”, que actualmente está en construcción. + +![El explorador de subsidios al transporte (La Nación)](figs/incoming/03-LL-01.jpg) + +Comenzamos por calcular cuánto reciben cada mes las compañías de ómnibus +de parte del Estado. Para hacerlo, tomamos los datos publicados en el +[sitio del departamento de Transporte](http://www.transporte.gov.ar/content/subsidios-sistau/), +donde se publican desde 2006 más de 400 PDF conteniendo pagos mensuales +en efectivo a más de 1300 compañías. + +![Ranking de empresas de transporte subsidiadas (La Nación)](figs/incoming/03-LL-02.jpg) + +Formamos equipo con un programador experimentado para desarrollar un +recopilador de información de modo de automatizar la descarga regular y +la conversión de estos PDF en archivos de Excel y Base de datos. Estamos +usando el conjunto de datos resultante con más de 285.000 registros para +nuestras investigaciones y visualizaciones, tanto en versión impresa +como online. Además, estamos difundiendo estos datos en formato legible +por computadora para que todo argentino pueda utilizarlos y +compartirlos. + +El siguiente paso fue identificar cuánto le cuesta en promedio al +gobierno el mantenimiento mensual de un vehículo de transporte público. +Para descubrirlo consultamos otro sitio oficial, el +[de la Comisión Nacional de Regulación del Transporte](http://www.cnrt.gov.ar/index2.htm), +responsable de la regulación del transporte en la Argentina. En este sitio encontramos una +lista de compañías de ómnibus que poseen en total 9000 vehículos. +Desarrollamos un normalizador para permitirnos conciliar los nombres de +las compañías de transporte y hacer referencias cruzadas entre los 2 +conjuntos de datos. + +Para continuar, necesitábamos el número de registro de cada vehículo. En +el sitio de la CNRT encontramos una lista de vehículos discriminados por +línea de colectivo y compañía, con sus números de licencia. En +Argentina, estos registros están compuestos de letras y cifras que se +corresponden con la edad del vehículo. Por ejemplo, mi auto tiene el +número de registro IDF234, y la “I” corresponde a marzo-abril 2011. +Hicimos el cálculo inverso a partir de las licencias de los ómnibus +propiedad de las compañías registradas, para descubrir la edad promedio +de los ómnibus y mostrar cuánto dinero recibe cada compañía y finalmente +comparar los montos en base a la edad promedio de sus vehículos. + +En medio de este proceso, cambió misteriosamente el contenido de los PDF +oficiales con los datos, aunque las URL y los nombres de los archivos no +se modificaron. En algunos PDF ahora faltaban los “totales” verticales, +lo que hace imposible cruzar los mismos en todo el período investigado, +2002-2011. + +Llevamos este caso a un hackatón organizado por Hacks/Hackers en Boston, +donde el programador Matt Perry generosamente creó lo que llamamos el +“Espía de PDF”. Esta aplicación ganó la categoría “más intrigante” en +ese evento. El [Espía de PDFs](http://gristlabs.com/2011/09/24/pdfspy/) +apunta a una página web llena de PDF y verifica si el contenido dentro +de los PDF ha cambiado. “Nunca serán engañados nuevamente por la +supuesta “transparencia del gobierno’”, escribe Matt Perry. + +![Comparación de antigüedad de flotas con el monto de dinero que reciben del Estado (La Nación)](figs/incoming/03-LL-03.jpg) + +#### ¿Quién trabajó en el proyecto? + +Un equipo de 7 periodistas, programadores y un diseñador interactivo +durante 13 meses. + +Las capacidades que necesitamos para este proyecto fueron: + +- Periodistas con conocimiento sobre cómo funcionan los subsidios para + el sistema de transporte público y cuáles eran los riesgos; + conocimiento del mercado de compañías de ómnibus. +- Un programador capacitado en recopilar datos de la red, su análisis, + normalización y extracción de datos de PDF a planillas de cálculo + Excel. +- Un especialista en estadística para el análisis de los datos y los + distintos cálculos. +- Un diseñador para producir las visualizaciones interactivas de + datos. + +#### ¿Qué herramientas utilizamos? + +Usamos VBasic para aplicaciones, Excel Macros, Tableau Public y la +Plataforma Abierta de datos Junar, así como Ruby on Rails, la API de +cuadros Google, y Mysql para el Explorador de Subsidios. + +El proyecto tuvo gran impacto. Hemos tenido decenas de miles de visitas +y la investigación apareció en la primera plana de la edición impresa de +La Nación. + +El éxito de este primer proyecto de periodismo de datos nos ayudó +internamente para argumentar en favor de la creación de una operación de +datos que cubra periodismo de investigación y provea servicio al +público. Esto resultó en Data.lanacion.com.ar, una plataforma donde +publicamos datos abiertos sobre distintos tópicos de interés público en +formatos procesables por computadora. + +— *Angélica Peralta Ramos, La Nación (Argentina)* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_14.html' + ] + }, + GrafoscopioNode { + #header : 'Ciudadanos periodistas de datos', + #body : 'No solo las grandes redacciones pueden trabajar en historias basadas en +datos. Las mismas capacidades que son útiles para los periodistas de +datos también pueden ayudar a ciudadanos periodistas a acceder a datos +sobre sus localidades y convertirlos en historias. + +Ese fue la principal motivación para el proyecto de medios ciudadanos de +[Amigos de Januária](http://amigosdejanuaria.wordpress.com/), en Brasil, +que recibió un subsidio +([de Rising Voices](http://rising.globalvoicesonline.org/), la rama de extensión de +[Global Voices Online](http://globalvoicesonline.org/) y apoyo adicional +de [la organización Article 19](http://www.article19.org/). Entre +septiembre y octubre de 2011, un grupo de jóvenes residentes de un +pequeño pueblo localizado al norte del estado de Minas Gerais, una de +las regiones más pobres de Brasil, fue capacitado en técnicas básicas de +periodismo y control de presupuesto. También aprendió cómo hacer pedidos +de acceso a la información y cómo obtener información pública de bases +de datos oficiales en internet. + +![El proyecto de medios ciudadanos Amigos de Januária da capacidades claves a los ciudadanos para convertirlos en periodistas de datos](figs/incoming/03-XX.jpg) + +Januária, un pueblo de aproximadamente 65.000 residentes, también es +conocido por las fallas de sus políticos locales. En 3 períodos de 4 +años tuvo 7 alcaldes diferentes. Casi todos fueron removidos de sus +funciones por mal desempeño en sus administraciones, incluyendo +acusaciones de corrupción. + +Los pequeños pueblos como Januária a menudo no atraen la atención de los +medios brasileños, que tienden a concentrarse en ciudades mayores y +capitales de estado. Sin embargo hay una oportunidad para que los +residentes de pequeños pueblos se conviertan en aliados potenciales en +el monitoreo de la administración pública, porque conocen mejor que +nadie los desafíos cotidianos que enfrentan las comunidades locales. +Teniendo a Internet como otro aliado importante, los residentes ahora +pueden acceder mejor a datos del presupuesto y otra información local. + +Luego de participar de 12 talleres, algunos de los nuevos ciudadanos +periodistas de Januária comenzaron a demostrar cómo este concepto de +acceder a datos públicos en pequeños pueblos puede ponerse en práctica. +Por ejemplo, Soraia Amorim, una periodista ciudadana de 22 años, +escribió una historia sobre una cantidad de doctores que está en la +nómina municipal según datos del gobierno federal. Sin embargo, +descubrió que la cifra oficial no se correspondía con la situación en el +pueblo. Para escribir esta pieza, Soraia tuvo acceso a datos de salud, +que están disponibles online en [el sitio del SUS](http://bit.ly/tabnet-datasus) +(Sistema Único de Saúde,un programa federal que provee ayuda médica gratuita +a la población brasileña. Según los datos de US, Januária debiera tener 71 doctores +en varias especialidades de salud. + +El número de doctores indicado por los datos de SUS no se correspondía +con lo que Soraia sabía acerca de los doctores de la zona: los +residentes siempre se quejaban de la falta de doctores y algunos +pacientes tenían que viajar a pueblos vecinos para ver un profesional. +Más tarde entrevistó a una mujer que había estado recientemente en un +accidente de motocicleta, y no pudo conseguir ayuda médica en el +hospital de Januária porque no había ningún doctor disponible. También +habló con el secretario de Salud del pueblo, que reconoció que había +menos doctores en el pueblo de lo que indicaba la cifra publicada por el +SUS. + +Estas conclusiones iniciales plantean muchos interrogantes respecto de +los motivos de estas diferencias entre la información oficial publicada +online, y la realidad del pueblo. Uno de ellos es que los datos +federales pueden estar equivocados, lo que significaría que hay una +importante falta de información de salud en Brasil. Otra posibilidad +puede ser que Januária está reportando incorrectamente la información al +SUS. Ambas posibilidades debieran llevar a una investigación más +profunda para encontrar la respuesta definitiva. Sin embargo, la +historia de Soria es una parte importante de esta cadena porque destaca +una inconsistencia y puede también alentar a otros a analizar esta +cuestión con más detenimiento. + +“Yo antes vivía en el campo y terminé la secundaria con mucha +dificultad”, dice Soraia. “Cuando la gente me preguntaba qué quería +hacer de mi vida, siempre dije que quería ser periodista. Pero imaginaba +que era casi imposible debido al mundo en el que vivía”. Luego de +participar en la capacitación de Amigos de Januária, Soraia cree que el +acceso a datos es una herramienta importante para cambiar la realidad de +su pueblo. “Me siento capaz de ayudar a cambiar mi pueblo, mi país, el +mundo”, agrega. + +Otro periodista ciudadano del proyecto es Alyson Montiériton, de 20 +años, que también usó datos para un artículo. Fue durante la primera +clase del proyecto, cuando los periodistas ciudadanos caminaron por la +ciudad en busca de temas que pudieran convertirse en historias, que +Alysson decidió escribir sobre un semáforo roto ubicado en una +intersección muy importante, que había permanecido en ese estado desde +el comienzo del año. Luego de aprender a conseguir datos en Internet, +buscó la cantidad de vehículos que existe en el pueblo y la cantidad de +impuestos que pagan los dueños de autos. Escribió: + +La situación en Januária empeora debido al alto número de vehículos en +el pueblo. Según el IBGE (el instituto de investigaciones estadísticas +más importante de Brasil), Januária tenía 13771 vehículos (entre ellos +7979 motos) en 2010… Los residentes del pueblo creen que la demora en +arreglar el semáforo no es resultado de la falta de recursos. Según el +Secretario del Tesoro del estado de Minas Gerais, el pueblo recibió +470.000 reales en impuestos sobre vehículos en 2010. + +Teniendo acceso a los datos, Alysson pudo mostrar que Januária tiene +muchos vehículos (casi 1 por cada 5 residentes) y que un semáforo roto +podía poner en peligro a mucha gente. Lo que es más, pudo decirle a su +público la cantidad de fondos recibidos por el pueblo de impuestos +pagados por dueños de vehículos y basado en ello cuestionar si este +dinero no sería suficiente para reparar el semáforo garantizando +condiciones de seguridad a conductores y peatones. + +Si bien las 2 historias escritas por Soraia y Alysson son muy simples, +muestran que los datos pueden ser usados por cronistas ciudadanos. No se +necesita estar en una gran redacción con muchos especialistas para usar +datos en sus artículos. Luego de 12 talleres, Soraia y Alysson, ninguno +de los cuales ha estudiado periodismo, pudieron trabajar en historias +basadas en datos y escribir piezas interesantes sobre su situación +local. Además sus artículos muestran que los datos mismos pueden ser +útiles incluso a escala pequeña. Dicho de otro modo también hay +información valiosa en conjuntos de datos y tablas pequeñas, no solo en +bases de datos inmensas. + +— *Amanda Rossi, Friends of Januária* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_15.html' + ] + }, + GrafoscopioNode { + #header : 'El gran cuadro de resultados electorales', + #body : 'Los resultados electorales ofrecen grandes oportunidades para contar +historias de forma visual para cualquier organización de noticias, pero +durante años esta fue para nosotros una oportunidad perdida. En 2008 con +los diseñadores gráficos nos propusimos cambiar eso. + +Queríamos encontrar una manera de desplegar resultados que contara una +historia y que no se viera como simplemente una mezcla de cifras en una +tabla o mapa. En anteriores elecciones eso es exactamente +[lo](http://nyti.ms/senate-1) [que](http://nyti.ms/senate-2) +[hicimos](http://nyti.ms/senate-3). + +No es que una gran bolsa de números –lo que llamo el “modelo CNN” de +tablas, tablas y más tablas- tenga algo de malo necesariamente. Funciona +porque da al lector lo que quiere saber: quién ganó. + +Y es peligroso meterse con algo que no está roto. Al hacer algo +radicalmente diferente y alejarnos de lo que la gente espera podríamos +haber hecho más confusas las cosas. + +Por fin, fue Shan Carter de la mesa de diseño el que dio la respuesta +adecuada, lo que terminamos llamando el “gran cuadro”. Cuando vi los +bosquejos por primera vez, fue literalmente una cachetada a la cara. + +Era exactamente lo que había que hacer. + +![El gran cuadro de resultados electorales (New York Times)](figs/incoming/03-ZZ-ZZ.png) + +¿Qué es lo que hace de esto una gran pieza de periodismo visual? Por +empezar, la mirada del lector es atraída inmediatamente a la gran barra +que muestra los votos del colegio electoral arriba, lo que en el +contexto periodístico podríamos llamar el \\_copete.\\_Le dice al lector +exactamente lo que quiere saber y lo hace de modo rápido, simple y sin +ruido visual. + +A continuación el lector es atraído al agrupamiento de estados en 5 +columnas más abajo, organizado de acuerdo a la probabilidad que el Times +asignaba a que un estado dado se inclinara por uno u otro candidato. En +la columna del medio está lo que en el contexto periodístico podríamos +llamar nuestro *gráfico central*, donde explicamos por qué Obama ganó. +El interactivo lo deja totalmente claro: Obama se quedó con los estados +que se preveía y 4 de los 5 más disputados. + +Para mi esta construcción en 5 columnas es un ejemplo de cómo el +periodismo visual difiere de otras formas de diseño. Idealmente una gran +pieza de periodismo visual será tanto hermosa como informativa. Pero +cuando tiene que decidir entre la historia y la estética, el periodista +debe volcarse para el lado de la historia. Aunque este diseño puede no +ser la manera en que un diseñador puro podría preferir presentar los +datos, presenta la historia muy, pero muy bien. + +Y finalmente, como cualquier buen recurso interactivo de la red, este +invita al lector a profundizar más. Hay detalles como porcentajes de +votos, estado por estado, informes de la cantidad de votos electorales y +porcentajes deliberadamente colocados en un segundo plano para no +competir con lo principal de la historia. + +Todo esto hace que el “gran cuadro” sea una gran pieza de periodismo +visual que hace un mapa casi perfecto siguiendo el esquema probado de la +pirámide invertida. + +— *Aron Pilhofer, New York Times* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_16.html' + ] + }, + GrafoscopioNode { + #header : 'Consulta sobre el precio del agua', + #body : 'Desde marzo de 2011, la información sobre el agua de la canilla en toda +Francia se obtiene a través de un experimento de consulta a la +población. En solo 4 meses, mas de 5000 personas hartas del control +corporativo del mercado de agua se tomaron el tiempo de buscar su +factura, escanearla y cargarla en [el proyecto Prix de +l’Eau](http://www.prixdeleau.fr/) (“precio del agua”); El resultado es +una investigación sin precedentes que reunió técnicos, ONG y medios +tradicionales para mejorar la transparencia en torno de proyectos de +agua. + +![El precio del agua (Fundación France Liberté)](figs/incoming/03-WW.jpg) + +El mercado de servicios de agua consiste en más de 10.000 clientes +(ciudades que compran agua para distribuir a sus contribuyentes) y sólo +un puñado de compañías. La relación de fuerzas en este oligopolio está +distorsionado en favor de las corporaciones, que en algunos casos cobran +precios distintos a pueblos vecinos. + +La ONG francesa France Libertés ha estado tratando con cuestiones de +agua en todo el mundo en los últimos 25 años. Ahora se concentra en +mejorar la transparencia del mercado francés y en dar poder a ciudadanos +y alcaldes que negocian acuerdos de servicios de agua. El gobierno +francés decidió enfrentar el problema hace 2 años con un censo nacional +del precio y la calidad el agua. Hasta ahora sólo se ha recogido el 3% +de los datos. Para ir más rápido, [France Libertés](http://www.france-libertes.org/) +quería involucrar ciudadanos directamente. + +Junto con el equipo OWNI diseñé una interfaz para la consulta en la que +los usuarios estudiaban su factura de agua e ingresaban el precio que +pagaban por el agua de la canilla en +[prixdeleau.fr/](http://www.prixdeleau.fr/). En los últimos 4 meses, +8500 se inscribieron y sean cargado y validado más de 5000 facturas. + +Si bien esto no permite una evaluación perfecta de la situación del +mercado, le mostró a los interesados, tales como los entes de +supervisión del agua, que había una preocupación genuina, a nivel +popular, por el precio del agua corriente. Al principio eran escépticos +respecto de la transparencia, pero cambiaron de idea en el curso de la +operación, sumándose progresivamente a France Libertés en su lucha +contra la opacidad y la mala praxis corporativa. ¿Qué pueden aprender de +esto las organizaciones de medios? + + Asociarse con ONG + +: Las ONG necesitan gran cantidad de datos para diseñar trabajos de + política. Estarán más dispuestas a pagar por una operación e + recolección de datos que un ejecutivo de diario. + + Los usuarios pueden aportar datos en crudo + +: Las consultas funcionan del mejor modo cuando los usuarios cumplen + una tarea de recolección de datos o refinado de datos. + + Pedir la fuente de la información + +: Evaluamos si pedir a los usuarios una copia de la factura original, + pensando que disuadiría a algunos de ellos (especialmente dado que + nuestro público era mayor en promedio). Si bien pudo haber sido una + traba para algunos, aumentó la credibilidad de los datos. + + Crear un mecanismo de validación + +: Diseñamos un sistema de puntaje y un mecanismo [de revisión por los + pares](http://www.prixdeleau.fr/valider) para controlar los aportes + de los usuarios. Esto demostró ser demasiado engorroso para los + usuarios, que tenían pocos incentivos para hacer visitas repetidas + al sitio. Pero fue utilizado por el equipo de France Libertés, cuyos + empleados, alrededor de 10, se sintieron motivados por el sistema de + puntaje. + + Mantenerlo simple + +: Creamos un mecanismo de correo automatizado de modo que los usuarios + pudieran presentar un pedido de acceso a la información respecto de + precios del agua con solo unos pocos clics. Aunque innovador y bien + diseñado, este recurso no generó un número sustancial de pedidos + (solo 100 fueron enviados). + + Defina su público + +: France Libertés se asoció con la revista dedicada a los derechos de + los consumidores *60 Millions de Consommateurs*, que lograron una + gran participación de su comunidad. Fue la unión prefecta para esta + operación. + + Elija cuidadosamente sus indicadores claves de desempeño + +: El proyecto tuvo solo 45.000 visitantes en 4 meses, equivalente a 15 + minutos de tráfico en [nytimes.com](http://www.nytimes.com/). Lo + importante es que 1 de cada 5 se inscribió y 1 de cada 10 se tomó el + tiempo de escanear y subir su factura. + +— *Nicolas Kayser-Bril, Journalism++* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @228, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/estudio_de_casos_17.html' + ] + } + ], + #parent : @5, + #level : 1, + #nodesInPreorder : OrderedCollection [ + @222, + @225, + @236, + @240, + @244, + @248, + @252, + @256, + @260, + @264, + @268, + @272, + @276, + @280, + @284, + @288, + @292, + @296, + @300 + ], + #links : @234 + }, + @225, + @236, + @240, + @244, + @248, + @252, + @256, + @260, + @264, + @268, + @272, + @276, + @280, + @284, + @288, + @292, + @296, + @300, + GrafoscopioNode { + #header : 'Obtener datos', + #body : '![](figs/incoming/04-00-cover.png) + +Así que está listo para comenzar con su primer proyecto de periodismo de +datos. ¿Y ahora qué? Primero necesita algunos datos. Esta sección +analiza de dónde puede obtenerlos. Aquí aprenderemos cómo encontrar +datos en la red, cómo pedirlos usando las leyes de acceso a la +información, cómo usar el "screen scraping" (peinado de pantalla) para +recoger datos de fuentes no estructuradas, y cómo usar la “colaboración +del público” (crowdsourcing) para obtener sus propios conjuntos de datos +de sus lectores. Finalmente analizamos lo que dicen las leyes respecto +de la re-edición de conjuntos de datos, y cómo usar herramientas legales +simples para permitir a otros reutilizar sus datos. + +### Qué contiene este capítulo? + +- [Una guía para trabajos de campo de 5 minutos](obtener_datos_0.html) +- [Su Derecho a la Información](obtener_datos_1.html) +- [El Wobbing\\* funciona. ¡Úselo!](obtener_datos_2.html) +- [Obtener datos de la red](obtener_datos_3.html) +- [La red como fuente de datos](obtener_datos_4.html) +- [Herramientas web](obtener_datos_5.html) +- [Crowdsourcing en el Datablog de The Guardian](obtener_datos_6.html) +- [Cómo el Datablog usó "crowdsourcing" para cubrir la venta de + entradas para las Olimpíadas](obtener_datos_7.html) +- [Usar y compartir datos: las reglas técnicas legales, la letra chica + y la realidad](obtener_datos_8.html) +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'Una guía para trabajos de campo de 5 minutos', + #body : '¿Busca datos sobre un tópico o cuestión particular? ¿No está seguro de +qué es lo que hay o dónde encontrarlo? ¿No sabe por dónde empezar? En +esta sección analizamos cómo comenzar la búsqueda de fuentes de datos +públicos en la red. + +#### Ajustar la búsqueda + +Aunque pueden no ser siempre fáciles de encontrar, muchas bases de datos +en la red están indexadas por motores de búsqueda, fuera ello o no la +intención del editor. Unos cuantos consejos: + +- Cuando busque datos asegúrese de incluir tanto términos de búsqueda + relacionados con el contenido de los datos que trata de encontrar, + como algo de información sobre el formato o la fuente en la que + prevé encontrarlos. Google y otros motores de búsqueda le permiten + buscar por tipo de archivo. Por ejemplo, puede buscar solo planillas + de cálculo (agregando a su búsqueda “filetype:XLS filetype:CSV”), + datos geográficos (“filetype:shp”), o extractos de bases de datos + (“filetype:MDB, filetype:SQL, filetype:DB). Si así lo desea incluso + puede buscar PDF (“filetype:pdf”). + +- También puede buscar con una parte de una URL. Hacer una búsqueda en + Google de “inurl:donwloads filetype:xls” o “inurl:descargas + filetype:xls” significa buscar todos los archivos Excel que tienen + “downloads” o “descargas” en su dirección de la red (si encuentra + una sola descarga, a menudo vale la pena simplemente verificar qué + otros resultados existen para la misma carpeta en el servidor de la + red). También puede limitar su búsqueda solo a aquellos resultados + dentro de un solo nombre de dominio, buscando “site:agency.gov”, + por ejemplo. + +- Otro truco popular es no buscar determinado contenido directamente, + sino lugares donde puede haber datos disponibles en gran cantidad. + Por ejemplo “sitio:ente.gov Directory Listing” puede darle algunos + listados generados por el servidor de la red con fácil acceso a + archivos en bruto, mientas que “sitio:ente.gov Database Download” + buscará listados creados intencionalmente. + +> Ir Directo a la fuente + +> El primer truco que uso para obtener datos que están en manos de un ente +público es tratar de ir directo a quien tiene los datos, no la persona +de relaciones públicas, ni a través de un pedido de acceso a la +información (PAI). Podría por supuesto hacer un PAI o un pedido de +registros públicos, pero eso hace que los engranajes comiencen a girar +con lentitud. Es probable que reciba la respuesta de que los datos no +están en el formato que solicité o (tal como ha sucedido en algunos +casos) que el ente oficial usa un software propio y no puede extraer los +datos en el formato que requerí. Pero si empiezo por llegar a la persona +que maneja los datos para esa organización, puedo hacer preguntas +respecto de qué datos tienen sobre el tema y cómo los guardan. Puedo +conocer el formato, hablar en el lenguaje de los datos y descubrir lo +que necesito saber para pedir los datos y tener éxito. ¿Las barreras que +se enfrentan en este caso? A menudo es difícil llegar a estas personas. +El encargado/a de Información Pública (EIP) va a querer que trate +directamente con él/ella. En esos casos he descubierto que lo mejor es +tratar de organizar una llamada colectiva o, aún mejor, una reunión en +persona con el/la EIP, el gurú de datos, y yo. Y lo puedo organizar de +un modo que les resulte difícil decir que no. “No quiero darles +trabajo”, digo. “No quiero crear una carga innecesaria ni hacer un +pedido demasiado amplio, de modo que una reunión me ayudará a entender +exactamente lo que tienen y cómo pedir exactamente lo que necesito”. + +> Si este método no funciona, la alternativa es hacer un pedido de conocer +cómo está organizado su archivo y su diccionario de datos. Entonces pido +los datos efectivamente. A veces pregunto también cómo guardan y qué +sistema usan. De ese modo puedo investigar de qué modo exportar los +datos antes de escribir mi pedido. + +> Por último, mi mejor historia de éxito es de cuando estaba trabajando en +un pequeño diario en Montana. Necesitaba algunos datos de países, me +dijeron que no podían exportarse de la computadora central. Investigué +un poco y ofrecí ir a ayudarlos. Trabajé con la persona de datos, +hicimos un pequeño guión y copiamos los datos a un disquete (esto fue +hace mucho tiempo). Tenía mis datos y el condado ahora estaba en +condiciones de proveer los datos a cualquiera que los pidiera. No +querían que eso sucediera, pero a veces ellos también necesitaban +extraer datos y no entendían su sistema por completo, de modo que nos +ayudamos entre todos. + +> — *Cheryl Philips, The Seattle Times* + +#### Explore sitios y servicios de datos + +En los últimos años han aparecido una cantidad de portales y centros de +datos dedicados y otros sitios de datos en la red. Son buenos lugares +para llegar a conocer los tipos de datos que hay. Para empezar podría +ver: + +![datacatalogs.org (Open Knowledge Foundation)](figs/incoming/04-01.png) + + Portales oficiales de datos + +: La disposición del gobierno a entregar ciertos conjuntos de datos + varía de país en país. Un número creciente de países está lanzando + portales de datos (inspirados por el data.gov de EE.UU. y el + data.gov.uk del R.U.) para promover la reutilización civil y + comercial de información oficial. Se puede encontrar un índice + global actualizado de tales sitios en + [datacatalogs.org/](http://datacatalogs.org/). Otro sitio práctico + es el [Guardian World Government + Data](http://www.guardian.co.uk/world-government-data), un + meta-motor de búsquedas que incluye muchos catálogos de datos + gubernamentales internacionales. + + [El Data Hub](http://thedatahub.org/) + +: Un recurso comunitario manejado por la Open Knowledge Foundation que + facilita buscar, compartir y re-utilizar fuentes de datos + abiertamente disponibles, especialmente de maneras automatizadas. + + [Scraperwiki](https://scraperwiki.com/) + +: Una herramienta online para hacer que el proceso de extraer “datos + útiles sea más fácil de modo que puedan ser utilizados en otras + aplicaciones o que periodistas e investigadores puedan *scrapear* + en ellos”. La mayoría de los "scrapers" y sus bases de datos son + públicos y pueden ser reutilizados. + +Portales de datos del [Banco Mundial](http://data.worldbank.org/) y las +[Naciones Unidas](http://data.un.org/):: + +Estos servicios ofrecen indicadores de alto nivel para todos los países +y en muchos casos cubren muchos años. + +[Buzzdata](http://buzzdata.com/), +[Infochimps](http://www.infochimps.com/) y +[DataMarket](http://datamarket.com/):: + +Sitios nuevos que apuntan a crear comunidades dedicadas a compartir +datos y su reventa. + + [DataCouch](http://datacouch.com/) + +: Un lugar donde subir, refinar, compartir y visualizar sus datos. + + [Freebase](http://www.freebase.com/) + +: Una interesante subsidiaria de Google que ofrece “un gráfico de + entidades de gente, lugares y cosas, creado por una comunidad amante + de la información abierta”. + + Datos de investigación + +: Hay compiladores nacionales y disciplinarios de datos de + investigación como el [UK Data + Archive](http://www.data-archive.ac.uk/). Si bien hay mucha + información gratuita en el punto de acceso, también hay muchos datos + que requieren una suscripción, o que no pueden ser reutilizados o + redistribuidos sin obtener autorización. + +Obtener datos de archivos de papel + +Justo después de la difusión por WikiLeaks de documentos militares de +EE.UU. sobre Afganistán e Irak, decidimos adaptar el concepto para +conmemorar el 50 aniversario de la Guerra de Argelia publicando los +Diarios de la Guerra de Argelia. Nos propusimos obtener y digitalizar +los archivos del Ejército Francés en Argelia. Estos están disponibles en +el archivo del ministerio de Guerra en París, aunque en formato impreso. +Enviamos a nuestros periodistas y estudiantes a tomar fotografías de los +documentos. Tratamos de escanearlos usando un scanner Canon P-150 +portátil, pero no funcionó principalmente porque gran parte de los +archivos están abrochados. + +Por fin se recogieron alrededor de 10000 páginas en pocas semanas. Las +pasamos por un software de reconocimiento de texto (ABBYY FineReader) +que produjo resultados pobres. Lo que es más, el ministerio +arbitrariamente negó acceso a las cajas más interesantes de archivos. +Por encima de todo, el ministerio prohíbe reeditar documentos que pueden +ser fotografiados libremente en el lugar, por lo que decidimos que no se +justificaba el riesgo y el proyecto quedó en suspenso. + +— *Nicolas Kayser-Bril, Journalism++* + +#### Pregunte en un foro + +Busque respuestas existentes o haga una pregunta en +[Get The Data](http://getthedata.org/) o [Quora](http://www.quora.com/). +GetTheData es un sitio de preguntas y respuestas donde puede hacer sus +preguntas relacionadas con datos, incluyendo donde encontrar datos +relacionados con un asunto particular, cómo interrogar o encontrar una +determinada fuente de datos, qué herramientas usar para explorar de modo +visual, como expurgar datos, o ponerlos en un formato con el que pueda +trabajar. + +#### Pregunte en una lista de correo + +Las listas de correo aprovechan la sabiduría de una comunidad entera +sobre un tópico particular. Para los periodistas de datos, la +[Data-Driven Journalism List](http:/bit.ly/ddj-list) y la +[NICAR-L](http://bit.ly/nicar-subscribe/) son excelentes puntos de +partida. Ambas listas están pobladas de periodistas de datos y expertos +en Periodismo Asistido por Computadora (Computer-Assisted Reporting – +CAR) que trabajan en todo tipo de proyectos. Es posible que alguien haya +hecho una historia como la suya y puede tener una idea de por dónde +empezar, si es que no un vínculo directo con los datos que busca. +También podría probar con [Project Wombat](http://project-wombat.org/); +(“una lista de discusión para preguntas de referencia difíciles”), las +muchas listas de correo de [la Open Knowledge +Foundation](http://lists.okfn.org/mailman/listinfo), listas de correo en +[the Info](http://theinfo.org/), o buscar listas de correo sobre el +tópico o en la región que está interesado. + +#### Súmese a Hacks/Hackers + +[Hacks/Hackers](http://hackshackers.com/) es una organización +periodística internacional de base en rápida expansión con docenas de +secciones y miles de miembros en 4 continentes. Su misión es crear una +red de periodistas (“Hacks”) y tecnólogos (Hackers”) que reflexionan +sobre el futuro de las noticias y la información. Con una red tan +amplia, tiene grandes probabilidades de encontrar a alguien que sepa +dónde encontrar lo que busca. + +#### Pregunte a un experto + +Profesores, empleados públicos y gente de los distintos sectores a +menudo saben dónde buscar. Llámelos. Mándeles un correo electrónico. +Abórdelos en eventos. Aparézcase en su oficina. Pregunte amablemente. +“Estoy escribiendo una historia sobre X. ¿Dónde encuentro esto? ¿Sabe +quién tiene esto?” + +#### Conozca la TI (Tecnología Informática) de los entes oficiales + +A menudo ayuda entender el contexto técnico y administrativo en el que +los entes oficiales tienen su información cuando se quiere acceder a +datos. Se trate de CORDIS, COINS o THOMAS, las grandes bases de datos a +menudo resultan más útiles cuando uno conoce algo del objetivo con el +que se crearon. + +Encuentre los cuadros organizativos de los entes oficiales y busque +departamentos/unidades con una función que los atraviese (por ejemplo, +informaciones, servicios TI), luego explore sus sitios en la red. Muchos +datos se archivan en distintos departamentos y mientras que para uno de +ellos la base de datos que le interesa puede ser su tesoro, otro puede +dársela sin problemas. + +Busque infografías dinámicas de sitios oficiales. Estas a menudo se +basan en fuentes de datos estructurados/API que pueden ser usadas de +modo independiente (por ejemplo, aplicaciones que rastrean vuelos, +aplicaciones Java que pronostican el clima). + +> Investigar registros de llamadas telefónicas + +> Hace pocos meses quise analizar los registros de llamadas telefónicas +del gobernador de Texas, Rick Perry (por entonces candidato +presidencial). Fue el resultado de un pedido, largamente esperado, de +registros públicos estaduales. Los datos vinieron esencialmente en el +formato de más de 120 páginas de documentos en calidad de fax. Era un +esfuerzo que requería ingresar datos y expurgarlos, seguido del uso de +una aplicación que permitiera buscar en la guía los titulares de los +teléfonos con los que se había comunicado el gobernador. + +> Combinando nombres con datos electorales estaduales y federales, +descubrimos que Perry tomó contacto con donantes a su campaña y con +súper comités de acción política (los llamados super PAC, que +supuestamente no deben organizar la recolección de fondos) +[desde teléfonos de oficinas públicas estaduales](http://bo.st/perry-phone), +práctica mal vista y que planteó interrogantes sobre los vínculos entre +él y un “super PAC” que trabaja para él. + +> — *Jack Gillum, Associated Press* + +#### Busque nuevamente + +Cuando sepa más sobre lo que está buscando, vuelva a buscar usando +frases y conjuntos de palabras improbables que descubrió desde la última +vez. ¡Quizá tenga más suerte con los motores de búsqueda! + +#### Escriba un pedido de acceso a la información + +Si usted cree que un ente oficial tiene los datos que necesita, un +Pedido de Acceso a Información puede ser su mejor herramienta. Vea la +siguiente sección para más información respecto de cómo presentarlo. + +— *Brian Boyer (Chicago Tribune), John Keefe (WNYC), Friedrich +Lindenberg (Open Knowledge Foundation), Jane Park (Creative Commons), +Chrys Wu (Hacks/Hackers)* + +> Cuando falla la ley +> Luego de leer un [artículo académico](http://bit.ly/hygiene-inspections) +que explica que publicar el resultado de inspecciones de higiene en +restaurantes redujo la cantidad de enfermedades relacionadas con +alimentos en Los Ángeles, pedí a los servicios de higiene parisinos la +lista de inspecciones. Siguiendo el procedimiento establecido por la ley +de Acceso a la Información francesa, esperé 30 días su negativa a +contestar, entonces fui a la Comisión de Acceso a los Datos públicos +(CADA en francés), que determina la legitimidad de los pedidos de acceso +a información. CADA apoyó mi pedido y ordenó a la administración +entregar los datos. La administración a continuación pidió dos meses más +y CADA lo aceptó. Dos meses más tarde la administración aún no había +hecho nada. + +> Traté de conseguir el apoyo de defensores del libre acceso a la +información famosos (y con muchos recursos) para presentar una demanda +legal (lo que hubiera costado € 5000 y se hubiera ganado sin duda con el +apoyo de CADA), pero temían complicar sus relaciones con los programas +de datos abiertos oficiales. Este ejemplo es uno entre muchos en los que +la administración francesa simplemente ignora la ley y las iniciativas +oficiales no hacen nada para apoyar pedidos de datos de periodistas +comunes. +> — *Nicolas Kayser-Bril, Journalism++* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : GrafoscopioNode { + #header : 'Obtener datos', + #body : Text { + #string : '', + #runs : RunArray { + #runs : [ ], + #values : [ ] + } + }, + #tags : OrderedCollection [ + 'text' + ], + #children : @307, + #level : 1, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/obtener_datos.html' + ] + }, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/obtener_datos_0.html' + ] + }, + GrafoscopioNode { + #header : 'Su Derecho a la Información', + #body : 'Antes de hacer un pedido de acceso a información, debiera verificar si +los datos que está buscando ya están disponibles o si otros ya los han +pedido. El capítulo anterior tiene algunas sugerencias respecto de dónde +puede averiguar. Si ha estado mirando y aún no pudo conseguir los datos +que necesita, entonces puede querer presentar un pedido formal. Algunos +consejos que pueden ayudar a hacer más efectivo su pedido. + + Planifique anticipadamente para ahorrar tiempo + +: Piense en presentar un pedido formal de acceso cuando se proponga + buscar información. Es mejor no esperar hasta haber agotado todas + las demás posibilidades. Ahorrará tiempo presentado un pedido al + comienzo de su investigación y desarrollando otras + investigaciones paralelamente. Esté preparado para las demoras: a + veces los entes públicos tardan en procesar pedidos, por lo que es + mejor prever esto. + + Verifique las normas respecto de aranceles + +: Antes de comenzar a presentar un pedido, verifique las normas + respecto de aranceles para presentar pedidos o recibir información. + De ese modo, si un funcionario público de pronto le pide dinero, + sabrá cuáles son sus derechos. Puede pedir documentos electrónicos + para evitar costos de copiado y correo, mencione en su pedido que + prefiere tener la información en formato electrónico. De ese modo + evitará pagar un arancel, a menos por supuesto que la información no + esté disponible electrónicamente, aunque en estos tiempos por lo + general es posible escanear documentos que no están digitalizados + aún y luego enviarlos como agregado por correo electrónico. + + Conozca sus derechos + +: Sepa cuáles son sus derechos antes de comenzar, de modo de saber + donde está parado y qué cosas están obligadas a hacer las + autoridades y qué cosas no. Por ejemplo, la mayoría de las leyes de + libre acceso a información establecen un plazo para que las + autoridades respondan. Globalmente, en la mayoría de las leyes los + plazos varían de unos pocos días a un mes. Asegúrese de conocer el + plazo antes de comenzar y anote la fecha en la que presenta + su pedido. + +Los entes oficiales no están obligados a procesar los datos para usted, +pero debieran darle todos los datos que tienen, y si son datos que +debieran tener para cumplir con sus obligaciones legales, por cierto que +debieran entregárselos. + + Diga que conoce sus derechos + +: Habitualmente no se requiere que usted mencione las leyes de acceso + a información o de libertad de información, pero esto se recomienda + porque muestra que conoce sus derechos y esto probablemente promueva + una respuesta acorde con el derecho vigente. Señalamos que en el + caso de pedidos a la UE, es importante mencionar que es un pedido de + acceso a documentos y es mejor mencionar específicamente la + Norma 1049/2001. + + Hágalo simple + +: En todos los países es mejor comenzar con un simple pedido de + información y luego agregar más preguntas cuando obtiene la + información inicial. De ese modo no corre el riesgo de que el ente + público pida extensión del plazo por tratarse de un + “pedido complejo”. + + Concentre su pedido + +: Un pedido de información que solo está en manos de una parte de un + ente público probablemente tenga respuesta más rápida que un pedido + que requiere una búsqueda en todo un ente. Un pedido que involucra + que el ente consulte a terceros (p.ej., una empresa privada que + aportó la información, otro gobierno que se ve afectado por + la misma) puede llevar un tiempo particularmente prolongado. + Sea persistente. + + Piense que hay dentro del archivo + +: Intente averiguar qué datos se recogen. Por ejemplo, si recibe una + copia en blanco del formulario que llena la policía después de + accidentes de tráfico, puede ver qué información toman en cuenta y + cual no respecto de choques de autos. + + Sea específico + +: Antes de presentar su pedido piense: ¿es ambiguo en algún sentido? + Esto es especialmente importante si piensa comparar datos de + distintos entes públicos. Por ejemplo, si pide cifras de los + *últimos 3 años*, algunos entes le enviarán información de los + últimos 3 años calendario y otros de los 3 últimos años financieros, + los que no podrá comparar directamente. Si decide ocultar su + verdadero pedido en otro más general, entonces debe hacer su pedido + lo suficientemente amplio como para que abarque la información que + quiere pero no tanto como para resultar poco claro o como para + desalentar a las autoridades a responder. Los pedidos específicos y + claros tienden a tener respuestas más celeras y mejores. + + Presente múltiples pedidos + +: Si no está seguro donde presentar su pedido, nada le impide + presentar su pedido a 2, 3 o más entes al mismo tiempo. En algunos + casos, los varios entes le darán distintas respuestas, pero esto en + realidad le puede ser de ayuda en cuanto a darle un cuadro más + completo de la información disponible en la materia que investiga. + + Presente pedidos internacionales + +: Cada vez hay más posibilidades de presentar pedidos por vía + electrónica, por lo que no importa donde vive. Alternativamente, si + no vive en el país en el que quiere presentar su pedido, puede en + algunos casos enviar el pedido a la embajada y desde allí deben + transferir el pedido al ente público competente. Tendrá que + verificar en la embajada correspondiente si están en condiciones de + hacer esto: a veces el personal de la embajada no está capacitado en + la cuestión del derecho a la información y si este parece ser el + caso, es más seguro presentar le pedido directamente al ente + público correspondiente. + + Haga una prueba + +: Si piensa mandar el mismo pedido a muchos entes públicos, empiece + por enviar un primer texto del pedido a unos pocos entes como + ejercicio piloto. Esto le mostrará si está usando la terminología + adecuada para obtener el material que quiere y si es factible que + contesten sus preguntas, de modo de poder revisar el pedido si fuera + necesario antes de enviarlo a todos los destinatarios. + + Anticipe las excepciones + +: Si cree que pueden aplicarse excepciones a su pedido entonces, + cuando prepare sus preguntas, separe las preguntas relativas a + información potencialmente delicada del resto de la información que + el sentido común diría que no tiene porque ser motivo de + una excepción. Luego divida sus preguntas en 2 y presente los 2 + pedidos por separado. + + Pida acceso a los archivos + +: Si vive cerca del lugar donde se guarda la información (por ej., en + la capital en la que se guardan los documentos), también puede pedir + inspeccionar los documentos originales. Esto puede ser de ayuda en + la investigación de información que puede estar contenida en una + gran cantidad de documentos que le gustaría ver. Tal inspección + debiera ser gratuita y debe poder realizarse en un momento que sea + razonable y conveniente para usted. + + ¡Guarde registro! + +: Haga su pedido por escrito y guarde una copia o un archivo de modo + que en el futuro pueda demostrar que envío su pedido, en caso de + tener que apelar por falta de respuesta. Esto también le da + evidencias de haber presentado el pedido si piensa hacer un artículo + sobre el tema. + + Hágalo público + +: Acelere las respuestas haciendo público que presentó un pedido: si + escribe o transmite la información de que se ha presentado el pedido + puede crear presión sobre la institución pública para que procese y + responda al pedido. Puede actualizar la información cuando reciba + respuesta a su pedido si pasa el plazo y no hay respuesta, puede + transformar esto en una noticia también. Hacer esto tiene el + beneficio adicional de educar al público respecto del derecho de + acceso a la información y cómo funciona en la práctica. + +
+ ++--------------------------------------+--------------------------------------+ +|
| | +| | | +| Note | También hay varios servicios | +| | excelentes que puede usar para hacer | +|
| público su pedido y toda respuesta | +| | subsecuente, poniéndolas a | +| | disposición del público en la red, | +| | tales como [¿Qué | +| | saben?](http://www.whatdotheyknow.co | +| | m/) | +| | para entes públicos en el RU, [Frag | +| | den Staat](https://fragdenstaat.de/) | +| | para entes públicos alemanes, y [Ask | +| | the EU](http://www.asktheeu.org/)) | +| | para instituciones de la UE. El | +| | proyecto | +| | [Alaveteli](http://www.alaveteli.org | +| | /) | +| | está ayudando a crear servicios | +| | similares en docenas de países en | +| | todo el mundo. | +| | | +| |
| ++--------------------------------------+--------------------------------------+ + +
+ +![ ¿Qué saben? (My Society)](figs/incoming/04-AA.png) + + Involucre a colegas + +: Si sus colegas son escépticos respecto del valor de los pedidos de + acceso a la información, una de las mejores maneras de convencerlos + es escribir un artículo basado en información que obtuvo usando una + ley de acceso a la información. También se recomienda mencionar en + el artículo final o en su alocución por radio o televisión que usó + la ley, como un modo de subrayar su valor y aumentando la conciencia + del público de la existencia de ese derecho. + + Pida datos en crudo + +: Si quiere analizar, explorar, o manejar datos usando una + computadora, entonces debe pedir explícitamente datos en formato + electrónico que la máquina pueda leer. Puede clarificar esto + especificando, por ejemplo, que requiere una información + presupuestaria en un formato “adecuado para su análisis con + software contable”. También puede querer pedir explícitamente la + información en forma desagregada o granular. Puede leer más acerca + de esto en este informe () + +Preguntar sobre organizaciones eximidas de las leyes de acceso a la +información:: + +Usted puede querer investigar acerca de ONG, compañías privadas, +organizaciones religiosas y/u otras organizaciones que no están +obligadas a entregar documentación bajo las leyes de acceso a la +información. Sin embargo es posible encontrar información acerca de +ellas a través de entes públicos que sí están cubiertos por las leyes de +acceso a la información. Por ejemplo, puede preguntar a un departamento +o ministerio si han dado fondos o tratado con una compañía privada u ONG +específica y pedir documentos que respalden la información. Si necesita +más ayuda para hacer su pedido de acceso a la información puede +consultar también el [Legal Leaks](http://www.legalleaks.info/toolkit.html) + +— *Helen Darbishire (Access Info Europe), Djordje Padejski (Knight +Journalism Fellow, Stanford University), Martin Rosenbaum (BBC), y +Fabrizio Scrollini (London School of Economics and Political Science)* + + +> Usar pedidos de acceso a la información para entender el gasto + +> He usado pedidos de acceso a información de un par de maneras diferentes +para ayudar a cubrir COINS, la mayor base de datos de gasto, presupuesto +e información financiera del estado británico. Al comienzo de 2010 +George Osborne sostuvo que si era nombrado al frente del Tesoro, daría +acceso a COINS para facilitar una mayor transparencia. En ese momento +pareció una buena idea investigar los datos y la estructura de COINS por +lo que envíe unos cuantos pedidos de acceso a la información, uno para +[el esquema de la base de datos](http://bit.ly/wdtk-coins-1), otro para +la orientación que reciben los trabajadores del Tesoro cuando trabajan +con [COINS](http://bit.ly/wdtk-coins-2) y un tercero para el [contrato +del Tesoro con el proveedor de la base de +datos](http://bit.ly/wdtk-coins-3). Todo lo cual resultó en la +publicación de datos útiles. También pedí todos los códigos de gasto en +la base de datos, información [que también fue +publicada](http://bit.ly/wdtk-coins-4). Todo esto ayudó a entender COINS +cuando George Osborne llegó al Tesoro en mayo de 2010 y publicó COINS en +junio de 2010. Los datos de COINS fueron usados en una cantidad de +sitios de la red alentando al público a investigar los mismos, +incluyendo OpenSpending.org y el [Coins Data +Explorer](http://coins.guardian.co.uk/coins-explorer/search) de The +Guardian. + +> Luego de investigar un poco más pareció que faltaba una gran parte de la +base de datos: la Whole of Government Accounts (WGA) que son 1500 +conjuntos de cuentas para entes con financiación estatal. Usé un [pedido +de acceso a la información para solicitar los datos WGA de +2008/09](http://bit.ly/wdtk-coins-5) pero no obtuve resultados. También +pedí el informe de la oficina de auditoría para WGA, que esperaba que +explicara los motivos por los que la WGA no estaba en condiciones de +publicarse. Eso también [se me negó](http://bit.ly/wdtk-coins-6). + +> En diciembre de 2011 la WGA fue publicada en los datos COINS. Sin +embargo quería asegurarme de que hubiera suficiente orientación para +crear un conjunto completo de cuentas para cada uno de los 1500 entes +incluidos en el ejercicio de la WGA. Esto me lleva a la segunda manera +en que usé un pedido de acceso a información: para asegurarme de que los +datos difundidos bajo el plan de transparencia británico estuvieran bien +explicados y contuvieran lo que debían. Presenté un pedido de acceso a +la información [del conjunto de cuentas para cada ente público incluido +en la WGA](http://bit.ly/wdtk-coins-7). + +> — *Lisa Evans, the Guardian* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @311, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/obtener_datos_1.html' + ] + }, + GrafoscopioNode { + #header : 'El Wobbing* funciona. ¡Úselo!', + #body : '- N. del t. Wobbing es un neologismo surgido de la jerga + periodística holandesa. La legislación de libre acceso a la + información en Holanda se conoce por la sigla WOB. De allí se deriva + el término. + +Usar la legislación de acceso a la información –o wobbing, como se lo +llama a veces- es una herramienta excelente pero requiere método y, a +menudo, persistencia. A continuación, 3 ejemplos de mi propio trabajo +como periodista de investigación que ilustran los puntos fuertes y los +desafíos que plantea el wobbing. + +#### Estudio de caso 1: subsidios agropecuarios + +Todos los años la UE paga casi € 60.000 millones a productores y el +sector agropecuario. Todos los años. Esto sucede desde fines de la +década de 1950 y el discurso político era que los subsidios ayudan a los +productores más pobres. Sin embargo, un primer logro en base a un pedido +de acceso a la información en Dinamarca en 2004 mostró que esto eran +solo palabras. Los pequeños productores estaban en graves dificultades, +de lo que a menudo se quejaban en privado y en público, y en realidad la +mayor parte de los fondos iban a unos pocos grandes terratenientes y a +la gran industria agropecuaria. De modo que obviamente quise saber: +¿Esto es un patrón que abarca a toda Europa? + +En el verano de 2004 le pedí los datos a la Comisión Europea. Todos los +años en febrero la Comisión recibe datos de los estados miembros. Los +datos muestran quien solicita fondos de la UE, cuánto reciben los +beneficiarios y si lo reciben por explotar su tierra, desarrollar su +región o para exportar leche en polvo. En aquel momento la Comisión +recibía las cifras como archivos CSV en un CD. Muchos datos, pero con +los que en principio era fácil trabajar. Es decir, si uno podía +obtenerlos. + +En 2004 la Comisión se negó a entregar los datos; el argumento clave fue +que los datos estaban cargados en una base de datos y recuperarlos +exigía mucho trabajo. Argumento que el Ombudsman Europeo llamó *mala +administración*. Puede encontrar todos los documentos de este caso en el +[sitio sobre wobbing.eu](http://bit.ly/eu-wobbing). Allá por 2004 no +teníamos tiempo de enredarnos en cuestiones legales. Queríamos los +datos. + +![El sitio de los subsidios agrícolas (Farmsubsidy.org)](figs/incoming/04-BB.png) + +Por lo que nos asociamos con gente de toda Europa para obtener los datos +país por país. Colegas ingleses, suecos y holandeses obtuvieron los +datos en 2005. Finlandia, Polonia, Portugal y regiones de España, +Eslovenia y otros países también ofrecieron su información. Incluso en +Alemania, enemiga del wobbing, logré obtener algunos datos de la +provincia del Norte del Rin – Westfalia en 2007. Tuve que recurrir a las +cortes para obtener los datos, pero resultó en algunos buenos artículos +en [la revista Stern y en Stern online](http://bit.ly/stern-wobbing). + +¿Fue casualidad que Dinamarca y el RU fueran los primeros en dar acceso +a sus datos? No necesariamente. Si se mira el cuadro político general, +los subsidios agropecuarios en aquel tiempo debían verse en el contexto +de las negociaciones de la OMC en las que había presión contra los +subsidios agropecuarios. Dinamarca y el RU se cuentan entre los países +más liberales de Europa, de modo que bien pudo ser que los vientos +políticos soplaran en dirección a una mayor transparencia en esos +países. + +La historia no se acaba allí; para consultar más episodios y los datos, +ver [Farm Subsidy](http://farmsubsidy.org/). + +> Conozca sus derechos + +> Cuando publica datos, ¿debe preocuparse por el copyright y otros +derechos en los datos? Aunque debe consultar siempre con su equipo +legal, como regla: si está publicado por el estado no tiene porque pedir +perdón ni permiso; si es publicado por una organización que no gana +dinero vendiendo datos, no tiene mucho de qué preocuparse; si lo publica +una organización que obtiene ganancias con la venta de datos, entonces +decididamente tiene que pedir permiso. +> — *Simon Rogers, the Guardian* + +#### Estudio de caso 2: efectos colaterales + +Todos somos conejillos de Indias en lo que se refiere a tomar +medicamentos. Las drogas pueden tener efectos secundarios. Todos sabemos +esto: sopesamos los beneficios y riesgos potenciales, y tomamos una +decisión. Desgraciadamente, esta a menudo no es una decisión basada en +información. + +Cuando los adolescentes toman una píldora en contra de los granitos, +esperan tener piel suave, no un mal estado de ánimo. Pero esto es +precisamente lo que sucedió con una droga, con la que los jóvenes se +deprimieron y hasta tuvieron tendencias suicidas por tomarla. El peligro +de este efecto secundario en particular –-evidentemente una historia +periodística-- no era algo demasiado conocido. + +Hay datos sobre efectos secundarios. Los productores tienen que entregar +información regularmente a las autoridades de salud acerca de los +efectos secundarios observados. Esa información está en manos de las +autoridades nacionales y europeas una vez que se permite la venta de la +droga. + +Nuevamente en este caso se tuvo un primer logro a nivel nacional en +Dinamarca. Durante una investigación internacional de un equipo danés, +holandés y belga, Holanda también dio la información. Otro ejemplo de +salir de ronda con el *wobbing*: nos ayudó mucho poder señalar a las +autoridades holandesas que los datos estaban accesibles en Dinamarca. + +Pero la historia era cierta: en Europa había gente joven con tendencias +suicidas y lamentablemente también hubo suicidios en varios países como +resultado del uso de la droga. Periodistas, investigadores y las +familias de una joven víctima presionaban duro para obtener acceso a +esta información. El Ombudsman Europeo ayudó a presionar por más +transparencia en el Ente Europeo de Medicina y [parece que tuvo +éxito](http://bit.ly/eu-ombudsman). Por lo que ahora a los periodistas +les corresponde obtener los datos y analizar el material a fondo. ¿Somos +todos conejillos de Indias, como dijo un investigador, o son buenos los +mecanismos de control? + +Lecciones: no acepte una negativa cuando de lo que se trata es de +transparencia. Sea persistente y siga una historia a lo largo de los +años. Las cosas pueden cambiar, permitiendo mejor información con mejor +acceso en un momento posterior. + +#### Estudio de caso 3: contrabando de muerte + +La historia reciente puede ser muy dolorosa para poblaciones enteras, en +particular después de guerras y en tiempos de transición. ¿Entonces cómo +pueden obtener datos duros los periodistas para investigar, cuando –por +ejemplo- los que se beneficiaron de la última guerra ahora están en el +poder? Esta es la tarea que se propuso un equipo de periodistas +eslovenos, croatas y bosnios. + +El equipo se dispuso a investigar los negocios con armas en la ex +Yugoslavia durante el embargo de la ONU a comienzos de la década de +1990. La base del trabajo fueron documentos de investigaciones +parlamentarias sobre el tema. Para documentar las rutas de embarque y +comprender la estructura del comercio, se debía rastrear el transporte +con números de embarcaciones en los puertos y las licencias de los +camiones. + +Comisiones parlamentarias eslovenas han hecho investigaciones sobre las +ganancias obtenidas en las guerras de los Balcanes, pero nunca han +llegado a ninguna conclusión. Pero había un rastro extremadamente +valioso de documentos y datos desclasificados, incluyendo 6000 páginas +que el equipo esloveno obtuvo a través de un pedido de acceso a +información. + +En este caso los datos debieron extraerse de documentos y bases de +datos. Al aumentar los datos con más información, análisis e +investigaciones, pudieron determinar numerosas [rutas del comercio +ilegal de armas](http://bit.ly/kaasogmulvad-smuggling). + +El equipo tuvo éxito y los resultados son +[únicos](http://bit.ly/journalismfund-smuggling1) y ya le han +significado al equipo su primer premio. Lo que es más importante, la +historia es valiosa para toda la región y bien puede ser retomada por +periodistas en otros países por los que pasó la carga mortífera. + +Lecciones: publique buen material en crudo aunque lo encuentre en +lugares inesperados y combínelo con datos existentes de acceso público. + +— *Brigitte Alfter, Journalismfund.eu* + +> Pedidos de acceso a la información con amigos + +> Muchos países balcánicos tienen problemas de corrupción gubernamental. +La corrupción a menudo es incluso peor cuando se trata de que los +gobiernos municipales rindan cuentas en esos países. Durante varios +meses un grupo de periodistas serbios vinculados con el [Centre for +Investigative Reporting de Belgrado](http://www.cins.org.rs/) han estado +cuestionando documentos del año 2009 de más de 30 municipalidades. Antes +de eso, casi nada estaba accesible al público. La idea era obtener los +registros originales y poner los datos en hojas de cálculo, para hacer +controles y comparaciones básicas entre las municipalidades y obtener +las cifras máximas y mínimas. Los indicadores básicos eran las cifras +presupuestarias, gastos regulares y especiales, salarios de +funcionarios, gastos de viaje, número de empleados, gastos de uso de +celular, gastos diarios, cifras de compras oficiales, y así siguiendo. +Era la primera vez que reporteros pedían esa información. + +> El resultado fue una base de datos que desnuda numerosas +representaciones falsas, prácticas ilegales y casos de corrupción. Una +lista de los alcaldes mejor pagos indicaba que unos cuantos de ellos +recibían más dinero que el presidente serbio. Muchos otros funcionarios +tenían sueldos excesivos, recibiendo muchos de ellos reintegros enormes +de expensas de viaje y por gastos. Los datos de gasto público obtenidos +con mucho esfuerzo ayudaron a sacar a luz un enredo oficial. De la base +de datos derivaron más de 150 artículos y muchos de ellos fueron +reeditados por los medios locales y nacionales en Serbia. + +> Aprendimos que comparar los registros con datos comparables de entes +gubernamentales similares puede sacar a luz desviaciones y echar luz +sobre probables hechos de corrupción. Los gastos exagerados e inusuales +solo pueden ser detectados por comparación. + +> — *Djordje Padejski, Knight Journalism Fellow, Stanford University*', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @311, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/obtener_datos_2.html' + ] + }, + GrafoscopioNode { + #header : 'Obtener datos de la red', + #body : 'Ha probado todo y no ha logrado obtener los datos que quiere. Encontró +los datos en la red pero lamentablemente no hay opciones de descarga y +fracasó en el intento de copiar y pegar. No tema, aún puede haber una +manera de obtener los datos. Por ejemplo, puede: + +- Obtener datos de APIs (interfaces de programación de aplicaciones) + online, tales como interfaces provistas por bases de datos y muchas + aplicaciones modernas (incluyendo Twitter, Facebook y otras). Esta + es una manera fantástica de acceder a datos oficiales o comerciales, + así como datos de redes sociales. +- Extraer datos de PDF. Esto es muy difícil, dado que PDF es un + lenguaje para impresoras y no retiene mucha información sobre la + estructura de los datos presentados en el documento. Extraer + información de PDF va más allá del alcance de este libro, pero hay + algunas herramientas y tutoriales que pueden ayudarlo a hacerlo. +- Usar "screen scraping" para obtener datos de sitios de la red. Se + trata de extraer contenido estructurado de una página normal de la + red con la ayuda de un programa de de recuperación de información o + escribiendo una pequeña pieza de software. Si bien este método es + muy poderoso y puede ser usado en muchos lugares, requiere + comprender un poco cómo funciona la red. + +Con todas esas opciones técnicas, no olvide las opciones simples: a +menudo vale la pena invertir un poco de tiempo en buscar un archivo con +datos que pueden ser interpretados por una computadora o llamar a la +institución que tiene los datos que usted quiere. + +En este capítulo presentamos un ejemplo muy básico de *scrapear* datos +de una página HTML. + +#### ¿Qué son los datos procesables por computadora? + +Para la mayoría de estos métodos, el objetivo es obtener acceso a datos +que puedan ser nterpretados por una computadora. Tales datos son creados +para ser procesados por una computadora en vez de ser presentados a un +usuario humano. La estructura de estos datos se relaciona con la +información contenida en ellos, y no la manera en que será presentada +eventualmente. Entre los ejemplos de formatos que son fáciles de +interpretar por una computadora se incluyen CSV, XML, JSON, y los +archivos Excel, mientras que formatos como los de documentos Word, +páginas HTML, y archivos PDF están más relacionados con la presentación +visual de la información. Por ejemplo, PDF es un lenguaje que le habla +directamente a su impresora; le interesa la posición de líneas y puntos +en una página, en vez de caracteres distinguibles. + +===="Scrapear" sitios de la red: ¿Para qué? + +Todos lo han hecho: se va a un sitio de la red, uno ve una tabla +interesante y trata de copiarla a Excel de modo de poder agregar algunas +cifras o guardarla para después. Pero a menudo esto no funciona +realmente, o la información que quiere está desparramada en una gran +cantidad de sitios. Copiar a mano se puede volver rápidamente muy +tedioso, por lo que tiene sentido usar un poco de código para hacerlo. + +La ventaja del "scraping" es que se puede hacer prácticamente con +cualquier sitio, desde el pronóstico del tiempo hasta el gasto +gubernamental, incluso si el sitio no tiene una API para acceso a los +datos en crudo. + +#### Lo que se puede y lo que no se puede "scrapear" + +Por supuesto, hay límites a lo que se puede\\_scrapear\\_. Entre los +factores que dificultan *scrapear* en un sitio se incluyen: + +- Código HTML mal formateado con poco o nada de información + estructural (por ejemplo, sitios oficiales más antiguos). +- Los sistemas de autenticación que se supone impiden el acceso + automático (códigos CAPTCHA y exigencia de suscripción paga). +- Sistemas basados en sesiones que usan cookies de navegador para + rastrear lo que hace el usuario. +- Falta de listados completos de ítems y ausencia de posibilidades de + búsquedas con comodines. +- Bloqueado de acceso por administradores de servidores. + +Otro conjunto de limitaciones son las barreras legales: algunos países +reconocen los derechos de bases de datos, lo que puede limitar su +derecho a reutilizar información que ha sido publicada online. A veces +se puede ignorar la licencia y usarla de todos modos, dependiendo de su +jurisdicción, puede tener derechos especiales como periodista. No +debería haber problema en "scrapear" datos del estado de libre +disponibilidad, pero quizás sea mejor cerciorarse antes de publicarlos. +Organizaciones comerciales -–y ciertas ONGs-- reaccionan con menos +tolerancia y pueden tratar de sostener que usted está “saboteando” sus +sistemas. Otras informaciones pueden violar la privacidad de individuos, +y por tanto, violar las leyes de privacidad de datos o la ética +profesional. + +> Emparchar, "Scrapear", compilar, limpiar + +> El desafío con muchos datos británicos no es lograr obtenerlos, si no +ponerlos en un formato que se pueda usar. Se publican muchos datos sobre +hospitalidad, los intereses de los parlamentarios fuera de su función +pública, lobbys, y más como cosa habitual, pero en formatos difíciles de +analizar. + +> Para algunos datos, la única alternativa es el trabajo duro: unir +docenas de archivos Excel, cada uno conteniendo solo una docena de +registros, fue la única manera de hacer listas completas de reuniones +ministeriales. Para otros datos, "scrapear" la red se demostró +increíblemente útil. + +> Usar un servicio como ScraperWiki para pedir a programadores que +produzcan un *scraper* que permita reunir información como el Registro +de intereses de parlamentarios, nos ahorró la mitad del trabajo: tuvimos +toda la información de los parlamentarios en una hoja, lista para la +“larga” tarea de analizarla y expurgarla. + +> Servicios como éste (o herramientas tales como Outwit Hub) son de +inmensa ayuda para periodistas que tratan de compilar datos complicados +y que son capaces de programar. + +> — *James Ball, the Guardian* + +#### Herramientas que lo ayudan a "scrapear" + +Hay muchos programas que pueden ser usados para extraer información en +masa de un sitio, incluyendo extensiones de navegadores y algunos +servicios de la red. Según el navegador que use, herramientas como +[Readability](http://www.readability.com/), que ayuda a extraer texto de +una página o [DownThemAll](http://www.downthemall.net/), que le permite +descargar muchos archivos al mismo tiempo), le ayudarán a automatizar +algunas tareas tediosas, mientras que la [extensión Scraper de +Chrome](http://bit.ly/chrome-scraper) fue creada explícitamente para +extraer tablas de sitios de la red. Extensiones para programadores como +[FireBug](http://getfirebug.com/) para Firefox, lo mismo ya viene +incluido en Chrome, Safari e IE) le permite ver exactamente como está +estructurado un sitio y qué comunicaciones se dan entre su navegador y +el servidor. + +ScraperWiki es un sitio que le permite crear *scrapers* en una cantidad +de lenguajes de programación diferentes., incluyendo Python, Ruby y PHP. +Si quiere comenzar a *scrapear* sin la complicación de instalar una +plataforma de programación en su computadora esta es la manera de +hacerlo. Otros servicios de la red, tales como las Hojas de Cálculo de +Google y Yahoo! Pipes, también permiten realizar extracciones de otros +sitios. + +#### ¿Cómo funciona un "Scraper" de la red? + +Los "scrapers" de la red por lo general son piezas pequeñas de código +escritas en un lenguaje de programación tal como Python, Ruby o PHP. +Escoger el lenguaje adecuado depende en gran medida de a qué comunidad +tiene acceso: si en su redacción o ciudad hay alguien que ya trabaja con +uno de estos lenguajes, entonces tiene sentido adoptar el mismo +lenguaje. + +Si bien algunas de las herramientas de "scraping" con las que basta +cliquear y apuntar mencionadas más arriba pueden ser de ayuda para +comenzar, lo verdaderamente complejo a la hora de *scrapear* en un sitio +es encontrar las páginas indicadas y los elementos indicados dentro de +estas páginas para extraer la información deseada. Estas tareas no +tienen que ver con programación, sino con comprender la estructura del +sitio y la base de datos. + +Al presentar un sitio, su navegador casi siempre usará dos tecnologías, +HTTP, para comunicarse con el servidor y pedir recursos específicos, +tales como documentos, imágenes o videos; y HTML, el lenguaje en el que +se componen los sitios. + +#### La anatomía de una página de la red + +Toda página HTML está estructurada como una jerarquía de módulos (que +están definidos por etiquetas de HTML). Un módulo grande contiene muchos +módulos más pequeños –por ejemplo una tabla que tiene muchas divisiones +más pequeñas: filas y celdas. Hay muchos tipos de etiquetas que realizan +distintas funciones: algunas producen módulos, otras tablas, imágenes o +vínculos. Las etiquetas también pueden tener propiedades adicionales +(por ejemplo, pueden ser identificadores únicos y pueden pertenecer a +grupos llamados “clases” que hacen posible apuntar a y capturar +elementos individuales dentro de un documento). Escoger elementos +apropiados de esta manera y extraer su contenido es la clave para +escribir un "scraper". + +Viendo los elementos en una página de la red, todo puede dividirse en +módulos dentro de módulos. + +Para "scrapear" en páginas de la red tendrá que aprender un poco acerca +de los distintos tipos de elementos que pueden encontrarse en un +documento HTML. Por ejemplo, el elemento <table> abarca toda una +tabla, que tiene <tr> (table row) elementos para sus filas, que a +su vez contienen <td> (table data) para cada celda. El tipo de +elemento más común que encontrará es <div>, que puede significar +básicamente cualquier bloque de contenido. La manera más fácil de +conocer estos elementos es usar la barra de desarrolladores, +[developer toolbar](http://bit.ly/developer-toolbar), de su navegador: +le permitirá posicionarse sobre cualquier parte de una página de la red +y ver el código correspondiente. + +Las etiquetas funcionan como el comienzo y el fin de un libro, marcando +el comienzo y el fin de una unidad. Por ejemplo `` *significa el +comienzo de un tramo de texto en itálica o destacado y* `` +significa el fin de ese tramo. Fácil. + +#### Un ejemplo: "Scraping" de incidentes nucleares con Python + +[NEWS](http://www-news.iaea.org/EventList.aspx) es el portal de la +Agencia Internacional de Energía Atómica (AIEA) que sigue los incidentes +de radiación en todo el mundo (y disputa el título máximo del club de +los títulos raros). La página tiene listas de incidentes en un sitio +simple, tipo blog, que puede ser fácilmente "scrapeado". + +![El portal de la Agencia Internacinal de Energía Atómica (IAEA) (news.iaea.org)](figs/incoming/04-CC.png) + +Para empezar, cree un nuevo scraper Python en ScraperWiki y se le +presentará un área para texto mayormente vacía, salvo por algo de código +de soporte. En otra pestaña del navegador abra el + de AIEA y abra la +barra para desarrolladores de su navegador. En la vista de “elementos” +trate de encontrar el elemento HTML de uno de los títulos de noticias. +La barra para desarrolladores de su navegador le ayudará a relacionar +los elementos en la página con el código HTML correspondiente. + +Al investigar esta página se revelará que los títulos son elementos +`

` dentro de una <table>. Cada evento es una fila ``, que +también contiene una descripción y una fecha. Si queremos extraer los +títulos de todos los eventos, debiéramos buscar la manera de seleccionar +cada fila en la tabla secuencialmente, recopilando todo el texto dentro +de los elementos de título. + +Para convertir este proceso en código, tenemos que tomar conciencia de +todos los pasos. Para tener idea del tipo de pasos requeridos, juguemos +un juego simple: en su ventana de ScraperWiki trate de escribir +instrucciones individuales para cada cosa que va a hacer mientras +escribe este "scraper", como los pasos de una receta (ponga al comienzo +de cada línea un signo de numeral para indicarle a Python que no es un +verdadero código de computación). Por ejemplo: + + # Buscar todas las filas en la tabla + # Unicornio no debe desbordar el lado izquierdo. + +Trate de ser lo más preciso posible y no suponga que el programa sabe +algo acerca de la página que intenta *scrapear*. + +Una vez que haya escrito algo de este seudo-código, comparemos esto con +el código esencial para nuestro primer *scraper*: + + import scraperwiki + from lxml import html + +En esta primera sección estaba importando funcionalidad existente de +bibliotecas, recortes de código ya escrito. `Scraperwiki` nos dará la +capacidad de descargar sitios de la red, mientras que `lxml` es una +herramienta para el análisis estructurado de documentos HTML. Buena +noticia: si está escribiendo un scraper con ScraperWiki, estas dos +líneas siempre serán las mismas. + + url = "http://www-news.iaea.org/EventList.aspx" + doc_text = scraperwiki.scrape(url) + doc = html.fromstring(doc_text) + +A continuación el código hace un nombre (variable): url, y asigna el URL +de la página de la AIEA como su valor. Esto le dice al "scraper" que +esta cosa existe y que queremos prestarle atención. Nótese que el URL +mismo está entre comillas ya que no es parte del código del programa +sino un *string*, una secuencia de caracteres. + +Entonces usamos la variable del url como entrada de una función, +`scraperwiki.scrape`. Una función que producirá una tarea definida, en +este caso, descargará una página de la red. Cuando termine, asignará su +producto a otra variable, `doc_text`. `doc_text` ahora contendrá el +texto del sitio; no la forma visual que ve en su navegador, sino el +código fuente, incluyendo todas las etiquetas. Dado que esta forma no es +muy fácil de analizar, usaremos otra función, `html.fromstring`, para +generar una representación especial, en la que podamos fácilmente +referirnos a elementos, el así llamado modelo de documento de objeto o +document object model (DOM). + + for row in doc.cssselect("#tblEvents tr"): + link_in_header = row.cssselect("h4 a").pop() + event_title = link_in_header.text + print event_title + +En este paso final, usamos el DOM para encontrar cada fila de nuestra +tabla y extraer el título del evento de su encabezado. Se usan dos +conceptos nuevos: el riso "for loop" y selección de elemento o "element +selection" (`.cssselect`). El "for loop" hace esencialmente lo que +implica su nombre; atraviesa una lista de ítems, asignando a cada uno un +alias temporal (`row` en este caso) y luego aplicará las instrucciones +con sangría para cada ítem. + +El otro concepto nuevo, selección de elemento o "element selection", es +hacer uso de un lenguaje especial para encontrar elementos en el +documento. Los selectores CSS son usados normalmente para agregar +información de diseño a elementos HTML y puede ser usado para extraer +con precisión un elemento de una página. En este caso (línea 6) estamos +seleccionando \\#tb1Events tr, que hará corresponder cada `` en el +elemento tabla con el ID tb1Events (el signo numeral simplemente +significa ID). Nótese que esto producirá una lista de elementos ``. + +Eso puede verse en la siguiente línea (línea 7i), donde estamos +aplicando otro selector para encontrar cualquier `` (que es un +hipervínculo) dentro de un `

` (un título). Aquí sólo queremos ver un +elemento (solo hay un título por fila), de modo que tenemos que sacarlo +del encabezado de la lista creada por nuestro selector con la función +`.pop()`. + +Nótese que algunos elementos en el DOM contienen texto (es decir, aneder +usando la sintaxis `[element].text` que se ve en la línea 8. Finalmente +en la línea 9 estamos imprimiendo ese texto a la consola ScraperWiki. Si +hace clic en "run" en su "scraper", la ventana más pequeña ahora debiera +comenzar a listar los nombres del evento del sitio de la AIEA. + +![Un scraper en acción (ScraperWiki)](figs/incoming/04-DD.png) + +Ahora puede ver un "scraper" básico operando: descarga la página, la +transforma a la forma DOM, y luego le permite seleccionar y extraer +cierto contenido. Dado este esqueleto, puede tratar de resolver algunos +de los problemas que quedan usando la documentación del ScraperWiki y +Python: + +- ¿Puede encontrar la dirección del vínculo en el título de cada + evento? +- ¿Puede seleccionar el pequeño módulo que contiene la fecha y el + lugar usando su nombre de clase CSS y extraer el texto del elemento? +- ScraperWiki ofrece una pequeña base de datos para cada scraper, de + modo que pueda almacenar los resultados; copie el ejemplo + correspondiente de sus docs y adáptelo de modo que guarde los + títulos, vínculos y fechas del evento. +- La lista de eventos tiene muchas páginas; ¿puede *scrapear* + múltiples páginas para obtener eventos históricos también? + +Mientras intenta resolver estos desafíos, investigue un poco el +ScraperWiki: hay muchos ejemplos útiles en los "scrapers" existentes; a +menudo los datos son bastante interesantes también. De este modo no +necesita comenzar su "scraper" de cero: simplemente escoja uno similar, +tómelo y adáptelo a su problema. + +— *Friedrich Lindenberg, Open Knowledge Foundation* + +> "Scrapear" en una base de datos pública + +> Algunos médicos franceses pueden establecer libremente sus honorarios, +por lo que uno puede pagar entre € 70 y € 500 por una consulta de 30 +minutos con un oncólogo, por ejemplo. Los datos sobre honorarios por ley +son públicos, pero la administración solo ofrece una base de datos +online difícil de navegar. Para tener una buena visión de los honorarios +de los médicos para Le Monde, decidí "scrapear" toda la base de datos. + +> Ahí comenzó la diversión. De entrada, el formulario de búsqueda era una +aplicación Flash que redirigía a una página de resultados HTML vía un +pedido POST. Con ayuda de Nicolas Kayser-Bril, nos llevó algo de tiempo +descubrir que la aplicación usaba una tercera página como paso “oculto” +entre el formulario de búsqueda y la página de resultado. Esta página se +usaba en realidad para almacenar un cookie con valores del formulario de +búsqueda al que entonces accedía la página de resultados. Hubiese sido +difícil imaginarse un proceso más enredado, pero las opciones de la +biblioteca cURL en PHP permiten superar fácilmente las vallas, una vez +que se sabe cuáles son. Finalmente apoderarnos de la base de datos llevó +10 horas, pero valió la pena. + +> — *Alexandre Léchenet, Le Monde* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @311, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/obtener_datos_3.html' + ] + }, + GrafoscopioNode { + #header : 'La red como fuente de datos', + #body : '¿Cómo puede saber más de algo que solo existe en Internet? Esté buscando +una dirección de correo electrónico, sitio, imagen o artículo de +Wikipedia, en este capítulo haré con usted una recorrida por las +herramientas que le dirán más sobre ellos.', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @311, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/obtener_datos_4.html' + ] + }, + GrafoscopioNode { + #header : 'Herramientas web', + #body : 'Primero, unos cuantos servicios diferentes que puede usar para descubrir +algo más sobre todo un sitio, en vez de una página particular: + + Whois + +: Si va a [whois.domaintools.com/](http://whois.domaintools.com/) o + simplemente tipea whois seguido de un URL *www.ejemplo.com* en + Terminal.app en una Mac puede obtener la información básica de + registro de cualquier sitio. En los últimos años algunos dueños han + preferido el registro privado, lo que oculta sus detalles, pero en + muchos casos verá un nombre, dirección, correo electrónico y número + de teléfono de la persona que registró el sitio. También puede + ingresar direcciones IP numéricas aquí y obtener datos sobre la + organización o el individuo que es dueño del servidor. Esto es + especialmente útil cuando trata de encontrar más información sobre + un usuario abusivo o malicioso de un servicio, ya que la mayoría de + los sitios registran una dirección IP de todo el que accede a ellos. + + Blekko + +: El motor de búsquedas ([Blekko](http://blekko.com/) ofrece una + cantidad inusual de información sobre las estadísticas internas que + reúne sobre sitios mientras recorre la red. Si tipea un nombre de + dominio seguido de “/seo”, verá una página de información sobre ese + URL. La primera pestaña en [Figure 7](#FIG048) le muestra qué otros + sitios se vinculan con el dominio por orden de popularidad. Esto + puede ser extremadamente útil cuando está tratando de comprender qué + tipo de cobertura recibe un sitio y por qué tiene un alto ranking en + los resultados de búsquedas de Google, ya que estos se basan en esos + vínculos entrantes. [Figure 8](#FIG049) le dice qué otros sitios + funcionan en la misma máquina. Es común que estafadores y la gente + que envía spam se trate de legitimar construyendo múltiples sitios + que se ensalzan y vinculan mutuamente. Parecen dominios + independientes e incluso pueden tener detalles de registro + diferentes, pero a menudo están en el mismo servidor porque eso es + mucho más barato. Estas estadísticas le dan una visión de la + estructura oculta del sitio que investiga. + +![El buscador Blekko Blekko.com)](figs/incoming/06-PP-01.png) + +![Comprender la popularidad en la red, ¿quién se vincula con quién? La otra pestaña útil es “Estadísticas de Navegación"), especialmente la sección “Co-huesped con”.(Blekko.com)](figs/incoming/06-PP-02.png) + +![Descubrir spammers y estafadores de la red (Blekko.com)](figs/incoming/06-PP-03.png) + + Compete.com + +: Al estudiar una muestra representativa de consumidores + estadounidenses, [Compete.com](http://ww.compete.com/) acumula + estadísticas de uso detalladas para la mayoría de los sitios y pone + a disposición gratuitamente algunos detalles básicos. Elija la + pestaña de Site Profile (Perfil de Sitio) e ingrese un dominio + ([Figure 9](#FIG0410)). Entonces verá un gráfico del tráfico del + sitio en el último año, junto con cifras de cuánta gente lo visitó y + con qué frecuencia (como en [Figure 10](#FIG0411)). Dado que se + basan en muestras los números son solo aproximados, pero yo los + encontré razonablemente precisos cuando pude compararlos con la + analítica interna. En particular, parecen ser una buena fuente para + comparar dos sitios, dado que aunque las cifras absolutas pueden ser + equivocadas para ambos, de todos modos es una buena representación + de su diferencia relativa en cuanto a popularidad. Pero solo + estudian a los consumidores estadounidenses, por lo que los datos + serán pobres para los sitios predominantemente internacionales. + +![El servicio de perfil de Compete (Compete.com)](figs/incoming/06-PP-04.png) + +![¿Qué está de moda? ¿De qué hay demanda?: Lugares calientes de la red (Compete.com)](figs/incoming/06-PP-05.png) + + El buscador de sitios (Site Search) de Google + +: Un recurso que puede ser extremadamente útil cuando trata de + explorar todo el contenido de un dominio particular es ingresar en + el buscador los términos “sitio”: palabra clave. Si agrega + “site:ejemplo.com” a su frase de búsqueda, Google solo presentará + resultados del sitio que ha especificado. Incluso puede afinar aún + más la búsqueda incluyendo el prefijo de las páginas que le + interesan, por ejemplo, “site: ejemplo.com/páginas/”, y solo verá + los resultados que responden a ese patrón. Esto puede ser + extremadamente útil cuando trata de encontrar información que los + dueños de dominios ofrecen públicamente pero que no desean difundir, + de modo que elegir las palabras claves correctas puede permitir + descubrir material muy revelador. + +#### Páginas, imágenes y videos en la red + +A veces lo que interesa es la actividad que rodea una historia +específica, en vez de un sitio entero. Las herramientas que se presentan +a continuación le dan distintos ángulos de cómo lee, responde, copia y +comparte contenido la gente en la red. + + Bit.ly + +: Siempre recurro a [bitly.com](http://bitly.com/) cuando quiero saber + cómo comparte la gente un vínculo particular. Para usarlo, ingrese + el URL que le interesa. Luego haga clic en el vínculo Info Page+. + Eso lo lleva a la página de estadísticas completas (aunque puede + tener que escoger el vínculo “aggregate bit.ly” primero si ha + ingresado en el servicio). Esto le dará una idea de la popularidad + de la página, incluyendo actividad en Facebook y Twitter y debajo de + eso verá conversaciones públicas respecto del vínculo provistas por + backtype.com. Esta combinación de datos de tráfico y conversaciones + me resulta muy útil cuando trato de comprender por qué un sitio o + página es popular y quiénes son sus fans. Por ejemplo me aportó + fuertes evidencias de que la opinión dominante respecto de la + relación de Sarah Palin con los delegados de base era equivocada. + + Twitter + +: Al ser el servicio de micro-blogging más usado, es útil parar ver en + qué medida la gente comparte y habla acerca de piezas de + contenido individuales. Es engañosamente simple descubrir + conversaciones públicas sobre un vínculo. Uno simplemente pega el + URL en el que está interesado en la ventana de búsqueda y luego + posiblemente hace clic en “más tweets” para ver todos + los resultados. + + Cache de Google + +: Cuando una página se vuelve polémica los editores la pueden bajar o + alterarla sin reconocerlo. Si cree que se está encontrando con este + problema, el primer lugar a ir es el cache de Google de la página + tal como era cuando hizo su último recorrido. La frecuencia de los + recorridos está aumentando constantemente, por lo que tendrá más + suerte si intenta esto dentro de las pocas horas posteriores a que + se produjeron los supuestos cambios. Ingrese el URL correspondiente + en la ventana de búsqueda de Google y luego haga clic en la flecha + triple, a la derecha del resultado para esa página. Debiera aparecer + una vista gráfica y si tiene suerte habrá un pequeño vínculo de + “Cache” arriba. Haga clic allí para ver la toma de Google de + la página. Si hay problemas para que cargue, puede cambiar a la + página más primitiva, solo de texto, haciendo clic en otro link + arriba de la página en cache completa. Usted tendrá que guardar la + imagen de la pantalla o copiar y pegar el contenido significativo + que encuentre, dado que puede quedar invalidado en cualquier momento + por nuevos cambios. + + La Wayback Machine (Máquina de Hace Tiempo) del Archivo de Internet + +: Si necesita saber cómo ha cambiado una página particular en un + período de tiempo más largo, como meses o años, el Archivo de + Internet tiene un servicio llamado [The Wayback + Machine](http://archive.org/web/web.php) que periódicamente hace + tomas de las páginas más populares de la red. Vaya al sitio, ingresa + el vínculo que quiere buscar y si hay copias, le mostrará un + calendario para el momento que quiere examinar. Entonces presentará + una versión de la página aproximadamente como era en aquel momento. + A menudo le faltará diseño o imágenes, pero por lo general basta + para entender cuál era el foco del contenido de la página en + ese momento. + + Ver el Código Fuente + +: Es algo un poco improbable, pero los diseñadores a menudo dejan + comentarios u otros indicios en el código HTML de cualquier página. + Estará en distintos menúes según el navegador que use, pero siempre + hay una opción de “view source” (ver código fuente), que le + permitirá recorrer el HTML en crudo. No necesita entender lo que + significan las partes solo legibles para la máquina, solo esté + atento a los tramos de texto que a menudo están desparramados en + medio del código. Aunque solo sean referencias de copyright o + menciones de los nombres del autor, estos a menudo pueden dar pistas + importantes acerca de la creación y el objetivo de la página. + + TinEye + +: A veces uno realmente quiere conocer el origen de una imagen, pero + sin un texto claro que lo indique no hay ninguna manera evidente de + hacerlo con motores de búsqueda tradicionales como Google. + [TinEye](http://www.tineye.com/) ofrece un proceso especializado de + “búsqueda inversa de imagen”, donde uno le da la imagen que tiene y + encuentra otras imágenes en la red que se ven muy similares. Debido + a que usa reconocimiento de imagen para hacer la búsqueda, funciona + incluso cuando una copia ha sido recortada, distorsionada + o comprimida. Esto puede ser extremadamente efectivo cuando usted + sospecha que una imagen que se presenta como original o nueva no lo + es, dado que puede reconducirlo a la verdadera fuente original. + + YouTube + +: Si hace clic en el ícono de estadísticas en el ángulo inferior + derecho de cualquier video, puede conseguir información valiosa + sobre su público a lo largo del tiempo. Si bien no es completa, es + útil para entender aproximadamente quienes son los espectadores, de + donde vienen y cuándo. + +#### Correo electrónico + +Si está investigando correos electrónicos, a menudo querrá conocer más +detalles sobre la identidad y ubicación del que los envió. No hay una +buena herramienta disponible para ayudar con esto, pero puede ser muy +útil conocer lo básico acerca de los encabezados ocultos incluidos en +todo mensaje de correo electrónico. Estos funcionan como indicadores +para el correo y pueden revelar mucho acerca del remitente. En +particular, a menudo incluyen la dirección IP de la máquina desde la que +fue enviado el correo, parecido a la identidad del que hace una llamada +telefónica. Puede entonces usar "whois" con ese número IP para saber qué +organización posee esa máquina. Si resulta ser alguien como Comcast o +AT&T que proveen conexiones a consumidores, entonces puede visitar +MaxMind para obtener su ubicación aproximada. + +Para ver estos encabezados en Gmail abra el mensaje y +\\[line-through\\]\\*abra\\*el menú junto a la respuesta arriba a la derecha +y elija “Mostrar original”. + +Entonces verá una nueva página que revela el contenido oculto. Al +comienzo habrá un par de docenas de líneas que son palabras seguidas por +una coma. La dirección IP que busca puede estar allí, pero el nombre +dependerá de cómo fue enviado el correo. Si se envió desde Hotmail, se +llamará `X-Originating-IP:`, pero si fue enviado desde Outlook o Yahoo +estará en la primera línea que comienza con `Received:`. + +Si investigo la dirección con Whois me dice que está asignado a Virgin +Media, un ISP del RU, por lo que uso el servicio de ubicación geográfica +de MaxMind para descubrir que viene de mi ciudad, Cambridge. Esto +significa que puedo estar razonablemente confiado de que se trata +efectivamente de un correo de mis padres y no de impostores. + +#### Tendencias + +Si está investigando un tema amplio en vez de un sitio o ítem +particular, estas son algunas herramientas que pueden ayudar: + + Wikipedia Article Traffic (Tráfico de Artículos de Wikipedia) + +: Si le interesa conocer cómo ha variado el interés del público sobre + un tema o persona a lo largo del tiempo, puede encontrar cifras de + vistas día por día para cualquiera página de Wikipedia en + [stats.grok.se](http://stats.grok.se/). Es un sitio un poco tosco, + pero le permitirá descubrir la información que necesita revolviendo + un poco. Ingrese el nombre que le interesa para tener una visión + mensual del tráfico en esa página. Eso le presentará un gráfico que + muestra cuántas veces fue vista la página cada día del mes que + usted especifique. Desgraciadamente solo se puede ver un mes por + vez, por lo que tendrá que seleccionar otro mes y volver a buscar, + para ver cambios en períodos más prolongados. + + Google Insights + +: Puede tener una clara visión de los hábitos de búsquedas del público + usando [Insights de Google](http://www.google.com/insights/search/) + ([Figure 11](#FIG0412)). Ingrese un par de frases de búsquedas + comunes, como “Justin Bieber vs Lady Gaga”, y verá un gráfico de sus + números relativos de búsquedas con el paso del tiempo. Hay muchas + opciones para refinar su vista de los datos, desde zonas geográficas + más reducidas hasta más detalle a medida que pasa el tiempo. Lo + único que falta son valores absolutos: solo verá porcentajes + relativos, lo que puede ser difícil de interpretar. + +![Google Insights (Google)](figs/incoming/06-PP-06.png) + +— *Pete Warden, analista de datos y diseñador independiente* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @311, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/obtener_datos_5.html' + ] + }, + GrafoscopioNode { + #header : 'Crowdsourcing en el Datablog de The Guardian', + #body : ' +"Crowdsourcing", [según Wikipedia](http://es.wikipedia.org/wiki/Crowdsourcing), +“consiste en externalizar tareas que, tradicionalmente, realizaba un empleado o +contratista, a un grupo numeroso de personas o una comunidad, a través +de una convocatoria abierta”. Lo que sigue está tomado de una entrevista +con Simon Rogers acerca de cómo el Datablog usó "crowdsourcing" para +cubrir el escándalo de los gastos de parlamentarios, el uso de drogas y +los papeles de Sarah Palin: + +A veces uno recibe una tonelada de archivos, estadísticas o informes que +es imposible que una persona pueda analizar. También puede conseguir +material que es inaccesible o está en un mal formato y no puede hacer +demasiado. Es en esto que puede ayudar el "crowdsourcing". + +Una cosa que tiene The Guardian es muchos lectores, muchos pares de +ojos. Si hay un proyecto interesante en el que necesitamos su ayuda, +entonces se lo pedimos. Es lo que hicimos con los +[Gastos de los parlamentarios](http://mps-expenses.guardian.co.uk/). +Teníamos 450.000 documentos y poco tiempo para hacer algo. +¿Entonces qué cosa mejor que repartir la tarea entre los lectores? + +![Una copia redactada de los gastos incidentales de Stephen Pound (The Guardian)](figs/incoming/04-EE.png){FIG0413} + +El proyecto de los gastos de los parlamentarios generó muchas pistas. +Tuvimos más historias que datos. El proyecto fue llamativamente exitoso +en términos de tráfico. A la gente realmente le gustó. + +Actualmente estamos +[haciendo algo con MixMag sobre el uso de drogas](http://bit.ly/guardian-drugs), +que también ha sido fenomenal. +Parece que va a ser más grande que la encuesta sobre crímenes en Gran +Bretaña en términos de la cantidad de gente que vuelve, lo que es +brillante. + +Lo que ambos proyectos tienen en común es que se refieren a temas que +realmente le importan a la gente, por lo que está dispuesta a dedicarles +su tiempo. Mucho del *crowdsourcing* que hemos hecho depende de la ayuda +de obsesivos. Con los gastos de los parlamentarios tuvimos una cantidad +masiva de tráfico al comienzo y luego bajó. Pero seguimos teniendo gente +que lee obsesivamente cada página buscando anomalías e historias. Una +persona ha leído 30.000 páginas. Saben muchas cosas. + +También usamos "crowdsourcing" con +[los papeles de Sarah Palin](http://bit.ly/guardian-palin-papers). +También en este caso fue de gran ayuda para estudiar la información en +crudo en busca de historias. + +En términos de generar historias el "crowdsourcing" ha funcionado muy +bien. A la gente realmente le gusta e hizo quedar bien a The Guardian. +Pero en términos de generar datos no hemos usado el "crowdsourcing" +tanto. + +Algunos de los proyectos de "crowdsourcing" que hemos hecho y que +funcionaron realmente bien, han sido encuestas a la antigua. Cuando uno +le pregunta a la gente acerca de su experiencia, su vida, lo que han +hecho, eso funciona muy bien porque la gente no tiende a inventar en +esos casos. Dice lo que siente. Cuando le pedimos a la gente que haga +nuestro trabajo por nosotros hay que encontrar una especie de marco para +que la gente produzca datos de un modo que resulten confiables. + +Respecto de la confiabilidad de los datos, creo que la postura de +[Old Weather](http://www.oldweather.org/) es realmente buena. Consiguen +que 10 personas hagan cada entrada, que es una buena manera de asegurarse +precisión. Con los gastos de los parlamentarios tratamos de minimizar el +riesgo de que los mismos parlamentarios se metieran online a editar sus +datos para quedar mejor. Pero no se puede estar permanentemente +cuidándose de esto. Sólo se puede estar atento a ciertos URL o si +provienen de la zona SW1 de Londres. Así que eso es un poco más difícil. +Los datos que sacábamos no eran siempre confiables. Aunque las historias +eran muy buenas, no producía números en crudo que pudiéramos usar con +certeza. + +Si tuviera que dar consejos a quienes aspiran a ser periodistas de datos +y que quieren usar el "crowdsourcing" para obtener datos, los alentaría +a hacerlo con algo que a la gente realmente le importa y que le seguirá +importando cuando deje de producir titulares de primera página. Además, +si uno puede crear algo que se parezca a un juego, eso puede ayudar +realmente a atraer a la gente. Cuando hicimos la historia de los gastos +por segunda vez, fue mucho más como un juego con tareas individuales +para que las hiciera la gente. Realmente fue de ayuda dar a la gente +tareas específicas. Eso fue importante porque creo que si uno solo le +presenta a la gente una montaña de información que tiene que ver y le +dice “mire esto”, puede resultar un trabajo duro y poco grato. Por lo +que creo que es realmente importante hacer que sea divertido. + +— *Marianne Bouchart, Data Journalism Blog, interviewing Simon Rogers, +the Guardian* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @311, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/obtener_datos_6.html' + ] + }, + GrafoscopioNode { + #header : 'Cómo el Datablog usó "crowdsourcing" para cubrir la venta de entradas para las Olimpíadas', + #body : 'Creo que el proyecto de *croudsourcing* que tuvo la mayor respuesta fue +un [trabajo sobre la subasta de entradas para las +Olimpíadas](http://bit.ly/guardian-olympics). Miles de personas en el RU +trataron de obtener entradas para la Olimpíada de 2012 y hubo mucha +indignación porque la gente no las recibió. La gente había hecho pedidos +por cientos de libras y se les dijo que no recibirían nada. Pero nadie +sabía si eran solo unas pocas personas las que se quejaban ruidosamente +mientras la mayoría estaba contenta. Por lo que intentamos encontrar una +manera de saberlo. + +Decidimos que lo mejor que podíamos hacer realmente, dado que no había +buenos datos sobre el tema, era preguntar a la gente. Y pensamos que +tendríamos que tratarlo como un tema no demasiado serio, porque no +teníamos una muestra representativa. + +Creamos un formulario en Google e +[hicimos preguntas muy específicas](http://bit.ly/guardian-olympics2). +En realidad era un cuestionario largo: preguntaba cuánto era el valor de las +entradas que habían pedido, cuánto habían debitado de sus tarjetas de crédito, +qué eventos querían ver, este tipo de cosas. + +![Figure 13. ¿Cuántas entradas Olímpicas consiguió?: los resultados de los lectores (The Guardian)](figs/incoming/04-FF.png){FIG0414} + +Lo pusimos como una pequeña imagen a la cabeza del sitio y se difundió +rápidamente. Creo que esta es una de las cosas claves; no se puede solo +pensar “¿Qué es lo que quiero saber para mi historia?”. Hay que pensar: +“¿Qué me quiere contar la gente ahora?” Y el "crowdsourcing" es exitoso +cuando uno descubre de qué quiere hablar la gente. El volumen de +respuestas para este proyecto, que es uno de nuestros primeros intentos +de "crowdsourcing", fue inmenso. Tuvimos 1.000 respuestas en menos de +una hora y 7.000 para el final del día. + +Por lo que obviamente, tomamos un poco más seriamente la presentación de +los resultados en este momento. Inicialmente no sabíamos cómo nos iba a +ir. Por lo que agregamos algunas consideraciones: los lectores del +Guardian pueden tener mayores ingresos que otra gente, la gente que +recibió menos de lo esperado podía estar más dispuesta a hablar con +nosotros, y así siguiendo. + +No sabíamos cuánto valor tendrían los resultados. Terminamos con unos +7.000 registros en los cuales basar nuestro trabajo, y descubrimos que +alrededor de la mitad de la gente que pidió entradas no recibió nada. +Presentamos todo esto y debido a que tanta gente había participado el +día anterior, hubo mucho interés en los resultados. + +Pocas semanas más tarde salió el informe oficial y nuestras cifras +resultaron llamativamente precisas. Eran casi exactas. Creo que en parte +fue por una cuestión de suerte, pero también porque logramos que +respondiera tanta gente. + +Si uno le pregunta a sus lectores sobre algo así y contestan en los +comentarios de la nota, estará limitado en lo que puede hacer con los +resultados. De modo que tiene que empezar por pensar: “¿Cuál es la mejor +herramienta para lo que quiero saber?” ¿Es un hilo de comentarios? ¿O +tengo que crear una aplicación? Y si es crear una aplicación, hay que +pensar: “¿Vale la pena la espera? ¿Y se justifican los recursos +requeridos para hacer esto?” + +En este caso pensamos en los Formularios Google. Si alguien llena el +formulario el resultado aparece como una fila en una hoja de cálculo. +Esto significa que aunque aún si se estuviera actualizando, aún si +siguieran entrando resultados, se podría abrir la hoja de cálculo y ver +todos los resultados. + +Pude haber tratado de hacer el trabajo en Google, pero lo descargué a +Microsoft Excel y luego ordené la información de menor a mayor; también +encontré las entradas en las que la gente para decir lo que gastó, había +escrito los números como palabras (en vez de colocar los dígitos), y +arreglé eso. Decidí excluir lo menos posible. De modo que en vez de solo +aceptar las respuestas válidas, traté de arreglar lo que tenía. Algunos +habían usado divisas extranjeras, así que las convertí a libras, todo lo +cual fue un poco trabajoso. + +Pero hice todo el análisis en pocas horas y eliminé las entradas +obviamente tontas. Mucha gente decidió decir que no había gastado nada +en entradas. Eso es un poco gracioso, pero está bien. Eran menos de cien +en más de 7.000 entradas. + +También hubo unas pocas docenas de personas que ingresaron cifras +demasiado elevadas para tratar de distorsionar los resultados. Cosas +como 10.000.000 de libras. Por lo que eso me dejó con un conjunto de +datos que podía usar con los principios normales que usamos todos los +días. Hice lo que se llama una “tabla dinámica” (pivot table). Hice +algunos porcentajes. Ese tipo de cosas. + +No teníamos idea del impacto que tendría el proyecto, de modo que +trabajé yo solo con el editor del blog de deportes. Juntamos cabezas y +pensamos que este podía ser un proyecto divertido. Lo hicimos, de +comienzo a fin, en 24 horas. Tuvimos la idea, a la hora del almuerzo +armamos algo, lo pusimos a la cabeza del sitio, vimos que resultaba +bastante popular, lo dejamos a la cabeza del sitio el resto del día y +presentamos los resultados online a la mañana siguiente. + +Decidimos usar Google Docs porque da completo control sobre los +resultados. No necesitaba usar las herramientas analíticas de otra +gente. Lo puedo trasladar fácilmente a un software de base de datos o a +hojas de cálculo. Cuando uno usa el software de consultas de +especialistas, a menudo se ve restringido a usar las herramientas de +ellos. Si hubiésemos estado pidiendo información muy delicada, quizás +hubiésemos dudado de usar Google y pensado en hacer algo “interno”. Pero +por lo general es muy fácil incorporar Google Forms a una página de The +Guardian y para el usuario es prácticamente invisible el hecho de que +estamos usando ese formulario. Por lo que es muy conveniente. + +En términos de consejos para periodistas de datos que quieren usar el +"crowdsourcing", hay que definir cosas muy específicas para consultar a +la gente. En lo posible, haga preguntas tipo “multiple choice” (elegir +entre opciones fijas). Trate de conseguir datos demográficos básicos de +a quién se dirige, de modo de ver si su muestra puede ser distorsionada. +Si está pidiendo cantidades y cosas por el estilo, trate de especificar +que requiere la información en dígitos, que tienen que usar una moneda +específica, y así. Muchos no lo harán, pero cuanto más los guíe en todo, +tanto mejor. Y siempre, siempre, agregue una ventana para comentarios +porque mucha gente llenará los otros campos pero lo que realmente quiere +es darle su opinión sobre el tema. Especialmente si se trata de algo que +tiene que ver con los consumidores o un escándalo. + +— *Marianne Bouchart, Data Journalism Blog, interviewing James Ball, the +Guardian* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @311, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/obtener_datos_7.html' + ] + }, + GrafoscopioNode { + #header : 'Usar y compartir datos: las reglas técnicas legales, la letra chica y la realidad', + #body : ' +En esta sección echaremos un rápido vistazo al estado de las leyes +relacionadas con datos y bases de datos, y lo que puede hacer para +ofrecer sus datos al público usando licencias comunes y herramientas +legales. No deje que nada de lo que sigue ahogue su entusiasmo por el +periodismo de datos. Las restricciones al manejo de datos por lo general +no serán una traba y fácilmente puede asegurarse de que no sean una +traba para otros que usen los datos que usted publica. + +Para decir lo obvio, obtener datos nunca fue más fácil. Antes de la +publicación generalizada de datos en la red, aunque uno hubiera +identificado un conjunto de datos que necesitaba, tenía que pedir a +quien tuviera una copia que se la pusiera a disposición, lo que +posiblemente involucrara el uso del correo o una visita personal. Ahora +uno hace que su computadora le pida a la computadora del otro que le +envíe una copia. Conceptualmente es algo similar, pero usted tiene una +copia de inmediato y el otro (el creador o editor) no ha hecho nada, y +probablemente no tenga idea de que usted descargó una copia. + +¿Y qué pasa cuando se trata de descargar datos con un programa (lo que a +veces se llama “scrapear”) y condiciones de uso del servicio (en inglés +Terms of Service o ToS)? Considere la frase anterior: su navegador es +justamente ese tipo de programa. Puede ser que el ToS solo permita +acceso con cierto tipo de programa. Si tiene tiempo y dinero ilimitados +para gastar en la lectura de tales documentos y quizás para pedir +asesoramiento a un abogado, hágalo sin dudar. Pero por lo general trate +de no ser un idiota: si su programa causa daño a un sitio, su red puede +ver bloqueado el acceso al sitio en cuestión y quizás usted se lo +merezca. Ahora hay mucha experiencia respecto de acceder y "scrapear" +datos en la red. Si piensa hacer esto, le será provechoso leer los +ejemplos que se dan en sitios como ScraperWiki. + +Una vez que tiene datos de interés, puede interrogar, desmenuzar, +ordenar, visualizar, correlacionar y realizar cualquier tipo de análisis +que guste con su copia de los datos. Puede publicar su análisis, citando +cualquier dato. La frase hecha “los datos son libres” (en el mismo +sentido que la palabra es libre) dice mucho, o quizás sea solo una frase +hecha de los que piensan demasiado en las cuestiones legales +relacionadas con las bases de datos o en sentido aún más amplio (y +retorcido) el aspecto legal del manejo de datos. + +¿Qué sucede si, siendo un periodista de datos bueno o que aspira a ser +bueno, tiene la intención de publicar no solo su análisis, incluyendo +algunos hechos o datos puntuales, sino también los conjuntos de +datos/bases de datos que usó –y a los que quizás incorporó más +información- al realizar su análisis? O quizás solo está curando datos y +no ha hecho ningún análisis (eso es bueno: el mundo necesita curadores +de datos). Si usted está usando datos recopilados por algún otro ente, +podría haber alguna complicación. (Si su base de datos ha sido armada +totalmente por usted, de todos modos lea el siguiente párrafo como +motivación para las prácticas de compartir información que aparecen en +el párrafo posterior). + +Si usted está familiarizado con el modo en que el copyright limita el +trabajo creativo –si el titular del copyright no ha dado permiso para +usar un trabajo (o el trabajo está en el dominio público o su uso puede +estar cubierto por excepciones y limitaciones tal como el uso leal) y +usted usa –distribuye, realiza, etc.- el trabajo de todos modos, el +titular del copyright podría obligarlo a interrumpirlo. Aunque los datos +son libres, los conjuntos de datos pueden ser restringidos de modo muy +similar, aunque hay más variaciones en las leyes relevantes que en el +caso del copyright aplicado a obras creativas. En síntesis, una base de +datos puede estar sujeta a copyright, como obra creativa. En muchas +jurisdicciones, por “el sudor de la frente”, simplemente armar una base +de datos, incluso de modo no creativo, hace que la base de datos esté +sujeta a copyright. En Estados Unidos en particular, tiende a exigirse +un mínimo mayor de creatividad para que haya derecho de autor (Feist v. +Rural, un caso sobre una guía telefónica, es el caso clásico +estadounidense si quiere buscarlo). Pero en algunas jurisdicciones +también hay “derechos de base de datos” que restringen el uso de bases +de datos, como cosa distinta al copyright (aunque hay mucha +superposición en términos de lo que está cubierto, en particular donde +los umbrales de creatividad para la existencia de copyright son +prácticamente inexistentes). Los más conocidos de estos son los derechos +de base de datos *sui generis* de la Unión Europea. De nuevo, +especialmente si se encuentra en Europa, quizás quiera asegurarse de que +tiene autorización antes de publicar una base de datos de otra entidad. + +Obviamente tales restricciones no son la mejor manera de promover un +ecosistema de periodismo basado en datos (tampoco es algo bueno para la +sociedad en general; científicos sociales y otros le dijeron a la UE que +no lo serían antes de la aparición de los derechos *sui generis*, y +estudios realizados desde su aparición han demostrado que tenían razón). +Afortunadamente como editor de una base de datos usted puede eliminar +tales restricciones para el uso de la base de datos (suponiendo que no +contiene elementos sobre los que usted no tiene autorización para +otorgar permiso), esencialmente otorgando permiso por adelantado. Puede +hacer esto publicando su base de datos bajo una licencia pública o una +dedicatoria al dominio público, del mismo modo que muchos programadores +difunden sus códigos bajo una licencia libre y de libre acceso, de modo +que otros puedan utilizar su código (dado que el periodismo basado en +datos a menudo involucra código, no solo datos, por supuesto que usted +debe autorizar el uso de su código también, de modo que su colección de +datos y su análisis sean reproducibles). Hay muchos motivos para dar +libre acceso a sus datos. Por ejemplo, su público podría crear nuevas +visualizaciones o aplicaciones con los mismos y con las que usted puede +crear un vínculo, como hace The Guardian con su grupo en Flickr de +visualización de datos. Sus conjuntos de datos pueden combinarse con +otros conjuntos de datos para que usted y sus lectores tengan una mejor +visión de un tema. Las cosas que hacen otros con sus datos pueden darle +pistas para nuevas historias, o ideas para historias, o ideas para otros +proyectos basados en datos. Y sin duda le dará prestigio. + +![Distintivos de datos abiertos (Open Knowledge Foundation)](figs/incoming/04-GG.jpg){FIG0415} + +Cuando uno advierte que difundir trabajos bajo licencias públicas es una +necesidad, la cuestión pasa a ser: ¿cuál licencia? Esa pregunta +complicada frecuentemente será respondida por el proyecto o la comunidad +en cuyo trabajo usted basa el suyo, o al que espera poder contribuir con +su trabajo: use la licencia que ellos usan. Si necesita investigar más a +fondo, empiece por el conjunto de licencias que son libres y abiertas, +es decir, que autorizan a cualquiera a darle cualquier uso (puede +requerirse tanto libertad de atribución como de compartir). La +[Definición de Conocimiento Abierto](http://opendefinition.org/) , en +español , significa +para todo otro conocimiento, incluyendo las bases de datos, lo mismo que +la Definición de Software Libre y la Definición de Código Libre +significan para el software: define lo que hace que una obra sea de +libre acceso y lo que las licencias de libre acceso permiten hacer a los +usuarios. + +Puede visitar el sitio de Open Knowledge Definition para ver el +[actual conjunto de licencias](http://opendefinition.org/licenses/), algunas +definiciones en español en +[Creative Commons](http://es.wikipedia.org/wiki/Licencias_Creative_Commons)). +En síntesis, básicamente hay 3 clases de licencias abiertas: + + Dominio Público + +: Estas también sirven como licencias de máxima permisividad; no hay + condiciones impuestas al uso de la obra. + + Licencias permisivas o sólo de atribución + +: Reconocer la autoría es la única condición sustancial de + estas licencias. + + Licencias copyleft, recíprocas o de compartir por igual + +: Estas también requieren que si se publican obras modificadas, sean + compartidas bajo la misma licencia. + +Si usted está usando un conjunto de datos publicados por otro bajo una +licencia abierta, considere el párrafo anterior como una breve guía +respecto de cómo debe cumplir las condiciones de esa licencia abierta. +Las licencias más comunes de Creative Commons, Open data Commons y +varios gobiernos por lo general van acompañadas de una síntesis que le +permitirá ver fácilmente cuáles son las condiciones sustanciales +requeridas. Comúnmente la licencia se presentará en una página de la red +de la que puede descargarse un conjunto de datos (o de donde pueden ser +"scrapeados", ya que, por supuestos, las páginas de la red pueden +contener conjuntos de datos) o en un lugar conspicuo dentro del conjunto +de datos mismos, según el formato. Esto es lo que usted debiera hacer +también cuando autoriza el acceso a sus conjuntos de datos. + +Volviendo al comienzo, ¿qué pasa si el conjunto de datos que necesita no +está disponibles online aún o hay algún tipo de control sobre los +mismos? Considere la posibilidad de pedir acceso no solo para usted, +sino que los datos se abran al uso de todo el mundo. Usted puede dar +algunas indicaciones de algunas de las grandes cosas que podrían suceder +con esos datos si así se hiciera. + +El tema de compartir datos con todo el mundo podría llevar a la cuestión +de que algunos conjuntos de datos pueden afectar derechos de privacidad +y otras consideraciones y regulaciones. Por cierto, el hecho de que el +carácter abierto de la información elimina muchas barreras técnicas y de +copyright,, o del tipo del copyright no significa que no haya que +cumplir otras leyes. Pero, en el caso de que su sentido común le indique +que existe la necesidad de investigar esa cuestión, tenga en cuenta que +esto siempre fue así y que hay tremendos recursos y en algunos casos +medidas de protección para periodistas. + +¡Buena suerte! Pero probablemente necesite la suerte mucho más para +otros aspectos de su proyecto que para enfrentar los (escasos) riesgos +legales. + +— *Mike Linksvayer, Creative Commons* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @311, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/obtener_datos_8.html' + ] + } + ], + #parent : @5, + #level : 1, + #nodesInPreorder : OrderedCollection [ + @305, + @308, + @319, + @323, + @327, + @331, + @335, + @339, + @343, + @347 + ], + #links : @317 + }, + @308, + @319, + @323, + @327, + @331, + @335, + @339, + @343, + @347, + GrafoscopioNode { + #header : 'Entender los datos', + #body : '![](figs/incoming/05-00-cover.png) + +Una vez que tiene sus datos, ¿qué hace con ellos? ¿Qué debe buscar? ¿Qué +herramientas debe usar? Esta sección comienza con algunas ideas acerca +de cómo mejorar su conocimiento del manejo de datos, consejos para +trabajar con cifras y estadísticas, y cosas a tener en cuenta cuando +trabaja con conjuntos de datos desordenados, imperfectos y a menudo poco +documentados. Podemos luego aprender a obtener historias de los datos, +cuáles son las herramientas preferidas de los periodistas de datos, y +cómo usar la visualización de datos para que ayude a entender el tópico +en cuestión. + +### Qué contiene este capítulo? + +- [Aprenda a manejar datos con 3 pasos + simples](entender_los_datos_0.html) +- [Consejos para trabajar con cifras en las + noticias](entender_los_datos_1.html) +- [Pasos básicos para trabajar con datos](entender_los_datos_2.html) +- [La pieza de pan de £ 32](entender_los_datos_3.html) +- [Empiece por los datos, termine con una + historia](entender_los_datos_4.html) +- [Historias basadas en datos](entender_los_datos_5.html) +- [Los periodistas de datos debaten sobre sus herramientas + preferidas](entender_los_datos_6.html) +- [Usar visualizaciones para descubrir cosas en los + datos](entender_los_datos_7.html) +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'Aprenda a manejar datos con 3 pasos simples', + #body : 'Así como la alfabetización refiere a “la capacidad de leer para conocer, +escribir de modo coherente y pensar críticamente acerca de material +impreso”, la alfabetización en materia de datos es la capacidad de +manejar datos para conocer, producir coherentemente y pensar +críticamente acerca de datos. La alfabetización en materia de datos +incluye la alfabetización estadística, pero también comprende cómo +trabajar con grandes conjuntos de datos, cómo fueron producidos, como +relacionar varios conjuntos de datos y como interpretarlos. + +![[Cavar en los datos](http://www.flickr.com/photos/jdhancock/3386035827/) (photo by JDHancock)](figs/incoming/05-MM.jpg) + +Poynter News University ofrece clases de [matemática para +periodistas](http://www.newsu.org/courses/math-journalists) que ayudan a +dominar conceptos tales como cambios porcentuales y promedios. Es +interesante que estos conceptos se enseñen simultáneamente cerca de las +oficinas de Poynter, en escuelas de Florida a estudiantes de quinto +grado (10-11 años), como lo atestigua [la currícula](http://bit.ly/k12-courses). + +Que los periodistas necesiten ayuda con temas matemáticos normalmente +vistos antes de la escuela secundaria muestra lo lejos que están las +redacciones de saber manejar datos. Esto es un problema. ¿Cómo puede una +periodista hacer uso de una cantidad de cifras sobre cambio climático si +no sabe lo que significa un intervalo de confianza? ¿Cómo puede un +periodista de datos escribir una historia sobre distribución del ingreso +si no sabe la [diferencia entre media y mediana](http://bit.ly/karenberger-mean-median)? + +Una periodista por cierto no necesita tener un título en estadística +para ser más eficiente en el manejo de los datos. Enfrentada a las +cifras, unos pocos trucos simples pueden ayudarla a armar una historia +mucho mejor. Como dice el profesor del Instituto Max Planck, Gerd +Gigerenzer, tener mejores herramientas no permitirá hacer mejor +periodismo si éstas no son utilizadas con visión. Aunque no tenga ningún +conocimiento de matemática o estadísticas, puede convertirse fácilmente +en una periodista de datos experimentada haciendo 3 preguntas muy +simples. + +#### 1. ¿Cómo se obtuvieron los datos? + +#### Sorprendente crecimiento del PBI + +La manera más fácil de darse aires con datos espectaculares es +fabricarlos. Suena obvio, pero datos tan comúnmente comentados como las +cifras del PBI bien pueden ser falsos. El ex embajador británico Craig +Murray informa en su libro, Asesinato en Samarcanda, que las tasas de +crecimiento en Uzbekistán están sujetas a intensas negociaciones entre +el gobierno local y entes internacionales. Dicho de otro modo, no tienen +nada que ver con la economía local. + +El PBI es usado como el principal indicador porque los gobiernos tienen +que controlar su principal fuente de ingresos: el IVA. Cuando un +gobierno no se financia con el IVA, o cuando no informa públicamente de +su presupuesto, no tiene motivos para recoger datos sobre el PBI y le +vendrá mejor inventarlos. + +#### El crimen siempre está en aumento + +“El crimen en España creció un 3%”, +[escribe El País](http://bit.ly/elpais-numeracy). +Bruselas es presa de un aumento del crimen de extranjeros ilegales y drogadictos, +[escribe RTL](http://bit.ly/rtl-numeracy). Este tipo de de informes basados en +estadísticas recogidas por la policía es común, pero no nos dice gran +cosa sobre la violencia. + +Podemos confiar en que dentro de la Unión Europea los datos no son +falsificados. Pero el personal policial responde a incentivos. Cuando el +desempeño está ligado a la tasa de esclarecimiento, por ejemplo, los +policías tienen un incentivo para informar lo más posible de incidentes +que no requieren investigación. Uno de tales crímenes es el de fumar +marihuana. Esto explica por qué los crímenes relacionados con las drogas +en Francia se multiplicaron por 4 en los últimos 15 años, mientras que +el consumo se mantuvo constante. + +#### Qué se puede hacer + +Cuando dude de la credibilidad de una cifra, verifíquela, tal como lo +haría si se tratara de una declaración de un político. En el caso +uzbeco, una llamada a alguien que haya vivido allí un tiempo basta (“¿Es +cierto que el país es 3 veces más rico que en 1995, como muestran las +cifras oficiales?”). + +Para los datos policiales, los sociólogos a menudo realizan estudios de +victmización, en los que preguntan a la gente si es víctima de crímenes. +Estos estudios son mucho menos volátiles que los datos policiales. +Quizás ese sea el motivo por el que no se los destaca en los medios. + +Otros tests permiten evaluar la credibilidad de los datos, tales como la +ley de Benford, pero ninguno de ellos suplanta su pensamiento crítico. + +#### 2. ¿Qué se puede aprender de ello? + +#### El riesgo de esclerosis múltiple aumenta al doble cuando se trabaja de noche + +Sin duda cualquier alemana que no esté loca dejaría de trabajar de noche +luego de [leer este titular](http://bit.ly/dmsg-numeracy). Pero el +artículo no nos dice cuál es el riesgo realmente. + +Tome 1000 alemanes. Solo uno tendrá EM. Si todos estos 1000 alemanes +trabajaran de noche, el número de pacientes de EM se iría a 2. El riesgo +adicional de tener EM trabajando de noche es 1 en 1000, no 100%. Sin +duda esta información es más útil al ponderar si aceptar un empleo. + +#### En promedio, 1 de cada 15 europeos es totalmente analfabeto + +Este titular asusta. Además es cierto. Entre los 500 millones de +europeos, 36 millones probablemente no saben leer. Agreguemos que 36 +millones también tienen menos de 7 años; +[datos de Eurostat](http://bit.ly/eurostat-numeracy). + +Cuando escriba sobre un promedio, siempre piense: ¿Un promedio de qué? +¿La población de referencia es homogénea? Los patrones de distribución +desigual explican por qué la mayoría de la gente maneja mejor que el +promedio, por ejemplo. Mucha gente tiene cero o solo un accidente en +toda su vida. Unos pocos conductores irresponsables tienen muchos, lo +que hace que el número promedio de accidentes sea mucho más elevado de +lo que es la experiencia de la mayoría de la gente. Lo mismo vale para +la distribución del ingreso: la mayoría de la gente gana menos que el +promedio. + +#### Qué puede hacer + +Siempre tome en cuenta la distribución y la tasa base. Verificar el +media y la mediana así como la moda (el valor más frecuente en la +distribución) le ayuda a interpretar los datos. Conocer el orden de +magnitud hace más fácil contextualizar, como en el ejemplo de EM. +Finalmente, informar en base a frecuencias naturales (1 de cada 100) es +mucho más fácil de entender para los lectores que usar porcentuales (1%). + +#### 3. ¿En qué medida es confiable la información? + +##### El problema del tamaño de la muestra + +“80% insatisfecho con el sistema judicial”, dice una encuesta de la que +se informa en [el Diario de Navarra](http://bit.ly/diariodenavarra) con +sede en Zaragoza. ¿Cómo se puede extrapolar de 800 encuestados a +46.000.000 de españoles? Sin duda esto es poco serio. + +Cuando se investiga una gran población (más de unos pocos miles) rara +vez se necesita más que un millar de encuestados para lograr un margen +de error de menos del 3%. Significa que si fuera a rehacer la encuesta +con una muestra totalmente distinta, 19 veces de 20 las respuestas que +recibiría estarían dentro del intervalo de 3 puntos porcentuales del +valor encontrado, comparado con lo que hubiera sucedido si entrevistaba +a todas las personas. + +##### Tomar té reduce el riesgo de infarto + +Los artículos acerca de los beneficios de tomar té son comunes. +[Este artículo](http://bit.ly/welt-tea) breve en Die Welt que dice que el té +reduce el riesgo de infarto del miocardio no es la excepción. Si bien +los efectos del té son estudiados seriamente por algunos, muchas piezas +de investigación no toman en cuenta factores de estilo de vida, tales +como dieta, ocupación, o deportes. + +En la mayoría de los países, el té es la bebida de las clases altas +preocupadas por la salud. Si los investigadores no toman en cuenta los +factores de estilo de vida en sus estudios sobre el té, no nos dicen más +que “los ricos son más sanos y probablemente toman té”. + +##### Lo que puede hacer + +La matemática que es la base de las correlaciones y los márgenes de +error en los estudios sobre el té es por cierto correcta, al menos la +mayoría de las veces. Pero si los investigadores no buscan correlaciones +(por ejemplo, tomar té se correlaciona con hacer deporte), sus +resultados son de escaso valor. Como periodista, tiene poco sentido +cuestionar los resultados numéricos de un estudio, tales como el tamaño +de la muestra, a menos que haya serias dudas al respecto. Sin embargo, +es fácil de ver si los investigadores no tomaron en cuenta elementos +relevantes de información. + +— *Nicolas Kayser-Bril, Journalism++* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : GrafoscopioNode { + #header : 'Entender los datos', + #body : Text { + #string : ' + + + + + + + + + Entender los datos - Manual de Periodismo de Datos + + + + + + + + + + + + + +
+
+
+
+
+ Manual de Periodismo de Datos + 1.0 + +
+ + + + + Reciba actualizaciones + + + Feedback + + + + Cargando + + + +
+ +
+
+
+
+
+
+ Inicio + + + Siguiente: Difundir datos + + +
+ + + + + + +
+
+

Entender los datos

+
+
+
+ + +

Una vez que tiene sus datos, ¿qué hace con ellos? ¿Qué debe buscar? +¿Qué herramientas debe usar? Esta sección comienza con algunas ideas acerca de +cómo mejorar su conocimiento del manejo de datos, +consejos para trabajar con cifras y estadísticas, +y cosas a tener en cuenta cuando trabaja con conjuntos de datos desordenados, +imperfectos y a menudo poco documentados. +Podemos luego aprender a obtener historias de los datos, +cuáles son las herramientas preferidas de los periodistas de datos, +y cómo usar la visualización de datos +para que ayude a entender el tópico en cuestión.

+ + + + + + +

Qué contiene este capítulo?

+ + + + + Home + + + Siguiente: Difundir datos + + +
+ + + + + +
+
+ +

+ El Manual de Periodismo de Datos puede ser copiado libremente, redistribuido y reusado bajo los términos de la licencia Creative Commons Atribución-CompartirIgual. Los contribuyentes al Manual del Periodimo de Datos retienen el copyright sobre sus contribuciones respectivas y están de acuerdo en publicarlas bajo los términos de esta licencia. +

+ + + + + + + +
+ + + + + + + + + + + +', + #runs : RunArray { + #runs : [ + 8364 + ], + #values : [ + [ ] + ], + #lastIndex : 1, + #lastRun : 1, + #lastOffset : 0 + } + }, + #tags : @353, + #children : @354, + #level : 1, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/entender_los_datos.html' + ] + }, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/entender_los_datos_0.html' + ] + }, + GrafoscopioNode { + #header : 'Consejos para trabajar con cifras en las noticias', + #body : '- El mejor consejo para manejar datos es que lo disfrute. Los datos + pueden parecer algo intimidantes. Pero si se deja intimidar no + llegará a nada. Trátelos como algo para jugar y explorar y a menudo + entregarán secretos e historias con sorprendente facilidad. De modo + que manéjelos de manera simple, como lo hace con otras evidencias, + sin temor ni parcialidad. En particular, piense en esto como un + ejercicio de su imaginación. Sea creativo pensando en las historias + alternativas que podrían ser coherentes con los datos y los explican + mejor, luego póngalas a prueba con más evidencias. “¿Qué otra + historia podría explicar esto?”, puede ser una buena pregunta para + pensar cómo esta cifra evidentemente grande o equivocada, esta clara + prueba de esto o aquello, podría no ser nada por el estilo. + +- No confunda el escepticismo respecto de los datos con cinismo. El + escepticismo es bueno; el cinismo simplemente es darse por vencido. + Si cree en el periodismo de datos (y probablemente es así o no + estaría leyendo este libro), entonces debe creer que los datos + tienen algo mucho mejor que ofrecer que las mentiras de caricatura o + los datos de titulares impactantes. Los datos a menudo nos dan + conocimiento profundo, si se los usa cuidadosamente. No necesitamos + ser cínicos ni ingenuos, sino estar alertas. + +- Si le digo que se bebe más durante la recesión, podría decirme que + se debe a que todos están deprimidos. Si le digo que se bebe menos, + podría decirme que es porque nadie tiene plata. Dicho de otro modo, + lo que digan los datos no incide en la interpretación que usted esté + decidido a hacer, a saber, que las cosas están muy mal no importa lo + que suceda con la bebida. Si aumenta, es malo; si se reduce, es + malo. La cuestión aquí es que si usted cree en los datos, trate de + dejar que hablen antes de imponerles su propio estado de ánimo, + creencias o expectativas. Hay tantos datos que a menudo podría + encontrar confirmación de sus creencias previas si busca un poco. + Dicho de otro modo, el periodismo de datos, al menos para mí, agrega + poco valor si usted no tiene la mente abierta. Es solo objetivo en + la medida que usted lo hace objetivo y no en virtud de que se basa + en números. + +- La incertidumbre no es problema. Asociamos las cifras con la + autoridad y la certidumbre. Muy a menudo la respuesta es que no hay + respuesta, o la respuesta es la mejor que tenemos pero no es para + nada precisa. Creo que debemos decir estas cosas. Si eso suena como + una buena manera de matar una historia, sostendría que es una gran + manera de generar nuevos interrogantes. Del mismo modo, a menudo + puede haber más de un modo legítimo de ordenar los datos. Los + números no tienen que ser ciertos o falsos. + +- La investigación es una historia. La historia de cómo intentó + descubrir algo, al avanzar de un elemento de evidencia a otro, puede + ser excelente periodismo y esto se aplica especialmente a la + evidencia de los datos, donde rara vez basta con una cifra. + Distintas fuentes dan nuevos ángulos de interpretación, nuevas ideas + y una comprensión enriquecida. Me pregunto si estamos demasiado + preocupados por ganar autoridad y darle la respuesta a la gente, + hasta el punto de que desaprovechamos un recurso, que es mostrar + nuestra investigación. +- Las mejores preguntas son las de siempre: ¿eso realmente es un + número grande? ¿De dónde salió? ¿Está seguro de que cuenta lo que + usted cree que cuenta? Estos por lo general son solo incentivos para + mirar lo que rodea a los datos, las cosas que quedaron de lado por + mirar un solo número, las complicaciones de la vida real, la amplia + gama de otras comparaciones posibles con relación al tiempo, el + grupo o la geografía; en síntesis, el contexto. + +— *Michael Blastland, freelance journalist* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @358, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/entender_los_datos_1.html' + ] + }, + GrafoscopioNode { + #header : 'Pasos básicos para trabajar con datos', + #body : 'Hay al menos 3 conceptos clave que tiene que entender cuando comience un +proyecto de datos: + +- Los pedidos de datos deben comenzar con una lista de preguntas que + quiere contestar +- Los datos a menudo vienen sucios y hay que limpiarlos +- Los datos pueden tener aspectos sin documentar + +![Figure 2. Datos desordenados](figs/incoming/05-MM.png) + +#### Sepa para qué preguntas quiere respuestas + +En muchos sentidos, trabajar con datos es como entrevistar una fuente en +vivo. Usted le hace preguntas a los datos y logra que revelen las +respuestas. Pero así como una fuente solo puede dar respuestas respecto +de las cuales tiene información, un conjunto de datos solo puede +responder preguntas para las que tiene los registros adecuados y las +variables correspondientes. Esto significa que usted debe considerar +cuidadosamente qué preguntas quiere responder antes de obtener datos. +Básicamente se trabaja hacia atrás. Primero, la lista de afirmaciones +basadas en datos que quieres presentar en su historia. Luego decida qué +variables y evidencias tendrá que obtener y analizar para hacer esas +afirmaciones. + +Considere un ejemplo que tiene que ver con los informes de crímenes +locales. Digamos que quiere escribir una historia que analice los +patrones del crimen en su ciudad, y las cosas que quiere decir tienen +que ver con la hora del día y los días de la semana en los que es más +común que se den ciertos tipos de crímenes, así como en qué zonas de la +ciudad se concentran varias categorías de crímenes. + +Tendría que advertir que su pedido de datos tiene que incluir la fecha y +el momento en que cada crimen fue informado, el tipo de crimen +(asesinato, robo, asalto, etc.), así como la dirección de donde se dio +el crimen. De modo que fecha, hora, categoría de crimen y dirección son +las variables mínimas que necesita para responder a esas preguntas. + +Pero sea consciente de que hay una cantidad de preguntas potencialmente +interesantes que este conjunto de datos de 4 variables no puede +responder, como la raza y el género de las víctimas, o el valor total de +la propiedad robada, o qué agentes son más productivos en cuanto a +lograr arrestos. Además quizás solo pueda conseguir los registros de +cierto período, como los últimos 3 años, lo que quiere decir que no +podría saber si los patrones del crimen han cambiado respecto de un +período más prolongado. Esas preguntas pueden quedar por fuera del plan +de su historia, y eso no es problema. Pero usted no querrá meterse en su +análisis de los datos y de pronto advertir que necesita saber qué +porcentaje de los crímenes en distintas zonas de la ciudad son resueltos +con arrestos. + +Una lección aquí es que a menudo es buena idea pedir todas las variables +y registros en la base de datos, en vez del subconjunto que respondería +a las preguntas para la historia inmediata. (de hecho, obtener todos los +datos puede ser más barato que obtener un subconjunto, si tiene que +pagar a la agencia por la programación necesaria para producir el +subconjunto.) Siempre puede armar el subconjunto de datos por su cuenta +y tener acceso al conjunto de datos completo le permitirá responder +nuevas preguntas que pueden surgir durante su trabajo e incluso producir +nuevas ideas para la continuación de la historia. Puede ser que las +leyes de confidencialidad u otras políticas signifiquen que algunas +variables, tales como las identidades de las víctimas o los nombres de +informantes confidenciales, no puedan difundirse. Pero incluso una base +de datos parcial es mejor que nada, siempre que usted entienda qué +preguntas puede o no contestar la base de datos. + +#### Limpiar datos no normalizados + +Uno de los mayores problemas en el trabajo con bases de datos es que a +menudo usará datos para análisis que han sido recogidos por motivos +burocráticos. El problema es que el nivel exigido de precisión es +bastante diferente. + +Por ejemplo, una función clave de un sistema de bases de datos para la +justicia penal es asegurarse que el acusado Jones sea traído de la +cárcel al juzgado para estar frente la juez Smith en el momento de su +audiencia. Para ese propósito no importa mucho si la fecha de nacimiento +de Jones es incorrecta, o que esté mal escrito el nombre de la calle en +la que vive o siquiera si la inicial de su segundo nombre sea +equivocada. En general el sistema aún puede usar este registro +imperfecto para llevar a Jones al juzgado de Smith a la hora indicada. + +Pero tales errores pueden complicar los esfuerzos del periodista por +descubrir patrones en la base de datos. Por ese motivo, la primera gran +tarea que debe encarar cuando obtiene un nuevo conjunto de datos es +examinar hasta donde tiene problemas y solucionarlos. Una manera rápida +de buscar datos no normalizados es crear tablas de frecuencias de las +variables por categoría, las que uno esperaría que tengan un número +relativamente pequeño de valores diferentes. (Cuando use Excel, por +ejemplo, usted puede usar Filtros o Tablas Dinámicas para cada variable +categórica.) + +Tomemos por caso “género”, un ejemplo simple. Usted puede descubrir que +el campo de Género incluye cualquier mezcla de valores como estos: +Masculino, Femenino, M, F, 1, 0, MASCULINO, FEMENINO, etc., incluyendo +errores de escritura como “Femeno”. Para hacer un análisis de género +adecuado debe estandarizar – quizás se decida por M y F- y luego cambiar +todas las variaciones para que coincidan con los estándares. Otra base +de datos común con este tipo de problemas es la de los registros +financieros de campañas electorales de Estados Unidos, donde en el campo +de Ocupación puede dar las distintas variantes de abogado en inglés +(Lawyer, Attorney, Atty, Counsel, Trial lawyer y muchas otras) además de +los errores de escritura; nuevamente el truco es estandarizar los +títulos de ocupación en una lista de posibilidades más corta. + +La limpieza de los datos se vuelve aún más problemática cuando se +trabaja con nombres. ¿“Joseph T. Smith”, “Joseph Smith”, “J.T. Smith”, +“Jos. Smith” y “Joe Smith” son todos la misma persona? Quizás haya que +mirar otras variables como dirección o fecha de nacimiento, o hacer una +investigación aún más profunda en otros registros, para decidir. Pero +herramientas como Google Refine pueden hacer que la limpieza y +estandarización sean más rápidas y menos tediosas. + +Datos sucios + +Gracias a las leyes de registro público por lo general fuertes en +Estados Unidos, obtener datos aquí no es un problema tan grande como en +muchos otros países. Pero una vez que los tenemos, aún quedan los +problemas de trabajar con datos que han sido recogidos por motivos +burocráticos y no con propósitos analíticos. Los datos a menudo vienen +“sucios”, con valores que no están estandarizados. Varias veces he +recibido datos que no se corresponden con el supuesto diagrama del +archivo y el diccionario de datos que los acompañan. Algunas entidades +insistirán en darle los datos en formatos poco útiles como .PDF, que +tienen que ser convertidos. Problemas como estos hacen que uno lo +aprecie cuando ocasionalmente recibe un conjunto de datos sin +complicaciones. + +— *Steve Doig, Walter Cronkite School of Journalism, Arizona State +University* + +#### Los datos pueden tener aspectos no documentados + +La Piedra de Roseta de cualquier base de datos es el llamado diccionario +de datos. Comúnmente, este archivo (puede ser texto PDF o incluso una +hoja de cálculo) le dirá cómo está formateado el archivo de los datos +(texto delimitado, texto de ancho fijo, Excel, dBase, etc.), el orden de +las variables, los nombres de cada variable y el tipo de datos de cada +variable (hilo de texto, entero, decimal, etc.). Usted usará esta +información para que lo ayude a importar adecuadamente el archivo de +datos al software de análisis que piensa usar (Excel, Access, SPSS, +Fusion Tables, distintas variantes de SQL, etc.) + +El otro elemento clave de un diccionario de datos es una explicación de +los códigos que puedan usar variables particulares. Por ejemplo, género +puede estar codificado de tal modo que “1=Masculino” y “0=Femenino”. Los +crímenes pueden estar codificados de acuerdo a los números estatutarios +de su jurisdicción para cada tipo de crimen. Los registros de +tratamientos hospitalarios pueden usar cualquiera de los cientos de +códigos de 5 dígitos existentes para el diagnóstico de las enfermedades +por las que está tratando a un paciente. Sin el diccionario de datos, +estos conjuntos de datos serían difíciles o incluso imposibles de +analizar adecuadamente. + +Pero incluso contando con un diccionario de datos puede haber problemas. +Un ejemplo de tales problemas es lo que le sucedió a periodistas del +Miami Herald en Florida hace algunos años, cuando estaban haciendo el +análisis de los variados castigos que distintos jueces estaban +imponiendo a gente arrestada por manejar ebria e intoxicada. Los +periodistas obtuvieron los registros de condenas del sistema judicial y +analizaron las cifras con las 3 variables distintas de castigos en el +diccionario de datos: cantidad de tiempo en prisión, cantidad de tiempo +detenido y cantidad de multa. Las cifras variaban bastante entre los +jueces, dando a los periodistas evidencias para una historia acerca de +que algunos jueces eran duros y otros más permisivos. + +Pero para todos los jueces, en alrededor del 1-2 por ciento de los casos +no había tiempo de prisión, ni de detención, ni multa. Por lo que el +cuadro que mostraba los patrones de condenas de cada juez incluía una +cantidad pequeña de casos como “Sin castigo”, casi como una nota al +margen. Cuando la historia y el cuadro se publicaron, los jueces +aullaron de indignación, diciendo que el Herald los acusaba de violar +una ley estatal que exige que cualquiera condenado por manejar borracho +sufra castigo. + +Por lo que los periodistas volvieron a la oficina del empleado de la +corte que les había dado el archivo de datos y le preguntaron qué era lo +que había causado el error. Se les dijo que los casos en cuestión +involucraban a acusados indigentes que eran arrestados por primera vez. +Normalmente se les hubiera impuesto una multa pero no tenían dinero. Por +lo que los jueces los condenaban a servicios comunitarios, tales como +limpiar la basura en los caminos. Resultó que la ley que requería el +castigo había sido aprobada después de que fuera creada la estructura de +la base de datos. Por lo que los empleados de la corte sabían que en los +datos los ceros en las 3 variables de prisión-detención-multa +significaban servicio comunitario. Sin embargo, esto no aparecía en el +diccionario de datos y por tanto el Herald tuvo que publicar la +correspondiente rectificación. + +La lección en este caso es que siempre hay que preguntar al ente que le +da los datos si hay elementos no documentados de los mismos, lo que +podría significar códigos nuevos que no están incluidos en el +diccionario de datos, cambios en el ordenamiento del archivo, o +cualquier otra cosa. Además examine siempre los resultados de su +análisis y pregúntese: “¿Esto tiene sentido?” Los periodistas del Herald +estaban armando el cuadro apurados por el plazo de entrega y estaban tan +concentrados en los niveles de castigo promedio de cada juez, que no +prestaron atención a los pocos casos que parecían no tener castigo. +Debieron haberse preguntado si tenía sentido que todos los jueces +aparentemente estuvieran violando la ley estatal, aunque más no fuera en +mínima medida. + +— *Steve Doig, Walter Cronkite School of Journalism, Arizona State +University* + +> Datos mezclados, ocultos y faltantes + +> Recuerdo una situación graciosa en la que tratamos de acceder a los +datos de Hungría sobre subsidios agropecuarios de la UE: estaban todos +allí, pero en un documento PDF excesivamente pesado y mezclado con datos +sobre subsidios agropecuarios nacionales. Nuestros programadores +tuvieron que trabajar horas antes de que los datos pudieran ser +utilizados. + +> También tuvimos una experiencia bastante interesante con datos sobre +subsidios de pesca de la UE, que los entes nacionales encargados de los +pagos de los 27 estados miembros están obligados a dar a conocer. Esto +está tomado de un informe que escribimos [sobre el +tema](http://bit.ly/alfter-eu27): “En el Reino Unido, por ejemplo, el +formato de los datos varía de páginas de búsqueda HTML muy fáciles de +usar hasta resúmenes en PDF o incluso listas de receptores en formatos +variados disimulados al final de declaraciones de prensa. Todo esto de +un solo estado miembro. Mientras tanto, en Alemania y Bulgaria se +publican listas vacías. Tienen los encabezados apropiados, pero sin +datos”. + +> — *Brigitte Alfter, Journalismfund.eu* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @358, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/entender_los_datos_2.html' + ] + }, + GrafoscopioNode { + #header : 'La pieza de pan de £ 32', + #body : 'Una historia para el Wales On Sunday acerca de cuánto gasta el gobierno +galés en órdenes para productos libre de gluten contenía un titular que +indicaba que pagaba £32 por una pieza de pan. Pero en realidad eran 11 +piezas que costaban £2,82 cada una. + +Los datos, tomados de una respuesta por escrito de la Legislatura Galesa +y un informe estadístico del Servicio de Salud de Gales, estaban +presentados con el formato del costo por cada ítem de las órdenes. Sin +embargo en el diccionario de datos no daban ninguna definición adicional +de lo que podría ser un ítem de orden o cómo podría definirlo una +columna de cantidades por separado. + +La suposición era que se refería a un ítem individual –es decir, una +pieza de pan- en vez de lo que era en realidad, varias piezas. + +Nadie, ni la gente que dio la respuesta por escrito ni la oficina de +prensa, plantearon la cuestión de la cantidad hasta el lunes posterior a +la publicación de la historia. + +Por lo que no debe dar por supuesto que las notas de soporte de los +datos oficiales ayudarán a explicar qué información se presenta, o que +la gente responsable de los datos advertirá que la información no es +clara, incluso cuando usted les presente una suposición equivocada. + +Por lo general los diarios quieren cosas que produzcan buenos titulares, +de modo que, a menos que algo contradiga evidentemente una +interpretación, por lo general es más fácil aceptar lo que permite hacer +un buen titular y no investigar demasiado, con el riesgo de que se hunda +la historia, especialmente a la hora del cierre. + +![Las órdenes de pan libre de gluten le cuestan a los contribuyentes (WalesOnline)](figs/incoming/05-AA.png) + +Pero los periodistas tienen la responsabilidad de verificar las +afirmaciones ridículas, aunque signifique que esto hace caer la noticia. + +— *Claire Miller, WalesOnline* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @358, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/entender_los_datos_3.html' + ] + }, + GrafoscopioNode { + #header : 'Empiece por los datos, termine con una historia', + #body : 'Para atraer a sus lectores tiene que poder darles una cifra en los +titulares que los haga prestar atención. Casi se debiera poder leer la +historia sin tener que saber que se basa en un conjunto de datos. Hágala +interesante y recuerde quién es su público. + +Un ejemplo de esto puede encontrarse en un proyecto del Bureau of +Investigative Journalism que utiliza el [Sistema de Transparencia +Financiera](http://bit.ly/ec-fts) de la Comisión de la UE. La historia +se construyó con el conjunto de datos teniendo en mente interrogantes +específicos. + +Investigamos en los datos con términos clave tales como “coctel”, “golf” +y “días de descanso”. Esto nos permitió establecer lo que la Comisión +había gastado en estos ítems y esto planteó numerosas preguntas e +historias para seguir. + +Pero los términos clave no siempre le dan lo que quiere; a veces tiene +que tomarse un respiro y pensar qué es realmente lo que busca. Durante +este proyecto también queríamos descubrir cuánto gastan los comisionados +en viajes en jet privado pero como el conjunto de datos no contenía la +frase “jet privado” tuvimos que obtener el nombre de sus proveedores de +viajes por otros medios. Una vez que tuvimos el nombre del proveedor de +servicios de la Comisión, “Abelag”, pudimos buscar en los datos cuánto +se estaba gastando en servicios provistos por Abelag. + +Con este enfoque teníamos un objetivo claramente definido para +investigar con los datos: encontrar una cifra que pudiera proveer un +titular; el colorido de la noticia siguió a ello. + +Otro enfoque es comenzar con una lista negra y buscar exclusiones. ¿Una +manera fácil de encontrar historias en los datos es saber qué cosas no +debiera encontrar allí! Un buen ejemplo de cómo esto puede funcionar es +ilustrado por el proyecto en colaboración de Fondos Estructurales de la +UE, entre el Financial Times y el Bureau of Investigative Journalism. + +Investigamos los datos basándonos en las reglas de la Comisión respecto +de qué compañías y asociaciones no deben recibir fondos estructurales. +Un ejemplo era el gasto en tabaco y productores de tabaco. + +Investigando los datos con los nombres de las compañías, productores y +cultivadores de tabaco, encontramos datos que revelaron que British +American Tabaco estaba recibiendo € 1.500.000 para una planta en +Alemania. + +Dado que esa financiación violaba las normas de gastos de la Comisión, +fue una manera rápida de encontrar una historia en los datos. + +Nunca se sabe lo que uno puede encontrar en un conjunto de datos, así +que eche una mirada. Hay que ser bastante audaz y este enfoque funciona +mejor por lo general cuando se trata de identificar características +evidentes que se verán con el filtrado (los mayores, los extremos, los +más comunes, etc.). + +— *Caelainn Barr, Citywire* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @358, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/entender_los_datos_4.html' + ] + }, + GrafoscopioNode { + #header : 'Historias basadas en datos', + #body : 'El periodismo de datos a veces puede dar la impresión que principalmente +se trata de la presentación de los datos, tales como visualizaciones que +son instrumentos poderosos que permiten comprender rápidamente algún +aspecto de las cifras, o bases de datos interactivas que permiten a los +individuos buscar lugares como su propia calle o un hospital. Todo esto +puede ser muy valioso, pero al igual que otras formas de periodismo, el +periodismo de datos también debe ser sobre historias. ¿Qué tipos de +historias pueden encontrarse en los datos? Basándome en mi experiencia +en la BBC he armado una lista o “tipología” de distintos tipos de +historias basadas en datos. + +Creo que es útil tener en cuenta esta lista, no solo cuando analiza +datos, sino también en la fase previa, cuando los está buscando (sean +datos a disposición del público o los que exigen presentar pedidos de +acceso a la información). + + Medición + +: La historia simple; contar o hacer el total: “Los consejos + municipales de todo el país gastaron un total de \\$x miles de + millones en broches de papel el año pasado”. Pero a menudo es + difícil saber si eso es mucho o poco. Para eso se necesita contexto, + lo que puede ser aportado por: + + Proporción + +: “El año pasado los consejos municipales gastaron 2/3 de su + presupuesto de librería en broches de papel” + + Comparación interna + +: “Los consejos municipales gastan más en broches para papel que en + proveer comidas para personas mayores”. + + Comparación externa + +: “El gasto de los consejos en broches de papel el año pasado fue el + doble del presupuesto de la nación de ayuda a otros países”. + +También hay otras maneras de explorar los datos de un modo contextual o +comparativo: + + Cambio a lo largo del tiempo + +: “El gasto de los consejos en broches para papel se ha triplicado en + los últimos 4 años”. + + “Tablas comparativas” + +: Estas a menudo son geográficas o por institución, y debe asegurarse + de que la base de comparación sea justa (por ejemplo, que tome en + cuenta el tamaño de la población local). “El Consejo de Borsetshire + gasta más en broches para papel por cada miembro del personal que + cualquier otra municipalidad, con una tasa de 4 veces el promedio + nacional”. + +O puede dividir los temas de los datos en grupos: + + Análisis por categorías + +: “Los consejos dirigidos por el Partido Violeta gastan 50% más en + broches de papel que los controlados por el Partido Amarillo”. + +O puede relacionar los factores numéricamente: + + Asociación + +: “Los consejos dirigidos por políticos que han recibido aportes de + campaña de compañías de productos de librería gastan más en broches + de papel, con el gasto aumentando en promedio £ 100 por cada libra + aportada en la campaña”. + +Pero, por supuesto, recuerde que correlación y causa no son la misma +cosa. + +De modo que si está investigando el gasto en broches de papel, ¿está +obteniendo también las siguientes cifras? + +- Gasto total para dar contexto +- Referencias geográficas/ históricas/de otro tipo para poder dar + datos comparativos +- Los datos adicionales que necesita para asegurarse de que las + comparaciones son justas, tales como el tamaño de la población. +- Otros datos que podrían facilitar un análisis interesante o con los + cuales comparar o relacionar el gasto. + +— *Martin Rosenbaum, BBC* + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @358, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/entender_los_datos_5.html' + ] + }, + GrafoscopioNode { + #header : 'Los periodistas de datos debaten sobre sus herramientas preferidas', + #body : 'Sssssss. Es el sonido de sus datos descomprimiéndose al abrirse su +envoltorio al vacío. ¿Y ahora qué? ¿Qué busca? ¿Y qué herramientas usa? +Pedimos a periodistas de datos que nos contaran un poco de cómo trabajan +con datos. Esto es lo que nos dijeron: + +En el Datablog de The Guardian nos gusta interactuar con nuestros +lectores y permitirles replicar nuestro periodismo de datos rápidamente +significa que pueden desarrollar el trabajo que hacemos y a veces ver +cosas que se nos pasaron. Por lo que cuanto más intuitivas son las +herramientas de datos mejor. Tratamos de elegir herramientas que +cualquiera pueda manejar sin tener que aprender un lenguaje de +programación o que requieran fuerte capacitación a un costo elevado. + +Por este motivo actualmente usamos mucho productos de Google. Todos los +conjuntos de datos que ordenamos y difundimos aparecen como Google +Fusion Tables, lo que significa que gente que tenga una cuenta de Google +puede descargar los datos, importarlos a su propia cuenta y hacer sus +propios cuadros, ordenar los datos y crear tablas comparativas, o pueden +importar los datos a la herramienta que prefieran. + +Para mapear los datos usamosa Google Fusion Tables. Cuando creamos mapas +de calor en Fusion, compartimos nuestros archivos KML de modo que los +lectores puedan descargar y crear sus propios mapas de calor –quizás +agregando más capas de datos al mapa original del Datablog. El otro +aspecto positivo de estas herramientas de Google es que funcionan con +las muchas plataformas que usan nuestros lectores para acceder al blog, +incluyendo PC, celulares y tabletas. + +Además de las de Google Spreadsheets y Google Fusion Tables, usamos +otras dos herramientas en nuestro trabajo cotidiano. La primera es +Tableau, para visualizar conjuntos de datos multidimensionales; y la +segunda es ManyEyes, para un análisis rápido de datos. Ninguna de estas +herramientas es perfecta, por lo que seguimos buscando mejores +herramientas de visualización que nuestros lectores puedan disfrutar. + +*The Guardian*\\ +— Lisa Evans + +¿Llegaré a ser programador alguna vez? ¡Es muy improbable! Por cierto +que no creo que todos los periodistas tengan que saber programar. Pero +sí creo que es muy valioso que todos tengan una conciencia general de +qué cosas son posibles y cómo hablar con programadores. + +Si está recién comenzando, camine, no corra. Tiene que persuadir a sus +colegas y editores que trabajar con datos le puede permitir conseguir +historias que de otro modo no tendría y que valen la pena. Cuando +adviertan el valor de este enfoque, puede comenzar a hacer historias y +proyectos más complejos. + +Mi consejo es aprender Excel y hacer algunas historias simples primero. +Comience por cosas pequeñas y vaya recorriendo el camino hasta el +análisis y mapeo de bases de datos. Se puede hacer tanto en Excel; es +una herramienta extremadamente poderosa y la mayoría de la gente no usa +siquiera una mínima parte de su funcionalidad. Si puede haga un curso de +Excel para periodistas, tales como los que ofrece el Centre for +Investigative Journalism. + +Con respecto a interpretar datos: no lo tome a la ligera. Tiene que ser +detallista. Preste atención a los detalles y cuestione sus resultados. +Tome notas de cómo procesa los datos y guarde una copia de los datos +originales. Es fácil cometer un error. Siempre hago mi análisis 2 o 3 +veces prácticamente desde cero. Incluso mejor sería conseguir que su +editor u otra persona analice los datos por su cuenta y compare los +resultados. + +*Financial Times*\\ +— Cynthia O\'Murchu + +La capacidad de escribir, instalar y ejecutar software complejo tan +rápido como un periodista puede escribir una historia es algo bastante +nuevo. Antes llevaba mucho más tiempo. Las cosas cambiaron gracias al +desarrollo de bases de desarrollo rápido de código abierto: Django y +Ruby on Rails; ambos se conocieron a mediados de la década del 2000. + +Django, que está construido sobre el lenguaje de programación Python, +fue desarrollado por Adrian Holovaty y un equipo que trabajaba en una +redacción, el Lawrence Journal-World en Lawrence, Kansas. Ruby on Rails +fue desarrollado en Chicago por David Heinemeier Hansson y 37Signals, +una compañía de aplicaciones para la red. + +Si bien estas plataformas tienen enfoques diferentes del “patrón MVC”, +ambas son excelentes y hacen posible crear aplicaciones para la red +rápidamente, incluso muy complejas. Eliminan parte del trabajo +rudimentario en la creación de una aplicación. Cosas como crear y buscar +ítems de la base de datos, y hacer corresponder URL con códigos +específicos en una aplicación, están incorporados a esas plataformas, +por lo que los diseñadores no necesitan escribir programas o hacer cosas +básicas como esas. + +El desarrollo de servicios de provisión de espacio en servidores rápidos +de la red como los Amazon Web Services eliminaron parte de lo que hacía +del lanzamiento de una aplicación un proceso lento. + +Aparte de eso, usamos herramientas bastante estándar para el trabajo con +datos: Google Refine y Microsoft Excel para limpiar los datos; SPSS y R +para hacer estadísticas; ArcGIS y QGIS para hacer GIS; Git para el +manejo de códigos fuente; TextMate, Vim y Sublime Text para escribir +código; y una mezcla de MySql, PostgreSQL y SQL Server para bases de +datos. Creamos nuestra propia plataforma de JavaScript llamada “Glass” +que nos ayuda a crear aplicaciones para usuarios pesadas en JavaScript +muy rápidamente. + +*ProPublica*\\ +— Scott Klein + +A veces la mejor herramienta es la más simple, es fácil subestimar el +poder de una planilla de cálculo. Pero usar una planilla de cálculo en +los tiempos en que todo funcionaba con DOS me permitió entender una +fórmula compleja del acuerdo de asociación de los dueños de los Texas +Rangers, cuando George W. Bush era uno de los propietarios claves. Una +planilla de cálculo me permite descubrir datos importantes o errores en +cálculos. Puedo escribir líneas de código en algún lenguaje de +programación (script) para limpieza, normalización y más. Es un elemento +básico del set de herramientas del periodista de datos. + +Dicho eso, mis herramientas favoritas son aún más poderosas: SPSS para +análisis estadístico y mapear programas que me permiten ver patrones +geográficos. + +*The Seattle Times*\\ +— Cheryl Phillips + +Soy fanático de Python. Es un lenguaje de programación de código abierto +maravilloso que es fácil de leer y escribir (por ejemplo, no hay que +escribir un punto y coma después de cada línea). Lo que es más +importante, Python tiene una base tremenda de usuarios y por tanto tiene +plugins (llamados paquetes) para todo lo que uno necesite. + +Considero que Django es algo que los periodistas de datos rara vez +necesitan. Es una plataforma basada en Python para aplicaciones en la +red, es decir una herramienta para crear aplicaciones grandes en la red +con bases de datos. Decididamente es demasiado pesado para infografías +interactivas pequeñas. + +También uso QGis, que es una herramienta de código abierto con una gran +variedad de funciones GIS, que son necesarias para periodistas de datos +que de vez en cuanto tienen que manejar datos geográficos. Si necesita +convertir datos geo-espaciales de un formato a otro, entonces QGis es lo +que necesita. Puede manejar casi cualquier formato de geo-datos que +exista (Shapefiles, KML, GeoJSON, etc.). Si necesita recortar unas +cuantas regiones, QGis también puede hacerlo. Además hay una inmensa +comunidad en torno de QGis, por lo que hay toneladas de recursos [como +tutoriales](http://bit.ly/goettingen-tutorial) en la red. + +R fue creada principalmente como herramienta de visualización +científica. Es difícil encontrar un método de visualización o técnica de +manejo de datos que no esté incorporado a R. R es un universo en sí +mismo, la meca del análisis visual de datos. Una contra es que hay que +aprender otro lenguaje de programación, ya que R tiene su propio +lenguaje. Pero una vez que superó los primeros pasos en la curva de +aprendizaje, no hay herramienta más poderosa que R. Los periodistas de +datos capacitados pueden usar R para analizar conjuntos de datos +inmensos que extienden los limites de Excel (por ejemplo, si tiene una +tabla con un millón de filas). + +Lo realmente lindo de R es que se puede tener un “protocolo” exacto de +lo que está haciendo con los datos durante todo el proceso, desde la +lectura de un archivo CSV a generar cuadros. Si los datos cambian puede +regenerar el cuadro usando un clic. Si alguien tiene curiosidad respecto +de la integridad de su cuadro, puede mostrarle la fuente exacta, lo que +permite a cualquiera recrear el mismo cuadro por su cuenta (o quizás +encontrar los errores que usted cometió). + +NumPy + MatPlotLIb es una manera de hacer lo mismo en Python. Es una +opción si ya está capacitado en Python. De hecho, NumPy y MatPlotLIb son +dos ejemplos de paquetes de Python. Pueden ser usados para análisis y +visualización de datos y los dos se limitan a visualizaciones estáticas. +No pueden usarse para crear cuadros interactivos con consejos sobre el +manejo de herramientas y cosas más avanzadas. + +Yo no uso MapBox, pero supe que es una gran herramienta si se quiere +presentar mapas más sofisticados basados en OpenStreetMap. Permite por +ejemplo adecuar los estilos del mapa (colores, etiquetas, etc.). También +hay un acompañante de MapBox, llamado Leaflet. Es básicamente una +biblioteca de JavaScript de más alto nivel para mapear que le permite +pasar de un proveedor de mapas a otro fácilmente (OSM, MapBox, Google +Maps, Bing, etc.). + +RaphaelJS es una biblioteca de visualización más bien de bajo nivel que +le permite trabajar con elementos primitivos (como círculos, líneas, +texto) y animarlos, agregar interacciones, etc. No contiene nada +parecido a un cuadro de barras listo para usar, por lo que usted mismo +tiene que dibujar un conjunto de rectángulos. + +Sin embargo, lo bueno de Raphael es que todo lo que crea funciona +también en Internet Explorer. Eso no sucede con muchas otras bibliotecas +de visualización (asombrosas) como D3. Lamentablemente, tantos usuarios +siguen usando IE y ninguna redacción puede darse le lujo de ignorar al +30% de sus usuarios. + +Además de RaphaelJS, también está la opción de crear una alternativa en +Flash para IE. Es básicamente lo que está haciendo el New York Times. +Eso significa que tiene que desarrollar cada aplicación dos veces. + +Aún no estoy convencido de cuál es el “mejor” proceso para crear +visualizaciones para IE y navegadores modernos. A menudo resulta que las +aplicaciones creadas con RapahelJS funcionan muy lentas en IE, alrededor +de 10 veces más lentas que con Flash usando navegadores modernos. Por lo +que las alternativas en Flash pueden ser mejor opción si quiere ofrecer +visualizaciones animadas de alta calidad para todos los usuarios. + +*Open Knowledge Foundation*\\ +— Gregor Aisch + +Mi herramienta preferida es Excel, que puede manejar la mayoría de los +problemas CAR (periodismo asistido por computadoras) y tiene las +ventajas de ser fácil de aprender y estar disponible para la mayoría de +los periodistas. Cuando necesito fusionar tablas, comúnmente uso Access, +pero luego exporto la tabla fusionada de nuevo a Excel para más trabajo. +Uso el ArcMap de ESRI para análisis geográficos; es poderoso y es +utilizado por las agencias que recopilan datos geo-codificados. +TextWrangler es muy bueno para examinar datos de texto con diseños y +delimitadores complicados, y puede hacer búsqueda y reemplazo +sofisticada con expresiones regulares. Cuando se necesita técnicas +estadística, como regresión lineal, uso SPSS; tiene un menú para señalar +y cliquear fácil de usar. Para trabajos realmente pesados, como las +tareas con conjuntos de datos que tienen millones de registros que +necesitan un importante filtrado y transformaciones de variables +programadas, uso software SAS. + +*Walter Cronkite School of Journalism*\\ +— Steve Doig + +Entre nuestras herramientas preferidas se incluyen Python y Django para +hackear, scrapear y jugar con datos; y PostGIS, QGIS y las herramientas +de MapBow para crear mapas locos en la red. R y MumPy + MatPlotLib +actualmente disputan la supremacía como nuestro equipo de trabajo para +análisis de datos exploratorio, aunque últimamente nuestra herramienta +de datos preferida es de nuestra propia cosecha: CSVKit. Hacemos casi +todo en la nube. + +*Chicago Tribune*\\ +— Brian Boyer + +En La Nación usamos: + +- Excel para limpiar, organizar y analizar datos, +- Google Spreadsheets para edición y conexión con servicios tales como + Google Fusion Tables y la Junar Open Data Platform, +- Junar para compartir nuestros datos e incrustarlos en nuestros + artículos y actualizaciones del blog, +- Tableau Public para nuestras visualizaciones de datos interactivas, +- Qlikview, una herramienta de inteligencia para empresas muy rápida + para analizar y filtrar conjuntos de datos grandes, +- NitroPDF para convertir PDF a archivos de texto y Excel, +- Google Fusion Tables para visualizaciones de mapas. + +*La Nacion (Argentina)*\\ +— Angélica Peralta Ramos + +Como comunidad de base sin preferencias técnicas, en Transparency +Hackers usamos muchas herramientas y lenguajes de programación +diferentes. Cada miembro tiene su propio conjunto de preferencias y esta +gran variedad es al mismo tiempo nuestro punto fuerte y nuestra +debilidad. Algunos estamos construyendo una “Versión de Linux para +Hackers de Transparencia”, que podamos iniciar en cualquier parte para +hackear datos. Este recurso tiene algunas herramientas y bibliotecas +interesantes para manejar datos como Refine, RStudio y OpenOffice Calc +(por lo general una herramienta poco usada por la gente que conoce del +tema, pero realmente útil para cosas rápidas/pequeñas). También hemos +estado usando ScraperWiki mucho para hacer prototipos rápidamente y +guardar resultados de datos online. + +Hay muchas herramientas que nos gustan para visualizaciones de datos y +gráficos. Python y NumPy son bastante poderosas. Alguna gente de la +comunidad ha estado jugando con R, pero en definitiva las bibliotecas +para ploteado de gráficos, como D3, Flot, y RaphaelJS es lo que se +termina usando en la mayoría de nuestros proyectos. Finalmente, hemos +estado experimentando mucho con mapeado, y Tilemill ha sido una +herramienta muy interesante para este trabajo. + +*Transparência Hacker*\\ +— Pedro Markun +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @358, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/entender_los_datos_6.html' + ] + }, + GrafoscopioNode { + #header : 'Usar visualizaciones para descubrir cosas en los datos', + #body : 'La visualización es crítica para el análisis de datos. Aporta una +primera línea de ataque, revelando estructuras intrincadas en datos que +no pueden ser absorbidas de otro modo. Descubrimos efectos inimaginados +y cuestionamos aquellos que han sido imaginados. + +*Hobart Press*\\\\ — William S. Cleveland (de Visualizing Data + +Los datos por sí mismos, que consisten de bits y bytes almacenados en un +archivo en el disco rígido de una computadora, son invisibles. Para +poder verlos y encontrarles sentido, necesitamos visualizarlos. En esta +sección voy a usar el término visualizar en un sentido más amplio, que +incluye incluso representaciones textuales puras de datos. Por ejemplo, +simplemente cargar un conjunto de datos en un software de planilla de +cálculo puede considerarse una visualización de datos. Los datos +invisibles de pronto se convierten en una “imagen” visible en nuestra +pantalla. Por tanto, la pregunta no debe ser si los periodistas +necesitan visualizar los datos o no, sino qué tipo de visualización +puede ser la más útil en cada situación. + +Dicho de otro modo: ¿cuándo tiene sentido ir más allá de la +visualización en tablas? La respuesta más simple es: casi siempre. Las +tablas por sí solas decididamente no bastan para darnos una visión +general de un conjunto de datos. Y las tablas por sí solas no nos +permiten identificar inmediatamente patrones dentro de los datos. El +ejemplo más común aquí son los patrones geográficos que solo pueden +observarse al visualizar datos en un mapa. Pero también hay otros tipos +de patrones, que veremos luego en esta sección. + +#### Usar visualización de datos para descubrir información clarificadora + +No es realista esperar que herramientas y técnicas de visualización de +datos disparen una andanada de historias listas para usar a partir de +los conjuntos de datos. No hay reglas ni “protocolos” que nos garanticen +que tendremos una historia. En cambio, creo que tiene más sentido buscar +“percepciones”, que un buen periodista puede incorporar a historias. + +Cada nueva visualización puede darnos percepciones sobre nuestros datos. +Parte de esa información reveladora puede ser conocida ya (pero quizás +aún no demostrada), mientras que otros aspectos pueden resultarnos +completamente nuevos o incluso sorprendentes. Algunas cosas nuevas que +percibimos podrían significar el comienzo de una historia, mientras que +otras podrían ser simplemente el resultado de errores en los datos, que +es más probable que encontremos visualizando los datos. + +Para hacer más efectiva la búsqueda de nuevas percepciones en los datos, +me resulta de gran ayuda el proceso representado en [Figure 4](#FIG054) +(y descripto en el resto de esta sección). + +![Figure 4. Información reveladora en datos; una visualización (Gregor Aisch)](figs/incoming/05-BB.png) + +##### Aprenda a visualizar datos + +La visualización ofrece una perspectiva particular sobre el conjunto de +datos. Usted puede visualizar datos de muchas maneras diferentes. + +Las tablas son muy poderosas cuando se trata de un número relativamente +pequeño de puntos. Muestran etiquetas y montos del modo más estructurado +y organizado y revelan su potencial plenamente cuando se las combina con +la capacidad de ordenar y filtrar los datos. Adicionalmente, Edward +Tufte sugirió incluir pequeños gráficos dentro de columnas de tablas, +por ejemplo, una barra por fila o una pequeña línea de cuadro (desde +entonces conocida también como sparkline). Pero aún así, y tal como ya +dijimos, las tablas claramente tienen limitaciones. Son muy buenas para +mostrar cuestiones unidimensionales, como los primeros 10, pero son muy +pobres cuando se trata de comparar múltiples dimensiones simultáneamente +(por ejemplo, población por país a lo largo del tiempo). + +![Consejos de Tufte: sparklines (Gregor Aisch) ](figs/incoming/05-BC-graphical-table.png) + +Los cuadros, en general, le permiten vincular dimensiones de sus datos +con propiedades visuales de formas geométricas. Mucho se ha escrito +sobre la efectividad de las propiedades visuales individuales, y la +versión más breve de todo ello es: el color es difícil, la posición es +todo. En un diagrama de dispersión, por ejemplo, se relaciona dos +dimensiones con las posiciones x- e y-. Incluso se puede presentar una +tercera dimensión relacionada con el color o el tamaño de los símbolos +presentados. Los cuadros lineales son especialmente adecuados para +mostrar evoluciones temporales, mientras que los cuadros de barras son +perfectos para comparar datos de categorías. Se puede apilar elementos +de cuadros. Si desea comparar un pequeño número de grupos de sus datos, +presentar múltiples instancias del mismo gráfico es una forma muy +poderosa de hacerlo (también conocido como múltiplos pequeños). En todos +los cuadros se puede usar distintos tipos de escalas para explorar +aspectos diferentes de los datos (por ejemplo, lineal o escala +logarítmica). + +De hecho la mayor parte de los datos que manejamos están relacionados de +algún modo con gente real. El poder de los mapas es que reconectan los +datos con nuestro mundo físico. Imagine un conjunto de datos de +incidentes criminales ubicados geográficamente. Lo crucial es ver dónde +suceden los crímenes. Además los mapas pueden revelar relaciones +geográficas dentro de los datos (por ejemplo, una tendencia de norte a +sur, o de zonas urbanas a rurales). + +![Mapa coroplético (Gregor Aisch)](figs/incoming/05-BD-choropleth.png) + +Hablando de relaciones, el cuarto tipo más importante de visualización +es el gráfico. Los gráficos sirven para mostrar las interconexiones +(bordes) de sus puntos de datos (nodos). La posición de los nodos se +calcula entonces por algoritmos de diagrama de gráficos más o menos +complejos que nos permiten ver inmediatamente la estructura dentro de la +red. El truco de la visualización por gráficos en general es encontrar +el modo adecuado para modelar la red misma. No todos los conjuntos de +datos incluyen ya relaciones y aunque las incluyan puede no ser el +aspecto más interesante. A veces el periodista tiene que definir los +bordes entre nodos. Un ejemplo perfecto de esto es el +[Gráfico Socialdel Senado](http://slate.me/senate-social) de EE.UU., cuyos bordes +conectan senadores que votaron lo mismo en más del 65% de los casos. + +##### Analice e intérprete lo que ve + +Una vez que haya visualizado sus datos, el siguiente paso es aprender +algo del cuadro que creó. Podría preguntarse: + +- ¿Qué puedo ver en esta imagen? ¿Es lo que esperaba? - ¿Hay patrones +interesantes? - ¿Qué significa esto en el contexto de los datos? + +A veces puede terminar con una visualización que, pese a su belleza, +puede no decirle nada de interés de sus datos. Pero casi siempre hay +algo que puede aprender de cualquier visualización, por trivial que sea. + +##### Documente sus percepciones y sus pasos + +Si piensa en este proceso como un viaje a través del conjunto de datos, +la documentación es su diario de viaje. Dirá a dónde viajó, que ha visto +allí y cómo tomó sus decisiones para sus siguientes pasos. Incluso puede +comenzar con su documentación antes de echar su primera mirada a los +datos. + +En la mayoría de los casos cuando comenzamos a trabajar con un conjunto +de datos que no hemos visto previamente, ya estamos llenos de +expectativas y supuestos sobre los datos. Por lo general hay un motivo +por el que estamos interesados en el conjunto de datos que estamos +mirando. Es buena idea comenzar la documentación escribiendo estos +pensamientos iniciales. Esto nos ayuda a identificar nuestros prejuicios +y reduce el riesgo de malas interpretaciones de los datos encontrando +simplemente lo que queríamos encontrar originalmente. + +Realmente creo que la documentación es el paso más importante del +proceso, y es también el que somos más proclives a dejar de lado. Como +verá en el ejemplo que viene a continuación, el proceso descripto +involucra mucha planificación y manejo de datos. Mirar un conjunto de 15 +cuadros que ha creado puede ser muy confuso, especialmente al +transcurrir algún tiempo. De hecho esos cuadros solo son valiosos (para +usted o cualquier persona a la que quiera comunicar lo que descubrió) si +se los presenta en el contexto en el que fueron creados. Por tanto debe +tomarse algún tiempo para hacer notas sobre cosas como: + +- ¿Por qué creé este cuadro? +- ¿Qué he hecho con los datos para crearlo? +- ¿Qué me dice este cuadro? + +##### Transforme los datos + +Naturalmente con las nuevas cosas que percibió con la última +visualización, puede tener una idea de lo que quiere ver a continuación. +Puede haber encontrado algún patrón interesante en el conjunto de datos +que ahora quiere inspeccionar con más detalle. + +Las posibles transformaciones: + +Acercamiento (zoom) : Para ver cierto detalle en la visualización +Agregación : Combinar muchos puntos de datos en un solo grupo. Filtrado +: Eliminar (temporariamente) puntos de datos que no son de nuestro mayor +interés Eliminación de datos atípicos : Eliminar puntos individuales que +no son representativos del 99% del conjunto de datos. + +Situémonos en el caso de que usted ha visualizado un gráfico y lo que +surgió no fue más que un enredo de nodos conectados por cientos de +bordes (un resultado muy común cuando se visualiza lo que se llama redes +densamente conectadas). Un paso de transformación común sería filtrar +algunos bordes. Si, por ejemplo, los bordes representan flujos de dinero +de países donantes a países receptores, podríamos eliminar todos los +flujos menores a cierto monto. + +#### Qué herramientas usar + +La cuestión de las herramientas no es fácil. Toda herramienta de +visualización de datos disponible es buena para algo. La visualización y +el manejo de los datos debe ser fácil y barato. Si cambiar los +parámetros de las visualizaciones le lleva horas, no va a experimentar +demasiado. Eso no quiere decir necesariamente que no deba aprender cómo +usar la herramienta. Pero una vez que aprendió, debiera ser realmente +eficiente. + +A menudo hay que tener mucho criterio para elegir una herramienta que +cubra tanto las cuestiones del manejo de los datos como la visualización +de datos. Separar las tareas en distintas herramientas significa que +tiene que importar y exportar datos muy a menudo. Esta es una breve +lista de algunas herramientas de visualización y manejo de datos: + +- Planillas de cálculo como LibreOffice, Excel o Google Docs - +Plataformas de programación estadística como R (r-project.org) o Pandas +(pandas-pydata.org) - Sistemas de Información Geográfica (GIS) como +Quantum GIS, ARcGIS, o GRASS - Biblitoecas de Visualización como d3.js +(mbostock.github.com/d3), Prefuse (prefuse.org) o Flare +(flare.prefuse.org) - Herramientas de manejo de datos como Google Refine +o Datawrangler - Software para crear visualizaciones como ManyEyes o +Tableau Public (tableausoftware.com/products/public) + +Las visualizaciones de muestra en la siguiente sección fueron creadas +usando R, que es el cortaplumas suizo de la visualización de datos +(científica). + +#### Un ejemplo: encontrarle sentido a los datos sobre contribuciones electorales + +Veamos la base de datos de las Finanzas de la Campaña Presidencial de +Estados Unidos, que contiene alrededor de 450.000 aportes a candidatos +presidenciales estadounidenses. El archivo CSV es de 60 megabytes y +demasiado grande para manejar fácilmente en un programa como Excel. + +En el primer paso escribiré explícitamente mis supuestos iniciales +respecto del conjunto de datos sobre contribuciones para las campañas +electorales: + +- Obama recibe la mayor suma en contribuciones (dado que es el +presidente y tiene la mayor popularidad) - La cantidad de contribuciones +aumenta al acercarse la fecha de las elecciones. - Obama recibe más +contribuciones pequeñas que los candidatos republicanos + +Para responder a la primera pregunta, tenemos que transformar los datos. +En vez de cada contribución individual, necesitamos sumar el total de lo +aportado a cada candidato. Luego de visualizar los resultados en una +tabla ordenada, confirmamos nuestro supuesto de que Obama obtendría la +mayor cantidad de dinero: + ++-----------------------------------+-----------------------------------+ +| Candidato | Monto ($) | ++===================================+===================================+ +| Obama, Barack | 72.453.620,39 | ++-----------------------------------+-----------------------------------+ +| Romney, Mitt | 50.372.334,87 | ++-----------------------------------+-----------------------------------+ +| Perry, Rick | 18.529.490,47 | ++-----------------------------------+-----------------------------------+ +| Paul, Ron | 11.844.361,96 | ++-----------------------------------+-----------------------------------+ +| Cain, Herman | 7.010.445,99 | ++-----------------------------------+-----------------------------------+ +| Gingrich, Newt | 6.311.193,03 | ++-----------------------------------+-----------------------------------+ +| Pawlenty, Timothy | 4.202.769,03 | ++-----------------------------------+-----------------------------------+ +| Huntsman, Jon | 2.955.726,98 | ++-----------------------------------+-----------------------------------+ +| Bachmann, Michelle | 2.607.916,06 | ++-----------------------------------+-----------------------------------+ +| Santorum, Rick | 1.413.552,45 | ++-----------------------------------+-----------------------------------+ +| Johnson, Gary Earl | 413.276,89 | ++-----------------------------------+-----------------------------------+ +| Roemer, Charles E. \\*Buddy\\* III | 291.218,80 | ++-----------------------------------+-----------------------------------+ +| McCotter, Thaddeus G | 37.030,00 | ++-----------------------------------+-----------------------------------+ + +Si bien esta tabla muestra los montos mínimo y máximo y el orden, no +dice demasiado acerca de los patrones subyacentes al ranking de los +candidatos. [Figure 7](#FIG059) es otra vista de los datos, un tipo +de cuadro conocido como “cuadro de puntos”, en el que podemos ver todo +lo que aparece en la tabla más los patrones dentro del campo. Por +ejemplo, el cuadro de puntos nos permite comparar inmediatamente la +distancia entre Obama y Romney y Romney y Perry, sin tener que restar +valores. (Nota: este cuadro de puntos fue creado usando R. Puede +encontrar vínculos con el código fuente al final de este capítulo). + +![Visualizaciones para descubrir patrones subyacentes (Gregor Aisch)](figs/incoming/05-CC.png) + +Ahora procedamos con un cuadro más grande del conjunto de datos. Como +primer paso, visualicé todos los montos aportados a lo largo del tiempo +en una sola vista. Podemos ver que casi todas las contribuciones son +muy, muy pequeñas comparado con 3 casos salientes. Una investigación más +a fondo revela que estas contribuciones inmensas provienen del “Fondo +para la Victoria de Obama 2012” (también conocido como SuperPAC) y se +hicieron el 9 de junio (US$ 450.000), septiembre 29 (US$1.500.000) y diciembre 30 (US$ 1,900.000). + +![3 casos salientes (Gregor Aisch)](figs/incoming/05-DD.png) + +Si bien las contribuciones de Súper PACs por si solas son sin duda la +historia más importante en los datos, podría ser interesante mirar más +allá. La cuestión ahora es que estas grandes contribuciones perturban +nuestra visión de las contribuciones más pequeñas que provienen de +individuos, por lo que vamos a quitarlas de los datos. Esta +transformación se conoce comúnmente como eliminación de datos atípicos. +Luego de visualizar nuevamente, podemos ver que la mayoría de las +donaciones están dentro del rango de entre US\\\\\\$ 5.000 y US\\\\\\$ 10.000. + +![Eliminar datos atípicos (Gregor Aisch)](figs/incoming/05-EE.png) + +De acuerdo al límite a las contribuciones establecidos por FECA +(autoridad electoral), no se permite a los individuos donar más de +US$ 2500 a cada candidato. Como podemos ver en el gráfico, hay +numerosas donaciones por encima de ese límite. En particular, nos llaman +la atención dos grandes contribuciones en mayo. Parece que son +compensadas por montos negativos (reembolsos) en junio y julio. Una +investigación más a fondo de los datos revela las siguientes +transacciones: + +- El 10 de mayo, *Stephen James Davis*, de San Francisco, empleado en +Banneker Partners (abogados), ha donado **US$ 25.800** a Obama. - +El 25 de mayo, *Cynthia Murphy*, de Little Rock, empleada en el Murphy +Group (relaciones públicas), ha donado **US$ 33.300** a Obama - +El 15 de junio el monto de **US$ 30.800** fue devuelto a +*Cynthia Murphy*, lo que redujo el monto donado a US$ 2500. +- El 8 de julio, se devolvió el monto de **US$ 25.800** a +*Stephen James Davis*, lo que redujo el monto donado a US$ 0. + +¿Qué tienen de interesantes estas cifras? Los US$ 30.800 devueltos a +Cynthia Murphy equivalen al monto máximo que pueden dar individuos a +comités nacionales de partidos al año. Quizás quería combinar ambas +donaciones en una transacción, que fue rechazada. Los US$ 25.800 +devueltos a Stephen James Davis posiblemente equivalen a los US$30.800 +menos US$ 5000 (el límite de aportes a cualquier otro comité político). + +Otra cosa interesante descubierta en el último gráfico es un patrón +lineal horizontal de contribuciones para candidatos republicanos por +US$ 5000 y -US$ 2500. Para verlos con más detalle, visualicé solo +las donaciones a republicanos. El gráfico resultante es un gran ejemplo +de patrones en datos que serían invisibles sin visualización de datos. + +![Eliminación de datos atípicos 2 (Gregor Aisch)](figs/incoming/05-FF.png) + +Lo que podemos ver es que hay muchas donaciones de US$ 5000 a +candidatos republicanos. De hecho, un análisis de los datos da que hay +1243 de estas donaciones, que es solo el 0,3% del número total de +donaciones, pero debido a que esas donaciones se reparten de modo parejo +en el tiempo, la línea aparece. Lo interesante de la línea es que las +donaciones de individuos estaban limitadas a US$ 2500. En +consecuencia cada dólar que superó ese límite fue devuelto a los +donantes, lo que resulta en la segunda línea de –US$ 2500. En +contraste, las contribuciones a Barack Obama no muestran un patrón +similar. + +![Eliminación de datos atípicos 3 (Gregor Aisch)](figs/incoming/05-GG.png) + +Por lo que podría ser interesante averiguar por qué miles de donantes +republicanos no advirtieron los límites para donaciones de individuos. +Para analizar más en profundidad el tema, podemos ver el número total de +donaciones de US$ 5000 por candidato. + +![Donaciones por candidato (Gregor Aisch)](figs/incoming/05-HH.png) + +Por supuesto que esta es una visión distorsionada dado que no considera +los montos totales de donaciones recibidas por cada candidato. El +siguiente gráfico muestra el porcentaje de donaciones de US\\\\\\$ 5000 por +candidato. + +![ ¿De dónde viene la plata del senador?: donaciones por candidato (Gregor Aisch)](figs/incoming/05-II.png) + +#### Qué aprender de esto + +A menudo tal análisis visual de un nuevo conjunto de datos se vive como +un viaje excitante a un país desconocido. Uno comienza como un +extranjero contando solo con los datos y sus supuestos, pero con cada +paso que da, con cada cuadro que produce, percibe cosas nuevas sobre el +tópico. Basado en esas percepciones, toma decisiones respecto de sus +siguientes pasos y que cuestiones ameritan una mayor investigación. Como +habrá visto en este capítulo, este proceso de visualizar, analizar y +transformar datos podría repetirse casi al infinito. + +#### Consiga el código fuente + +Todos los cuadros que se muestran en este capítulo fueron creados usando +el maravilloso y poderoso software R. Creado principalmente como +herramienta de visualización científica, es difícil encontrar alguna +técnica de visualización o manejo de datos que no esté incorporada a R. +Para aquellos interesados en saber cómo visualizar y manejar datos +usando R, a continuación aparecen los códigos fuente para los cuadros +generados en este capítulo: + +- [Cuadro de puntos: contribuciones por candidato](https://gist.github.com/1769733) +- [Gráfico: todas las contribuciones a lo largo del tiempo](https://gist.github.com/1816161) +- [Gráfico: contribuciones por comités autorizados](https://gist.github.com/1816169) + +Hay también una gran variedad de libros y tutoriales disponibles. + +— *Gregor Aisch, Open Knowledge Foundation* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @358, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/entender_los_datos_7.html' + ] + } + ], + #parent : @5, + #level : 1, + #nodesInPreorder : OrderedCollection [ + @352, + @355, + @366, + @370, + @374, + @378, + @382, + @386, + @390 + ], + #links : @364 + }, + @355, + @366, + @370, + @374, + @378, + @382, + @386, + @390, + GrafoscopioNode { + #header : 'Difundir datos', + #body : '![](figs/incoming/06-00-cover.png) + +Una vez que analizó bien sus datos y decidió que hay algo interesante +sobre lo cual escribir, ¿cómo puede difundirlos al público? Esta sección +se inicia con breves anécdotas acerca de cómo conocidos periodistas +presentaron los datos a sus lectores: desde infografías, pasando por +plataformas de datos, hasta *links* para descarga. Luego analizamos con +más detenimiento cómo crear nuevas aplicaciones y los detalles de la +visualización de datos. Finalmente analizamos lo que puede hacer para +que su proyecto le resulte atractivo al público. + +### Qué contiene este capítulo? + +- [Presentar datos al público](difundir_datos_0.html) +- [Cómo crear una aplicación de noticias](difundir_datos_1.html) +- [Aplicaciones de noticias en ProPublica](difundir_datos_2.html) +- [La visualización como el caballo de tiro del periodismo de + datos](difundir_datos_3.html) +- [El uso de visualizaciones para narrar + historias](difundir_datos_4.html) +- [Cuadros diferentes dicen cosas diferentes](difundir_datos_5.html) +- [Selección de herramientas "Hágalo Ud. mismo" para hacer sus propias + visualizaciones de datos.](difundir_datos_6.html) +- [Cómo presentamos los datos en el Verdens + Gang](difundir_datos_7.html) +- [Los datos públicos se vuelven sociales](difundir_datos_8.html) +- [Interactuar con la audiencia en torno a sus + datos](difundir_datos_9.html) + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'Presentar datos al público', + #body : 'Hay muchas maneras diferentes de presentar los datos al público, desde +publicar conjuntos de datos en crudo con historias, hasta crear hermosas +visualizaciones y aplicaciones interactivas en la web. Pedimos consejos +a periodistas de datos con experiencia sobre cómo presentar datos al +público. + +#### Visualizar o no visualizar + +Hay momentos en que los datos pueden contar la historia mejor que +palabras o fotos y es por eso que términos como “aplicación de noticias” +y “visualización de datos” han adquirido el status de palabras clave en +tantas redacciones en los últimos tiempos. También promueve el interés +la gran cosecha de nuevas herramientas y tecnologías (a menudo +gratuitas) destinadas a ayudar incluso al periodista menos dotado +técnicamente a convertir datos en una presentación visual de una +historia. + +Herramientas como Google Fusion Tables, Many Eyes, Tableau, Dipity, y +otras hacen más fácil que nunca crear mapas, cuadros, gráficos o incluso +aplicaciones con datos que hasta aquí eran el dominio de especialistas. +Siendo las barreras al ingreso ahora apenas un lomo de burro, la +cuestión para los periodistas ahora no es tanto si pueden convertir sus +conjuntos de datos en una visualización sino si les conviene hacerlo. +Una [mala visualización de datos](http://bit.ly/niemanlab-wordcloud) es +peor en muchos sentidos que ninguna visualización. + +— *Aron Pilhofer, New York Times* + +#### El uso de gráficos con movimiento + +Con un guión ajustado, animaciones bien cronometradas y explicaciones +claras, los gráficos con movimiento pueden dar vida a números o ideas +complejas, orientando a su público. Las videoconferencias de Hans +Rosling son un buen ejemplo de cómo los datos pueden narrar una historia +en la pantalla. Concuerde o no usted con su metodología, yo también creo +que el [índice Shoe-throwers](http://econ.st/shoethrowers) de The +Economist es un buen ejemplo del uso del video para contar una historia +basada en números. Usted no presentaría este gráfico como una imagen +estática o al menos no debería hacerlo. Suceden demasiadas cosas en la +presentación. Pero habiendo llegado paso a paso, a uno le queda la +comprensión de cómo y por qué llegaron a este índice. Con gráficos con +movimiento y cortos animados, puede reforzar lo que el público está +escuchando. Los recursos visuales explicativos con la voz *en off* +ofrecen una manera poderosa y memorable de contar una historia. + +— *Lulu Pinney, freelance infographic designer* + + +#### Contarle al mundo + +Nuestro flujo de trabajo por lo general comienza con Excel. Es una +manera fácil de descubrir si hay algo interesante en los datos. Si +tenemos la sensación de que hay algo, entonces vamos a la mesa de +noticias. Tenemos suerte de estar ubicados junto a la principal mesa de +noticias de The Guardian. Entonces analizamos cómo visualizarlo o +mostrarlo en la página. Luego escribimos el texto que lo acompaña. +Cuando escribo por lo general tengo una versión reducida de la planilla +de cálculo junto al editor de texto. A menudo hago análisis parciales +mientras escribo, para encontrar cosas interesantes. Publico en el blog +y me dedico un rato a hacer tweets al respecto, escribiendo a distintas +personas y asegurándome de que tiene links a todos los lugares +indicados. + +La mitad del tráfico de algunas de las cosas que subimos al blog vienen +de Twitter y Facebook. Estamos bastante orgullosos de que el tiempo +promedio dedicado a un artículo en nuestro Datablog es de 6 minutos, +comparado con un promedio de 1 minuto para el resto del sitio de The +Guardian. Seis minutos es bastante bueno y el tiempo en la página es una +de las métricas claves al analizar nuestro tráfico. + +Esto también ayuda a convencer a nuestros colegas acerca del valor de lo +que estamos haciendo. Eso y las grandes historias basadas en datos en +las que hemos trabajado que todos los demás en la redacción conocen: +COINS, WikiLeaks y los disturbios en el Reino Unido. Para los datos de +gasto de COINS, tuvimos 5-6 periodistas especializados trabajando en The +Guardian para dar sus puntos de vista sobre los datos cuando fueron +difundidos por el gobierno del Reino Unido. También tuvimos otro equipo +de 5-6 periodistas cuando el gobierno difundió los datos de gastos por +encima de las £25000 libras, incluyendo periodistas muy conocidas como +Polly Curtis. WikiLeaks también obviamente fue muy importante, con +muchas historias sobre Irak y Afganistán. Los disturbios también fueron +bastante importantes, con más de 550.000 vistas en 2 días. + +Pero no se trata solo de las visitas de corto plazo: también tiene que +ver con ser una fuente confiable de información útil. Tratamos de ser el +lugar donde usted puede obtener información buena y significativa sobre +los temas que cubrimos. + +— *Simon Rogers, the Guardian* + +#### Publicar los datos + +A menudo publicamos los datos en nuestro sitio en una visualización y de +una forma que permite la fácil descarga del conjunto de datos. Nuestros +lectores pueden explorar los datos detrás de las historias interactuando +en las visualizaciones o usando los datos mismos de otros modos. ¿Por +qué es importante esto? Aumenta la transparencia de The Seattle Times. +Mostramos a los lectores los mismos datos que usamos para sacar +poderosas conclusiones. ¿Y quién las usa? Nuestros críticos sin duda, +así como todos los que simplemente están interesados en la historia y +todas sus ramificaciones. Al dar acceso a los datos también podemos +recibir comentarios de estos mismos críticos y los lectores en general +respecto de lo que no vimos y qué más podemos explorar, todas cosas +valiosas para un periodismo que importa. + +— *Cheryl Phillips, The Seattle Times* + +#### Dar acceso a sus datos + +Dar a los consumidores de noticias acceso fácil a los datos que usamos +para nuestro trabajo es lo correcto por varios motivos. Los lectores +pueden asegurarse de que no estamos torturando a los datos para llegar a +conclusiones forzadas. Dar acceso a nuestros datos continúa la tradición +de las ciencias sociales de permitir que investigadores reproduzcan +nuestro trabajo. Alentar a los lectores a estudiar los datos puede +generar ideas que lleven a la continuación de las historias. Finalmente, +los lectores interesados en sus datos van a ser proclives a volver una y +otra vez. + +— *Steve Doig, Walter Cronkite School of Journalism, Arizona State +University* + +#### Crear una plataforma de datos abierta + +En La Nación publicar datos con libre acceso es una parte integral de +nuestras actividades periodísticas de datos. En la argentina no existe +una Ley de Acceso a la Información ni un portal nacional de datos, por +lo que nos parece importante proveer a nuestros lectores el acceso a los +datos que usamos en nuestras historias. + +Por tanto publicamos datos estructurados en crudo a través de [nuestra +plataforma](http://data.lanacion.com.ar/) integrada Junar así como en +Google Spreadsheets. Explícitamente autorizamos y alentamos a terceros a +reutilizar nuestros datos y explicamos un poco acerca de cómo hacer esto +[con documentación y tutoriales en video](http://bit.ly/lanacion-tutorials). + +Lo que es más, presentamos algunos de estos conjuntos de datos y +visualizaciones en nuestro [blog NACION DATA](http://blogs.lanacion.com.ar/data/). +Hacemos esto para evangelizar sobre nuestros datos y herramientas de edición de datos +en la Argentina y mostrar a otros cómo reunimos nuestros datos, como los usamos y cómo +pueden reutilizarlos. + +Desde que lanzamos la plataforma en febrero de 2012, hemos recibido +sugerencias e ideas para conjuntos de datos, principalmente de +académicos e investigadores, así como estudiantes de universidades que +se muestran muy agradecidos cada vez que contestamos con una solución o +un conjunto de datos específico. Hay gente que conoce y comenta nuestros +datos en Tableau y varias veces hemos sido el ítem más comentado y visto +en el sitio. En 2011 tuvimos 7 de las 100 [visualizaciones más +vistas](http://bit.ly/tableau-7-100). + +— *Angélica Peralta Ramos, La Nación (Argentina)* + +#### Humanizar los datos + +Al ampliarse el conocimiento del debate en torno a los grandes conjuntos +de datos, una parte importante ha estado notoriamente ausente: el +elemento humano. Mientras muchos pensamos en los datos como números +disociados, flotando en el vacío, en realidad son mediciones de cosas +tangibles (y a menudo humanas). Los datos están unidos a la vida de +gente real y cuando abordamos los números, debemos considerar los +sistemas del mundo real de los que provienen. + +Tomemos, por ejemplo, los datos de ubicación que se están recogiendo en +este momento de cientos de millones de celulares y dispositivos móviles. +Es fácil pensar en estos datos (cifras que representan latitud, longitud +y tiempo) como “descarga digital”, pero en realidad son datos destilados +de momentos de nuestras narrativas personales. Si bien pueden ser secos +y clínicos cuando se leen en una planilla de cálculo, cuando permitimos +a la gente incorporar sus propios datos a un mapa y reproducirlos, +experimentan una especie de replay de la memoria que es poderoso y +humano. + +En este momento, los datos de localización son utilizados por muchos +diseñadores de aplicaciones, grandes marcas y anunciantes. Mientras las +segundas (empresas de telecomunicaciones y administradores de +dispositivos) son dueños y almacenan los datos, el primero en esta +ecuación –usted- no tiene acceso ni control de esta información. En el +grupo de Investigación y Desarrollo del NYTimes, hemos lanzado un +proyecto prototipo llamado [OpenPaths](https://openpaths.cc/) para +permitir al público explorar sus propios datos de locación y +experimentar el concepto de propiedad de los datos. Al fin de cuentas, +la gente debiera tener control de estas cifras tan estrechamente ligadas +a sus propias vidas y experiencias. + +Los periodistas tienen un rol muy importante en sacar a luz esta +humanidad inherente a los datos. Al hacerlo, tienen el poder de cambiar +la comprensión del público tanto de los datos como de los sistemas de +los que emergieron los números. + +— *Jer Thorp, Data Artist in Residence: New York Times R&D Group* + + +#### Datos abiertos, fuentes abiertas, noticias abiertas + +El 2012 bien pudo ser el año de las noticias abiertas. Está en el centro +de nuestra ideología editorial y es un mensaje clave de nuestra marca +actualmente. En medio de todo esto, está claro de que necesitamos un +proceso abierto para el periodismo basado en datos. Este proceso no solo +debe ser alimentado de datos abiertos, sino también facilitado por +herramientas abiertas. Para fin de año esperamos poder acompañar cada +visualización que publicamos con acceso tanto a los datos como al código +con el que se construyó. + +Muchas de las herramientas usadas en la visualización hoy son de fuente +cerrada. Otras vienen con licencias restrictivas que prohíben el uso de +datos derivados. Las bibliotecas de fuente abierta existentes a menudo +resuelven un problema bien pero no ofrecen una metodología más amplia. +De conjunto esto dificulta a la gente apoyarse en el trabajo de los +demás. Esto cierra conversaciones en vez de abrirlas. Con este fin, +estamos desarrollando una cantidad de herramientas abiertas para narrar +historias interactivas. El Miso Project (@themisoproject) es un ejemplo. + +Estamos analizando este trabajo con una cantidad de organizaciones de +medios. Se requiere de la participación de la comunidad para realizar +plenamente el potencial del software de código abierto. Si tenemos éxito +introducirá una dinámica fundamentalmente diferente con nuestros +lectores. Las contribuciones pueden ir más allá del comentario a +bifurcar nuestro trabajo, solucionar problemas o re-utilizar datos de +maneras inesperadas. + +— *Alastair Dant, the Guardian* + +#### Agregue un link de descarga + +En los últimos años trabajé con unos cuantos gigabytes de datos para +proyectos o artículos, desde el escaneado de tablas escritas a máquina +de la década del ‘60 hasta los 1,5 gigabytes de cables publicados por +WikiLeaks. Siempre ha sido difícil convencer a los editores de publicar +sistemáticamente los datos en formato abierto y accesible. Para superar +el problema, agregué links para “Descargar los datos” dentro de los +artículos, apuntando a los archivos que los contenían o los Google Docs +relevantes. El interés de potenciales reutilizadores coincidía con lo +que vemos en los programas promovidos por el Estado (es decir, muy, pero +muy escaso). Sin embargo, las pocas instancias de reutilización +aportaron nuevas visiones o promovieron conversaciones que bien valen +los pocos minutos extra por proyecto. + + +— *Nicolas Kayser-Bril, Journalism++* + +#### Conozca su alcance + +Hay una gran diferencia entre hackear por diversión y hacer ingeniería +de sistemas buscando escala y buen desempeño. Asegúrese de asociarse con +gente que tenga las capacidades apropiadas para su proyecto. No olvide +el diseño. La facilidad de uso, la experiencia del usuario y el diseño +de la presentación pueden afectar mucho el éxito de su proyecto. + +— *Chrys Wu, Hacks/Hackers* + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @395, + #level : 2, + #nodesInPreorder : OrderedCollection [ + @398 + ], + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/difundir_datos_0.html' + ] + }, + GrafoscopioNode { + #header : 'Cómo crear una aplicación de noticias', + #body : 'Son ventanas que muestran los datos en los que se apoya la historia. +Pueden ser bases de datos abiertas a búsquedas, visualizaciones +elegantes, o algo totalmente distinto. Pero no importa la forma que +asuman, las aplicaciones alientan a los lectores a interactuar con los +datos en un contexto que es significativo para ellos: investigar +tendencias criminalísticas en su zona, verificar los antecedentes de su +médico local o analizar las contribuciones políticas de su candidato. + +Más que infografías de alta tecnología, las mejores aplicaciones de +noticias son productos durables. Tienen vida por fuera del ciclo de las +noticias, ayudando a menudo a los lectores a resolver problemas del +mundo real, o respondiendo preguntas de un modo tan útil como novedoso +que se convierten en recursos perdurables. Cuando periodistas de +ProPublica quisieron explorar en qué medida eran seguras las clínicas de +diálisis de riñón estadounidenses, crearon una +[aplicación](http://projects.propublica.org/dialysis/) que ayudaba a los +usuarios a verificar si las instalaciones en su ciudad eran seguras. +Proveer un servicio tan importante y relevante crea una relación con los +usuarios que va mucho más allá de lo que una historia narrativa puede +hacer por sí sola. + +Allí está el desafío y la promesa de crear aplicaciones de noticias que +son lo último en materia tecnológica: crear algo de valor duradero. Sea +usted un diseñador o un gerente, cualquier discusión acerca de crear una +gran aplicación debe comenzar con una mentalidad de desarrollo de un +producto: mantenerse enfocado en el usuario y trabajar para lograr el +mayor impacto con su inversión. Por lo que, antes de comenzar a crear +una aplicación, es bueno hacerse tres preguntas, que se abordan en las +siguientes secciones. + +![Monitor de instalaciones para diálisis (ProPublica)](figs/incoming/06-AA.png) + +#### ¿Cuál es mi público y cuáles son sus necesidades? + +Las aplicaciones de noticias no sirven a la historia por la historia +misma, sirven al usuario. Según el proyecto, el usuario puede ser un +paciente de diálisis que quiere conocer los antecedentes de su clínica o +incluso una dueña de casa que no conoce el riesgo de terremoto cerca de +su hogar. No importa quién sea, toda discusión sobre la creación de una +aplicación de noticias, como cualquier buen producto, debe empezar por +la gente que la va a usar. + +Una sola aplicación puede servir a muchos usuarios. Por ejemplo, un +proyecto llamado [Curbwise](http://curbwise.com/), creado por el Omaha +(Nebraska) World-Herald le sirve a propietarios de casas que creen que +les están cobrando impuestos excesivos, a residentes curiosos +interesados en los valores de propiedades cercanas y trabajadores +inmobiliarios que buscan seguir las tendencias de las ventas recientes. +En cada uno de esos casos, la aplicación responde a necesidades +específicas que hacen que los usuarios vuelvan. + +Los propietarios de casas, por ejemplo, podrían necesitar ayuda para +reunir información sobre propiedades próximas de modo de poder demostrar +que sus impuestos son injustamente elevados. Reunir esa información +exige tiempo y es complicado, un problema que Curbwise resuelve para sus +usuarios compilando [un informe fácil de +usar](http://curbwise.com/how-to-protest) de toda la información que +necesitan para cuestionar los impuestos a sus propiedades ante las +autoridades municipales. Curbwise vende ese informe por US\\$ 20 y la +gente lo paga porque le resuelve un problema real de sus vidas. + +Sea que su aplicación resuelva un problema del mundo real como Curbwise +o acompañe la narrativa de una historia con visualizaciones +interesantes, siempre sea consciente de la gente que la usará. +Concéntrese en diseñar y crear los componentes basados en sus +necesidades. + +#### ¿Cuánto tiempo debo dedicar a esto? + +Los programadores en la redacción son como agua en el desierto: muy +buscados y escasos. Crear aplicaciones de noticias significa equilibrar +las necesidades diarias de una redacción con los compromisos de largo +plazo que se necesita para crear productos realmente buenos. + +Digamos que su editor le viene con una idea: el Consejo Municipal va a +votar la semana entrante si demoler o no varias propiedades históricas +en su ciudad. Sugiere crear una aplicación simple que le permita a los +usuarios ver los edificios en un mapa. + +Como programador, usted tiene unas pocas opciones. Puede flexionar su +músculo de ingeniero de sistemas creando un mapa fabuloso usando +software especialmente desarrollado para el caso. O puede usar +herramientas existentes como las Google Fusion Tables o bibliotecas de +mapeado de código abierto y terminar el trabajo en un par de horas. La +primera opción le dará una mejor aplicación; pero la segunda puede darle +más tiempo para crear otra cosa con mayores probabilidades de tener un +impacto duradero. + +El hecho de que una historia sea apta para crear una aplicación compleja +y hermosa no significa que tenga que crearla. Es crítico saber medir las +prioridades. La cuestión es recordar que toda aplicación que usted cree +tiene un costo: a saber, otra aplicación potencialmente más impactante +en la que pudo haber estado trabajando. + +#### ¿Cómo puedo llevar la cosa al siguiente nivel? + +Crear aplicaciones de noticias sofisticadas puede exigir mucho tiempo y +ser costoso. Por eso siempre se justifica preguntar cuál será el rédito. +¿Cómo se convierte una aplicación maravillosa pero que produce solo un +impacto momentáneo en algo especial y duradero? + +Crear un proyecto duradero que trascienda el ciclo de las noticias es +una manera de hacerlo. Otra manera es crear una herramienta que le +ahorre tiempo en el futuro (y haciéndolo con código abierto) o aplicar +un sistema de medición avanzada a su aplicación para saber más de su +público. + +Muchas organizaciones crean mapas en base al censo para mostrar los +cambios demográficos en sus ciudades. Pero cuando el equipo de +aplicaciones interactivas del Chicago Tribune [hizo el +suyo](http://bit.ly/chicago-census), llevó las cosas al siguiente nivel +desarrollando herramientas y técnicas para crear esos mapas rápidamente, +y que luego [pusieron a disposición de otras +organizaciones](http://bit.ly/chicagotribune-maps). + +En mi lugar de empleo, el Center for Investigative Reporting, unimos una +base de datos simple en la que se podía hacer búsquedas, con una +plataforma de búsqueda fina que nos permitió saber, entre otras cosas, +cuántos usuarios valoran los hallazgos fortuitos y la exploración en +nuestras aplicaciones. + +A riesgo de parecer que lo único que le importa es la plata, siempre +piense en términos de [ganancias sobre la +inversión](http://bit.ly/cironline-return). Resuelva un problema +genérico; cree una nueva manera de atraer a los usuarios; ofrezca partes +de su trabajo con código abierto; use sistemas de medición para saber +más acerca de sus usuarios; o incluso descubra cómo puede generar +ingresos con partes de su aplicación, como lo hace Curbwise. + +#### En síntesis + +La creación de aplicaciones de noticias ha recorrido un largo camino en +muy poco tiempo. Las aplicaciones 1.0 eran muy parecidas a infografías +2.0, visualizaciones de datos interactivas, mezcladas con bases de datos +en las que se podía hacer búsquedas, dirigidas primordialmente a +sostener la narrativa de la historia. Ahora muchas de esas aplicaciones +pueden ser diseñadas por periodistas incluso cuando están apurados por +plazos de entrega usando herramientas de código abierto, lo que deja a +los programadores libres para pensar en cosas más importantes. + +Las aplicaciones 2.0, que es hacia donde se dirige el sector, tienen que +ver con combinar la narración y los puntos fuertes del periodismo como +servicio público con el desarrollo de productos y los conocimientos +tecnológicos. El resultado, sin duda, será una explosión de innovación +en torno a maneras de hacer que los datos sean relevantes, interesantes +y especialmente útiles para nuestro público y, al mismo tiempo, +esperemos que ayude al periodismo a hacer esto mismo. + +— *Chase Davis, Center for Investigative Reporting* + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @395, + #level : 2, + #nodesInPreorder : OrderedCollection [ + @403 + ], + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/difundir_datos_1.html' + ] + }, + GrafoscopioNode { + #header : 'Aplicaciones de noticias en ProPublica', + #body : 'Una aplicación es una gran base de datos interactiva que narra una +historia noticiosa. Piense en ella como lo haría con cualquier otra +pieza de periodismo. Simplemente usa software en vez de palabras e +imágenes. + +Al mostrar a cada lector datos que son específicos a él, una aplicación +puede ayudar a cada lector a comprender una historia de un modo que sea +personalmente significativo. Puede ayudar a un lector a comprender su +relación personal con un fenómeno nacional amplio y ayudarlo a +relacionar lo que sabe con lo que no sabe y por tanto alentar una +comprensión profunda de conceptos abstractos. + +Tendemos a crear aplicaciones de noticias cuando tenemos un conjunto de +datos (o creemos que podemos adquirir un conjunto de datos) que sea de +alcance nacional y a la vez lo suficientemente granular como para +exponer detalles significativos. + +Una aplicación debiera narrar una historia, y al igual que cualquier +buena historia, necesita un titular, una firma, un encabezado y una +síntesis que presente el contenido. Algunos de estos conceptos pueden +ser difíciles de distinguir en una pieza de software interactivo, pero +están allí si uno lo estudia atentamente. + +Además, una aplicación debiera ser generadora de más historias y más +informes. Las mejores aplicaciones de ProPublica han sido usadas como +base para historias locales. + +Por ejemplo, tomemos el caso de nuestra aplicación [Dollars for Docs](http://projects.propublica.org/docdollars). +Rastreaba pagos de compañías farmacéuticas por millones de dólares a médicos para que +hicieran consultoría, dieran conferencias y otras cosas por el estilo. +La aplicación que creamos permite a los lectores hacer una búsqueda +sobre su propio médico y ver los pagos que recibió. Periodistas de otras +organizaciones también usaron los datos. Más de 125 organizaciones de +noticias locales, incluyendo el Boston Globe, Chicago Tribune y St. +Louis Post-Dispatch hicieron investigaciones sobre médicos locales +basados en datos de Dollars for Docs. + +Unas cuantas de estas historias locales fueron resultado de asociaciones +formales, pero la mayoría se hicieron de modo independiente, en algunos +casos no tuvimos demasiado conocimiento –si es que supimos algo - de que +se estaba trabajando en la historia hasta que apareció. Como +organización pequeña pero de alcance nacional, este tipo de repercusión +es crucial para nosotros. No podemos tener conocimiento de lo que sucede +en 125 ciudades, pero si nuestros datos pueden ayudar a periodistas que +tienen conocimiento local a narrar historias con impacto, estamos +cumpliendo nuestra misión. + +Una de mis aplicaciones favoritas es [Mapping L.A.](http://projects.latimes.com/mapping-la/neighborhoods/) +de Los Ángeles Times, que comenzó como un mapa de varios barrios de esa ciudad +con datos del público y que hasta su aparición no tenían límites +aceptados por todos. Luego del primer proyecto con aportes del público +(crowdsourcing) el Times pudo usar los barrios como un gran dispositivo +de base para hacer informes de datos: cosas como la tasa de criminalidad +por barrio, calidad de las escuelas por barrio, etc., que antes no podía +hacer. De modo que Mapping L.A. no solo es a la vez genérico y +específico, es generador de proyectos y cuenta las historias de la +propia gente. + +Los recursos necesarios para crear una aplicación son muy variados. The +New York Times tiene docenas de personas trabajando en aplicaciones y +gráficos interactivos. Pero [Talking Points +Memo](http://polltracker.talkingpointsmemo.com/) hizo un seguidor de +encuestas políticas de última generación con 2 empleados, ninguno de los +cuales tenía título en ciencias de la computación. + +Al igual que la mayoría de los programadores que trabajan en +redacciones, seguimos una metodología Agile modificada para crear +nuestras aplicaciones. Iteramos rápidamente y mostramos borradores a la +otra gente de la redacción con la que trabajamos. Es de la mayor +importancia el hecho de que trabajamos en estrecho contacto con +periodistas y leemos sus borradores, incluso los muy iniciales. +Trabajamos mucho más como periodistas que como programadores +tradicionales. Además de escribir código, llamamos a las fuentes, +reunimos información y acumulamos experiencia. Sería difícil hacer una +buena aplicación usando material que no entendemos. + +¿Por qué debieran interesarse las redacciones en producir aplicaciones +basadas en datos? Tres razones: es excelente periodismo, es inmensamente +popular –los contenidos más populares de ProPublica son aplicaciones de +noticias- y si no lo hacemos, otro lo hará. Piense en todas las +exclusivas que nos perderíamos. Lo que es más importante, las +redacciones debieran saber que pueden hacerlo también. Es más fácil de +lo que parece. + +— *Scott Klein, ProPublica* + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @395, + #level : 2, + #nodesInPreorder : OrderedCollection [ + @408 + ], + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/difundir_datos_2.html' + ] + }, + GrafoscopioNode { + #header : 'La visualización como el caballo de tiro del periodismo de datos', + #body : 'Antes de lanzarse a tratar de armar cuadros o mapas con sus datos, +tómese un minuto para pensar acerca de los muchos roles que los +elementos gráficos estáticos e interactivos tienen en su trabajo +periodístico. + +En la fase de buscar la información, las visualizaciones pueden: + +- Ayudarlo a identificar temas y cuestiones para el resto de su tarea. +- Identificar cosas fuera de lugar: buenas historias o quizás errores + en sus datos. +- Ayudarlo a encontrar ejemplos típicos. +- Mostrar baches en sus informes. + +Las visualizaciones también tienen múltiples roles en la edición. +Pueden: + +- Ilustrar un argumento de una historia de un modo más convincente. +- Quitar información técnica innecesaria de la prosa. +- En particular cuando son interactivos y permiten la exploración, + ofrecen transparencia respecto de su proceso de información a sus + lectores. + +Estos roles sugieren que debiera comenzar temprano y a menudo con +visualizaciones en sus informes, sea o no que comience con datos o +registros electrónicos. No lo considere un paso por separado, algo a +considerar una vez que la historia en gran medida ya esté escrita. +Permita que este trabajo ayude a guiar su tarea periodística. + +Comenzar a veces significa simplemente poner las notas que ya tomó en +formato visual. Considere el gráfico en la Figura 6-2, que se publicó en +el Washington Post en 2006. + +![Subsidios agropecuarios a lo largo del tiempo (Washington Post)](figs/incoming/06-MM.png) + +Muestra la porción del ingreso agropecuario asociado con subsidios y +eventos claves en los últimos 45 años, y fue creado a lo largo de una +serie de meses. Encontrar datos que pudieran utilizarse para largos +períodos de tiempo con definiciones y significados similares fue un +desafío. Investigar todas las alzas y bajas nos ayudó a tener presente +el contexto mientras hacíamos el resto de nuestro trabajo. También +significó que la tarea estuvo prácticamente acabada antes de que se +escribieran las historias. + +A continuación, algunos consejos sobre el uso de visualizaciones para +comenzar a explorar sus conjuntos de datos. + +#### Consejo 1: Use pequeños múltiplos para orientarse rápidamente en un conjunto de datos grande + +Usé esta técnica en el Washington Post cuando seguimos una pista de que +la administración de George W. Bush estaba otorgando subsidios por +motivos políticos y no de fondo. La mayoría de estos programas de ayuda +se guían por fórmulas y otros han sido financiados desde hace años, por +lo que estábamos curiosos por ver si pudiéramos encontrar un patrón +analizando casi 1500 casos diferentes discrecionales. + +Creé un gráfico para cada programa, con puntos rojos indicando un año +con elecciones presidenciales y puntos verdes indicando elecciones +parlamentarias. El problema: sí, había un salto en los seis meses antes +de la elección presidencial en varios de estos programas –los puntos +rojos con los números pico junto a ellos- pero es el año electoral +equivocado. El patrón apareció de modo sistemático durante la elección +presidencial del 2000 entre Al Gore y George W. Bush, no la elección de +2004. + +![Subsidios HHS: los sparklines ayudan a encontrar historias (Washington Post)](figs/incoming/06-NN.png) + +Esto fue realmente fácil de ver en una serie de gráficos en vez de una +tabla numérica, y un formulario interactivo nos permitió verificar +varios tipos de subsidios, regiones y entes. Los mapas con pequeños +múltiplos pueden ser una manera un modo de mostrar tiempo y lugar en una +imagen estática que es fácil de comparar, a veces incluso más fácil que +la versión interactiva. + +Este ejemplo fue creado con un programa breve escrito en PHP, pero ahora +es mucho más fácil de hacer con Excel 2007 y los \\_sparklines\\_de 2010. +Edward Tufte, el experto en visualización, inventó estos “gráficos +intensos, simples, como palabras” para transmitir información con una +sola mirada basados en un conjunto de datos grandes. Ahora se los ve en +todas partes, desde los pequeños gráficos bajo las cotizaciones de la +bolsa hasta los records de triunfos y derrotas en deportes. + +#### Consejo 2: Mire sus datos del derecho y del revés + +Cuando trata de entender una historia o un conjunto de datos, no hay una +manera equivocada de mirar; inténtelo de todas las maneras que se le +ocurren y tendrán muchas perspectivas distintas. Si está informando +sobre criminalidad, podría ver un conjunto de cuadros con cambios en los +crímenes violentos en un año; otro podría indicar el cambio porcentual; +otro podría ser una comparación con otras ciudades, y otro podría ser de +cambios en el tiempo. Use cifras crudas, porcentajes e índices. + +Mírelos en distintas escalas. Trate de seguir la regla de que el eje de +las x debe estar en cero. Luego viole esa regla y vea si encuentra más +cosas. Pruebe con logaritmos y raíces cuadradas para datos con +distribuciones extrañas. + +Tenga en mente las investigaciones hechas con percepciones visuales. Los +experimentos de William Cleveland mostraron que los ojos ven cambios en +una imagen cuando la inclinación promedio es de alrededor de 45 grados. +Esto sugiere que hay que ignorar las admoniciones de que siempre se debe +comenzar desde cero y en cambio trabajar pensando en los gráficos que +permitan ver más cosas. Otras investigaciones sobre epidemiología han +sugerido que se puede encontrar un nivel determinado como delimitador +para su cuadro. Cada uno de estos modos permite ver los datos de modo +diferente. Cuando ya no le dicen nada nuevo sabe que acabó su tarea. + +#### Consejo 3: No dé nada por supuesto + +Ahora que ha mirado sus datos de distintos modos, probablemente habrá +encontrado registros que no parecen correctos: puede no haber entendido +lo que significaban o hay algunos casos fuera de lo común que parecen +errores de tipeo o hay tendencias que parecen invertir las cosas. + +Si quiere publicar algo basado en sus primeras exploraciones o en una +visualización, tiene que resolver estas cuestiones y no dar nada por +supuesto. Son historias interesantes o errores; desafíos interesantes a +las verdades sabidas o confusiones. + +No es inusual que gobiernos municipales den planillas de cálculo llenas +de errores, y es también fácil confundirse con la jerga oficial en un +conjunto de datos. + +Primero, vuelva a mirar su trabajo. ¿Ha leído la documentación, sus +advertencias, y existe el problema en la versión original de los datos? +Si todo lo hecho por usted parece estar bien, entonces es hora de tomar +el teléfono. Tendrá que conseguir resolverlo si quiere usarlo, por lo +que mejor ponerse ya mismo en marcha. + +Dicho esto, no todo error es importante. En los registros de finanzas de +campañas electorales, es común que haya varios cientos de códigos +postales que no existen en una base de datos de 100.000 registros. +Siempre que no sean todos en la misma ciudad o estén relacionados con un +mismo candidato, el registro ocasional equivocado simplemente no +importa. + +La pregunta que debe hacerse: ¿si fueran a usar esto, los lectores +tendrían una visión acertada en lo esencial de lo que dicen los datos? + +#### Consejo 4: Evite obsesionarse con la precisión + +La contracara de no hacer suficientes preguntas es obsesionarse con la +precisión antes de que importe. Sus gráficos exploratorios debieran ser +correctos en general, pero no se preocupe si tiene varios niveles de +redondeo, si no suman exactamente 100 por ciento o si le faltan datos de +1 o 2 años en 20 años. Esto es parte del proceso exploratorio. Aún así +verá las grandes tendencias y sabrá lo que tiene que buscar antes de que +llegue el momento de publicar. + +De hecho, podría considerar eliminar las marcas y los indicadores de +escala, como en los cuadros de más arriba, para tener una mejor visión +del sentido general de los datos. + +#### Consejo 5: Cree cronologías de casos y eventos + +Al comienzo de cualquier historia compleja, comience a crear cronologías +de eventos y casos claves. Puede usar Excel, un documento en Word, o una +herramienta especial como TimeFlow para la tarea, pero en algún punto +encontrará un conjunto de datos que puede usar como base de referencia. +Releerlo periódicamente le mostrará qué baches tiene en su informe que +deben cubrirse. + +#### Consejo 6: Reúnase desde el comienzo y a menudo con el departamento gráfico + +Intercambie ideas respecto de gráficos posibles con los ilustradores y +diagramadores de su redacción. Ellos tendrán buenas alternativas para +ver sus datos, sugerencias de cómo podría funcionar interactivamente, y +saben cómo conectar datos e historias. Le hará mucho más fácil su tarea +si sabe desde el comienzo qué es lo que tiene que buscar o si puede +alertar a su equipo de que no es posible realizar determinado gráfico +cuando no logra obtener los datos necesarios. + +#### Consejos para la publicación de datos + +Puede haber pasado solo unos pocos días o unas pocas horas en su +exploración, o puede haber tardado meses en reunir la información para +su historia. Pero cuando se acerca el momento de publicarla, hay dos +aspectos que se vuelven importantes. + +¿Se acuerda de ese año que le faltó en sus exploraciones iniciales? De +pronto ya no puede avanzar más sin esos datos. ¿Todos los datos con +problemas que ignoró en sus informes? Ahora vuelven como fantasmas. La +razón es que no se puede simplemente esquivar los problemas. Se tiene +todo lo que se necesita para un gráfico o no se lo tiene, y no hay +solución intermedia. + +El esfuerzo de recolección de los datos tiene que coincidir con lo que +requiere el gráfico interactivo:: No hay modo de ocultarse en un gráfico +interactivo. Si realmente va a hacer que sus lectores puedan explorar +los datos de cualquier manera que quieran, entonces cada elemento de los +datos tiene que ser lo que dice ser. Los usuarios pueden encontrar +cualquier error en cualquier momento, y eso podría afectarlo por meses o +años. Si está creando su propia base de datos, tiene que prever la +corrección de errores, el control de datos y la edición del texto de +toda la base de datos. Si está usando archivos oficiales, debe decidir +cuánto los va a controlar y qué piensa hacer cuando encuentre el +inevitable error. + + Diseñe pensando en dos tipos de lectores + +: El gráfico –sea un elemento interactivo que se presenta solo o una + visualización estática que acompaña su artículo- debe satisfacer a + dos tipos diferentes de lectores. Debe ser fácil de entender de un + vistazo, pero lo suficientemente complejo como para ofrecer algo + interesante a la gente que quiere ir más allá. Si lo hace + interactivo, asegúrese de que sus lectores obtengan algo más que una + sola cifra o número. + + Transmita una idea y luego simplifique + +: Asegúrese de que haya una cosa que quiere que la gente vea. Decida + cuál es la impresión general que quiere que tenga el lector y haga + que todo lo demás desaparezca. En muchos casos, esto significa + eliminar información aún cuando Internet le permita proveer todo. A + menos que su objetivo principal sea la transparencia en su actividad + periodística, la mayor parte de los detalles que ha recogido en su + línea de tiempo y cronología simplemente no son demasiado + importantes. En un gráfico estático serán intimidantes. En un + gráfico interactivo serán aburridos. + +— *Sarah Cohen, Duke University* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @395, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/difundir_datos_3.html' + ] + }, + GrafoscopioNode { + #header : 'El uso de visualizaciones para narrar historias', + #body : 'La visualización de datos amerita su consideración por varios motivos. +No solo puede ser llamativamente hermosa y atraer la atención –recurso +social valioso para compartir y atraer a los lectores- también aprovecha +una ventaja cognitiva poderosa: la mitad del cerebro humano está +dedicado a procesar información visual. Cuando se presenta a un usuario +un gráfico informativo, se está llegando a él a través de la vía de +banda más ancha de acceso a la mente. Una visualización de datos bien +diseñada puede ofrecer a los que la ven una impresión inmediata y +profunda, e ir al grando de la cuestión sin enredarse con todo lo que +hay en una historia compleja. + +Pero a diferencia de otros medios visuales –tales como la fotografía y +el video- la visualización de datos también está enraizada en hechos +mensurables. Aunque atractiva estéticamente, tiene menos carga +emocional, está más interesada en echar luz que calor. En una era de +medios con foco estrecho que a menudo están hechos a medida de públicos +con puntos de vista particulares, la visualización de datos (y el +periodismo de datos en general) ofrece la oportunidad tentadora de +narrar historias orientadas principalmente por los hechos y no el +fanatismo. + +Lo que es más, al igual que otras formas de periodismo narrativo, la +visualización de datos puede ser efectiva tanto para presentar noticias +nuevas –transmitiendo rápidamente nueva información al estilo de la +ubicación de un accidente y el número de víctimas- como artículos de +fondo, donde puede profundizar en un tema y ofrecer una nueva +perspectiva, ayudándolo a ver algo familiar de un modo completamente +nuevo. + +#### Ver lo familiar de un modo nuevo + +De hecho, la capacidad de las visualizaciones de datos de cuestionar las +verdades aceptadas es ejemplificada por un [gráfico +interactivo](http://nyti.ms/employment-lines) publicado por The New York +Times a fines de 2009, un año después de que comenzara la crisis +económica global. Con la tasa de desempleo nacional de Estados Unidos en +torno 9 %, los usuarios podían analizar la población del país con varios +filtros demográficos y educativos, para ver lo dramáticos que eran los +cambios en las tasas. Resultó que la tasa iba, de menos del 4% para +mujeres de edad media con títulos avanzados, hasta casi la mitad de +todos los jóvenes negros que no habían terminado la escuela secundaria, +y además esta disparidad no era nada nuevo: dato subrayado por líneas de +fiebre que mostraban los valores históricos para cada uno de esto +grupos. + +![La tasa de desempleo para personas como usted (New York Times)](figs/incoming/06-GG-01.png) + +Incluso cuando ya ha dejado de mirarla, una buena visualización de datos +se mete en su cabeza y deja un modelo mental duradero de un hecho, una +tendencia o un proceso. ¿Cuánta gente vio [la animación de +tsunamis](http://1.usa.gov/tsunami-animation) presentada por los +investigadores en diciembre de 2004, que mostraba olas en cascada +irradiando desde un terremoto indonesio a través del océano Índico, +amenazando a millones de residentes costeros en el sur de Asia y África +oriental? + +Las visualizaciones de datos –y las asociaciones estéticas que +engendran- pueden incluso convertirse en hitos culturales, tales como la +representación de las profundas divisiones políticas en Estados Unidos +luego de las elecciones del 2000 y 2004, cuando los estados republicanos +“rojos” llenaban el centro del país y los estados demócratas “azules” +formaban núcleos en el noreste y el lejano oeste. No importa que en los +medios de EE.UU. antes del 2000 las principales cadenas de medios habían +intercambiado el azul y el rojo muchas veces para representar a cada +partido, optando algunas incluso por alternar cada cuatro años. De allí +el recuerdo de algunos estadounidenses de la victoria épica en 49 +estados “azules” para los republicanos en 1984 liderada por Ronald +Reagan. + +Pero por cada gráfico que engendra un cliché visual, aparece otro que +aporta un poderoso testimonio fáctico, tal como [el mapa de +2006](http://nyti.ms/diaspora-graphic) de The New York Times que usó +círculos de distintos tamaños para mostrar donde vivían cientos de miles +de evacuados de New Orleans, desparramados por todo el continente por +una mezcla de vínculos personales y programas de relocalización. ¿Estos +evacuados “varados” podrían volver alguna vez a sus hogares? + +Ahora que hemos hablado del poder de la visualización de datos, es justo +preguntar cuándo debemos usarla y cuando *no*. Primero analizaremos +algunos ejemplos en los que la visualización de datos podría ser útil +para ayudar a narrar una historia a sus lectores. + +#### Mostrar el cambio a lo largo del tiempo + +Quizás el uso más común de la visualización de datos –personificado en +el humilde gráfico de fiebre- es mostrar cómo han cambiado valores a lo +largo del tiempo. El crecimiento de la +[población china desde 1960](http://bit.ly/google-china-population) o el +salto en el desempleo desde la caída económica de 2008, son buenos ejemplos. +Pero las visualizaciones de datos también pueden mostrar de modo muy poderoso +el cambio a lo largo del tiempo a través de otras formas gráficas. El +investigador portugués Pedro M. Cruz utilizó cuadros con forma de +círculos animados para mostrar dramáticamente la declinación de los +[imperios europeos occidentales](http://pmcruz.com/visual-experiments/visualizing-empires) +desde comienzos del siglo XIX. Medidos por su población total, Gran +Bretaña, Francia, España y Portugal estallan como burbujas al lograr la +independencia sus territorios extranjeros. Allí va México, Brasil, +Australia, la India, y esperen… allí van muchas colonias africanas a +comienzos de la década de 1960, con lo que casi desaparece Francia. + +Un [gráfico del Wall Street Journal](http://on.wsj.com/tech-empire) +muestra el número de meses que les llevó a varios empresarios llegar al +número de US\\$ 50 millones en ganancias. Creado utilzando Tableau +Public, una herramienta de gráficos y análisis de datos gratuita, la +comparación semeja las estelas superpuestas que dejan múltiples +aeronaves al despegar, algunas rápidas, otras lentas, algunas pesadas,. + +Hablando de aviones, otro gráfico interesante que muestra el cambio en +el tiempo presenta la participación en el [mercado de las principales +aerolíneas](http://nyti.ms/airline-merger) estadounidenses durante +varias décadas de concentración en el sector. + +Luego de que la administración Carter desregulara la aviación de +pasajeros, una seguidilla de adquisiciones financiadas con deuda creó +compañías de aeronavegación nacionales a partir de pequeñas aerolíneas +regionales, como ilustra este gráfico de The New York Times. + +![Rutas de vuelo convergentes (New York Times)](figs/incoming/06-GG-02-b.png) + +Dado que casi todos los lectores casuales ven el eje horizontal, de las +“x” de un cuadro, como representa el tiempo, a veces es fácil creer que +*todas* las visualizaciones deben mostrar el cambio en el tiempo. + +#### Comparar valores + +![Contar el costo humano de la guerra (BBC)](figs/incoming/06-GG-03.png) + +La visualización de datos también es útil cuando se trata de ayudar a +los lectores a comparar dos o más valores discretos, sea para poner en +contexto la pérdida trágica de hombres y mujeres de las fuerzas armadas +en los conflictos de Irak y Afganistán (comparándolos con los tantos +miles de muertos en Vietnam y los millones que murieron en la segunda +Guerra Mundial, como hizo la BBC en un slideshow de +[transparencias animadas](http://bbc.in/animated-slideshow) que acompaña +su base de datos de bajas); o cuando el National Geographic, utilizando un +[cuadro muy minimalista](http://bit.ly/ngm-hearts), mostró cuanto mayores +son las probabilidades de morir de enfermedad coronaria (probabilidad de 1 +en 5) o infarto (1 en 24) que en accidentes de aviación (1 en 5051) o +por una picadura de abeja (1 en 56789), mostrando las probabilidades +relativas de las distintas causas de muerte (todo dominado por un arco +inmenso que representa las probabilidades generales de morirse: 1 en 1). + +La BBC, en colaboración con la agencia Berg Design, también desarrolló +el sitio [“Dimensions”](http://howbigreally.com/), que le permite +superponer los contornos de los principales eventos mundiales –el +derrame de petróleo de la plataforma marina Deepwater Horizon o las +inundaciones paquistaníes, por ejemplo- a un Google Map de su propia +comunidad. + +#### Mostrar conexiones y flujos + +La introducción del ferrocarril de alta velocidad en Francia en 1981 no +achicó realmente el país, pero una representación visual ingeniosa +muestra cuanto menos tiempo lleva alcanzar distintos destinos comparado +con el ferrocarril convencional. Una grilla superpuesta al país aparece +de forma cuadrada en la imagen de “antes”, pero se ve aplastada hacia el +centro, París, en la de “después”, mostrando no solo que los destinos +están más “cerca”, sino que la mayor ganancia de tiempo se da en la +primera parte del viaje, antes de que los trenes tengan que bajar la +velocidad al llegar a vías no mejoradas. + +Para comparar entre dos variables distintas, vea +[el cuadro de Ben Fry](http://benfry.com/salaryper/) +evaluando el desempeño de equipo de Baseball de las Grandes Ligas relativo +a lo que ganan sus jugadores. +Una línea dibujada en rojo (mal desempeño) o azul (buen desempeño) conecta +los dos valores, dando de forma práctica una sensación de qué dueños de +equipos lamentan lo mal que le ha ido con jugadores caros. Más aún, el +recorrido de una línea de tiempo ofrece una imagen vívida de la +competencia por el campeonato. + +![Salario vs. desempeño (Ben Fry)](figs/incoming/06-GG-04.png) + +#### Diseñar con datos + +Similares a las conexiones gráficas en un sentido, los diagramas de +flujo también codifican información en las líneas de conexión, +generalmente de acuerdo al grosor y/o el color de las mismas. Por +ejemplo, con la Eurozona en crisis y varios miembros incapacitados para +pagar sus deudas, The New York Times buscó desentrañar +[la madeja de deudas](http://nyti.ms/eurozone-crisis) que vincula a los +miembros de la UE con sus socios comerciales al otro lado del Atlántico y en Asia. +En un “estado” de la visualización, el ancho de las líneas refleja el monto +del crédito que pasa de un país a otro, y tonos que van del amarillo al +naranja indican lo “preocupante” de la deuda, es decir, la +improbabilidad de su repago. + +Sobre un tópico más feliz, la revista National Geographic produjo un +[gráfico que parece simple](http://bit.ly/sankey-wine), mostrando las +conexiones de tres ciudades de EE.UU. –New York, Chicago y Los Ángeles- +con regiones productoras de vino importantes, y cómo los métodos de +transporte con los que se trae el producto de cada una de las fuentes +podrían resultar en una huella de carbono drásticamente diferente, +haciendo que para los neoyorquinos, por ejemplo, comprar en Burdeos sea +más “verde” que comprar vino de California. + +“SourceMap”, un proyecto iniciado en la escuela de estudios empresarios +del MIT, usa diagramas de flujo para analizar rigurosamente el +abastecimiento global de productos manufacturados, sus componentes y +materias primas. Gracias a mucha investigación un usuario ahora puede +buscar productos que van desde [zapatos de marca +Ecco](http://sourcemap.com/view/1760) hasta [jugo de +naranja](http://sourcemap.com/view/1011), y saber qué rincón del globo +es su origen y su correspondiente huella de carbono. + +#### Mostrar jerarquías + +En 1991 el investigador Ben Shneiderman inventó una nueva forma de +visualización llamada +["treemap"](http://www.cs.umd.edu/hcil/treemap-history/) que consiste de +múltiples cajas concéntricas. El área de cada caja indica la cantidad +que representa, en sí misma y como adición de sus contenidos. Se trate +de [visualizar un presupuesto nacional](http://openspending.org/) +dividido por entes oficiales y sub-entes, la bolsa de valores por sector +y compañía, o un lenguaje de programación por clases y sub-clases, el +"treemap" es una interfaz compacta e intuitiva para representar un ente +y sus partes constituyentes. Otro formato efectivo es el dendrograma, +que se ve como un cuadro de organización más típico, donde las +subcategorías salen de un solo tronco central. + +![OpenSpending.org (Open Knowledge Foundation)](figs/incoming/06-GG-06.png) + +#### Explorar grandes bases de datos + +A veces la visualización de datos es muy efectiva para tomar información +familiar y mostrarla desde un ángulo totalmente nuevo, ¿pero qué sucede +cuándo se tiene información nueva que la gente quiere navegar? La era de +los datos trae consigno descubrimientos nuevos sorprendentes casi todos +los días, desde el brillante análisis de [fotos de Flickr de Eric +Fischer](http://bit.ly/flickr-analysis) hasta la difusión por la +municipalidad de la ciudad de New York de miles de [evaluaciones de +docentes](http://projects.wsj.com/nyc-teachers/) hasta ese momento +confidenciales. + +Estas bases de datos son más poderosas cuando los usuarios pueden meter +mano y llegar hasta la información que les resulta más relevante. + +A comienzos de 2010, se le dio acceso a The New York Times a los +registros privados de Netflix de qué películas se alquilan más en cada +área. Si bien Netflix se negó a difundir las cifras en crudo, el Times +creó una [base de datos interactiva atractiva](http://nyti.ms/interactive-database) +que permite a los usuarios explorar las 100 películas más alquiladas en 12 zonas +metropolitanas de EE.UU., subdivididas hasta el nivel de código postal. +Un “mapa de calor” graduado por colores superpuesto a cada comunidad +permitía a los usuarios ver rápidamente dónde un título en particular +era más popular. + +Hacia el fin del mismo año, el Times publicó los resultados del +[censo decenal](http://nyti.ms/census-explorer) de los Estados Unidos, +apenas horas después de que fuera difundido. La interfaz, creada con Adobe +Flash, ofrecía una cantidad de opciones de visualización y permitía a +los usuarios llegar al nivel de cada bloque del censo en el país (de 8,2 +millones) para ver la distribución de residentes por raza, ingreso y +educación. Tal era la resolución de la base de datos que cuando se +buceaba en el conjunto de datos en las primeras horas después de su +publicación uno podía llegar a preguntarse si era la primera persona del +mundo en explorar determinado rincón de la base de datos. + +Entre los usos igualmente aplaudibles de la visualización como +presentación de una base de datos se incluyen la investigación por la +BBC de [muertes en las rutas](http://bbc.in/road-deaths) y muchos de los +intentos de indexar rápidamente grandes cúmulos de datos como la +difusión por WikiLeaks de los registros de guerra de Irak y Afganistán. + +![Cada muerte en las rutas de Gran Bretaña 1999-2010 (BBC)](figs/incoming/06-GG-07.png) + +#### La regla de 65k + +Al recibir la primera pila de datos de los registros de la guerra de +Afganistán de WikiLeaks, el equipo que los procesaba comenzó a +manifestar su entusiasmo por tener acceso a 65.000 registros militares. + +Esto inmediatamente hizo sonar la alarma entre quienes tenían +experiencia con Excel de Microsoft. Gracias a una limitación histórica +del modo en que se accede a las filas, la herramienta de importación de +Excel no procesa más de 65.536 registros. En este caso se descubrió que +faltaban 25.000 filas. + +La moraleja de esta historia (además de evitar usar Excel para tales +tareas) es siempre desconfiar de cualquiera que alardee de tener 65.000 +filas de datos. + +— *Alastair Dant, the Guardian* + +#### Imaginar resultados alternativos + +En The New York Times, el “cuadro puercoespín” de Amanda Cox con +[proyecciones de déficit de EE.UU.](http://nyti.ms/porcupine-graph) +trágicamente optimistas a lo largo de los años, muestra cómo a veces lo +que sucedió es menos interesante que lo que no sucedió. La curva de Cox +que muestra el alza del déficit fiscal luego de una década de guerra y +exenciones impositivas muestra lo poco realistas que pueden resultar las +expectativas del futuro. + +![Pronósticos presupuestarios, comparados con la realidad (New York Times)](figs/incoming/06-GG-08.png) + +Bret Victor, un diseñador de interfaces de Apple de larga trayectoria (y +originador de la teoría “\\_kill math\\_” o “matar la matemática” de +visualización para comunicar información cuantitativa), ha hecho un +[prototipo](http://worrydream.com/#!/TenBrighterIdeas) de una especie de +documento que se actualiza de conjunto cada vez que se modifica un dato. +En su ejemplo, las ideas de conservación de la energía incluyen premisas +modificables, por la que un paso simple como apagar las luces de los +cuartos en los que no hay gente podría ahorrar a los estadounidenses la +generación de 2 a 40 plantas de carbón. Cambiar el porcentaje que +aparece en el medio de un párrafo de texto hace que el resto de la +página se actualice en consonancia. + +Para más ejemplos y sugerencias, aquí va el link con una [lista de +links](http://bit.ly/ericson-links) de distintos usos de +visualizaciones, mapas y gráficos interactivos compilada por Matthew +Ericson de The New York Times. + +#### Cuándo no usar visualización de datos + +En definitiva, la visualización de datos efectiva depende de contar con +información buena, limpia, precisa y significativa. Así como muchas +citas, datos, y descripciones alimentan el buen periodismo narrativo, la +visualización de datos es tan buena como los datos que la alimentan. + +En qué casos su historia puede ser mejor narrada a través de texto o +multimedia:: A veces los datos por sí solos no narran la historia del +modo más convincente. Si bien un cuadro simple que ilustre una tendencia +o una estadística puede ser útil, una narrativa que relate las +consecuencias de una cuestión en el mundo real puede ser más inmediata y +de mayor impacto para un lector. + + Cuando tiene muy pocos datos + +: Se ha dicho que “una cifra aislada no quiere decir nada”. Una frase + común de los editores de noticias en respuesta a una estadística + citada es: “¿comparado con qué?” ¿La tendencia sube o baja? ¿Qué es + lo normal? + +Cuando tiene escasa variación en su datos, sin una tendencia o +conclusión clara:: A veces organiza sus datos en Excel o una aplicación +similar y descubre que la información es ruidosa, tiene mucha +fluctuación y muestra una tendencia relativamente chata. ¿Conviene +elevar la base de cero a justo debajo del valor más bajo para dar un +poco más de forma a la línea? ¡No! Parece que lo que tiene son datos +ambiguos y necesita buscar y analizar un poco más. + + Cuando un mapa no es un mapa + +: A veces el elemento espacial no es significativo ni convincente, o + distrae la atención de las tendencias numéricas pertinentes, como el + cambio en el tiempo o mostrar las similitudes entre zonas no + adyacentes. + + Cuando bastaría con una tabla + +: Si cuenta con relativamente pocos puntos de datos pero tiene + información que podría ser útil para algunos de sus lectores, + considere simplemente presentar los datos en forma tabular. Es + limpio, de fácil lectura y no crea expectativas no realistas de una + “historia”. De hecho, las tablas pueden ser una forma muy eficiente + y elegante de presentar información básica. + +— *Geoff McGhee, Stanford University* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @395, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/difundir_datos_4.html' + ] + }, + GrafoscopioNode { + #header : 'Cuadros diferentes dicen cosas diferentes', + #body : 'En este mundo digital, con la promesa de experiencias 3D de inmersión, +tendemos a olvidar que por tanto tiempo solo tuvimos tinta en papel. +Ahora pensamos en este medio estático, plano, como un ciudadano de +segunda, pero de hecho a lo largo de los siglos que hemos estado +escribiendo e imprimiendo, hemos logrado una increíble riqueza de +conocimiento y prácticas para representar los datos en una página. +Aunque los cuadros, las visualizaciones de datos y las infografías +interactivas son la gran moda, nos llevan a dejar de lado muchas de las +mejores prácticas que hemos aprendido. Solo estudiando la historia de +cuadros y gráficos bien logrados es que podemos entender esos +conocimientos acumulados y aprovecharlos con los nuevos medios. + +Algunos de los cuadros y gráficos más famosos derivan de la necesidad de +explicar mejor tablas de datos densas. William Playfair era un políglota +escocés que vivió desde fines del siglo XVIII hasta comienzos del XIX. +Por sí solo presentó al mundo muchos de los cuadros y gráficos que +seguimos utilizando hoy. En su libro de 1786, *Commercial and Political +Atlas* (Atlas Comercial y Político), Playfair introdujo el gráfico de +barras para mostrar claramente las cantidades de importaciones y +exportaciones de Escocia de un modo nuevo y visual. + +Luego popularizó el cuadro de torta en su libro de 1801, *Statistical +Breviary* (Breviario Estadístico). La necesidad de estas nuevas formas +de cuadros y gráficos provino del comercio, pero con el paso del tiempo +aparecieron otros que fueron utilizados para salvar vidas. En 1854 John +Snow creó su ahora famoso “Cholera Map of London” (Mapa del Cólera de +Londres), agregando una pequeña barra negra sobre cada dirección en la +que se reportó un incidente. Con el tiempo, se pudo ver cualquier +densidad evidente de la epidemia y actuar en consecuencia para contener +el problema. + +Con la práctica los practicantes de estos nuevos cuadros y gráficos se +volvieron más audaces y experimentaron más allá, llevando el recurso a +los niveles que conocemos hoy. André-Michel Guerry fue el primero en +publicar la idea de un mapa en el que regiones individuales se +identificaban con distintos colores basados en alguna variable. En 1829 +creó el primer coroplético dando distinto tono a las regiones de Francia +representando niveles de criminalidad. Hoy vemos tales mapas utilizados +para mostrar los resultados de encuestas políticas, quién votó por +quién, distribución de la riqueza y muchas otras variables con +distribución geográfica. Parece una idea tan simple pero aún hoy es +difícil de dominar y comprender si no se la usa juiciosamente. + +![Uno de los primeros gráficos de barras (William Playfair)](figs/incoming/06-TT-01.gif) + +![Mapa del cólera de Londres (John Snow)](figs/incoming/06-TT-02.jpg) + +![Mapa coroplético de Francia mostrando niveles de criminalidad (André-Michel Guerry)](figs/incoming/06-TT-03.jpg) + +Hay muchas herramientas que un buen periodista tiene que entender y +tener en su herramental para construir visualizaciones. En vez de +zambullirse directo en la parte más honda de la piscina, es importante +tener una base en materia de cuadros y gráficos. Todo lo que cree tiene +que originarse en una serie de cuadros y gráficos atómicos. Si puede +dominar lo básico, entonces puede construir visualizaciones más +complejas que se arman a partir de estas unidades básicas. + +Dos de los tipos más básicos de gráficos son los de barras y de curvas. +Si bien son muy similares en cuanto a los casos en los que se usan, +también pueden diferir mucho en su significado. Tomemos por caso las +ventas de una compañía para cada mes del año. Tendríamos las 12 barras +que representan el monto de dinero que entra cada mes ([Figure14](#FIG0618)). + +Analicemos por qué esto debe hacerse con barras en vez de un gráfico de +curvas. Los gráficos de líneas son ideales para datos continuos. En el +caso de las cifras de ventas, se trata de la suma de cada mes, no datos +continuos. En base a las barras, sabemos que en enero, la compañía tuvo +ingresos por \\$ 100 y en febrero \\$ 120. Si convertimos esto en un +gráfico lineal, de todos modos representaría \\$ 100 y \\$ 120 el primero +de cada mes, pero al día 15 del mes parece que hubiera tenido ingresos +de \\$ 110. Lo que no es cierto. Las barras se usan para unidades +discretas de medida, mientras que las líneas se usan cuando se trata de +un valor continuo, como la temperatura. + +![Un cuadro de barras simple: útil para representar cantidad discreta de información](figs/incoming/06-TT-04.png) + +Podemos ver que a las 8:00 la temperatura era de 20°C y a las 9:00, +22°C. Si miramos la curva para adivinar la temperatura a las 8:30 +diríamos 21°C, lo que es un estimado correcto dado que la temperatura es +continua y cada punto no es la suma de otros valores; representa el +valor exacto en el momento o un estimado entre dos mediciones exactas. + +![Gráficos de curva simples: útiles para representar información continua](figs/incoming/06-TT-05.png) + +Tanto el gráfico de barras como el de curvas tienen una variante de +gráfico apilado ([Figure 17](#FIG0621)). Esta es una excelente +herramienta para narrar historias que puede funcionar de distintos +modos. Pensemos, por ejemplo, en una compañía que tiene tres tiendas. + +Para cada mes tenemos 3 barras, una por cada tienda, 36 en total para el +año. Cuando las colocamos una junta a la otra ([Figure 16](#FIG0620)) +podemos ver rápidamente qué tienda ganó más en cada mes. Esta es una +historia interesante y válida, pero hay otra oculta en los mismos datos. +Si apilamos las barras, de modo que haya una sola por cada mes, ahora +perdemos la posibilidad de ver fácilmente cuál tienda gana más, pero +podemos ver en qué meses la compañía tiene mejores resultados de +conjunto. + +![Un gráfico de barras agrupadas](figs/incoming/06-TT-06.png) + +![Un gráfico de barras apiladas](figs/incoming/06-TT-07.png){#FIG0621} + +Ambas son representaciones válidas de la misma información, pero +presentan dos historias diferentes usando los mismos datos. Como +periodista, el aspecto más importante de trabajar con datos es que +primero debe escoger qué historia quiere contar. ¿Se trata de cuál es el +mejor mes en cuanto a ingresos totales o cuál tienda es la nave +insignia? Este es solo un ejemplo simple, pero muestra cuál es el centro +del periodismo de datos: Hacer la pregunta indicada antes de avanzar +demasiado. La historia es la que guía la elección de la visualización. + +Los gráficos de barras y curvas son en realidad lo básico del periodismo +de datos. De allí se puede expandir a los histogramas, diagramas de +área, "sparklines", gráficos de flujo y otros, que tienen propiedades +similares y son adecuados para situación con ligeras diferencias, +incluyendo la cantidad de datos o fuentes de datos y la ubicación del +gráfico en términos del texto. + +En periodismo uno de los recursos gráficos más comúnmente utilizados son +los mapas. En ellos hay tiempo, cantidades y geografía. Siempre queremos +saber cuánto hay en un área comparada con otra área y cómo fluyen los +datos de un área a otra. Los diagramas de flujo y los mapas coropléticos +son herramientas muy útiles cuando se trata de visualizaciones para +periodismo. Es clave saber cómo codificar un mapa con colores sin dar +una representación equivocada o confundir a los lectores. Los mapas +políticos por lo general tienen un código de color que indica todo a +nada para determinadas regiones, aún si un candidato ganó en una parte +del país por 1%. El color no tiene por qué reducirse a una opción +binaria; se puede usar con cuidado gradientes de color basados en +grupos. Entender los mapas es una parte importante del periodismo. +Contestan fácilmente una de las cinco preguntas claves: ¿Dónde? + +Una vez dominados los tipos básicos de cuadros y gráficos, se pueden +comenzar a crear visualizaciones de datos más sofisticadas. Si no +entiende lo básico, entonces está parado sobre terreno poco firme. De la +misma manera que aprende a ser buen escritor –hacer frases cortas, tener +presente el público y no complicar exageradamente las cosas para hacerse +sonar inteligente, sino más bien transmitir el significado al lector- +también debe aprender a mesurarse con los datos. Comenzar por algo +pequeño es la manera más efectiva de narrar la historia, incrementando +lentamente en la medida de lo necesario. + +> La escritura vigorosa es concisa. Una frase no debe contener palabras +innecesarias, el párrafo no debe contener frases innecesarias, por el +mismo motivo que un dibujo no debe tener líneas innecesarias y una +máquina no debe tener partes innecesarias. Esto requiere no que el +escritor haga que todas sus frases sean cortas o que evite dar detalles +y que solo de un bosquejo de sus personajes, sino que toda palabra sea +dicente. + +> — William Strunk Jr. *Elements of Style (1918)*\\ + +Está bien no usar todos los datos que tiene en su historia. No debiera +tener que pedir permiso para ser conciso, esa debe ser la norma. + +— *Brian Suda, (optional.is)* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @395, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/difundir_datos_5.html' + ] + }, + GrafoscopioNode { + #header : 'Selección de herramientas "Hágalo Ud. mismo" para hacer sus propias visualizaciones de datos.', + #body : '¿Qué herramientas de visualizaciones de datos se consiguen en la red en +forma gratuita? [Aquí](http://www.guardian.co.uk/data) en el Datablog y +Datastore tratamos de hacer lo más posible usando las poderosas opciones +gratuitas de internet. + +Eso puede sonar un poco falso, dado que obviamente tenemos acceso a los +increíbles equipos de gráficos e interactivos de The Guardian para las +piezas en las que contamos con un poco más de tiempo, tales como este +[mapa de gasto público](http://bit.ly/guardian-spending), creado +utilizando Adobe Illustrator) o este [interactivo de +disturbios](http://bit.ly/guardian-riots) de Twitter. + +Pero para nuestro trabajo cotidiano, a menudo usamos herramientas a las +que cualquiera tiene acceso y creamos gráficos que cualquiera puede +hacer. + +¿Entonces, qué usamos? + +#### Google Fusion Tables + +[Esta base de datos y herramienta de mapeado online](http://www.google.com/fusiontables/Home/) se ha vuelto nuestra primera elección para producir mapas rápidos y detallados, +especialmente aquellos que requieren zoom. Se tiene la alta resolución de Google + Maps, pero puede abrir muchos datos, por ejemplo, 100 MB de CSV. +La primera vez que uno lo intenta las Fusion Tables pueden parecer un poco +complicadas, pero no se rinda. Lo utilizamos para producir mapas como el +de Irak en la [Figure 18](#FIG0622) y también mapas de fronteras como la +[Figure 19](#FIG0623) sobre los sin techo. + +![Los registros de guerra de WikiLeaks (The Guardian)](figs/incoming/06-LL-01.jpg){#FIG0622} + +![Mapa interactivo de personas sin hogar (The Guardian)](figs/incoming/06-LL-02.jpg){#FIG0623} + +La principal ventaja es la flexibilidad –puede subir un archivo KML de +fronteras regionales, por ejemplo- y luego fusionar eso con una tabla de +datos. Además va a tener una nueva interfaz de usuario, lo que debe +facilitar su uso. + +No se necesita ser programador para hacerlo y esta +[herramienta de fusión de capas](http://bit.ly/fusion-layers) le permite unir distintos +mapas o crear opciones de búsqueda o filtrado, que luego puede +incorporar en un blog o sitio. + +Este excelente [tutorial de Kathryn Hurley](http://bit.ly/fusiontables-tutorial) de Google es un gran +recurso para comenzar. + + ++-----------------------------------+-----------------------------------+ +|
| | +| | | +| Note | Use | +| | [shpescape](http://www.shpescape. | +| | com/) | +| | para convertir archivos .shp | +| | oficiales en Google *Fusion | +| | Tables*. También esté atento a | +| | que los mapas no sean demasiado | +| | complicados porque el programa no | +| | puede manejar más de un millón de | +| | puntos por celda. | +| | | +| | | ++-----------------------------------+-----------------------------------+ + +#### Tableau Public + +Si no necesita el espacio ilimitado de la edición profesional, [Tableau +Public](http://www.tableausoftware.com/public) es gratuito. Con este +servicio visualizaciones bastante complejas de hasta 100.000 filas de +modo simple y fácil. Lo utilizamos cuando tenemos que unir distintos +tipos de cuadros, como en este [mapa de tasas +impositivas](http://bit.ly/guardian-top-tax) máximas en todo el mundo, +que también tiene un cuadro de barras). + +O incluso puede usarlo como explorador de datos, que es lo que hicimos +en la [Figure 20](#FIG0624) con los [datos de gastos en las elecciones +federales de EE.UU](http://bit.ly/guardianelections-us), si bien nos +quedamos cortos de espacio en la versión gratuita… algo a tener en +cuenta). Tableau también necesita que los datos estén formateados de +modos bastante específicos para poder aprovecharlo al máximo. Pero si +logra manejar eso tiene algo intuitivo que funciona bien. Por ejemplo, +La Nación en la Argentina ha construido toda su [operación de periodismo +de datos](http://www.lanacion.com.ar/data/) en torno a Tableau. + +![Finanzas de la campaña presidencial 2012 (The Guardian)](figs/incoming/06-LL-03.png){#FIG0624} + +Tableau tiene algunos [tutoriales online](http://www.tableausoftware.com/learn/training) +buenos con los cuales puede comenzar. + ++-----------------------------------+-----------------------------------+ +|
| | +| | | +| Note | Tableau es para PC aunque se está | +| | preparando una versión para Mac. | +| | Use un "mirror" tal como | +| | "parallels" para hacerlo | +| | funcionar. (N. del T.: una | +| | aplicación de MAC para poder usar | +| | programas de Windows). | +| | | +| | | ++-----------------------------------+-----------------------------------+ + + +#### Gráficos con Google Spreadsheets + +Puede acceder a esta herramienta en [Google Spreadsheets](http://google-d-s/spreadsheets/) + +![Gasto público e impuestos Reino Unido (The Guardian)](figs/incoming/06-LL-04.jpg) + +Luego de algo simple (como un gráfico de barras o curvas, o un gráfico +de torta), encontrará que las Google Spreadsheets (que se crean con los +documentos de su cuenta Google) pueden generar algunos gráficos bastante +buenos, incluyendo las burbujas animadas usadas por el +[Gapminder](http://www.gapminder.org/) de Hans Rosling. A diferencia de +los [gráficos API](http://code.google.com/apis/chart/) no necesita +preocuparse por el código; es bastante similar a hacer un gráfico en +Excel, en el sentido de que uno selecciona los datos y hace clic en el +*widget* de gráficos. También vale la pena explorar las opciones de +personalización; se puede cambiar el color, los encabezados y las +escalas. Son bastante neutrales respecto del diseño, lo que es útil en +gráficos pequeños. Los gráficos de curvas también tienen algunas +opciones lindas, incluyendo opciones para anotaciones. + ++-----------------------------------+-----------------------------------+ +|
| | +| | | +| Note | Dedique algo de tiempo a las | +| | opciones de personalización de | +| | los gráficos; puede crear su | +| | propia paleta de colores. | +| | | +| | | ++-----------------------------------+-----------------------------------+ + + +#### Datamarket + +Más conocido como proveedor de datos, +[Datamarket](http://bit.ly/datamarket-explore) es en realidad una +herramienta práctica para visualizar cifras. Puede subir sus propios +datos o usar algunos de los muchos conjuntos de datos que ofrecen, pero +las opciones son mejores si paga por una cuenta Pro. + ++-----------------------------------+-----------------------------------+ +|
| | +| | | +| Note | Datamarket funciona de la mejor | +| | manera con datos de series | +| | temporales, pero no deje de ver | +| | su extensa variedad de datos. | +| | | +| | | ++-----------------------------------+-----------------------------------+ + +#### Many Eyes + +Si hay un sitio que está necesitado de un poco de atención y cuidado es +[Many Eyes](http://ibm.co/ibm-manyeyes) de IBM. Cuando se presentó, +creado por [Fernanda B. Viégas](http://fernandaviegas.com/) y [Martín +Wattenberg](http://www.bewitched.com/), fue un ejercicio único en cuanto +a permitir a la gente subir conjuntos de datos de modo simple y +visualizarlos. Ahora, con sus creadores trabajando para Google, el sitio +parece un poco desatendido, con sus paletas de colores apagados; hace +tiempo que no ofrece nada nuevo en materia de visualizaciones. + +![[Villanos de Doctor Who](http://bit.ly/guardian-dr-who); The Guardian](figs/incoming/06-LL-06.jpg) + ++-----------------------------------+-----------------------------------+ +|
| | +| | | +| Note | No se puede editar los datos una | +| | vez subidos, de modo que | +| | asegúrese de que estén bien antes | +| | de crear la visualización. | +| | | +| | | ++-----------------------------------+-----------------------------------+ + +#### Color Brewer + +No es estrictamente una herramienta de visualización, +[Color Brewer](http://colorbrewer2.org/) sirve en realidad para elegir colores +de mapas. Puede escoger su color de base y obtener los códigos para toda +la paleta. + +#### Y algunos más + +Si ninguno de estos le sirve, vale la pena ver lo que hay en +[DailyTekk](http://bit.ly/dailytekk-infographic) que tiene aún más +opciones. Las señaladas no son las únicas herramientas, solo aquellas +que usamos con mayor frecuencia. Hay muchas más por allí, incluyendo: + +- [Chartsbin](http://chartsbin.com/), una herramienta para crear + mapamundis en los que se puede hacer clic. +- [iCharts](http://www.icharts.net/), que se especializa en pequeños + "widgets" de gráficos +- [Geoccomons](http://geocommons.com/) que ofrece datos y datos de + fronteras para crear mapas globales y locales. +- Y también está [pikctochart.com](http://piktochart.com/) que ofrece + plantillas para esas visualizaciones de texto/cifras que son + populares. + +— *Simon Rogers, the Guardian* +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @395, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/difundir_datos_6.html' + ] + }, + GrafoscopioNode { + #header : 'Cómo presentamos los datos en el Verdens Gang', + #body : 'El periodismo busca llevar nueva información al lector lo más rápido +posible. La manera más rápida de hacerlo puede ser mediante un video, +una foto, un texto, un gráfico, una tabla o una combinación de éstos. +Respecto de las visualizaciones, el objetivo debiera ser el mismo: +información rápida. Las nuevas herramientas de datos permiten a los +periodistas encontrar historias que de otro modo no podrían descubrir, y +presentarlas de nuevas maneras. Estos son unos cuantos ejemplos que +muestran cómo presentamos los datos en el diario más leído de Noruega, +Verdens Gang (VG). + +#### Cifras + +[Esta historia](http://bit.ly/vg-lotto) se basa en datos de la Dirección +de Estadísticas de Noruega, datos de contribuyentes, y del monopolio +nacional de lotería. En este gráfico interactivo el lector podría +encontrar distintos tipos de información de cada condado y municipalidad +noruega. La tabla muestra el porcentaje de los ingresos que se usa para +jugar. Se creó usando Access, Excel, MySql y Flash. + +#### Redes + +Analizamos las redes sociales para estudiar las relaciones entre 157 +hijos e hijas de las personas más ricas de Noruega. Nuestro análisis +mostró que los herederos de la gente más rica de Noruega también +heredaron las redes de sus padres. En total había más de 26.000 +conexiones, y los gráficos se terminaron a mano usando Photoshop. Usamos +Access, Excel, Notepad, y la herramienta de análisis de redes sociales +Ucinet. + +![Mapeado de datos de contribuyentes y de la lotería (Verdens Gang)](figs/incoming/06-RR-01.png) + +![Los pájaros del mismo plumaje se unen (Verdens Gang)](figs/incoming/06-RR-02.png) + +#### Mapas + +En este [mapa de calor animado](http://bit.ly/vg-heatmap) combinado con +un gráfico de barras simple se puede ver la incidencia de crímenes en un +mapa del centro de Oslo, hora por hora, a lo largo de los fines de +semana por varios meses. En el mismo mapa de calor animado, se puede ver +la cantidad de agentes de policía trabajando al mismo tiempo. En los +momentos en que se dan los crímenes, la cantidad de agentes de policía +está en su punto más bajo. + +![Mapa de calor animado (Verdens Gang)](figs/incoming/06-RR-03.png) + +#### "Text Mining" (Minado de texto) + +Para [esta visualización](http://bit.ly/vg-vis), hicimos minería de +texto de los discursos de siete líderes de partidos noruegos durante sus +congresos. Todos los discursos fueron analizados y los análisis +aportaron los argumentos de algunas historias. Cada historia se vinculó +con el gráfico y los lectores pudieron explorar y estudiar el lenguaje +utilizado por los políticos. Creamos esta visualización utilizando +Excel, Access, Flash e Illustrator. Si ésto se hubiera hecho en 2012, +hubiéramos creado el gráfico interactivo con JavaScript. + +![Minado de texto de discursos de líderes partidarios (Verdens Gang)](figs/incoming/06-RR-04.png) + +#### Notas finales + +¿Cuándo necesitamos visualizar una historia? La mayoría de las veces no +es necesario, pero a veces queremos hacerlo para ayudar a nuestros +lectores. Las historias que contienen una gran cantidad de datos a +menudo necesitan de una visualización. Pero tenemos que ser bastante +críticos al elegir qué tipo de datos vamos a presentar. Conocemos todo +tipo de cosas cuando informamos sobre algo, ¿pero qué necesita saber +realmente el lector sobre la historia? Quizás baste una tabla, o un +gráfico simple que muestra un proceso que va del año A al año C. Cuando +se trabaja con periodismo de datos, el objetivo no es necesariamente +presentar grandes cantidades de datos. Se trata de periodismo. + +Ha habido una clara tendencia en los últimos dos o tres años a crear +gráficos y tablas interactivas que permiten al lector investigar +distintos temas. Una buena visualización es como una buena imagen. Se +entiende de qué se trata con solo mirar uno o dos instantes. Cuanto más +se mira la visualización, más se ve. La visualización es mala cuando el +lector no sabe por dónde empezar o donde termina, y cuando la +visualización está sobrecargada de detalles. En este caso, quizás una +pieza de texto sería mejor. + + +— *John Bones, Verdens Gang* + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @395, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/difundir_datos_7.html' + ] + }, + GrafoscopioNode { + #header : 'Los datos públicos se vuelven sociales', + #body : 'Los datos son valiosos. El acceso a los datos tiene el potencial de +clarificar cuestiones de un modo que genere resultados. Pero el mal +manejo de los datos puede ubicar los hechos en una estructura opaca que +no comunica nada. Si no promueven la discusión o aportan una comprensión +en contexto, los datos pueden ser de limitado valor para el público. + +Nigeria volvió a la democracia en 1999 luego de largos años de gobierno +militar. Analizar los hechos detrás de los datos se consideraba una +afrenta a la autoridad y como un intento de cuestionar la manchada +reputación de la junta. La Ley de Secreto Oficial obligaba a los +empleados públicos a no difundir información oficial. Aún pasados trece +años del regreso a la democracia, el acceso a los datos públicos puede +ser una tarea difícil. Los datos sobre el gasto público comunican poco a +la mayoría del público que no conoce demasiado la contabilidad +financiera y la aritmética compleja. + +Al imponerse el uso de dispositivos móviles y con un creciente número de +nigerianos online, junto con BudgIT vimos una gran oportunidad de usar +tecnologías de visualización de datos para explicar y hacer que la gente +se interesara por el gasto público. Para hacer esto, tuvimos que +dirigirnos a usuarios de todo tipo de plataformas y llegar a los +ciudadanos vía organizaciones no gubernamentales. Este proyecto apunta a +convertir los datos públicos en objeto social y crear una red extensa +que exija cambios. + +![La aplicación de BudgIT (BudgIT Nigeria)](figs/incoming/06-YY.png) + +Para entablar exitosamente la relación con los usuarios, tenemos que +entender lo que quieren. ¿Qué le importa al ciudadano nigeriano? ¿Dónde +sienten que hay falta de información? ¿Cómo podemos hacer que los datos +sean relevantes para sus vidas? El blanco inmediato de BudgIT es el +nigeriano alfabetizado promedio conectado a foros online y medios +sociales. Para competir por la limitada atención de los usuarios +inmersos en una amplia variedad e intereses (juegos, lectura, +socialización) tenemos que presentar los datos de modo breve y conciso. +Luego de difundir una imagen de los datos como un tuit o una infografía, +existe la oportunidad de una relación más sostenida con una experiencia +más interactiva para dar a los usuarios una visión más amplia. + +Al visualizar datos es importante comprender el nivel de manejo de datos +que tienen nuestros usuarios. Por hermosos y sofisticados que puedan +ser, los diagramas complejos y las aplicaciones interactivas pueden no +comunicar de un modo significativo a nuestros usuarios en base a sus +anteriores experiencias con la interpretación de datos. Una buena +visualización habla al usuario en un lenguaje que puede entender, y +presentará una historia con la que puede relacionarse fácilmente. + +Hemos consultado a más de 10.000 nigerianos respecto del presupuesto, y +los dividimos en tres categorías de acuerdo a su perfil para asegurar el +valor óptimo. Explicamos brevemente las categorías a continuación: + + Usuarios ocasionales + +: Son usuarios que quieren información de modo simple y rápido. Les + interesa tener una idea de los datos, no un análisis detallado. + Podemos dirigirnos a ellos vía tweet o gráficos interactivos. + + Usuarios activos + +: Usuarios que estimulan el debate y usan los datos para incrementar + su conocimiento de un área determinada o cuestionan los supuestos de + los datos. A estos usuarios, queremos proveerles mecanismos de + retroalimentación y la posibilidad de compartir su visión con sus + pares vía las redes sociales. + + Acaparadores de datos + +: Estos usuarios quieren datos en crudo para hacer visualizaciones o + análisis. Simplemente les damos los datos para sus propósitos. + +Con BudgIT nuestra relación con los usuarios se basa en lo siguiente: + + Estimular debates en torno a tendencias actuales + +: BudgIT sigue debates online y offline y busca proveer datos sobre + estos tópicos. Por ejemplo, con las huelgas del combustible en enero + de 2012, hubo constante agitación entre los manifestantes respecto + de la necesidad de que volviera a haber subsidios al combustible y + reducir los gastos públicos extravagantes e innecesarios. BudgIT + siguió el debate vía los medios sociales y en 36 horas con mucho + esfuerzo creó una aplicación que permite a los ciudadanos + reorganizar el presupuesto nigeriano. + + Buenos mecanismos de retroalimentación + +: Nos relacionamos con los usuarios a través de canales de debate y + medios sociales. Muchos usuarios quieren conocer las historias + detrás de los datos y muchos nos piden nuestra opinión. Nos + aseguramos de que nuestras respuestas solo expliquen los hechos + detrás de los datos y no se vean afectadas por nuestros puntos de + vista personales o políticos. Tenemos que mantener abiertos canales + de retroalimentación, responder activamente a comentarios y + relacionarnos con los usuarios de modo creativo para asegurar que se + mantenga la comunidad creada en torno a los datos. + + Hacerlo local + +: En el caso de un conjunto de datos que apunta a un grupo en + particular, BudgIT busca localizar su contenido y promover un canal + de debate que se relacione con las necesidades e intereses de grupos + particulares de usuarios. En particular, nos interesa relacionarnos + con usuarios en torno a cuestiones que les preocupan vía SMS. + +Luego de poner los datos sobre el gasto público en yourbudgit.com, +buscamos tomar contacto con los ciudadanos a través de varias ONG. +También pensamos desarrollar un marco de participación en el que +ciudadanos e instituciones oficiales puedan realizar asambleas públicas +para definir ítems claves del presupuesto que deben ser priorizados. + +El proyecto ha sido cubierto por medios locales y extranjeros, desde +[CP-Africa](http://bit.ly/cp-africa-budget) hasta [la +BBC](http://bbc.in/africa-budget). Hemos emprendido un estudio de los +presupuestos entre 2002 y 2011 para el sector de seguridad para un +periodista de la AP, Yinka Ibukun. La mayoría de las organizaciones de +medios son “acaparadores de datos” y nos han pedido datos para usar en +sus informes. Estamos planeando nuevas colaboraciones con periodistas y +organizaciones noticiosas en los meses venideros. + + +— *Oluseun Onigbinde, BudgIT Nigeria* + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @395, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/difundir_datos_8.html' + ] + }, + GrafoscopioNode { + #header : 'Interactuar con la audiencia en torno a sus datos', + #body : '### Los datos públicos se vuelven sociales + +Los datos son valiosos. El acceso a los datos tiene el potencial de +clarificar cuestiones de un modo que genere resultados. Pero el mal +manejo de los datos puede ubicar los hechos en una estructura opaca que +no comunica nada. Si no promueven la discusión o aportan una comprensión +en contexto, los datos pueden ser de limitado valor para el público. + +Nigeria volvió a la democracia en 1999 luego de largos años de gobierno +militar. Analizar los hechos detrás de los datos se consideraba una +afrenta a la autoridad y como un intento de cuestionar la manchada +reputación de la junta. La Ley de Secreto Oficial obligaba a los +empleados públicos a no difundir información oficial. Aún pasados trece +años del regreso a la democracia, el acceso a los datos públicos puede +ser una tarea difícil. Los datos sobre el gasto público comunican poco a +la mayoría del público que no conoce demasiado la contabilidad +financiera y la aritmética compleja. + + +Al imponerse el uso de dispositivos móviles y con un creciente número de +nigerianos online, junto con BudgIT vimos una gran oportunidad de usar +tecnologías de visualización de datos para explicar y hacer que la gente +se interesara por el gasto público. Para hacer esto, tuvimos que +dirigirnos a usuarios de todo tipo de plataformas y llegar a los +ciudadanos vía organizaciones no gubernamentales. Este proyecto apunta a +convertir los datos públicos en objeto social y crear una red extensa +que exija cambios. + +![Figure 27. La aplicación de BudgIT (BudgIT Nigeria)](figs/incoming/06-YY.png) + +Para entablar exitosamente la relación con los usuarios, tenemos que +entender lo que quieren. ¿Qué le importa al ciudadano nigeriano? ¿Dónde +sienten que hay falta de información? ¿Cómo podemos hacer que los datos +sean relevantes para sus vidas? El blanco inmediato de BudgIT es el +nigeriano alfabetizado promedio conectado a foros online y medios +sociales. Para competir por la limitada atención de los usuarios +inmersos en una amplia variedad e intereses (juegos, lectura, +socialización) tenemos que presentar los datos de modo breve y conciso. +Luego de difundir una imagen de los datos como un tuit o una infografía, +existe la oportunidad de una relación más sostenida con una experiencia +más interactiva para dar a los usuarios una visión más amplia. + +Al visualizar datos es importante comprender el nivel de manejo de datos +que tienen nuestros usuarios. Por hermosos y sofisticados que puedan +ser, los diagramas complejos y las aplicaciones interactivas pueden no +comunicar de un modo significativo a nuestros usuarios en base a sus +anteriores experiencias con la interpretación de datos. Una buena +visualización habla al usuario en un lenguaje que puede entender, y +presentará una historia con la que puede relacionarse fácilmente. + +Hemos consultado a más de 10.000 nigerianos respecto del presupuesto, y +los dividimos en tres categorías de acuerdo a su perfil para asegurar el +valor óptimo. Explicamos brevemente las categorías a continuación: + + Usuarios ocasionales + +: Son usuarios que quieren información de modo simple y rápido. Les + interesa tener una idea de los datos, no un análisis detallado. + Podemos dirigirnos a ellos vía tweet o gráficos interactivos. + + Usuarios activos + +: Usuarios que estimulan el debate y usan los datos para incrementar + su conocimiento de un área determinada o cuestionan los supuestos de + los datos. A estos usuarios, queremos proveerles mecanismos de + retroalimentación y la posibilidad de compartir su visión con sus + pares vía las redes sociales. + + Acaparadores de datos + +: Estos usuarios quieren datos en crudo para hacer visualizaciones o + análisis. Simplemente les damos los datos para sus propósitos. + +Con BudgIT nuestra relación con los usuarios se basa en lo siguiente: + + Estimular debates en torno a tendencias actuales + +: BudgIT sigue debates online y offline y busca proveer datos sobre + estos tópicos. Por ejemplo, con las huelgas del combustible en enero + de 2012, hubo constante agitación entre los manifestantes respecto + de la necesidad de que volviera a haber subsidios al combustible y + reducir los gastos públicos extravagantes e innecesarios. BudgIT + siguió el debate vía los medios sociales y en 36 horas con mucho + esfuerzo creó una aplicación que permite a los ciudadanos + reorganizar el presupuesto nigeriano. + + Buenos mecanismos de retroalimentación + +: Nos relacionamos con los usuarios a través de canales de debate y + medios sociales. Muchos usuarios quieren conocer las historias + detrás de los datos y muchos nos piden nuestra opinión. Nos + aseguramos de que nuestras respuestas solo expliquen los hechos + detrás de los datos y no se vean afectadas por nuestros puntos de + vista personales o políticos. Tenemos que mantener abiertos canales + de retroalimentación, responder activamente a comentarios y + relacionarnos con los usuarios de modo creativo para asegurar que se + mantenga la comunidad creada en torno a los datos. + + Hacerlo local + +: En el caso de un conjunto de datos que apunta a un grupo en + particular, BudgIT busca localizar su contenido y promover un canal + de debate que se relacione con las necesidades e intereses de grupos + particulares de usuarios. En particular, nos interesa relacionarnos + con usuarios en torno a cuestiones que les preocupan vía SMS. + +Luego de poner los datos sobre el gasto público en yourbudgit.com, +buscamos tomar contacto con los ciudadanos a través de varias ONG. +También pensamos desarrollar un marco de participación en el que +ciudadanos e instituciones oficiales puedan realizar asambleas públicas +para definir ítems claves del presupuesto que deben ser priorizados. + +El proyecto ha sido cubierto por medios locales y extranjeros, desde +[CP-Africa](http://bit.ly/cp-africa-budget) hasta [laBBC](http://bbc.in/africa-budget). +Hemos emprendido un estudio de los presupuestos entre 2002 y 2011 +para el sector de seguridad para un periodista de la AP, Yinka Ibukun. +La mayoría de las organizaciones de medios son “acaparadores de datos” +y nos han pedido datos para usar en sus informes. +Estamos planeando nuevas colaboraciones con periodistas y +organizaciones noticiosas en los meses venideros. + +— *Oluseun Onigbinde, BudgIT Nigeria* + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @395, + #level : 2, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/difundir_datos_8.html' + ] + } + ], + #parent : @5, + #level : 1, + #nodesInPreorder : OrderedCollection [ + @395, + @398, + @403, + @408, + @413, + @417, + @421, + @425, + @429, + @433, + @437 + ], + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/difundir_datos.html' + ] + }, + @398, + @403, + @408, + @413, + @417, + @421, + @425, + @429, + @433, + @437, + GrafoscopioNode { + #header : '%invisible', + #body : 'Acá colocaremos algunos scripts e información extra que nos sirvió para el tratamiento +de este manual, su conversión a nuevos formatos y su escritura colaborativa.', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'Kanban', + #body : '', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'To do', + #body : '', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @446, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Doing ...', + #body : '', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'Convertir los nodos importados de HTML a Unicode', + #body : '', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'Prueba con un nodo', + #body : '| nodo htmlFile markdownFile | +nodo := GrafoscopioNode new body: \'Les élèves français\'. +nodo html', + #tags : OrderedCollection [ + 'código' + ], + #children : OrderedCollection [ ], + #parent : @456, + #level : 5, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Prueba con un enlace importado que contiene Character encoding', + #body : '
+ + + +# Character Encoding and Resource Meta Description + +
+ +Sven Van Caekenberghe with Luc Fabresse and Johan Fabry + + + +[]{#cha:zincEncoding} +The rise of the Internet and of Open Standards resulted in the adoption +of a number of fundamental mechanisms to enable communication and +collaboration between different systems. + +One such mechanism is the ability to encode strings or characters to +bytes or to decode strings or characters from bytes. Different encoding +standards have been developed over the years and Pharo supports many +current and legacy encodings. + +Another important aspect of collaboration is the ability to describe +resources such as files. Both Mime-Type and URLs or URIs are basic +building blocks for creating meta descriptions of resources and Pharo +also has objects that implement these fundamental aspects. + +In this chapter we discuss Character encoding, MIME types and URL/URIs. +They are essential for the correct implementation of HTTP, but they are +independent from it, as they are used for many other purposes. + + + +### 1. Character Encoding + +We will first show how to get Unicode from characters and strings within +Pharo. We will then show how to decode and encode characters and strings +from and to bytes. + + + +#### 1.1. Characters and Strings use Unicode Internally + +Proper character encoding and decoding is crucial in today\'s +international world. Internally, Pharo stores characters and strings +using Unicode. [Unicode](http://en.wikipedia.org/wiki/Unicode) is a very +large internationally standardized collection of code points (integer +numbers) representing all of the world languages\' characters. + +We can obtain the code point (Unicode value) of a character by sending +it the `codePoint` message, for example: + + $H codePoint + --> 72 + +Here are some example strings in multiple languages with their Unicode +code points: + + \'Hello\' collect: #codePoint as: Array. + --> #(72 101 108 108 111) + + \'Les élèves français\' collect: #codePoint as: Array. + --> #(76 101 115 32 233 108 232 118 101 115 + 32 102 114 97 110 231 97 105 115) + + \'Ελλάδα\' collect: #codePoint as: Array. + --> #(917 955 955 940 948 945) + +For a simple language like English, all characters have code points +below 128 (which fits in 7 bits, for historical reasons). These +characters are part of [ASCII](http://en.wikipedia.org/wiki/ASCII). The +very first part of the so called Basic Multilingual Plane of Unicode +(the first 128 code points of it) are identical to ASCII. + + $a codePoint + --> 97 + +Next come a number of European languages, like French, which have code +points below 256 (fitting in 8 bits or one byte). These characters are +part of [Latin-1 +(ISO-8859-1)](http://en.wikipedia.org/wiki/ISO/IEC_8859-1), whose first +256 code points are identical in Unicode. + + $é codePoint + --> 233 + +And finally, there are hundreds of other languages, like Chinese, +Japanese, Cyrillic, Arabic or Greek. You can see from the example above: +Greece written in Greek, that those code points are higher than 256 (and +thus no longer fit in one byte). + + $λ codePoint + --> 955 + +Unicode code points are often written using a specific hexadecimal +notation. For example, the previous character, the Greek lowercase +lambda, is written as `U+03BB`. The Pharo inspector also shows this +value next to the codepoint. + +The good thing is, we can work with text in any language in Pharo. +However, to display everything correctly a font must be used that is +capable of showing all the characters (or glyphs) needed, for example +Arial Unicode MS. + + + + + +#### 1.2. Encoding and Decoding + +For communication with the world outside Pharo, the operating system, +files, the internet, et cetera, we have to represent our strings as a +collection of bytes. Yet code points are different to bytes, as will be +shown below. Therefore we need a way to transform our internal strings +into external collection of bytes and vice versa. + +Character encoding is the standard way of converting a native Pharo +string, i.e. a collection of Unicode code points, to a series of bytes. +Character decoding is the reverse process: interpreting a series of +bytes as a collection of Unicode code points, to create a Pharo string. + +To implement character encoding or decoding, a concrete subclass of the +class `ZnCharacterEncoder` is used, e.g. `ZnUTF8Encoder`. Character +encoders do the following: + +- encode a character (message `nextPut:toStream:`) or string (message + `next:putAll:startingAt:toStream:`) onto a binary stream +- convert a string (`encodeString:`) to a byte array +- decode a binary stream to a character (`nextFromStream:`) or string + (`readInto:startingAt:count:fromStream:`) +- convert a byte array to string (`decodeBytes:`) +- compute the number of bytes that are needed to encode a character + (`encodedByteCountFor:`) or string (`encodedByteCountForString:`) +- move a binary stream backwards one character (`backOnStream:`) + +Character encoders do proper error handling, throwing an error of the +class `ZnCharacterEncodingError` when something goes wrong. The +strict/lenient setting controls some behavior in this respect, and this +will be discussed later in this chapter. + +The recommended encoding is the primary internet encoding: +[UTF-8](http://en.wikipedia.org/wiki/UTF-8). It is a variable length +encoding that is optimized somewhat for ASCII and to a lesser degree for +Latin1 and some other common European encodings. + + + + + +#### 1.3. Converting Strings and ByteArrays + +The first use of encoders is to convert Strings to ByteArrays and +vice-versa. We however deal only indirectly with character encoders. The +`ByteArray` and `String` classes have some convenience methods to do +encoding and decoding: + + \'Hello\' utf8Encoded. + --> #[72 101 108 108 111] + + \'Hello\' encodeWith: #latin1. + --> #[72 101 108 108 111] + +Our ASCII string, `\'Hello\'` encodes identically using either UTF-8 or +Latin-1. + + \'Les élèves français\' utf8Encoded. + --> #[76 101 115 32 195 169 108 195 168 118 101 115 + 32 102 114 97 110 195 167 97 105 115] + + \'Les élèves français\' encodeWith: #latin1. + --> #[76 101 115 32 233 108 232 118 101 115 + 32 102 114 97 110 231 97 105 115] + +Our French string, `\'Les élèves français\'`, encodes differently though. +The reason is that UTF-8 uses two bytes for the accented letters like é, +è and ç. Note how for Latin-1, and **only** for Latin-1 and ASCII, the +Unicode code points are equal to the encoded byte values. + + \'éèç\' utf8Encoded. + --> #[195 169 195 168 195 167] + + \'éèç\' encodeWith: #latin1. + --> #[233 232 231] + + \'éèç\' collect: #codePoint as: ByteArray + --> #[233 232 231] + + \'Ελλάδα\' utf8Encoded. + --> #[206 149 206 187 206 187 206 172 206 180 206 177] + + \'Ελλάδα\' encodeWith: #latin1. + --> ZnCharacterEncodingError: \'Character Unicode code point outside encoder range\' + +Our greek string, `\'Ελλάδα\'`, gives an error when we try to encode it +using Latin-1. The reason is that the Greek letters are outside of the +alphabet of Latin-1. Still, UTF-8 manages to encode them using just two +bytes. + +The reverse process, decoding, is equally simple: + + #[72 101 108 108 111] utf8Decoded. + --> \'Hello\' + + #[72 101 108 108 111] decodeWith: #latin1. + --> \'Hello\' + + #[76 101 115 32 195 169 108 195 168 118 101 115 + 32 102 114 97 110 195 167 97 105 115] utf8Decoded. + --> \'Les élèves français\' + + #[76 101 115 32 195 169 108 195 168 118 101 115 + 32 102 114 97 110 195 167 97 105 115] decodeWith: #latin1. + --> \'Les élèves français\' + + #[76 101 115 32 233 108 232 118 101 115 + 32 102 114 97 110 231 97 105 115] utf8Decoded. + --> ZnInvalidUTF8: \'Illegal continuation byte for utf-8 encoding\' + + #[76 101 115 32 233 108 232 118 101 115 + 32 102 114 97 110 231 97 105 115] decodeWith: #latin1. + --> \'Les élèves français\' + + #[206 149 206 187 206 187 206 172 206 180 206 177] utf8Decoded. + --> \'Ελλάδα\' + + #[206 149 206 187 206 187 206 172 206 180 206 177] decodeWith: #latin1. + --> ZnCharacterEncodingError: \'Character Unicode code point outside encoder range\' + +Our English `\'Hello\'`, being pure ASCII, can be decoded using either +UTF-8 or Latin-1. Our French `\'Les élèves français\'` is another story: +using the wrong encoding gives either gibberish or `ZnInvalidUTF8` +error. The same is true for our Greek `\'Ελλάδα\'`. + +You might wonder why in the first case the `latin1` encoder produced +gibberish, while in the second case it gave an error. This is because in +the second case, there was a byte with value 149, which is outside its +alphabet. So called byte encoders, like Latin-1, take a subset of +Unicode characters and compress them in 256 possible byte values. This +can be seen by inspecting the character or byte domains of a +`ZnByteEncoder`, as follows: + + (ZnByteEncoder newForEncoding: \'iso-8859-1\') byteDomain. + (ZnByteEncoder newForEncoding: \'ISO_8859_7\') characterDomain. + +Note that identifiers for encodings are interpreted flexibly (case and +punctuation do not matter). + +There exists a special `ZnNullEncoder` that basically does nothing: it +treats bytes are characters and vice versa. This is actually mostly +equivalent to Latin-1 or ISO-8859-1. (And yes, that is a bit confusing.) + + + + + +#### 1.4. Converting Streams + +The second primary use of encoders is when dealing with streams. More +specifically, when interpreting a binary read or write stream as a +character stream. Note that at their lowest level, all streams to and +from the operating system or network are binary and thus need the use of +an encoder when treating them as character streams. + +To treat a binary write stream as a character write stream, wrap it with +a `ZnCharacterWriteStream`. Similary, `ZnCharacterReadStream` should be +used to treat a binary read stream as a character stream. Here is an +example: + + \'encoding-test.txt\' asFileReference writeStreamDo: [ :out | + (ZnCharacterWriteStream on: out binary encoding: #utf8) + nextPutAll: \'Hello\'; space; nextPutAll: \'Ελλάδα\'; crlf; + nextPutAll: \'Les élèves français\'; crlf ]. + + \'encoding-test.txt\' asFileReference readStreamDo: [ :in | + (ZnCharacterReadStream on: in binary encoding: #utf8) + upToEnd ] + --> \'Hello Ελλάδα + Les élèves français + \' + +We used the message `on:encoding:` here, but there is also a plain +message `on:` instance creation message that defaults to the UTF-8 +encoding. Internally, the character streams will use an encoder instance +to do the actual work. + + + + + +#### 1.5. ByteStrings and WideStrings are Concrete Subclasses of String + +Up until now we spoke about Strings as being a collection of Characters, +each of which is represented as a Unicode code point. And this is +conceptually totally how they should be thought about. However, in +reality, the class `String` is an abstract class with two concrete +subclasses. This will show up when inspecting `String` instances, so it +is important to understand what is going on. Consider the following +example strings: + + \'Hello\' class. + --> ByteString + + \'Les élèves français\' class. + --> ByteString + + \'Ελλάδα\' class. + --> WideString + +Simple ASCII strings are ByteStrings. Strings using special characters +may be WideStrings or may still be ByteStrings. The explanation of the +use of the `WideString` or `ByteString` class is very simple when +considering the Unicode code points used for each character. + +In the first case, for ASCII, the code points are always less than 128. +Hence they fit in one byte. The second string is using Latin-1 +characters, whose code points are less than 256. These still fit in a +byte. A `ByteString` is a `String` that only stores Unicode code points +that fit in a byte, in an implementation that is very efficient. Note +that `ByteString` is a variable byte subclass of `String`. + +Our last example has code points that no longer fit in a byte. To be +able to store these, `WideString` allocates 32-bit (4 byte) slots for +each character. This implementation is necessarily less efficient. Note +that `WideString` is a variable word subclass of `String`. + +In practice, the difference between `ByteString` and `WideString` should +not matter. Conversions are done automatically when needed. + + \'abc\' copy at: 1 put: $α; class. + --> WideString + +As the above example shows, in a `ByteString` `\'abc\'` putting the +Unicode character `$α`, converts it to a `WideString`. (This is actually +done using a `becomeForward:` message.) When benchmarking, this +conversion might show up as taking significant time. If you know upfront +that you will need WideStrings, it can be better to start with the right +type. + + + + + +#### 1.6. ByteString and ByteArray Equivalence is an Implementation Detail + +There is another implementation detail worth mentioning: for the Pharo +virtual machine, more specifically, for a number of primitives, +`ByteString` and `ByteArray` instances are equivalent. Given what we now +know, that makes sense. Consider the following code: + + \'abcdef\' asByteArray. + --> #[97 98 99 100 101 102] + + \'ABC\' asByteArray. + --> #[65 66 67] + + \'abcdef\' copy replaceFrom: 1 to: 3 with: #[65 66 67]. + --> \'ABCdef\' + + #[97 98 99 100 101 102] copy replaceFrom: 1 to: 3 with: \'ABC\'. + --> #[65 66 67 100 101 102] + +In the third expression, we send the message `replaceFrom:to:with:` on a +`ByteString`, but give a `ByteArray` as third argument. So we are +replacing part of a `ByteString` with a `ByteArray`. And it works! + +The last example goes the other way around: we replace part of a +`ByteArray` with a `ByteString`, which works as well. + +What about doing the same mix up with elements ? + + \'abc\' copy at: 1 put: 65; yourself. + --> Error: improper store into indexable object + + #[97 98 99] copy at: 1 put: $A; yourself. + --> Error: improper store into indexable object + +This is more what we expect: we\'re not allowed to do this. We are mixing +two types that are not equivalent, like `Character` and `Integer`. + +So although it is true that there is some equivalence between ByteString +and ByteArray, you should not mix up the two. It is an implementation +detail that you should not rely upon. + + + + + +#### 1.7. Beware of Bogus Conversions + +Given a string, it is tempting to send it the message `asByteArray` to +convert it to bytes. Similary, it is tempting to convert a byte array by +sending it the message `asString`. These are however bogus conversions +that should not be used as for some strings they will work, but for +others not. Success depends on the code points of the characters in the +string. Basically the conversion is possible for strings for which the +following property holds: + + \'Hello\' allSatisfy: [ :each | each codePoint < 256 ]. + --> true + + \'Les élèves français\' allSatisfy: [ :each | each codePoint < 256 ]. + --> true + + \'Ελλάδα\' allSatisfy: [ :each | each codePoint < 256 ]. + --> false + +Now, even though the first two can be converted, they will not be using +the same encoding. Here is a way to explicitly express this idea: + + #(null ascii latin1 utf8) allSatisfy: [ :each | + (\'Hello\' encodeWith: each) = \'Hello\' asByteArray ]. + --> true. + + (\'Les élèves français\' encodeWith: #latin1) = \'Les élèves français\' asByteArray. + --> true. + + (\'Les élèves français\' encodeWith: #null) = \'Les élèves français\' asByteArray. + --> true. + + \'Les élèves français\' utf8Encoded = \'Les élèves français\' asByteArray. + --> false. + +For pure ASCII strings, with all code points below 128, no encoding +(null encoding), ASCII, Latin-1 and UTF-8 are all the same. For other +`ByteString` instances, like `\'Les élèves français\'`, only Latin-1 +works. In that case it is also equivalent of doing no encoding. + +The lazy conversion for proper Unicode WideStrings will give unexpected +results: + + \'Ελλάδα\' asByteArray. + --> #[0 0 3 149 0 0 3 187 0 0 3 187 0 0 3 172 0 0 3 180 0 0 3 177] + +This \'conversion\' does not correspond to any known encoding. It is the +result of writing 4-byte Unicode code points as Integers. + +Using this is a bug no matter how you look at it. In this century you +will look silly for not implementing proper support for all languages. +When converting between strings and bytes, use a proper, explicit +encoding. + + + + + +#### 1.8. Strict and Lenient Encoding + +No encoding (or the null encoder) and Latin-1 encoding are in fact not +completely the same. This is because there are \'holes\' in the table: +some byte values are undefined, which a strict encoder won\'t allow, and +the default encoder is strict. + +For example, the Unicode code point 150 is strictly speaking not in +Latin-1: + + ZnByteEncoder latin1 encodeString: 150 asCharacter asString. + --> ZnCharacterEncodingError: \'Character Unicode code point outside encoder range\' + + ZnByteEncoder latin1 decodeBytes: #[ 150 ]. + --> ZnCharacterEncodingError: \'Character Unicode code point outside encoder range\' + +The encoder can however be instructed to `beLenient`, which will produce +a silent conversion (if that is possible). In this case, Unicode +character 150 (`U+0096`) is an unprintable control character meaning +\'Start of Protected Area\' (SPA) and is strictly speaking not part of +Latin-1. + + ZnByteEncoder latin1 beLenient encodeString: 150 asCharacter asString. + --> #[ 150 ] + + ZnByteEncoder latin1 beLenient decodeBytes: #[ 150 ]. + --> \'\u0096\' + +You can explicity access both the allowed byte or character values, i.e. +the domain of encoder or decoder: + + ZnByteEncoder latin1 characterDomain includes: 150 asCharacter. + --> false + + ZnByteEncoder latin1 byteDomain includes: 150. + --> false + +Note that the lower half of a byte encoding, the ASCII part between 0 +and 127, is always treated as a one to one mapping. + + + + + +#### 1.9. Available Encoders + +Pharo comes with support for the most important encodings currently +used, as well as with support for some important legacy encodings. Seen +as the classes implementing them, the following encoders are available: + +- `ZnUTF8Encoder` +- `ZnUTF16Encoder` +- `ZnByteEncoder` +- `ZnNullEncoder` + +Where `ZnByteEncoder` groups a large number of encodings. This list is +available as `ZnByteEncoder knownEncodingIdentifiers`. Here is a list of +all recognized, canonical names: arabic, cp1250, cp1251, cp1252, cp1253, +cp1254, cp1255, cp1256, cp1257, cp1258, cp850, cp866, cp874, cyrillic, +dos874, doslatin1, greek, hebrew, ibm819, ibm850, ibm866, iso885910, +iso885911, iso885913, iso885914, iso885915, iso885916, iso88592, +iso88593, iso88594, iso88595, iso88596, iso88597, iso88598, iso88599, +koi8, koi8r, koi8u, latin2, latin3, latin4, latin5, latin6, mac, +maccyrillic, macintosh, macroman, oem850, windows1250, windows1251, +windows1252, windows1253, windows1254, windows1255, windows1256, +windows1257, windows1258, windows874, xcp1250, xcp1251, xcp1252, +xcp1253, xcp1254, xcp1255, xcp1256, xcp1257, xcp1258, xmaccyrillic and +xmacroman. + + + + + + + +### 2. Mime-Types + +A mime-type is a standard, cross-platform definition of a file or +document type or format. The official term is an [Internet media +type](http://en.wikipedia.org/wiki/Internet_media_type). + +Mime-types are modeled using `ZnMimeType` objects, which have 3 +components: + +1. a main type, for example `text` or `image`, +2. a sub type, for example `plain` or `html`, or `jpeg`, `png` or + `gif`, and +3. a number of attributes, for example `charset=utf-8`. + +The mime-type syntax is as follows: + +`
/ [;=[,=]*]`. + + + +#### 2.1. Creating Mime-Types + +Instances of `ZnMimeType` are created by explicitly specifying its +components, through parsing a string or by accessing predefined values. +In any case, a new instance is always created. + +The class side of `ZnMimeType` has some convenience methods (in the +protocol `convenience`) for accessing well known mime-types, which is +the recommended way for obtaining these mime-types: + + ZnMimeType textHtml. + --> text/plain;charset=utf-8 + + ZnMimeType imagePng + --> image/png + +Here is an example of how to create a mime-type by explicitly specifying +its components: + + ZnMimeType main: \'image\' sub: \'png\'. + --> image/png + +The main parsing interface of `ZnMimeType` is the class side +`fromString:` message. + + ZnMimeType fromString: \'image/png\'. + --> image/png + +To make it easier to write code that accepts both instances and strings, +the `asZnMimeType` message can be used: + + \'image/png\' asZnMimeType + --> image/png + + ZnMimeType imagePng asZnMimeType = \'image/png\' asZnMimeType + --> true + +Finally, `ZnMimeType` also knows how to convert file name extensions to +mime-types using the `forFilenameExtension:` message. This mapping is +based on the Debian/Ubuntu `/etc/mime.types` file, which is encoded into +the method `mimeTypeFilenameExtensionsSpec`. + + ZnMimeType forFilenameExtension: \'html\'. + --> text/html;charset=utf-8 + +In most applications, the concept of a default mime-type exists. It +basically means: we don\'t know what these bytes represent. + + ZnMimeType default + --> application/octet-stream + + + + + +#### 2.2. Working with Mime-Types + +Once you have a ZnMimeType instance, you can access its components using +the `main`, `sub` and `parameters` messages. + +An important aspect of mime-types is whether the type is textual or +binary, which is testable with the `isBinary` message. Typically, text, +XML or JSON are considered textual, while images are binary. + +For textual (non-binary) types, the encoding (or charset parameter) +defaults to UTF-8, the prevalent internet standard. With the +convencience messages `charSet:`, `setCharSetUTF8` and `clearCharSet` +you can manipulate the charset parameter. + +Comparing mime-types using the standard `=` message takes all components +into account, including the parameters. Different parameters lead to +different mime-types. As a result, when charsets are involved it is +often better to compare using the `matches:` message, as follows: + + \'text/plain\' asZnMimeType = ZnMimeType textPlain. + --> false + + ZnMimeType textPlain = \'text/plain\' asZnMimeType. + --> false + + \'text/plain\' asZnMimeType matches: ZnMimeType textPlain. + --> true + + ZnMimeType textPlain matches: \'text/plain\' asZnMimeType. + --> true + +The charset=UTF-8 that is part of what `ZnMimeType textPlain` returns is +not taken into account in the second set of comparisons. + +The main or sub types can be a wildcard, indicated by a `*`. This allows +for matching. Obviously, everything matches `*/*` (`ZnMimeType any`). +Otherwise, when the sub type is `*`, the main types must be equal. Here +is an example. + + ZnMimeType text. + --> text/* + + ZnMimeType textHtml matches: ZnMimeType text. + --> true + + ZnMimeType textPlain matches: ZnMimeType text. + --> true + + ZnMimeType applicationXml matches: ZnMimeType text. + --> false + + + + + + + +### 3. URLs + +URLs (or URIs) are a way to name or identify an entity. Often, they also +contain information of where the entity they name or identify can be +accessed. + +We will be using the terms URL ([Uniform Resource +Locator](http://en.wikipedia.org/wiki/Uniform_resource_locator)) and URI +([Uniform Resource +Identifier](http://en.wikipedia.org/wiki/Uniform_resource_identifier)) +interchangeably, as is most commonly done in practice. A URI is just a +name or identification, while a URL also contains information on how to +find or access a resource. Consider the following example: the URI +`/documents/cv.html` identifies and names a document, while the URL +`http://john-doe.com/documents/cv.html` also specifies that we can use +HTTP to access this resource on a specific server. + +By considering most parts of an URL as optional, we can use one +abstraction to implement both URI and URL using one class. The class +`ZnUrl` models URLs (or URIs) and has the following components: + +1. scheme - like `#http`, `#https `, `#ws`, `#wws`, `#file ` or ` nil` +2. host - hostname string or `nil ` +3. port - port integer or `nil` +4. segments - collection of path segments, ends with `#/` for + directories +5. query - query dictionary or `nil` +6. fragment - fragment string or `nil` +7. username - username string or `nil` +8. password - password string or `nil` + +The syntax of the external representation of a ZnUrl informally looks +like this: +`scheme://username:password@host:port/segments?query#fragment` + + + +#### 3.1. Creating URLs + +ZnUrls are most often created by parsing an external representation +using either the `fromString:` class message or by sending the `asUrl` +or `asZnUrl` convenience message to a string. + + ZnUrl fromString: \'http://www.google.com/search?q=Smalltalk\'. + \'http://www.google.com/search?q=Smalltalk\' asUrl. + +The same instance can also be constructed programmatically: + + ZnUrl new + scheme: #http; + host: \'www.google.com\'; + addPathSegment: \'search\'; + queryAt: \'q\' put: \'Smalltalk\'; + yourself. + +`ZnUrl` components can be manipulated destructively. Here is an example: + + \'http://www.google.com/?one=1&two=2\' asZnUrl + queryAt: \'three\' put: \'3\'; + queryRemoveKey: \'one\'; + yourself. + --> http://www.google.com/?two=2&three=3 + + + + + +#### 3.2. External and Internal Representation of URLs + +Some characters of parts of a URL are considered as illegal because +including them would interfere with the syntax and further processing. +They thus have to be encoded. The methods of `ZnUrl` in the `accessing` +protocols do not do any encoding, while those in `parsing` and +`printing` do. Here is an example: + + \'http://www.google.com\' + addPathSegment: \'an encoding\'; + queryAt: \'and more\' put: \'here, too\'; + yourself + --> http://www.google.com/an%20encoding?and%20more=here,%20too + +The ZnUrl parser is somewhat forgiving and accepts some unencoded URLs +as well, like most browsers would. + + \'http://www.example.com:8888/a path?q=a, b, c\' asZnUrl. + --> http://www.example.com:8888/a%20path?q=a,%20b,%20c + + + + + +#### 3.3. Relative URLs + +ZnUrl can parse in the context of a default scheme, like a browser would +do. + + ZnUrl fromString: \'www.example.com\' defaultScheme: #http + --> http://www.example.com/ + +Given a known scheme, ZnUrl knows its default port, and this is accessed +by `portOrDefault`. + +A path defaults to what is commonly referred to as slash, which is +testable with `isSlash`. Paths are most often (but don\'t have to be) +interpreted as filesystem paths. To support this, the `isFilePath` and +`isDirectoryPath` tests and `file` and `directory` accessors are +provided. + +ZnUrl has some support to handle one URL in the context of another one, +this is also known as a relative URL in the context of an absolute URL. +This is implemented using the `isAbsolute`, `isRelative` and +`inContextOf:` methods. For example: + + \'/folder/file.txt\' asZnUrl inContextOf: \'http://fileserver.example.net:4400\' asZnUrl. + --> http://fileserver.example.net:4400/folder/file.txt + + + + + +#### 3.4. Operations on URLs + +To add operations to URLs you could add an extension method to the ZnUrl +class. In many cases though, it will not work on all kinds of URLs but +only on a subset. In other words, you need to dispatch, not just on the +scheme but maybe even on other URL elements. That is where +`ZnUrlOperation` comes in. + +The first step for its use is defining a name for the operation. For +example, the symbol `#retrieveContents`. Second, one or more subclasses +of `ZnUrlOperation` need to be defined, each defining the class side +message `operation` to return the name, `#retrieveContents` in the +example. Then all subclasses with the same operation form the group of +applicable implementations. Third, these handler subclasses overwrite +`performOperation` to do the actual work. + +Given a ZnUrl instance, sending the message `performOperation:` or +`performOperation:with:` will send the message +`performOperation:with:on:` to `ZnUrlOperation`. In turn, it will look +for an applicable handler subclass, instanciate and invoke it. + +Each subclass will be sent `handlesOperation:with:on:` to test if it can +handle the named operation with an optional argument on a specific URL. +The default implementation already covers the most common case: the +operation name has to match and the scheme of the URL has to be part of +the collection returned by `schemes`. + +For our example, the message `retrieveContents` on ZnUrl is implemented +as an operation named `#retrieveContents`. The handler class is either +the class `ZnHttpRetrieveContents` for the schemes `http` and `https` or +the class `ZnFileRetrieveContents` for the scheme `file`. + +This dispatching mechanism is more powerful than scheme specific `ZnUrl` +subclasses because other elements can be taken into account. It also +addresses another issue with scheme specific `ZnUrl` subclasses, which +is that there are an infinite number of schemes which no hierarchy could +cover. + + + + + +#### 3.5. Odds and Ends + +Sometimes, the combination of a host and port are referred to as +authority, and this is accessable with the `authority` message. + +There are convenience methods to download the resource a ZnUrl points +to: `retrieveContents` and `saveContentsToFile`. The first retrieves the +contents and returns it directly, while the expression saves the +contents directly to a file. + + \'http://zn.stfx.eu/zn/numbers.txt\' asZnUrl retrieveContents. + \'http://zn.stfx.eu/zn/numbers.txt\' asZnUrl saveContentsToFile: \'numbers.txt\'. + +ZnUrl can be used to handle file URLs. Use `isFile` to test for this +scheme. + +Given a file URL, it can be converted to a regular `FileReference` using +the `asFileReference` message. In the other direction, you can get a +file URL from a `FileReference` using the `asUrl` or `asZnUrl` messages. +Do keep in mind that there is no such thing as a relative file URL, only +absolute file URLs exist. + + + + + + + + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @456, + #level : 5, + #links : OrderedCollection [ + '', + 'https://ci.inria.fr/pharo-contribution/job/EnterprisePharoBook/lastSuccessfulBuild/artifact/book-result/Zinc-Encoding-Meta/Zinc-Encoding-Meta.html' + ] + }, + GrafoscopioNode { + #header : 'Prueba con una página del manual', + #body : ' + + + + + + + +Manual de Periodismo de Datos \\[1.0\\]{.version} + + + + + + + + + + + + + +Cargando + + + + + +
+ + + +
+ + + +
+ +\\[Inicio\\](index.html){.btn} \\[Capítulo: Difundir +datos\\](difundir\\_datos.html){.btn} \\[Siguiente: Interactuar con la +audiencia en torno a sus datos\\](difundir\\_datos\\_9.html){.btn} + + + +
+ +\\[\\]{.st\\_facebook\\_hcount displaytext="Facebook"} +\\[\\]{.st\\_twitter\\_hcount st\\_title="Los datos públicos se vuelven +sociales \\#ddjbook" displaytext="Tweet"} + + + + + +
+ +
+ +\\#\\#\\# Los datos públicos se vuelven sociales +{\\#\\_los\\_datos\\_públicos\\_se\\_vuelven\\_sociales} + + +Los datos son valiosos. El acceso a los datos tiene el potencial de +clarificar cuestiones de un modo que genere resultados. Pero el mal +manejo de los datos puede ubicar los hechos en una estructura opaca que +no comunica nada. Si no promueven la discusión o aportan una comprensión +en contexto, los datos pueden ser de limitado valor para el público. + + + + + +Nigeria volvió a la democracia en 1999 luego de largos años de gobierno +militar. Analizar los hechos detrás de los datos se consideraba una +afrenta a la autoridad y como un intento de cuestionar la manchada +reputación de la junta. La Ley de Secreto Oficial obligaba a los +empleados públicos a no difundir información oficial. Aún pasados trece +años del regreso a la democracia, el acceso a los datos públicos puede +ser una tarea difícil. Los datos sobre el gasto público comunican poco a +la mayoría del público que no conoce demasiado la contabilidad +financiera y la aritmética compleja. + + + + + +Al imponerse el uso de dispositivos móviles y con un creciente número de +nigerianos online, junto con BudgIT vimos una gran oportunidad de usar +tecnologías de visualización de datos para explicar y hacer que la gente +se interesara por el gasto público. Para hacer esto, tuvimos que +dirigirnos a usuarios de todo tipo de plataformas y llegar a los +ciudadanos vía organizaciones no gubernamentales. Este proyecto apunta a +convertir los datos públicos en objeto social y crear una red extensa +que exija cambios. + + + +
+ +
+ +!\\[\\](figs/incoming/06-YY.png) + + + +
+ +Figure 27. La aplicación de BudgIT (BudgIT Nigeria) + + + + + + + +Para entablar exitosamente la relación con los usuarios, tenemos que +entender lo que quieren. ¿Qué le importa al ciudadano nigeriano? ¿Dónde +sienten que hay falta de información? ¿Cómo podemos hacer que los datos +sean relevantes para sus vidas? El blanco inmediato de BudgIT es el +nigeriano alfabetizado promedio conectado a foros online y medios +sociales. Para competir por la limitada atención de los usuarios +inmersos en una amplia variedad e intereses (juegos, lectura, +socialización) tenemos que presentar los datos de modo breve y conciso. +Luego de difundir una imagen de los datos como un tuit o una infografía, +existe la oportunidad de una relación más sostenida con una experiencia +más interactiva para dar a los usuarios una visión más amplia. + + + + + +Al visualizar datos es importante comprender el nivel de manejo de datos +que tienen nuestros usuarios. Por hermosos y sofisticados que puedan +ser, los diagramas complejos y las aplicaciones interactivas pueden no +comunicar de un modo significativo a nuestros usuarios en base a sus +anteriores experiencias con la interpretación de datos. Una buena +visualización habla al usuario en un lenguaje que puede entender, y +presentará una historia con la que puede relacionarse fácilmente. + + + + + +Hemos consultado a más de 10.000 nigerianos respecto del presupuesto, y +los dividimos en tres categorías de acuerdo a su perfil para asegurar el +valor óptimo. Explicamos brevemente las categorías a continuación: + + + + + +Usuarios ocasionales : Son usuarios que quieren información de modo +simple y rápido. Les interesa tener una idea de los datos, no un +análisis detallado. Podemos dirigirnos a ellos vía tweet o gráficos +interactivos. Usuarios activos : Usuarios que estimulan el debate y usan +los datos para incrementar su conocimiento de un área determinada o +cuestionan los supuestos de los datos. A estos usuarios, queremos +proveerles mecanismos de retroalimentación y la posibilidad de compartir +su visión con sus pares vía las redes sociales. Acaparadores de datos : +Estos usuarios quieren datos en crudo para hacer visualizaciones o +análisis. Simplemente les damos los datos para sus propósitos. + + + + + +Con BudgIT nuestra relación con los usuarios se basa en lo siguiente: + + + + + +Estimular debates en torno a tendencias actuales : BudgIT sigue debates +online y offline y busca proveer datos sobre estos tópicos. Por ejemplo, +con las huelgas del combustible en enero de 2012, hubo constante +agitación entre los manifestantes respecto de la necesidad de que +volviera a haber subsidios al combustible y reducir los gastos públicos +extravagantes e innecesarios. BudgIT siguió el debate vía los medios +sociales y en 36 horas con mucho esfuerzo creó una aplicación que +permite a los ciudadanos reorganizar el presupuesto nigeriano. Buenos +mecanismos de retroalimentación : Nos relacionamos con los usuarios a +través de canales de debate y medios sociales. Muchos usuarios quieren +conocer las historias detrás de los datos y muchos nos piden nuestra +opinión. Nos aseguramos de que nuestras respuestas solo expliquen los +hechos detrás de los datos y no se vean afectadas por nuestros puntos de +vista personales o políticos. Tenemos que mantener abiertos canales de +retroalimentación, responder activamente a comentarios y relacionarnos +con los usuarios de modo creativo para asegurar que se mantenga la +comunidad creada en torno a los datos. Hacerlo local : En el caso de un +conjunto de datos que apunta a un grupo en particular, BudgIT busca +localizar su contenido y promover un canal de debate que se relacione +con las necesidades e intereses de grupos particulares de usuarios. En +particular, nos interesa relacionarnos con usuarios en torno a +cuestiones que les preocupan vía SMS. + + + + + +Luego de poner los datos sobre el gasto público en yourbudgit.com, +buscamos tomar contacto con los ciudadanos a través de varias ONG. +También pensamos desarrollar un marco de participación en el que +ciudadanos e instituciones oficiales puedan realizar asambleas públicas +para definir ítems claves del presupuesto que deben ser priorizados. + + + + + +El proyecto ha sido cubierto por medios locales y extranjeros, desde +\\[CP-Africa\\](http://bit.ly/cp-africa-budget) hasta \\[la +BBC\\](http://bbc.in/africa-budget). Hemos emprendido un estudio de los +presupuestos entre 2002 y 2011 para el sector de seguridad para un +periodista de la AP, Yinka Ibukun. La mayoría de las organizaciones de +medios son “acaparadores de datos” y nos han pedido datos para usar en +sus informes. Estamos planeando nuevas colaboraciones con periodistas y +organizaciones noticiosas en los meses venideros. + + + + + +— \\*Oluseun Onigbinde, BudgIT Nigeria\\* + + + + + + + + + +\\[Home\\](index.html){.btn} \\[Capítulo: Difundir +datos\\](difundir\\_datos.html){.btn} \\[Siguiente: Interactuar con la +audiencia en torno a sus datos\\](difundir\\_datos\\_9.html){.btn} + + + + + + + + + + + + + + + +El Manual de Periodismo de Datos puede ser copiado libremente, +redistribuido y reusado bajo los términos de la licencia \\[Creative +Commons +Atribución-CompartirIgual\\](http://creativecommons.org/licenses/by-sa/3.0/). +Los contribuyentes al Manual del Periodimo de Datos retienen el +copyright sobre sus contribuciones respectivas y están de acuerdo en +publicarlas bajo los términos de esta licencia. + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @456, + #level : 5, + #links : OrderedCollection [ + '', + 'http://interactivos.lanacion.com.ar/manual-data/difundir_datos_8.html' + ] + } + ], + #parent : @453, + #level : 4, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Buscar y reemplazar contenidos en los nodos', + #body : '', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'Prueba con un nodo', + #body : '| pruebas | + +pruebas := (GrafoscopioNode new becomeDefaultTestTree) children at: 1. +pruebas find: \'just\' andReplaceWith: \'ONL\' ', + #tags : OrderedCollection [ + 'código' + ], + #children : OrderedCollection [ + GrafoscopioNode { + #header : 'Prueba unitaria', + #body : '| tree | +\ttree := GrafoscopioNode new. +\ttree body: \'I\'\'m only a test node.\'. +\ttree find: \'only\' andReplaceWith: \'JUST\'. +\ttree body findString: \'mari\' +', + #tags : OrderedCollection [ + 'código' + ], + #children : OrderedCollection [ ], + #parent : @475, + #level : 6, + #links : OrderedCollection [ + '' + ] + } + ], + #parent : @472, + #level : 5, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Definir UI', + #body : 'GrafoscopioReplace new openWithSpec.', + #tags : OrderedCollection [ + 'código' + ], + #children : OrderedCollection [ ], + #parent : @472, + #level : 5, + #links : OrderedCollection [ + '' + ] + } + ], + #parent : @453, + #level : 4, + #links : OrderedCollection [ + '' + ] + } + ], + #parent : @446, + #level : 3, + #links : OrderedCollection [ + '' + ] + }, + GrafoscopioNode { + #header : 'Done', + #body : '', + #tags : OrderedCollection [ + 'text' + ], + #children : OrderedCollection [ ], + #parent : @446, + #level : 3, + #links : OrderedCollection [ + '' + ] + } + ], + #parent : @443, + #level : 2, + #links : OrderedCollection [ + '' + ] + } + ], + #parent : @5, + #level : 1, + #links : OrderedCollection [ + '' + ] + }, + @446, + @449, + @453, + @456, + @459, + @463, + @467, + @472, + @475, + @478, + @483, + @489 + ] + }, + #level : 1, + #links : OrderedCollection [ + '' + ] + }, + @8, + @12, + @32, + @167, + @222, + @305, + @352, + @395, + @443 +] ADDED preamble.tex Index: preamble.tex ================================================================== --- preamble.tex +++ preamble.tex @@ -0,0 +1,96 @@ +% Table of contents formatting +\renewcommand{\contentsname}{Table of Contents} +\setcounter{tocdepth}{1} + +% Headers and page numbering +\usepackage{fancyhdr} +\pagestyle{plain} + +% Fonts and typesetting +\setmainfont{TeX Gyre Pagella} +\setsansfont{Verdana} + +% Set figure legends and captions to be smaller sized sans serif font +\usepackage[font={footnotesize,sf}]{caption} + +\usepackage{siunitx} + +% Adjust spacing between lines to 1.5 +\usepackage{setspace} +\onehalfspacing +\raggedbottom + +% Set margins +\usepackage[top=1.25in,bottom=1.25in]{geometry} + +% Chapter styling +\usepackage[grey]{quotchap} +\makeatletter +\renewcommand*{\chapnumfont}{% + \usefont{T1}{\@defaultcnfont}{b}{n}\fontsize{80}{100}\selectfont% Default: 100/130 + \color{chaptergrey}% +} +\makeatother + +% Set colour of links to black so that they don't show up when printed +\usepackage{hyperref} +\hypersetup{colorlinks=true, linkcolor=black} + +% Tables +\usepackage{booktabs} +\usepackage{threeparttable} +\usepackage{array} +\newcolumntype{x}[1]{% +>{\centering\arraybackslash}m{#1}}% + +% Allow for long captions and float captions on opposite page of figures +\usepackage[rightFloats, CaptionBefore]{fltpage} + +% Don't let floats cross subsections +\usepackage[section,subsection]{extraplaceins} + +% Allow subfigures +\usepackage{subfig} + +% Scalling images +\usepackage[export]{adjustbox} + +% Code blocks options +\usepackage{xcolor} + +% To test in the future, minted instead of listings +% \usepackage{minted} +\usepackage{listings} +\lstset{ + basicstyle=\ttfamily, + numbers=left, + keywordstyle=\color[rgb]{0.13,0.29,0.53}\bfseries, + stringstyle=\color[rgb]{0.31,0.60,0.02}, + commentstyle=\color[rgb]{0.56,0.35,0.01}\itshape, + numberstyle=\footnotesize, + stepnumber=2, + numbersep=5pt, + backgroundcolor=\color[RGB]{248,248,248}, + showspaces=false, + showstringspaces=false, + showtabs=false, + tabsize=2, + captionpos=b, + breaklines=true, + breakatwhitespace=true, + breakautoindent=true, + escapeinside={\%*}{*)}, + linewidth=\textwidth, + basewidth=0.5em, +} + +\lstdefinelanguage{smalltalk}{ + morekeywords={true,false,self,super,nil}, + sensitive=true, + morecomment=[s]{"}{"}, + morestring=[d]', + style=SmalltalkStyle +} +\lstdefinestyle{SmalltalkStyle}{ + literate={:=}{{$\gets$}}1{^}{{$\uparrow$}}1 +}