Manual de Periodismo de Datos

Check-in Differences
Login

Many hyperlinks are disabled.
Use anonymous login to enable hyperlinks.

Difference From bc8433db6e8625c5 To a59d628887e3f990

2017-10-01
19:38
Mejorando presentación. check-in: e25b722347 user: offray tags: trunk
06:33
Aplicando nuevas plantillas y estilos al Manual. check-in: a59d628887 user: offray tags: trunk
00:26
Portada mejorada y metadatos vacios. check-in: 118af24198 user: offray tags: trunk
2017-07-02
01:01
Agregando la libreta principal. check-in: ea9d1219ff user: offray tags: trunk
00:32
initial empty check-in check-in: bc8433db6e user: offray tags: trunk

Added extraplaceins.sty.

























































































































1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
%  P L A C E I N S . S T Y          ver 2.2  April 18, 2005
%  Donald Arseneau                  asnd@triumf.ca
%
%  Modified on March 6, 2011
%  Lex Fridman                      lexfridman@gmail.com
%  See: http://bit.ly/h2Se0u
%
%  Keep floats `in their place'; don't let them float into another section.
%  Instructions are below.
%
%  placeins.sty is freely released to the public domain.


\def\@fb@botlist{\@botlist}
\def\@fb@topbarrier{\suppressfloats[t]}

\catcode`\V=14 % `V' is a comment character unless [verbose]

\@ifundefined{DeclareOption}{}%
{\DeclareOption{below}{\def\@fb@botlist{}}
 \DeclareOption{above}{\def\@fb@topbarrier{}}
 \DeclareOption{section}{\AtBeginDocument{%
     \expandafter\renewcommand\expandafter\section\expandafter
       {\expandafter\@fb@secFB\section}%
     \newcommand\@fb@secFB{\FloatBarrier
     \gdef\@fb@afterHHook{\@fb@topbarrier \gdef\@fb@afterHHook{}}}
     \g@addto@macro\@afterheading{\@fb@afterHHook}
     \gdef\@fb@afterHHook{}
  }}
 \DeclareOption{subsection}{\AtBeginDocument{%
     \expandafter\renewcommand\expandafter\subsection\expandafter
       {\expandafter\@fb@subsecFB\subsection}%
     \newcommand\@fb@subsecFB{\FloatBarrier
     \gdef\@fb@afterHHook{\@fb@topbarrier \gdef\@fb@afterHHook{}}}
     \g@addto@macro\@afterheading{\@fb@afterHHook}
     \gdef\@fb@afterHHook{}
  }}
 \DeclareOption{subsubsection}{\AtBeginDocument{%
     \expandafter\renewcommand\expandafter\subsubsection\expandafter
       {\expandafter\@fb@subsubsecFB\subsubsection}%
     \newcommand\@fb@subsubsecFB{\FloatBarrier
     \gdef\@fb@afterHHook{\@fb@topbarrier \gdef\@fb@afterHHook{}}}
     \g@addto@macro\@afterheading{\@fb@afterHHook}
     \gdef\@fb@afterHHook{}
  }}
 \DeclareOption{verbose}{\catcode`\V=9 }% Activate things after `V'
 \ProvidesPackage{extraplaceins}[2005/04/18 \space  v 2.2]
 \ProcessOptions 
} % end of \@ifundefined

\def\FloatBarrier{\par\begingroup \let\@elt\relax
V\edef\@tempa{\write\m@ne{Package placeins Info: Float barrier, from
V  input line \the\inputlineno, processed on page \thepage, lands on
V  page \noexpand\thepage. }}\@tempa
 \edef\@tempa{\@fb@botlist\@deferlist\@dbldeferlist}%
 \ifx\@tempa\@empty V\PackageInfo{placeins}{No floats held,}%
 \else
    \ifx\@fltovf\relax % my indicator of recursion
       \if@firstcolumn V\PackageWarning{placeins}{Some floats are stuck,}%
         \clearpage 
       \else V\PackageInfo{placeins}{Eject a column and check again:}%
         \null\newpage\FloatBarrier 
       \fi
    \else V\PackageInfo{placeins}{Must dump some floats}%
       \newpage \let\@fltovf\relax V\PackageInfo{placeins}{Check again:}%
       \FloatBarrier % recurse once only
 \fi\fi \endgroup
 \@fb@topbarrier }

\catcode`\V=11
\endinput

%====================== BEGIN INSTRUCTIONS ===========================

  p l a c e i n s . s t y          ver 2.2  April 18, 2005
  Donald Arseneau                  asnd@triumf.ca


Placeins.sty keeps floats `in their place', preventing them from floating
past a "\FloatBarrier" command into another section.  To use it, declare
"\usepackage{placeins}" and insert "\FloatBarrier" at places that floats 
should not move past, perhaps at every "\section".  

Option:  [section]

A more convenient way to stop floats at section boundaries is to change 
the definition of "\section" to include "\FloatBarrier", either at the
beginning, before "\@startsection", or in the `style' specification (see 
The LaTeX Companion, section 2.2.2; or 2.3 in the 1st ed).  If you specify 
"\usepackage[section]{placeins}", then the "\section" command will be 
redefined with "\FloatBarrier" inserted at the beginning.

Options:  [above]  [below]

Something you may not like is that, by default, "\FloatBarrier" is very 
strict, and will (try to) prevent a float from appearing above the start 
of the current section or below the start of the next section, even 
though the float is still on the same page as its intended section.  
Each restriction can be relaxed separately by using the "[above]" and 
"[below]" package options: "[above]" allows floats to appear above their 
section, if on the same page; "[below]" allows below.

NOTE!  The original version of placeins.sty acted like it was loaded
with the option "[above]" specified.

There is a problem with LaTeX's "\suppressfloats" being out of step with 
the page breaking (see usenet msg <yfi656pbsn0.fsf@triumf.ca> and thread)
which sometimes allows a float to go above a "\FloatBarrier" placed near
the top of a page. Maybe placeins will fix it sometime later.

Option: [verbose]

There is a package option "[verbose]" that causes many messages to be
written in the log file.  It might be used to answer the question:
`How did *that* get *there*?!?'

%====================== END INSTRUCTIONS ========================

Test file integrity:  ASCII 32-57, 58-126:  !"#$%&'()*+,-./0123456789
:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

Added fancyhdr.sty.













































































































































































































































1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
%%
%% This is file `fancyhdr.sty',
%% generated with the docstrip utility.
%%
%% The original source files were:
%%
%% fancyhdr.dtx  (with options: `fancyhdr')
%% 
%% This is a generated file.
%% 
%% This file may be distributed and/or modified under the conditions of
%% the LaTeX Project Public License, either version 1.3 of this license
%% or (at your option) any later version.  The latest version of this
%% license is in:
%% 
%%    http://www.latex-project.org/lppl.txt
%% 
%% and version 1.3 or later is part of all distributions of LaTeX version
%% 2005/12/01 or later.
%% 
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\NeedsTeXFormat{LaTeX2e}
\ProvidesPackage{fancyhdr}%
           [2017/06/30 v3.9a
                  Extensive control of page headers and footers]%
% Copyright (C) 1994-2016 by Piet van Oostrum <piet@vanoostrum.org>
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\def\if@nch@mpty#1{\def\temp@a{#1}\ifx\temp@a\@empty}
\def\f@nch@def#1#2{\if@nch@mpty{#2}\f@nch@gbl\def#1{\leavevmode}\else
                                   \f@nch@gbl\def#1{#2\strut}\fi}
\let\f@nch@gbl\global
\def\f@nch@errmsg#1{%
  \ifx\PackageError\undefined \errmessage{#1}\else
  \PackageError{Fancyhdr}{#1}{}\fi}
\def\f@nch@warning#1{%
  \ifx\PackageWarning\undefined \errmessage{#1}\else
  \PackageWarning{Fancyhdr}{#1}{}\fi}
\def\f@nch@forc#1#2#3{\expandafter\f@rc\expandafter#1\expandafter{#2}{#3}}
\def\f@rc#1#2#3{\def\temp@ty{#2}\ifx\@empty\temp@ty\else
                                    \f@nch@rc#1#2\f@nch@rc{#3}\fi}
\def\f@nch@rc#1#2#3\f@nch@rc#4{\def#1{#2}#4\f@rc#1{#3}{#4}}
\newcommand{\f@nch@for}[3]{\edef\@fortmp{#2}%
  \expandafter\@forloop#2,\@nil,\@nil\@@#1{#3}}
\newcommand\f@nch@default[3]{%
  \edef\temp@a{\lowercase{\edef\noexpand\temp@a{#3}}}\temp@a \def#1{}%
  \f@nch@forc\tmpf@ra{#2}%
  {\expandafter\f@nch@ifin\tmpf@ra\temp@a{\edef#1{#1\tmpf@ra}}{}}%
  \ifx\@empty#1\def#1{#2}\fi}
\newcommand{\f@nch@ifin}[4]{%
  \edef\temp@a{#2}\def\temp@b##1#1##2\temp@b{\def\temp@b{##1}}%
  \expandafter\temp@b#2#1\temp@b\ifx\temp@a\temp@b #4\else #3\fi}
\newcommand{\fancyhead}[2][]{\f@nch@fancyhf\fancyhead h[#1]{#2}}%
\newcommand{\fancyfoot}[2][]{\f@nch@fancyhf\fancyfoot f[#1]{#2}}%
\newcommand{\fancyhf}[2][]{\f@nch@fancyhf\fancyhf {}[#1]{#2}}%
\newcommand{\fancyheadoffset}[2][]{\f@nch@fancyhfoffs\fancyheadoffset h[#1]{#2}}%
\newcommand{\fancyfootoffset}[2][]{\f@nch@fancyhfoffs\fancyfootoffset f[#1]{#2}}%
\newcommand{\fancyhfoffset}[2][]{\f@nch@fancyhfoffs\fancyhfoffset {}[#1]{#2}}%
\def\f@nch@fancyhf#1#2[#3]#4{%
  \def\temp@c{}%
  \f@nch@forc\tmpf@ra{#3}%
  {\expandafter\f@nch@ifin\tmpf@ra{eolcrhf,EOLCRHF}%
    {}{\edef\temp@c{\temp@c\tmpf@ra}}}%
  \ifx\@empty\temp@c\else \f@nch@errmsg{Illegal char `\temp@c' in
    \string#1 argument: [#3]}%
  \fi \f@nch@for\temp@c{#3}%
  {\f@nch@default\f@nch@@eo{eo}\temp@c \if@twoside\else \if\f@nch@@eo
    e\f@nch@warning {\string#1's `E' option without twoside option is
      useless}\fi\fi \f@nch@default\f@nch@@lcr{lcr}\temp@c
    \f@nch@default\f@nch@@hf{hf}{#2\temp@c}%
    \f@nch@forc\f@nch@eo\f@nch@@eo
        {\f@nch@forc\f@nch@lcr\f@nch@@lcr
          {\f@nch@forc\f@nch@hf\f@nch@@hf
            {\expandafter\f@nch@def\csname
              f@nch@\f@nch@eo\f@nch@lcr\f@nch@hf\endcsname {#4}}}}}}
\def\f@nch@fancyhfoffs#1#2[#3]#4{%
  \def\temp@c{}%
  \f@nch@forc\tmpf@ra{#3}%
  {\expandafter\f@nch@ifin\tmpf@ra{eolrhf,EOLRHF}%
    {}{\edef\temp@c{\temp@c\tmpf@ra}}}%
  \ifx\@empty\temp@c\else \f@nch@errmsg{Illegal char `\temp@c' in
    \string#1 argument: [#3]}%
  \fi \f@nch@for\temp@c{#3}%
  {\f@nch@default\f@nch@@eo{eo}\temp@c \if@twoside\else \if\f@nch@@eo
    e\f@nch@warning {\string#1's `E' option without twoside option is
      useless}\fi\fi \f@nch@default\f@nch@@lcr{lr}\temp@c
    \f@nch@default\f@nch@@hf{hf}{#2\temp@c}%
    \f@nch@forc\f@nch@eo\f@nch@@eo
        {\f@nch@forc\f@nch@lcr\f@nch@@lcr
          {\f@nch@forc\f@nch@hf\f@nch@@hf
            {\expandafter\setlength\csname
              f@nch@O@\f@nch@eo\f@nch@lcr\f@nch@hf\endcsname {#4}}}}}%
  \f@nch@setoffs}
\newcommand{\lhead}[2][\f@nch@olh]%
                     {\f@nch@def\f@nch@olh{#2}\f@nch@def\f@nch@elh{#1}}
\newcommand{\chead}[2][\f@nch@och]%
                     {\f@nch@def\f@nch@och{#2}\f@nch@def\f@nch@ech{#1}}
\newcommand{\rhead}[2][\f@nch@orh]%
                     {\f@nch@def\f@nch@orh{#2}\f@nch@def\f@nch@erh{#1}}
\newcommand{\lfoot}[2][\f@nch@olf]%
                     {\f@nch@def\f@nch@olf{#2}\f@nch@def\f@nch@elf{#1}}
\newcommand{\cfoot}[2][\f@nch@ocf]%
                     {\f@nch@def\f@nch@ocf{#2}\f@nch@def\f@nch@ecf{#1}}
\newcommand{\rfoot}[2][\f@nch@orf]%
                     {\f@nch@def\f@nch@orf{#2}\f@nch@def\f@nch@erf{#1}}
\newlength{\f@nch@headwidth} \let\headwidth\f@nch@headwidth
\newlength{\f@nch@O@elh}
\newlength{\f@nch@O@erh}
\newlength{\f@nch@O@olh}
\newlength{\f@nch@O@orh}
\newlength{\f@nch@O@elf}
\newlength{\f@nch@O@erf}
\newlength{\f@nch@O@olf}
\newlength{\f@nch@O@orf}
\newcommand{\headrulewidth}{0.4pt}
\newcommand{\footrulewidth}{0pt}
\@ifundefined{footruleskip}%
      {\newcommand{\footruleskip}{.3\normalbaselineskip}}{}
\newcommand{\plainheadrulewidth}{0pt}
\newcommand{\plainfootrulewidth}{0pt}
\newif\if@fancyplain \@fancyplainfalse
\def\fancyplain#1#2{\if@fancyplain#1\else#2\fi}
\headwidth=-123456789sp
\let\f@nch@raggedleft\raggedleft
\let\f@nch@raggedright\raggedright
\let\f@nch@centering\centering
\let\f@nch@everypar\everypar
\def\f@nch@reset{\f@nch@everypar{}\restorecr\endlinechar=13
  \let\\\@normalcr \let\raggedleft\f@nch@raggedleft
  \let\raggedright\f@nch@raggedright \let\centering\f@nch@centering
  \def\baselinestretch{1}%
  \hsize=\headwidth
  \def\nouppercase##1{{\let\uppercase\relax\let\MakeUppercase\relax
      \expandafter\let\csname MakeUppercase \endcsname\relax##1}}%
  \ifx\undefined\@newbaseline % NFSS not present; 2.09 or 2e
  \ifx\@normalsize\undefined \normalsize % for ucthesis.cls
  \else \@normalsize \fi \else % NFSS (2.09) present
  \@newbaseline%
  \fi}
\fancyhf{}
\if@twoside
  \fancyhead[el,or]{\fancyplain{}{\slshape\rightmark}}
  \fancyhead[er,ol]{\fancyplain{}{\slshape\leftmark}}
\else
  \fancyhead[l]{\fancyplain{}{\slshape\rightmark}}
  \fancyhead[r]{\fancyplain{}{\slshape\leftmark}}
\fi
\fancyfoot[c]{\rmfamily\thepage} % page number
\def\f@nch@vbox#1#2{\setbox0\vbox{#2}\ifdim\ht0>#1\f@nch@warning
  {\string#1 is too small (\the#1): ^^J Make it at least \the\ht0.^^J We
    now make it that large for the rest of the document.^^J This may
    cause the page layout to be inconsistent, however\@gobble}%
  \dimen0=#1\global\setlength{#1}{\ht0}\ht0=\dimen0\fi \box0}
\def\f@nch@head#1#2#3#4#5{#1\hbox to\headwidth{\f@nch@reset
    \f@nch@vbox\headheight{\hbox
      {\rlap{\parbox[b]{\headwidth}{\raggedright#2}}\hfill
        \parbox[b]{\headwidth}{\centering#3}\hfill
        \llap{\parbox[b]{\headwidth}{\raggedleft#4}}}\headrule}}#5}
\def\f@nch@foot#1#2#3#4#5{#1\hbox to\headwidth{\f@nch@reset
    \f@nch@vbox\footskip{\footrule
      \hbox{\rlap{\parbox[t]{\headwidth}{\raggedright#2}}\hfill
        \parbox[t]{\headwidth}{\centering#3}\hfill
        \llap{\parbox[t]{\headwidth}{\raggedleft#4}}}}}#5}
\def\headrule{{\if@fancyplain\let\headrulewidth\plainheadrulewidth\fi
    \hrule\@height\headrulewidth\@width\headwidth
    \vskip-\headrulewidth}}
\def\footrule{{\if@fancyplain\let\footrulewidth\plainfootrulewidth\fi
    \vskip-\footruleskip\vskip-\footrulewidth
    \hrule\@width\headwidth\@height\footrulewidth\vskip\footruleskip}}
\def\ps@fancy{%
  \@ifundefined{@chapapp}{\let\@chapapp\chaptername}{}% for amsbook
\@ifundefined{MakeUppercase}{\def\MakeUppercase{\uppercase}}{}%
\ifx\chapter\@undefined \def\sectionmark##1{\markboth
  {\MakeUppercase{\ifnum \c@secnumdepth>\z@ \thesection\hskip 1em\relax
      \fi ##1}}{}}%
\def\subsectionmark##1{\markright {\ifnum \c@secnumdepth >\@ne
    \thesubsection\hskip 1em\relax \fi ##1}}%
\else \def\chaptermark##1{\markboth {\MakeUppercase{\ifnum
      \c@secnumdepth>\m@ne \@chapapp\ \thechapter. \ \fi ##1}}{}}%
\def\sectionmark##1{\markright{\MakeUppercase{\ifnum \c@secnumdepth >\z@
      \thesection. \ \fi ##1}}}%
\fi
\ps@@fancy
\gdef\ps@fancy{\@fancyplainfalse\ps@@fancy}%
\ifdim\headwidth<0sp
    \global\advance\headwidth123456789sp\global\advance\headwidth\textwidth
\fi}
\def\ps@fancyplain{\ps@fancy \let\ps@plain\ps@plain@fancy}
\def\ps@plain@fancy{\@fancyplaintrue\ps@@fancy}
\let\ps@@empty\ps@empty
\def\ps@@fancy{%
  \ps@@empty
  \def\@mkboth{\protect\markboth}%
  \def\@oddhead{\f@nch@head\f@nch@Oolh\f@nch@olh\f@nch@och\f@nch@orh\f@nch@Oorh}%
  \def\@oddfoot{\f@nch@foot\f@nch@Oolf\f@nch@olf\f@nch@ocf\f@nch@orf\f@nch@Oorf}%
  \def\@evenhead{\f@nch@head\f@nch@Oelh\f@nch@elh\f@nch@ech\f@nch@erh\f@nch@Oerh}%
  \def\@evenfoot{\f@nch@foot\f@nch@Oelf\f@nch@elf\f@nch@ecf\f@nch@erf\f@nch@Oerf}%
}
\def\f@nch@Oolh{\if@reversemargin\hss\else\relax\fi}
\def\f@nch@Oorh{\if@reversemargin\relax\else\hss\fi}
\let\f@nch@Oelh\f@nch@Oorh
\let\f@nch@Oerh\f@nch@Oolh
\let\f@nch@Oolf\f@nch@Oolh
\let\f@nch@Oorf\f@nch@Oorh
\let\f@nch@Oelf\f@nch@Oelh
\let\f@nch@Oerf\f@nch@Oerh
\def\f@nch@offsolh{\headwidth=\textwidth\advance\headwidth\f@nch@O@olh
                   \advance\headwidth\f@nch@O@orh\hskip-\f@nch@O@olh}
\def\f@nch@offselh{\headwidth=\textwidth\advance\headwidth\f@nch@O@elh
                   \advance\headwidth\f@nch@O@erh\hskip-\f@nch@O@elh}
\def\f@nch@offsolf{\headwidth=\textwidth\advance\headwidth\f@nch@O@olf
                   \advance\headwidth\f@nch@O@orf\hskip-\f@nch@O@olf}
\def\f@nch@offself{\headwidth=\textwidth\advance\headwidth\f@nch@O@elf
                   \advance\headwidth\f@nch@O@erf\hskip-\f@nch@O@elf}
\def\f@nch@setoffs{%
  \f@nch@gbl\let\headwidth\f@nch@headwidth
  \f@nch@gbl\let\f@nch@Oolh\f@nch@offsolh
  \f@nch@gbl\let\f@nch@Oelh\f@nch@offselh \f@nch@gbl\let\f@nch@Oorh\hss
  \f@nch@gbl\let\f@nch@Oerh\hss \f@nch@gbl\let\f@nch@Oolf\f@nch@offsolf
  \f@nch@gbl\let\f@nch@Oelf\f@nch@offself \f@nch@gbl\let\f@nch@Oorf\hss
  \f@nch@gbl\let\f@nch@Oerf\hss
}
\newif\iff@nch@footnote
\AtBeginDocument{%
  \let\latex@makecol\@makecol
  \def\@makecol{\ifvoid\footins\f@nch@footnotefalse\else\f@nch@footnotetrue\fi
    \let\topfloat\@toplist\let\botfloat\@botlist\latex@makecol}%
}
\newcommand\iftopfloat[2]{\ifx\topfloat\empty #2\else #1\fi}%
\newcommand\ifbotfloat[2]{\ifx\botfloat\empty #2\else #1\fi}%
\newcommand\iffloatpage[2]{\if@fcolmade #1\else #2\fi}%
\newcommand\iffootnote[2]{\iff@nch@footnote #1\else #2\fi}%
\newcommand{\fancypagestyle}[2]{%
  \@namedef{ps@#1}{\let\f@nch@gbl\relax#2\relax\ps@fancy}}
\endinput
%%
%% End of file `fancyhdr.sty'.

Added figs/incoming/00-01.jpg.

cannot compute difference between binary files

Added figs/incoming/00-poster.png.

cannot compute difference between binary files

Added figs/incoming/01-01.png.

cannot compute difference between binary files

Added figs/incoming/01-DD.png.

cannot compute difference between binary files

Added figs/incoming/01-FF.png.

cannot compute difference between binary files

Added figs/incoming/01-GG.png.

cannot compute difference between binary files

Added figs/incoming/01-HH.png.

cannot compute difference between binary files

Added figs/incoming/01-JJ.png.

cannot compute difference between binary files

Added figs/incoming/01-LL.jpg.

cannot compute difference between binary files

Added figs/incoming/01-MM.jpg.

cannot compute difference between binary files

Added figs/incoming/01-XX.jpg.

cannot compute difference between binary files

Added figs/incoming/01-YY.jpg.

cannot compute difference between binary files

Added figs/incoming/02-00-cover.png.

cannot compute difference between binary files

Added figs/incoming/02-00.jpg.

cannot compute difference between binary files

Added figs/incoming/02-01.png.

cannot compute difference between binary files

Added figs/incoming/02-02.png.

cannot compute difference between binary files

Added figs/incoming/02-03-AA.png.

cannot compute difference between binary files

Added figs/incoming/02-03-CC.png.

cannot compute difference between binary files

Added figs/incoming/02-03-DD.png.

cannot compute difference between binary files

Added figs/incoming/02-04.jpg.

cannot compute difference between binary files

Added figs/incoming/02-05.png.

cannot compute difference between binary files

Added figs/incoming/02-MM.png.

cannot compute difference between binary files

Added figs/incoming/02-RR.png.

cannot compute difference between binary files

Added figs/incoming/02-TT.png.

cannot compute difference between binary files

Added figs/incoming/02-XY.jpg.

cannot compute difference between binary files

Added figs/incoming/02-YY.jpg.

cannot compute difference between binary files

Added figs/incoming/02-ZZ.png.

cannot compute difference between binary files

Added figs/incoming/03-00-cover.png.

cannot compute difference between binary files

Added figs/incoming/03-AA.png.

cannot compute difference between binary files

Added figs/incoming/03-BB.png.

cannot compute difference between binary files

Added figs/incoming/03-CC.png.

cannot compute difference between binary files

Added figs/incoming/03-DD.png.

cannot compute difference between binary files

Added figs/incoming/03-EE.png.

cannot compute difference between binary files

Added figs/incoming/03-FF.png.

cannot compute difference between binary files

Added figs/incoming/03-GG.jpg.

cannot compute difference between binary files

Added figs/incoming/03-LL-01.jpg.

cannot compute difference between binary files

Added figs/incoming/03-LL-02.jpg.

cannot compute difference between binary files

Added figs/incoming/03-LL-03.jpg.

cannot compute difference between binary files

Added figs/incoming/03-MM.png.

cannot compute difference between binary files

Added figs/incoming/03-OO-01.png.

cannot compute difference between binary files

Added figs/incoming/03-PP-01.png.

cannot compute difference between binary files

Added figs/incoming/03-PP-02.png.

cannot compute difference between binary files

Added figs/incoming/03-PP-03.png.

cannot compute difference between binary files

Added figs/incoming/03-PP-04.png.

cannot compute difference between binary files

Added figs/incoming/03-WW.jpg.

cannot compute difference between binary files

Added figs/incoming/03-XX.jpg.

cannot compute difference between binary files

Added figs/incoming/03-YY.png.

cannot compute difference between binary files

Added figs/incoming/03-ZZ-01.png.

cannot compute difference between binary files

Added figs/incoming/03-ZZ-04.png.

cannot compute difference between binary files

Added figs/incoming/03-ZZ-06.png.

cannot compute difference between binary files

Added figs/incoming/03-ZZ-07.png.

cannot compute difference between binary files

Added figs/incoming/03-ZZ-09.png.

cannot compute difference between binary files

Added figs/incoming/03-ZZ-ZZ.png.

cannot compute difference between binary files

Added figs/incoming/03-ZZ.png.

cannot compute difference between binary files

Added figs/incoming/04-00-cover.png.

cannot compute difference between binary files

Added figs/incoming/04-01.png.

cannot compute difference between binary files

Added figs/incoming/04-AA.png.

cannot compute difference between binary files

Added figs/incoming/04-BB.png.

cannot compute difference between binary files

Added figs/incoming/04-CC.png.

cannot compute difference between binary files

Added figs/incoming/04-DD.png.

cannot compute difference between binary files

Added figs/incoming/04-EE.png.

cannot compute difference between binary files

Added figs/incoming/04-FF.png.

cannot compute difference between binary files

Added figs/incoming/04-GG.jpg.

cannot compute difference between binary files

Added figs/incoming/05-00-cover.png.

cannot compute difference between binary files

Added figs/incoming/05-AA.png.

cannot compute difference between binary files

Added figs/incoming/05-BB.png.

cannot compute difference between binary files

Added figs/incoming/05-BC-graphical-table.png.

cannot compute difference between binary files

Added figs/incoming/05-BD-choropleth.png.

cannot compute difference between binary files

Added figs/incoming/05-CC.png.

cannot compute difference between binary files

Added figs/incoming/05-DD.png.

cannot compute difference between binary files

Added figs/incoming/05-EE.png.

cannot compute difference between binary files

Added figs/incoming/05-FF.png.

cannot compute difference between binary files

Added figs/incoming/05-GG.png.

cannot compute difference between binary files

Added figs/incoming/05-HH.png.

cannot compute difference between binary files

Added figs/incoming/05-II.png.

cannot compute difference between binary files

Added figs/incoming/05-MM.jpg.

cannot compute difference between binary files

Added figs/incoming/05-MM.png.

cannot compute difference between binary files

Added figs/incoming/06-00-cover.png.

cannot compute difference between binary files

Added figs/incoming/06-AA.png.

cannot compute difference between binary files

Added figs/incoming/06-GG-01.png.

cannot compute difference between binary files

Added figs/incoming/06-GG-02-b.png.

cannot compute difference between binary files

Added figs/incoming/06-GG-03.png.

cannot compute difference between binary files

Added figs/incoming/06-GG-04.png.

cannot compute difference between binary files

Added figs/incoming/06-GG-05.png.

cannot compute difference between binary files

Added figs/incoming/06-GG-06.png.

cannot compute difference between binary files

Added figs/incoming/06-GG-07.png.

cannot compute difference between binary files

Added figs/incoming/06-GG-08.png.

cannot compute difference between binary files

Added figs/incoming/06-LL-01.jpg.

cannot compute difference between binary files

Added figs/incoming/06-LL-02.jpg.

cannot compute difference between binary files

Added figs/incoming/06-LL-03.png.

cannot compute difference between binary files

Added figs/incoming/06-LL-04.jpg.

cannot compute difference between binary files

Added figs/incoming/06-LL-05.jpg.

cannot compute difference between binary files

Added figs/incoming/06-LL-06.jpg.

cannot compute difference between binary files

Added figs/incoming/06-LL-07.jpg.

cannot compute difference between binary files

Added figs/incoming/06-LL-08.jpg.

cannot compute difference between binary files

Added figs/incoming/06-MM.png.

cannot compute difference between binary files

Added figs/incoming/06-NN.png.

cannot compute difference between binary files

Added figs/incoming/06-PP-01.png.

cannot compute difference between binary files

Added figs/incoming/06-PP-02.png.

cannot compute difference between binary files

Added figs/incoming/06-PP-03.png.

cannot compute difference between binary files

Added figs/incoming/06-PP-04.png.

cannot compute difference between binary files

Added figs/incoming/06-PP-05.png.

cannot compute difference between binary files

Added figs/incoming/06-PP-06.png.

cannot compute difference between binary files

Added figs/incoming/06-RR-01.png.

cannot compute difference between binary files

Added figs/incoming/06-RR-02.png.

cannot compute difference between binary files

Added figs/incoming/06-RR-03.png.

cannot compute difference between binary files

Added figs/incoming/06-RR-04.png.

cannot compute difference between binary files

Added figs/incoming/06-TT-01.gif.

cannot compute difference between binary files

Added figs/incoming/06-TT-02.jpg.

cannot compute difference between binary files

Added figs/incoming/06-TT-03.jpg.

cannot compute difference between binary files

Added figs/incoming/06-TT-04.png.

cannot compute difference between binary files

Added figs/incoming/06-TT-05.png.

cannot compute difference between binary files

Added figs/incoming/06-TT-06.png.

cannot compute difference between binary files

Added figs/incoming/06-TT-07.png.

cannot compute difference between binary files

Added figs/incoming/06-YY.png.

cannot compute difference between binary files

Added fltpage.sty.



























































































































































































1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
%%
%% This is file `fltpage.sty',
%% generated with the docstrip utility.
%%
%% The original source files were:
%%
%% fltpage.dtx  (with options: `package')
%% 
%% Copyright (C) 1998 by Sebastian Gross. All rights reserved.
%% 
%% 
%% This file is part of the fltpage package
%% 
%% IMPORTANT NOTICE:
%% 
%% This a tool or better yet, an experiments written by Sebastian Gross,
%% who is writing this not only for it utility value, but as part of the
%% process of learning LaTeX.  This utility is far from perfect, and
%% comments are welcome.
%% 
%% The usual disclaimers apply:  If it doesn't work right that's your problem!
%% 
%% The usual GNU-style conditions apply: If you change it, you take
%% the blame; if you pass it on, pass on all present conditions;
%% 
%% Error Reports in case of UNCHANGED versions to
%% 
%%       Sebastian Gross   <seppel@zedat.fu-berlin.de>
%% 
%%
%% \iffalse meta-comment
%% ===================================================================
%%  @LaTeX-package-file{
%%     author     = {Sebastian Gross},
%%     version    = {0.3},
%%     date       = {13 Nov 1998},
%%     filename   = {fltpage.dtx},
%%     email      = {seppel@zedat.fu-berlin.de},
%%     codetable  = {ISO/ASCII},
%%     keywords   = {LaTeX2e, float, table, figure, caption, FPfigure, FPtable},
%%     supported  = {yes},
%%     docstring  = {LaTeX package which defines new environments to place
%%                   captions of tables and figures on the facing/following page.}
%%  }
%% ===================================================================
%% \fi
\NeedsTeXFormat{LaTeX2e}
\ProvidesPackage{fltpage}[1998/10/29 v.0.3 Floats on full page (SMU)]
\RequirePackage{ifthen}
\RequirePackage{afterpage}
\newcounter{FP@figureC}
\newcounter{FP@tableC}
\newsavebox{\FP@floatCorpusBOX}
\newcommand*{\FP@guide}{}%
\newcommand*{\FP@guideStyle}{\slshape}
\newcommand*{\FP@guideOneside}{following page}
\newcommand*{\FP@guideTwoside}{facing page}
\newcommand*{\FP@guideAfter}{following page}
\newcommand*{\FP@guideBefore}{preceding page}
\newcommand*{\FP@guideFaceBefore}{preceding page}
\newcommand*{\FP@guideFaceAfter}{following page}
\newcommand*{\FP@separatorCaption}{\rule{\linewidth}{.4pt}}
\newcommand{\FP@positionLabel}{FP\@captype-\number\value{FP@\@captype C}-pos}
\newcommand{\FP@helpNote}[2]{%
  \typeout{FP#1 is inserted on page \pageref{#2}!}}%
\newcommand{\FP@floatOneside}{}
\newcommand{\FP@floatTwoside}{}
\newcommand{\FP@float}{}
\DeclareOption{german}{%
  \renewcommand{\FP@guideAfter}{n\"achste Seite}
  \renewcommand{\FP@guideBefore}{vorhergehende Seite}
  \renewcommand{\FP@guideOneside}{\FP@guideAfter}
  \renewcommand{\FP@guideFaceBefore}{gegen\"uberliegende Seite}
  \renewcommand{\FP@guideFaceAfter}{gegen\"uberliegende Seite}
  \renewcommand{\FP@guideTwoside}{\FP@guideFaceAfter}
  \PassOptionsToPackage{german}{varioref}
}%
\DeclareOption{varioref}{%
  \AtBeginDocument{%
    \RequirePackage{varioref}
    \ifthenelse{\equal{\reftextbefore}{\@empty}}%
      {}{\renewcommand{\FP@guideBefore}{\reftextbefore}}%
    \ifthenelse{\equal{\reftextafter}{\@empty}}%
      {}{\renewcommand{\FP@guideAfter}{\reftextafter}}%
    \renewcommand{\FP@guideOneside}{\FP@guideAfter}
    \ifthenelse{\equal{\reftextfacebefore}{\@empty}}%
      {}{\renewcommand{\FP@guideFaceBefore}{\reftextfacebefore}}%
    \ifthenelse{\equal{\reftextfaceafter}{\@empty}}%
      {}{\renewcommand{\FP@guideFaceAfter}{\reftextfaceafter}}%
    \renewcommand{\FP@guideTwoside}{\FP@guideFaceAfter}%
  }%
}%
\DeclareOption{closeFloats}{%
  \renewcommand{\FP@floatOneside}[3]{#3#2#1}%
  \renewcommand{\FP@floatTwoside}[4]{%
    \ifthenelse{\isodd{\pageref{#1}}}{#2#3#4}{#4#3#2}}%
}%
\DeclareOption{leftFloats}{%
  \renewcommand{\FP@floatOneside}[3]{#1#2#3}%
  \renewcommand{\FP@floatTwoside}[4]{%
    \ifthenelse{\isodd{\pageref{#1}}}{{#2#3#4}}{\afterpage{#2#3#4}}}%
  \renewcommand{\FP@guideOneside}{\FP@guideBefore}%
  \renewcommand{\FP@guideTwoside}{\FP@guideFaceBefore}%
}%
\DeclareOption{rightFloats}{%
  \renewcommand{\FP@floatOneside}[3]{#3#2#1}%
  \renewcommand{\FP@floatTwoside}[4]{%
    \ifthenelse{\isodd{\pageref{#1}}}{\afterpage{#4#3#2}}{{#4#3#2}}}%
  \renewcommand{\FP@guideOneside}{\FP@guideAfter}%
  \renewcommand{\FP@guideTwoside}{\FP@guideFaceAfter}%
}%
\DeclareOption{CaptionAfterwards}{\ExecuteOptions{leftFloats}}
\DeclareOption{CaptionBefore}{\ExecuteOptions{rightFloats}}%
\DeclareOption{draft}{%
  \renewcommand{\FP@helpNote}[2]{%
    \marginpar{Insertion of FP#1}%
    \typeout{FP#1 is inserted on page \pageref{#2}!}}%
}%
\DeclareOption{oneside}{%
  \renewcommand{\FP@guide}{\FP@guideStyle(\FP@guideOneside)}%
  \renewcommand{\FP@float}[4]{\FP@floatOneside{#2}{#3}{#4}}
}%
\DeclareOption{twoside}{%
  \renewcommand{\FP@guide}{\FP@guideStyle(\FP@guideTwoside)}%
  \renewcommand{\FP@float}[4]{\FP@floatTwoside{#1}{#2}{#3}{#4}}
}%
\DeclareOption{noSeparatorLine}{%
  \renewcommand{\FP@separatorCaption}{}
}
\DeclareOption{noHints}{%
  \AtBeginDocument{\renewcommand{\FP@guide}{}}
}%
\DeclareOption*{%
  \PackageWarning{fltpage}{Unknown option `\CurrentOption'!}%
  \PassOptionsToPackage{\currentOption}{varioref}
}%
\ExecuteOptions{closeFloats}
\ExecuteOptions{oneside}
\ProcessOptions*
\relax
\newcommand{\FP@floatBegin}[1]{%
  \gdef\@captype{#1}%
  \global\let\FP@savedCaptionCommand\caption%
  \global\let\FP@savedLabelCommand\label%
  \ifthenelse{\equal{\@captype}{figure}}
     {\global\let\old@Fnum\fnum@figure}%
     {\global\let\old@Fnum\fnum@table}%
  \let\FP@LabelText\@empty%
  \let\FP@CaptionText\@empty%
  \let\FP@optionalCaptionText\@empty%
  \renewcommand\label[1]{\gdef\FP@LabelText{##1}}%
  \renewcommand\caption[2][]{\gdef\FP@optionalCaptionText{##1}\gdef\FP@CaptionText{##2}}%
  \begin{lrbox}{\FP@floatCorpusBOX}%
}%
\newcommand{\FP@floatEnd}{%
  \end{lrbox}%
  \global\setbox\FP@floatCorpusBOX=\box\FP@floatCorpusBOX
  \stepcounter{FP@\@captype C}%
  \FP@savedLabelCommand{\FP@positionLabel}%
  \FP@helpNote{\@captype}{\FP@positionLabel}%
  \FP@float{\FP@positionLabel}% location label test
          {\begin{\@captype}[p!]
             \usebox{\FP@floatCorpusBOX}%
             \refstepcounter{\@captype}%
             \ifthenelse{\equal{\FP@LabelText}{\@empty}}
                {}{\FP@savedLabelCommand{\expandafter\protect\FP@LabelText}}%
          \end{\@captype}}
           {\addtocounter{\@captype}{-1}}
           {\begin{\@captype}[b!]%
             \ifthenelse{\equal{\FP@guide}{\@empty}}%
               {}{\ifthenelse{\equal{\@captype}{figure}}%
                   {\renewcommand{\fnum@figure}{\old@Fnum\ {\FP@guide}}}%
                   {\renewcommand{\fnum@table}{\old@Fnum\ {\FP@guide}}}}%
             \setlength{\abovecaptionskip}{2pt plus2pt minus 1pt} % length above caption
             \setlength{\belowcaptionskip}{2pt plus2pt minus 1pt} % length above caption
             \FP@separatorCaption%
             \ifthenelse{\equal{\FP@optionalCaptionText}{\@empty}}%
               {\FP@savedCaptionCommand{\expandafter\protect\FP@CaptionText}}%
               {\FP@savedCaptionCommand[\expandafter\protect\FP@optionalCaptionText]{\expandafter\protect\FP@CaptionText}}%
           \end{\@captype}}%
}%
\newenvironment{FPfigure}{\FP@floatBegin{figure}}{\FP@floatEnd}
\newenvironment{FPtable}{\FP@floatBegin{table}}{\FP@floatEnd}
\endinput
%%
%% End of file `fltpage.sty'.

Added img/cc-by-sa.png.

cannot compute difference between binary files

Added img/notebook.png.

cannot compute difference between binary files

Added mapeda.markdown.








































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
1001
1002
1003
1004
1005
1006
1007
1008
1009
1010
1011
1012
1013
1014
1015
1016
1017
1018
1019
1020
1021
1022
1023
1024
1025
1026
1027
1028
1029
1030
1031
1032
1033
1034
1035
1036
1037
1038
1039
1040
1041
1042
1043
1044
1045
1046
1047
1048
1049
1050
1051
1052
1053
1054
1055
1056
1057
1058
1059
1060
1061
1062
1063
1064
1065
1066
1067
1068
1069
1070
1071
1072
1073
1074
1075
1076
1077
1078
1079
1080
1081
1082
1083
1084
1085
1086
1087
1088
1089
1090
1091
1092
1093
1094
1095
1096
1097
1098
1099
1100
1101
1102
1103
1104
1105
1106
1107
1108
1109
1110
1111
1112
1113
1114
1115
1116
1117
1118
1119
1120
1121
1122
1123
1124
1125
1126
1127
1128
1129
1130
1131
1132
1133
1134
1135
1136
1137
1138
1139
1140
1141
1142
1143
1144
1145
1146
1147
1148
1149
1150
1151
1152
1153
1154
1155
1156
1157
1158
1159
1160
1161
1162
1163
1164
1165
1166
1167
1168
1169
1170
1171
1172
1173
1174
1175
1176
1177
1178
1179
1180
1181
1182
1183
1184
1185
1186
1187
1188
1189
1190
1191
1192
1193
1194
1195
1196
1197
1198
1199
1200
1201
1202
1203
1204
1205
1206
1207
1208
1209
1210
1211
1212
1213
1214
1215
1216
1217
1218
1219
1220
1221
1222
1223
1224
1225
1226
1227
1228
1229
1230
1231
1232
1233
1234
1235
1236
1237
1238
1239
1240
1241
1242
1243
1244
1245
1246
1247
1248
1249
1250
1251
1252
1253
1254
1255
1256
1257
1258
1259
1260
1261
1262
1263
1264
1265
1266
1267
1268
1269
1270
1271
1272
1273
1274
1275
1276
1277
1278
1279
1280
1281
1282
1283
1284
1285
1286
1287
1288
1289
1290
1291
1292
1293
1294
1295
1296
1297
1298
1299
1300
1301
1302
1303
1304
1305
1306
1307
1308
1309
1310
1311
1312
1313
1314
1315
1316
1317
1318
1319
1320
1321
1322
1323
1324
1325
1326
1327
1328
1329
1330
1331
1332
1333
1334
1335
1336
1337
1338
1339
1340
1341
1342
1343
1344
1345
1346
1347
1348
1349
1350
1351
1352
1353
1354
1355
1356
1357
1358
1359
1360
1361
1362
1363
1364
1365
1366
1367
1368
1369
1370
1371
1372
1373
1374
1375
1376
1377
1378
1379
1380
1381
1382
1383
1384
1385
1386
1387
1388
1389
1390
1391
1392
1393
1394
1395
1396
1397
1398
1399
1400
1401
1402
1403
1404
1405
1406
1407
1408
1409
1410
1411
1412
1413
1414
1415
1416
1417
1418
1419
1420
1421
1422
1423
1424
1425
1426
1427
1428
1429
1430
1431
1432
1433
1434
1435
1436
1437
1438
1439
1440
1441
1442
1443
1444
1445
1446
1447
1448
1449
1450
1451
1452
1453
1454
1455
1456
1457
1458
1459
1460
1461
1462
1463
1464
1465
1466
1467
1468
1469
1470
1471
1472
1473
1474
1475
1476
1477
1478
1479
1480
1481
1482
1483
1484
1485
1486
1487
1488
1489
1490
1491
1492
1493
1494
1495
1496
1497
1498
1499
1500
1501
1502
1503
1504
1505
1506
1507
1508
1509
1510
1511
1512
1513
1514
1515
1516
1517
1518
1519
1520
1521
1522
1523
1524
1525
1526
1527
1528
1529
1530
1531
1532
1533
1534
1535
1536
1537
1538
1539
1540
1541
1542
1543
1544
1545
1546
1547
1548
1549
1550
1551
1552
1553
1554
1555
1556
1557
1558
1559
1560
1561
1562
1563
1564
1565
1566
1567
1568
1569
1570
1571
1572
1573
1574
1575
1576
1577
1578
1579
1580
1581
1582
1583
1584
1585
1586
1587
1588
1589
1590
1591
1592
1593
1594
1595
1596
1597
1598
1599
1600
1601
1602
1603
1604
1605
1606
1607
1608
1609
1610
1611
1612
1613
1614
1615
1616
1617
1618
1619
1620
1621
1622
1623
1624
1625
1626
1627
1628
1629
1630
1631
1632
1633
1634
1635
1636
1637
1638
1639
1640
1641
1642
1643
1644
1645
1646
1647
1648
1649
1650
1651
1652
1653
1654
1655
1656
1657
1658
1659
1660
1661
1662
1663
1664
1665
1666
1667
1668
1669
1670
1671
1672
1673
1674
1675
1676
1677
1678
1679
1680
1681
1682
1683
1684
1685
1686
1687
1688
1689
1690
1691
1692
1693
1694
1695
1696
1697
1698
1699
1700
1701
1702
1703
1704
1705
1706
1707
1708
1709
1710
1711
1712
1713
1714
1715
1716
1717
1718
1719
1720
1721
1722
1723
1724
1725
1726
1727
1728
1729
1730
1731
1732
1733
1734
1735
1736
1737
1738
1739
1740
1741
1742
1743
1744
1745
1746
1747
1748
1749
1750
1751
1752
1753
1754
1755
1756
1757
1758
1759
1760
1761
1762
1763
1764
1765
1766
1767
1768
1769
1770
1771
1772
1773
1774
1775
1776
1777
1778
1779
1780
1781
1782
1783
1784
1785
1786
1787
1788
1789
1790
1791
1792
1793
1794
1795
1796
1797
1798
1799
1800
1801
1802
1803
1804
1805
1806
1807
1808
1809
1810
1811
1812
1813
1814
1815
1816
1817
1818
1819
1820
1821
1822
1823
1824
1825
1826
1827
1828
1829
1830
1831
1832
1833
1834
1835
1836
1837
1838
1839
1840
1841
1842
1843
1844
1845
1846
1847
1848
1849
1850
1851
1852
1853
1854
1855
1856
1857
1858
1859
1860
1861
1862
1863
1864
1865
1866
1867
1868
1869
1870
1871
1872
1873
1874
1875
1876
1877
1878
1879
1880
1881
1882
1883
1884
1885
1886
1887
1888
1889
1890
1891
1892
1893
1894
1895
1896
1897
1898
1899
1900
1901
1902
1903
1904
1905
1906
1907
1908
1909
1910
1911
1912
1913
1914
1915
1916
1917
1918
1919
1920
1921
1922
1923
1924
1925
1926
1927
1928
1929
1930
1931
1932
1933
1934
1935
1936
1937
1938
1939
1940
1941
1942
1943
1944
1945
1946
1947
1948
1949
1950
1951
1952
1953
1954
1955
1956
1957
1958
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
2023
2024
2025
2026
2027
2028
2029
2030
2031
2032
2033
2034
2035
2036
2037
2038
2039
2040
2041
2042
2043
2044
2045
2046
2047
2048
2049
2050
2051
2052
2053
2054
2055
2056
2057
2058
2059
2060
2061
2062
2063
2064
2065
2066
2067
2068
2069
2070
2071
2072
2073
2074
2075
2076
2077
2078
2079
2080
2081
2082
2083
2084
2085
2086
2087
2088
2089
2090
2091
2092
2093
2094
2095
2096
2097
2098
2099
2100
2101
2102
2103
2104
2105
2106
2107
2108
2109
2110
2111
2112
2113
2114
2115
2116
2117
2118
2119
2120
2121
2122
2123
2124
2125
2126
2127
2128
2129
2130
2131
2132
2133
2134
2135
2136
2137
2138
2139
2140
2141
2142
2143
2144
2145
2146
2147
2148
2149
2150
2151
2152
2153
2154
2155
2156
2157
2158
2159
2160
2161
2162
2163
2164
2165
2166
2167
2168
2169
2170
2171
2172
2173
2174
2175
2176
2177
2178
2179
2180
2181
2182
2183
2184
2185
2186
2187
2188
2189
2190
2191
2192
2193
2194
2195
2196
2197
2198
2199
2200
2201
2202
2203
2204
2205
2206
2207
2208
2209
2210
2211
2212
2213
2214
2215
2216
2217
2218
2219
2220
2221
2222
2223
2224
2225
2226
2227
2228
2229
2230
2231
2232
2233
2234
2235
2236
2237
2238
2239
2240
2241
2242
2243
2244
2245
2246
2247
2248
2249
2250
2251
2252
2253
2254
2255
2256
2257
2258
2259
2260
2261
2262
2263
2264
2265
2266
2267
2268
2269
2270
2271
2272
2273
2274
2275
2276
2277
2278
2279
2280
2281
2282
2283
2284
2285
2286
2287
2288
2289
2290
2291
2292
2293
2294
2295
2296
2297
2298
2299
2300
2301
2302
2303
2304
2305
2306
2307
2308
2309
2310
2311
2312
2313
2314
2315
2316
2317
2318
2319
2320
2321
2322
2323
2324
2325
2326
2327
2328
2329
2330
2331
2332
2333
2334
2335
2336
2337
2338
2339
2340
2341
2342
2343
2344
2345
2346
2347
2348
2349
2350
2351
2352
2353
2354
2355
2356
2357
2358
2359
2360
2361
2362
2363
2364
2365
2366
2367
2368
2369
2370
2371
2372
2373
2374
2375
2376
2377
2378
2379
2380
2381
2382
2383
2384
2385
2386
2387
2388
2389
2390
2391
2392
2393
2394
2395
2396
2397
2398
2399
2400
2401
2402
2403
2404
2405
2406
2407
2408
2409
2410
2411
2412
2413
2414
2415
2416
2417
2418
2419
2420
2421
2422
2423
2424
2425
2426
2427
2428
2429
2430
2431
2432
2433
2434
2435
2436
2437
2438
2439
2440
2441
2442
2443
2444
2445
2446
2447
2448
2449
2450
2451
2452
2453
2454
2455
2456
2457
2458
2459
2460
2461
2462
2463
2464
2465
2466
2467
2468
2469
2470
2471
2472
2473
2474
2475
2476
2477
2478
2479
2480
2481
2482
2483
2484
2485
2486
2487
2488
2489
2490
2491
2492
2493
2494
2495
2496
2497
2498
2499
2500
2501
2502
2503
2504
2505
2506
2507
2508
2509
2510
2511
2512
2513
2514
2515
2516
2517
2518
2519
2520
2521
2522
2523
2524
2525
2526
2527
2528
2529
2530
2531
2532
2533
2534
2535
2536
2537
2538
2539
2540
2541
2542
2543
2544
2545
2546
2547
2548
2549
2550
2551
2552
2553
2554
2555
2556
2557
2558
2559
2560
2561
2562
2563
2564
2565
2566
2567
2568
2569
2570
2571
2572
2573
2574
2575
2576
2577
2578
2579
2580
2581
2582
2583
2584
2585
2586
2587
2588
2589
2590
2591
2592
2593
2594
2595
2596
2597
2598
2599
2600
2601
2602
2603
2604
2605
2606
2607
2608
2609
2610
2611
2612
2613
2614
2615
2616
2617
2618
2619
2620
2621
2622
2623
2624
2625
2626
2627
2628
2629
2630
2631
2632
2633
2634
2635
2636
2637
2638
2639
2640
2641
2642
2643
2644
2645
2646
2647
2648
2649
2650
2651
2652
2653
2654
2655
2656
2657
2658
2659
2660
2661
2662
2663
2664
2665
2666
2667
2668
2669
2670
2671
2672
2673
2674
2675
2676
2677
2678
2679
2680
2681
2682
2683
2684
2685
2686
2687
2688
2689
2690
2691
2692
2693
2694
2695
2696
2697
2698
2699
2700
2701
2702
2703
2704
2705
2706
2707
2708
2709
2710
2711
2712
2713
2714
2715
2716
2717
2718
2719
2720
2721
2722
2723
2724
2725
2726
2727
2728
2729
2730
2731
2732
2733
2734
2735
2736
2737
2738
2739
2740
2741
2742
2743
2744
2745
2746
2747
2748
2749
2750
2751
2752
2753
2754
2755
2756
2757
2758
2759
2760
2761
2762
2763
2764
2765
2766
2767
2768
2769
2770
2771
2772
2773
2774
2775
2776
2777
2778
2779
2780
2781
2782
2783
2784
2785
2786
2787
2788
2789
2790
2791
2792
2793
2794
2795
2796
2797
2798
2799
2800
2801
2802
2803
2804
2805
2806
2807
2808
2809
2810
2811
2812
2813
2814
2815
2816
2817
2818
2819
2820
2821
2822
2823
2824
2825
2826
2827
2828
2829
2830
2831
2832
2833
2834
2835
2836
2837
2838
2839
2840
2841
2842
2843
2844
2845
2846
2847
2848
2849
2850
2851
2852
2853
2854
2855
2856
2857
2858
2859
2860
2861
2862
2863
2864
2865
2866
2867
2868
2869
2870
2871
2872
2873
2874
2875
2876
2877
2878
2879
2880
2881
2882
2883
2884
2885
2886
2887
2888
2889
2890
2891
2892
2893
2894
2895
2896
2897
2898
2899
2900
2901
2902
2903
2904
2905
2906
2907
2908
2909
2910
2911
2912
2913
2914
2915
2916
2917
2918
2919
2920
2921
2922
2923
2924
2925
2926
2927
2928
2929
2930
2931
2932
2933
2934
2935
2936
2937
2938
2939
2940
2941
2942
2943
2944
2945
2946
2947
2948
2949
2950
2951
2952
2953
2954
2955
2956
2957
2958
2959
2960
2961
2962
2963
2964
2965
2966
2967
2968
2969
2970
2971
2972
2973
2974
2975
2976
2977
2978
2979
2980
2981
2982
2983
2984
2985
2986
2987
2988
2989
2990
2991
2992
2993
2994
2995
2996
2997
2998
2999
3000
3001
3002
3003
3004
3005
3006
3007
3008
3009
3010
3011
3012
3013
3014
3015
3016
3017
3018
3019
3020
3021
3022
3023
3024
3025
3026
3027
3028
3029
3030
3031
3032
3033
3034
3035
3036
3037
3038
3039
3040
3041
3042
3043
3044
3045
3046
3047
3048
3049
3050
3051
3052
3053
3054
3055
3056
3057
3058
3059
3060
3061
3062
3063
3064
3065
3066
3067
3068
3069
3070
3071
3072
3073
3074
3075
3076
3077
3078
3079
3080
3081
3082
3083
3084
3085
3086
3087
3088
3089
3090
3091
3092
3093
3094
3095
3096
3097
3098
3099
3100
3101
3102
3103
3104
3105
3106
3107
3108
3109
3110
3111
3112
3113
3114
3115
3116
3117
3118
3119
3120
3121
3122
3123
3124
3125
3126
3127
3128
3129
3130
3131
3132
3133
3134
3135
3136
3137
3138
3139
3140
3141
3142
3143
3144
3145
3146
3147
3148
3149
3150
3151
3152
3153
3154
3155
3156
3157
3158
3159
3160
3161
3162
3163
3164
3165
3166
3167
3168
3169
3170
3171
3172
3173
3174
3175
3176
3177
3178
3179
3180
3181
3182
3183
3184
3185
3186
3187
3188
3189
3190
3191
3192
3193
3194
3195
3196
3197
3198
3199
3200
3201
3202
3203
3204
3205
3206
3207
3208
3209
3210
3211
3212
3213
3214
3215
3216
3217
3218
3219
3220
3221
3222
3223
3224
3225
3226
3227
3228
3229
3230
3231
3232
3233
3234
3235
3236
3237
3238
3239
3240
3241
3242
3243
3244
3245
3246
3247
3248
3249
3250
3251
3252
3253
3254
3255
3256
3257
3258
3259
3260
3261
3262
3263
3264
3265
3266
3267
3268
3269
3270
3271
3272
3273
3274
3275
3276
3277
3278
3279
3280
3281
3282
3283
3284
3285
3286
3287
3288
3289
3290
3291
3292
3293
3294
3295
3296
3297
3298
3299
3300
3301
3302
3303
3304
3305
3306
3307
3308
3309
3310
3311
3312
3313
3314
3315
3316
3317
3318
3319
3320
3321
3322
3323
3324
3325
3326
3327
3328
3329
3330
3331
3332
3333
3334
3335
3336
3337
3338
3339
3340
3341
3342
3343
3344
3345
3346
3347
3348
3349
3350
3351
3352
3353
3354
3355
3356
3357
3358
3359
3360
3361
3362
3363
3364
3365
3366
3367
3368
3369
3370
3371
3372
3373
3374
3375
3376
3377
3378
3379
3380
3381
3382
3383
3384
3385
3386
3387
3388
3389
3390
3391
3392
3393
3394
3395
3396
3397
3398
3399
3400
3401
3402
3403
3404
3405
3406
3407
3408
3409
3410
3411
3412
3413
3414
3415
3416
3417
3418
3419
3420
3421
3422
3423
3424
3425
3426
3427
3428
3429
3430
3431
3432
3433
3434
3435
3436
3437
3438
3439
3440
3441
3442
3443
3444
3445
3446
3447
3448
3449
3450
3451
3452
3453
3454
3455
3456
3457
3458
3459
3460
3461
3462
3463
3464
3465
3466
3467
3468
3469
3470
3471
3472
3473
3474
3475
3476
3477
3478
3479
3480
3481
3482
3483
3484
3485
3486
3487
3488
3489
3490
3491
3492
3493
3494
3495
3496
3497
3498
3499
3500
3501
3502
3503
3504
3505
3506
3507
3508
3509
3510
3511
3512
3513
3514
3515
3516
3517
3518
3519
3520
3521
3522
3523
3524
3525
3526
3527
3528
3529
3530
3531
3532
3533
3534
3535
3536
3537
3538
3539
3540
3541
3542
3543
3544
3545
3546
3547
3548
3549
3550
3551
3552
3553
3554
3555
3556
3557
3558
3559
3560
3561
3562
3563
3564
3565
3566
3567
3568
3569
3570
3571
3572
3573
3574
3575
3576
3577
3578
3579
3580
3581
3582
3583
3584
3585
3586
3587
3588
3589
3590
3591
3592
3593
3594
3595
3596
3597
3598
3599
3600
3601
3602
3603
3604
3605
3606
3607
3608
3609
3610
3611
3612
3613
3614
3615
3616
3617
3618
3619
3620
3621
3622
3623
3624
3625
3626
3627
3628
3629
3630
3631
3632
3633
3634
3635
3636
3637
3638
3639
3640
3641
3642
3643
3644
3645
3646
3647
3648
3649
3650
3651
3652
3653
3654
3655
3656
3657
3658
3659
3660
3661
3662
3663
3664
3665
3666
3667
3668
3669
3670
3671
3672
3673
3674
3675
3676
3677
3678
3679
3680
3681
3682
3683
3684
3685
3686
3687
3688
3689
3690
3691
3692
3693
3694
3695
3696
3697
3698
3699
3700
3701
3702
3703
3704
3705
3706
3707
3708
3709
3710
3711
3712
3713
3714
3715
3716
3717
3718
3719
3720
3721
3722
3723
3724
3725
3726
3727
3728
3729
3730
3731
3732
3733
3734
3735
3736
3737
3738
3739
3740
3741
3742
3743
3744
3745
3746
3747
3748
3749
3750
3751
3752
3753
3754
3755
3756
3757
3758
3759
3760
3761
3762
3763
3764
3765
3766
3767
3768
3769
3770
3771
3772
3773
3774
3775
3776
3777
3778
3779
3780
3781
3782
3783
3784
3785
3786
3787
3788
3789
3790
3791
3792
3793
3794
3795
3796
3797
3798
3799
3800
3801
3802
3803
3804
3805
3806
3807
3808
3809
3810
3811
3812
3813
3814
3815
3816
3817
3818
3819
3820
3821
3822
3823
3824
3825
3826
3827
3828
3829
3830
3831
3832
3833
3834
3835
3836
3837
3838
3839
3840
3841
3842
3843
3844
3845
3846
3847
3848
3849
3850
3851
3852
3853
3854
3855
3856
3857
3858
3859
3860
3861
3862
3863
3864
3865
3866
3867
3868
3869
3870
3871
3872
3873
3874
3875
3876
3877
3878
3879
3880
3881
3882
3883
3884
3885
3886
3887
3888
3889
3890
3891
3892
3893
3894
3895
3896
3897
3898
3899
3900
3901
3902
3903
3904
3905
3906
3907
3908
3909
3910
3911
3912
3913
3914
3915
3916
3917
3918
3919
3920
3921
3922
3923
3924
3925
3926
3927
3928
3929
3930
3931
3932
3933
3934
3935
3936
3937
3938
3939
3940
3941
3942
3943
3944
3945
3946
3947
3948
3949
3950
3951
3952
3953
3954
3955
3956
3957
3958
3959
3960
3961
3962
3963
3964
3965
3966
3967
3968
3969
3970
3971
3972
3973
3974
3975
3976
3977
3978
3979
3980
3981
3982
3983
3984
3985
3986
3987
3988
3989
3990
3991
3992
3993
3994
3995
3996
3997
3998
3999
4000
4001
4002
4003
4004
4005
4006
4007
4008
4009
4010
4011
4012
4013
4014
4015
4016
4017
4018
4019
4020
4021
4022
4023
4024
4025
4026
4027
4028
4029
4030
4031
4032
4033
4034
4035
4036
4037
4038
4039
4040
4041
4042
4043
4044
4045
4046
4047
4048
4049
4050
4051
4052
4053
4054
4055
4056
4057
4058
4059
4060
4061
4062
4063
4064
4065
4066
4067
4068
4069
4070
4071
4072
4073
4074
4075
4076
4077
4078
4079
4080
4081
4082
4083
4084
4085
4086
4087
4088
4089
4090
4091
4092
4093
4094
4095
4096
4097
4098
4099
4100
4101
4102
4103
4104
4105
4106
4107
4108
4109
4110
4111
4112
4113
4114
4115
4116
4117
4118
4119
4120
4121
4122
4123
4124
4125
4126
4127
4128
4129
4130
4131
4132
4133
4134
4135
4136
4137
4138
4139
4140
4141
4142
4143
4144
4145
4146
4147
4148
4149
4150
4151
4152
4153
4154
4155
4156
4157
4158
4159
4160
4161
4162
4163
4164
4165
4166
4167
4168
4169
4170
4171
4172
4173
4174
4175
4176
4177
4178
4179
4180
4181
4182
4183
4184
4185
4186
4187
4188
4189
4190
4191
4192
4193
4194
4195
4196
4197
4198
4199
4200
4201
4202
4203
4204
4205
4206
4207
4208
4209
4210
4211
4212
4213
4214
4215
4216
4217
4218
4219
4220
4221
4222
4223
4224
4225
4226
4227
4228
4229
4230
4231
4232
4233
4234
4235
4236
4237
4238
4239
4240
4241
4242
4243
4244
4245
4246
4247
4248
4249
4250
4251
4252
4253
4254
4255
4256
4257
4258
4259
4260
4261
4262
4263
4264
4265
4266
4267
4268
4269
4270
4271
4272
4273
4274
4275
4276
4277
4278
4279
4280
4281
4282
4283
4284
4285
4286
4287
4288
4289
4290
4291
4292
4293
4294
4295
4296
4297
4298
4299
4300
4301
4302
4303
4304
4305
4306
4307
4308
4309
4310
4311
4312
4313
4314
4315
4316
4317
4318
4319
4320
4321
4322
4323
4324
4325
4326
4327
4328
4329
4330
4331
4332
4333
4334
4335
4336
4337
4338
4339
4340
4341
4342
4343
4344
4345
4346
4347
4348
4349
4350
4351
4352
4353
4354
4355
4356
4357
4358
4359
4360
4361
4362
4363
4364
4365
4366
4367
4368
4369
4370
4371
4372
4373
4374
4375
4376
4377
4378
4379
4380
4381
4382
4383
4384
4385
4386
4387
4388
4389
4390
4391
4392
4393
4394
4395
4396
4397
4398
4399
4400
4401
4402
4403
4404
4405
4406
4407
4408
4409
4410
4411
4412
4413
4414
4415
4416
4417
4418
4419
4420
4421
4422
4423
4424
4425
4426
4427
4428
4429
4430
4431
4432
4433
4434
4435
4436
4437
4438
4439
4440
4441
4442
4443
4444
4445
4446
4447
4448
4449
4450
4451
4452
4453
4454
4455
4456
4457
4458
4459
4460
4461
4462
4463
4464
4465
4466
4467
4468
4469
4470
4471
4472
4473
4474
4475
4476
4477
4478
4479
4480
4481
4482
4483
4484
4485
4486
4487
4488
4489
4490
4491
4492
4493
4494
4495
4496
4497
4498
4499
4500
4501
4502
4503
4504
4505
4506
4507
4508
4509
4510
4511
4512
4513
4514
4515
4516
4517
4518
4519
4520
4521
4522
4523
4524
4525
4526
4527
4528
4529
4530
4531
4532
4533
4534
4535
4536
4537
4538
4539
4540
4541
4542
4543
4544
4545
4546
4547
4548
4549
4550
4551
4552
4553
4554
4555
4556
4557
4558
4559
4560
4561
4562
4563
4564
4565
4566
4567
4568
4569
4570
4571
4572
4573
4574
4575
4576
4577
4578
4579
4580
4581
4582
4583
4584
4585
4586
4587
4588
4589
4590
4591
4592
4593
4594
4595
4596
4597
4598
4599
4600
4601
4602
4603
4604
4605
4606
4607
4608
4609
4610
4611
4612
4613
4614
4615
4616
4617
4618
4619
4620
4621
4622
4623
4624
4625
4626
4627
4628
4629
4630
4631
4632
4633
4634
4635
4636
4637
4638
4639
4640
4641
4642
4643
4644
4645
4646
4647
4648
4649
4650
4651
4652
4653
4654
4655
4656
4657
4658
4659
4660
4661
4662
4663
4664
4665
4666
4667
4668
4669
4670
4671
4672
4673
4674
4675
4676
4677
4678
4679
4680
4681
4682
4683
4684
4685
4686
4687
4688
4689
4690
4691
4692
4693
4694
4695
4696
4697
4698
4699
4700
4701
4702
4703
4704
4705
4706
4707
4708
4709
4710
4711
4712
4713
4714
4715
4716
4717
4718
4719
4720
4721
4722
4723
4724
4725
4726
4727
4728
4729
4730
4731
4732
4733
4734
4735
4736
4737
4738
4739
4740
4741
4742
4743
4744
4745
4746
4747
4748
4749
4750
4751
4752
4753
4754
4755
4756
4757
4758
4759
4760
4761
4762
4763
4764
4765
4766
4767
4768
4769
4770
4771
4772
4773
4774
4775
4776
4777
4778
4779
4780
4781
4782
4783
4784
4785
4786
4787
4788
4789
4790
4791
4792
4793
4794
4795
4796
4797
4798
4799
4800
4801
4802
4803
4804
4805
4806
4807
4808
4809
4810
4811
4812
4813
4814
4815
4816
4817
4818
4819
4820
4821
4822
4823
4824
4825
4826
4827
4828
4829
4830
4831
4832
4833
4834
4835
4836
4837
4838
4839
4840
4841
4842
4843
4844
4845
4846
4847
4848
4849
4850
4851
4852
4853
4854
4855
4856
4857
4858
4859
4860
4861
4862
4863
4864
4865
4866
4867
4868
4869
4870
4871
4872
4873
4874
4875
4876
4877
4878
4879
4880
4881
4882
4883
4884
4885
4886
4887
4888
4889
4890
4891
4892
4893
4894
4895
4896
4897
4898
4899
4900
4901
4902
4903
4904
4905
4906
4907
4908
4909
4910
4911
4912
4913
4914
4915
4916
4917
4918
4919
4920
4921
4922
4923
4924
4925
4926
4927
4928
4929
4930
4931
4932
4933
4934
4935
4936
4937
4938
4939
4940
4941
4942
4943
4944
4945
4946
4947
4948
4949
4950
4951
4952
4953
4954
4955
4956
4957
4958
4959
4960
4961
4962
4963
4964
4965
4966
4967
4968
4969
4970
4971
4972
4973
4974
4975
4976
4977
4978
4979
4980
4981
4982
4983
4984
4985
4986
4987
4988
4989
4990
4991
4992
4993
4994
4995
4996
4997
4998
4999
5000
5001
5002
5003
5004
5005
5006
5007
5008
5009
5010
5011
5012
5013
5014
5015
5016
5017
5018
5019
5020
5021
5022
5023
5024
5025
5026
5027
5028
5029
5030
5031
5032
5033
5034
5035
5036
5037
5038
5039
5040
5041
5042
5043
5044
5045
5046
5047
5048
5049
5050
5051
5052
5053
5054
5055
5056
5057
5058
5059
5060
5061
5062
5063
5064
5065
5066
5067
5068
5069
5070
5071
5072
5073
5074
5075
5076
5077
5078
5079
5080
5081
5082
5083
5084
5085
5086
5087
5088
5089
5090
5091
5092
5093
5094
5095
5096
5097
5098
5099
5100
5101
5102
5103
5104
5105
5106
5107
5108
5109
5110
5111
5112
5113
5114
5115
5116
5117
5118
5119
5120
5121
5122
5123
5124
5125
5126
5127
5128
5129
5130
5131
5132
5133
5134
5135
5136
5137
5138
5139
5140
5141
5142
5143
5144
5145
5146
5147
5148
5149
5150
5151
5152
5153
5154
5155
5156
5157
5158
5159
5160
5161
5162
5163
5164
5165
5166
5167
5168
5169
5170
5171
5172
5173
5174
5175
5176
5177
5178
5179
5180
5181
5182
5183
5184
5185
5186
5187
5188
5189
5190
5191
5192
5193
5194
5195
5196
5197
5198
5199
5200
5201
5202
5203
5204
5205
5206
5207
5208
5209
5210
5211
5212
5213
5214
5215
5216
5217
5218
5219
5220
5221
5222
5223
5224
5225
5226
5227
5228
5229
5230
5231
5232
5233
5234
5235
5236
5237
5238
5239
5240
5241
5242
5243
5244
5245
5246
5247
5248
5249
5250
5251
5252
5253
5254
5255
5256
5257
5258
5259
5260
5261
5262
5263
5264
5265
5266
5267
5268
5269
5270
5271
5272
5273
5274
5275
5276
5277
5278
5279
5280
5281
5282
5283
5284
5285
5286
5287
5288
5289
5290
5291
5292
5293
5294
5295
5296
5297
5298
5299
5300
5301
5302
5303
5304
5305
5306
5307
5308
5309
5310
5311
5312
5313
5314
5315
5316
5317
5318
5319
5320
5321
5322
5323
5324
5325
5326
5327
5328
5329
5330
5331
5332
5333
5334
5335
5336
5337
5338
5339
5340
5341
5342
5343
5344
5345
5346
5347
5348
5349
5350
5351
5352
5353
5354
5355
5356
5357
5358
5359
5360
5361
5362
5363
5364
5365
5366
5367
5368
5369
5370
5371
5372
5373
5374
5375
5376
5377
5378
5379
5380
5381
5382
5383
5384
5385
5386
5387
5388
5389
5390
5391
5392
5393
5394
5395
5396
5397
5398
5399
5400
5401
5402
5403
5404
5405
5406
5407
5408
5409
5410
5411
5412
5413
5414
5415
5416
5417
5418
5419
5420
5421
5422
5423
5424
5425
5426
5427
5428
5429
5430
5431
5432
5433
5434
5435
5436
5437
5438
5439
5440
5441
5442
5443
5444
5445
5446
5447
5448
5449
5450
5451
5452
5453
5454
5455
5456
5457
5458
5459
5460
5461
5462
5463
5464
5465
5466
5467
5468
5469
5470
5471
5472
5473
5474
5475
5476
5477
5478
5479
5480
5481
5482
5483
5484
5485
5486
5487
5488
5489
5490
5491
5492
5493
5494
5495
5496
5497
5498
5499
5500
5501
5502
5503
5504
5505
5506
5507
5508
5509
5510
5511
5512
5513
5514
5515
5516
5517
5518
5519
5520
5521
5522
5523
5524
5525
5526
5527
5528
5529
5530
5531
5532
5533
5534
5535
5536
5537
5538
5539
5540
5541
5542
5543
5544
5545
5546
5547
5548
5549
5550
5551
5552
5553
5554
5555
5556
5557
5558
5559
5560
5561
5562
5563
5564
5565
5566
5567
5568
5569
5570
5571
5572
5573
5574
5575
5576
5577
5578
5579
5580
5581
5582
5583
5584
5585
5586
5587
5588
5589
5590
5591
5592
5593
5594
5595
5596
5597
5598
5599
5600
5601
5602
5603
5604
5605
5606
5607
5608
5609
5610
5611
5612
5613
5614
5615
5616
5617
5618
5619
5620
5621
5622
5623
5624
5625
5626
5627
5628
5629
5630
5631
5632
5633
5634
5635
5636
5637
5638
5639
5640
5641
5642
5643
5644
5645
5646
5647
5648
5649
5650
5651
5652
5653
5654
5655
5656
5657
5658
5659
5660
5661
5662
5663
5664
5665
5666
5667
5668
5669
5670
5671
5672
5673
5674
5675
5676
5677
5678
5679
5680
5681
5682
5683
5684
5685
5686
5687
5688
5689
5690
5691
5692
5693
5694
5695
5696
5697
5698
5699
5700
5701
5702
5703
5704
5705
5706
5707
5708
5709
5710
5711
5712
5713
5714
5715
5716
5717
5718
5719
5720
5721
5722
5723
5724
5725
5726
5727
5728
5729
5730
5731
5732
5733
5734
5735
5736
5737
5738
5739
5740
5741
5742
5743
5744
5745
5746
5747
5748
5749
5750
5751
5752
5753
5754
5755
5756
5757
5758
5759
5760
5761
5762
5763
5764
5765
5766
5767
5768
5769
5770
5771
5772
5773
5774
5775
5776
5777
5778
5779
5780
5781
5782
5783
5784
5785
5786
5787
5788
5789
5790
5791
5792
5793
5794
5795
5796
5797
5798
5799
5800
5801
5802
5803
5804
5805
5806
5807
5808
5809
5810
5811
5812
5813
5814
5815
5816
5817
5818
5819
5820
5821
5822
5823
5824
5825
5826
5827
5828
5829
5830
5831
5832
5833
5834
5835
5836
5837
5838
5839
5840
5841
5842
5843
5844
5845
5846
5847
5848
5849
5850
5851
5852
5853
5854
5855
5856
5857
5858
5859
5860
5861
5862
5863
5864
5865
5866
5867
5868
5869
5870
5871
5872
5873
5874
5875
5876
5877
5878
5879
5880
5881
5882
5883
5884
5885
5886
5887
5888
5889
5890
5891
5892
5893
5894
5895
5896
5897
5898
5899
5900
5901
5902
5903
5904
5905
5906
5907
5908
5909
5910
5911
5912
5913
5914
5915
5916
5917
5918
5919
5920
5921
5922
5923
5924
5925
5926
5927
5928
5929
5930
5931
5932
5933
5934
5935
5936
5937
5938
5939
5940
5941
5942
5943
5944
5945
5946
5947
5948
5949
5950
5951
5952
5953
5954
5955
5956
5957
5958
5959
5960
5961
5962
5963
5964
5965
5966
5967
5968
5969
5970
5971
5972
5973
5974
5975
5976
5977
5978
5979
5980
5981
5982
5983
5984
5985
5986
5987
5988
5989
5990
5991
5992
5993
5994
5995
5996
5997
5998
5999
6000
6001
6002
6003
6004
6005
6006
6007
6008
6009
6010
6011
6012
6013
6014
6015
6016
6017
6018
6019
6020
6021
6022
6023
6024
6025
6026
6027
6028
6029
6030
6031
6032
6033
6034
6035
6036
6037
6038
6039
6040
6041
6042
6043
6044
6045
6046
6047
6048
6049
6050
6051
6052
6053
6054
6055
6056
6057
6058
6059
6060
6061
6062
6063
6064
6065
6066
6067
6068
6069
6070
6071
6072
6073
6074
6075
6076
6077
6078
6079
6080
6081
6082
6083
6084
6085
6086
6087
6088
6089
6090
6091
6092
6093
6094
6095
6096
6097
6098
6099
6100
6101
6102
6103
6104
6105
6106
6107
6108
6109
6110
6111
6112
6113
6114
6115
6116
6117
6118
6119
6120
6121
6122
6123
6124
6125
6126
6127
6128
6129
6130
6131
6132
6133
6134
6135
6136
6137
6138
6139
6140
6141
6142
6143
6144
6145
6146
6147
6148
6149
6150
6151
6152
6153
6154
6155
6156
6157
6158
6159
6160
6161
6162
6163
6164
6165
6166
6167
6168
6169
6170
6171
6172
6173
6174
6175
6176
6177
6178
6179
6180
6181
6182
6183
6184
6185
6186
6187
6188
6189
6190
6191
6192
6193
6194
6195
6196
6197
6198
6199
6200
6201
6202
6203
6204
6205
6206
6207
6208
6209
6210
6211
6212
6213
6214
6215
6216
6217
6218
6219
6220
6221
6222
6223
6224
6225
6226
6227
6228
6229
6230
6231
6232
6233
6234
6235
6236
6237
6238
6239
6240
6241
6242
6243
6244
6245
6246
6247
6248
6249
6250
6251
6252
6253
6254
6255
6256
6257
6258
6259
6260
6261
6262
6263
6264
6265
6266
6267
6268
6269
6270
6271
6272
6273
6274
6275
6276
6277
6278
6279
6280
6281
6282
6283
6284
6285
6286
6287
6288
6289
6290
6291
6292
6293
6294
6295
6296
6297
6298
6299
6300
6301
6302
6303
6304
6305
6306
6307
6308
6309
6310
6311
6312
6313
6314
6315
6316
6317
6318
6319
6320
6321
6322
6323
6324
6325
6326
6327
6328
6329
6330
6331
6332
6333
6334
6335
6336
6337
6338
6339
6340
6341
6342
6343
6344
6345
6346
6347
6348
6349
6350
6351
6352
6353
6354
6355
6356
6357
6358
6359
6360
6361
6362
6363
6364
6365
6366
6367
6368
6369
6370
6371
6372
6373
6374
6375
6376
6377
6378
6379
6380
6381
6382
6383
6384
6385
6386
6387
6388
6389
6390
6391
6392
6393
6394
6395
6396
6397
6398
6399
6400
6401
6402
6403
6404
6405
6406
6407
6408
6409
6410
6411
6412
6413
6414
6415
6416
6417
6418
6419
6420
6421
6422
6423
6424
6425
6426
6427
6428
6429
6430
6431
6432
6433
6434
6435
6436
6437
6438
6439
6440
6441
6442
6443
6444
6445
6446
6447
6448
6449
6450
6451
6452
6453
6454
6455
6456
6457
6458
6459
6460
6461
6462
6463
6464
6465
6466
6467
6468
6469
6470
6471
6472
6473
6474
6475
6476
6477
6478
6479
6480
6481
6482
6483
6484
6485
6486
6487
6488
6489
6490
6491
6492
6493
6494
6495
6496
6497
6498
6499
6500
6501
6502
6503
6504
6505
6506
6507
6508
6509
6510
6511
6512
6513
6514
6515
6516
6517
6518
6519
6520
6521
6522
6523
6524
6525
6526
6527
6528
6529
6530
6531
6532
6533
6534
6535
6536
6537
6538
6539
6540
6541
6542
6543
6544
6545
6546
6547
6548
6549
6550
6551
6552
6553
6554
6555
6556
6557
6558
6559
6560
6561
6562
6563
6564
6565
6566
6567
6568
6569
6570
6571
6572
6573
6574
6575
6576
6577
6578
6579
6580
6581
6582
6583
6584
6585
6586
6587
6588
6589
6590
6591
6592
6593
6594
6595
6596
6597
6598
6599
6600
6601
6602
6603
6604
6605
6606
6607
6608
6609
6610
6611
6612
6613
6614
6615
6616
6617
6618
6619
6620
6621
6622
6623
6624
6625
6626
6627
6628
6629
6630
6631
6632
6633
6634
6635
6636
6637
6638
6639
6640
6641
6642
6643
6644
6645
6646
6647
6648
6649
6650
6651
6652
6653
6654
6655
6656
6657
6658
6659
6660
6661
6662
6663
6664
6665
6666
6667
6668
6669
6670
6671
6672
6673
6674
6675
6676
6677
6678
6679
6680
6681
6682
6683
6684
6685
6686
6687
6688
6689
6690
6691
6692
6693
6694
6695
6696
6697
6698
6699
6700
6701
6702
6703
6704
6705
6706
6707
6708
6709
6710
6711
6712
6713
6714
6715
6716
6717
6718
6719
6720
6721
6722
6723
6724
6725
6726
6727
6728
6729
6730
6731
6732
6733
6734
6735
6736
6737
6738
6739
6740
6741
6742
6743
6744
6745
6746
6747
6748
6749
6750
6751
6752
6753
6754
6755
6756
6757
6758
6759
6760
6761
6762
6763
6764
6765
6766
6767
6768
6769
6770
6771
6772
6773
6774
6775
6776
6777
6778
6779
6780
6781
6782
6783
6784
6785
6786
6787
6788
6789
6790
6791
6792
6793
6794
6795
6796
6797
6798
6799
6800
6801
6802
6803
6804
6805
6806
6807
6808
6809
6810
6811
6812
6813
6814
6815
6816
6817
6818
6819
6820
6821
6822
6823
6824
6825
6826
6827
6828
6829
6830
6831
6832
6833
6834
6835
6836
6837
6838
6839
6840
6841
6842
6843
6844
6845
6846
6847
6848
6849
6850
6851
6852
6853
6854
6855
6856
6857
6858
6859
6860
6861
6862
6863
6864
6865
6866
6867
6868
6869
6870
6871
6872
6873
6874
6875
6876
6877
6878
6879
6880
6881
6882
6883
6884
6885
6886
6887
6888
6889
6890
6891
6892
6893
6894
6895
6896
6897
6898
6899
6900
6901
6902
6903
6904
6905
6906
6907
6908
6909
6910
6911
6912
6913
6914
6915
6916
6917
6918
6919
6920
6921
6922
6923
6924
6925
6926
6927
6928
6929
6930
6931
6932
6933
6934
6935
6936
6937
6938
6939
6940
6941
6942
6943
6944
6945
6946
6947
6948
6949
6950
6951
6952
6953
6954
6955
6956
6957
6958
6959
6960
6961
6962
6963
6964
6965
6966
6967
6968
6969
6970
6971
6972
6973
6974
6975
6976
6977
6978
6979
6980
6981
6982
6983
6984
6985
6986
6987
6988
6989
6990
6991
6992
6993
6994
6995
6996
6997
6998
6999
7000
7001
7002
7003
7004
7005
7006
7007
7008
7009
7010
7011
7012
7013
7014
7015
7016
7017
7018
7019
7020
7021
7022
7023
7024
7025
7026
7027
7028
7029
7030
7031
7032
7033
7034
7035
7036
7037
7038
7039
7040
7041
7042
7043
7044
7045
7046
7047
7048
7049
7050
7051
7052
7053
7054
7055
7056
7057
7058
7059
7060
7061
7062
7063
7064
7065
7066
7067
7068
7069
7070
7071
7072
7073
7074
7075
7076
7077
7078
7079
7080
7081
7082
7083
7084
7085
7086
7087
7088
7089
7090
7091
7092
7093
7094
7095
7096
7097
7098
7099
7100
7101
7102
7103
7104
7105
7106
7107
7108
7109
7110
7111
7112
7113
7114
7115
7116
7117
7118
7119
7120
7121
7122
7123
7124
7125
7126
7127
7128
7129
7130
7131
7132
7133
7134
7135
7136
7137
7138
7139
7140
7141
7142
7143
7144
7145
7146
7147
7148
7149
7150
7151
7152
7153
7154
7155
7156
7157
7158
7159
7160
7161
7162
7163
7164
7165
7166
7167
7168
7169
7170
7171
7172
7173
7174
7175
7176
7177
7178
7179
7180
7181
7182
7183
7184
7185
7186
7187
7188
7189
7190
7191
7192
7193
7194
7195
7196
7197
7198
7199
7200
7201
7202
7203
7204
7205
7206
7207
7208
7209
7210
7211
7212
7213
7214
7215
7216
7217
7218
7219
7220
7221
7222
7223
7224
7225
7226
7227
7228
7229
7230
7231
7232
7233
7234
7235
7236
7237
7238
7239
7240
7241
7242
7243
7244
7245
7246
7247
7248
7249
7250
7251
7252
7253
7254
7255
7256
7257
7258
7259
7260
7261
7262
7263
7264
7265
7266
7267
7268
7269
7270
7271
7272
7273
7274
7275
7276
7277
7278
7279
7280
7281
7282
7283
7284
7285
7286
7287
7288
7289
7290
7291
7292
7293
7294
7295
7296
7297
7298
7299
7300
7301
7302
7303
7304
7305
7306
7307
7308
7309
7310
7311
7312
7313
7314
7315
7316
7317
7318
7319
7320
7321
7322
7323
7324
7325
7326
7327
7328
7329
7330
7331
7332
7333
7334
7335
7336
7337
7338
7339
7340
7341
7342
7343
7344
7345
7346
7347
7348
7349
7350
7351
7352
7353
7354
7355
7356
7357
7358
7359
7360
7361
7362
7363
7364
7365
7366
7367
7368
7369
7370
7371
7372
7373
7374
7375
7376
7377
7378
7379
7380
7381
7382
7383
7384
7385
7386
7387
7388
7389
7390
7391
7392
7393
7394
7395
7396
7397
7398
7399
7400
7401
7402
7403
7404
7405
7406
7407
7408
7409
7410
7411
7412
7413
7414
7415
7416
7417
7418
7419
7420
7421
7422
7423
7424
7425
7426
7427
7428
7429
7430
7431
7432
7433
7434
7435
7436
7437
7438
7439
7440
7441
7442
7443
7444
7445
7446
7447
7448
7449
7450
7451
7452
7453
7454
7455
7456
7457
7458
7459
7460
7461
7462
7463
7464
7465
7466
7467
7468
7469
7470
7471
7472
7473
7474
7475
7476
7477
7478
7479
7480
7481
7482
7483
7484
7485
7486
7487
7488
7489
7490
7491
7492
7493
7494
7495
7496
7497
7498
7499
7500
7501
7502
7503
7504
7505
7506
7507
7508
7509
7510
7511
7512
7513
7514
7515
7516
7517
7518
7519
7520
7521
7522
7523
7524
7525
7526
7527
7528
7529
7530
7531
7532
7533
7534
7535
7536
7537
7538
7539
7540
7541
7542
7543
7544
7545
7546
7547
7548
7549
7550
7551
7552
7553
7554
7555
7556
7557
7558
7559
7560
7561
7562
7563
7564
7565
7566
7567
7568
7569
7570
7571
7572
7573
7574
7575
7576
7577
7578
7579
7580
7581
7582
7583
7584
7585
7586
7587
7588
7589
7590
7591
7592
7593
7594
7595
7596
7597
7598
7599
7600
7601
7602
7603
7604
7605
7606
7607
7608
7609
7610
7611
7612
7613
7614
7615
7616
7617
7618
7619
7620
7621
7622
7623
7624
7625
7626
7627
7628
7629
7630
7631
7632
7633
7634
7635
7636
7637
7638
7639
7640
7641
7642
7643
7644
7645
7646
7647
7648
7649
7650
7651
7652
7653
7654
7655
7656
7657
7658
7659
7660
7661
7662
7663
7664
7665
7666
7667
7668
7669
7670
7671
7672
7673
7674
7675
7676
7677
7678
7679
7680
7681
7682
7683
7684
7685
7686
7687
7688
7689
7690
7691
7692
7693
7694
7695
7696
7697
7698
7699
7700
7701
7702
7703
7704
7705
7706
7707
7708
7709
7710
7711
7712
7713
7714
7715
7716
7717
7718
7719
7720
7721
7722
7723
7724
7725
7726
7727
7728
7729
7730
7731
7732
7733
7734
7735
7736
7737
7738
7739
7740
7741
7742
7743
7744
7745
7746
7747
7748
7749
7750
7751
7752
7753
7754
7755
7756
7757
7758
7759
7760
7761
7762
7763
7764
7765
7766
7767
7768
7769
7770
7771
7772
7773
7774
7775
7776
7777
7778
7779
7780
7781
7782
7783
7784
7785
7786
7787
7788
7789
7790
7791
7792
7793
7794
7795
7796
7797
7798
7799
7800
7801
7802
7803
7804
7805
7806
7807
7808
7809
7810
7811
7812
7813
7814
7815
7816
7817
7818
7819
7820
7821
7822
7823
7824
7825
7826
7827
7828
7829
7830
7831
7832
7833
7834
7835
7836
7837
7838
7839
7840
7841
7842
7843
7844
7845
7846
7847
7848
7849
7850
7851
7852
7853
7854
7855
7856
7857
7858
7859
7860
7861
7862
7863
7864
7865
7866
7867
7868
7869
7870
7871
7872
7873
7874
7875
7876
7877
7878
7879
7880
7881
7882
7883
7884
7885
7886
7887
7888
7889
7890
7891
7892
7893
7894
7895
7896
7897
7898
7899
7900
7901
7902
7903
7904
7905
7906
7907
7908
7909
7910
7911
7912
7913
7914
7915
7916
7917
7918
7919
7920
7921
7922
7923
7924
7925
7926
7927
7928
7929
7930
7931
7932
7933
7934
7935
7936
7937
7938
7939
7940
7941
7942
7943
7944
7945
7946
7947
7948
7949
7950
7951
7952
7953
7954
7955
7956
7957
7958
7959
7960
7961
7962
7963
7964
7965
7966
7967
7968
7969
7970
7971
7972
7973
7974
7975
7976
7977
7978
7979
7980
7981
7982
7983
7984
7985
7986
7987
7988
7989
7990
7991
7992
7993
7994
7995
7996
7997
7998
7999
8000
8001
8002
8003
8004
8005
8006
8007
8008
8009
8010
8011
8012
8013
8014
8015
8016
8017
8018
8019
8020
8021
8022
8023
8024
8025
8026
8027
8028
8029
8030
8031
8032
8033
8034
8035
8036
8037
8038
8039
8040
8041
8042
8043
8044
8045
8046
8047
8048
8049
8050
8051
8052
8053
8054
8055
8056
8057
8058
8059
8060
8061
8062
8063
8064
8065
8066
8067
8068
8069
8070
8071
8072
8073
8074
8075
8076
8077
8078
8079
8080
8081
8082
8083
8084
8085
8086
8087
8088
8089
8090
8091
8092
8093
8094
8095
8096
8097
8098
8099
8100
8101
8102
8103
8104
8105
8106
8107
8108
8109
8110
8111
8112
8113
8114
8115
8116
8117
8118
8119
8120
8121
8122
8123
8124
8125
8126
8127
8128
8129
8130
8131
8132
8133
8134
8135
8136
8137
8138
8139
8140
8141
8142
8143
8144
8145
8146
8147
8148
8149
8150
8151
8152
8153
8154
8155
8156
8157
8158
8159
8160
8161
8162
8163
8164
8165
8166
8167
8168
8169
8170
8171
8172
8173
8174
8175
8176
8177
8178
8179
8180
8181
8182
8183
8184
8185
8186
8187
8188
8189
8190
8191
8192
8193
8194
8195
8196
8197
8198
8199
8200
8201
8202
8203
8204
8205
8206
8207
8208
8209
8210
8211
8212
8213
8214
8215
8216
8217
8218
8219
8220
8221
8222
8223
8224
8225
8226
8227
8228
8229
8230
8231
8232
8233
8234
8235
8236
8237
8238
8239
8240
8241
8242
8243
8244
8245
8246
8247
8248
8249
8250
8251
8252
8253
8254
8255
8256
8257
8258
8259
8260
8261
8262
8263
8264
8265
8266
8267
8268
8269
8270
8271
8272
8273
8274
8275
8276
8277
8278
8279
8280
8281
8282
8283
8284
8285
8286
8287
8288
8289
8290
8291
8292
8293
8294
8295
8296
8297
8298
8299
8300
8301
8302
8303
8304
8305
8306
8307
8308
8309
8310
8311
8312
8313
8314
8315
8316
8317
8318
8319
8320
8321
8322
8323
8324
8325
8326
8327
8328
8329
8330
8331
8332
8333
8334
8335
8336
8337
8338
8339
8340
8341
8342
8343
8344
8345
8346
8347
8348
8349
8350
8351
8352
8353
8354
8355
8356
8357
8358
8359
8360
8361
8362
8363
8364
8365
8366
8367
8368
8369
8370
8371
8372
8373
8374
8375
8376
8377
8378
8379
8380
8381
8382
8383
8384
8385
8386
8387
8388
8389
8390
8391
8392
8393
8394
8395
8396
8397
8398
8399
8400
8401
8402
8403
8404
8405
8406
8407
8408
8409
8410
8411
8412
8413
8414
8415
8416
8417
8418
8419
8420
8421
8422
8423
8424
8425
8426
8427
8428
8429
8430
8431
8432
8433
8434
8435
8436
8437
8438
8439
8440
8441
8442
8443
8444
8445
8446
8447
8448
8449
8450
8451
8452
8453
8454
8455
8456
8457
8458
8459
8460
8461
8462
8463
8464
8465
8466
8467
8468
8469
8470
8471
8472
8473
8474
8475
8476
8477
8478
8479
8480
8481
8482
8483
8484
8485
8486
8487
8488
8489
8490
8491
8492
8493
8494
8495
8496
8497
8498
8499
8500
8501
8502
8503
8504
8505
8506
8507
8508
8509
8510
8511
8512
8513
8514
8515
8516
8517
8518
8519
8520
8521
8522
8523
8524
8525
8526
8527
8528
8529
8530
8531
8532
8533
8534
8535
8536
8537
8538
8539
8540
8541
8542
8543
8544
8545
8546
8547
8548
8549
8550
8551
8552
8553
8554
8555
8556
8557
8558
8559
8560
8561
8562
8563
8564
8565
8566
8567
8568
8569
8570
8571
8572
8573
8574
8575
8576
8577
8578
8579
8580
8581
8582
8583
8584
8585
8586
8587
8588
8589
8590
8591
8592
8593
8594
8595
8596
8597
8598
8599
8600
8601
8602
8603
8604
8605
8606
8607
8608
8609
8610
8611
8612
8613
8614
8615
8616
8617
8618
8619
8620
8621
8622
8623
8624
8625
8626
8627
8628
8629
8630
8631
8632
8633
8634
8635
8636
8637
8638
8639
8640
8641
8642
8643
8644
8645
8646
8647
8648
8649
8650
8651
8652
8653
8654
8655
8656
8657
8658
8659
8660
8661
8662
8663
8664
8665
8666
8667
8668
8669
8670
8671
8672
8673
8674
8675
8676
8677
8678
8679
8680
8681
8682
8683
8684
8685
8686
8687
8688
8689
8690
8691
8692
8693
8694
8695
8696
8697
8698
8699
8700
8701
8702
8703
8704
8705
8706
8707
8708
8709
8710
8711
8712
8713
8714
8715
8716
8717
8718
8719
8720
8721
8722
8723
8724
8725
8726
8727
8728
8729
8730
8731
8732
8733
8734
8735
8736
8737
8738
8739
8740
8741
8742
8743
8744
8745
8746
8747
8748
8749
8750
8751
8752
8753
8754
8755
8756
8757
8758
8759
8760
8761
8762
8763
8764
8765
8766
8767
8768
8769
8770
8771
8772
8773
8774
8775
8776
8777
8778
8779
8780
8781
8782
8783
8784
8785
8786
8787
8788
8789
8790
8791
8792
8793
8794
8795
8796
8797
8798
8799
8800
8801
8802
8803
8804
8805
8806
8807
8808
8809
8810
8811
8812
8813
8814
8815
8816
8817
8818
8819
8820
8821
8822
8823
8824
8825
8826
8827
8828
8829
8830
8831
8832
8833
8834
8835
8836
8837
8838
8839
8840
8841
8842
8843
8844
8845
8846
8847
8848
8849
8850
8851
8852
8853
8854
8855
8856
8857
8858
8859
8860
8861
8862
8863
8864
8865
8866
8867
8868
8869
8870
8871
8872
8873
8874
8875
8876
8877
8878
8879
8880
8881
8882
8883
8884
8885
8886
8887
8888
8889
8890
8891
8892
8893
8894
8895
8896
8897
8898
8899
8900
8901
8902
8903
8904
8905
8906
8907
8908
8909
8910
8911
8912
8913
8914
8915
8916
8917
8918
8919
8920
8921
8922
8923
8924
8925
8926
8927
8928
8929
8930
8931
8932
8933
8934
8935
8936
8937
8938
8939
8940
8941
8942
8943
8944
8945
8946
8947
8948
8949
8950
8951
8952
8953
8954
8955
8956
8957
8958
8959
8960
8961
8962
8963
8964
8965
8966
8967
8968
8969
8970
8971
8972
8973
8974
8975
8976
8977
8978
8979
8980
8981
8982
8983
8984
8985
8986
8987
8988
8989
8990
8991
8992
8993
8994
8995
8996
8997
8998
8999
9000
9001
9002
9003
9004
9005
9006
9007
9008
9009
9010
9011
9012
9013
9014
9015
9016
9017
9018
9019
9020
9021
9022
9023
9024
9025
9026
9027
9028
9029
9030
9031
9032
9033
9034
9035
9036
9037
9038
9039
9040
9041
9042
9043
9044
9045
9046
9047
9048
9049
9050
9051
9052
9053
9054
9055
9056
9057
9058
9059
9060
9061
9062
9063
9064
9065
9066
9067
9068
9069
9070
9071
9072
9073
9074
9075
9076
9077
9078
9079
9080
9081
9082
9083
9084
9085
9086
9087
9088
9089
9090
9091
9092
9093
9094
9095
9096
9097
9098
9099
9100
9101
9102
9103
9104
9105
9106
9107
9108
9109
9110
9111
9112
9113
9114
9115
9116
9117
9118
9119
9120
9121
9122
9123
9124
9125
9126
9127
9128
9129
9130
9131
9132
9133
9134
9135
9136
9137
9138
9139
9140
9141
9142
9143
9144
9145
9146
9147
9148
9149
9150
9151
9152
9153
9154
9155
9156
9157
9158
9159
9160
9161
9162
9163
9164
9165
9166
9167
9168
9169
9170
9171
9172
9173
9174
9175
9176
9177
9178
9179
9180
9181
9182
9183
9184
9185
9186
9187
9188
9189
9190
9191
9192
9193
9194
9195
9196
9197
9198
9199
9200
9201
9202
9203
9204
9205
9206
9207
9208
9209
9210
9211
9212
9213
9214
9215
9216
9217
9218
9219
9220
9221
9222
9223
9224
9225
9226
9227
9228
9229
9230
9231
9232
9233
9234
9235
9236
9237
9238
9239
9240
9241
9242
9243
9244
9245
9246
9247
9248
9249
9250
9251
9252
9253
9254
9255
9256
9257
9258
9259
9260
9261
9262
9263
9264
9265
9266
9267
9268
9269
9270
9271
9272
9273
9274
9275
9276
9277
9278
9279
9280
9281
9282
9283
9284
9285
9286
9287
9288
9289
9290
9291
9292
9293
9294
9295
9296
9297
9298
9299
9300
9301
9302
9303
9304
9305
9306
9307
9308
9309
9310
9311
9312
9313
9314
9315
9316
9317
9318
9319
9320
9321
9322
9323
9324
9325
9326
9327
9328
9329
9330
9331
9332
9333
9334
9335
9336
9337
9338
9339
9340
9341
9342
9343
9344
9345
9346
9347
9348
9349
9350
9351
9352
9353
9354
9355
9356
9357
9358
9359
9360
9361
9362
9363
9364
9365
9366
9367
9368
9369
9370
9371
9372
9373
9374
9375
9376
9377
9378
9379
9380
9381
9382
9383
9384
9385
9386
9387
9388
9389
9390
9391
9392
9393
9394
9395
9396
9397
9398
9399
9400
9401
9402
9403
9404
9405
9406
9407
9408
9409
9410
9411
9412
9413
9414
9415
9416
9417
9418
9419
9420
9421
9422
9423
9424
9425
9426
9427
9428
9429
9430
9431
9432
9433
9434
9435
9436
9437
9438
9439
9440
9441
9442
9443
9444
9445
9446
9447
9448
9449
9450
9451
9452
9453
9454
9455
9456
9457
9458
9459
9460
9461
9462
9463
9464
9465
9466
9467
9468
9469
9470
9471
9472
9473
9474
9475
9476
9477
9478
9479
9480
9481
9482
9483
9484
9485
9486
9487
9488
9489
9490
9491
9492
9493
9494
9495
9496
9497
9498
9499
9500
9501
9502
9503
9504
9505
9506
9507
9508
9509
9510
9511
9512
9513
9514
9515
9516
9517
9518
9519
9520
9521
9522
9523
9524
9525
9526
9527
9528
9529
9530
9531
9532
9533
9534
9535
9536
9537
9538
9539
9540
9541
9542
9543
9544
9545
9546
9547
9548
9549
9550
9551
9552
9553
9554
9555
9556
9557
9558
9559
9560
9561
9562
9563
9564
9565
9566
9567
9568
9569
9570
9571
9572
9573
9574
9575
9576
9577
9578
9579
9580
9581
9582
9583
9584
9585
9586
9587
9588
9589
9590
9591
9592
9593
9594
9595
9596
9597
9598
9599
9600
9601
9602
9603
9604
9605
9606
9607
9608
9609
9610
9611
9612
9613
9614
9615
9616
9617
9618
9619
9620
9621
9622
9623
9624
9625
9626
9627
9628
9629
9630
9631
9632
9633
9634
9635
9636
9637
9638
9639
9640
9641
9642
9643
9644
9645
9646
9647
9648
9649
9650
9651
9652
9653
9654
9655
9656
9657
9658
9659
9660
9661
9662
9663
9664
9665
9666
9667
9668
9669
9670
9671
9672
9673
9674
9675
9676
9677
9678
9679
9680
9681
9682
9683
9684
9685
9686
9687
9688
9689
9690
9691
9692
9693
9694
9695
9696
9697
9698
9699
9700
9701
9702
9703
9704
9705
9706
9707
9708
9709
9710
9711
9712
9713
9714
9715
9716
9717
9718
9719
9720
9721
9722
9723
9724
9725
9726
9727
9728
9729
9730
9731
9732
9733
9734
9735
9736
9737
9738
9739
9740
9741
9742
9743
9744
9745
9746
9747
9748
9749
9750
9751
9752
9753
9754
9755
9756
9757
9758
9759
9760
9761
9762
9763
9764
9765
9766
9767
9768
9769
9770
9771
9772
9773
9774
9775
9776
9777
9778
9779
9780
9781
9782
9783
9784
9785
9786
9787
9788
9789
9790
9791
9792
9793
9794
9795
9796
9797
9798
9799
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
--- exportedFrom: d42222e8de63b485aa6050c3df00dfc460ef9f50   ---  \begin{titlepage}
    \begin{center}
    
        \vspace*{1cm}
        
%       Dissertation No.
       
        \vspace*{1cm}
        
       \large{ \textbf{ \uppercase
                         {Manual de Periodismo de Datos}}}
        
        \vspace{0.5cm}
        
        \vspace{1.5cm}
 
           \large{Versión 1.0}
        
        \vspace{0.8cm}        
         
        Editado por\\        
        \textbf{Jonathan Gray, \\ Liliana Bonegru \\ y Lucy Chambers}
       
       \vspace{0.8cm}    
%      \textit{PhD(c) en Diseño y Creación \\ MSc en Educación \\ InformÔtico-MatemÔtico}       
       
       \vspace{0.8cm}                       
        \vspace{0.5cm}             
         \vspace{2cm}
       
%Insert Creative Commons Artwork
\DeclareGraphicsExtensions{.pdf,.png,.jpg}
\begin{center}
\leavevmode
%Replace image file name below ("by-sa.png") with your license
\includegraphics[width=1in]{./img/cc-by-sa.png}
\end{center}
\label{fig:cc}
%insert a link to the licence and its description below
\scriptsize{
Esta obra estĆ” licenciada bajo una licencia \\ \href{http://creativecommons.org/licenses/by-sa/3.0/}{Creative Commons Attribution-ShareAlike 3.0 Unported License} \\
y puede ser copiada y modificada de acuerdo a los tƩrminos de dicha licencia.\\
Una versión en línea actualizada de esta obra y su código fuente estÔ publicada en: \\
 \href{http://http://mutabit.com/repos.fossil/mapeda/}{http://mutabit.com/repos.fossil/mapeda/}}
        
        
        \vfill
  
 %       \copyright 2015 por Autores Colectivos
        
 
 
     \end{center}
    \thispagestyle{empty}
\end{titlepage} 

\newpage
\thispagestyle{empty}
\mbox{}


# PƔginas preliminares



## Un trabajo en equipo

![Cómo empezó todo](figs/incoming/00-01.jpg)

El Manual de Periodismo de Datos nació en un taller de 48 horas
encabezado por European Journalism Centre y la Open Knowledge Foundation
en la MozFest 2011 en Londres. Luego se amplió, convirtiéndose en un
esfuerzo internacional en colaboración, que contó con la participación
de docenas de los principales representantes del periodismo de datos y
sus mejores exponentes.

En los 6 meses siguientes que pasaron entre el comienzo del libro y su
primera presentación, cientos de personas contribuyeron de diversas
maneras. Si bien hicimos nuestro mejor esfuerzo para reflejar a todos,
hemos tenido una cantidad de anónimo, pseudónimos y editores imposibles
de rastrear.

A todos los que aportaron y no aparecen en la lista, les decimos dos
cosas. Primero, gracias. Segundo. Pueden por favor decirnos quiƩnes son
de modo de poder darles el crƩdito que se merecen.

## Contribuyentes

Las siguientes personas redactaron o contribuyeron directamente en la
redacción de los textos en la actual versión del libro (y las
ilustraciones son de la diseƱadora grƔfica Kate Hudson):

  -   Gregor Aisch, Open Knowledge Foundation
  -   Brigitte Alfter, Journalismfund.eu
  -   David Anderton, Periodista freelance
  -   James Ball, The Guardian
  -   Caelainn Barr, Citywire
  -   Mariana Berruezo, Hacks/Hackers Buenos Aires
  -   Michael Blastland, Periodista freelance
  -   Mariano Blejman, Hacks/Hackers Buenos Aires
  -   John Bones, Verdens Gang
  -   Marianne Bouchart, Bloomberg News
  -   Liliana Bounegru, European Journalism Centre
  -   Brian Boyer, Chicago Tribune
  -   Paul Bradshaw, Birmingham City University
  -   Wendy Carlisle, Australian Broadcasting Corporation
  -   Lucy Chambers, Open Knowledge Foundation
  -   Sarah Cohen, Duke University
  -   Alastair Dant, the Guardian
  -   Helen Darbishire, Access Info Europe
  -   Chase Davis, Center for Investigative Reporting
  -   Steve Doig, Walter Cronkite School of Journalism, Arizona State University
  -   Lisa Evans, The Guardian
  -   Tom Fries, Bertelsmann Stiftung
  -   Duncan Geere, Wired UK
  -   Jack Gillum, Associated Press
  -   Jonathan Gray, Open Knowledge Foundation
  -   Alex Howard, O’Reilly Media
  -   Bella Hurrell, BBC
  -   Nicolas Kayser-Bril, Journalism++
  -   John Keefe, WNYC
  -   Scott Klein, ProPublica
  -   Alexandre LƩchenet, Le Monde
  -   Mark Lee Hunter, INSEAD
  -   Andrew Leimdorfer, BBC
  -   Friedrich Lindenberg, Open Knowledge Foundation
  -   Mike Linksvayer, Creative Commons
  -   Mirko Lorenz, Deutsche Welle
  -   Esa MƤkinen, Helsingin Sanomat
  -   Pedro Markun, TransparĆŖncia Hacker
  -   Isao Matsunami, Tokyo Shimbun
  -   Lorenz Matzat, OpenDataCity
  -   Geoff McGhee, Stanford University
  -   Philip Meyer, Professor Emeritus, University of North Carolina at
      Chapel Hill
  -   Claire Miller, WalesOnline
  -   Cynthia O’Murchu, Financial Times
  -   Oluseun Onigbinde, BudgIT
  -   Djordje Padejski, Knight Journalism Fellow, Stanford University
  -   Jane Park, Creative Commons
  -   AngƩlica Peralta Ramos, La Nacion (Argentina)
  -   Cheryl Phillips, The Seattle Times
  -   Aron Pilhofer, New York Times
  -   Lulu Pinney, Diseñador infógrafo freelance
  -   Paul Radu, Organised Crime and Corruption Reporting Project
  -   Simon Rogers, The Guardian
  -   Martin Rosenbaum, BBC
  -   Amanda Rossi, Amigos de JanuƔria
  -   Martin Sarsale, Hacks/Hackers Buenos Aires
  -   Fabrizio Scrollini, London School of Economics and Political Science
  -   Sarah Slobin, Wall Street Journal
  -   Sergio Sorin, Hacks/Hackers Buenos Aires
  -   Jonathan Stray, The Overview Project
  -   Brian Suda, (optional.is)
  -   Chris Taggart, OpenCorporates
  -   Jer Thorp, The New York Times R&D Group
  -   Andy Tow, Hacks/Hackers Buenos Aires
  -   Luk N. Van Wassenhove, INSEAD
  -   Sascha Venohr, Zeit Online
  -   Jerry Vermanen, NU.nl
  -   CƩsar Viana, University of GoiƔs
  -   Farida Vis, University of Leicester
  -   Pete Warden, Independent Data Analyst and Developer
  -   Chrys Wu, Hacks/Hackers

## Lo que este libro es (y lo que no es)

Este libro busca ser un recurso Ćŗtil para aquellos interesados en
convertirse en periodistas de datos o que simplemente quieran tomarlo
como un pasatiempo.

Muchas personas contribuyeron a su escritura, y a travƩs de nuestra
edición hemos tratado de hacer que se reflejen sus distintas voces y
visiones. Esperamos que su lectura resulte una conversación rica e
informativa respecto de lo que es el Periodismo de Datos, por quƩ es
importante, y cómo hacerlo.

Lamentablemente, leer este libro no le proveerĆ” un repertorio general de
conocimientos y capacidades que necesitarĆ” para convertirse en
periodista de datos. Esto requerirĆ­a una vasta biblioteca manejada por
cientos de expertos capaces de responder preguntas sobre cientos de
temas. Por suerte, tal biblioteca existe; se llama Internet. En cambio,
esperamos que este libro lo oriente sobre cómo iniciarse y dónde mirar
si quiere avanzar. Los ejemplos y tutoriales son ilustrativos mƔs que
exhaustivos.

Consideramos muy afortunado haber contado con tanto tiempo, energĆ­a y
paciencia de todos nuestros contribuyentes y nos hemos esforzado por
aprovecharlo de la mejor manera. Esperamos que –ademĆ”s de ser una fuente
de referencia útil- el libro ayude a documentar la pasión y el
entusiasmo, la visión y la energía de un movimiento en crecimiento. El
libro intenta mostrar lo que sucede tras bambalinas, las historias
detrƔs de los artƭculos.

El Manual de Periodismo de Datos es una obra en progreso. Si cree que
algo necesita ser corregido o estĆ” notoriamente ausente, por favor
indíquelo para su inclusión en la siguiente versión. También estÔ
disponible gratuitamente bajo una licencia [Creative Commons de
Atribución Compartir](http://creativecommons.org/licenses/by-sa/3.0/)
bajo la misma Licencia y lo alentamos fuertemente a que lo comparta con
quien crea que puede interesarse en su lectura.

*Liliana Bounegru ([@bb\_liliana](https://twitter.com/bb_liliana))*\
*Lucy Chambers ([@lucyfedia](https://twitter.com/lucyfedia))*\
*Jonathan Gray ([@jwyg](https://twitter.com/jwyg))*\
*March 2012*

## El Manual de un vistazo

Este manual a un vistazo: la infografista Lulu PInney creó este
magnífico afiche, que da una visión general del contenido del Manual de
periodismo de datos

![El Manual de un vistazo](figs/incoming/00-poster.png)

El Manual de Periodismo de Datos puede ser copiado libremente,
redistribuido y reusado bajo los tƩrminos de la licencia [Creative
Commons
Atribución-CompartirIgual](http://creativecommons.org/licenses/by-sa/3.0/).
Los contribuyentes al Manual del Periodimo de Datos retienen el
copyright sobre sus contribuciones respectivas y estƔn de acuerdo en
publicarlas bajo los tƩrminos de esta licencia.


# Introducción

¿Qué es el periodismo de datos? ¿Qué potencial tiene? ¿CuÔles son sus
límites? ¿De dónde viene? En esta sección analizamos qué es el
periodismo de datos y lo que puede significar para las organizaciones de
noticias. Paul Bradshaw (Birmingham City University) y Mirko Lorenz
(Deutsche Welle) se refieren a la particular importancia de esta nueva
disciplina. Destacados periodistas de datos comentan las claves a tener
en cuenta y sus ejemplos favoritos. Finalmente Liliana Bounegru
(European Journalism Centre) ubica al Periodismo de Datos en un contexto
histórico mÔs amplio.

### QuƩ contiene este capƭtulo?

-   [¿Qué es el periodismo de datos?](introducción_0.html)
-   [Por qué debieran usar datos los periodistas](introducción_1.html)
-   [¿Por qué es importante el periodismo de
    datos?](introducción_2.html)
-   [Algunos ejemplos favoritos](introducción_3.html)
-   [El periodismo de datos en perspectiva](introducción_4.html)


## ¿Qué es el periodismo de datos?

¿Qué es el periodismo de datos? Podría contestar, simplemente, que es
periodismo que se hace con datos. Pero eso no es de gran ayuda.

Tanto ā€œdatosā€ como ā€œperiodismoā€ son tĆ©rminos problemĆ”ticos. Algunos
creen que ā€œdatosā€ es cualquier colección de cifras, por lo general
reunidas en una hoja de cƔlculo. Hace 20 aƱos, esos eran prƔcticamente
los Ćŗnicos datos que manejaban los periodistas. Pero ahora vivimos en un
mundo digital, un mundo en el que casi cualquier hecho puede ser (y casi
todo es) descripto con nĆŗmeros.

Su carrera profesional, 300.000 documentos confidenciales, las personas
que componen su cĆ­rculo de amigos; todo esto puede ser (y es) descripto
con solo dos nĆŗmeros: ceros y unos. Fotos, video, y audio; asesinatos,
enfermedades, votos políticos, corrupción y mentiras, también descriptos
con ceros y unos.

¿Qué es lo que hace que el periodismo de datos sea diferente del resto
del periodismo? QuizƔs sean las nuevas posibilidades que aparecen,
cuando se combina el tradicional ā€œolfato para las noticiasā€ y la
capacidad de narrar una historia convincente, con la escala y alcance de
la información digital disponible en la actualidad.

Y esas posibilidades pueden aparecer en cualquier momento del proceso
periodístico: cuando contamos con la programación necesaria para
automatizar el proceso de recoger y combinar información proveniente del
gobierno municipal, la policĆ­a y otras fuentes civiles, como hizo Adrian
Holovaty con [ChicagoCrime](http://chicago.everyblock.com/crime/) y
luego [EveryBlock](http://www.everyblock.com/).

O usar software para encontrar relaciones entre cientos y miles de
documentos, tal como hizo The Telegraph con [los gastos de los
parlamentarios](http://tgr.ph/mps-expenses).

![Investigue los gastos de su representante parlamentario (The Guardian)](figs/incoming/01-01.png)

El periodismo de datos puede ayudar a un periodista a contar una
historia convincente por medio de infografĆ­as atractivas. Por ejemplo,
las conversaciones espectaculares de Hans Roslign sobre la visualización
de la pobreza mundial con [Gapminder](http://www.gapminder.org/) (que se
puede traducir como Recuerdabrecha, n. del t.) han atraĆ­do millones de
visitas en todo el mundo. Y la obra popular de David McCandless al
destilar grandes cifras –tales como poner en contexto el gasto pĆŗblico,
o la polución generada por el volcÔn islandés- muestra la importancia de
un diseƱo claro en [Information is Beautiful](http://www.informationisbeautiful.net/).

O puede ayudar a explicar cómo se relaciona una historia con un
individuo, como hacen ahora la BBC y el Financial Times habitualmente
con sus interactivos sobre el presupuesto (donde usted puede averiguar
cómo el presupuesto lo afecta en particular a usted en vez de a un
genĆ©rico ā€œJuan Puebloā€). Y puede abrir el proceso mismo de bĆŗsqueda de
información, como hace The Guardian de modo tan exitoso al compartir
datos, contexto y preguntas en su
[Datablog](http://www.guardian.co.uk/news/datablog).

Los datos pueden ser la fuente del periodismo de datos, o pueden ser la
herramienta con la que se narra la historia o ambas cosas. Como
cualquier fuente, debe tratarse con escepticismo; y como cualquier
herramienta, debemos ser conscientes de cómo puede modelar y limitar las
historias que se crean con la misma.

— *Paul Bradshaw, Birmingham City University*


## Por quƩ debieran usar datos los periodistas

El periodismo estƔ sitiado. En el pasado, como sector, nos basƔbamos en
ser los únicos que operÔbamos una tecnología para multiplicar y
distribuir lo que habĆ­a pasado de un dĆ­a al otro. La imprenta servĆ­a
como puerta de entrada. Cualquiera que quisiera llegar a la gente de una
ciudad o una región a la mañana siguiente, recurría a los diarios. Esa
era se acabó.

Hoy las noticias fluyen al mismo tiempo que suceden, a travƩs de
mĆŗltiples fuentes, testigos presenciales y blogs, y lo que ha sucedido
es filtrado a travƩs de una vasta red de conexiones sociales, se
jerarquiza, se comenta y muy a menudo se ignora.

Por eso el periodismo de datos es tan importante. Reunir, filtrar y
visualizar lo que sucede mƔs allƔ de lo que nos muestran nuestros ojos
tiene creciente valor. En la economĆ­a global de hoy el jugo de naranja
que toma por la maƱana, el cafĆ© que prepara… hay relaciones invisibles
entre estos productos, otra gente y usted. El lenguaje de esta red es el
de los datos: pequeños puntos de información que a menudo son
irrelevantes como instancia individual, pero enormemente importantes
cuando se los ve desde el Ɣngulo correcto.

En este momento, unos cuantos periodistas pioneros ya estƔn demostrando
cómo se puede usar datos para crear una visión mÔs profunda de lo que
sucede a nuestro alrededor y cómo puede afectarnos.

El anĆ”lisis de datos puede revelar ā€œla forma de una historiaā€ (Sarah
Cohen) o proveernos una ā€œnueva cĆ”maraā€ (David McCandless). Usando datos,
la tarea de los periodistas pasa de centrarse en ser los primeros en
informar, a ser los que nos dicen lo que un proceso podrĆ­a significar
realmente. La gama de temas puede ser amplia. La próxima crisis
financiera en ciernes. Los datos económicos detrÔs de los productos que
usamos. El mal uso de fondos o errores polĆ­ticos, presentados con una
visualización convincente que deje poco margen para rebatirla.

Es por esto que los periodistas debieran ver los datos como una
oportunidad. Es posible, por ejemplo, revelar cómo una amenaza abstracta
(como el desempleo) afecta a la gente de acuerdo a su edad, su gƩnero o
su nivel de educación. Usar datos transforma algo abstracto en algo que
todos pueden entender y con lo que pueden relacionarse.

Pueden crear herramientas de cƔlculo personalizadas para ayudar a la
gente a tomar decisiones, se trate de comprar un auto o una casa,
decidir un rumbo educativo o profesional en su vida, o hacer un control
de costos para no meterse en deudas.

Pueden analizar la dinÔmica de una situación compleja como disturbios o
un debate polĆ­tico, mostrar falacias y ayudar a todos a encontrar
posibles soluciones para problemas complejos.

Formarse en la búsqueda, depuración y visualización de datos es
transformador para la profesión de reunir información también. Los
periodistas que dominen esto descubrirƔn que apoyar sus artƭculos en
datos y la visión que aportan es un alivio. Menos adivinar, menos buscar
citas; en vez de ello, un periodista puede crear una posición fuerte
apoyada en datos y esto puede afectar mucho el rol del periodismo.

AdemƔs, introducirse en el periodismo de datos ofrece una perspectiva
para el futuro. Hoy, cuando las redacciones se reducen, la mayorĆ­a de
los periodistas esperan cambiar el Ôrea de las relaciones públicas. Pero
los periodistas de datos o los cientĆ­ficos de datos ya son un grupo de
profesionales muy solicitados, no solo por los medios. Las empresas e
instituciones de todo el mundo buscan ā€œgente que encuentre sentido a las
cosasā€, y profesionales que sepan cómo revisar datos y convertirlos en
algo tangible.

Los datos representan una promesa, y esto es lo que entusiasma a las
redacciones, haciƩndolas buscar un nuevo tipo de periodista. Para la
gente que trabaja por su cuenta, manejar datos ofrece un camino para
obtener nuevas oportunidades y un salario estable tambiƩn. VƩalo de este
modo: en vez de contratar periodistas que llenen rƔpidamente pƔginas y
sitios en la red con contenido de bajo valor, el uso de datos podrĆ­a
crear demanda para paquetes interactivos, que solo pueden crearse
invirtiendo una semana entera en resolver una cuestión. Esto es un
cambio positivo para muchos sectores de los medios.

Hay una barrera que impide a los periodistas usar este potencial: la
necesidad de capacitarse para trabajar con datos en todos los pasos,
desde una primera pregunta hasta un gran impacto periodĆ­stico basado en
datos.

Trabajar con datos es como introducirse en un territorio vasto y
desconocido. A primera vista los datos crudos resultan inteligibles para
los ojos y la mente. Tales datos son inmanejables. Es difĆ­cil ordenarlos
correctamente para su visualización. Se necesita periodistas
experimentados, que tengan la energĆ­a como para analizar datos crudos a
menudo confusos o aburridos y ā€œverā€ las historias ocultas allĆ­.

— *Mirko Lorenz, Deutsche Welle*


####El estudio

El European Journalism Centre realizó una
[encuesta](http://bit.ly/ddjnet-survey) para saber mƔs sobre las
necesidades de capacitación de los periodistas. Descubrimos que hay una
gran disposición de salir de la postura cómoda del periodismo
tradicional, e invertir tiempo para dominar nuevas capacidades. Los
resultados de la encuesta demuestran que los periodistas ven la
oportunidad, pero necesitan un poco de apoyo para superar los problemas
iniciales que les impiden trabajar con daos. Hay confianza de que si el
periodismo de datos fuera adoptado de modo mƔs universal, los flujos de
trabajo, las herramientas y los resultados mejorarƭan rƔpidamente.
Pioneros tales como The Guardian, The New York Times, The Texas Tribune,
y Die Zeit siguen elevando el nivel con sus artĆ­culos basados en datos.

¿El periodismo de datos seguirÔ siendo el dominio de un pequeño puñado
de pioneros o pronto toda organización de noticias tendrÔ su propio
equipo de periodistas dedicados especialmente a los datos. Esperamos que
este manual ayude a mƔs periodistas y redacciones a aprovechar este
campo emergente.

![Encuesta del European Journalism Centre sobre necesidades de capacitación](figs/incoming/01-DD.png)


## ¿Por qué es importante el periodismo de datos?

Preguntamos a algunos de los principales practicantes y partidarios del
periodismo de datos por quƩ piensan que el periodismo de datos es un
desarrollo importante. los datos crudos resultan inteligibles para los
ojos y la mente. Esto es lo que dijeron.


### Filtrar el flujo de datos

Cuando había escasez de información, la mayor parte de nuestros
esfuerzos estaban dedicados a buscarla y reunirla. Ahora que la
información es abundante, es mÔs importante el procesamiento. El
procesamiento tiene dos niveles: 1) anƔlisis para encontrar sentido y
estructura en el flujo sin fin de datos y 2) presentación de esa
información para meter lo que es importante y relevante en la cabeza del
consumidor. Al igual que la ciencia, el periodismo de datos da a conocer
sus mƩtodos y presenta sus descubrimientos de un modo que pueda ser
verificado a travƩs de su replicado.

— *Philip Meyer, Professor Emeritus, University of North Carolina at
Chapel Hill*


### Nuevos enfoques para narrar historias

El periodismo de datos es un tƩrmino abarcativo que, para mƭ, incluye un
conjunto de herramientas, tƩcnicas y enfoques de la narrativa siempre
crecientes. Puede incluir todo, desde el tradicional periodismo asistido
por computadoras (usando datos como una ā€œfuenteā€) hasta la visualización
mƔs avanzada de datos y aplicaciones de noticias. El objetivo unificador
es periodístico: proveer información y anÔlisis para ayudar a
informarnos todos sobre asuntos importantes de actualidad.

— *Aron Pilhofer, New York Times*


### Como periodismo fotogrƔfico con una laptop

ā€œEl periodismo de datosā€ difiere del ā€œperiodismo escritoā€ solo en que
usamos un equipo diferente. Todos nos ganamos la vida olfateando,
reportando y relacionando historias. Es como el ā€œperiodismo
fotogrĆ”ficoā€; solo hay que cambiar la cĆ”mara por una laptop.

— *Brian Boyer, Chicago Tribune*


### El periodismo de datos es el futuro

El periodismo de datos es el futuro. Los periodistas tienen que saber
manejar datos. Hace un tiempo uno descubrĆ­a cosas hablando con gente en
bares, y puede ser que esto siga sucediendo a veces. Pero ahora tambiƩn
se trata de analizar datos, equiparse con herramientas, y analizarla y
encontrar lo que es interesante. Tener todo en perspectiva, ayudando a
la gente a ver cómo encajan las piezas (para no repetir todo), y qué
pasa en el paĆ­s.

— *Tim Berners-Lee, founder of the World Wide Web*



### El procesamiento de cifras se une al pulido del lenguaje

El periodismo de datos es tender un puente para superar la brecha entre
los tƩcnicos estadƭsticos y los cinceladores de palabras. Ubicar cosas
destacadas e identificar tendencias que no solo son significativas
estadƭsticamente sino que tambiƩn son relevantes para desentraƱar el
mundo de hoy, que es intrĆ­nsecamente complejo.

— *David Anderton, freelance journalist*


### Actualizar sus capacidades

El periodismo de datos implica un nuevo conjunto de habilidades para
buscar, comprender y visualizar fuentes digitales, en una Ʃpoca en que
las capacidades bƔsicas del periodismo tradicional ya no bastan. No lo
reemplaza, le agrega cosas.

En un momento en que las fuentes se estƔn volviendo digitales, los
periodistas pueden y tienen que estar mƔs en contacto con estas fuentes.
Internet abrió posibilidades que van mÔs allÔ de lo que podemos entender
hoy. El periodismo de datos es solo el comienzo de la evolución de
nuestras prƔcticas pasadas para adaptarse al online.

El periodismo de datos sirve a dos importantes propósitos para las
organizaciones de noticiosas: encontrar historias Ćŗnicas (no de los
cables) y ejecutar la función de alerta. Especialmente en tiempos de
crisis financieras, estos objetivos son importantes para los diarios.

Desde el punto de vista de un diario regional, el periodismo de datos es
crucial. Existe el dicho: ā€œuna teja floja en su casa se considera mĆ”s
importante que disturbios en un paĆ­s lejanosā€. A uno lo golpea en la
cara e impacta en su vida de modo mƔs directo. Al mismo tiempo, la
digitalización estÔ en todas partes. Debido a que los diarios locales
tienen este impacto directo en su vecindario y las fuentes se vuelven
digitalizadas, un periodista debe saber cómo encontrar, analizar y
visualizar una historia a partir de datos.

— *Jerry Vermanen, NU.nl*


### Un remedio para la asimetría de la información

La asimetrĆ­a de la información –no la falta de información sino la
incapacidad de absorberla y procesarla a la velocidad y con el volumen
que nos llega- es uno de los problemas mƔs significativos que enfrentan
los ciudadanos al elegir cómo vivir sus vidas. La información tomada de
medios impresos, visuales y radiales influye en las opciones y las
acciones de los ciudadanos. El buen periodismo de datos ayuda a combatir
la asimetría de la información.

— *Tom Fries, Bertelsmann Foundation*


### Una respuesta a las relaciones pĆŗblicas basadas en datos

La disponibilidad de herramientas de medición y sus precios decrecientes
–en una combinación auto-sustentada que se concentra en el desempeƱo y
la eficiencia en todos los aspectos de la sociedad- han llevado a
quienes toman las decisiones a cuantificar los avances de sus polĆ­ticas,
monitorear tendencias e identificar oportunidades.

Las compaƱƭas continuamente encuentran nuevas mediciones que muestran su
buen desempeƱo. A los polƭticos les encanta alardear de las cifras sobre
reducción de desempleo y crecimiento del PBI. La falta de conocimientos
por parte de los periodistas respecto de los escƔndalos de Enron,
Worldcom, Madoff o Solyndra es prueba de la incapacidad de muchos
profesionales de ver mƔs allƔ de las cifras. Hay una tendencia a aceptar
las cifras mƔs que otros datos, ya que tienen un aura de seriedad,
aunque sean completamente inventadas.

El saber manejar datos ayudarĆ” a los periodistas a aguzar su sentido
crĆ­tico al enfrentar cifras, y ojalĆ” que les sirva para avanzar un poco
en su relación con los departamentos de RRPP.

— *Nicolas Kayser-Bril, Journalism++*


### Proveer interpretaciones independientes de información oficial

Luego del terremoto devastador y el subsecuente desastre de la planta
nuclear de Fukushima en 2011, la importancia del periodismo de datos se
ha hecho claro para la gente de medios en Japón, país que en general va
a la zaga en materia de periodismo digital.

Quedamos a la deriva cuando el gobierno y los expertos no tuvieron datos
creƭbles acerca de los daƱos. Cuando los funcionarios ocultaron al
público los datos SPEEDI (predicción de difusión de materiales
radioactivos), no estƔbamos en condiciones de decodificarlos aunque se
hubiesen filtrado. Voluntarios comenzaron a reunir datos sobre
radioactividad usando sus propios recursos, pero no estƔbamos armados
con conocimientos estadísticos, de interpolación, de visualización y
demƔs. Los periodistas tienen que tener acceso a los datos en crudo y
aprender a no depender de las interpretaciones oficiales de los mismos.

— *Isao Matsunami, Tokyo Shimbun*

### Manejar el diluvio de datos

Los desafíos y las oportunidades que presenta la revolución digital
siguen complicando al periodismo. En una era de abundancia de
información, los periodistas y los ciudadanos necesitan mejores
herramientas, se trate de curar los samizdat del siglo XXI en Medio
Oriente, procesar una avalancha de datos difundidos a medianoche, o
encontrar la mejor manera de visualizar la calidad del agua en una
nación. Al debatirnos con los desafíos del consumo que presenta este
diluvio de datos, las nuevas plataformas de edición también estÔn dando
a todos el poder de reunir y compartir datos digitalmente,
convirtiéndolos en información. Mientras los periodistas y editores han
sido los vectores tradicionales de la colecta y diseminación de
información, el ambiente horizontal de información ahora hace que las
noticias se conozcan primero online y no en las redacciones.

En todo el planeta, de hecho, el vĆ­nculo entre los datos y el periodismo
se estĆ” fortaleciendo. En una era de grandes cantidades de datos, la
creciente importancia del periodismo de datos estĆ” en la capacidad de
sus practicantes de dar contexto, claridad y –quizĆ”s lo mĆ”s importante,
encontrar la verdad en la cantidad en expansión de contenido digital en
el mundo. Eso no significa que las organizaciones de medios integradas
de hoy no tengan un rol crucial. Lejos de ello. En la era de la
información, se necesita mÔs que nunca a los periodistas para curar,
verificar, analizar y sintetizar los datos. En ese contexto, el
periodismo de datos tiene una profunda importancia para la sociedad.

Hoy, encontrarle sentido a los grandes volĆŗmenes de datos, en particular
los datos no estructurados, serƔn un objetivo central de los cientƭficos
de todo el mundo, trabajen en salas de redacción, Wall Street o Silicon
Valley. Notoriamente esa meta se verĆ” facilitada sustancialmente por un
conjunto creciente de herramientas comunes, sean empleadas por
tecnólogos del estado, tecnólogos de la salud o desarrolladores de las
redacciones.

— *Alex Howard, O’Reilly Media*


### Nuestras vidas son datos

El buen periodismo de datos es difĆ­cil, porque el buen periodismo es
difícil. Significa cómo obtener los datos, cómo entenderlos, y cómo
encontrar la historia. A veces hay callejones sin salida, y a veces no
hay una gran historia. Al fin de cuentas, si solo fuera cuestión de
apretar el botón indicado, no sería periodismo. Pero eso es lo que hace
que valga la pena –en un mundo en el que nuestras vidas cada vez son mĆ”s
datos-, que sea esencial para una sociedad libre y justa.

— *Chris Taggart, OpenCorporates*


### Una manera de ahorrar tiempo

Los periodistas no tienen tiempo para perder transcribiendo cosas a mano
y complicarse tratando de obtener información de archivos PDF, por lo
que aprender un poco de código (o saber dónde buscar gente que puede
ayudar) es increĆ­blemente valioso.

Un periodista de Folha do Sāo Paulo estaba trabajando con el presupuesto
local y me llamó para agradecernos por publicar online las cuentas de la
municipalidad de Sāo Paulo (2 dƭas de trabajo para un solo hacker). Dijo
que las habĆ­a estado transcribiendo a mano los Ćŗltimos 3 meses, tratando
de encontrar una historia. TambiĆ©n recuerdo haber resuelto un ā€œproblema
de PDFā€ para *Contas Abertas*, una organización que monitorea noticias
parlamentarias: 15 minutos y 15 líneas de código, en vez de un mes de
trabajo.

— *Pedro Markun, TransparĆŖncia Hacker*


### Una parte esencial del herramental del periodista

Creo que es importante destacar el aspecto ā€œperiodĆ­sticoā€ o de reportero
del ā€œperiodismo de datos. El ejercicio no debiera ser analizar o
visualizar datos por el gusto de hacerlo, sino utilizarlo como
herramienta de modo de aproximarnos mƔs a la verdad de lo que sucede en
el mundo. Veo la capacidad de analizar e interpretar datos como parte
esencial del set de herramientas actual de los periodistas, en vez de
una disciplina por separado. Al fin de cuentas, todo tiene que ver con
el buen periodismo y contar historias del modo mƔs apropiado.

El periodismo de datos es otra manera de analizar el mundo y hacer que
los poderes constituidos rindan cuentas. Con una creciente cantidad de
datos disponible, ahora es mƔs importante que nunca que los periodistas
sean conscientes de las tƩcnicas del periodismo de datos. Esta debe ser
una herramienta que cualquier periodista debiera incorporar, se trate de
aprender cómo trabajar directamente con datos, o a colaborar con alguien
que lo pueda hacer.

Su verdadero potencial estÔ en ayudarlo a obtener información que de
otro modo serĆ­a muy difĆ­cil de encontrar o demostrar. Un buen ejemplo es
la historia de Steve Doig que analizó patrones de daños del huracÔn
Andrew. Unió dos conjuntos distintos de datos: uno que mapeaba el nivel
de destrucción causado por el huracÔn, y otro que muestra las
velocidades de los vientos. Esto le permitió señalar Ôreas en las cuales
las malas prÔcticas en la construcción de edificios
contribuyeron/intensificaron el impacto del desastre. Ganó por la
historia un [Pulitzer Prize](http://www.pulitzer.org/awards/1993) en
1993 y sigue siendo un gran ejemplo de lo que es posible.

Idealmente se usan los datos para descubrir cosas destacadas,
sorprendentes o Ôreas de interés. En este sentido, actúan como pistas.
Si bien las cifras pueden ser interesantes, no basta escribir solamente
sobre datos. Hay que hacer el trabajo de periodista para explicar quƩ
significan.

— *Cynthia O’Murchu, Financial Times*



### Adaptarse a cambios en nuestro ambiente de información

Las nuevas tecnologĆ­as digitales generan nuevas maneras de producir y
diseminar el conocimiento en la sociedad. El periodismo de datos puede
entenderse como el intento de los medios de adaptarse y responder a los
cambios en el ambiente de la información, incluyendo maneras de contar
historias mƔs interactivas y multidimensionales, que permite a los
lectores explorar las fuentes que subyacen a las noticias, alentƔndolos
a participar en el proceso de crear y evaluar historias.

— *CĆ©sar Viana, University of GoiĆ”s*


### Una manera de ver cosas que de otro modo podrĆ­a no ver

Algunas historias sólo pueden entenderse y explicarse analizando –y a
veces visualizando- datos. Las relaciones entre personas o entes
poderosos quedarĆ­an sin revelar, las muertes causadas por polĆ­ticas
farmacƩuticas permanecerƭan ocultas, las polƭticas ambientales que daƱan
el medio continuarĆ­an sin lĆ­mite. Pero cada una de estas situaciones han
podido modificarse gracias a los datos obtenidos, analizados y aportados
por los periodistas a los lectores. Los datos pueden ser simples como
una planilla de cÔlculo, o un registro de llamadas telefónicas, o
complejos como los resultados de pruebas escolares o datos de
infecciones hospitalarias; como sea, allĆ­ hay historias que vale la pena
contar.


— *Cheryl Phillips, The Seattle Times*



### Una manera de enriquecer los artĆ­culos 

Podemos pintar cuadros de nuestras vidas completas con nuestro rastro
digital. Desde lo que consumimos y navegamos, hasta donde y cuando
viajamos, nuestras preferencias musicales, nuestros primeros amores, los
hitos de nuestros hijos, incluso nuestros Ćŗltimos deseos, todo puede ser
rastreado, digitalizado, almacenado en la nube y difundido.\*\*Este
universo de datos puede ser sacado a la superficie para narrar
historias, responder preguntas e impartir una comprensión de la vida de
maneras que actualmente superan incluso la mƔs rigurosa y cuidadosa
reconstrucción de anécdotas.

— *Sarah Slobin, Wall Street Journal*



### No se necesitan nuevos datos para tener una primicia

A veces los datos ya son públicos y estÔn disponibles, pero nadie los ha
analizado atentamente. En el caso del informe de Associated Press sobre
4500 pƔginas de documentos desclasificados que describen las acciones de
contratistas de seguridad privados durante la guerra de Irak, el
material fue obtenido por un periodista independiente a lo largo de
varios años, usando pedidos de Acceso a la Información dirigidos al
departamento de Estado de EE.UU. Escanearon los resultados impresos y
los subieron a DocumentCloud, lo que nos permitió hacer nuestro anÔlisis
general.

— *Jonathan Stray, The Overview Project*


## Algunos ejemplos favoritos

Le preguntamos a algunos de nuestros colaboradores acerca de sus
ejemplos favoritos de periodismo de datos y quƩ les gusta de los mismos.
Sus respuestas, a continuación:


### No causar daƱo, en el Las Vegas Sun

![No causar daƱo (The Las Vegas Sun)](figs/incoming/01-GG.png)

Mi ejemplo favorito es la serie [No causar daƱo](http://www.lasvegassun.com/hospital-care/)
de 2010 en Las Vegas Sun, sobre la atención en los hospitales. El Sun analizó mÔs de
2.900.000 de registros de aranceles hospitalarios, que revelaron mƔs de
3600 lesiones, infecciones y errores quirĆŗrgicos evitables. Obtuvieron
datos a través de un pedido de acceso a archivos públicos e
identificaron mƔs de 300 casos en que los pacientes murieron por errores
que pudieron haberse prevenido. Contiene distintos elementos, incluyendo
un [grƔfico interactivo](http://bit.ly/lvsun-surgery) que permite al
lector ver (por hospital) donde se dieron lesiones quirúrgicas mÔs a
menudo de lo esperado; un [mapa](http://bit.ly/lvsun-infections) con un
cronograma que muestra cómo se extienden las infecciones hospital por
hospital; y un [grƔfico interactivo](http://bit.ly/lvsun-events) que
permite a los usuarios ordenar los datos por lesiones evitables o por
hospital, para ver dónde la gente se ve afectada. Me gusta porque es muy
fƔcil de entender y navegar. Los usuarios pueden explorar los datos de
manera muy intuitiva.

AdemÔs tuvo un impacto real: la legislatura de Nevada respondió con [6
legislaciones](http://bit.ly/lvsun-milestone). Los periodistas
involucrados trabajaron muy duro para obtener y desmenuzar los datos.
Uno de los periodistas, Alex Richards, envió los datos a los hospitales
y al Estado al menos una docena de veces para lograr que se corrigieran
los errores.

— *AngĆ©lica Peralta Ramos, La Nación (Argentina)*


### Base de datos de salarios de empleados del Estado

![Salarios de Empleados del Estado (The Texas Tribune)](figs/incoming/01-FF.png)

Me encanta el trabajo que pequeƱas organizaciones independientes
realizan todos los dĆ­as tales como ProPublica o el Texas Tribune, que
tiene a Ryan Murphy como gran periodista de datos. Si tuviera que
elegir, optarĆ­a por el proyecto de base de datos de [Salarios de
Empleados del Estado del Texas
Tribune](http://www.texastribune.org/library/data/government-employee-salaries/).
Este proyecto reúne en una base de datos la información de los salarios
de 660.000 empleados estatales para que los usuarios busquen y ayuden a
generar historias. Se puede buscar por ente estatal, nombre o salario.
Es simple, significativo y pone a disposición del público información
hasta ahora inaccesible. Es fƔcil de usar y genera historias de manera
automƔtica. Es un gran ejemplo que muestra por quƩ el Texas Tribune
concentra la mayor parte de su trƔfico en sus pƔginas de datos.

— *Simon Rogers, The Guardian*


### Visualización de texto completo de los registros de la guerra de Irak, Associated Press

![AnƔlisis de los registros de guerra (Associated Press)](figs/incoming/01-YY.jpg)

El trabajo de Jonathan Stray y Julian Burgess sobre los [registros
(logs) de la Guerra de Irak](http://bit.ly/jstray-warlogs) es una
llamativa incursión en el anÔlisis de texto y la visualización,
utilizando tƩcnicas experimentales para comprender temas que vale la
pena explorar, dentro de un gran conjunto de datos en formato texto.

Por medio de tƩcnicas y algoritmos de analƭtica de textos, Jonathan y
Julian crearon un mƩtodo que muestra concentraciones de palabras clave
contenidas en miles de informes del gobierno de Estados Unidos sobre la
guerra de Irak, difundido por WikiLeaks, en un formato visual.

Si bien este mƩtodo tiene limitaciones y el trabajo es experimental, es
un enfoque nuevo e innovador. En vez de tratar de leer todos los
archivos o revisar los registros de guerra con una noción preconcebida
de lo que puede encontrarse ingresando palabras claves y revisando el
resultado, esta tƩcnica calcula y visualiza temas/palabras clave de
particular relevancia.

Con crecientes cantidades de datos en formato texto (emails, informes,
etc.) y numérico llegando al dominio público, encontrar maneras de
determinar Ɣreas de interƩs clave se volverƔ cada vez mƔs importante. Es
un sub-campo interesante del periodismo de datos.

— *Cynthia O’Murchu, Financial Times*


### Misterios de Asesinatos

![Misterios de asesinatos (Scripps Howard News Service)](figs/incoming/01-XX.jpg)

Una de mis piezas favoritas de periodismo de datos es el proyecto de
[Misterios de Asesinatos](http://bit.ly/murder-mysteries), por Tom
Hargrove del Scripss Howard News Service. A partir de datos oficiales y
pedidos de acceso a registros públicos, creó una base de datos, que
incluye el detalle demogrƔfico de mƔs de 185.000 asesinatos no
resueltos, y luego diseñó un algoritmo para buscar patrones que sugieran
la posible presencia de asesinos seriales.

Este proyecto tiene todo: un gran trabajo, una base de datos mejor que
la del estado, anƔlisis inteligente usando tƩcnicas de ciencias
sociales, y una presentación interactiva de datos online de modo que los
lectores puedan explorar por su cuenta.

— *Steve Doig, Walter Cronkite School of Journalism, Arizona State
University*


### MƔquina de Mensajes

![MƔquina de Mensajes (ProPublica)](figs/incoming/01-HH.png)

Me encanta la historia de [MƔquina de
Mensajes](http://bit.ly/message-machine) de ProPublica y su [blog
nerd](http://bit.ly/nerd-blog-post). Todo comenzó cuando un grupo de
tuiteros expresó curiosidad por haber recibido correos electrónicos
diferentes de la campaña de Barack Obama. La gente de ProPublica tomó
nota y pidió a su público que reenviaran los correos que recibieran de
la campaña. La presentación es elegante, un anÔlisis diferencial visual
de varios correos diferentes que fueron enviados esa noche. Es admirable
porque recogieron sus propios datos (una pequeƱa muestra, pero lo
suficiente como para contar la historia). Pero es aún mÔs admirable
porque cuenta la historia de un fenómeno en curso: gran cantidad de
datos utilizados en campaƱas polƭticas para dirigir mensajes a
individuos específicos. Es sólo un anticipo de cosas por venir.

— *Brian Boyer, Chicago Tribune*


### Chartball

![GrƔfico de victorias y derrotas (Chartball)](figs/incoming/01-JJ.png)

Uno de mis proyectos de periodismo de datos favoritos es el trabajo de
Andrew GarcĆ­a Phillips sobre
<http://www.chartball.com/>[Chartball](http://www.chartball.com/).
Andrew es fanƔtico de los deportes con un voraz apetito de datos, un ojo
tremendo para el diseño y la capacidad de escribir código. En Chartball
no solo visualiza el conjunto de la historia, sino que detalla los
Ʃxitos y fracasos de jugadores individuales y equipos. Ofrece contexto,
un grƔfico atractivo y su trabajo es profundo, divertido e interesante,
y a mĆ­ ni siquiera me interesan demasiado los deportes.

— *Sarah Slobin, Wall Street Journal*

## El periodismo de datos en perspectiva

En agosto de 2010 algunos colegas del European Journalism Centre y yo
organizamos lo que creemos que fue una de las primeras [conferencias
internacionales de periodismo de datos](http://bit.ly/ddj-conf), que se
realizó en Ámsterdam, Holanda. En aquel momento no había mucha discusión
respecto del tema, y solo habĆ­a un par de organizaciones conocidas
ampliamente por su labor en esta Ɣrea.

La manera en que organizaciones de noticias como The Guardian y el New
York Times manejaron las grandes cantidades de datos difundidos por
WikiLeaks, es uno de los grandes casos que impulsaron el tƩrmino. En
aquel momento el concepto comenzó a tener un uso mÔs amplio (junto con
ā€œel periodismo asistido por computadoraā€) para describir cómo los
periodistas utilizaban datos para mejorar su cobertura y amplificar
investigaciones profundas de un tema dado.

Hablando con periodistas de datos y estudiosos del periodismo [on
Twitter](http://bit.ly/smfrogers-status), parecerĆ­a que una de las
formulaciones mƔs tempranas de lo que ahora reconocemos como periodismo
de datos, en 2006 por Adrian Holovaty, fundador de EveryBlock, un
servicio de información que permite a los usuarios saber lo que ha
estado sucediendo en su Ć”rea, en su manzana. En su breve ensayo [ā€œUn
modo fundamental en que los sitios de diarios tienen que
cambiarā€](http://www.holovaty.com/writing/fundamental-change/), sostiene
que los periodistas deben publicar datos estructurados procesables por
la computadora, junto con el ā€œgran bodoque de textoā€ tradicional:

> Por ejemplo, digamos que un diario ha escrito una historia sobre un
incendio local. Poder leer la historia en un celular estĆ” bien. Viva la
tecnologĆ­a. Pero lo que realmente quiero poder hacer es explorar los
datos en crudo de esa historia, uno por uno, con capas de atribuciones,
y una infraestructura para comparar detalles del incendio con incendios
anteriores: fecha, momento, lugar, victimas, nĆŗmero de la central de
bomberos, distancia de la central de bomberos, nombres y aƱos de
experiencia de los bomberos que actuaron, el tiempo que les llevó a los
bomberos llegar, e incendios posteriores, cuando sea que sucedan.

¿Pero qué es lo que distingue esto de otras formas de periodismo que
usan bases de datos o computadoras? ¿Cómo y en qué medida el periodismo
de datos es distinto de otras formas de periodismo del pasado?



### Periodismo Asistido por Computadora y Periodismo de Precisión 

Usar datos para mejorar los informes y presentar información
estructurada (aunque no sea legible por la computadora) al pĆŗblico tiene
una larga historia. QuizƔs lo mƔs relevante en forma inmediata para lo
que ahora llamamos periodismo de datos es el periodismo asistido por
computadora, conocido por la sigla CAR, que fue el primer abordaje
organizado y sistemƔtico del uso de computadoras para recoger y analizar
datos de modo de mejorar las noticias.

El CAR fue usado por primera vez en 1952 por CBS para predecir los
resultados de la elección presidencial. Desde la dĆ©cada del ā€˜60
periodistas (en su mayoría de investigación y de Estados Unidos) han
buscado controlar el poder de modo independiente analizado bases de
datos de registros públicos con métodos científicos. También conocido
como ā€œperiodismo de servicio pĆŗblicoā€ los partidarios de estas tĆ©cnicas
con ayuda de computadoras han buscado revelar tendencias, demostrar la
falsedad de creencias populares y revelar injusticias perpetradas por
autoridades y corporaciones privadas. Por ejemplo, Philip Meyer trató de
demostrar la falsedad de los informes de los disturbios en Detroit de
1967, para reflejar que no eran solo sureƱos poco educados los que
participaban. Las historias de Bill Dedman sobre ā€œEl Color del Dineroā€
en la dĆ©cada del ā€˜80 reveló prejuicios raciales sistĆ©micos en las
polƭticas de crƩdito de las principales instituciones financieras. En su
artĆ­culo ā€œLo Que Salió Malā€ Steve Doig buscó analizar los patrones de
daƱos del huracĆ”n Andrew a comienzos de la dĆ©cada del ā€˜90, para
comprender el efecto de las polƭticas y prƔcticas de desarrollo urbanas
fallidas. Los reportes basados en datos han generado valiosos servicios
al pĆŗblico y permitido a los periodistas ganar importantes premios.

A comienzos de la dĆ©cada del ā€˜70 el tĆ©rmino *periodismo de precisión*
fue acuƱado para describir este tipo de recolección de noticias: ā€œla
aplicación de métodos de investigación de las ciencias sociales y de la
conducta a la prĆ”ctica del periodismoā€ (de ā€œ[The New Precision
Journalism](http://bit.ly/precision-journalism)ā€, por Philip Meyer). Se
creó el periodismo de precisión para que fuera practicado en las
principales instituciones de medios por profesionales formados en
periodismo y ciencias sociales. Nació en respuesta al ā€œnuevo
periodismoā€, una forma de periodismo en el que las tĆ©cnicas del
periodismo se aplican a las noticias. Meyer sugiere que lo que se
necesita son técnicas científicas de recolección y anÔlisis de datos, en
vez de tƩcnicas literarias, para que el periodismo pueda cumplir con su
cometido de objetividad y verdad.

Se puede entender el periodismo de precisión como una reacción frente a
algunas de las fallas y debilidades comĆŗnmente citadas: la dependencia
de informes de prensa (lo que se describió luego como ā€œchurnalismoā€), el
prejuicio en favor de fuentes autorizadas, etc. Meyer ve que estas
debilidades derivan de la falta de aplicación de técnicas científicas de
información y métodos científicos tales como encuestas y registros
pĆŗblicos. En los ā€˜60, el periodismo de precisión fue utilizado para
representar a grupos marginales y sus historias. SegĆŗn
[Meyer](http://bit.ly/p-meyer):

> El periodismo de precisión era una manera de expandir el herramental del
periodista para hacer que temas antes inaccesibles o sòlo accesibles de
modo tosco, estuvieran abiertos a la investigación periodística. Fue
especialmente Ćŗtil para dar voz a grupos minoritarios y disidentes que
luchaban por lograr representación.

Un [artĆ­culo influyente](http://bit.ly/oxford-influential) publicado en
la dĆ©cada del ā€˜80 respecto de la relación entre el periodismo y las
ciencias sociales se hace eco del discurso sobre el periodismo de datos.
Los autores, dos profesores de periodismo estadounidenses, sugieren que
en las dĆ©cadas de los aƱos ā€˜70 y ā€˜80, la comprensión del pĆŗblico de lo
que son las noticias se amplía, de una concepción mÔs estrecha de
ā€œeventos noticiososā€ al ā€œreporte situacionalā€ (o informes sobre
tendencias sociales). Por ejemplo, al usar bases de datos de censos o
encuestas, los periodistas logran ā€œir mĆ”s allĆ” de la información de
eventos especĆ­ficos, aislados, para proveer contexto que les da
significadoā€.

Como era de esperar, la prƔctica de usar datos para mejorar el
periodismo existe desde que hay datos. Como
[seƱala](http://bit.ly/facts-are-sacred) Simon Rogers, el primer ejemplo
de periodismo de datos en The Guardian data de 1821. Es una tabla de
escuelas en Manchester que da la cantidad de estudiantes que asisten a
clases y los costos por escuela, Según Rogers, esto ayudó a mostrar el
número real de estudiantes que recibían educación gratuita, que era
mucho mayor de lo que mostraban las cifras oficiales.

![Periodismo de datos en The Guardian en 1821 (The Guardian)](figs/incoming/01-LL.jpg)

Otro ejemplo temprano en Europa es de Florence Nightingale y su informe
clave, ["Mortalidad del EjƩrcito BritƔnico"](http://bit.ly/mortality-army), publicado en 1858. 
En su informe al parlamento usó grÔficos para promover mejoras en los
servicios de salud para el ejƩrcito britƔnico. El mƔs famoso de ellos es
su ā€œcoxcombā€, una espiral de secciones que representan muertes por mes,
en el que se destaca que la gran mayorĆ­a de las muertes eran por
enfermedades prevenibles, en vez de balas.

![Mortalidad de la armada britƔnica por Florence Nightingale (imagen de Wikipedia)](figs/incoming/01-MM.jpg)


### Periodismo de Datos y Periodismo Asistido por Computadora 

En este momento hay un debate sobre ā€œcontinuidad y cambioā€ en torno de
la etiqueta de ā€œperiodismo de datosā€ y su relación con prĆ”cticas previas
periodƭsticas que emplean tƩcnicas computacionales para analizar
conjuntos de datos.

Algunos sostienen que hay una diferencia entre CAR y el periodismo de
datos. Dicen que CAR es una tƩcnica para recoger y analizar datos como
una manera de fortalecer el periodismo (generalmente de investigación),
mientras que el periodismo de datos presta atención a la manera en que
los datos se ubican en el conjunto del flujo de trabajo periodĆ­stico. En
este sentido el periodismo de datos presta tanta –y a veces mĆ”s-
atención a los datos mismos, en vez de usarlos simplemente como un medio
para encontrar o dar mƔs fuerza a determinadas historias. De allƭ que
encontremos el Datablog de The Guardian o que el Texas Tribune publica
juegos de datos junto con los artĆ­culos –o incluso solo juegos de datos
por sĆ­ mismos- para que la gente analice y explore.

Otra diferencia es que en el pasado los periodistas de investigación se
encontraban faltos de información respecto de una pregunta que trataban
de contestar, o una cuestión que trataban de abordar. Si bien esto sigue
sucediendo, también existe una abundancia abrumadora de información con
la que los periodistas a veces no saben qué hacer. No saben cómo obtener
valor de los datos. Un ejemplo reciente es el Sistema de Información
Online Combinada, la mayor base de datos del Reino Unido de información
sobre gasto pĆŗblico. Esta base de datos fue durante mucho tiempo un
reclamo de los partidarios de la transparencia, pero dejó confundidos y
sin respuesta a muchos periodistas cuando se publicó. Como me escribió
recientemente Philip Meyer: ā€œCuando la información era escasa, la mayor
parte de nuestros esfuerzos estaban dedicados a buscarla y recogerla.
Ahora que hay información abundante, el procesamiento es mÔs
importanteā€.

Por otro lado, algunos sostienen que no hay ninguna diferencia
significativa entre el periodismo de datos y el periodismo asistido por
computadoras. A esta altura resulta claro que incluso las prƔcticas mƔs
recientes de los medios mƔs novedosos combinan cosas conocidas desde
hace tiempo con algo nuevo. Antes que debatir si el periodismo de datos
es completamente nuevo, una postura mƔs fructƭfera serƭa considerarlo
como parte de una tradición mÔs longeva, pero que responde a nuevas
circunstancias y condiciones. Aunque no haya una diferencia en cuanto a
metas y tĆ©cnicas, el surgimiento de la etiqueta ā€œperiodismo de datosā€ al
comienzo del siglo indica una nueva fase en la que el mero volumen de
los datos libremente disponibles online –combinado con herramientas
sofisticadas centradas en el usuario, la auto edición y las herramientas
de colaboración abierta (crowdsourcing)- permite a mÔs gente trabajar
con mƔs datos de modo mƔs fƔcil que nunca.

### El periodismo de datos tiene que ver con la alfabetización masiva en el manejo de datos. 

Las tecnologƭas digitales y la red estƔn cambiando de modo fundamental
la manera en que se edita la información. El periodismo de datos es una
parte del ecosistema de herramientas y prƔcticas que han surgido en
torno a los sitios y servicios de datos. El citado y el compartir
materiales de distintas fuentes es parte de la naturaleza de la
estructura de hipervĆ­nculos de la red, y la manera en que estamos
acostumbrados a navegar la información hoy. Yendo mÔs hacia atrÔs, el
principio que estĆ” en la base de la estructura de hipervĆ­nculos de la
red es el principio de la cita usado en los trabajos acadƩmicos. Citar y
compartir materiales y sus fuentes y los datos detrƔs de la historia es
una de las maneras bƔsicas en las que el periodismo de datos puede
mejorar le periodismo, lo que el fundador de WikiLeaks Julian Assange,
llama el ā€œperiodismo cientĆ­ficoā€.

Al permitir a cualquier persona recurrir a fuentes de datos y encontrar
información que es relevante, así como verificar afirmaciones y
cuestionar los supuestos comunes, el periodismo de datos representa
efectivamente la democratización masiva de recursos, herramientas,
tƩcnicas y metodologƭas que antes eran usadas por especialistas, fueran
estos periodistas de investigación, científicos sociales, estadísticos,
analistas u otros expertos. Si bien actualmente citar vĆ­nculos con
fuentes de datos es algo especĆ­fico del periodismo de datos, avanzamos
hacia un mundo en el que los datos estarƔn integrados sin fisuras en el
tejido de los medios. Los periodistas de datos tienen un rol importante
en cuanto a ayudar a bajar las barreras a la comprensión y el manejo de
datos, e incrementar la alfabetización en datos de sus lectores a escala
masiva.

En este momento la comunidad creciente de personas que se llaman
periodistas de datos es en gran medida diferente de la comunidad CAR mƔs
madura. Esperemos que en el futuro veamos vƭnculos mƔs fuertes entre
estas dos comunidades, del mismo modo que vemos a ONG y organizaciones
de medios sociales como ProPublica y el Bureau of Investigative
Journalism trabajando junto con medios tradicionales en investigaciones.
Mientras la comunidad de periodismo de datos puede tener formas mƔs
innovadoras de difundir datos y presentar historias, el enfoque
profundamente analĆ­tico y crĆ­tico de la comunidad CAR es algo de lo que
el periodismo de datos podrĆ­a aprender.

— *Liliana Bounegru, European Journalism Centre*


# En la redacción

![](figs/incoming/02-00-cover.png)

¿Cómo se ubica el periodismo de datos en las redacciones del mundo?
¿Cómo convencieron importantes periodistas a sus colegas de que es buena
idea publicar bases de datos o lanzar aplicaciones de noticias basadas
en datos? ¿Los periodistas debieran aprender a escribir código o
trabajar en tÔndem con programadores talentosos? En esta sección
analizamos el rol de los datos y el periodismo de datos en la Australian
Broadcasting Corporation, la BBC, el Chicago Tribune, The Guardian, el
Texas Tribune, y el Zeit Online. Aprendemos cómo descubrir y contratar
buenos programadores, cómo atraer a la gente con un tema a través de
hackatones y otros eventos, cómo colaborar a nivel internacional y cómo
configurar modelos de negocios para periodismo de datos.

### QuƩ contiene este capƭtulo?

-   [La iniciativa de periodismo de datos de
    ABC](en_la_redacción_0.html)
-   [Periodismo de datos en la BBC](en_la_redacción_1.html)
-   [El equipo de aplicaciones de noticias del Chicago
    Tribune](en_la_redacción_2.html)
-   [El detrƔs de escena del Datablog de The
    Guardian](en_la_redacción_3.html)
-   [Periodismo de datos en el Zeit Online](en_la_redacción_4.html)
-   [Cómo contratar un hacker](en_la_redacción_5.html)
-   [Ayuda externa de expertos a travƩs de
    hackatones](en_la_redacción_6.html)
-   [Seguir el rastro del dinero: colaboración
    internacional](en_la_redacción_7.html)
-   [Nuestras historias aparecen en forma de
    código](en_la_redacción_8.html)
-   [Kaas & Mulvad: Contenido Semi-Terminado para Grupos con
    Intereses Específicos.](en_la_redacción_9.html)
-   [Modelos de negocios para periodismo de
    datos](en_la_redacción_10.html)


## La iniciativa de periodismo de datos de ABC

La Australian Broadcasting Corporation es la difusora pĆŗblica nacional
de Australia. Sus fondos anuales son de alrededor de 1.000 millones de
dólares australianos, lo que permite sostener 7 cadenas radiales, 60
estaciones locales de radio, 3 servicios de televisión digital, un nuevo
servicio de televisión internacional y una plataforma online con esta
oferta siempre en expansión de contenido digital y generada por los
usuarios. La última cifra disponible indica que tiene mÔs de 4500
empleados de tiempo completo, y casi el 70% produce contenido.

Somos una difusora nacional muy orgullosa de nuestra independencia,
aunque con fondos del estado, por ley estamos claramente separados.
Nuestra tradición es de periodismo de servicio público independiente. La
ABC es considerada la organización de noticias mÔs confiable del país.

Estos son tiempos que entusiasman; bajo el mando de un director
ejecutivo (el ex ejecutivo del diario Mark Scott), se ha alentado a los
productores de contenido de ABC a ser ā€œĆ”gilesā€, como dice el mantra
corporativo.

Por supuesto que es mƔs fƔcil decirlo que hacerlo.

Pero la iniciativa con la que se buscaba alentar esto, ha derivado en
una competencia entre el personal por fondos para desarrollar proyectos
multi-plataforma. Así se concibió el primer proyecto de periodismo de
datos de la ABC.

En algún momento de comienzos de 2010 me metí en una sesión de
propuestas para enfrentar a 3 jefes de ā€œideasā€ con mi proyecto.

Lo habƭa estado masticando por un tiempo, llenƔndome con el periodismo
de datos que ofrecĆ­a el ya legendario Datablog de The Guardian, y eso
solo para empezar.

Mi argumento fue que no habƭa duda de que en 5 aƱos la ABC tendrƭa su
propia unidad de periodismo de datos. Era inevitable opinƩ. Pero la
cuestión era cómo llegaríamos a eso y quién iniciaría la tarea.

Aquellos lectores que no conocen la ABC deben pensar en una vasta
burocracia construida a lo largo de 70 aƱos. Su oferta primaria siempre
fue radio y televisión. Con el advenimiento de un sitio en la red, en la
última década esta oferta de contenido se extendió a textos, imÔgenes
fijas y un grado de interactividad hasta entonces inimaginada. El sitio
web estaba forzando a la ABC a repensar cómo distribuía la torta (sus
fondos) y quƩ tipo de torta estaba cocinando (contenido).

Por supuesto que es una obra en curso.

Pero otra cosa estaba pasando con el periodismo de datos. Gobierno 2.0:
(que como descubrimos se cumple habitualmente en la difusión de datos en
Australia)Ā Ā comenzaba a ofrecer nuevas maneras de narrar historias que
hasta entonces estaban escondidas en ceros y unos.\
ComentƩ todo esto a las personas que me escuchaban. TambiƩn dije que
necesitƔbamos identificar nuevos conjuntos de capacidades y formar a
periodistas en el manejo de nuevas herramientas. NecesitƔbamos un
proyecto para comenzar a andar.

Y me dieron el dinero.

El 24 de noviembre de 2011, el proyecto multiplataforma de la ABC y ABC
News Online salió en vivo con 
["Coal Seam Gas by the Numbers"](http://bit.ly/abc-coal)
(Las cifras de gas metano de carbón).

![Coal Seam Gas en nĆŗmeros (ABC News Online)](figs/incoming/02-01.png)

Se componƭa de 5 pƔginas de mapas interactivos, visualizaciones de datos
y texto.

No era exclusivamente periodismo de datos, sino un hĆ­brido de periodismo
que nació de la mezcla de gente del equipo y la historia, que ahora es
uno de los temas mƔs calientes en Australia.

La joya era un mapa interactivo que muestra yacimientos y concesiones de
gas metano de carbón en Australia. Los usuarios podían buscar por lugar
y escoger entre distintos modos para ver concesiones o yacimientos.
Usando el zoom los usuarios podƭan ver quiƩn estaba a cargo de la
exploración, la situación del yacimiento y la fecha de perforación. Otro
mapa mostraba la ubicación de la actividad en gas metano de carbono con
relación a sistemas de aguas subterrÔneas en Australia.

![Mapa interactivo de yacimientos y concesiones petroleras en Australia (ABC News Online)](figs/incoming/02-02.png)

TenĆ­amos visualizaciones de datos que especĆ­ficamente abordaban la
cuestión de la producción de desechos de sal y de agua que serían
generados de acuerdo al escenario que se diera.

Otra sección del proyecto investigó el derrame de productos químicos en
una cuenca fluvial local.

#### Nuestro equipo

  -   Un desarrollador y diseƱador de sitios en la red
  -   Un periodista a cargo
  -   Un investigador part-time con experiencia en extracción de datos,  planillas de cÔlculos Excel y depuración de datos.
  -   Un periodista part-time
  -   Un productor ejecutivo de consultor
  -   Un consultor académico con conocimientos de búsqueda de datos,  visualización de grÔficos y capacidades avanzadas de investigación.
  -   Los servicios de un gerente de proyecto y la asistencia administrativa de la unidad multiplataforma de ABC.
  -   Algo importante, también teníamos un grupo de referencia de periodistas y otros a los que consultamos según las necesidades.

#### ¿De dónde obtuvimos los datos?

Los datos para los mapas interactivos fueron obtenidos de shapefiles (un
tipo comĆŗn de archivo para datos geo-espaciales) descargados de sitios
web del Estado.

Otros datos sobre sal y agua fueron tomados de una variedad de informes.

Los datos sobre deshechos quĆ­micos se tomaron de permisos ambientales
emitidos por el Estado.

#### ¿Qué descubrimos?

"Las cifras de gas metano de carbón" era ambicioso en contenido y en
escala. Lo mƔs importante para mƭ era determinar quƩ habƭamos aprendido
y qué debíamos hacer de modo diferente la próxima vez.

El proyecto de periodismo de datos incorporó a mucha gente que
normalmente no se encuentra en ABC: en tƩrminos del vulgo, hackers.
Muchos no hablƔbamos el mismo idioma ni entendƭamos lo que el otro grupo
hace. ”El periodismo de datos revoluciona las cosas!

Las cosas prƔcticas:

  -   La ubicación del equipo en un mismo lugar. Nuestro programador y  diseñador estaban fuera del lugar y venían para reuniones. ”Esto  definitivamente no era óptimo!     Hay que poner a todos en el mismo  cuarto que los periodistas.
  -   Nuestro consultor de producción ejecutiva también estaba en otro  nivel del edificio. NecesitÔbamos estar mucho mÔs cerca, simplemente
    por la cuestión de poder pasar a verlo en cualquier momento.
  -   Escoger una historia que solo se basara en datos.

#### El cuadro grande: algunas ideas

Las grandes organizaciones de medios tienen que crear capacidad para
responder a los desafíos del periodismo de datos. Mi intuición es que
hay muchos tƩcnicos y hackers ocultos en los departamentos tƩcnicos de
los medios desesperados por salir a la luz. Por lo que necesitamos
ā€œreuniones de periodistas y hackersā€, talleres donde los geeks secretos
(como en agente secreto – se refiere a gente que domina la tĆ©cnica
informƔtica pero no tiene como trabajo las cuestiones tƩcnicas sino que
son periodistas, etc.), los periodistas mÔs jóvenes, los programadores,
y los diseƱadores salen a jugar con periodistas mƔs experimentados para
compartir conocimientos y tener orientación. Tarea: ”descargar este
conjunto de datos y atacar!

Ipso facto, el periodismo de datos es interdisciplinario. Los equipos de
periodismo de datos se componen de gente que en el pasado no habrĆ­a
trabajado junta. El espacio digital ha desdibujado las fronteras.

Vivimos en una comunidad polĆ­tica fracturada, desconfiada. El modelo de
negocios que antes generaba periodismo independiente profesional –por
imperfecto que sea- estĆ” al borde del colapso. Debemos preguntarnos,
como muchos ya lo hacemos, cómo sería el mundo sin un cuarto poder
viable. El periodista e intelectual estadounidense Walter Lippman
comentó en la dĆ©cada de ā€˜20 que ā€œse reconoce que no puede existir una
opinión pĆŗblica sana sin acceso a las noticiasā€. Esa afirmación es
igualmente vƔlida ahora. En el siglo XXI todo el mundo estƔ en la
blogósfera. Es difícil diferenciar a los periodistas profesionales del
cuentero, el mentiroso, el simulador y quiƩn defiende intereses creados.
Cualquier sitio o fuente puede hacerse pasar por creĆ­ble, bien
presentado y honesto. Las referencias confiables se mueren junto al
camino. Y en este nuevo espacio de periodismo basura, los hipervĆ­nculos
pueden llevar a los lectores interminablemente a otras fuentes mƔs
inútiles pero de aspecto brillante que no hacen mÔs que llevar de un
hipervínculo a otro en el salón digital de los espejos. El término
tĆ©cnico para esto es que el ā€œmacaneoā€ atonta el cerebro.

En el espacio digital todo el mundo es un narrador, Āæverdad? No. Si el
periodismo profesional –y con ello me refiero a aquellos que se dedican
a la narración de historias de modo ético, equilibrado, valiente en la
bĆŗsqueda de la verdad- ha de sobrevivir, entonces el oficio debe
reafirmarse en el espacio digital. El periodismo de datos es otra
herramienta con la que navegaremos el espacio digital. Es donde
mapearemos, daremos vuelta, separaremos, filtraremos, extraeremos y
veremos la historia en medio de tantos ceros y unos. En el futuro
trabajaremos junto a los hackers, los programadores, los diseƱadores. Es
una transición que requiere una seria acumulación de capacidades.
Necesitamos gerentes de noticias que entiendan la conexión entre lo
digital y el periodismo para empezar a invertir en esa construcción.


— *Wendy Carlisle, Australian Broadcasting Corporation*


## Periodismo de datos en la BBC

El tĆ©rmino ā€œperiodismo de datosā€ puede cubrir una gama de disciplinas y
se usa de modos variados en las organizaciones de noticias, por lo que
puede ser Ćŗtil definir lo que queremos decir por ā€œperiodismo de datos en
la BBC. En general el tƩrmino cubre proyectos que usan datos para hacer
una o mƔs de las siguientes cosas:

  -   Permitir al lector descubrir información que es relevante para
    sĆ­ mismo.
  -   Revelar una historia que es llamativa y antes se desconocĆ­a
  -   Ayudar al lector a entender mejor una cuestión compleja.

Estas categorĆ­as pueden superponerse, y en un medio online a menudo
pueden beneficiarse de algún nivel de visualización.

#### Que sea personal

En el sitio de BBC News hemos estado usando datos para ofrecer servicios
y herramientas para nuestros usuarios desde hace mƔs de una dƩcada.

El ejemplo mÔs consistente, que se publicó por primera vez en 1999, es
el de nuestras [tablas de liga
escolar](http://bbc.in/school-league-tables), que usan los datos
publicados anualmente por el Estado. Los lectores pueden encontrar las
escuelas locales ingresando el código postal, y compararlas con una
cantidad de indicadores. Periodistas de educación también trabajan con
el equipo de programadores rastreando las historias antes de su
publicación.

Cuando empezamos a hacer esto, no existĆ­a un sitio oficial que ofreciera
al pĆŗblico la posibilidad de explorar datos. Pero ahora que el
Departamento de Educación tiene su propio servicio nuestra tarea se
concentra mƔs en las historias que surgen de los datos.

El desafƭo en este Ɣrea debe ser dar acceso a datos en los que hay un
claro interés público. Un ejemplo reciente de un proyecto en el que
expusimos un gran conjunto de datos no disponible normalmente para el
pĆŗblico en general, fue el informe especial ["Todas las muertes en todos
los caminos"](http://bbc.in/road-deaths). Ofrecimos una bĆŗsqueda por
código postal, permitiendo a los usuarios encontrar la locación de todos
los accidentes fatales en caminos en el Reino Unido en la última década.

Visualizamos algunos de los datos y cifras principales que surgen de los
[datos policiales](http://bbc.in/police-data) y, para dar al proyecto
mƔs dinƔmica y un rostro humano, hicimos equipo con la London Ambulance
Association y BBC London radio y TV para rastrear choques en la capital
cuando sucedían. Esto se reportó [en vivo
online](http://bbc.in/road-deaths-feed), asĆ­ como vĆ­a Twitter usando el
hashtag \#crash24, y las colisiones fueron incorporadas 
[al mapa](http://bbc.in/road-deaths-map) a medida que se informaban.

#### Herramientas simples

AdemƔs de proveer maneras de explorar grandes conjuntos de datos,
tambiƩn hemos tenido Ʃxito en crear herramientas simples, que proveen
relevantes recortes de información para los usuarios. Estas herramientas
apelan a los que tienen poco tiempo y pueden no querer explorar anƔlisis
extensos. La capacidad de compartir fƔcilmente un dato personal es algo
que hemos comenzado a incorporar como estƔndar.

Un ejemplo simple de este enfoque es nuestro servicio 
[ā€œEl mundo en 7000 millones: cuĆ”l es su nĆŗmeroā€](http://bbc.in/KQsSzB) 
publicado coincidentemente con la fecha oficial en la que la población mundial
superó los 7000 millones. Ingresando su fecha de nacimiento, el usuario
podĆ­a saber que ā€œnĆŗmeroā€ fue en tĆ©rminos de la población global cuando
nació y luego compartir ese número vía Twitter o Facebook. 
La aplicación usa datos aportados por el fondo de desarrollo de la población
de la ONU. Fue muy popular y se convirtió en el vínculo mÔs usado en Facebook
en el Reino Unido en 2011.

![El mundo en 7000 millones (BBC)](figs/incoming/02-05.png)

Otro ejemplo reciente es [el calculador de presupuesto](http://bbc.in/JepssY) 
de la BBC, que permitió a los usuarios descubrir en qué medida estarÔn mejor 
o peor cuando entre en vigor el presupuesto del Tesoro, y luego compartir la cifra. Hicimos
equipo con la firma contable KPMG LLP, que nos dio los cƔlculos basados
en el presupuesto anual y entonces trabajamos duro para crear una
interface atractiva que alentara a los usuarios a completar la tarea.

#### Explotar los datos

¿Pero dónde estÔ el periodismo en todo esto? Encontrar historias en los
datos es una definición mÔs tradicional de periodismo de datos. ¿Hay una
exclusiva enterrada en la base de datos? ĀæSon precisas las cifras?
ĀæPrueban o no que existe el problema? Estas son todas preguntas que un
periodista de datos o un periodista asistido por computadora debe
hacerse. Pero puede llevar mucho tiempo estudiar un conjunto de datos
muy grande con la esperanza de encontrar algo llamativo.

En esta Ɣrea nos ha resultado mƔs productivo asociarnos con programas o
equipos de investigación que cuentan con el conocimiento experto y
tiempo para investigar una historia. El programa Panorama de actualidad
de la BBC pasó meses trabajando con el Centre for Investigative
Journalism, recogiendo datos sobre la paga en el sector pĆŗblico. El
resultado fue un documental de TV y un informe especial online, [ā€œLa
paga del sector pĆŗblico: las cifrasā€](http://bbc.in/IKPrL2), donde se
publicó todos los datos y se visualizaba con anÔlisis sector por sector.


AdemÔs de asociarnos con periodistas de investigación, tener acceso a
numerosos profesionales con conocimiento especializado es esencial.
Cuando un colega del equipo del sector de economía analizó los datos de
recortes del gasto publicados por el gobierno, llegó a la conclusión de
que los hacĆ­a aparecer mayores de lo que eran en realidad. El resultado
fue una historia exclusiva, 
[ā€œEncontrar sentido a los datosā€](http://bbc.in/LcuGFV), complementada 
por una clara [visualización](http://bbc.in/IIADrj), que ganó un premio de 
la Royal Statistical Society.

#### Comprender una cuestión

Pero el periodismo de datos no tiene por quƩ producir una exclusiva que
nadie mÔs ha descubierto. La tarea del equipo de visualización de datos
es combinar un gran diseño con una narración editorial clara para
ofrecer una experiencia convincente al usuario. Visualizaciones
atractivas de los datos apropiados pueden ser usadas para lograr una
mejor comprensión de una cuestión o historia, y frecuentemente usamos
este enfoque en nuestras narraciones en la BBC. Una tƩcnica utilizada en
[nuestro rastreador de demandantes](http://bbc.in/KF7IKU) es mostrar en
un mapa de calor la evolución de los datos con el paso del tiempo para
dar una clara visión del cambio.

El servicio de datos 
[ā€œRed de deuda de la Eurozonaā€](http://bbc.in/IIAHHI) explora la red 
interconectada de créditos entre países. Ayuda a explicar una cuestión 
complicada de un modo visual, usando color y flechas proporcionales 
combinadas con un texto claro. 
Una consideración importante es alentar al usuario a explorar el servicio 
o seguir una narrativa, sin hacerlo sentir abrumado por las cifras.

#### Visión general de un equipo

El equipo que produce periodismo de datos para el sitio de BBC News se
compone de alrededor de 20 periodistas, diseƱadores y programadores.

AdemƔs de proyectos y visualizaciones de datos, el equipo produce todas
las infografĆ­as y recursos multimedia interactivos en el sitio de
noticias. En conjunto todo esto forma parte de una colección de técnicas
de narración que llamamos periodismo visual. No tenemos gente
identificada especĆ­ficamente como periodistas de datos, pero todo el
personal de redacción del equipo tiene saber usar aplicaciones bÔsicas
de planillas de cƔlculo tales como Excel y Google Docs para analizar
datos.

Son centrales a cualquier proyecto de datos las capacidades tƩcnicas, el
asesoramiento de nuestros programadores y las capacidades de
visualización de nuestros diseñadores. Si bien todos somos en primer
lugar periodistas, diseƱadores o programadores, seguimos trabajando
fuerte para aumentar nuestra comprensión y dominio de todas las Ôreas de
conocimiento.

Los productos centrales para explorar datos son Excel, Google Docs y
Fusion Tables. El equipo tambiƩn ha usado, aunque en menor medida,
MySQL, bases de datos Access y Solr para explorar conjuntos de datos
mayores; y usó RDF y SPARQL para comenzar a analizar maneras en las que
podemos modelar eventos usando tecnologĆ­as Linked Data. Los
programadores también usan su lenguaje de programación preferido, sea
ActionScript, Python, o Perl, para reunir, analizar o desmenuzar en
general un conjunto de datos en los que podemos estar trabajando. Perl
se utiliza para parte de la edición.

Usamos Google, Bing Maps y Google Earth, junto con ArcMAP de Esri, para
explorar y visualizar datos geogrƔficos.

Para grƔficos utilizamos la Suite de Adobe incluyendo After Effects,
Illustrator, Photoshop y Flash, aunque en estos tiempos rara vez
publicamos archivos Flash en el sitio, dado que JavaScript –en
particular JQuery y otras bibliotecas de JavaScript tales como
Highcharts, Raphael y D3- cada vez mƔs cubren nuestros requisitos de
visualización.

— *Bella Hurrell and Andrew Leimdorfer, BBC*


## El equipo de aplicaciones de noticias del Chicago Tribune

El equipo de aplicaciones de noticias del Chicago Tribune es una banda
de alegres hackers incrustada en la redacción. Trabajamos en estrecha
relación con editores y periodistas para ayudar a: 1) investigar y
contar historias; 2) ilustrar historias online y 3) crear recursos de la
red siempre actualizados para la buena gente de Chicagolandia.

Es importante que estemos en la redacción. A menudo nuestro trabajo se
define en conversaciones cara a cara con periodistas. Saben que nos
gusta ayudar a escribir algo que dƩ vida a un aburrido sitio oficial,
desentraƱar una parva de PDF, o convertir de otras maneras lo que no es
datos, en algo que se pueda analizar. Es lo que ayuda a nuestro equipo a
encontrar su rumbo; de este modo nos enteramos de potenciales proyectos
de datos cuando se estƔn gestando.

A diferencia de muchos equipos en este campo, el nuestro fue fundado por
tecnólogos para quienes el periodismo fue un cambio de carrera. Algunos
adquirimos un tƭtulo de Maestrƭa en Periodismo despuƩs de pasar varios
aƱos programando para empresas, y otros vinieron de la comunidad de
gobierno abierto.

Trabajamos de modo Ɣgil. Para asegurarnos de estar siempre
sincronizados, cada mañana comienza con una reunión de 5 minutos de a
pie. Frecuentemente programamos de a pares; 2 programadores en un
teclado a menudo son mƔs productivos que 2 programadores en 2 teclados.
La mayorƭa de los proyectos no requieren mƔs que una semana de
producción, pero en proyectos mÔs largos trabajamos en iteraciones de
una semana y mostramos nuestros trabajo a los interesados (periodistas y
editores por lo general) toda las semanas. El mantra es ā€œfracasar
rĆ”pidoā€. Si uno estĆ” haciendo las cosas mal tiene que saberlo lo antes
posible, especialmente cuando se programa con un plazo fijo.

Esto de \_hackear\_de modo iterativo y con plazos tiene un aspecto
tremendamente positivo: siempre estamos actualizando nuestro set de
herramientas. Cada semana producimos 1 o 2 aplicaciones y luego, a
diferencia de los talleres normales de software, podemos sacarlo de
nuestra mente y pasar al siguiente proyecto. Es una alegrĆ­a que
compartimos con los periodistas, y cada semana podemos aprender algo
nuevo.

![El equipo de aplicaciones del The Chicago Tribune (foto por Heather Billings)](figs/incoming/02-00.jpg)

Todas las ideas de aplicaciones provienen de periodistas y editores en
la redacción. Creo que esto nos diferencia de equipos de aplicaciones de
otras redacciones, que frecuentemente producen sus propias ideas. Hemos
establecido fuertes relaciones personales y profesionales en la
redacción, y la gente sabe que cuando tiene datos viene a nosotros.

Gran parte de nuestro trabajo en la redacción es de apoyo a los
periodistas. Los ayudamos a trabajar datos, reconvertir PDF en planillas
de cƔlculo, investigamos en sitios de la red, etc. Es un servicio que
nos gusta dar porque nos permite conocer desde sus inicios el trabajo de
datos que se da en la redacción. Parte de ese trabajo se convierte en
una aplicación de noticias: un mapa, una tabla o a veces sitios de mayor
escala.

Antes vinculÔbamos la aplicación a la historia escrita, pero eso no
resultaba en demasiado trƔfico. Actualmente, las aplicaciones aparecen
cerca de la parte superior de nuestro sitio y la aplicación tiene un
link con la historia, lo que funciona bien tanto para la aplicación como
para la historia. Hay [una sección del sitio que es para nuestro
trabajo](http://www.chicagotribune.com/news/data/), pero no tiene mucho
trĆ”fico. Eso no es sorprendente. ā€œOigan, hoy quiero unos datosā€ no es
algo que se escuche muy seguido.

Nos encanta la cuenta de visitas del sitio y nos encantan las alabanzas
de nuestros pares, pero eso no es lo importante. La motivación siempre
debe ser el impacto; en la vida de la gente, en las leyes, en hacer que
los polĆ­ticos rindan cuentas y asĆ­ siguiendo. La pieza escrita habla de
la tendencia y la humaniza con unas cuantas anécdotas. ¿Pero qué hace el
lector cuando terminó de leer la historia? ¿EstÔ segura su familia? ¿Sus
hijos estƔn siendo educados adecuadamente? Nuestro trabajo da sus frutos
cuando ayuda a un lector a encontrar su propia historia en los datos.
Entre los ejemplos de trabajos impactantes y personalizados que hemos
hecho se incluyen las aplicaciones de [Informes de seguridad en
geriƔtricos](http://nursinghomes.apps.chicagotribune.com/) y el 
[BoletĆ­n de Calificaciones de Escuelas](http://schools.chicagotribune.com/).

— *Brian Boyer, Chicago Tribune*


## El detrƔs de escena del Datablog de The Guardian

Cuando lanzamos el Datablog, no tenƭamos idea a quiƩn podrƭan
interesarle los datos en crudo, las estadĆ­sticas y visualizaciones. Como
dijo un jefe en mi oficina: ā€œĀæPor quĆ© alguien querrĆ­a eso?ā€.

El [Datablog](http://www.guardian.co.uk/datablog), que yo edito, debĆ­a
ser un pequeƱo blog que ofreciera los conjuntos de datos completos que
respaldan nuestras historias periodĆ­sticas. Ahora consiste en [una
primera pÔgina](http://guardian.co.uk/data); búsquedas de datos de
gobiernos y desarrollo global; visualizaciones de datos realizadas por
artistas grƔficos de The Guardian y de toda la red, y herramientas para
explorar datos de gasto pĆŗblico. Todos los dĆ­as usamos planillas de
cƔlculos de Google para compartir los datos completos que respaldan
nuestro trabajo; visualizamos y analizamos esos datos y luego los usamos
para proveer historias para el diario y el sitio.

Como editor de noticias y periodista trabajando con grƔficos, era una
extensión lógica del trabajo que ya venía haciendo, acumulando nuevos
conjuntos de datos y batallando con ellos para tratar de encontrar
sentido a las historias de noticias del dĆ­a.

La pregunta que me hicieron fue respondida. Han sido unos aƱos
increíbles para los datos públicos. Obama abrió los archivos de datos
del gobierno de EE.UU. como primer acto legislativo, y su ejemplo pronto
fue seguido por sitios de datos gubernamentales en todo el mundo:
Australia, Nueva Zelanda y el sitio del gobierno britƔnico, Data.gov.uk.

Hemos tenido el escƔndalo de los gastos de los parlamentarios, la pieza
mƔs inesperada de periodismo de datos de Gran BretaƱa, con el resultado
de que Westminster ahora estĆ” comprometido a difundir cantidades
inmensas de datos todos los aƱos.

Tuvimos una elección general en la que cada uno de los partidos
políticos mÔs importantes se comprometió a la transparencia de datos,
abriendo nuestros propios archivos de datos al mundo. Los diarios han
dedicado valioso centimetraje a la apertura de la base de datos COINS
del Tesoro.

Al mismo tiempo, a media que la red produce mƔs y mƔs datos, los
lectores de todo el mundo estƔn mƔs interesados que nunca en los datos
en crudo detrƔs de las noticias. Cuando lanzamos el Datablog, creƭamos
que el pĆŗblico serĆ­an programadores buscando crear aplicaciones. De
hecho es gente que quiere saber mƔs sobre las emisiones de carbono,
inmigración de Europa oriental, el desglose de las muertes en
AfganistƔn, o incluso la cantidad de veces que los Beatles usaron la
palabra ā€œamorā€ en sus canciones (613).

![Visualización del proceso de producción de The Guardian Datablog (The Guardian)](figs/incoming/02-ZZ.png)

Gradualmente el trabajo del Datablog ha reflejado y enriquecido las
historias a las que nos enfrentamos. Recurrimos a la opinión del público
sobre 458.000 documentos relacionados con los gastos de los
parlamentarios y analizamos los datos detallados de lo que sostuvieron
los parlamentarios. Ayudamos a nuestros usuarios a explorar bases de
datos de gastos detalladas del Tesoro y publicamos los datos detrƔs de
las noticias.

Pero el evento que cambió el juego para el periodismo de datos se dio en
la primavera de 2010, comenzando por una hoja de cƔlculo: 92.201 filas
de datos, cada una conteniendo un desglose detallado de un evento
militar en AfganistƔn. Estos fueron los registros de guerra de
WikiLeaks. Es decir, la primera parte. Seguirƭan dos episodios mƔs: Irak
y los cables. El tƩrmino oficial para las primeras dos partes fue
SIGACTS: La Base de Datos de Acciones Significativas de las fuerzas
armadas de Estados Unidos.

Las organizaciones de noticias dependen mucho de la ubicación y la
proximidad con la mesa de noticias. Si uno estƔ cerca, es fƔcil sugerir
historias y ser parte del proceso: inversamente, no estar cerca es
literalmente ser ignorado. Antes de WikiLeaks estƔbamos en un piso
diferente, junto con el equipo de GrƔficos. Desde WikiLeaks estamos en
el mismo piso, junto a la mesa de noticias. Significa que es mƔs fƔcil
para nosotros sugerir ideas a la mesa de noticias, y para los
periodistas al otro lado de la redacción pensar en nosotros para que los
ayudemos con historias.

No hace mucho los periodistas eran quienes controlaban el acceso a los
datos oficiales. EscribĆ­amos historias sobre las cifras y se las
transmitĆ­amos a un pĆŗblico agradecido que no estaba interesado en las
estadísticas en bruto. La idea de incorporar información en crudo a
nuestros diarios era anatema.

Ahora la dinƔmica ha cambiado hasta el punto de resultar irreconocible.
Nuestro rol se estƔ convirtiendo en el de intƩrpretes; ayudar a la gente
a comprender los datos e incluso publicarlos porque son interesantes por
sĆ­ mismos.

Pero las cifras sin anÔlisis son sólo números, que es donde encajamos
nosotros. Cuando el primer ministro de Gran BretaƱa sostuvo que los
desmanes de agosto de 2011 no tuvieron nada que ver con la pobreza,
pudimos cruzar el lugar de residencia de los que hicieron los desmanes
con los indicadores de pobreza para mostrar la verdad.

DetrƔs de todas nuestras historias de periodismo de datos hay un
proceso. EstĆ” cambiando permanentemente, a medida que vamos usando
nuevas herramientas y tƩcnicas. Alguna gente dice que la respuesta es
convertirse en una especie de sĆŗper hacker, escribir programas y
sumergirse en SQL. Uno puede tener esa postura. Pero gran parte del
trabajo que hacemos es con Excel.

Primero ubicamos los datos o los recibimos de una variedad de fuentes,
de historias de noticias nuevas, datos oficiales, investigaciones de
periodistas y asƭ en mƔs. Entonces comenzamos a ver quƩ podemos hacer
con los datos; Āænecesitamos combinarlos con otro conjunto de datos?
¿Cómo podemos mostrar cambios a lo largo del tiempo? Esas planillas de
cƔlculo a menudo tienen que ser muy depuradas, porque todas esas
columnas extraƱas y celdas fusionadas de modos raros no ayudan a
comprender la información. Y eso suponiendo que no es un PDF, el peor
formato de datos conocido por la humanidad.

A menudo los datos oficiales vienen con códigos oficiales agregados;
cada escuela, hospital, sector, y municipalidad tiene un código de
identificación.

Los países también los tienen (el código del Reino Unido por ejemplo es
GB). Son Ćŗtiles porque uno podrĆ­a querer cruzar conjuntos de datos, y es
sorprendente la cantidad de formas de escribir las cosas y arreglos de
palabras que pueden trabar eso. EstĆ” Birmania y Myanmar, por ejemplo, o
Fayette County en Estados Unidos (hay 11 de ellas en estados que van de
Georgia a Virginia Occidental). Los códigos nos permiten comparar las
cosas comparables.

Al final del proceso estÔ el producto: ¿serÔ una historia o un grÔfico o
una visualización y qué herramientas usaremos? Nuestras principales
herramientas son las gratuitas con las que podemos producir algo
rƔpidamente. Los grƔficos mƔs sofisticados son producidos por nuestro
equipo de desarrollo.

Esto significa que comúnmente usamos los Google Charts para pequeños
grƔficos y tortas lineales, o Google Fusion Tables para crear mapas de
modo rƔpido y fƔcil.

Puede parecer algo nuevo pero no lo es.

En la primera edición del Manchester Guardian (el sÔbado 5 de mayo de
1821), las noticias estaban en la pƔgina trasera, como en todos los
diarios de aquellos tiempos. El primer Ć­tem en la primera plana era un
aviso de un perro labrador perdido.

Entre las historias y las citas de poemas, un tercio de la contratapa
estĆ” ocupado con datos. Una tabla completa de los costos de escuelas en
la zona nunca antes ā€œpresentados al pĆŗblicoā€, escribe ā€œNHā€.

NH querƭa que se publicaran sus datos porque de otro modo eclesiƔsticos
sin formación informarĆ­an sobre los mismos. Su motivación era que ā€œla
información que contiene es valiosa; porque si no se sabe en qué medida
se extiende la educación… las opiniones que puedan formarse sobre la
condición y el progreso futuro de la sociedad serÔn necesariamente
incorrectasā€. Dicho de otro modo, si la gente no sabe lo que pasa, Āæcómo
puede mejorar la sociedad?

No se me ocurre mejor justificación de lo que estamos tratando de hacer
ahora. Lo que hace un tiempo era una historia para la última pÔgina,
ahora puede estar en primera plana.

— *Simon Rogers, the Guardian*


## Periodismo de datos en el Zeit Online

El proyecto [PISA based Wealth Comparison](http://bit.ly/Pisa_Wealth)
(Comparación de Riqueza basada en PISA, es una visualización interactiva
que permite la comparación de niveles de vida en diferentes países.
Utiliza datos del informe de calificación de educación en el mundo,
[PISA 2009](http://bit.ly/Pisa_2009), publicado en diciembre de 2010. El
informe se basa en un cuestionario que interroga a estudiantes de 15
años sobre su situación de vida en el hogar.

La idea era analizar y visualizar estos datos para ofrecer una manera
única de comparar los estÔndares de vida en distintos países.

![Comparación de riqueza basada en PISA (Zeit Online)](figs/incoming/02-03-AA.png)

Primero, nuestro equipo editorial decidió qué datos parecían útiles para
hacer comparables los niveles de vida y debĆ­an visualizarse, incluyendo:

-   Riqueza (cantidad de TV, autos y baƱos disponibles en el hogar)
-   Situación familiar (si hay abuelos viviendo con la familia,
    porcentaje de familias con solo un hijo, desempleo de los padres y
    el status laboral de la madre)
-   Acceso a fuentes de conocimiento (Internet en el hogar, frecuencia
    de uso de correo electrónico y cantidad de libros que son de
    propiedad de la familia)
-   3 indicadores adicionales sobre el nivel de desarrollo de cada paĆ­s.

Con la ayuda del equipo de diseƱo, estos datos fueron traducidos a
íconos explícitos. Se creó un diseño de *front-end* para hacer posible
la comparación entre los distintos países viéndolos como si fueran
cartas de juego.

A continuación contactamos gente de la [Open Data
Network](http://opendata-network.org/) de Alemania para encontrar
programadores dispuestos a ayudar con el proyecto. Esta comunidad de
gente altamente motivada sugirió a Gregor Aisch, como diseñador de
información muy talentoso, para que programara la aplicación que haría
realidad nuestros sueƱos (sin usar Flash, lo que era muy importante para
nosotros).

Gregor creó una visualización de muy alta calidad e interactiva, con un
hermoso estilo de burbuja basado en la 
[Raphaƫl-Javascript Library](http://raphaeljs.com/).

El resultado de nuestra colaboración fue un interactivo muy exitoso que
tuvo mucho trƔfico. Es fƔcil comparar dos paƭses cualesquiera, lo que lo
hace Ćŗtil como herramienta de referencia. Eso significa que podemos
volver a utilizarlo en nuestra tarea editorial diaria. Por ejemplo, si
estamos cubriendo algo relacionado con las condiciones de vida en
Indonesia, podemos rƔpida y fƔcilmente incrustar [un grƔfico comparando
las condiciones de vida en Indonesia y
Alemania](http://bit.ly/Pisa_Indonesia_Germany)). El conocimiento
transferido a nuestro equipo fue una gran inversión para proyectos
futuros.

En el Zeit Online encontramos que 
[nuestros proyectos de periodismo de datos](http://www.zeit.de/datenjournalismus) 
nos han traído mucho trÔfico y han ayudado a atraer al público de nuevas maneras. 
Por ejemplo, hubo mucha cobertura de la situación de la planta nuclear en
Fukushima luego del tsunami en Japón. Luego de que material radioactivo
escapara de la usina, todos fueron evacuados en un radio de 30
kilómetros de la planta. La gente pudo leer y ver muchas cosas sobre la
evacuación. Zeit Online encontró una manera innovadora de explicar el
impacto de ésto para nuestro público alemÔn. Preguntamos: ¿CuÔnta gente
vive cerca de una planta nuclear en Alemania? ¿CuÔnta gente vive dentro
de un radio de 30 kilómetros? [Un mapa](http://bit.ly/near_nuclear)
muestra cuanta gente tendría que ser evacuada en una situación similar
en Alemania. El resultado: mucho trƔfico; de hecho el proyecto se
expandió como un virus en los medios sociales. Los proyectos de
periodismo de datos pueden ser adaptados con relativa facilidad a otros
idiomas. Creamos una versión en idioma inglés respecto de la proximidad
de las plantas nucleares en Estados Unidos, lo que fue un gran generador
de trƔfico. Las organizaciones de noticias quieren ser reconocidas como
fuentes confiables y autorizadas entre sus lectores. Encontramos que los
proyectos de periodismo de datos combinados con permitir a nuestros
lectores ver y volver a utilizar los datos en bruto nos da un alto grado
de credibilidad.

Por dos años el departamento de Investigación y Desarrollo yel Editor en
Jefe del Zeit Online, Wolfgang Blau, han estado promoviendo el
periodismo de datos como una manera importante de narrar historias. La
transparencia, la credibilidad y la atracción de los usuarios son partes
importantes de nuestra filosofĆ­a. Por eso el periodismo de datos es una
parte natural de nuestro trabajo actual y futuro. Las visualizaciones de
datos pueden aportar valor a la recepción de una historia, y son un modo
atractivo de que todo el equipo editorial presente su contenido.

Por ejemplo, el 9 de noviembre de 2011 el Deutsche Bank se comprometió a
dejar de financiar a los fabricantes de bombas de racimo. Pero segĆŗn un
estudio de una organización sin fines de lucro Facing Finance, el banco
siguió aprobando créditos a productores de bombas de racimo después de
hacer esa promesa. 
[Otras visualizaciones](http://zeit.de/wirtschaft/cluster-munition) basadas en
los datos muestran a nuestros lectores los diferentes flujos de dinero.
Las distintas partes del Deutsche Bank estƔn ordenadas en la parte de
arriba, y las compañías acusadas de estar involucradas en la fabricación
de bombas de racimo, abajo. En el medio se representan los crƩditos
individuales siguiendo la lĆ­nea temporal. Cuando se giran los cĆ­rculos
se ven los detalles de cada transacción. Por supuesto que se hubiera
podido contar la historia por medio de un artĆ­culo escrito. Pero la
visualización permite a nuestros lectores comprender y explorar las
dependencias financieras de modo mƔs intuitivo.

![El negocio de las bombas (Zeit Online)](figs/incoming/02-03-DD.png)

Otro ejemplo: la Oficina Alemana Federal de EstadĆ­sticas ha publicado
[un gran conjunto de datos](https://www.destatis.de/EN/Homepage.html)
sobre estadĆ­sticas vitales para Alemania, incluyendo el modelado de
[varios escenarios demogrƔficos hasta 2060](http://bit.ly/German_Federal_Statistics). 
La manera tƭpica de representar esto es una [pirƔmide
poblacional](https://www.destatis.de/bevoelkerungspyramide/), tal como
la de la Agencia Federal de EstadĆ­sticas.

Con nuestros colegas del departamento de Ciencias, intentamos dar a
nuestros lectores una mejor manera de explorar los datos demogrƔficos
proyectados, respecto de nuestra sociedad futura. Con 
[nuestra visualización](http://www.zeit.de/wissen/altersstruktur) presentamos un
grupo estadĆ­sticamente representativo de 40 personas de distintas edades
desde los aƱos 1950 hasta 2060. EstƔn organizadas en 8 grupos
diferentes. Se ve como una foto grupal de la sociedad alemana en
distintos momentos. Los mismos datos visualizados en una pirƔmide
poblacional tradicional da solo una visión muy abstracta de la
situación, pero un grupo con chicos, gente joven, adultos, y gente mayor
significa que los lectores pueden relacionarse mƔs fƔcilmente con los
datos. Basta tocar el botón de play para iniciar un viaje a través de
once dƩcadas. TambiƩn puede ingresar su propio aƱo de nacimiento y su
gƩnero para convertirse en parte de la foto grupal: podrƔ ver su propio
viaje demogrƔfico a travƩs de las dƩcadas y su propia expectativa de
vida.

— *Sascha Venohr, Zeit Online*

![Visualización de datos demogrÔficos (Zeit Online)](figs/incoming/02-03-CC.png)

## Cómo contratar un hacker

Una de las cosas que me preguntan regularmente los periodistas es cómo
consigo un programador que me ayude con mis proyectos. No se engaƱe
pensando que este es un proceso en una sola dirección; los hackers con
preocupaciones sociales y los analistas de datos a menudo estƔn
igualmente interesados en tomar contacto con periodistas.

Los periodistas son usuarios poderosos de herramientas y servicios
basados en datos. Desde la perspectiva de los programadores, los
periodistas piensan sin esquemas para usar herramientas de datos en
contextos que los programadores no siempre tomaron en cuenta (la
retroalimentación es invalorable). También ayudan a crear contexto e
interƩs por proyectos, y ayudan a hacer que sean relevantes. Es una
relación simbiótica.

Por fortuna, esto significa que, estƩ pensando en contratar un hacker, o
solo busque colaboración con un presupuesto muy restringido, es mÔs que
probable que haya alguien interesado en ayudarlo.

¿Entonces cómo se los encuentra? Dice Aron Pilhofer de The New York
Times:

QuizÔs se encuentre con que su organización ya tiene gente con las
capacidades que necesita, pero no necesariamente se encuentran en su
sala de redacción. Visite los departamentos de tecnología y TI, y es
probable que encuentre oro. TambiƩn es importante apreciar la cultura de
los programadores: si encuentra a alguien que tiene una computadora que
se ve como la de la Figura 2-9 probablemente tenga un ganador.

![Marca del honor: los hackers a menudo son fƔciles de descubrir (foto por Lucy Chambers)](figs/incoming/02-04.jpg)

Algunas ideas mƔs:

  Coloque avisos en sitios de la red que ofrecen puestos de trabajo 
:   Identifique y coloque avisos en sitios que apuntan a programadores
    que trabajan en distintos lenguajes. Por ejemplo, [el Python
    Job Board.](http://www.python.org/community/jobs/)

 Listas de correo relevantes para contactos 
:   Por ejemplo las listas de correo
    [NICAR-L](http://bit.ly/nicar-subscribe) y [Data
    Driven Journalism.](http://bit.ly/ddj-list)

 Organizaciones relevantes para contactos 
:   Por ejemplo, si quiere buscar datos en la red, puede contactar una
    organización como [Scraperwiki](https://scraperwiki.com/) que tienen
    un gran directorio de programadores confiables y dispuestos.

 SĆŗmese a grupos/redes relevantes 

:   EstƩ atento a iniciativas tales como
    [HACKS/HACKERS](http://hackshackers.com/) que reĆŗnen a periodistas
    y tƩcnicos. Ahora estƔn surgiendo grupos de Hacks/Hackers en todo
    el mundo. TambiƩn podrƭa intentar publicar algo en su [newsletter de
    bĆŗesqueda de empleo](http://bit.ly/hacks-hackers-jobs).

 Comunidades de intereses locales 

:   Puede intentar hacer una búsqueda rÔpida de expertos en determinada
    cuestión en su zona (por ejemplo ā€œjava-scriptā€ + ā€œLondonā€). Sitios
    tales como Meetup.com tambiƩn pueden ser un gran punto de partida.

 Hackatones y competencias 

:   Haya o no dinero de premio involucrado, competencias de aplicaciones
    y visualizaciones, y días de programación a menudo son un terreno
    fƩrtil para colaboraciones y lograr contactos.

 Pregunte a un tƩcnico 

:   Los tƩcnicos se juntan con otros tƩcnicos. El boca a boca es siempre
    una buena manera de encontrar buena gente para trabajar.

— *Lucy Chambers, Open Knowledge Foundation*

Las capacidades de los hackers

Una vez que se encuentra un hacker, ¿cómo se sabe si es bueno? Le
preguntamos a Alastair Dant de The Guardian cómo descubrir uno bueno:

 Hacen de todo 

:   Cuando hay que cumplir un plazo de entrega es mejor contar con
    alguien que maneja todas las alternativas, antes que con un maestro
    especializado en un recurso. Las aplicaciones de noticias requieren
    manejo de datos, grƔficos dinƔmicos y audacia.

 Ven todo el cuadro 

:   El pensamiento holĆ­stico le da prioridad al valor narrativo por
    sobre el detalle tƩcnico. Prefiero escuchar una nota tocada con
    sentimiento que el virtuosismo sin fin en escalas oscuras. Averigüe
    si a la persona la hace feliz trabajar junto a un diagramador.

 Saben contar una historia 

:   La presentación narrativa requiere ordenar las cosas en el espacio y
    el tiempo. Averigüe cual es el proyecto del que se siente mÔs
    orgulloso, y pídale que le diga cómo fue creado; esto revelarÔ tanto
    su capacidad de comunicación como su manejo técnico.

 Hablan de las cosas que van a hacer 

:   Crear cosas rƔpidamente requiere de equipos mixtos trabajando hacia
    metas comunes. Cada participante debe respetar a sus compaƱeros y
    estar dispuesto a negociar. Los obstƔculos no previstos a menudo
    requieren ajustes de planes rƔpidos y concesiones colectivas.

 Se autoeducan 

:   La tecnologƭa evoluciona rƔpidamente. Es una lucha mantenerse al
    dĆ­a. Habiendo conocido programadores con todo tipo de antecedentes,
    el rasgo mÔs común es la disposición a aprender cosas nuevas cuando
    se necesita.

— *Lucy Chambers, Open Knowledge Foundation, entrevista con Alastair
Dant, Lead Interactive Technologist, the Guardian*

Cómo encontrar el programador de sus sueños

La diferencia de productividad entre un programador bueno y uno
extraordinario no es lineal, es exponencial. Contratar bien es
extremadamente importante. Desgraciadamente, contratar bien es muy
difĆ­cil. Es bastante difĆ­cil evaluar candidatos si uno no es un gerente
tƩcnico con experiencia. A eso hay que agregar los sueldos que las
organizaciones de noticias pueden pagar y entonces es todo un desafĆ­o.

En el Tribune, reclutamos con dos Ɣngulos: el atractivo emotivo y el
atractivo tƩcnico. El atractivo emocional es que el periodismo es
esencial para que una democracia funcione. Si trabaja aquĆ­ puede cambiar
el mundo. TƩcnicamente, promocionamos todo lo que puede aprender.
Nuestros proyectos son pequeƱos, rƔpidos e iterativos. Cada proyecto
tiene un nuevo conjunto de herramientas, un nuevo idioma, un nuevo
tópico (seguridad anti incendios, el sistema jubilatorio) que debe
aprender. La redacción es un cruce de caminos. Nunca dirigí un equipo
que haya aprendido tanto y tan rƔpido como nuestro equipo.

En cuanto a donde buscar, hemos tenido mucha suerte encontrando grandes
hackers en la comunidad de gobierno abierto. La lista de correo Sunlight
Labs es donde los locos por la tecnologĆ­a que quieren hacer el bien, y
tienen empleos aburridos, se encuentran por la noche. Otro recurso
potencial es Code for America. Cada aƱo un grupo de individuos emergen
de CfA buscando su siguiente gran proyecto. A esto se agrega que CfA
tienen un proceso de selección riguroso; ya han evaluado los candidatos
por usted. Hoy en día los periodistas interesados en programación
tambiƩn salen de las escuelas de periodismo. EstƔn verdes tienen
toneladas de potencial.

Por Ćŗltimo, no basta con contratar programadores. Se necesita gerencia
tƩcnica. Un programador solitario (especialmente si acaba de salir de la
escuela de periodismo sin experiencia de trabajo) va a tomar muchas
malas decisiones. Incluso el mejor programador, si se lo deja solo,
optarƔ por trabajo tƩcnicamente interesante, por sobre lo que es mƔs
importante para su pĆŗblico.

Llame a este puesto Editor de aplicaciones de noticias, gerente de
proyecto, lo que sea. Al igual que los redactores, los programadores
necesitan editores, mentores, y alguien que los apure para que tengan el
software listo a tiempo.

— *Brian Boyer, Chicago Tribune*


## Ayuda externa de expertos a travƩs de hackatones

En marzo de 2010, la organización SETUP de cultura digital con sede en
Utrecht organizó un evento llamado [Hacking
Journalism](http://setup.nl/content/hacking-journalism). El evento fue
organizado para alentar una mayor colaboración entre programadores y
periodistas.

ā€œOrganizamos hackatones para producir aplicaciones atractivas, pero no
podemos reconocer historias interesantes en los datos. Lo que creamos no
tiene relevancia socialā€ dijeron los programadores. ā€œReconocemos la
importancia de periodismo de datos, pero no tenemos las capacidades
tĆ©cnicas para crear las cosas que queremosā€, dijeron los periodistas.

![Periodistas y programadores en RegioHack (foto de Heinze Havinga)](figs/incoming/02-XY.jpg)

Trabajando para un diario regional no habĆ­a dinero o incentivos para
contratar un programador para la redacción. El periodismo de datos
seguĆ­a siendo algo desconocido para los diarios holandeses en aquel
tiempo.

El modelo de hackatones era perfecto; un ambiente relajado para
colaboración, con abundante pizza y bebidas energizantes.
[RegioHack](http://www.regiohack.nl/) fue un hackatón organizado por mi
empleador, el diario regional [De Stentor](http://www.destentor.nl/),
nuestra publicación hermana [TC Tubantia](http://www.tctubantia.nl/) y
[Saxion Hogescholen Enschede](http://saxion.nl/) que ofreció el lugar
para el evento.

La organización era así: todos podían anotarse para un hackatón de 30
horas. Nosotros dƔbamos la comida y las bebidas. ApuntƔbamos a 30
participantes, que dividimos en 6 grupos. Estos grupos se concentrarĆ­an
en distintos tópicos, tales como crimen, salud, transporte, seguridad,
envejecimiento y poder. Para nosotros, los 3 objetivos principales para
este evento eran los siguientes:

 Encontrar historias 

:   Para nosotros el periodismo de datos es algo nuevo y desconocido. La
    única manera que podemos demostrar su utilidad es a través de
    historias bien armadas. Planeamos producir al menos 3 historias de
    datos.

 Conectar gente 

:   Nosotros los periodistas no sabemos cómo se hace periodismo de datos
    y no pretendemos saberlo. Al colocar periodistas, estudiantes y
    programadores en un cuarto por 30 horas, queremos que compartan
    conocimientos y visiones.

 Organizar un evento social 

:   Los diarios no organizan muchos eventos sociales, ni hablemos de
    hackatones. Queríamos experimentar cómo un evento de esas
    caracterĆ­sticas puede dar resultados. De hecho hubiera podido ser
    incómodo: 30 horas con extraños, mucha jerga, golpearse la cabeza
    contra preguntas bƔsicas y encontrar el terreno en el que cada uno
    se siente cómodo. Al convertirlo en un evento social (la pizza y las
    bebidas energizantes), querĆ­amos crear un ambiente en el que
    periodistas y programadores pudieran sentirse cómodos y colaborar
    efectivamente.

Antes del evento, TC Tubantia realizó una entrevista con la viuda de un
policía que escribió un libro sobre los años de servicio de su marido.
TambiƩn tenƭa un documento con todos los asesinatos registrados en la
parte este de Holanda, mantenido por su marido desde 1945. Normalmente,
publicarĆ­amos este documento en nuestro sitio. Esta vez hicimos un
[tablero usando el software Tableau](http://bit.ly/tableau-dashboard).
TambiƩn [escribimos en el blog](http://bit.ly/regiohack-blog) acerca de
cómo se juntó todo esto en nuestro sitio RegioHack.

Durante el hackatón, un grupo de proyecto abordó el tema del desarrollo
de escuelas y el envejecimiento de nuestra región. Al hacer una
[visualización de proyecciones futuras](http://bit.ly/tableau-workbook)
vimos quƩ ciudades estarƭan en problemas luego de unos aƱos de caƭda de
la matrĆ­cula. Teniendo esto presente, hicimos un artĆ­culo sobre la
manera en que esto afectaría las escuelas en nuestra región.

TambiƩn iniciamos un proyecto muy ambicioso llamado De Tweehondererd van
twente (en espaƱol Los Doscientos de Twente) para determinar quiƩn tenƭa
mÔs poder en nuestra región y crear una base de datos de la gente mÔs
influyente. A travĆ©s de un cĆ”lculo al estilo Google –quien tiene la
mayor cantidad de vĆ­nculos con organizaciones poderosas- se compondrĆ”
una lista de gente influyente. Esto podrĆ­a llevar a una serie de
artƭculos, pero tambiƩn es una herramienta poderosa para periodistas.
¿Quién tiene vínculos con quién? Se puede hacer preguntas a esta base de
datos y usarla en la rutina diaria. AdemƔs, esta base de datos tiene
valor cultural. Los artistas ya preguntaban si podĆ­an usar esta base de
datos cuando estuviera terminada, para hacer instalaciones de arte
interactivo.

![Nuevas comunidades en torno al periodismo de datos (foto por Heinze Havinga)](figs/incoming/02-YY.jpg)

Luego de RegioHack, advertimos que los periodistas consideraban al
periodismo de datos como una adición viable al periodismo tradicional.
Mis colegas siguieron usando y creando en base a las tƩcnicas aprendidas
ese dƭa para generar proyectos mƔs ambiciosos y tƩcnicos, tales como una
base de datos de los costos administrativos de la construcción de
viviendas. Con estos datos, hice un [mapa interactivo en Fusion
Tables](http://bit.ly/stentor-map). Pedimos a nuestros lectores que
jugaran con los datos y obtuvimos los resultados [con la colaboración de
la audiencia (crowdsourcing)](http://bit.ly/scratchbook-crowdsourcing),
por ejemplo. Luego de recibir muchas preguntas respecto de cómo se hace
un mapa en Fusion Tables, tambiƩn grabƩ 
[un video tutorial](http://bit.ly/vermanen-video).

¿Qué aprendimos? Aprendimos mucho, pero también encontramos muchos
obstƔculos. Reconocimos estos 4:

 ¿Por dónde comenzar, pregunta o datos? 

:   Casi todos los proyectos se trababan en la búsqueda de información.
    En la mayorĆ­a de los casos comenzaban con una pregunta periodĆ­stica.
    ¿Y entonces? ¿Qué datos hay disponibles? ¿Dónde pueden encontrarse?
    ¿Y cuando encuentre estos datos podré responder su pregunta? Los
    periodistas por lo general saben dónde pueden encontrar información
    cuando investigan para un artĆ­culo. En el periodismo de datos, la
    mayoría de los periodistas no saben qué información estÔ disponible.

 Poco conocimiento tƩcnico 

:   El periodismo de datos es una disciplina bastante tƩcnica. A veces
    hay que filtrar, otras veces hay que hacer algo de programación para
    ver los resultados. Para hacer periodismo de datos se necesitan dos
    cosas: la visión periodística de un periodista experimentado y el
    conocimiento tƩcnico de alguien que maneje todas las tƩcnicas
    digitales. Durante RegioHack esta no era una presencia comĆŗn.

 ĀæEs noticia? 

:   Los participantes usaron principalmente un conjunto de datos para
    descubrir noticias, en vez de buscar interconexiones entre distintas
    fuentes. El motivo de esto es que se necesita algo de conocimiento
    estadĆ­stico para verificar noticias del periodismo de datos.

 ¿Cómo es la rutina? 

:   Todo lo anterior se resume en que no hay rutina. Los participantes
    tienen algunas capacidades pero no saben cómo, ni cuÔndo usarlas.
    Uno de los periodistas lo comparó con hacer una torta. ā€œTenemos los
    ingredientes: harina, huevos, leche, etcƩtera. Lo tiramos en una
    bolsa, la sacudimos y esperamos que salga una tortaā€. Tenemos todos
    los ingredientes, pero no conocemos la receta.

¿Y ahora qué hacemos? Nuestras primeras experiencias con el periodismo
de datos podrĆ­an ayudar a otros periodistas o programadores que aspiren
a ingresar en el mismo campo de trabajo, y estamos trabajando para
producir un informe.

También estamos considerando cómo continuar RegioHack en forma de
hackatón. Nos resultó divertido, educativo y productivo, y una gran
introducción al periodismo de datos.

Pero para que el periodismo de datos funcione tenemos que integrarlo en
la redacción. Los periodistas tienen que pensar en datos, ademÔs de
citas, declaraciones de prensa, reuniones de consejos, etc. Al hacer
RegioHack demostramos a nuestro pĆŗblico que el periodismo de datos no
son solo palabras. Podemos escribir artƭculos mejor informados y mƔs
claros, presentando a los lectores artĆ­culos diferentes impresos y
online.

— *Jerry Vermanen, NU.nl*


## Seguir el rastro del dinero: colaboración internacional

Los periodistas de investigación y los ciudadanos interesados en
descubrir el crimen organizado y la corrupción que afecta las vidas de
miles de millones en todo el mundo cada dĆ­a que pasa tienen acceso sin
precedentes a información. Gobiernos y otras organizaciones colocan
inmensos volĆŗmenes de datos online y parece que la tan necesaria
información estÔ cada vez mÔs al alcance de todos. Pero, al mismo
tiempo, funcionarios corruptos en gobiernos y grupos del crimen
organizado estÔn haciendo todo lo que pueden para ocultar información
para que no se conozcan sus crĆ­menes. Se esfuerzan por mantener a la
gente a oscuras mientras concretan negocios sucios que causan problemas
a la sociedad, en todos sus niveles, y llevan a conflictos, hambrunas u
otras crisis.

Es el deber de los periodistas investigadores exponer tales faltas y, al
hacerlo, trabar los mecanismos corruptos y criminales.

![El Tablero Investigativo (OCCRP)](figs/incoming/02-RR.png)

Hay 3 guĆ­as principales que, si se siguen, pueden llevar a un buen
periodismo cuando se investigan grandes actos de corrupción y
criminales, incluso en los medios mƔs austeros:

 Piense en buscar fuera de su paĆ­s 

:   En muchas instancias es mucho mÔs fÔcil obtener información del
    extranjero que dentro del paĆ­s en el que opera el periodista de
    investigación. La información obtenida del extranjero vía bases de
    datos de otros países o usando las leyes de acceso a la información
    de otras naciones puede ser justo lo que necesita para armar el
    rompecabezas investigativo. AdemƔs, los criminales y los
    funcionarios corruptos no guardan su dinero en el lugar de donde lo
    robaron. Prefieren depositarlo en bancos extranjeros o invertirlo en
    otros paĆ­ses. El crimen es global. Las bases de datos que ayudan al
    periodista de investigación a rastrear dinero en todo el mundo
    pueden encontrarse en muchos lugares en Internet. Por ejemplo, 
    [el Investigative Dashboard](http://www.investigativedashboard.org/category/wwd/)
    permite a los periodistas seguir el rastro del dinero entre paĆ­ses.

 Haga uso de redes periodísticas de investigación existentes 

:   Periodistas de investigación de todo el mundo se agrupan en
    organizaciones tales como [The Organized Crime and Corruption
    Reporting Project](http://www.reportingproject.net/), [The African
    Forum for Investigative Reporting](http://www.fairreporters.org/),
    [The Arab Reporters for Investigative Journalism](http://arij.net/) y 
    [The Global investigative Journalism Network](http://www.gijn.org/). 
    Los periodistas tambiƩn pueden usar plataformas de periodismo profesional
    tales como IJNet, donde se intercambia información global relacionada con
    periodismo todos los dĆ­as. 
    Muchos de los periodistas agrupados en redes trabajan en
    cuestiones similares y enfrentan situaciones similares, por lo que
    tiene mucho sentido intercambiar información y métodos. Hay listas
    de correo electrónico o grupos de redes sociales vinculados a estas
    redes, por lo que es fƔcil tomar contacto con colegas periodistas
    para pedir información o consejos. También pueden obtener ideas para
    historias a investigar en tales foros y listas de correo
    electrónico.

 Hacer uso de la tecnologĆ­a y colaborar con hackers 

:   El software ayuda a los periodistas de investigación a acceder y
    procesar información. Varios tipos de software ayudan al
    investigador a no dejarse distraer por el ruido, a buscar y
    encontrar sentido a grandes volĆŗmenes de datos y a encontrar los
    documentos indicados para descubrir la historia. Hay muchos
    programas de software que pueden usarse como herramientas para
    analizar, recoger o interpretar información y, lo que es mÔs
    importante, los periodistas de investigación tienen que ser
    conscientes de que hay cantidades de programadores dispuestos a
    ayudar si se les pide. Estos programadores o hackers saben cómo
    obtener y manejar información y pueden ayudar mucho con el esfuerzo
    investigativo. Estos programadores, algunos de ellos miembros de
    movimientos globales en favor de la apertura de los datos, pueden
    convertirse en aliados invalorables en la lucha contra el crimen y
    la corrupción, son capaces de asistir a los periodistas en la
    recolección y anÔlisis de la información.

Un buen ejemplo de una interfaz entre programadores y ciudadanos es
[ScraperWiki](https://scraperwiki.com/), un sitio en el que los
periodistas pueden pedir ayuda a programadores en la extracción de datos
de sitios en la red. Investigative Dashboard tiene una [lista de
herramientas listas para usar](http://bit.ly/dashboard-resources) que
podrĆ­an ayudar a los periodistas a recoger, dar forma y analizar datos.

La utilidad de las guĆ­as mencionadas se ha hecho visible en muchas
instancias. Un buen ejemplo es el trabajo de Khadija Ismayilova, una
reportera de investigación Azerí muy experimentada que trabaja en un
medio austero en lo que se refiere a acceso a información. Ismayilova ha
superado obstÔculos diariamente para ofrecer al público azerí
información buena y confiable. En junio de 2001, Khadija Ismayilova, que
trabajaba en la oficina de Baku Radio Europa Libre/Radio Libertad
(conocida por las siglas RFE/RL), informó que las hijas del presidente
Azerƭ, Ilham Aliyev, manejaban secretamente una compaƱƭa de
telecomunicaciones en rƔpido ascenso, Azerfon, a travƩs de compaƱƭas
offshore con sede en PanamƔ. La compaƱƭa tiene casi 1.700.000 de
suscriptores, cubre el 80 por ciento del territorio del paĆ­s, y (en
aquel tiempo) era el único proveedor de servicios 3G para AzerbaijÔn.
Ismayilova pasó 3 años tratando de descubrir quienes eran los dueños de
la compaƱƭa de telecomunicaciones, pero el gobierno se negaba a dar
información sobre los accionistas y mintió numerosas veces sobre sus
dueƱos. Incluso llegaron a decir que la compaƱƭa era propiedad de
Siemens AG con sede en Alemania, cosa que ha sido negada directamente
por esa corporación. La reportera azerí logró descubrir que Azerfon era
propiedad de unas cuantas compaƱƭas privadas con sede en PanamƔ. Esto
pareció ser una vía muerta para su informe hasta que recibió ayuda del
exterior. A comienzos de 2011 Ismayilova supo a travƩs del Investigative
Dashboard que las compaƱƭas con sede en PanamƔ pueden ser rastreadas a
través de [una aplicación](http://ohuiginn.net/panama/) desarrollada por
el programador y activista Dan O’Huiginn. Con esta herramienta
finalmente logró sacar a luz el hecho de que las dos hijas del
presidente estaban involucradas en la compaƱƭa de telecomunicaciones a
travƩs de las empresas con sede en PanamƔ.

O’Huiginn creó una herramienta que ayudó a periodistas de todo el mundo
a informar sobre corrupción: PanamÔ, un paraíso offshore bien conocido,
ha sido ampliamente utilizado por varios funcionarios corruptos como un
lugar para ocultar dinero robado (desde compinches del ex presidente
egipcio Hosni Mubarak hasta funcionarios sucios de los Balcanes o en
AmƩrica Latina). Lo que el programador-activista ha hecho se conoce como
*scraping* (literalmente raspado y que se traduce como extraer datos, n.
del t.) de la red: un método que permite la extracción y el reordenado
de información para que pueda ser usada por investigadores. O’Huiginn
extrajo información del [registro de compañías de
PanamĆ”](http://www.registro-publico.gob.pa/) porque este registro,
aunque abierto solo permite búsquedas si el periodista de investigación
conoce el nombre de la compaƱƭa comercial que busca. Esto limitaba las
posibilidades de investigaciones, ya que los periodistas generalmente
buscan nombres de personas para rastrear sus activos. Extrajo los datos
y creó un nuevo sitio donde también son posibles búsquedas basadas en
nombres. El nuevo sitio permitió a periodistas de investigación de
muchos países buscar información, tomando como referencia nombres de
funcionarios en gobiernos y parlamentos, y verificar si poseĆ­an en
secreto corporaciones en PanamĆ” (tal como sucedĆ­a con la familia del
presidente de AzerbaijƔn).

Hay otras ventajas del uso de las guƭas destacadas mƔs arriba, ademƔs de
tener mejor acceso a información. Una de ellas tiene que ver con
minimizar el daño y asegurar mejor protección para los investigadores
que trabajan en ambientes hostiles. Esto se debe al hecho que cuando se
trabaja en una red, el periodista no estĆ” solo; el periodista de
investigación trabaja con colegas en otros países, por lo que es mÔs
difƭcil para los criminales descubrir quiƩn es responsable de que se
vean expuestos sus crĆ­menes. Como resultado de ello a los gobiernos y
funcionarios corruptos les resulta mucho mƔs difƭcil atacarlos.

Otra cosa a tener en cuenta es que la información que no parece muy
valiosa en una zona geogrƔfica puede ser crucial en otra. El intercambio
de información a través de redes de investigación puede llevar a sacar a
luz historias muy importantes. Por ejemplo, la información de que un
rumano fue atrapado en Colombia con 1 kilogramo de cocaĆ­na probablemente
no sea una noticia de primera plana en BogotĆ”, pero podrĆ­a ser muy
importante para el pĆŗblico rumano si un periodista local logra descubrir
que la persona que fue atrapada con el narcótico trabaja para el
gobierno de Bucarest.

El periodismo de investigación eficiente es el resultado de la
cooperación entre periodistas de investigación, programadores y otros
que quieren usar datos para contribuir a crear una sociedad global mƔs
limpia y mƔs justa.

— *Paul Radu, Organized Crime and Corruption Reporting Project*


## Nuestras historias aparecen en forma de código

[OpenDataCity](http://www.opendatacity.de/9) fue fundado hacia fines de
2010. Por entonces no pasaba nada con lo que uno podrĆ­a llamar
periodismo de datos en Alemania.

¿Por qué lo hicimos? Muchas veces habíamos escuchado a gente trabajando
para diarios y a gente de radio y televisión decir: ā€œNo estamos listos
para crear una unidad de periodismo de datos en nuestra redacción. Pero
con gusto tercerizarĆ­amos esto a otrosā€.

Hasta donde sabemos somos la única compañía que se especializa
exclusivamente en periodismo de datos en Alemania. Actualmente somos 3:
dos somos periodistas y uno tiene un profundo conocimiento de la
programación y la visualización. Contamos con un puñado de hackers,
diseƱadores y periodistas que trabajan por cuenta propia.

En los Ćŗltimos 12 meses hemos encarado 4 proyectos de periodismo de
datos con diarios y hemos ofrecido capacitación y consultoría a
trabajadores de medios, cientĆ­ficos y escuelas de periodismo. La primera
aplicación que hicimos fue TAZ, una [herramienta interactiva sobre ruido
en aeropuertos](http://bit.ly/taz-airport-noise) referida al nuevo
aeropuerto de BerlĆ­n. Nuestro siguiente proyecto notable fue una
[aplicación sobre retención de datos](http://bit.ly/zeit-telephone) de
uso de teléfonos móviles de un político alemÔn con ZEIT online. Por esto
ganamos un [premio Grimme Online](http://bit.ly/grimme-award), un premio
Lead en Alemania, y un [premio de Periodismo
Online](http://bit.ly/online-news-award) de la Online Journalism
Association en Estados Unidos. En momentos que escribimos estas lĆ­neas
tenemos varios proyectos encaminados, que van desde infogrƔficos
interactivos mƔs simples hasta el diseƱo y el desarrollo de un programa
de periodismo de datos intermedio.

![Mapa de ruido en aeropuerto (Taz.de)](figs/incoming/02-TT.png)

Por supuesto que ganar premios ayuda a la reputación. Pero cuando
hablamos con los editores, que tienen que aprobar los proyectos, nuestro
argumento a favor de invertir en periodismo de datos no tiene que ver
con ganar premios. MƔs bien es ganar audiencia en perƭodos mƔs
prolongados de modo sustentable. Es decir, crear cosas por su impacto de
largo plazo, no por el golpe periodĆ­stico del momento, que a menudo se
olvida en pocos dĆ­as.

A continuación presentamos 3 argumentos que hemos usado para alentar a
editores a abordar proyectos de mƔs largo plazo:

 Los proyectos de datos no envejecen 

:   De acuerdo a su diseƱo, se puede agregar nuevo material a las
    aplicaciones de periodismo de datos. Y no son solo para los
    usuarios, sino que pueden ser usados internamente para hacer
    informes y anƔlisis. Si le preocupa que esto signifique que sus
    competidores también se beneficien de su inversión, puede resguardar
    algunos recursos o datos para uso interno solamente.

 Puede apoyarse en su trabajo pasado 

:   Cuando aborda un proyecto de datos a menudo crea tramos de programas
    que pueden ser reutilizados o actualizados. El siguiente proyecto
    podrƭa llevar la mitad del tiempo, porque sabe mucho mejor quƩ hacer
    (y quƩ no) y tiene tramos que puede reutilizar.

 El periodismo de datos se pago solo 

:   Los proyectos basados en datos son mƔs baratos que las campaƱas de
    marketing tradicionales. Las medios online a menudo invierten en
    cosas como Optimización de Motores de Búsqueda (OMB) y Marketing de
    Motores de BĆŗsqueda (MMB). Un proyecto de datos ejecutado
    normalmente generarĆ” muchos clics y comentarios y puede extenderse
    como un virus en la red. Los editores comĆŗnmente pagan menos por
    esto que por tratar de generar la misma atención a través del MMB.

Nuestro trabajo no es muy distinto del de otras agencias de nuevos
medios: proveer aplicaciones o servicios para medios informativos. Pero
quizƔs difiramos en que nos vemos en primer lugar como periodistas. A
nuestros ojos los productos que entregamos son artĆ­culos o historias,
aunque no se transmitan con palabras, imƔgenes, audio o video, sino en
código. Cuando hablamos de periodismo de datos, tenemos que hablar de
tecnología, software, dispositivos y cómo contar una historia con ellos.

Para dar un ejemplo, acabamos de trabajar en una aplicación que obtiene
datos en tiempo real a travƩs de un programa que extrae (*scrapea*)
información del sitio del ferrocarril alemÔn, lo que nos permite desarrollar 
[un monitor ferroviario interactivo](http://zugmonitor.sueddeutsche.de/) 
para Süddeutsche Zeitung que muestra las demoras de trenes de larga distancia en tiempo
real. Los datos de la aplicación son actualizados cada minuto
aproximadamente y tambiƩn proveemos un API. Empezamos a hacer esto hace
varios meses y hasta ahora hemos acumulado un inmenso conjunto de datos
que se agranda a cada hora. A esta altura incluye cientos de miles de
filas de datos. El proyecto permite al usuario explorar estos datos en
tiempo real, e investigar en el archivo de meses anteriores. Al final la
historia que narramos serÔ definida de modo significativo por la acción
individual de los usuarios.

En el periodismo tradicional, debido al carƔcter lineal de los medios
escritos o de difusión, tenemos que pensar en un comienzo, el fin, el
desarrollo de la historia y el largo y el Ɣngulo de nuestra pieza. Con
el periodismo de datos las cosas son diferentes. SĆ­ hay un comienzo. La
gente llega al sitio y tiene una primera impresión de la interfaz. Pero
a partir de allĆ­ se las tienen que arreglar solos. Pueden quedarse un
minuto o media hora.

Nuestro trabajo como periodistas de datos es proveer el marco o el medio
para esto. Junto con escribir código y manejar datos, tenemos que pensar
en maneras ingeniosas de diseƱar experiencias. La experiencia del
usuario (UX) deriva principalmente de la Interfaz de Usuario (grĆ”fica –
GUI). Al final, esta es la parte que definirƔ el Ʃxito de un proyecto.
Se puede tener el mejor código trabajando en el trasfondo, manejando un
conjunto de datos interesante. Pero si la presentación es mala, no le
importarĆ” a nadie.

AĆŗn hay mucho por aprender y experimentar. Pero por suerte estĆ” la
industria de los juegos, que ha estado innovando al respecto de las
narrativas, los ecosistemas y las interfaces digitales desde hace varias
dƩcadas. Por lo que cuando desarrollamos aplicaciones de periodismo de
datos, debemos estar atentos a cómo funciona el diseño de juegos y cómo
se narran historias en los juegos. ¿Por qué juegos como Tetris son tan
divertidos? ¿Y qué es lo que define los mundos abiertos de juegos como
Grand Theft Auto o Skyrim rock?

Creemos que el periodismo de datos ha llegado para quedarse. En pocos
aƱos, los flujos de trabajo del periodismo de datos estarƔn incrustados
naturalmente en las redacciones porque los sitios de noticias tendrƔn
que cambiar. La cantidad de información disponible al público seguirÔ
creciendo. Pero por suerte nuevas tecnologƭas seguirƔn permitiƩndonos
encontrar nuevas maneras de narrar historias. Algunas de las historias
se basarƔn en datos y muchas aplicaciones y servicios tendrƔn carƔcter
periodístico. La cuestión interesante es qué estrategia desarrollarÔn
las redacciones para promover este proceso. ¿CrearÔn equipos de
periodistas de datos integrados en sus redacciones? ĀæHabrĆ” departamentos
de investigación y desarrollo, un poco como los departamentos internos
de empresas que se tratan como si fueran independientes? ĀæO habrĆ”
tercerización de partes del trabajo a compañías especializadas? Estamos
reciƩn en el comienzo y el tiempo dirƔ.

— *Lorenz Matzat, OpenDataCity*



## Kaas & Mulvad: Contenido Semi-Terminado para Grupos con Intereses EspecĆ­ficos.

Los medios de grupos con intereses especĆ­ficos constituyen un sector
emergente, en gran medida ignorado por los teóricos de los medios, que
potencialmente podrƭa tener un tremendo impacto a travƩs de redes online
o proveyendo contenido a medios de noticias. Pueden definirse como
medios (por lo general online), controlados por sectores de
organizaciones o instituciones, utilizados para defender ciertos
intereses y a ciertas comunidades. Las ONG comĆŗnmente crean tales
medios; lo mismo hacen los grupos de consumidores, las asociaciones
profesionales, los sindicatos y así en mÔs. La limitación clave de su
capacidad de influir en la opinión pública u otras partes interesadas es
a menudo que no cuentan con la capacidad para descubrir información
importante, con mƔs limitaciones incluso que los medios de noticias que
han reducido su capacidad. Kaas & Muvlad, una corporación danesa con
fines de lucro, es una de las primeras empresas de medios de
investigación que ofrece capacidad experta a estos medios de grupos con
determinados intereses.

La firma se originó en 2007 al separarse del Instituto Danés de
Periodismo Asistido por Computadora (Dicar) sin fines de lucro, que
vendƭa informes a medios y capacitaba a periodistas en anƔlisis de
datos. Sus fundadores, Tommy Kaas y Nils Mulvad, fueron previamente
periodistas en la industria de noticias. Su nueva firma ofrece lo que
llaman ā€œdatos mĆ”s visión periodĆ­sticaā€ (contenido que queda semi
terminado, requiriendo edición o reescritura) principalmente a medios
con determinados intereses, que utilizan el contenido para informes de
prensa o artƭculos y los distribuyen a travƩs de medios de noticias y
sus propios medios (tales como sitios en la red). Entre los clientes
directos se incluyen instituciones gubernamentales, firmas de Relaciones
PĆŗblicas, sindicatos y ONG tales como EU Transparency y World Wildlife
Fund. El trabajo para ONG incluye el seguimiento de subsidios agrĆ­colas
y de pesca y actualizaciones regulares sobre actividades de lobbistas de
la UE generadas a travĆ©s de *ā€œscrapingā€* de sitios pertinentes. Entre
los clientes indirectos se incluyen fundaciones que financian proyectos
de ONG. La firma tambiƩn trabaja con la industria de noticias; por
ejemplo, un diario sensacionalista compró su servicio de seguimiento de
celebridades.

![Grupos de interƩs en medios (Fagblaget3F)](figs/incoming/02-MM.png)

Los proyectos de periodismo de datos en su portfolio incluyen:

 [Mapa de desempleo para 3F](http://bit.ly/3F-unemployment) 

:   Una visualización de datos con cifras claves sobre desempleo en
    Dinamarca para 3F, que es el sindicato de los trabajadores sin
    capacitación en Dinamarca.

 [Condiciones de Vida para 3F](http://bit.ly/3F-living) 

:   Otro proyecto para 3F muestra como son las distintas condiciones de
    vida en distintas partes de Dinamarca. El mapa usa 24 indicadores
    diferentes.

 [Deuda para ā€œUgebrevet A4ā€](http://bit.ly/3F-debt-index) 

:   Un proyecto que calcula un ā€œĆ­ndice de deudaā€ y visualiza las
    diferencias de economĆ­as privadas.

 [Instalaciones peligrosas en Dinamarca](http://bit.ly/3F-dangerous-facilities) 

:   Un proyecto que hace el mapa de y analiza la proximidad de
    instalaciones peligrosas con jardines de infantes y otras
    instituciones realizado por ā€œBorn&Ungeā€, una revista publicada por
    BUPL, El Sindicato DanƩs de Educadores de la Primera Infancia y
    Jóvenes.

 [Datos de Responsabilidad Corporativa para Vestas](http://data.vestas.com/) 

:   Visualización de datos de 5 Ôreas de RC para la compañía de turbinas
    de viento danesa, Vestas, que con texto autogenerado. Actualizado
    automƔticamente quincenalmente con 400 pƔginas web incluyendo desde
    datos a escala mundial hasta unidades individuales de producción.

 [Mapa de Nombres para Experian](http://xpoint.experian.dk/navnekort) 

:   Tipee su apellido y mire la distribución de este nombre en distintas
    Ɣreas geogrƔficas de Dinamarca.

 [Mapa de Smiley para Ekstra Bladet](http://ekstrabladet.dk/kup/fodevarer) 

:   Todos los dĆ­as Kaas & Mulvad extraen todas las inspecciones por
    alimentos en mal estado y hacen el mapa de lo mƔs actual para el
    diario danƩs Ekstra Bladet (a la mitad del sitio estƔ el mapa).

Kaas & Mulvad no son los primeros periodistas en trabajar con grupos de
determinados intereses en medios. Greenpeace, por ejemplo, habitualmente
recurre a periodistas como colaboradores para sus informes. Pero no
conocemos ninguna otra firma cuyas ofertas a medios de este tipo se
basen en datos; es mucho mÔs común que los periodistas trabajen con ONG
como periodistas, editores o escritores.

Actualmente los medios informativos con ayuda de computadoras se
concentran en la bĆŗsqueda y el descubrimiento (por ejemplo, WikiLeaks);
en esto tambiƩn Kaas & Mulvad son innovadores al concentrarse en
anƔlisis de datos. Su enfoque requiere no solo capacidades de
programación sino también comprensión de qué tipo de información puede
producir una historia con impacto. Se puede decir con certeza que
cualquiera que desee imitar su servicio probablemente tendrĆ­a que
adquirir esos dos conjuntos de capacidades a travƩs de asociaciones,
porque raramente los individuos poseen ambos.

#### Procesos: TI innovadora mƔs anƔlisis

La firma encara alrededor de 100 proyectos al aƱo, que duran entre pocas
horas y pocos meses. TambiƩn invierte continuamente en proyectos que
expanden su capacidad y ofertas. El servicio de seguimiento de
celebridades fue uno de tales experimentos. Otro involucró recorrer
Internet en busca de noticias sobre ejecución de hipotecas y crear mapas
de los casos. Los socios dicen que su primer criterio para encarar
proyectos es disfrutar del trabajo y aprender del mismo; se buscan
mercados luego de que se defina un nuevo servicio. Aseguran en que el
sector de noticias les resultó difícil desarrollar nuevos métodos y
nuevos negocios.

No tenemos editores o jefes que decidan quƩ proyectos podemos hacer, quƩ
software o hardware podemos comprar. Podemos comprar las herramientas de
acuerdo a las necesidades de los proyectos, como las mejores soluciones
para búsqueda y extracción de texto. Nuestra meta es estar a la
vanguardia en estas Ɣreas. Tratamos de conseguir clientes que estƩn
dispuestos a pagar o, si el proyecto es divertido, lo hacemos por menos
dinero.

#### Valor creado: marcas e ingresos personales y de firmas

El giro en 2009 fue aproximadamente de 2.500.000 de coronas danesas (€
336.000). La compañía también sostiene la reputación de los socios como
periodistas de vanguardia, lo que mantiene la demanda para sus servicios
educativos y de conferencias. Sus apariciones pĆŗblicas al mismo tiempo
sostienen la marca de la firma.

#### Percepciones claves de este ejemplo

-   La crisis de capacidad en baja del sector informativo es tambiƩn una
    crisis de sub utilización de capacidad. Kaas y Mulvad tuvieron que
    dejar el sector para hacer trabajo que valoran y eso da resultados.
    Nada impide a las organizaciones de noticias captar ese valor.
-   Al menos en algunos sectores, existe un mercado rentable para
    ā€œcontenido semi-acabadoā€ que puede servir a los grupos de
    interesados.
-   Sin embargo, esta oportunidad plantea la cuestión de cuÔnto control
    pueden ejercer los periodistas sobre la presentación y uso de su
    trabajo por terceros. Recordamos que esta cuestión ya existe dentro
    del sector de las noticias (donde los editores pueden imponer
    cambios al producto de un periodista) y ha existido en otros
    sectores de medios (tales como el cine, donde no son precisamente
    raros los conflictos ente directores y estudios por el ā€œcorte
    finalā€). No es un riesgo moral particular de los medios de
    interesados, y tampoco va a desaparecer. Se necesita prestar mƔs
    atención a la ética de esta realidad y mercado en crecimiento.
-   Desde el punto de vista de los ingresos, un producto o servicio solo
    no basta. Las compaƱƭas exitosas que realizan periodismo de denuncia
    debieran tener un enfoque de cartera en el que la consultorĆ­a, la
    enseƱanza, las conferencias y otros servicios aportan ingresos extra
    y sostienen la marca.
— *Extracto editado de \`\`Disruptive News Technologies: Stakeholder
Media and The Future of Watchdog Journalism Business Models ''de Mark
Lee Hunter y Luk N. Van Wassenhove, INSEAD Working Paper, 2010*

## Modelos de negocios para periodismo de datos

En medio de todo el interƩs y las expectativas respecto del periodismo
basado en datos, hay una cuestión sobre la que siempre hay curiosidad en
las redacciones: ¿cómo son los modelos de negocios?

Si bien debemos ser cuidadosos respecto de hacer predicciones, un
anƔlisis de la historia reciente y el estado actual del sector de los
medios nos puede dar una visión. Hoy hay muchas organizaciones de
noticias que se han beneficiado al adoptar nuevos enfoques.

Los tĆ©rminos como ā€œperiodismo de datosā€ y la nueva expresión de moda,
ā€œciencia de datosā€, pueden sonar como que describen algo nuevo, pero no
es estrictamente cierto. En cambio estas nuevas etiquetas son solo
maneras de caracterizar un cambio que ha estado cobrando fuerza a lo
largo de dƩcadas.

Muchos periodistas parecen inconscientes de la magnitud de los ingresos
que ya se generan a través de la recolección de datos, su anÔlisis y
visualización. Este es el negocio de la refinación de la información.
Con herramientas y tecnologƭas para procesar datos, es cada vez mƔs
posible echar luz sobre asuntos muy complejos, se trate de finanzas
internacionales, deuda, demografía, educación, y así en mÔs. El término
ā€œinteligencia de negociosā€ describe una variedad de conceptos de TI que
apuntan a aportar una visión clara de lo que sucede en corporaciones
comerciales. Las compaƱƭas grandes y rentables de nuestro tiempo,
incluyendo McDonalds, Zara y H&M, dependen del seguimiento constante de
datos para obtener ganancias. Y para ellos funciona bastante bien.

Lo que estĆ” cambiando es que las herramientas desarrolladas para este
espacio ahora estƔn disponibles para otros dominios, incluyendo los
medios. Y hay periodistas que lo entienden. EstĆ” por caso Tableau, una
compañía que provee un conjunto de herramientas de visualización. O el
movimiento ā€œBig Dataā€ (Grandes Datos), en el que compaƱƭas de tecnologĆ­a
usan paquetes de software (a menudo de código abierto) para analizar
pilas de datos, extrayendo conclusiones en milisegundos.

Estas tecnologĆ­as ahora se pueden aplicar al periodismo. Equipos de The
Guardian y The New York Times estƔn constantemente ampliando los lƭmites
de este campo naciente. Y lo que vemos actualmente es solo la punta del
iceberg.

¿Pero cómo genera esto dinero para periodismo? El gran mercado mundial
que actualmente se estÔ abriendo tiene que ver con la transformación de
datos de disponibilidad pĆŗblica en algo que podamos procesar: haciendo
que los datos resulten visibles y humanos. Queremos poder relacionarnos
con las grandes cifras que escuchamos todos los dĆ­as en las noticias, lo
que significan los millones y miles de millones para cada uno de
nosotros.

Hay una cantidad de compaƱƭas de medios basadas en datos, muy rentables,
que simplemente han aplicado este principio antes que otras. Disfrutan
de tasas de crecimiento saludables y a veces ganancias que impresionan.
Un ejemplo es Bloomberg. La compaƱƭa opera alrededor de 300.000
terminales y entrega datos financieros a sus usuarios. Si usted estĆ” en
el negocio del dinero, esta es una herramienta poderosa. Cada terminal
viene con un teclado con códigos de colores y hasta 30.000 opciones para
mirar, comparar, analizar y ayudarlo a decidir que hacer a continuación.
Este negocio central genera según se estima US\$ 6300 millones al año,
al menos segĆŗn [un artĆ­culo publicado en 2008](http://nyti.ms/IQcRgY) en
The New York Times. Como resultado de ello Bloomberg ha estado
contratando periodistas por todas partes, compraron la venerable pero
perdidosa ā€œBusiness Weekā€, y asĆ­ siguiendo.

Otro ejemplo es el conglomerado de medios canadiense conocido hoy como
Thomson Reuters. Comenzaron con un diario, compraron una cantidad de
tƭtulos conocidos en el Reino Unido y luego decidieron hace dos dƩcadas
dejar el negocio de los diarios. En vez de ello, han crecido en base a
servicios de información, apuntando a proveer una perspectiva mÔs
profunda para clientes en una cantidad de sectores. Si le preocupa cómo
ganar dinero con información especializada, mi consejo sería que
simplemente lea [la historia de la compaƱƭa en
Wikipedia](http://en.wikipedia.org/wiki/The_Thomson_Corporation).

Y vea The Economist. La revista ha creado una marca excelente e
influyente por el lado de los medios. Al mismo tiempo la ā€œEconomist
Intelligence Unitā€ ahora es mĆ”s como una consultora, informando sobre
tendencias y pronósticos relevantes para casi todos los países del
mundo. Emplean cientos de periodistas y sostienen que sirven a 1.500.000
de clientes en todo el mundo.

Y hay muchos servicios de nicho basados en datos que podrĆ­an servir como
inspiración: eMarketer en Estados Unidos, que ofrece comparaciones,
cuadros y consejos para cualquiera interesado en marketing en Internet;
Stiftung Warentest en Alemania, institución que analiza la calidad de
productos y servicios; Statista, tambiƩn de Alemania, una nueva empresa
que ayuda a visualizar información públicamente disponible.

En todo el mundo actualmente hay una oleada de nuevas empresas en este
sector, que cubren naturalmente una amplia gama de Ɣreas; por ejemplo,
Timetric, que apunta a ā€œreinventar los estudios de negociosā€,
OpenCorporates, Kasabi, Infochimps y Data Market. Muchas de estas son
experimentos, pero de conjunto pueden considerarse una seƱal importante
de cambio.

Y estÔn los medios públicos, que en términos de periodismo de datos, son
un gigante dormido. En Alemania, € 7200 millones van a este sector
anualmente. El periodismo es un producto especial: si se hace bien, no
solo se trata de ganar dinero, sino que sirve un rol importante en la
sociedad. Una vez que queda en claro que el periodismo de datos puede
ofrecer visiones mƔs confiables y de modo mƔs fƔcil, parte de este
dinero podrĆ­a usarse para nuevos empleos en las redacciones.

En el caso del periodismo de datos no se trata solo de ser el primero si
no de ser una fuente de información confiable. En este mundo multicanal,
se puede generar atención en abundancia, pero la *confianza* es un
recurso cada vez mƔs escaso. Los periodistas de datos pueden ayudar a
filtrar, sintetizar y presentar fuentes de información diversas y a
menudo difíciles de un modo que le da al público una visión real de
asuntos complejos. En vez de solo reciclar comunicados de prensa y
repetir las historias que han escuchado en otras partes, los periodistas
de datos pueden dar a los lectores una perspectiva clara, comprensible y
preferentemente adecuada a esos lectores, con grƔficos interactivos y
acceso directo a fuentes primarias. No trivial y sin duda valioso.

¿Entonces cuÔl es el mejor enfoque para que quienes aspiran a
periodistas de datos exploren este campo y convenzan a la gerencia de
que apoyen proyectos innovadores?

El primer paso debiera ser buscar oportunidades inmediatas cerca de
donde estƔn: fruta que cuelga del Ɣrbol. Por ejemplo usted puede tener
ya colecciones de textos y datos estructurados que puede usar. Un gran
ejemplo de esto es la ā€œbase de datos de homicidiosā€ de Los Ɓngeles
Times. AquĆ­ los datos y las visualizaciones son el centro, no algo
secundario. Los editores recogen información sobre todos los crímenes
que encuentran y reciƩn entonces escriben artƭculos basados en ello. Con
el tiempo tales colecciones se estƔn volviendo mejores, mƔs profundas y
mƔs valiosas.

Esto podrĆ­a no funcionar la primera vez. Pero con el tiempo si lo harĆ”.
Un indicador que da muchas esperanzas es que el Texas Tribune y
ProPublica, que podrƭa decirse que son ambas compaƱƭas de medios de la
era posterior a los diarios impresos, informaron que la financiación de
sus organizaciones de periodismo sin fines de lucro superó sus metas
mucho antes de lo planificado.

Volverse eficiente en todo lo relacionado con datos –como generalista o
como especialista concentrado en un aspecto de la cadena alimenticia de
datos- genera una perspectiva valiosa para la gente que cree en el
periodismo. Como dijo un muy conocido editor en Alemania recientemente
en una entrevista: ā€œExiste este nuevo grupo que se llaman periodista de
datos. Y ya no estĆ”n dispuestos a trabajar por moneditasā€.

— *Mirko Lorenz, Deutsche Welle*


# Estudio de casos

![](figs/incoming/03-00-cover.png)

En esta sección analizamos con mÔs profundidad el detrÔs de escena de
numerosos proyectos de periodismo de datos, desde aplicaciones
desarrolladas en un día, hasta investigaciones de 9 meses de duración.
Nos informamos sobre cómo han sido usadas fuentes de datos para aumentar
y mejorar la cobertura de diferentes temas, desde elecciones hasta
gasto, de disturbios hasta corrupción, desde el nivel educativo de las
escuelas hasta el precio del agua. Junto a organizaciones de grandes
medios, tales como la BBC, el Chicago Tribune, The Guardian, el
Financial Times, Helsingin Sanomar, La Nación, el Wall Street Journal, y
el Zeit Online, tambiƩn presentamos iniciativas mƔs pequeƱas tales como
las de California Watch, Hack/HackersBeunos Aires, ProPublica y un grupo
de ciudadanos-periodistas brasileƱos llamados amigos de JanuƔria.

### QuƩ contiene este capƭtulo?

-   [La brecha de oportunidades](estudio_de_casos_0.html)
-   [Una investigación de 9 meses sobre Fondos Estructurales
    Europeos](estudio_de_casos_1.html)
-   [El colapso de la Eurozona](estudio_de_casos_2.html)
-   [Cubrir el gasto pĆŗblico con
    OpenSpending.org](estudio_de_casos_3.html)
-   [Elecciones parlamentarias finlandesas y financiación de
    campaƱas](estudio_de_casos_4.html)
-   [Hack electoral en tiempo real (Hacks/Hackers Buenos
    Aires)](estudio_de_casos_5.html)
-   [Datos en las noticias: WikiLeaks](estudio_de_casos_6.html)
-   [Hackatón Mapa76](estudio_de_casos_7.html)
-   [Cobertura de los disturbios en el Reino Unido por el Datablog de
    The Guardian](estudio_de_casos_8.html)
-   [Evaluaciones de escuelas de Illinois](estudio_de_casos_9.html)
-   [Facturación de hospitales](estudio_de_casos_10.html)
-   [Crisis de los geriƔtricos](estudio_de_casos_11.html)
-   [El telƩfono que lo dice todo](estudio_de_casos_12.html)
-   [Tasas de reprobación de distintos modelos de auto en la prueba
    MOT](estudio_de_casos_13.html)
-   [Subsidios a colectivos en Argentina](estudio_de_casos_14.html)
-   [Ciudadanos periodistas de datos](estudio_de_casos_15.html)
-   [El gran cuadro de resultados electorales](estudio_de_casos_16.html)
-   [Consulta sobre el precio del agua](estudio_de_casos_17.html)


## La brecha de oportunidades

[The Opportunity Gap](http://projects.propublica.org/schools) (La Brecha
de Oportunidades, usó datos de derechos civiles nunca antes difundidos
del departamento de Educación de Estados Unidos y mostró que algunos
estados, como Florida, han creado una situación equitativa ofreciendo a
estudiantes ricos y pobres un acceso equitativo en tƩrminos generales a
cursos de alto nivel, mientras que otros estados, como Kansas, Maryland
y Oklahoma, ofrecen menos oportunidades en distritos con familias mƔs
pobres.

![The Opportunity Gap project (ProPublica)](figs/incoming/03-YY.png)

Los datos incluyen a las escuelas pĆŗblicas de todo distrito con 3000
estudiantes o mƔs. Estan representados mƔs de 3 cuartos de todos los
alumnos de escuelas públicas. Un reportero de nuestra redacción obtuvo
los datos y nuestro Director de Informes Asistidos por Computadora los
depuró en profundidad.

Fue un proyecto que llevó aproximadamente 3 meses. En total 6 personas
trabajaron en la historia y la aplicación de noticias: 2 editores, un
redactor, una persona de Informes asistidos por computadora y 2
programadores. La mayoría no trabajó exclusivamente en este proyecto
durante ese perĆ­odo.

El proyecto requirió realmente nuestras capacidades combinadas: profundo
conocimiento del tema, una comprensión de las mejores prÔcticas con
datos, capacidades de diseño y programación. Lo que es mÔs importante,
requirió la capacidad de encontrar la historia en los datos. También
exigió edición, no solo para la historia que la acompaña, sino también
para la aplicación de noticias.

Para la depuración y anÔlisis de los datos usamos principalmente Excel y
rutinas de depuración, así como MS Access. La aplicación de noticias fue
desarrollada con el programa Ruby on Rails y usa abundantemente
JavaScript.

AdemÔs de un artículo que da el marco general, nuestra cobertura incluyó
una aplicación de noticias interactiva que permite a los lectores
comprender y encontrar ejemplos que se relacionen con su propia
situación dentro de esta gran base de datos nacional. Utilizando nuestra
aplicación de noticias, el lector podía encontrar su escuela local
–digamos, por ejemplo, 
[Central High School en Newark, N.J.](http://goo.gl/HJVCf)\_ 
y ver inmediatamente el desempeƱo relativo
de la escuela en una gran variedad de Ɣreas. 
Entonces podía cliquear un botón que dice
[ā€œcomparar con Escuelas de Alta y Baja Pobrezaā€](http://goo.gl/WrAIi), 
e inmediatamente ver otras escuelas medias y su pobreza relativa, y la 
medida en la que ofrecen matemƔtica avanzada, Advanced Placement 
(conocido con la sigla AP, un programa de la dirección de Colleges, que 
ofrece currƭcula y exƔmenes de nivel de College para estudiantes de 
secundaria en Estados Unidos, n. del t.) y otros cursos importantes. 
En nuestro ejemplo, Central High tiene como
referencia a Millburn Sr. High. La Brecha de Oportunidades muestra que
sólo el 1% de los estudiantes de Milburn recibe almuerzo gratis o a
precio reducido y el 72% de ellos hace al menos un curso de AP. En el
otro extremo, en el International High el 85% de sus estudiantes recibe
almuerzo gratis o a precios reducidos y solo 1% toma cursos AP.

A travĆ©s de este ejemplo el lector puede usar información que conoce –de
una escuela media local- para averiguar algo que no sabe: la
distribución de la accesibilidad educativa y en qué medida la pobreza
predice esa accesibilidad.

También integramos la aplicación con Facebook, de modo que los lectores
pudieran loguearse esta a esta red social y nuestra aplicación
automƔticamente les harƭa saber de escuelas que podrƭan interesarles.

El trƔfico hacia todas nuestras aplicaciones de noticias es excelente y
estamos particularmente orgullosos del modo en que ella cuenta una
historia compleja; y, lo que va mƔs al grano, ayuda a los lectores a
definir su propia historia.

Tal como sucede con muchos proyectos que parten de información oficial,
los datos requirieron mucha depuración. Por ejemplo, si bien sólo hay
alrededor de 30 posibles cursos de Advanced Placement, algunas escuelas
informaban que tenían cientos de ellos. Esto exigió muchos chequeos
manuales y llamadas telefónicas a escuelas para confirmaciones y
correcciones.

También trabajamos fuerte para asegurarnos que la aplicación ofreciera
una versión ā€œlejanaā€ y una versión ā€œcercanaā€ de la historia. Es decir,
la aplicación tenía que presentar al lector un cuadro nacional amplio y
abstracto; una manera de comparar a los estados en materia de acceso
educativo. Pero dado que la abstracción a veces genera confusión en los
lectores respecto de lo que los datos significan para ellos, tambiƩn
querĆ­amos que los lectores pudieran encontrar sus escuelas locales y
compararlas con escuelas de baja pobreza en su Ɣrea.

Si quisiera aconsejar a quienes quieren ser periodistas de datos y
abordar proyectos de este tipo, dirĆ­a que tienen que conocer el material
y ser inquisitivos. Todas las reglas que valen para otros tipos de
periodismo, valen tambiƩn aquƭ. Hay que tener datos ciertos, asegurarse
de contar bien la historia y -cuestión crucial- asegurarse de que su
aplicación de noticias no contradiga la historia que estÔ escribiendo.
Si lo hace, una de las 2 podrĆ­a estar equivocada.

AdemƔs, si usted quiere aprender a programar, lo mƔs importante es
empezar. Usted puede preferir aprender a travƩs de clases, libros o
videos, pero asegĆŗrese de tener una idea realmente buena para un
proyecto y un plazo para completarlo. Si tiene una historia en la cabeza
que solo puede expresarse a través de una aplicación de noticias,
entonces no saber programar no lo va a detener.

— *Scott Klein, ProPublica*


## Una investigación de 9 meses sobre Fondos Estructurales Europeos

En 2010, el [Financial Times](http://www.ft.com/intl/eu-funds) y el
[Bureau of Investigative Journalism
(BIJ)](http://bit.ly/bureau-billions) se unieron para investigar los
Fondos Estructurales Europeos. La intención era revisar quiénes son los
beneficiarios de esos fondos y verificar si el dinero se usó para bien.
Con € 347.000 millones a lo largo de 7 aƱos, los Fondos Estructurales
son el segundo programa de subsidios de la Unión Europea. El programa
existe desde hace dƩcadas, pero fuera de informes generales, habƭa poca
transparencia respecto de quiƩnes eran los beneficiarios. Como parte de
un cambio de reglas en la actual ronda de otorgamiento de fondos, las
autoridades estÔn obligadas a hacer pública una lista de beneficiarios,
incluyendo la descripción de los proyectos y el monto de fondos de la UE
y nacionales recibidos.

![Investigación de Fondos Estructurales de la UE (Financial Times y el Bureau of Investigative Journalism)](figs/incoming/03-OO-01.png)

El equipo del proyecto estaba compuesto por 12 periodistas y un
programador tiempo completo colaborando por 9 meses. La recolección de
los datos por sí sola llevó varios meses.

El proyecto se publicó en 5 días de cobertura en el Financial Times y el
BIJ, un documental radial de la BBC y varios documentales de TV.

Antes de abordar un proyecto con este nivel de esfuerzo hay que estar
seguro de que lo descubierto es original y que se terminarĆ” teniendo
buenas historias que nadie mƔs tiene.

El proceso se dividió en una serie de pasos diferentes.

#### 1. Identificar quién registra los datos y cómo

El Directorio General de las Regiones de la Comisión Europea tiene un
[portal](http://bit.ly/ec-portal) de los sitios de autoridades
regionales que publican los datos. Creíamos que la Comisión tendría una
base de datos general de proyectos a la que podrĆ­amos acceder
directamente o que podrƭamos obtener a travƩs de un pedido de acceso a
la información. No existe tal base de datos con el nivel de definición
requerido. RƔpidamente advertimos que muchos de los vƭnculos provistos
por la comisión eran erróneas y que la mayoría de las autoridades
publicaban los datos en formato PDF, en vez de formatos que faciliten el
anƔlisis tales como CSV o XML.

Un equipo de 12 personas trabajó para identificar los datos mÔs
actualizadas y ordenar los vƭnculos reuniƩndolos en una planilla de
cÔlculo que usamos para colaboración. Dado que los campos de datos no
eran uniformes (por ejemplo, los encabezados estaban en distintos
idiomas, algunos conjuntos de datos usaban diferentes divisas, y algunos
incluían descomposición en fondos de UE y nacionales) tuvimos que ser lo
mÔs precisos posible en la traducción y
\[line-through\]\*la\*descripción de los campos de datos disponibles en
cada conjunto.

#### 2. Descargar y preparar los datos

El siguiente paso consistió en descargar todas las planillas de cÔlculo,
PDF y, en algunos casos, recopilar datos originales en la red.

Cada conjunto de datos tuvo que ser estandarizado. Nuestra mayor tarea
fue extraer datos de cientos de pƔginas en formato .PDF. Gran parte de
esto se hizo utilizando UnPDF y ABBYY FineReader, que permiten extraer
datos a formatos tales como CSV o Excel.

También significó verificar y volver a verificar que las herramientas de
extracción de PDF hubiesen captado los datos correctamente. Esto se hizo
filtrando, ordenando y sumando totales (para asegurarnos que se
correspondieran con lo publicado en los PDF).

#### 3. Crear una base de datos

El programador del equipo creó una base de datos SQL. Cada uno de los
archivos preparados fue utilizado entonces como unidad para la
construcción de la base de datos SQL general. Con un proceso diario se
cargaba todos los archivos individuales de datos en una gran base de
datos SQL, en la que se podĆ­an realizar bĆŗsquedas en cualquier momento a
travƩs de su interfaz con palabras claves.

#### 4. Doble verificación y anÔlisis

El equipo analizó los datos de 2 maneras principales:

 VĆ­a la interfaz de la base de datos 

:   Esto significó tipear palabras claves de interés (por ejemplo,
    ā€œtabacoā€, ā€œhotelā€, ā€œcompaƱƭa Aā€ en el motor de bĆŗsquedas. Con la
    ayuda de Google Translate, que fue incorporado a la funcionalidad de
    bĆŗsquedas de nuestra base de datos, esas palabras claves se
    traducĆ­an a 21 idiomas, obteniendo los resultados apropiados. Estos
    se podĆ­an descargar y los periodistas podĆ­an continuar su
    investigación en proyectos individuales de su interés.

 Por macro-anƔlisis usando toda la base de datos 

:   Ocasionalmente descargƔbamos un conjunto de datos completo, que
    entonces podĆ­a ser analizado (por ejemplo, usando palabras clave o
    agregando datos por país, región, tipo de gasto, número de proyectos
    por beneficiarios, etc.)

Nuestras historias se conformaron con ambos mƩtodos, pero tambiƩn a
través de investigación de campo y de escritorio.

Hacer la doble verificación de la integridad de los datos (agregando y
verificando en comparación con lo que las autoridades dijeron que fue
asignado) llevó una gran cantidad de tiempo. Uno de los principales
problemas fue que las autoridades mayormente solo divulgaban la cantidad
de ā€œfondos de la UE y nacionalesā€. Bajo las reglas de la UE, cada
programa puede cubrir un porcentaje del costo total usando fondos de la
UE. El nivel de financiación por la UE es determinado, al nivel del
programa, por la llamada tasa de co-financiación. Cada programa (por
ejemplo, competitividad regional) estĆ” compuesto de numerosos proyectos.
Al nivel de los proyectos, tƩcnicamente, uno podrƭa recibir ciento por
ciento de financiación de la UE y otro nada, mientras el monto total de
la financiación por la UE al nivel de los programas no superara la tasa
de co-financiación aprobada.

Esto significó que tuvimos que verificar con cada compañía beneficiaria
el monto de financiación de la UE que citamos en nuestras historias.

— *Cynthia O’Murchu, Financial Times*


## El colapso de la Eurozona

Estamos [cubriendo el colapso de la Eurozona](http://on.wsj.com/tYM82O).
Todos los aspectos. El dramatismo de los enfrentamientos entre gobiernos
y la pérdida de los ahorros de toda la vida; la reacción de los líderes
mundiales, las medidas de austeridad, y las protestas en contra de estas
medidas. Todos los dĆ­as en el Wall Street Journal hay cuadros sobre
pƩrdidas de empleos, caƭda de PBI y hundimiento de los mercados
mundiales. Es incremental. Y aturde.

Los editores de tapa convocan una reunión para debatir ideas sobre la
cobertura de fin de año y en momentos en que me voy de la reunión, me
pregunto: ¿Cómo serÔ vivir esto?

ĀæEs esto como 2008 cuando me echaron y las malas noticias eran
incesantes? HablƔbamos de empleo y dinero todas las noche en la cena,
casi sin pensar en cómo podía intranquilizar a mi hija. Y los fines de
semana eran lo peor. Yo trataba de negar el temor que parecĆ­a dominarme
permanentemente y la ansiedad que no me dejaba respirar. ĀæAsĆ­ vive una
familia ahora mismo en Grecia? ¿En España?

Me volvĆ­ y seguĆ­ a Mike Allen, el editor de tapa, a su oficina le
propuse la idea de contar la crisis a travƩs de familias en la Eurozona
mirando primero los datos, encontrando perfiles demogrƔficos para
entender la composición familiar y luego sacando eso a luz junto con las
imƔgenes y entrevistas, audio de las distintas generaciones. Usarƭamos
hermosos elementos de retrato, las voces … y los datos.

Cuando volvƭ a mi escritorio escribƭ un resumen y dibujƩ un logo.

![El colapso de la Eurozona: resumen (Wall Street Journal)](figs/incoming/03-ZZ-01.png)

Durante las siguientes 3 semanas perseguƭ cifras: mƩtricas sobre
matrimonio, mortalidad, el tamaƱo de las familias y gasto en salud. Leƭ
sobre condiciones de vida y tasas de divorcio, mirƩ encuestas sobre
bienestar y tasas de ahorro. EstudiƩ estadƭsticas nacionales, llamƩ al
bureau de población de la ONU, el FMI, Eurostat, y la OCDE hasta que
encontrƩ un economista que habƭa pasado su carrera siguiendo familias.
Me conectó con una estudiosa sobre composición familiar. Me indicó
trabajos sobre mi tema.

Con mi editor, Sam Enriquez, redujimos el nĆŗmero de paĆ­ses. Reunimos un
equipo para debatir el enfoque visual y quƩ periodistas producirƭan
palabras, audio y la historia. Matt Craig, el editor fotogrƔfico de
tapa, se puso a trabajar para encontrar fotógrafos. Matt Murray, el
subeditor ejecutivo para cobertura mundial, envió un memo a los jefes de
sección pidiendo ayuda de los periodistas. (Esto fue crucial: la orden
de la mƔxima jerarquƭa).

Pero primero los datos. Por la maƱana yo exportaba datos a planillas de
cƔlculo y hacƭa cuadros para ver tendencias: caƭda del ahorro,
desaparición de pensiones, la vuelta de madres al trabajo, gasto en
salud, junto con deuda pĆŗblica y desempleo. Por la tarde analizaba esos
datos agrupados, comparando los paĆ­ses para encontrar historias.

Lo hice durante una semana antes de enredarme en los yuyos y comenzar a
dudar de mi misma. QuizƔs fuera un enfoque equivocado. QuizƔs no debƭa
tratarse de paƭses, sino de padres y madres, y niƱos y abuelos. Los
datos aumentaron.

Y se redujeron. A veces pasaba horas reuniendo información que en
definitiva no me decĆ­a nada. HabĆ­a buscado un conjunto de cifras
equivocado. En algunos casos los datos eran simplemente demasiado
viejos.

![Juzgar la utilidad de un conjunto de datos puede ser una tarea que lleve mucho tiempo Sarah Slobin)](figs/incoming/03-ZZ-04.png)

Luego los datos volvieron a aumentar al advertir que aĆŗn tenĆ­a
interrogantes y no entendĆ­a las familias.

Necesitaba verlo, moldearlo. Por lo que hice una serie rƔpida de
grƔficos en Illustrator y comencƩ a ordenarlos y editarlos.

Al emerger los cuadros, también apareció una imagen cohesionada de las
familias.

![Visualizaciones grƔficas: encontrar sentido a tendencias y patrones escondidos en los conjuntos de datos (Sarah Slobin)](figs/incoming/03-ZZ-06.png)

![Las cifras son gente: el valor de los datos estĆ” en las historias individuales que representan (Wall Street Journal)](figs/incoming/03-ZZ-07.png)

Lanzamos el proyecto. LlamƩ a cada periodista. Les mandƩ los cuadros, la
idea general y una invitación abierta a encontrar historias que ellos
consideraran significativas, que acercaran la crisis a nuestros
lectores. NecesitƔbamos una familia pequeƱa en Ɓmsterdam y familias mƔs
grandes en España e Italia. Queríamos saber de múltiples generaciones
para ver cómo la historia personal moldea las respuestas.

A partir de aquí, me levantaba temprano para ver mi correo electrónico
teniendo en cuenta la brecha de horarios. Los periodistas respondieron
con temas hermosos, sĆ­ntesis y sorpresas que no habĆ­a previsto.

En cuanto a fotografĆ­as, sabĆ­amos que querĆ­amos retratos de
generaciones. La visión de Matt era lograr que sus fotógrafos siguieran
a cada miembro de la familia a lo largo de un día en sus vidas. Escogió
periodistas visuales que hubiesen cubierto el mundo, cubierto noticias e
incluso guerras. Matt quería que cada sesión terminara en la cena. Sam
sugirió que incluyéramos los menúes de las comidas.

A partir de allí era cuestión de esperar a ver qué historia contaban las
fotos. Esperar a ver quƩ decƭan las familias. DiseƱamos el aspecto del
material interactivo. RobƩ una paleta de colores de una novela de Tintin
y trabajamos la interacción. Y cuando reunimos todo en paneles,
agregamos nuevamente algunos (no todos, algunos) de los cuadros
originales. Lo suficiente para puntuar cada historia, lo suficiente para
endurecer los temas. Los datos se convirtieron en una pausa en la
historia, una manera de bajar un cambio.

![La vida en la Eurozona (Wall Street Journal)](figs/incoming/03-ZZ-09.png)

Al final, los datos eran la gente; eran las fotografĆ­as y las historias.
Era lo que enmarcaba cada narración y provocaba la tensión entre países.

Para cuando publicamos el proyecto, justo antes de fin de aƱo, mientras
todos contemplƔbamos lo que habƭa en el horizonte, ya conocƭa a todos
los miembros de las familias por su nombre. Me sigo preguntando cómo
estarƔn ahora. Y si esto no parece un proyecto de datos, no hay
problema. Porque los momentos que quedaron documentados en la *Vida en
la zona del Euro*, esas historias de sentarse a comer y hablar sobre el
trabajo y la vida con su familia es algo que pudimos compartir con
nuestros lectores. Entender los datos es lo que lo hizo posible.

— *Sarah Slobin, Wall Street Journal*



## Cubrir el gasto pĆŗblico con OpenSpending.org

En 2007, Jonathan vino a la Open Knowledge Foundation con una propuesta
de una carilla para un proyecto llamado 
[Where Does My Money Go](http://www.wheredoesmymoneygo.org/) 
(A dónde va mi dinero, que apuntaba a facilitarle a los ciudadanos britÔnicos 
la comprensión de cómo se gastan los fondos públicos. La intención era que fuera
una demostración de un concepto para un proyecto mayor que representara
visualmente la información pública, basÔndonos en trabajos pioneros del
Istoype Institute de Otto y Marie Neurath de la dĆ©cada del ā€˜40.

![¿A dónde va mi dinero? (Open Knowledge Foundation)](figs/incoming/03-PP-02.png)

El proyecto Where Does My Money Go? permitió a los usuarios explorar
datos pĆŗblicos de una amplia variedad de fuentes usando herramientas de
código abierto intuitivas. Obtuvimos apoyo para desarrollar un prototipo
del proyecto, y luego recibimos fondos del 4IP de Channel 4, para
convertir esto en una aplicación de la red plenamente funcional. El gurú
del diseƱo informƔtico, David McCandless (de 
[Information is Beautiful](http://www.informationisbeautiful.net/); creó varias
vistas distintas de los datos que ayudan a la gente a ubicarse respecto de las
grandes cifras, incluyendo el ā€œAnalisis del PaĆ­s y Regionalā€, que
muestra cómo se gastan los fondos en distintas partes del país, y
[ā€œDaily Breadā€](http://wheredoesmymoneygo.org/dailybread.html) (Pan
diario, que muestra a los ciudadanos un desglose de sus contribuciones
fiscales por dĆ­a en libras y centavos.

![Calculador impositivo Daily Bread de ¿A dónde va mi dinero? (Open Knowledge Foundation)](figs/incoming/03-PP-01.png)

En aquel tiempo, el santo grial para el proyecto eran los datos de lo
que se llamaba 
[Combined Online Information System](http://data.gov.uk/dataset/coins) 
(COINS, Sistema de Información Combinada Online, que era la base de datos 
mÔs abarcativa y detallada de finanzas públicas britÔnicas. 
Trabajando con Lisa Evans (antes de que se sumara al equipo del Datablog en 
The Guardian), Julian Todd y Francis Irving (conocidos por Scraperwiki), 
Martin Rosenbaum (BBC) y otros, presentamos numerosos pedidos de datos, 
muchos de ellos con Ʃxito (la saga estƔ parcialmente documentada por Lisa en 
el cuadro de texto ā€œUsing FOI to Understand Spendingā€) (Usar LDI para entender el 
gasto, en la pƔgina 120 de este manual.)

Cuando los datos fueron finalmente difundidos a mediados de 2010, fue
considerado un golpe en favor de la transparencia. Se nos dio acceso por
adelantado a los datos para poder cargarlos en nuestra aplicación en la
red y recibimos significativa atención de la prensa cuando se hizo
público este hecho. El día en que se puso a disposición del público,
tuvimos docenas de periodistas que aparecieron en nuestro canal de chat
para debatir y preguntar sobre el hecho, así como averiguar cómo abrir
la aplicación y explorarla (los archivos tenían decenas de gigabytes).
Si bien algunos críticos sostuvieron que la publicación masiva de datos
era tan complicada que en los hechos era [oscurecer las cosas de tanta
transparencia](http://bit.ly/archive-silicon), muchos periodistas
valientes se metieron a investigar en los datos para dar a sus lectores
un cuadro sin precedentes del gasto público. The Guardian [transmitió el
evento en vivo](http://bit.ly/guardian-coins) en su blog y otros medios
lo cubrieron y ofrecieron conclusiones basadas en los datos.

No tardaron mucho en llegar pedidos y preguntas respecto de proyectos
similares en otros paƭses del mundo. Poco despuƩs de lanzar
[OffenerHaushalt](http://offenerhaushalt.de/) -una versión del proyecto
para el presupuesto estatal alemƔn creado por Friedrich Lendenberg-
lanzamos [OpenSpending](http://openspending.org/), una versión
internacional del proyecto, que apunta a ayudar a los usuarios a seguir
el gasto público de todo el mundo, un poco como el OpenStreetMap ayudó a
hacer el mapa de accidentes geogrƔficos. Implementamos nuevos diseƱos
con ayuda del talentoso Gregor Aisch, basados parcialmente en los
diseƱos originales de David McCandless.

![OffenerHaushalt, la versión alemana de ¿A dónde va mi dinero? (Open Knowledge Foundation)](figs/incoming/03-PP-03.png)

Con OpenSpending, hemos trabajado extensamente con periodistas para
adquirir, representar, interpretar y presentar datos de gasto pĆŗblico.
El proyecto es en primer lugar una base de datos enorme del gasto
pĆŗblico –tanto información presupuestaria de alto nivel como gasto
efectivo al nivel de las transacciones- en la que se puede hacer
bĆŗsquedas. Sobre esto se ha construido una serie de visualizaciones
tales como "treemaps"(grƔficos de rectƔngulos anidados) y "bubbletrees"
(grƔficos de burbujas anidadas). Cualquiera puede cargar los datos de su
municipalidad y producir visualizaciones.

Inicialmente creĆ­mos que habrĆ­a mayor demanda de nuestras
visualizaciones mƔs sofisticadas, pero luego de hablar con
organizaciones de noticias advertimos que habƭa necesidades mƔs bƔsicas
que debĆ­an ser satisfechas primero, tales como la capacidad de insertar
tablas dinƔmicas de datos en sus blogs. Deseosos de alentaras a dar
acceso público a los datos junto con sus historias, también creamos una
aplicación para esto.

Nuestro primer gran lanzamiento fue en la Ʃpoca del primer Festival
Internacional de Periodismo en Perugia. Un grupo de programadores,
periodistas y empleados pĆŗblicos colaboraron para cargar datos italianos
en la plataforma de OpenSpending, que daba una rica visión de cómo se
dividĆ­a el gasto entre las administraciones regionales y locales y
central. Apareció en 
[Il Fatto Quotidiano](http://bit.ly/ilfatto-spending), 
[Il Post](http://bit.ly/ilpost-spending), 
[La Stampa](http://bit.ly/lastampa-spending),
[Repubblica](http://bit.ly/repubblica-spending), y 
[Wired Italia](http://bit.ly/wired-italy-spending), asĆ­ como en 
[The Guardian](http://bit.ly/guardian-italy-spending).

![Versión italiana de ¿A dónde va mi dinero? (La Stampa)](figs/incoming/03-PP-04.png)

En 2011 trabajamos con 
[Publish What You Fund](http://www.publishwhatyoufund.org/) (Publique lo que financia), y
el [Overseas Development Institute](http://www.odi.org.uk/) (Instituto
de Desarrollo en el Extranjero, para rastrear la ayuda financiera a
Uganda de 2003-2006. Esto era nuevo porque por primera vez se podĆ­a ver
los flujos de ayuda junto con el presupuesto nacional, lo que permite
ver en quƩ medida las prioridades de los donantes estƔn alineadas con
las prioridades de los gobiernos. Hubo algunas conclusiones
interesantes, por ejemplo tanto los programas contra el HIV como la
planificación familiar resultaron estar financiadas casi completamente
por donantes externos. Esto fue cubierto en 
[The Guardian](http://bit.ly/guardian-uganda-viz).

TambiƩn hemos estado trabajando con ONGs y grupos interesados para
cruzar los datos del gasto con otras fuentes de información. Por
ejemplo, Privacy International se conectó con nosotros trayendo una
larga lista de compaƱƭas de tecnologƭa de vigilancia y una lista de
entes que participaron de una feria internacional de la vigilancia muy
famosa, que se conoce como la ā€œfiesta de los que colocan micrófonos
ocultosā€. Cruzando nombres de empresas con conjuntos de datos de gasto,
fue posible identificar quƩ compaƱƭas tenƭan contratos oficiales, los
que a partir de allƭ podƭan seguirse a travƩs de pedidos de acceso a la
información al Estado. Esto fue cubierto por 
[The Guardian](http://bit.ly/guardian-surveillance).

Actualmente, estamos trabajando para aumentar el entendimiento de los
datos fiscales por periodistas y el pĆŗblico en general como parte de un
proyecto llamado [Spending Stories](http://bit.ly/ss-faq) (Historias de
Gastos, que permite a los usuarios vincular datos de gasto pĆŗblico con
historias relacionadas, para ver las cifras detrƔs de las noticias y las
noticias a partir de los nĆŗmeros.

A travƩs de nuestro trabajo en esta Ɣrea aprendimos que:

-   Los periodistas a menudo no estƔn acostumbrados a trabajar con datos
    en crudo y muchos no consideran tenerlos como base para sus
    informes. Basar historias en información cruda sigue siendo una idea
    relativamente nueva.
-   Analizar y comprender datos es un proceso que exige mucho tiempo,
    incluso si se tiene las capacidades requeridas. Es difĆ­cil encajar
    esto en un ciclo de noticias de corto plazo, por lo que el
    periodismo de datos a menudo es utilizado en proyectos de
    investigación de mÔs largo plazo.
-   Los datos difundidos por los gobiernos a menudo estƔn incompletos o
    son viejos. Muy a menudo, las bases de datos pĆŗblicas no pueden ser
    usadas para propósitos de investigación sin el agregado de piezas de
    información mÔs específicas requeridas a través de las normas de
    acceso a la información pública.
-   Grupos de interesados, estudiosos e investigadores a menudo tienen
    mƔs tiempo y recursos para realizar investigaciones basadas en datos
    mƔs extensas que los periodistas. Puede ser muy fructƭfero hacer
    equipo con ellos.

— *Lucy Chambers and Jonathan Gray, Open Knowledge Foundation*


## Elecciones parlamentarias finlandesas y financiación de campañas


En los últimos meses ha habido juicios relacionados con financiación de
campaƱas en las elecciones generales finlandesas de 2007.

Después de esos comicios la prensa descubrió que las leyes sobre
publicidad de la financiación de las campañas no tenía efecto sobre los
políticos. BÔsicamente, se ha utilizado la financiación de campañas para
comprar los favores de políticos que no declararon su financiación tal
como lo ordena la ley finlandesa.

A partir de estos incidentes, las leyes se volvieron mƔs estrictas.
Luego de la elección general de marzo de 2011, Helsingin Sanomat decidió
explorar cuidadosamente todos los datos disponibles sobre financiación
de campañas. La nueva ley estipula que se debe declarar la financiación
electoral, y solo las donaciones de menos de 1500 euros pueden ser
anónimas.

#### 1. Encontrar datos y programadores

Helsingin Sanomat ha organizado hackatones HS Open desde marzo 2011.
Invitamos programadores, periodistas y diseƱadores grƔficos finlandeses
al sótano de nuestro edificio. Los participantes son divididos en grupos
de 3 personas y se los alienta a desarrollar aplicaciones y
visualizaciones. Hemos tenido alrededor de 60 participantes en cada uno
de nuestros 3 eventos hasta la fecha. Decidimos que los datos de
finanzas de campaƱa debƭan ser el centro de HS Open \#2, en mayo de
2011.

La Oficina Nacional de AuditorĆ­a de Finlandia es la autoridad que lleva
registro de las finanzas de campaƱa. Esa fue la parte fƔcil. El jefe de
información, Jaakko Hamunen, construyó un sitio en la red que da acceso
en tiempo real a su base de datos de finanzas de campaƱa. La Oficina de
Auditorƭa lo hizo solo en 2 meses despuƩs de nuestro pedido.

El sitio [Vaalirahoitus.fi](http://www.vaalirahoitus.fi/) proveerĆ” al
público y la prensa información de las finanzas de campaña para cada
elección a partir de ahora.

![Finanzas electorales (Helsingin Sanomat)](figs/incoming/03-DD.png)

#### 2. Tormenta de ideas

Los participantes de HS Open 2 generaron veinte prototipos distintos
respecto de quƩ hacer con los datos. Puede encontrar todos los
prototipos [en nuestro sitio](http://bit.ly/hs-prototype), (texto en
finlandƩs).

El investigador de bio-informÔtica Janne Peltola señaló que los datos de
las finanzas de campaƱa se veƭan parecidos a los datos de genes que
ellos investigan, en tƩrminos de contener muchas interdependencias.

En la bio-informÔtica hay una herramienta de código abierto llamada
[Cytoscape](http://www.cytoscape.org/) que se usa para mapear estas
interdependencias. Por lo que procesamos los datos con Cytoscape, y
obtuvimos un prototipo muy interesante.

#### 3. Implementar la idea en papel y en la red

La ley de financiación de campañas dice que los miembros electos del
parlamento deben declarar su financiación 2 meses después de las
elecciones. En la prÔctica esto significó que obtuvimos los datos reales
a mediados de junio. En HS Open solo tuvimos datos de parlamentarios que
habían presentado su información antes del vencimiento del plazo.

TambiƩn hubo un problema con el formato de los datos. La Oficina
Nacional de Auditoría los proveyó en 2 archivos CSV. Uno contenía el
presupuesto total de las campaƱas, el otro listaba todos los donantes.
Tuvimos que combinar estos 2 creando un archivo que contenĆ­a 3 columnas:
donantes, receptor y monto. Si los polĆ­ticos habĆ­an usado su propio
dinero, en nuestro formato de datos se veía como que el Político A donó
X euros al Político A. QuizÔs resulte contra-intuitivo, pero funcionó
para Cytoscape.

Cuando los datos fueron depurados y reformateados, lo corrimos con
Cytoscape. Entonces nuestro departamento interactivo hizo un grƔfico a
toda pƔgina.

Finalmente creamos una hermosa visualización en nuestro sitio. Este no
fue un grƔfico de anƔlisis de redes. Querƭamos ofrecer a la gente una
manera fƔcil de explorar los fondos de campaƱa y quiƩn los dona. La
primera vista muestra la distribución de fondos entre parlamentarios.
Cuando se cliquea en un parlamentario se tiene el desglose de su
financiación. También se puede votar si este donante particular es bueno
o no. La visualización fue hecha por Juha Rouvinen y Jukka Kokko, de una
agencia publicitaria llamada Satumaa.

La versión de la red de la visualización de finanzas de campaña usa los
mismos datos que el anƔlisis de redes.

#### 4. Publicar los datos

Por supuesto que la Oficina Nacional de AuditorĆ­a ya publica los datos,
por lo que no hay necesidad de volver a publicarlos. Pero, como habĆ­amos
depurado los datos y les habĆ­amos dado una mejor estructura, decidimos
publicarlos. Damos nuestros datos con una [licencia de Creative Commons
Attribution](http://creativecommons.org/licenses/by/3.0/). DespuƩs
varios programadores independientes hicieron visualizaciones de los
datos, algunas de las cuales hemos publicado.

Las herramientas que usamos para el proyecto fueron Excel y Google
Refine para la depuración y anÔlisis de los datos; Cytoscape para el
anƔlisis de redes; e Illustrator y Flash para las visualizaciones. El
Flash debió haber sido HTML5, pero se nos acabó el tiempo.

¿Qué aprendimos? QuizÔs la lección mÔs importante fue que las
estructuras de datos pueden ser muy difĆ­ciles. Si los datos originales
no estƔn en un formato adecuado, recalcular y convertirlos lleva mucho
tiempo.


## Hack electoral en tiempo real (Hacks/Hackers Buenos Aires)

![Elecciones 2011 (Hacks/Hackers Buenos Aires)](figs/incoming/03-FF.png)

[Electoral Hack](http://elecciones.hhba.info/) es un proyecto de
anƔlisis polƭtico que visualiza datos de los resultados provisionales de
las elecciones de octubre de 2011 en la Argentina. El sistema tambiƩn
incluye información de anteriores elecciones y estadísticas demogrÔficas
de todo el paĆ­s. El proyecto fue actualizado en tiempo real con
información del recuento provisional de las elecciones nacionales de
2011 en ese paĆ­s y dio resĆŗmenes de los resultados. Fue una iniciativa
de Hacks/Hackers Buenos Aires con el analista polĆ­tico Andy Tow, y un
esfuerzo colaborativo de periodistas, programadores, diseƱadores,
analistas, cientistas polĆ­ticos e otros integrantes del capĆ­tulo local
de Hacks/Hackers.

#### ¿Qué datos usamos?

Todos los datos provienen de fuentes oficiales: la Dirección Nacional
Electoral dio acceso a los datos del recuento provisional por Indra; el
Ministerio del Interior dio información sobre cargos electorales y
candidatos de los distintos partidos polĆ­ticos; [un proyecto
universitario](http://yoquierosaber.org/) dio información biogrÔfica y
las plataformas polĆ­ticas de cada lista electoral; mientras que la
información socio-demogrÔfica provino del Censo Nacional de 2001 de
Población y Vivienda (INDEC), el censo de 2010 (INDEC) y el ministerio
de Salud.

#### ¿Cómo se desarrolló?

La aplicación fue generada durante el Hackatón Electoral 2011 de
Hacks/Hackers Buenos Aires, el dĆ­a antes de las elecciones del 23 de
octubre de 2011. El hackatón tuvo la participación de 30 voluntarios de
una variedad de especialidades. El Hack Electoral fue desarrollado como
una plataforma abierta que podrĆ­a mejorarse con el tiempo. Para la
tecnologĆ­a usamos Google Fusion Tables, Google Maps y bibliotecas de
grƔficos vectoriales.

Trabajamos en la construcción de polígonos para presentar mapeado
geogrƔfico y demografƭa electoral. Combinando polƭgonos en software GIS
y geometrías de tablas públicas en las Tablas de Fusión Google,
generamos tablas con claves correspondientes a la base de datos
electorales del ministerio del Interior, Indra y datos
socio-demogrƔficos de INDEC. A partir de esto creamos visualizaciones en
Google Maps.

Usando el API Google Maps, publicamos varios mapas temƔticos
representando la distribución espacial de la votación con distintos
tonos de color, donde la intensidad del color representaba el porcentaje
de votos para varias candidaturas presidenciales en distintos
departamentos administrativos y centros de votación, con particular
Ʃnfasis en centros urbanos importantes: de la ciudad de Buenos Aires,
los 24 distritos del Gran Buenos Aires y las ciudades de Córdoba y
Rosario.

Usamos la misma tƩcnica para generar mapas temƔticos de elecciones
anteriores, a saber las primarias presidenciales de 2011 y la elección
de 2007, así como la distribución de los datos socio-demogrÔficos, tales
como los de pobreza, mortalidad infantil y condiciones de vida,
permitiendo anÔlisis y comparaciones. El proyecto también mostró la
distribución espacial de las diferencias porcentuales de votos obtenidos
por cada candidatura en la elección general de octubre, comparado con la
elección primaria de agosto.

Luego, usando datos de recuentos parciales, creamos un mapa animado
presentando la anatomĆ­a del recuento, en el que se muestra el avance del
mismo desde el cierre de la votación hasta la mañana siguiente.

#### Pros

-   Nos propusimos representar datos y lo logramos. TenĆ­amos la 
    [base de datos socio-demogrƔfica infantil](http://infoargentina.unicef.org.ar/) 
    de UNICEF, a mano asĆ­ como la base de datos creada por el yoquierosaber.org
    de la Universidad Torcuato Di Tella. Durante el hackatón reunimos un gran
    volumen de datos adicionales que terminamos no incluyendo.
-   Claramente el trabajo periodístico y de programación se vio
    enriquecido por los estudios académicos. Sin la contribución de Andy
    Tow e Hilario Moreno Campos, el proyecto no se hubiera podido
    realizar.

#### Contras

-   Los datos socio-demogrƔficos que pudimos utilizar no estaban
    actualizados (la mayor parte era del censo de 2001) y no era muy
    granular. Por ejemplo, no incluĆ­a detalles de PBI promedio local,
    principal actividad económica, nivel educativo, número de escuelas,
    mƩdicos per cƔpita y muchas otras cosas que hubiera sido bueno
    tener.
-   Originalmente el sistema debĆ­a ser una herramienta que pudiera
    usarse para combinar y mostrar datos arbitrariamente, de modo que el
    periodista pudiera mostrar fƔcilmente datos que le interesaran en la
    red. Pero tuvimos que dejar esto para otro momento.
-   Dado que el proyecto fue creado por voluntarios en un plazo breve,
    fue imposible hacer todo lo que querĆ­amos. De todos modos avanzamos
    mucho en el sentido adecuado.
-   Por el mismo motivo, todo el trabajo colaborativo de 30 personas
    terminó condensado en un solo programador cuando los datos del
    gobierno comenzaron a aparecer, y tuvimos problemas para importar
    datos en tiempo real. Estos problemas se resolvieron en cuestión de
    horas.

#### Implicancias

La plataforma de Hack Electoral tuvo gran impacto en los medios, con
cobertura en televisión, radio, medios impresos y online. Mapas del
proyecto fueron utilizados por varias plataformas de medios durante las
elecciones y en dĆ­as subsecuentes. Con el paso del tiempo, los mapas y
visualizaciones fueron actualizados, incrementando aún mÔs el trÔfico.
El día de la elección, el sitio creado ese mismo día recibió alrededor
de 20.000 visitantes diferentes y sus mapas fueron reproducidos en la
tapa del diario PƔgina/12 2 dƭas consecutivos, asƭ como en artƭculos en
La Nación. Algunos mapas aparecieron en las ediciones impresas del
diario ClarĆ­n. Fue la primera vez en la historia del periodismo
argentino que se utilizó un despliegue interactivo de mapas en tiempo
real. En los mapas centrales se podĆ­a ver claramente la victoria
abrumadora de Cristina FernƔndez de Kirchner por el 54 por ciento de los
votos, desglosada por la saturación de color. También sirvió para ayudar
a los usuarios a entender casos especĆ­ficos donde candidatos locales
tuvieron victorias por amplio margen en las provincias.

— *Mariano Blejman, Mariana Berruezo, Sergio SorĆ­n, Andy Tow, and MartĆ­n
Sarsale from Hacks/Hackers Buenos Aires*


## Datos en las noticias: WikiLeaks

Comenzó con uno de los integrantes del equipo de periodismo
investigativo preguntando: ā€œĀæUstedes son buenos con las planillas de
cĆ”lculo verdad?ā€ Y esta era una enorme planilla de cĆ”lculo: 92.201 filas
de datos, cada una conteniendo un anƔlisis de un evento militar en
AfganistƔn. Estos fueron los registros de [la guerra de
WikiLeaks](http://bit.ly/guardian-warlogs). En realidad, la primera
parte. Siguieron 2 episodios mƔs: Irak y los cables. El tƩrmino oficial
fue SIGACTS: la base de datos de Acciones Significativas de las Fuerzas
Armadas de Estados Unidos.

Los registros de guerra de AfganistĆ”n –compartidos con The New York
Times y Der Spiegel- fueron periodismo de datos en acción. Lo que
querĆ­amos hacer era permitir a nuestro equipo de periodistas
especializados obtener grandes historias humanas a partir de la
información y queríamos analizarlos para tener el cuadro general,
mostrar cómo iba la guerra realmente.

Desde el comienzo fue central para lo que Ć­bamos a hacer saber que no
publicarĆ­amos toda la base de datos. WikiLeaks ya iba a hacer eso y
querĆ­amos estar seguros de no revelar los nombres de los informantes, o
poner en peligro innecesariamente tropas de la OTAN. Al mismo tiempo,
tenƭamos que hacer mƔs fƔcil el uso de los datos para nuestro equipo de
periodistas investigadores encabezados por David Leigh y Nick Davies
(que habían negociado la difusión de los datos con Julian Assange).
También queríamos simplificar el acceso a información clave en el mundo
real, haciƩndola tan clara y abierta como pudiƩramos.

Los datos llegaron a nosotros como un inmenso archivo Excel, mƔs de
92.201 filas de datos, algunas conteniendo nada o mal formateadas. No le
servĆ­a a los periodistas que trataban de buscar historias y era
demasiado grande como para hacer informes significativos.

Nuestro equipo creó una base de datos interna simple usando SQL. Los
periodistas podĆ­an a partir de allĆ­ buscar por medio de palabras clave o
eventos. De pronto el conjunto de datos se volvió accesible y generar
historias se hizo mƔs fƔcil.

Los datos estaban bien estructurados: cada evento tenĆ­a los siguientes
datos claves: hora, día, descripción, cifras de bajas y, crucialmente,
latitud y longitud detalladas.

TambiƩn comenzamos a filtrar los datos para ayudarnos a contar una de
las historias claves de la guerra: el aumento de los ataques con DEI
(dispositivos explosivos improvisados), bombas caseras al costado del
camino que son impredecibles y difĆ­ciles de combatir. Este conjunto de
datos seguƭa siendo enorme pero mƔs fƔcil de manejar. Hubo alrededor de
7500 explosiones o emboscadas con DEI (una emboscada es donde el ataque
se combina, por ejemplo, con fuego de armas pequeƱas o de misiles con
granadas) entre 2004 y 2009. Hubo otros 8000 DEI descubiertos y
desactivados. Queríamos ver cómo cambiaban con el tiempo y hacer
comparaciones. Estos datos nos permitieron ver que el sur, donde estaban
las tropas britƔnicas y canadienses, era la zona mƔs golpeada, lo que
confirmaba lo que sabĆ­an nuestros corresponsales que habĆ­an cubierto la
guerra.

La difusión de los registros de la guerra de Irak en octubre de 2010
descargó otros 391.000 registros de la guerra de Irak en la escena
pĆŗblica.

Esto estaba en una categoría diferente de la filtración sobre
AfganistÔn; se puede decir que \[line-through\]\*esto\*convirtió a esta
en la guerra mƔs documentada de la historia. Ahora contƔbamos con cada
detalle menor para analizarlo y desglosarlo. Pero se destaca un factor:
el volumen de las muertes, la mayorĆ­a de las cuales eran de civiles.

Tal como en el caso de AfganistÔn, The Guardian decidió no volver a
publicar la base de datos completa, en gran medida porque no podĆ­amos
estar seguros de que el conjunto no contuviera detalles confidenciales
de informantes y demƔs.

![Los registros de guerra de The WikiLeaks (The Guardian)](figs/incoming/03-GG.jpg)

Pero sƭ permitimos a nuestros usuarios descargar una planilla de cƔlculo
que contenía los registros de cada incidente en el que alguien murió,
casi 60.000 en total. Eliminamos el sumario por lo que solo estaban los
datos bƔsicos: el encabezado militar, la cantidad de muertes y la
ubicación geogrÔfica.

También tomamos todos estos incidentes en los que murió alguien y los pusimos 
en [un mapa usando Google Fusion Tables](http://bit.ly/guardian-iraq-map). 
No era perfecto, pero sĆ­ un comienzo para tratar de mapear los patrones 
de destrucción que habían devastado Irak.

Los cables se difundieron en diciembre de 2010. Esto entraba en otra
liga, un inmenso conjunto de datos de documentos oficiales: 251.287
despachos, de mƔs de 250 embajadas y consulados estadounidenses. Es un
cuadro único de lenguaje diplomÔtico de EE.UU., incluyendo mÔs de 50.000
documentos que cubren la actual administración Obama. ¿Qué incluían los
datos?

Los cables mismos vinieron vĆ­a el inmenso Secret Internet Protocol
Router Network (Red de Ruteo del Protocolo Secreto de Internet),
conocido por la sigla SIPRNet. Es el sistema de Internet mundial militar
de Estados Unidos, que se mantiene separado de la Internet civil comĆŗn y
es dirigida por el departamento de Defensa en Washington. Desde los
ataques de septiembre de 2001 habĆ­a habido una iniciativa en Estados
Unidos de vincular archivos de información gubernamental, con la
esperanza de que datos claves de inteligencia ya no quedaran atrapados
en compartimentos estancos o presentados fuera de contexto. Un nĆŗmero
creciente de embajadas de EE.UU. han sido conectados a SIPRNet en la
última década, de modo que pueda compartirse la información militar y
diplomƔtica. Para 2001, habƭa 125 embajadas en SIPRNet; para 2005 la
cifra habĆ­a crecido a 180 y a esta altura la gran mayorĆ­a de las
misiones de EE.UU. en el mundo entero estƔn vinculadas con el sistema,
que es el motivo por el que grueso de estos cables son de 2008 y 2009.
Como escribió David Leigh:

> Un despacho de embajada marcado como SIPDIS es descargado
automƔticamente al sitio clasificado de la embajada. Allƭ no solo puede
verlo cualquiera en el departamento de Estado, sino cualquiera de las
fuerzas armadas de EE.UU. que tenga acceso de seguridad de nivel
ā€œSecretoā€, una clave, y una computadora conectada a SIPRNet.

> 1.  lo que asombrosamente abarca a 3.000.000 de personas. Hay varias
    capas de datos aquí; llegando hasta la clasificación de *SECRET
    NOFORN*, que significa que no podrƔn mostrarse jamƔs a quienes no
    sean ciudadanos estadounidenses. En cambio se supone que son para
    que los lean funcionarios en Washington hasta el nivel de la
    secretaria de Estado, Hillary Clinton. Los cables normalmente son
    redactados por el embajador local o subordinados. No se puede
    acceder a los documentos de ā€œSecreto MĆ”ximoā€ y por encima de
    documento de inteligencia extranjera desde SIPRNet.

A diferencia de las anteriores entregas, esta era predominantemente de
texto, no cuantificada ni con datos idƩnticos. Esto es lo que incluƭa:

 Una fuente 

:   La embajada o el ente que envió los datos

 Una lista de receptores 

:   Normalmente los cables eran enviados a una cantidad de embajadas y
    entes.

 Un campo de tema 

:   Una sĆ­ntesis del cable.

 Etiquetas 

:   Cada cable estaba etiquetado con una cantidad de abreviaturas
    claves.

 Cuerpo del texto 

:   El cable mismo. Optamos por no publicar estos completos por razones
    obvias.

Un detalle interesante de esta historia es cómo los cables casi crearon
filtraciones a demanda. Durante semanas ocuparon el centro de las
noticias al ser publicada; ahora, cada vez que aparece una historia
acerca de algún régimen corrupto o un escÔndalo internacional, el acceso
a los cables nos da nuevas historias.

El anƔlisis de los cables es una tarea enorme que quizƔs nunca se
termine por completo.

— *Esta es una versión editdada de un capĆ­tulo publicado en Facts are
Sacred: The Power of Data de Simon Rogers, the Guardian (published on
Kindle)*


## Hackatón Mapa76

Inauguramos el capĆ­tulo de 
[Hacks/Hackers de Buenos Aires](http://www.meetup.com/HacksHackersBA/) 
en abril de 2011. Fuimos anfitriones de 2 encuentros iniciales para difundir la
idea de mayor colaboración entre periodistas y programadores que incluyó
entre 120 y 150 personas en cada evento. Para una tercera reunión tuvimos
un hackatón de 30 horas con 8 personas en una conferencia de periodismo
digital en la ciudad de Rosario, a 300 kilómetros de Buenos Aires.

Un tema recurrente en estas reuniones fue el deseo de recoger grandes
volĆŗmenes de datos de la red y luego representarlos visualmente. Para
ayudar con esto, nació un proyecto llamado Mapa76.info, que ayuda a los
usuarios a extraer datos y luego desplegarlos usando mapas y lĆ­neas de
tiempo. Una tarea nada fƔcil.

![Mapa76 (Hacks/Hackers Buenos Aires)](figs/incoming/03-MM.png)

¿Por qué Mapa76? El 24 de marzo de 1976 hubo un golpe de Estado en la
Argentina, que duró hasta 1983. En ese período hubo según se estima
30.000 desaparecidos, miles de muertes y 500 niƱos nacidos en cautiverio
apropiados por la dictadura militar. Pasados mƔs de 30 aƱos, la cantidad
de gente condenada en la Argentina por crĆ­menes de lesa humanidad
cometidos durante la dictadura llega a 262 personas (septiembre de
2011). En este momento hay 14 juicios en curso y 7 con fecha de comienzo
establecida. Hay 802 personas en varios casos en las cortes.

Estos juicios generan grandes volĆŗmenes de datos que son difĆ­ciles de
procesar para los investigadores, periodistas, organizaciones de
derechos humanos, jueces, fiscales y otros. Los datos se producen de
modo distribuido y los investigadores a menudo no recurren a
herramientas de software para ayudarse a interpretarlos. Esto significa
que a menudo no son tenidos en cuenta y las hipótesis son limitadas.
Mapa76 es una herramienta de investigación que da acceso abierto a esta
información con propósitos periodísticos, legales, jurídicos e
históricos.

Para preparar el hackatón creamos una plataforma que programadores y
periodistas pudieran usar para colaborar en el dĆ­a del evento. MartĆ­n
Sarsale desarrolló algunos algoritmos bÔsicos para extraer datos
estructurados de documentos de texto simples. TambiƩn se usaron algunas
bibliotecas del proyecto DocumentCloud.org, pero no demasiadas. La
plataforma analiza y extrae de manera automƔtica nombres, fechas y
lugares de textos y permite a los usuarios explorar datos claves sobre
distintos casos (por ejemplo, fecha de nacimiento, lugar de arresto,
supuesto lugar de desaparición y así siguiendo).

Nuestra meta era proveer una plataforma para la extracción automÔtica de
datos sobre los juicios contra la dictadura militar en la Argentina.
Querƭamos una manera de desplegar automƔticamente (o al menos
semi-automƔticamente) datos claves relacionados con casos entre 1976 y
1983 basado en evidencias escritas, argumentos y juicios. Los datos
extraĆ­dos (nombres, lugares y fechas) son recogidos, almacenados y
pueden ser analizados y refinados por el investigador, asĆ­ como
explorados usando mapas, lƭneas de tiempo y herramientas de anƔlisis de
redes.

El proyecto permitirĆ” a periodistas e investigadores, fiscales y
testigos seguir la historia de vida de una persona, incluyendo por
supuesto su cautiverio y posterior desaparición o liberación. Donde
falte información, los usuarios pueden buscar en un vasto número de
documentos que podrĆ­an ser de posible relevancia para el caso.

Para el hackatón hicimos un anuncio público a través de [Hacks/Hackers
Buenos Aires](http://www.meetup.com/HacksHackersBA/), que entonces tenĆ­a
alrededor de 200 miembros (en el momento de escribir este informe hay
alrededor de 540). TambiƩn contactamos muchas asociaciones de derechos
humanos. De la reunión participaron unas cuarenta personas, incluyendo
periodistas, organizaciones de defensa de los derechos humanos,
programadores y diseƱadores.

Durante el hackatón identificamos tareas que distintos tipos de
participantes podĆ­an desarrollar de forma independiente para ayudar a
que las cosas funcionaran bien. Por ejemplo, pedimos a diseƱadores que
trabajaran en una interfaz que combinara mapas y lĆ­neas de tiempos,
pedimos a programadores que analizaran maneras de extraer datos
estructurados y logaritmos para eliminar ambigüedades relacionadas con
nombres, y pedimos a periodistas que investigaran quƩ habƭa pasado con
gente especĆ­fica, para comparar distintas versiones de historias y
analizar documentos para narrar historias sobre casos particulares.

Probablemente el principal problema que tuvimos después del hackatón fue
que nuestro proyecto era muy ambicioso, nuestros objetivos de corto
plazo exigentes, y es difĆ­cil coordinar una red de voluntarios
dispersos. Casi todos los involucrados con el proyecto tenĆ­an empleos
que les ocupaban mucho tiempo y muchos participaban ademƔs de otros
eventos y proyectos. Hacks/Hackers Buenos Aires tuvo 9 reuniones en 2011.

El proyecto estĆ” actualmente en desarrollo activo. Hay un equipo central
de 4 personas trabajando con mƔs de una docena de colaboradores. Tenemos
una [lista de correo pĆŗblica](http://groups.google.com/group/mapa76-dev/) y un 
[centro de almacenado de código](https://github.com/mapa76/) a través del cual
cualquiera puede involucrarse en el proyecto.

— *Mariano Blejman, Hacks/Hackers Buenos Aires*


## Cobertura de los disturbios en el Reino Unido por el Datablog de The Guardian

Durante el verano de 2011, hubo una oleada de disturbios en el Reino
Unido. En aquel momento, algunos polĆ­ticos sugirieron que estas acciones
categóricamente no estaban vinculadas con la pobreza y los que saquearon
fueron simplemente criminales. Lo que es mƔs, el primer ministro, junto
con los principales polĆ­ticos conservadores, culparon a los medios
sociales por causar los disturbios, sugiriendo que habĆ­a habido
incitación desde estas plataformas y que los disturbios fueron
organizados a travƩs de Facebook, Twitter y Blackberry Messenger (BBM).
Hubo reclamos para cerrar temporariamente los medios sociales. Debido a
que el gobierno no hizo una investigación de por qué se dieron los
disturbios, The Guardian, en colaboración con la London School of
Economics, creó un proyecto innovador para abordar estas cuestiones, llamado 
[Reading the Riots](http://www.guardian.co.uk/uk/series/reading-the-riots) 
(Leer los Disturbios),

![Los disturbuios en Reino Unido: todos los incidentes verificados (The Guardian)](figs/incoming/03-ZZ.png)

El diario usó periodismo de datos a gran escala para permitir al público
comprender mejor quiƩn saqueaba y por quƩ. TambiƩn trabajaron con otro
equipo de acadƩmicos, encabezados por el profesor Rob Procter de la
universidad de Manchester para entender mejor el rol de los medios
sociales, que The Guardian mismo habĆ­a usado abundantemente para sus
informes durante los disturbios. El equipo de *Reading the Riots* fue
encabezado por Paul Lewis, el Editor de Proyectos Especiales de The
Guardian. Durante los disturbios Paul reportó desde el lugar de los
eventos en ciudades de toda Inglaterra (fundamentalmente a travƩs de su
cuenta de Twitter @paullewis). Este segundo equipo trabajó a partir de
26.000.000 de tweets sobre los disturbios puestos a disposición por
Twitter. El objetivo principal de este trabajo con los medios sociales
fue ver cómo circulan los rumores en esa red social, la función que
tienen distintos usuarios/actores en la propagación y difusión de flujos
de información, para ver si se usó la plataforma para incitar, y para
examinar otras formas de organización.

En términos del uso del periodismo de datos y visualizaciones, es útil
distinguir 2 perĆ­odos claves: el perĆ­odo de los disturbios mismos y las
maneras en que los datos ayudaron a narrar historias mientras se
desarrollaban los disturbios; y luego un segundo perĆ­odo de
investigación mucho mÔs intensa con 2 conjuntos de equipos académicos
trabajando con The Guardian, para recolectar datos, analizarlos, y
escribir informes con anƔlisis de fondo sobre lo descubierto. Los
resultados de la primera fase del proyecto *Reading the Riots* fueron
publicados durante una semana de cobertura extensiva a comienzos de
diciembre de 2011. A continuación aparecen algunos ejemplos claves de
cómo se usó el periodismo de datos durante ambos períodos.

#### Primera fase: los disturbios mientras sucedĆ­an 

Usando mapas simples, el equipo de datos de The Guardian mostró
[localizaciones de lugares de disturbios confirmados](http://bit.ly/guardian-riots-map) 
y combinando datos de pobreza con 
[los lugares donde se dieron los disturbios](http://bit.ly/guardian-riots-poverty), 
se comenzó a dejar sin sustento el discurso político central de que no había ningún vínculo
con la pobreza. En ambos ejemplos se utilizaron herramientas de mapeo
preexistentes y, en el segundo caso, se combinaron datos de ubicación
con otro conjunto de datos para comenzar a establecer otras conexiones y
vĆ­nculos.

En relación al uso de medios sociales durante los disturbios (en este
caso, Twitter), el diario creó 
[una visualización de hashtags](http://bit.ly/guardian-riots-twitter) 
relacionadas con los disturbios usadas durante este período, lo que destacó que Twitter fue
usado principalmente para responder a disturbios en vez de para
organizar a gente para saquear, con \#riotcleanup, la campaƱa espontƔnea
para limpiar las calles despuƩs de los disturbios, mostrando el salto
mƔs significativo durante el perƭodo de los disturbios.

#### Fase 2: anƔlisis de los disturbios

Con relación al momento en que el diario informó sus conclusiones luego
de meses de investigaciones intensivas trabajando en estrecha
colaboración con 2 equipos académicos, se destacan 2 visualizaciones que
han sido ampliamente debatidas. La primera, 
[un video corto](http://bit.ly/guardian-riots-commute), muestra los resultados de
combinar los lugares conocidos donde la gente protagonizó disturbios con
sus lugares de vivienda y mostrando lo que se llamó ā€œviaje a los
disturbiosā€. AquĆ­ el diario trabajó con un especialista en mapeo de
transporte, ITO World, para hacer un modelo de la ruta mƔs probable
utilizada por quienes protagonizaron los disturbios al dirigirse a los
distintos lugares donde saquearon, lo que destaca patrones diferentes
para distintas ciudades, con viajes largos en algunas de ellas.

La segunda se refiere a las maneras en que se extienden los rumores en
Twitter. En debate con el equipo acadƩmico, se escogieron 7 rumores para
su anÔlisis. El equipo académico entonces recolectó todos los datos
relacionados con cada rumor y diseñó un código que identifica cada tweet
de acuerdo a los 4 códigos principales: gente que simplemente repite el
rumor (afirma algo), lo rechaza (afirma algo contrario), lo cuestiona
(interrogación) o simplemente lo comenta (comentario). Todos los tweets
fueron codificados por triplicado y los resultados 
[fueron visualizados](http://bit.ly/guardian-riots) por el equipo interactivo de
The Guardian. El equipo de The Guardian 
[escribió acerca de cómo construyó las visualizaciones](http://bit.ly/guardian-riots-twitter-interactive).

Lo llamativo de esta visualización es que muestra de manera potente lo
que es muy difĆ­cil de describir y que es la naturaleza viral de los
rumores y las maneras en que se desarrolla su ciclo vital a lo largo del
tiempo. El rol de los principales medios es evidente en algunos de estos
rumores (por ejemplo, rechazƔndolos abiertamente, o confirmƔndolos
rƔpidamente como noticias), al igual que la naturaleza correctiva de
Twitter mismo en tƩrminos de responder a tales rumores. Esta
visualización no solo ayudó mucho a narrar la historia, sino que también
dio una visión real de cómo funcionan los rumores en Twitter, lo que
aporta información útil para responder a eventos futuros.

Lo que resulta claro a partir del Ćŗltimo ejemplo es la poderosa sinergia
entre el diario y un equipo acadƩmico capaz de un anƔlisis profundo de
2.600.000 de tweets producidos en los disturbios. Si bien el equipo
académico creó un conjunto de herramientas para hacer su anÔlisis, ahora
estƔn trabajando para hacer que estas estƩn disponibles para cualquiera
que desee utilizarlas ofreciendo un centro de trabajo para su anƔlisis.
Combinado con la explicación de cómo hacer las cosas aportada por el
equipo de The Guardian, constituye un estudio de caso que es Ćŗtil porque
muestra cómo el anÔlisis de medios sociales y las visualizaciones pueden
ser usadas para narrar historias importantes.

— *Farida Vis, University of Leicester*


## Evaluaciones de escuelas de Illinois

Cada año la Dirección Estadual de Educación de Illinois difunde
ā€œevaluacionesā€ de escuelas, datos sobre la demografĆ­a y el desempeƱo de
todas las escuelas pĆŗblicas de Illinois. Es un conjunto de datos masivo.
El informe de este aƱo tenƭa 9500 columnas de ancho. El problema con esa
cantidad de datos es decidir quƩ presentar. (Como sucede con cualquier
proyecto de software, lo difĆ­cil no es crear el software, sino crear el
software correcto).

Trabajamos con los periodistas y el editor de Educación para escoger los
datos mƔs relevantes. (hay muchos datos que parecen interesantes, pero
que un periodista le dirƔ que en realidad son falsos o engaƱosos).

TambiƩn encuestamos y entrevistamos gente con hijos en edad escolar en
nuestra redacción. Hicimos esto por la existencia de una brecha de
empatĆ­a: ninguno de los miembros del equipo de aplicaciones de noticias
tiene chicos en edad escolar. Por esta vĆ­a descubrimos muchas cosas
acerca de nuestros usuarios y de la practicidad (o falta de ella) de la
versión anterior de nuestro sitio sobre escuelas.

![2011 Los boletines de las escuelas de Illinois (Chicago Tribune)](figs/incoming/03-EE.png)

Nos orientamos a diseƱar para un par de usuarios y casos de uso
especĆ­ficos:

-   Padres con un niño en la escuela que quieren saber cómo es el
    desempeƱo de su escuela
-   Padres que trataban de determinar dónde les convenía vivir, dado que
    la calidad de las escuelas a menudo tiene un gran impacto sobre esa
    decisión

La primera vez el sitio sobre escuelas fue un proyecto de 2 diseƱadores
de alrededor de 6 semanas. La actualización de 2011 fue un proyecto de 2
diseƱadores de 4 semanas. (en realidad hubo 3 personas trabajando
activamente en el proyecto mƔs reciente, pero ninguna de ellas era
full-time, por lo que equivalen a 2).

Una pieza clave de este proyecto fue el diseño de la información. Aunque
presentamos mucho menos datos de los que hay disponibles, siguen siendo
*muchos* datos, y hacerlos digeribles fue un desafĆ­o. Por suerte,
pudimos tomar alguien prestado de nuestra mesa de grƔficos, un diseƱador
especializado en presentar información complicada. Nos enseñó mucho
acerca del diseño de cuadros y, en general, nos guió para producir una
presentación que es legible, pero no subestima la capacidad o el deseo
del lector de entender las cifras.

El sitio fue creado con Python y Django. Los datos estƔn almacenados en
MongoDB: los datos sobre escuelas son heterogƩneos y jerƔrquicos, lo que
hace que no funcionen bien en una base de datos relacional (de otro modo
probablemente hubiƩsemos usado PostgreSQL).

Por primera vez experimentamos con el marco de interfaz de usuario
Bootstrap de Twitter en este proyecto y los resultados nos dejaron
contentos. Los grƔficos fueron dibujados con Flot.

La aplicación también alberga las muchas historias sobre evaluación
escolar que hemos escrito. En ese sentido es una especie de portal;
cuando hay una nueva historia de evaluación de escuelas la ubicamos a la
cabeza de la aplicación, junto con listas de escuelas que son relevantes
para la historia (y cuando aparece una nueva historia, a los lectores de
[chicagotribune.com](http://www.chicagotribune.como/) se los reorienta
hacia la aplicación, no el artículo).

Los primeros indicios muestran que a los lectores les encanta la
aplicación sobre las escuelas. La retroalimentación que hemos recibido
en gran medida ha sido positiva (o al menos constructiva) y la cantidad
de visitas es enorme. Como premio, estos datos mantendrƔn su interƩs
todo un aƱo, por lo que aunque prevemos que se reducirƔn las visitas al
ir desapareciendo las historias sobre escuelas en la pƔgina de inicio,
nuestra experiencia nos indica que los lectores recurren a esta
aplicación todo el año.

Algunas ideas claves que surgieron del proyecto son:

-   Los diseƱadores grƔficos son nuestros amigos. Son buenos para hacer
    digerible información compleja.
-   Hay que pedir ayuda a la redacción. Este es el segundo proyecto para
    el que realizamos una encuesta y entrevistas en la redacción, y es
    una gran manera de tener opiniones de gente reflexiva que, como
    nuestro pĆŗblico, es diversa en cuanto a sus inclinaciones y en
    general se siente incómoda con las computadoras.
-   ”Muestre su trabajo! Gran parte de la retroalimentación tomó la
    forma de pedidos de los datos que usó la aplicación. Pusimos muchos
    datos a disposición del público vía una API, y pronto difundiremos
    todo lo que no incluimos inicialmente.

— *Brian Boyer, Chicago Tribune*


## Facturación de hospitales

Periodistas de investigación de 
[California Watch](http://californiawatch.org/) recibieron informes de que
una gran cadena de hospitales de ese estado norteamericano podĆ­a estar
haciendo trampas sistemƔticamente contra el programa federal Medicare
que paga los tratamientos mƩdicos de estadounidenses de 65 aƱos o mƔs.
La trampa denunciada se llama *upcoding* (subir el código), que significa
reportar pacientes con problemas mĆ”s complicados de salud –con reembolsos 
mƔs elevados- que los reales. Pero una fuente clave era un sindicato que
estaba enfrentado con la administración de la cadena de hospitales, y el
equipo de California Watch sabía que era necesaria una verificación
independiente para que la historia tuviera credibilidad.

Por suerte, el departamento de Salud de California tiene registros
públicos que dan información muy detallada sobre cada caso tratado en
todos los hospitales del estado. Las 128 variables incluyen hasta 25
códigos de diagnóstico del manual de ā€œClasificación EstadĆ­stica
Internacional de Enfermedades y Problemas de Salud Relacionadosā€
(conocido comúnmente como ICD-9) publicado por la Organización Mundial
de la Salud (OMS). Aunque no se identifica a los pacientes por su
nombre, si aparece la edad del paciente, cómo se pagó por el tratamiento
y qué hospital lo trató. Los periodistas advirtieron que con estos
registros, podĆ­an ver si los hospitales propiedad de la cadena estaban
informando ciertas enfermedades inusuales en proporciones
significativamente mayores que en otros hospitales.

![Kwashiorkor (California Watch)](figs/incoming/03-AA.png)

Los conjuntos de datos eran grandes: casi 4.000.000 de registros por
aƱo. Los periodistas querƭan estudiar los registros de 6 aƱos para ver
cómo cambiaban los patrones a lo largo del tiempo. Pidieron los datos al
ente estatal; llegaron en varios CD-ROM que se copiaron fƔcilmente a una
computadora de escritorio. El periodista que hizo el anƔlisis de los
datos usó un sistema [llamado SAS](http://www.sas.com/) para trabajar
con los datos. SAS es muy poderoso (permitiendo el anƔlisis de muchos
millones de registros) y es usado por numerosos entes estatales,
incluyendo el departamento de Salud de California, pero es costoso. Se
pudo haber hecho el mismo tipo de anƔlisis usando una variedad de
herramientas de bases de datos, tales como el Access de Microsoft o
[MySQL](http://www.mysql.com/) de código abierto.


Con los datos y los programas para estudiarlos, encontrar patrones
sospechosos fue relativamente simple. Por ejemplo, una acusación era que
la cadena estaba informando de gente con diversos grados de desnutrición
con porcentajes mucho mƔs altos que lo que se veƭa en otros hospitales.
Usando SAS, el analista de datos extrajo tablas de frecuencia que
muestran la cantidad de casos de desnutrición informados cada año por
cada uno de los mƔs de 300 hospitales de agudos de California. Las
tablas de frecuencia luego eran importadas a Microsoft Excel para un
anƔlisis mƔs fino de los patrones de cada hospital; la capacidad de
Excel de ordenar, filtrar y calcular tasas a partir de las cifras en
bruto facilitó la tarea de encontrar patrones.

Eran particularmente llamativos los informes de una enfermedad llamada
Kwashiorkor, un sĆ­ndrome de deficiencia de proteĆ­nas que se ve casi
exclusivamente en infantes que mueren por desnutrición en países en
desarrollo afectados por hambrunas. Pero la cadena estaba informando que
sus hospitales diagnosticaban Kwashiorkor entre personas mayores de
California en cantidades 770 veces mayores que [el promedio de los
hospitales del estado](http://bit.ly/californiawatch-malnutrition).

Para otras historias, los anƔlisis usaron tƩcnicas similares para
examinar las cantidades reportadas de [enfermedades como septicemia,
encefalopatía, hipertensión maligna y desórdenes nerviosos
autonómicos](http://bit.ly/californiawatch-rare). Otro estudio analizó
las denuncias de que la cadena estaba admitiendo en internación,
provenientes de sus salas de emergencias, porcentajes 
[inusualmente elevados de pacientes de Medicare](http://bit.ly/californiawatch-chains), 
cuya fuente de pagos de cuidados hospitalarios es mƔs segura que lo que 
sucede con muchos otros pacientes atendidos en salas de emergencias.

En sĆ­ntesis, historias como estas son posibles cuando se usan datos para
producir evidencias que evalĆŗan de forma independiente acusaciones de
fuentes que pueden tener sus propios objetivos. Estas historias tambiƩn
son un buen ejemplo de la necesidad de leyes de registro pĆŗblico
robustas; el motivo por el que el estado requiere que los hospitales
informen estos datos es para que se pueda hacer este tipo de anƔlisis,
ya sea por el propio estado o por acadƩmicos, investigadores o incluso
ciudadanos periodistas. El tema de estas historias es importante porque
examina si se estÔ gastando como corresponde millones de dólares de
fondos pĆŗblicos.

— *Steve Doig, Walter Cronkite School of Journalism, Arizona State University*


## Crisis de los geriƔtricos

 Una [investigación del Financial Times](http://on.ft.com/care-home-crisis) 
sobre geriÔtricos sacó a luz como algunos inversores de capitales privados 
convierten el cuidado de las personas mayores en una mƔquina de obtener
ganancias, y destacó los costos mortales de un modelo de negocios que
promueve las ganancias por encima de los cuidados.

El anƔlisis se hizo en un buen momento, porque los problemas financieros
de Southern Cross, entonces el mayor operador de geriƔtricos del paƭs,
estaban llegando a un punto Ɣlgido. El gobierno habƭa impulsado durante
décadas la privatización en el sector de los geriÔtricos y seguía
aplaudiendo al sector privado por sus prƔcticas de negocios astutas.

Nuestra investigación comenzó con el anÔlisis de datos que obtuvimos del
ente regulador britƔnico a cargo de inspeccionar los geriƔtricos. La
información era pública, pero se requirió mucha persistencia para
conseguir los datos en una forma que fuera utilizable.

Los datos incluƭan calificaciones (ahora eliminadas) del desempeƱo de
geriƔtricos individuales y un desglose de si eran privados, estatales o
sin fines de lucro. La Comisión de Calidad de Cuidados (CQC) hasta junio
de 2010 calificaba a los geriƔtricos de acuerdo a su calidad (0
estrellas = mala, 3 estrellas = excelente).

El primer paso requirió mucha depuración de datos, ya que la información
provista por la Comisión de Calidad de Cuidados contenían
categorizaciones que no eran uniformes. Esto se hizo primordialmente
usando Excel. TambiĆ©n determinamos –a travĆ©s de investigaciones de
escritorio y telefónicas- si había geriÔtricos particulares que fueran
propiedad de grupos de capitales privados. Antes de la crisis
financiera, el sector de los geriƔtricos era un imƔn para el capital
privado e inversores inmobiliarios, pero varios de ellos -tales como
Southern Cross- habĆ­an comenzado a tener serias dificultades
financieras. Querƭamos establecer quƩ efecto, si es que habƭa alguno,
tenĆ­a el hecho de la presencia de capitales privados en la calidad de
los cuidados.

Un conjunto de cƔlculos relativamente simples con Excel nos permitieron
establecer que los geriƔtricos sin fines de lucro y estatales en
promedio tenƭan un desempeƱo significativamente mejor que los del sector
privado. Algunos grupos de geriƔtricos de capitales privados funcionaban
por encima del promedio y otros por debajo.

Junto con informes in situ, estudios de casos de abandono, un anƔlisis
profundo de las fallas de las polĆ­ticas regulatorias, asĆ­ como otros
datos sobre niveles de paga, tasas de rotación, etc., nuestro anÔlisis
nos permitió armar un cuadro del estado real de los geriÔtricos.

Algunos consejos:

-   Asegúrese de tomar notas de cómo manipula los datos originales.
-   Tenga una copia de los datos originales y nunca los modifique.
-   Verifique y vuelva a verificar los datos. Haga el anƔlisis varias
    veces (si es necesario, a partir de cero).
-   Si menciona compaƱƭas o individuos particulares, deles derecho a
    rƩplica.

— *Cynthia O’Murchu, Financial Times*


## El telƩfono que lo dice todo

La comprensión de la mayoría de las personas de lo que puede hacerse con
los datos que nos proveen nuestros celulares es teórica; había pocos
ejemplos de la vida real. Es por eso que Malte Spitz del partido Verde
AlemÔn decidió publicar sus propios datos. Para acceder a la información
tuvo que presentar una demanda contra el gigante de las
telecomunicaciones Deutsche Telekom. Los datos, contenidos en un inmenso
documento de Excel, fueron la base para el mapa interactivo del Zeit
Online. Cada una de las 35.831 filas de la planilla de cƔlculo
representa una instancia en la que el teléfono de Spitz transfirió
información en un período de medio año.

Vistas por separado, cada pieza de datos es casi inofensiva. Pero
tomadas de conjunto aportan lo que los investigadores llaman un perfil
de llamadas: un claro cuadro de los hƔbitos y preferencias de una
persona y por cierto de su vida. Este perfil revela cuƔndo Spitz
caminaba por la calle, cuÔnto tomó un tren, cuÔndo estaba en un avión.
Muestra que trabaja principalmente en Berlín y qué ciudades visitó.
Muestra cuƔndo estaba despierto y cuƔndo dormƭa.

![El telƩfono que lo dice todo (Zeit Online)](figs/incoming/03-BB.png)

El conjunto de datos de Deutsche Telekom mantenĆ­a en privado una parte
del registro de los datos de Spitz, a saber, a quién llamó y quién lo
llamó a él. Ese tipo de información no solo podría infringir la
privacidad de mucha otra gente relacionada con Ć©l, tambiĆ©n –aunque los
nĆŗmeros estuviesen encriptados- revelarĆ­a demasiado acerca de Spitz
(pero los agentes del gobierno en el mundo real tendrĆ­an acceso a esta
información).

Pedimos a Lorenz Matzat y Michael Kreil de OpenDataCity que exploraran
los datos y encontraran una solución para la presentación visual. ā€œAl
principio usamos herramientas como Excel y Fusion Tables para comprender
los datos. Luego comenzamos a desarrollar una interfaz del mapa que
permitiera al pĆŗblico interactuar con los datos de un modo no linealā€,
dijo Matzat. Para ilustrar hasta quƩ punto pueden obtenerse detalles de
la vida de alguien a partir de estos datos almacenados, se le sumó
información del dominio público acerca de su actividad (Twitter,
entradas en blogs, información partidaria como entradas en el calendario
pĆŗblico de su sitio en la red). Es el tipo de proceso que cualquier buen
investigador usarĆ­a probablemente para hacer el perfil de una persona en
observación. Junto con los grÔficos del propio Zeit Online y los del
equipo de investigación y desarrollo, se creó una gran interfaz para
navegar: apretando el botón de play se inicia un viaje a través de la
vida de Malte Spitz.

Luego de un lanzamiento muy exitoso del proyecto en Alemania, advertimos
que recibƭamos muchƭsimo trƔfico de fuera de Alemania y decidimos crear
una versión en inglés de la aplicación. Luego de recibir el premio
Grimme Online AlemÔn, el proyecto recibió un premio ONA en septiembre de
2011, lo que fue la primera vez que lo recibĆ­a un sitio de noticias
alemƔn. Todos los datos estƔn disponibles en una 
[planilla de cƔlculo de Google Docs](http://bit.ly/zeitonline-data). 
Lea la historia [en Zeit Online](http://www.zeit.de/datenschutz/malte-spitz-data-retention).

— *Sascha Venohr, Zeit Online*


## Tasas de reprobación de distintos modelos de auto en la prueba MOT

En enero de 2010 la BBC obtuvo datos sobre aprobaciones y rechazos en la
prueba del Ministerio de Transporte (MOT, Ministry of Transport Test)
para distintas marcas y modelos de autos. Esta es la prueba que evalĆŗa
si un auto es seguro y estĆ” en condiciones para andar por la calle; todo
auto de mƔs de 3 aƱos tiene que pasar una prueba MOT anual.

Obtuvimos los datos bajo la ley de acceso a la Información luego de una
larga batalla con VOSA, el ente del departamento de Transporte que
supervisa el sistema MOT. VOSA rechazó nuestro pedido de estas cifras
con el argumento de que violarĆ­a la confidencialidad comercial. Sostuvo
que podrƭa *causar daƱo comercial* a fabricantes de vehƭculos con altas
tasas de rechazo. Entonces apelamos al Comisionado de información, que
dictaminó que dar a conocer la información iría en favor del interés del
público. Entonces VOSA entregó los datos, 18 meses después de que los
pidiƩramos.

Analizamos las cifras, concentrƔndonos en los modelos mƔs populares y
comparando autos de la misma antigüedad. Esto mostró grandes
discrepancias. Por ejemplo, entre los autos de 3 años de antigüedad, 28%
de los Renault MƩgane no aprobaron su MOT, en contraste con solo el 11%
de los Toyota Corolla. Las cifras se difundieron por televisión, radio y
online.

![Difusión de las tasas de rechazo en la prueba MOT (BBC)](figs/incoming/03-CC.png)

Nos entregaron los datos en la forma de un documento PDF de 1200
pƔginas, que tuvimos que convertir en planilla de cƔlculo para hacer el
anƔlisis. AdemƔs de informar nuestras conclusiones, publicamos la
planilla de cƔlculo Excel (con mƔs de 14.000 lƭneas de datos) en el
sitio de BBC News 
[junto con nuestra historia](http://bbc.in/mot-failure-rates). 
Esto permitió el acceso a los datos en formato usable a todos.

El resultado fue que entonces otros usaron estos datos para sus propios
anƔlisis, que nosotros no tuvimos tiempo de hacer por el apuro de
difundir la historia rƔpidamente (y que en algunos casos hubiera
superado nuestra capacidad técnica de aquel momento). Esto incluyó el
examen de las tasas de rechazo para autos de otras antigüedades,
comparar los registros de fabricantes en vez de modelos individuales y
crear bases de datos para buscar los resultados de modelos individuales.
Agregamos vĆ­nculos a estos sitios en nuestra historia online, de modo
que los lectores pudieran conocer estos trabajos.

Esto ilustra algunas de las ventajas de publicar los datos en crudo
junto con una historia basada en datos. Puede haber excepciones (por
ejemplo si piensa usar los datos para otras historias posteriores y
quiere quedƔrselos mientras tanto), pero en general publicar los datos
tiene varios beneficios importantes:

-   Su trabajo es descubrir cosas y contarle a los ciudadanos. Si se
    tomó el trabajo de obtener los datos es parte de su trabajo
    difundirlos.
-   Otras personas pueden descubrir cuestiones de interƩs significativo
    que usted no vio o simplemente detalles que les importan a ellos,
    aunque no le importaran lo suficiente a usted como para incluirlos
    en su historia.
-   Otros pueden basarse en su trabajo para desarrollar un anƔlisis mƔs
    detallado, o usar distintas tƩcnicas para presentar o visualizar las
    cifras, usando sus propias ideas o capacidades tƩcnicas que pueden
    sondear los datos de modo productivo y de maneras alternativas.
-   Es parte de incorporar la rendición de cuentas y la transparencia al
    proceso periodƭstico. Otros pueden entender sus mƩtodos y verificar
    su trabajo si quieren.

— *Martin Rosenbaum, BBC*


## Subsidios a colectivos en Argentina

Desde 2002 los subsidios para el sistema de transporte pĆŗblico de
pasajeros en la Argentina han estado creciendo de modo exponencial,
rompiendo un record cada aƱo. Pero en 2011, luego de ganar las
elecciones, el nuevo gobierno argentino anunció reducciones de los
subsidios para los servicios pĆŗblicos a partir del mes de diciembre de
ese año. Al mismo tiempo, decidió transferir la administración de líneas
locales de ómnibus y del subte al Gobierno de la Ciudad de Buenos Aires.
Dado que no se ha clarificado la transferencia de subsidios a este
gobierno municipal y hay falta de fondos locales para garantizar la
seguridad el sistema de transporte, el Gobierno porteño rechazó esta
decisión.

Mientras esto sucedía, junto con mis colegas en La Nación nos reunimos
por primera vez para discutir cómo iniciar nuestra propia operación de
periodismo de datos. Nuestro editor de la sección financiera sugirió que
los datos sobre subsidios publicados [por la secretarĆ­a de
Transporte](http://www.transporte.gov.ar/) serĆ­a un buen desafĆ­o para
comenzar, considerando que era muy difĆ­cil encontrarles sentido debido
al formato y la terminologĆ­a.

Las malas condiciones del sistema de transporte pĆŗblico afectan la vida
de mƔs de 5800000 pasajeros diarios. Demoras, huelgas, desperfectos de
vehĆ­culos, o incluso accidentes suceden a menudo. Por tanto, decidimos
analizar a dónde van los subsidios para el sistema de transporte público
en la Argentina y poner estos datos a disposición de todos los
ciudadanos argentinos por medio de un ā€œExplorador de Subsidios del
Transporteā€, que actualmente estĆ” en construcción.

![El explorador de subsidios al transporte (La Nación)](figs/incoming/03-LL-01.jpg)

Comenzamos por calcular cuÔnto reciben cada mes las compañías de ómnibus
de parte del Estado. Para hacerlo, tomamos los datos publicados en el
[sitio del departamento de Transporte](http://www.transporte.gov.ar/content/subsidios-sistau/),
donde se publican desde 2006 mƔs de 400 PDF conteniendo pagos mensuales
en efectivo a mƔs de 1300 compaƱƭas.

![Ranking de empresas de transporte subsidiadas (La Nación)](figs/incoming/03-LL-02.jpg)

Formamos equipo con un programador experimentado para desarrollar un
recopilador de información de modo de automatizar la descarga regular y
la conversión de estos PDF en archivos de Excel y Base de datos. Estamos
usando el conjunto de datos resultante con mƔs de 285.000 registros para
nuestras investigaciones y visualizaciones, tanto en versión impresa
como online. AdemƔs, estamos difundiendo estos datos en formato legible
por computadora para que todo argentino pueda utilizarlos y
compartirlos.

El siguiente paso fue identificar cuƔnto le cuesta en promedio al
gobierno el mantenimiento mensual de un vehĆ­culo de transporte pĆŗblico.
Para descubrirlo consultamos otro sitio oficial, el 
[de la Comisión Nacional de Regulación del Transporte](http://www.cnrt.gov.ar/index2.htm), 
responsable de la regulación del transporte en la Argentina. En este sitio encontramos una
lista de compañías de ómnibus que poseen en total 9000 vehículos.
Desarrollamos un normalizador para permitirnos conciliar los nombres de
las compaƱƭas de transporte y hacer referencias cruzadas entre los 2
conjuntos de datos.

Para continuar, necesitÔbamos el número de registro de cada vehículo. En
el sitio de la CNRT encontramos una lista de vehĆ­culos discriminados por
línea de colectivo y compañía, con sus números de licencia. En
Argentina, estos registros estƔn compuestos de letras y cifras que se
corresponden con la edad del vehĆ­culo. Por ejemplo, mi auto tiene el
nĆŗmero de registro IDF234, y la ā€œIā€ corresponde a marzo-abril 2011.
Hicimos el cÔlculo inverso a partir de las licencias de los ómnibus
propiedad de las compaƱƭas registradas, para descubrir la edad promedio
de los ómnibus y mostrar cuÔnto dinero recibe cada compañía y finalmente
comparar los montos en base a la edad promedio de sus vehĆ­culos.

En medio de este proceso, cambió misteriosamente el contenido de los PDF
oficiales con los datos, aunque las URL y los nombres de los archivos no
se modificaron. En algunos PDF ahora faltaban los ā€œtotalesā€ verticales,
lo que hace imposible cruzar los mismos en todo el perĆ­odo investigado,
2002-2011.

Llevamos este caso a un hackatón organizado por Hacks/Hackers en Boston,
donde el programador Matt Perry generosamente creó lo que llamamos el
ā€œEspĆ­a de PDFā€. Esta aplicación ganó la categorĆ­a ā€œmĆ”s intriganteā€ en
ese evento. El [EspĆ­a de PDFs](http://gristlabs.com/2011/09/24/pdfspy/)
apunta a una pƔgina web llena de PDF y verifica si el contenido dentro
de los PDF ha cambiado. ā€œNunca serĆ”n engaƱados nuevamente por la
supuesta ā€œtransparencia del gobiernoā€™ā€, escribe Matt Perry.

![Comparación de antigüedad de flotas con el monto de dinero que reciben del Estado (La Nación)](figs/incoming/03-LL-03.jpg)

#### ¿Quién trabajó en el proyecto?

Un equipo de 7 periodistas, programadores y un diseƱador interactivo
durante 13 meses.

Las capacidades que necesitamos para este proyecto fueron:

-   Periodistas con conocimiento sobre cómo funcionan los subsidios para
    el sistema de transporte público y cuÔles eran los riesgos;
    conocimiento del mercado de compañías de ómnibus.
-   Un programador capacitado en recopilar datos de la red, su anƔlisis,
    normalización y extracción de datos de PDF a planillas de cÔlculo
    Excel.
-   Un especialista en estadƭstica para el anƔlisis de los datos y los
    distintos cƔlculos.
-   Un diseƱador para producir las visualizaciones interactivas de
    datos.

#### ¿Qué herramientas utilizamos?

Usamos VBasic para aplicaciones, Excel Macros, Tableau Public y la
Plataforma Abierta de datos Junar, asĆ­ como Ruby on Rails, la API de
cuadros Google, y Mysql para el Explorador de Subsidios.

El proyecto tuvo gran impacto. Hemos tenido decenas de miles de visitas
y la investigación apareció en la primera plana de la edición impresa de
La Nación.

El éxito de este primer proyecto de periodismo de datos nos ayudó
internamente para argumentar en favor de la creación de una operación de
datos que cubra periodismo de investigación y provea servicio al
público. Esto resultó en Data.lanacion.com.ar, una plataforma donde
publicamos datos abiertos sobre distintos tópicos de interés público en
formatos procesables por computadora.

— *AngĆ©lica Peralta Ramos, La Nación (Argentina)*


## Ciudadanos periodistas de datos

No solo las grandes redacciones pueden trabajar en historias basadas en
datos. Las mismas capacidades que son Ćŗtiles para los periodistas de
datos tambiƩn pueden ayudar a ciudadanos periodistas a acceder a datos
sobre sus localidades y convertirlos en historias.

Ese fue la principal motivación para el proyecto de medios ciudadanos de
[Amigos de JanuƔria](http://amigosdejanuaria.wordpress.com/), en Brasil,
que recibió un subsidio 
([de Rising Voices](http://rising.globalvoicesonline.org/), la rama de extensión de
[Global Voices Online](http://globalvoicesonline.org/) y apoyo adicional
de [la organización Article 19](http://www.article19.org/). Entre
septiembre y octubre de 2011, un grupo de jóvenes residentes de un
pequeƱo pueblo localizado al norte del estado de Minas Gerais, una de
las regiones mƔs pobres de Brasil, fue capacitado en tƩcnicas bƔsicas de
periodismo y control de presupuesto. También aprendió cómo hacer pedidos
de acceso a la información y cómo obtener información pública de bases
de datos oficiales en internet.

![El proyecto de medios ciudadanos Amigos de JanuƔria da capacidades claves a los ciudadanos para convertirlos en periodistas de datos](figs/incoming/03-XX.jpg)

JanuƔria, un pueblo de aproximadamente 65.000 residentes, tambiƩn es
conocido por las fallas de sus polĆ­ticos locales. En 3 perĆ­odos de 4
aƱos tuvo 7 alcaldes diferentes. Casi todos fueron removidos de sus
funciones por mal desempeƱo en sus administraciones, incluyendo
acusaciones de corrupción.

Los pequeños pueblos como JanuÔria a menudo no atraen la atención de los
medios brasileƱos, que tienden a concentrarse en ciudades mayores y
capitales de estado. Sin embargo hay una oportunidad para que los
residentes de pequeƱos pueblos se conviertan en aliados potenciales en
el monitoreo de la administración pública, porque conocen mejor que
nadie los desafĆ­os cotidianos que enfrentan las comunidades locales.
Teniendo a Internet como otro aliado importante, los residentes ahora
pueden acceder mejor a datos del presupuesto y otra información local.

Luego de participar de 12 talleres, algunos de los nuevos ciudadanos
periodistas de JanuÔria comenzaron a demostrar cómo este concepto de
acceder a datos públicos en pequeños pueblos puede ponerse en prÔctica.
Por ejemplo, Soraia Amorim, una periodista ciudadana de 22 aƱos,
escribió una historia sobre una cantidad de doctores que estÔ en la
nómina municipal según datos del gobierno federal. Sin embargo,
descubrió que la cifra oficial no se correspondía con la situación en el
pueblo. Para escribir esta pieza, Soraia tuvo acceso a datos de salud,
que estƔn disponibles online en [el sitio del SUS](http://bit.ly/tabnet-datasus)
(Sistema Único de Saúde,un programa federal que provee ayuda médica gratuita 
a la población brasileña. Según los datos de US, JanuÔria debiera tener 71 doctores
en varias especialidades de salud.

El nĆŗmero de doctores indicado por los datos de SUS no se correspondĆ­a
con lo que Soraia sabĆ­a acerca de los doctores de la zona: los
residentes siempre se quejaban de la falta de doctores y algunos
pacientes tenĆ­an que viajar a pueblos vecinos para ver un profesional.
MÔs tarde entrevistó a una mujer que había estado recientemente en un
accidente de motocicleta, y no pudo conseguir ayuda mƩdica en el
hospital de JanuÔria porque no había ningún doctor disponible. También
habló con el secretario de Salud del pueblo, que reconoció que había
menos doctores en el pueblo de lo que indicaba la cifra publicada por el
SUS.

Estas conclusiones iniciales plantean muchos interrogantes respecto de
los motivos de estas diferencias entre la información oficial publicada
online, y la realidad del pueblo. Uno de ellos es que los datos
federales pueden estar equivocados, lo que significarĆ­a que hay una
importante falta de información de salud en Brasil. Otra posibilidad
puede ser que JanuÔria estÔ reportando incorrectamente la información al
SUS. Ambas posibilidades debieran llevar a una investigación mÔs
profunda para encontrar la respuesta definitiva. Sin embargo, la
historia de Soria es una parte importante de esta cadena porque destaca
una inconsistencia y puede tambiƩn alentar a otros a analizar esta
cuestión con mÔs detenimiento.

ā€œYo antes vivĆ­a en el campo y terminĆ© la secundaria con mucha
dificultadā€, dice Soraia. ā€œCuando la gente me preguntaba quĆ© querĆ­a
hacer de mi vida, siempre dije que querĆ­a ser periodista. Pero imaginaba
que era casi imposible debido al mundo en el que vivĆ­aā€. Luego de
participar en la capacitación de Amigos de JanuÔria, Soraia cree que el
acceso a datos es una herramienta importante para cambiar la realidad de
su pueblo. ā€œMe siento capaz de ayudar a cambiar mi pueblo, mi paĆ­s, el
mundoā€, agrega.

Otro periodista ciudadano del proyecto es Alyson MontiƩriton, de 20
años, que también usó datos para un artículo. Fue durante la primera
clase del proyecto, cuando los periodistas ciudadanos caminaron por la
ciudad en busca de temas que pudieran convertirse en historias, que
Alysson decidió escribir sobre un semÔforo roto ubicado en una
intersección muy importante, que había permanecido en ese estado desde
el comienzo del aƱo. Luego de aprender a conseguir datos en Internet,
buscó la cantidad de vehículos que existe en el pueblo y la cantidad de
impuestos que pagan los dueños de autos. Escribió:

La situación en JanuÔria empeora debido al alto número de vehículos en
el pueblo. SegĆŗn el IBGE (el instituto de investigaciones estadĆ­sticas
mƔs importante de Brasil), JanuƔria tenƭa 13771 vehƭculos (entre ellos
7979 motos) en 2010… Los residentes del pueblo creen que la demora en
arreglar el semÔforo no es resultado de la falta de recursos. Según el
Secretario del Tesoro del estado de Minas Gerais, el pueblo recibió
470.000 reales en impuestos sobre vehĆ­culos en 2010.

Teniendo acceso a los datos, Alysson pudo mostrar que JanuƔria tiene
muchos vehƭculos (casi 1 por cada 5 residentes) y que un semƔforo roto
podƭa poner en peligro a mucha gente. Lo que es mƔs, pudo decirle a su
pĆŗblico la cantidad de fondos recibidos por el pueblo de impuestos
pagados por dueƱos de vehƭculos y basado en ello cuestionar si este
dinero no serƭa suficiente para reparar el semƔforo garantizando
condiciones de seguridad a conductores y peatones.

Si bien las 2 historias escritas por Soraia y Alysson son muy simples,
muestran que los datos pueden ser usados por cronistas ciudadanos. No se
necesita estar en una gran redacción con muchos especialistas para usar
datos en sus artĆ­culos. Luego de 12 talleres, Soraia y Alysson, ninguno
de los cuales ha estudiado periodismo, pudieron trabajar en historias
basadas en datos y escribir piezas interesantes sobre su situación
local. AdemƔs sus artƭculos muestran que los datos mismos pueden ser
útiles incluso a escala pequeña. Dicho de otro modo también hay
información valiosa en conjuntos de datos y tablas pequeñas, no solo en
bases de datos inmensas.

— *Amanda Rossi, Friends of JanuĆ”ria*


## El gran cuadro de resultados electorales

Los resultados electorales ofrecen grandes oportunidades para contar
historias de forma visual para cualquier organización de noticias, pero
durante aƱos esta fue para nosotros una oportunidad perdida. En 2008 con
los diseƱadores grƔficos nos propusimos cambiar eso.

QuerĆ­amos encontrar una manera de desplegar resultados que contara una
historia y que no se viera como simplemente una mezcla de cifras en una
tabla o mapa. En anteriores elecciones eso es exactamente
[lo](http://nyti.ms/senate-1) [que](http://nyti.ms/senate-2)
[hicimos](http://nyti.ms/senate-3).

No es que una gran bolsa de nĆŗmeros –lo que llamo el ā€œmodelo CNNā€ de
tablas, tablas y mƔs tablas- tenga algo de malo necesariamente. Funciona
porque da al lector lo que quiere saber: quién ganó.

Y es peligroso meterse con algo que no estĆ” roto. Al hacer algo
radicalmente diferente y alejarnos de lo que la gente espera podrĆ­amos
haber hecho mƔs confusas las cosas.

Por fin, fue Shan Carter de la mesa de diseƱo el que dio la respuesta
adecuada, lo que terminamos llamando el ā€œgran cuadroā€. Cuando vi los
bosquejos por primera vez, fue literalmente una cachetada a la cara.

Era exactamente lo que habĆ­a que hacer.

![El gran cuadro de resultados electorales (New York Times)](figs/incoming/03-ZZ-ZZ.png)

¿Qué es lo que hace de esto una gran pieza de periodismo visual? Por
empezar, la mirada del lector es atraĆ­da inmediatamente a la gran barra
que muestra los votos del colegio electoral arriba, lo que en el
contexto periodĆ­stico podrĆ­amos llamar el \_copete.\_Le dice al lector
exactamente lo que quiere saber y lo hace de modo rƔpido, simple y sin
ruido visual.

A continuación el lector es atraído al agrupamiento de estados en 5
columnas mƔs abajo, organizado de acuerdo a la probabilidad que el Times
asignaba a que un estado dado se inclinara por uno u otro candidato. En
la columna del medio estĆ” lo que en el contexto periodĆ­stico podrĆ­amos
llamar nuestro *grÔfico central*, donde explicamos por qué Obama ganó.
El interactivo lo deja totalmente claro: Obama se quedó con los estados
que se preveƭa y 4 de los 5 mƔs disputados.

Para mi esta construcción en 5 columnas es un ejemplo de cómo el
periodismo visual difiere de otras formas de diseƱo. Idealmente una gran
pieza de periodismo visual serĆ” tanto hermosa como informativa. Pero
cuando tiene que decidir entre la historia y la estƩtica, el periodista
debe volcarse para el lado de la historia. Aunque este diseƱo puede no
ser la manera en que un diseƱador puro podrƭa preferir presentar los
datos, presenta la historia muy, pero muy bien.

Y finalmente, como cualquier buen recurso interactivo de la red, este
invita al lector a profundizar mƔs. Hay detalles como porcentajes de
votos, estado por estado, informes de la cantidad de votos electorales y
porcentajes deliberadamente colocados en un segundo plano para no
competir con lo principal de la historia.

Todo esto hace que el ā€œgran cuadroā€ sea una gran pieza de periodismo
visual que hace un mapa casi perfecto siguiendo el esquema probado de la
pirƔmide invertida.

— *Aron Pilhofer, New York Times*


## Consulta sobre el precio del agua

Desde marzo de 2011, la información sobre el agua de la canilla en toda
Francia se obtiene a travƩs de un experimento de consulta a la
población. En solo 4 meses, mas de 5000 personas hartas del control
corporativo del mercado de agua se tomaron el tiempo de buscar su
factura, escanearla y cargarla en [el proyecto Prix de
l’Eau](http://www.prixdeleau.fr/) (ā€œprecio del aguaā€); El resultado es
una investigación sin precedentes que reunió técnicos, ONG y medios
tradicionales para mejorar la transparencia en torno de proyectos de
agua.

![El precio del agua (Fundación France Liberté)](figs/incoming/03-WW.jpg)

El mercado de servicios de agua consiste en mƔs de 10.000 clientes
(ciudades que compran agua para distribuir a sus contribuyentes) y sólo
un puñado de compañías. La relación de fuerzas en este oligopolio estÔ
distorsionado en favor de las corporaciones, que en algunos casos cobran
precios distintos a pueblos vecinos.

La ONG francesa France LibertƩs ha estado tratando con cuestiones de
agua en todo el mundo en los últimos 25 años. Ahora se concentra en
mejorar la transparencia del mercado francƩs y en dar poder a ciudadanos
y alcaldes que negocian acuerdos de servicios de agua. El gobierno
francés decidió enfrentar el problema hace 2 años con un censo nacional
del precio y la calidad el agua. Hasta ahora sólo se ha recogido el 3%
de los datos. Para ir mƔs rƔpido, [France LibertƩs](http://www.france-libertes.org/) 
querĆ­a involucrar ciudadanos directamente.

Junto con el equipo OWNI diseƱƩ una interfaz para la consulta en la que
los usuarios estudiaban su factura de agua e ingresaban el precio que
pagaban por el agua de la canilla en
[prixdeleau.fr/](http://www.prixdeleau.fr/). En los Ćŗltimos 4 meses,
8500 se inscribieron y sean cargado y validado mƔs de 5000 facturas.

Si bien esto no permite una evaluación perfecta de la situación del
mercado, le mostró a los interesados, tales como los entes de
supervisión del agua, que había una preocupación genuina, a nivel
popular, por el precio del agua corriente. Al principio eran escƩpticos
respecto de la transparencia, pero cambiaron de idea en el curso de la
operación, sumÔndose progresivamente a France Libertés en su lucha
contra la opacidad y la mala praxis corporativa. ¿Qué pueden aprender de
esto las organizaciones de medios?

 Asociarse con ONG 

:   Las ONG necesitan gran cantidad de datos para diseƱar trabajos de
    política. EstarÔn mÔs dispuestas a pagar por una operación e
    recolección de datos que un ejecutivo de diario.

 Los usuarios pueden aportar datos en crudo 

:   Las consultas funcionan del mejor modo cuando los usuarios cumplen
    una tarea de recolección de datos o refinado de datos.

 Pedir la fuente de la información 

:   Evaluamos si pedir a los usuarios una copia de la factura original,
    pensando que disuadirĆ­a a algunos de ellos (especialmente dado que
    nuestro pĆŗblico era mayor en promedio). Si bien pudo haber sido una
    traba para algunos, aumentó la credibilidad de los datos.

 Crear un mecanismo de validación 

:   Diseñamos un sistema de puntaje y un mecanismo [de revisión por los
    pares](http://www.prixdeleau.fr/valider) para controlar los aportes
    de los usuarios. Esto demostró ser demasiado engorroso para los
    usuarios, que tenĆ­an pocos incentivos para hacer visitas repetidas
    al sitio. Pero fue utilizado por el equipo de France LibertƩs, cuyos
    empleados, alrededor de 10, se sintieron motivados por el sistema de
    puntaje.

 Mantenerlo simple 

:   Creamos un mecanismo de correo automatizado de modo que los usuarios
    pudieran presentar un pedido de acceso a la información respecto de
    precios del agua con solo unos pocos clics. Aunque innovador y bien
    diseñado, este recurso no generó un número sustancial de pedidos
    (solo 100 fueron enviados).

 Defina su pĆŗblico 

:   France Libertés se asoció con la revista dedicada a los derechos de
    los consumidores *60 Millions de Consommateurs*, que lograron una
    gran participación de su comunidad. Fue la unión prefecta para esta
    operación.

 Elija cuidadosamente sus indicadores claves de desempeƱo 

:   El proyecto tuvo solo 45.000 visitantes en 4 meses, equivalente a 15
    minutos de trƔfico en [nytimes.com](http://www.nytimes.com/). Lo
    importante es que 1 de cada 5 se inscribió y 1 de cada 10 se tomó el
    tiempo de escanear y subir su factura.

— *Nicolas Kayser-Bril, Journalism++*


# Obtener datos

![](figs/incoming/04-00-cover.png)

AsĆ­ que estĆ” listo para comenzar con su primer proyecto de periodismo de
datos. ¿Y ahora qué? Primero necesita algunos datos. Esta sección
analiza de dónde puede obtenerlos. Aquí aprenderemos cómo encontrar
datos en la red, cómo pedirlos usando las leyes de acceso a la
información, cómo usar el "screen scraping" (peinado de pantalla) para
recoger datos de fuentes no estructuradas, y cómo usar la ā€œcolaboración
del pĆŗblicoā€ (crowdsourcing) para obtener sus propios conjuntos de datos
de sus lectores. Finalmente analizamos lo que dicen las leyes respecto
de la re-edición de conjuntos de datos, y cómo usar herramientas legales
simples para permitir a otros reutilizar sus datos.

### QuƩ contiene este capƭtulo?

-   [Una guĆ­a para trabajos de campo de 5 minutos](obtener_datos_0.html)
-   [Su Derecho a la Información](obtener_datos_1.html)
-   [El Wobbing\* funciona. ”Úselo!](obtener_datos_2.html)
-   [Obtener datos de la red](obtener_datos_3.html)
-   [La red como fuente de datos](obtener_datos_4.html)
-   [Herramientas web](obtener_datos_5.html)
-   [Crowdsourcing en el Datablog de The Guardian](obtener_datos_6.html)
-   [Cómo el Datablog usó "crowdsourcing" para cubrir la venta de
    entradas para las OlimpĆ­adas](obtener_datos_7.html)
-   [Usar y compartir datos: las reglas tƩcnicas legales, la letra chica
    y la realidad](obtener_datos_8.html)


## Una guĆ­a para trabajos de campo de 5 minutos

¿Busca datos sobre un tópico o cuestión particular? ¿No estÔ seguro de
qué es lo que hay o dónde encontrarlo? ¿No sabe por dónde empezar? En
esta sección analizamos cómo comenzar la búsqueda de fuentes de datos
pĆŗblicos en la red.

#### Ajustar la bĆŗsqueda

Aunque pueden no ser siempre fƔciles de encontrar, muchas bases de datos
en la red estÔn indexadas por motores de búsqueda, fuera ello o no la
intención del editor. Unos cuantos consejos:

-   Cuando busque datos asegúrese de incluir tanto términos de búsqueda
    relacionados con el contenido de los datos que trata de encontrar,
    como algo de información sobre el formato o la fuente en la que
    prevé encontrarlos. Google y otros motores de búsqueda le permiten
    buscar por tipo de archivo. Por ejemplo, puede buscar solo planillas
    de cĆ”lculo (agregando a su bĆŗsqueda ā€œfiletype:XLS filetype:CSVā€),
    datos geogrĆ”ficos (ā€œfiletype:shpā€), o extractos de bases de datos
    (ā€œfiletype:MDB, filetype:SQL, filetype:DB). Si asĆ­ lo desea incluso
    puede buscar PDF (ā€œfiletype:pdfā€).

-   También puede buscar con una parte de una URL. Hacer una búsqueda en
    Google de ā€œinurl:donwloads filetype:xlsā€ o ā€œinurl:descargas
    filetype:xlsā€ significa buscar todos los archivos Excel que tienen
    ā€œdownloadsā€ o ā€œdescargasā€ en su dirección de la red (si encuentra
    una sola descarga, a menudo vale la pena simplemente verificar quƩ
    otros resultados existen para la misma carpeta en el servidor de la
    red). También puede limitar su búsqueda solo a aquellos resultados
    dentro de un solo nombre de dominio, buscando ā€œsite:agency.govā€,
    por ejemplo.

-   Otro truco popular es no buscar determinado contenido directamente,
    sino lugares donde puede haber datos disponibles en gran cantidad.
    Por ejemplo ā€œsitio:ente.gov Directory Listingā€ puede darle algunos
    listados generados por el servidor de la red con fƔcil acceso a
    archivos en bruto, mientas que ā€œsitio:ente.gov Database Downloadā€
    buscarĆ” listados creados intencionalmente.

> Ir Directo a la fuente

> El primer truco que uso para obtener datos que estƔn en manos de un ente
pĆŗblico es tratar de ir directo a quien tiene los datos, no la persona
de relaciones públicas, ni a través de un pedido de acceso a la
información (PAI). Podría por supuesto hacer un PAI o un pedido de
registros pĆŗblicos, pero eso hace que los engranajes comiencen a girar
con lentitud. Es probable que reciba la respuesta de que los datos no
estƔn en el formato que solicitƩ o (tal como ha sucedido en algunos
casos) que el ente oficial usa un software propio y no puede extraer los
datos en el formato que requerĆ­. Pero si empiezo por llegar a la persona
que maneja los datos para esa organización, puedo hacer preguntas
respecto de qué datos tienen sobre el tema y cómo los guardan. Puedo
conocer el formato, hablar en el lenguaje de los datos y descubrir lo
que necesito saber para pedir los datos y tener éxito. ¿Las barreras que
se enfrentan en este caso? A menudo es difĆ­cil llegar a estas personas.
El encargado/a de Información Pública (EIP) va a querer que trate
directamente con Ʃl/ella. En esos casos he descubierto que lo mejor es
tratar de organizar una llamada colectiva o, aún mejor, una reunión en
persona con el/la EIP, el gurĆŗ de datos, y yo. Y lo puedo organizar de
un modo que les resulte difĆ­cil decir que no. ā€œNo quiero darles
trabajoā€, digo. ā€œNo quiero crear una carga innecesaria ni hacer un
pedido demasiado amplio, de modo que una reunión me ayudarÔ a entender
exactamente lo que tienen y cómo pedir exactamente lo que necesitoā€.

> Si este mƩtodo no funciona, la alternativa es hacer un pedido de conocer
cómo estÔ organizado su archivo y su diccionario de datos. Entonces pido
los datos efectivamente. A veces pregunto también cómo guardan y qué
sistema usan. De ese modo puedo investigar de quƩ modo exportar los
datos antes de escribir mi pedido.

> Por último, mi mejor historia de éxito es de cuando estaba trabajando en
un pequeƱo diario en Montana. Necesitaba algunos datos de paƭses, me
dijeron que no podƭan exportarse de la computadora central. InvestiguƩ
un poco y ofrecƭ ir a ayudarlos. TrabajƩ con la persona de datos,
hicimos un pequeño guión y copiamos los datos a un disquete (esto fue
hace mucho tiempo). TenĆ­a mis datos y el condado ahora estaba en
condiciones de proveer los datos a cualquiera que los pidiera. No
querƭan que eso sucediera, pero a veces ellos tambiƩn necesitaban
extraer datos y no entendĆ­an su sistema por completo, de modo que nos
ayudamos entre todos.

> — *Cheryl Philips, The Seattle Times*

#### Explore sitios y servicios de datos

En los últimos años han aparecido una cantidad de portales y centros de
datos dedicados y otros sitios de datos en la red. Son buenos lugares
para llegar a conocer los tipos de datos que hay. Para empezar podrĆ­a
ver:

![datacatalogs.org (Open Knowledge Foundation)](figs/incoming/04-01.png)

 Portales oficiales de datos 

:   La disposición del gobierno a entregar ciertos conjuntos de datos
    varĆ­a de paĆ­s en paĆ­s. Un nĆŗmero creciente de paĆ­ses estĆ” lanzando
    portales de datos (inspirados por el data.gov de EE.UU. y el
    data.gov.uk del R.U.) para promover la reutilización civil y
    comercial de información oficial. Se puede encontrar un índice
    global actualizado de tales sitios en
    [datacatalogs.org/](http://datacatalogs.org/). Otro sitio prƔctico
    es el [Guardian World Government
    Data](http://www.guardian.co.uk/world-government-data), un
    meta-motor de búsquedas que incluye muchos catÔlogos de datos
    gubernamentales internacionales.

 [El Data Hub](http://thedatahub.org/) 

:   Un recurso comunitario manejado por la Open Knowledge Foundation que
    facilita buscar, compartir y re-utilizar fuentes de datos
    abiertamente disponibles, especialmente de maneras automatizadas.

 [Scraperwiki](https://scraperwiki.com/) 

:   Una herramienta online para hacer que el proceso de extraer ā€œdatos
    útiles sea mÔs fÔcil de modo que puedan ser utilizados en otras
    aplicaciones o que periodistas e investigadores puedan *scrapear*
    en ellosā€. La mayorĆ­a de los "scrapers" y sus bases de datos son
    pĆŗblicos y pueden ser reutilizados.

Portales de datos del [Banco Mundial](http://data.worldbank.org/) y las
[Naciones Unidas](http://data.un.org/)::

Estos servicios ofrecen indicadores de alto nivel para todos los paĆ­ses
y en muchos casos cubren muchos aƱos.

[Buzzdata](http://buzzdata.com/),
[Infochimps](http://www.infochimps.com/) y
[DataMarket](http://datamarket.com/)::

Sitios nuevos que apuntan a crear comunidades dedicadas a compartir
datos y su reventa.

 [DataCouch](http://datacouch.com/) 

:   Un lugar donde subir, refinar, compartir y visualizar sus datos.

 [Freebase](http://www.freebase.com/) 

:   Una interesante subsidiaria de Google que ofrece ā€œun grĆ”fico de
    entidades de gente, lugares y cosas, creado por una comunidad amante
    de la información abiertaā€.

 Datos de investigación 

:   Hay compiladores nacionales y disciplinarios de datos de
    investigación como el [UK Data
    Archive](http://www.data-archive.ac.uk/). Si bien hay mucha
    información gratuita en el punto de acceso, también hay muchos datos
    que requieren una suscripción, o que no pueden ser reutilizados o
    redistribuidos sin obtener autorización.

Obtener datos de archivos de papel

Justo después de la difusión por WikiLeaks de documentos militares de
EE.UU. sobre AfganistƔn e Irak, decidimos adaptar el concepto para
conmemorar el 50 aniversario de la Guerra de Argelia publicando los
Diarios de la Guerra de Argelia. Nos propusimos obtener y digitalizar
los archivos del EjƩrcito FrancƩs en Argelia. Estos estƔn disponibles en
el archivo del ministerio de Guerra en ParĆ­s, aunque en formato impreso.
Enviamos a nuestros periodistas y estudiantes a tomar fotografĆ­as de los
documentos. Tratamos de escanearlos usando un scanner Canon P-150
portÔtil, pero no funcionó principalmente porque gran parte de los
archivos estƔn abrochados.

Por fin se recogieron alrededor de 10000 pƔginas en pocas semanas. Las
pasamos por un software de reconocimiento de texto (ABBYY FineReader)
que produjo resultados pobres. Lo que es mƔs, el ministerio
arbitrariamente negó acceso a las cajas mÔs interesantes de archivos.
Por encima de todo, el ministerio prohĆ­be reeditar documentos que pueden
ser fotografiados libremente en el lugar, por lo que decidimos que no se
justificaba el riesgo y el proyecto quedó en suspenso.

— *Nicolas Kayser-Bril, Journalism++*

#### Pregunte en un foro

Busque respuestas existentes o haga una pregunta en 
[Get The Data](http://getthedata.org/) o [Quora](http://www.quora.com/).
GetTheData es un sitio de preguntas y respuestas donde puede hacer sus
preguntas relacionadas con datos, incluyendo donde encontrar datos
relacionados con un asunto particular, cómo interrogar o encontrar una
determinada fuente de datos, quƩ herramientas usar para explorar de modo
visual, como expurgar datos, o ponerlos en un formato con el que pueda
trabajar.

#### Pregunte en una lista de correo

Las listas de correo aprovechan la sabidurĆ­a de una comunidad entera
sobre un tópico particular. Para los periodistas de datos, la
[Data-Driven Journalism List](http:/bit.ly/ddj-list) y la
[NICAR-L](http://bit.ly/nicar-subscribe/) son excelentes puntos de
partida. Ambas listas estƔn pobladas de periodistas de datos y expertos
en Periodismo Asistido por Computadora (Computer-Assisted Reporting –
CAR) que trabajan en todo tipo de proyectos. Es posible que alguien haya
hecho una historia como la suya y puede tener una idea de por dónde
empezar, si es que no un vĆ­nculo directo con los datos que busca.
TambiƩn podrƭa probar con [Project Wombat](http://project-wombat.org/);
(ā€œuna lista de discusión para preguntas de referencia difĆ­cilesā€), las
muchas listas de correo de [la Open Knowledge
Foundation](http://lists.okfn.org/mailman/listinfo), listas de correo en
[the Info](http://theinfo.org/), o buscar listas de correo sobre el
tópico o en la región que estÔ interesado.

#### SĆŗmese a Hacks/Hackers

[Hacks/Hackers](http://hackshackers.com/) es una organización
periodística internacional de base en rÔpida expansión con docenas de
secciones y miles de miembros en 4 continentes. Su misión es crear una
red de periodistas (ā€œHacksā€) y tecnólogos (Hackersā€) que reflexionan
sobre el futuro de las noticias y la información. Con una red tan
amplia, tiene grandes probabilidades de encontrar a alguien que sepa
dónde encontrar lo que busca.

#### Pregunte a un experto

Profesores, empleados pĆŗblicos y gente de los distintos sectores a
menudo saben dónde buscar. LlÔmelos. MÔndeles un correo electrónico.
Abórdelos en eventos. Aparézcase en su oficina. Pregunte amablemente.
ā€œEstoy escribiendo una historia sobre X. ĀæDónde encuentro esto? ĀæSabe
quiĆ©n tiene esto?ā€

#### Conozca la TI (Tecnologƭa InformƔtica) de los entes oficiales

A menudo ayuda entender el contexto tƩcnico y administrativo en el que
los entes oficiales tienen su información cuando se quiere acceder a
datos. Se trate de CORDIS, COINS o THOMAS, las grandes bases de datos a
menudo resultan mÔs útiles cuando uno conoce algo del objetivo con el
que se crearon.

Encuentre los cuadros organizativos de los entes oficiales y busque
departamentos/unidades con una función que los atraviese (por ejemplo,
informaciones, servicios TI), luego explore sus sitios en la red. Muchos
datos se archivan en distintos departamentos y mientras que para uno de
ellos la base de datos que le interesa puede ser su tesoro, otro puede
dƔrsela sin problemas.

Busque infografƭas dinƔmicas de sitios oficiales. Estas a menudo se
basan en fuentes de datos estructurados/API que pueden ser usadas de
modo independiente (por ejemplo, aplicaciones que rastrean vuelos,
aplicaciones Java que pronostican el clima).

> Investigar registros de llamadas telefónicas

> Hace pocos meses quise analizar los registros de llamadas telefónicas
del gobernador de Texas, Rick Perry (por entonces candidato
presidencial). Fue el resultado de un pedido, largamente esperado, de
registros pĆŗblicos estaduales. Los datos vinieron esencialmente en el
formato de mƔs de 120 pƔginas de documentos en calidad de fax. Era un
esfuerzo que requerĆ­a ingresar datos y expurgarlos, seguido del uso de
una aplicación que permitiera buscar en la guía los titulares de los
telƩfonos con los que se habƭa comunicado el gobernador.

> Combinando nombres con datos electorales estaduales y federales,
descubrimos que Perry tomó contacto con donantes a su campaña y con
súper comités de acción política (los llamados super PAC, que
supuestamente no deben organizar la recolección de fondos) 
[desde teléfonos de oficinas públicas estaduales](http://bo.st/perry-phone),
prÔctica mal vista y que planteó interrogantes sobre los vínculos entre
Ć©l y un ā€œsuper PACā€ que trabaja para Ć©l.

> — *Jack Gillum, Associated Press*

#### Busque nuevamente

Cuando sepa mƔs sobre lo que estƔ buscando, vuelva a buscar usando
frases y conjuntos de palabras improbables que descubrió desde la última
vez. ”QuizÔ tenga mÔs suerte con los motores de búsqueda!

#### Escriba un pedido de acceso a la información

Si usted cree que un ente oficial tiene los datos que necesita, un
Pedido de Acceso a Información puede ser su mejor herramienta. Vea la
siguiente sección para mÔs información respecto de cómo presentarlo.

— *Brian Boyer (Chicago Tribune), John Keefe (WNYC), Friedrich
Lindenberg (Open Knowledge Foundation), Jane Park (Creative Commons),
Chrys Wu (Hacks/Hackers)*

> Cuando falla la ley
> Luego de leer un [artƭculo acadƩmico](http://bit.ly/hygiene-inspections)
que explica que publicar el resultado de inspecciones de higiene en
restaurantes redujo la cantidad de enfermedades relacionadas con
alimentos en Los Ɓngeles, pedƭ a los servicios de higiene parisinos la
lista de inspecciones. Siguiendo el procedimiento establecido por la ley
de Acceso a la Información francesa, esperé 30 días su negativa a
contestar, entonces fui a la Comisión de Acceso a los Datos públicos
(CADA en francƩs), que determina la legitimidad de los pedidos de acceso
a información. CADA apoyó mi pedido y ordenó a la administración
entregar los datos. La administración a continuación pidió dos meses mÔs
y CADA lo aceptó. Dos meses mÔs tarde la administración aún no había
hecho nada.

> TratƩ de conseguir el apoyo de defensores del libre acceso a la
información famosos (y con muchos recursos) para presentar una demanda
legal (lo que hubiera costado € 5000 y se hubiera ganado sin duda con el
apoyo de CADA), pero temĆ­an complicar sus relaciones con los programas
de datos abiertos oficiales. Este ejemplo es uno entre muchos en los que
la administración francesa simplemente ignora la ley y las iniciativas
oficiales no hacen nada para apoyar pedidos de datos de periodistas
comunes.
> — *Nicolas Kayser-Bril, Journalism++*


## Su Derecho a la Información

Antes de hacer un pedido de acceso a información, debiera verificar si
los datos que estƔ buscando ya estƔn disponibles o si otros ya los han
pedido. El capítulo anterior tiene algunas sugerencias respecto de dónde
puede averiguar. Si ha estado mirando y aĆŗn no pudo conseguir los datos
que necesita, entonces puede querer presentar un pedido formal. Algunos
consejos que pueden ayudar a hacer mƔs efectivo su pedido.

 Planifique anticipadamente para ahorrar tiempo 

:   Piense en presentar un pedido formal de acceso cuando se proponga
    buscar información. Es mejor no esperar hasta haber agotado todas
    las demƔs posibilidades. AhorrarƔ tiempo presentado un pedido al
    comienzo de su investigación y desarrollando otras
    investigaciones paralelamente. EstƩ preparado para las demoras: a
    veces los entes pĆŗblicos tardan en procesar pedidos, por lo que es
    mejor prever esto.

 Verifique las normas respecto de aranceles 

:   Antes de comenzar a presentar un pedido, verifique las normas
    respecto de aranceles para presentar pedidos o recibir información.
    De ese modo, si un funcionario pĆŗblico de pronto le pide dinero,
    sabrÔ cuÔles son sus derechos. Puede pedir documentos electrónicos
    para evitar costos de copiado y correo, mencione en su pedido que
    prefiere tener la información en formato electrónico. De ese modo
    evitarÔ pagar un arancel, a menos por supuesto que la información no
    esté disponible electrónicamente, aunque en estos tiempos por lo
    general es posible escanear documentos que no estƔn digitalizados
    aún y luego enviarlos como agregado por correo electrónico.

 Conozca sus derechos 

:   Sepa cuƔles son sus derechos antes de comenzar, de modo de saber
    donde estƔ parado y quƩ cosas estƔn obligadas a hacer las
    autoridades y quƩ cosas no. Por ejemplo, la mayorƭa de las leyes de
    libre acceso a información establecen un plazo para que las
    autoridades respondan. Globalmente, en la mayorĆ­a de las leyes los
    plazos varĆ­an de unos pocos dĆ­as a un mes. AsegĆŗrese de conocer el
    plazo antes de comenzar y anote la fecha en la que presenta
    su pedido.

Los entes oficiales no estƔn obligados a procesar los datos para usted,
pero debieran darle todos los datos que tienen, y si son datos que
debieran tener para cumplir con sus obligaciones legales, por cierto que
debieran entregƔrselos.

 Diga que conoce sus derechos 

:   Habitualmente no se requiere que usted mencione las leyes de acceso
    a información o de libertad de información, pero esto se recomienda
    porque muestra que conoce sus derechos y esto probablemente promueva
    una respuesta acorde con el derecho vigente. SeƱalamos que en el
    caso de pedidos a la UE, es importante mencionar que es un pedido de
    acceso a documentos y es mejor mencionar especĆ­ficamente la
    Norma 1049/2001.

 HƔgalo simple 

:   En todos los paĆ­ses es mejor comenzar con un simple pedido de
    información y luego agregar mÔs preguntas cuando obtiene la
    información inicial. De ese modo no corre el riesgo de que el ente
    público pida extensión del plazo por tratarse de un
    ā€œpedido complejoā€.

 Concentre su pedido 

:   Un pedido de información que solo estÔ en manos de una parte de un
    ente público probablemente tenga respuesta mÔs rÔpida que un pedido
    que requiere una bĆŗsqueda en todo un ente. Un pedido que involucra
    que el ente consulte a terceros (p.ej., una empresa privada que
    aportó la información, otro gobierno que se ve afectado por
    la misma) puede llevar un tiempo particularmente prolongado.
    Sea persistente.

 Piense que hay dentro del archivo 

:   Intente averiguar quƩ datos se recogen. Por ejemplo, si recibe una
    copia en blanco del formulario que llena la policƭa despuƩs de
    accidentes de trÔfico, puede ver qué información toman en cuenta y
    cual no respecto de choques de autos.

 Sea especĆ­fico 

:   Antes de presentar su pedido piense: Āæes ambiguo en algĆŗn sentido?
    Esto es especialmente importante si piensa comparar datos de
    distintos entes pĆŗblicos. Por ejemplo, si pide cifras de los
    *últimos 3 años*, algunos entes le enviarÔn información de los
    últimos 3 años calendario y otros de los 3 últimos años financieros,
    los que no podrĆ” comparar directamente. Si decide ocultar su
    verdadero pedido en otro mƔs general, entonces debe hacer su pedido
    lo suficientemente amplio como para que abarque la información que
    quiere pero no tanto como para resultar poco claro o como para
    desalentar a las autoridades a responder. Los pedidos especĆ­ficos y
    claros tienden a tener respuestas mƔs celeras y mejores.

 Presente mĆŗltiples pedidos 

:   Si no estĆ” seguro donde presentar su pedido, nada le impide
    presentar su pedido a 2, 3 o mƔs entes al mismo tiempo. En algunos
    casos, los varios entes le darƔn distintas respuestas, pero esto en
    realidad le puede ser de ayuda en cuanto a darle un cuadro mƔs
    completo de la información disponible en la materia que investiga.

 Presente pedidos internacionales 

:   Cada vez hay mƔs posibilidades de presentar pedidos por vƭa
    electrónica, por lo que no importa donde vive. Alternativamente, si
    no vive en el paĆ­s en el que quiere presentar su pedido, puede en
    algunos casos enviar el pedido a la embajada y desde allĆ­ deben
    transferir el pedido al ente pĆŗblico competente. TendrĆ” que
    verificar en la embajada correspondiente si estƔn en condiciones de
    hacer esto: a veces el personal de la embajada no estĆ” capacitado en
    la cuestión del derecho a la información y si este parece ser el
    caso, es mƔs seguro presentar le pedido directamente al ente
    pĆŗblico correspondiente.

 Haga una prueba 

:   Si piensa mandar el mismo pedido a muchos entes pĆŗblicos, empiece
    por enviar un primer texto del pedido a unos pocos entes como
    ejercicio piloto. Esto le mostrarĆ” si estĆ” usando la terminologĆ­a
    adecuada para obtener el material que quiere y si es factible que
    contesten sus preguntas, de modo de poder revisar el pedido si fuera
    necesario antes de enviarlo a todos los destinatarios.

 Anticipe las excepciones 

:   Si cree que pueden aplicarse excepciones a su pedido entonces,
    cuando prepare sus preguntas, separe las preguntas relativas a
    información potencialmente delicada del resto de la información que
    el sentido comĆŗn dirĆ­a que no tiene porque ser motivo de
    una excepción. Luego divida sus preguntas en 2 y presente los 2
    pedidos por separado.

 Pida acceso a los archivos 

:   Si vive cerca del lugar donde se guarda la información (por ej., en
    la capital en la que se guardan los documentos), tambiƩn puede pedir
    inspeccionar los documentos originales. Esto puede ser de ayuda en
    la investigación de información que puede estar contenida en una
    gran cantidad de documentos que le gustaría ver. Tal inspección
    debiera ser gratuita y debe poder realizarse en un momento que sea
    razonable y conveniente para usted.

 ”Guarde registro! 

:   Haga su pedido por escrito y guarde una copia o un archivo de modo
    que en el futuro pueda demostrar que envĆ­o su pedido, en caso de
    tener que apelar por falta de respuesta. Esto tambiƩn le da
    evidencias de haber presentado el pedido si piensa hacer un artĆ­culo
    sobre el tema.

 HÔgalo público 

:   Acelere las respuestas haciendo público que presentó un pedido: si
    escribe o transmite la información de que se ha presentado el pedido
    puede crear presión sobre la institución pública para que procese y
    responda al pedido. Puede actualizar la información cuando reciba
    respuesta a su pedido si pasa el plazo y no hay respuesta, puede
    transformar esto en una noticia tambiƩn. Hacer esto tiene el
    beneficio adicional de educar al pĆŗblico respecto del derecho de
    acceso a la información y cómo funciona en la prÔctica.

<div class="admonitionblock">

+--------------------------------------+--------------------------------------+
| <div class="title">                  |               |
|                                      |                                      |
| Note                                 | TambiƩn hay varios servicios         |
|                                      | excelentes que puede usar para hacer |
| </div>                               | pĆŗblico su pedido y toda respuesta   |
|                                      | subsecuente, poniƩndolas a           |
|                                      | disposición del público en la red,   |
|                                      | tales como [¿Qué                     |
|                                      | saben?](http://www.whatdotheyknow.co |
|                                      | m/)                                  |
|                                      | para entes pĆŗblicos en el RU, [Frag  |
|                                      | den Staat](https://fragdenstaat.de/) |
|                                      | para entes pĆŗblicos alemanes, y [Ask |
|                                      | the EU](http://www.asktheeu.org/))   |
|                                      | para instituciones de la UE. El      |
|                                      | proyecto                             |
|                                      | [Alaveteli](http://www.alaveteli.org |
|                                      | /)                                   |
|                                      | estĆ” ayudando a crear servicios      |
|                                      | similares en docenas de paĆ­ses en    |
|                                      | todo el mundo.                       |
|                                      |                                      |
|                                      | </div>                               |
+--------------------------------------+--------------------------------------+

</div>

![ ¿Qué saben? (My Society)](figs/incoming/04-AA.png)

 Involucre a colegas 

:   Si sus colegas son escƩpticos respecto del valor de los pedidos de
    acceso a la información, una de las mejores maneras de convencerlos
    es escribir un artículo basado en información que obtuvo usando una
    ley de acceso a la información. También se recomienda mencionar en
    el artículo final o en su alocución por radio o televisión que usó
    la ley, como un modo de subrayar su valor y aumentando la conciencia
    del pĆŗblico de la existencia de ese derecho.

 Pida datos en crudo 

:   Si quiere analizar, explorar, o manejar datos usando una
    computadora, entonces debe pedir explĆ­citamente datos en formato
    electrónico que la mÔquina pueda leer. Puede clarificar esto
    especificando, por ejemplo, que requiere una información
    presupuestaria en un formato ā€œadecuado para su anĆ”lisis con
    software contableā€. TambiĆ©n puede querer pedir explĆ­citamente la
    información en forma desagregada o granular. Puede leer mÔs acerca
    de esto en este informe (<http://bit.ly/access-report>)

Preguntar sobre organizaciones eximidas de las leyes de acceso a la
información::

Usted puede querer investigar acerca de ONG, compaƱƭas privadas,
organizaciones religiosas y/u otras organizaciones que no estƔn
obligadas a entregar documentación bajo las leyes de acceso a la
información. Sin embargo es posible encontrar información acerca de
ellas a través de entes públicos que sí estÔn cubiertos por las leyes de
acceso a la información. Por ejemplo, puede preguntar a un departamento
o ministerio si han dado fondos o tratado con una compaƱƭa privada u ONG
específica y pedir documentos que respalden la información. Si necesita
mÔs ayuda para hacer su pedido de acceso a la información puede
consultar tambiƩn el [Legal Leaks](http://www.legalleaks.info/toolkit.html)

— *Helen Darbishire (Access Info Europe), Djordje Padejski (Knight
Journalism Fellow, Stanford University), Martin Rosenbaum (BBC), y
Fabrizio Scrollini (London School of Economics and Political Science)*


> Usar pedidos de acceso a la información para entender el gasto

> He usado pedidos de acceso a información de un par de maneras diferentes
para ayudar a cubrir COINS, la mayor base de datos de gasto, presupuesto
e información financiera del estado britÔnico. Al comienzo de 2010
George Osborne sostuvo que si era nombrado al frente del Tesoro, darĆ­a
acceso a COINS para facilitar una mayor transparencia. En ese momento
pareció una buena idea investigar los datos y la estructura de COINS por
lo que envíe unos cuantos pedidos de acceso a la información, uno para
[el esquema de la base de datos](http://bit.ly/wdtk-coins-1), otro para
la orientación que reciben los trabajadores del Tesoro cuando trabajan
con [COINS](http://bit.ly/wdtk-coins-2) y un tercero para el [contrato
del Tesoro con el proveedor de la base de
datos](http://bit.ly/wdtk-coins-3). Todo lo cual resultó en la
publicación de datos útiles. También pedí todos los códigos de gasto en
la base de datos, información [que también fue
publicada](http://bit.ly/wdtk-coins-4). Todo esto ayudó a entender COINS
cuando George Osborne llegó al Tesoro en mayo de 2010 y publicó COINS en
junio de 2010. Los datos de COINS fueron usados en una cantidad de
sitios de la red alentando al pĆŗblico a investigar los mismos,
incluyendo OpenSpending.org y el [Coins Data
Explorer](http://coins.guardian.co.uk/coins-explorer/search) de The
Guardian.

> Luego de investigar un poco mÔs pareció que faltaba una gran parte de la
base de datos: la Whole of Government Accounts (WGA) que son 1500
conjuntos de cuentas para entes con financiación estatal. Usé un [pedido
de acceso a la información para solicitar los datos WGA de
2008/09](http://bit.ly/wdtk-coins-5) pero no obtuve resultados. TambiƩn
pedĆ­ el informe de la oficina de auditorĆ­a para WGA, que esperaba que
explicara los motivos por los que la WGA no estaba en condiciones de
publicarse. Eso también [se me negó](http://bit.ly/wdtk-coins-6).

> En diciembre de 2011 la WGA fue publicada en los datos COINS. Sin
embargo quería asegurarme de que hubiera suficiente orientación para
crear un conjunto completo de cuentas para cada uno de los 1500 entes
incluidos en el ejercicio de la WGA. Esto me lleva a la segunda manera
en que usé un pedido de acceso a información: para asegurarme de que los
datos difundidos bajo el plan de transparencia britƔnico estuvieran bien
explicados y contuvieran lo que debƭan. PresentƩ un pedido de acceso a
la información [del conjunto de cuentas para cada ente público incluido
en la WGA](http://bit.ly/wdtk-coins-7).

> — *Lisa Evans, the Guardian*


## El Wobbing* funciona. ”Úselo!

-   N. del t. Wobbing es un neologismo surgido de la jerga
    periodística holandesa. La legislación de libre acceso a la
    información en Holanda se conoce por la sigla WOB. De allí se deriva
    el tƩrmino.

Usar la legislación de acceso a la información –o wobbing, como se lo
llama a veces- es una herramienta excelente pero requiere mƩtodo y, a
menudo, persistencia. A continuación, 3 ejemplos de mi propio trabajo
como periodista de investigación que ilustran los puntos fuertes y los
desafĆ­os que plantea el wobbing.

#### Estudio de caso 1: subsidios agropecuarios

Todos los aƱos la UE paga casi € 60.000 millones a productores y el
sector agropecuario. Todos los aƱos. Esto sucede desde fines de la
dƩcada de 1950 y el discurso polƭtico era que los subsidios ayudan a los
productores mƔs pobres. Sin embargo, un primer logro en base a un pedido
de acceso a la información en Dinamarca en 2004 mostró que esto eran
solo palabras. Los pequeƱos productores estaban en graves dificultades,
de lo que a menudo se quejaban en privado y en pĆŗblico, y en realidad la
mayor parte de los fondos iban a unos pocos grandes terratenientes y a
la gran industria agropecuaria. De modo que obviamente quise saber:
¿Esto es un patrón que abarca a toda Europa?

En el verano de 2004 le pedí los datos a la Comisión Europea. Todos los
años en febrero la Comisión recibe datos de los estados miembros. Los
datos muestran quien solicita fondos de la UE, cuƔnto reciben los
beneficiarios y si lo reciben por explotar su tierra, desarrollar su
región o para exportar leche en polvo. En aquel momento la Comisión
recibĆ­a las cifras como archivos CSV en un CD. Muchos datos, pero con
los que en principio era fƔcil trabajar. Es decir, si uno podƭa
obtenerlos.

En 2004 la Comisión se negó a entregar los datos; el argumento clave fue
que los datos estaban cargados en una base de datos y recuperarlos
exigía mucho trabajo. Argumento que el Ombudsman Europeo llamó *mala
administración*. Puede encontrar todos los documentos de este caso en el
[sitio sobre wobbing.eu](http://bit.ly/eu-wobbing). AllĆ” por 2004 no
tenĆ­amos tiempo de enredarnos en cuestiones legales. QuerĆ­amos los
datos.

![El sitio de los subsidios agrĆ­colas (Farmsubsidy.org)](figs/incoming/04-BB.png)

Por lo que nos asociamos con gente de toda Europa para obtener los datos
paĆ­s por paĆ­s. Colegas ingleses, suecos y holandeses obtuvieron los
datos en 2005. Finlandia, Polonia, Portugal y regiones de EspaƱa,
Eslovenia y otros países también ofrecieron su información. Incluso en
Alemania, enemiga del wobbing, logrƩ obtener algunos datos de la
provincia del Norte del Rin – Westfalia en 2007. Tuve que recurrir a las
cortes para obtener los datos, pero resultó en algunos buenos artículos
en [la revista Stern y en Stern online](http://bit.ly/stern-wobbing).

ĀæFue casualidad que Dinamarca y el RU fueran los primeros en dar acceso
a sus datos? No necesariamente. Si se mira el cuadro polĆ­tico general,
los subsidios agropecuarios en aquel tiempo debĆ­an verse en el contexto
de las negociaciones de la OMC en las que había presión contra los
subsidios agropecuarios. Dinamarca y el RU se cuentan entre los paĆ­ses
mƔs liberales de Europa, de modo que bien pudo ser que los vientos
políticos soplaran en dirección a una mayor transparencia en esos
paĆ­ses.

La historia no se acaba allƭ; para consultar mƔs episodios y los datos,
ver [Farm Subsidy](http://farmsubsidy.org/).

> Conozca sus derechos

> Cuando publica datos, Āædebe preocuparse por el copyright y otros
derechos en los datos? Aunque debe consultar siempre con su equipo
legal, como regla: si estĆ” publicado por el estado no tiene porque pedir
perdón ni permiso; si es publicado por una organización que no gana
dinero vendiendo datos, no tiene mucho de quƩ preocuparse; si lo publica
una organización que obtiene ganancias con la venta de datos, entonces
decididamente tiene que pedir permiso.
> — *Simon Rogers, the Guardian*

#### Estudio de caso 2: efectos colaterales

Todos somos conejillos de Indias en lo que se refiere a tomar
medicamentos. Las drogas pueden tener efectos secundarios. Todos sabemos
esto: sopesamos los beneficios y riesgos potenciales, y tomamos una
decisión. Desgraciadamente, esta a menudo no es una decisión basada en
información.

Cuando los adolescentes toman una pĆ­ldora en contra de los granitos,
esperan tener piel suave, no un mal estado de Ɣnimo. Pero esto es
precisamente lo que sucedió con una droga, con la que los jóvenes se
deprimieron y hasta tuvieron tendencias suicidas por tomarla. El peligro
de este efecto secundario en particular –-evidentemente una historia
periodĆ­stica-- no era algo demasiado conocido.

Hay datos sobre efectos secundarios. Los productores tienen que entregar
información regularmente a las autoridades de salud acerca de los
efectos secundarios observados. Esa información estÔ en manos de las
autoridades nacionales y europeas una vez que se permite la venta de la
droga.

Nuevamente en este caso se tuvo un primer logro a nivel nacional en
Dinamarca. Durante una investigación internacional de un equipo danés,
holandés y belga, Holanda también dio la información. Otro ejemplo de
salir de ronda con el *wobbing*: nos ayudó mucho poder señalar a las
autoridades holandesas que los datos estaban accesibles en Dinamarca.

Pero la historia era cierta: en Europa habĆ­a gente joven con tendencias
suicidas y lamentablemente tambiƩn hubo suicidios en varios paƭses como
resultado del uso de la droga. Periodistas, investigadores y las
familias de una joven vĆ­ctima presionaban duro para obtener acceso a
esta información. El Ombudsman Europeo ayudó a presionar por mÔs
transparencia en el Ente Europeo de Medicina y [parece que tuvo
Ʃxito](http://bit.ly/eu-ombudsman). Por lo que ahora a los periodistas
les corresponde obtener los datos y analizar el material a fondo. ĀæSomos
todos conejillos de Indias, como dijo un investigador, o son buenos los
mecanismos de control?

Lecciones: no acepte una negativa cuando de lo que se trata es de
transparencia. Sea persistente y siga una historia a lo largo de los
años. Las cosas pueden cambiar, permitiendo mejor información con mejor
acceso en un momento posterior.

#### Estudio de caso 3: contrabando de muerte

La historia reciente puede ser muy dolorosa para poblaciones enteras, en
particular después de guerras y en tiempos de transición. ¿Entonces cómo
pueden obtener datos duros los periodistas para investigar, cuando –por
ejemplo- los que se beneficiaron de la última guerra ahora estÔn en el
poder? Esta es la tarea que se propuso un equipo de periodistas
eslovenos, croatas y bosnios.

El equipo se dispuso a investigar los negocios con armas en la ex
Yugoslavia durante el embargo de la ONU a comienzos de la dƩcada de
1990. La base del trabajo fueron documentos de investigaciones
parlamentarias sobre el tema. Para documentar las rutas de embarque y
comprender la estructura del comercio, se debĆ­a rastrear el transporte
con nĆŗmeros de embarcaciones en los puertos y las licencias de los
camiones.

Comisiones parlamentarias eslovenas han hecho investigaciones sobre las
ganancias obtenidas en las guerras de los Balcanes, pero nunca han
llegado a ninguna conclusión. Pero había un rastro extremadamente
valioso de documentos y datos desclasificados, incluyendo 6000 pƔginas
que el equipo esloveno obtuvo a travƩs de un pedido de acceso a
información.

En este caso los datos debieron extraerse de documentos y bases de
datos. Al aumentar los datos con mÔs información, anÔlisis e
investigaciones, pudieron determinar numerosas [rutas del comercio
ilegal de armas](http://bit.ly/kaasogmulvad-smuggling).

El equipo tuvo Ʃxito y los resultados son
[Ćŗnicos](http://bit.ly/journalismfund-smuggling1) y ya le han
significado al equipo su primer premio. Lo que es mƔs importante, la
historia es valiosa para toda la región y bien puede ser retomada por
periodistas en otros países por los que pasó la carga mortífera.

Lecciones: publique buen material en crudo aunque lo encuentre en
lugares inesperados y combĆ­nelo con datos existentes de acceso pĆŗblico.

— *Brigitte Alfter, Journalismfund.eu*

> Pedidos de acceso a la información con amigos

> Muchos países balcÔnicos tienen problemas de corrupción gubernamental.
La corrupción a menudo es incluso peor cuando se trata de que los
gobiernos municipales rindan cuentas en esos paĆ­ses. Durante varios
meses un grupo de periodistas serbios vinculados con el [Centre for
Investigative Reporting de Belgrado](http://www.cins.org.rs/) han estado
cuestionando documentos del aƱo 2009 de mƔs de 30 municipalidades. Antes
de eso, casi nada estaba accesible al pĆŗblico. La idea era obtener los
registros originales y poner los datos en hojas de cƔlculo, para hacer
controles y comparaciones bƔsicas entre las municipalidades y obtener
las cifras mƔximas y mƭnimas. Los indicadores bƔsicos eran las cifras
presupuestarias, gastos regulares y especiales, salarios de
funcionarios, gastos de viaje, nĆŗmero de empleados, gastos de uso de
celular, gastos diarios, cifras de compras oficiales, y asĆ­ siguiendo.
Era la primera vez que reporteros pedían esa información.

> El resultado fue una base de datos que desnuda numerosas
representaciones falsas, prÔcticas ilegales y casos de corrupción. Una
lista de los alcaldes mejor pagos indicaba que unos cuantos de ellos
recibƭan mƔs dinero que el presidente serbio. Muchos otros funcionarios
tenĆ­an sueldos excesivos, recibiendo muchos de ellos reintegros enormes
de expensas de viaje y por gastos. Los datos de gasto pĆŗblico obtenidos
con mucho esfuerzo ayudaron a sacar a luz un enredo oficial. De la base
de datos derivaron mƔs de 150 artƭculos y muchos de ellos fueron
reeditados por los medios locales y nacionales en Serbia.

> Aprendimos que comparar los registros con datos comparables de entes
gubernamentales similares puede sacar a luz desviaciones y echar luz
sobre probables hechos de corrupción. Los gastos exagerados e inusuales
solo pueden ser detectados por comparación.

> — *Djordje Padejski, Knight Journalism Fellow, Stanford University*

## Obtener datos de la red

Ha probado todo y no ha logrado obtener los datos que quiere. Encontró
los datos en la red pero lamentablemente no hay opciones de descarga y
fracasó en el intento de copiar y pegar. No tema, aún puede haber una
manera de obtener los datos. Por ejemplo, puede:

-   Obtener datos de APIs (interfaces de programación de aplicaciones)
    online, tales como interfaces provistas por bases de datos y muchas
    aplicaciones modernas (incluyendo Twitter, Facebook y otras). Esta
    es una manera fantƔstica de acceder a datos oficiales o comerciales,
    asĆ­ como datos de redes sociales.
-   Extraer datos de PDF. Esto es muy difĆ­cil, dado que PDF es un
    lenguaje para impresoras y no retiene mucha información sobre la
    estructura de los datos presentados en el documento. Extraer
    información de PDF va mÔs allÔ del alcance de este libro, pero hay
    algunas herramientas y tutoriales que pueden ayudarlo a hacerlo.
-   Usar "screen scraping" para obtener datos de sitios de la red. Se
    trata de extraer contenido estructurado de una pƔgina normal de la
    red con la ayuda de un programa de de recuperación de información o
    escribiendo una pequeƱa pieza de software. Si bien este mƩtodo es
    muy poderoso y puede ser usado en muchos lugares, requiere
    comprender un poco cómo funciona la red.

Con todas esas opciones tƩcnicas, no olvide las opciones simples: a
menudo vale la pena invertir un poco de tiempo en buscar un archivo con
datos que pueden ser interpretados por una computadora o llamar a la
institución que tiene los datos que usted quiere.

En este capƭtulo presentamos un ejemplo muy bƔsico de *scrapear* datos
de una pƔgina HTML.

#### ¿Qué son los datos procesables por computadora?

Para la mayorƭa de estos mƩtodos, el objetivo es obtener acceso a datos
que puedan ser nterpretados por una computadora. Tales datos son creados
para ser procesados por una computadora en vez de ser presentados a un
usuario humano. La estructura de estos datos se relaciona con la
información contenida en ellos, y no la manera en que serÔ presentada
eventualmente. Entre los ejemplos de formatos que son fƔciles de
interpretar por una computadora se incluyen CSV, XML, JSON, y los
archivos Excel, mientras que formatos como los de documentos Word,
pÔginas HTML, y archivos PDF estÔn mÔs relacionados con la presentación
visual de la información. Por ejemplo, PDF es un lenguaje que le habla
directamente a su impresora; le interesa la posición de líneas y puntos
en una pƔgina, en vez de caracteres distinguibles.

===="Scrapear" sitios de la red: ¿Para qué?

Todos lo han hecho: se va a un sitio de la red, uno ve una tabla
interesante y trata de copiarla a Excel de modo de poder agregar algunas
cifras o guardarla para despuƩs. Pero a menudo esto no funciona
realmente, o la información que quiere estÔ desparramada en una gran
cantidad de sitios. Copiar a mano se puede volver rƔpidamente muy
tedioso, por lo que tiene sentido usar un poco de código para hacerlo.

La ventaja del "scraping" es que se puede hacer prƔcticamente con
cualquier sitio, desde el pronóstico del tiempo hasta el gasto
gubernamental, incluso si el sitio no tiene una API para acceso a los
datos en crudo.

#### Lo que se puede y lo que no se puede "scrapear" 

Por supuesto, hay lĆ­mites a lo que se puede\_scrapear\_. Entre los
factores que dificultan *scrapear* en un sitio se incluyen:

-   Código HTML mal formateado con poco o nada de información
    estructural (por ejemplo, sitios oficiales mƔs antiguos).
-   Los sistemas de autenticación que se supone impiden el acceso
    automÔtico (códigos CAPTCHA y exigencia de suscripción paga).
-   Sistemas basados en sesiones que usan cookies de navegador para
    rastrear lo que hace el usuario.
-   Falta de listados completos de Ć­tems y ausencia de posibilidades de
    bĆŗsquedas con comodines.
-   Bloqueado de acceso por administradores de servidores.

Otro conjunto de limitaciones son las barreras legales: algunos paĆ­ses
reconocen los derechos de bases de datos, lo que puede limitar su
derecho a reutilizar información que ha sido publicada online. A veces
se puede ignorar la licencia y usarla de todos modos, dependiendo de su
jurisdicción, puede tener derechos especiales como periodista. No
deberĆ­a haber problema en "scrapear" datos del estado de libre
disponibilidad, pero quizƔs sea mejor cerciorarse antes de publicarlos.
Organizaciones comerciales -–y ciertas ONGs-- reaccionan con menos
tolerancia y pueden tratar de sostener que usted estĆ” ā€œsaboteandoā€ sus
sistemas. Otras informaciones pueden violar la privacidad de individuos,
y por tanto, violar las leyes de privacidad de datos o la Ʃtica
profesional.

> Emparchar, "Scrapear", compilar, limpiar

> El desafƭo con muchos datos britƔnicos no es lograr obtenerlos, si no
ponerlos en un formato que se pueda usar. Se publican muchos datos sobre
hospitalidad, los intereses de los parlamentarios fuera de su función
pública, lobbys, y mÔs como cosa habitual, pero en formatos difíciles de
analizar.

> Para algunos datos, la Ćŗnica alternativa es el trabajo duro: unir
docenas de archivos Excel, cada uno conteniendo solo una docena de
registros, fue la Ćŗnica manera de hacer listas completas de reuniones
ministeriales. Para otros datos, "scrapear" la red se demostró
increĆ­blemente Ćŗtil.

> Usar un servicio como ScraperWiki para pedir a programadores que
produzcan un *scraper* que permita reunir información como el Registro
de intereses de parlamentarios, nos ahorró la mitad del trabajo: tuvimos
toda la información de los parlamentarios en una hoja, lista para la
ā€œlargaā€ tarea de analizarla y expurgarla.

> Servicios como Ʃste (o herramientas tales como Outwit Hub) son de
inmensa ayuda para periodistas que tratan de compilar datos complicados
y que son capaces de programar.

> — *James Ball, the Guardian*

#### Herramientas que lo ayudan a "scrapear"

Hay muchos programas que pueden ser usados para extraer información en
masa de un sitio, incluyendo extensiones de navegadores y algunos
servicios de la red. SegĆŗn el navegador que use, herramientas como
[Readability](http://www.readability.com/), que ayuda a extraer texto de
una pƔgina o [DownThemAll](http://www.downthemall.net/), que le permite
descargar muchos archivos al mismo tiempo), le ayudarƔn a automatizar
algunas tareas tediosas, mientras que la [extensión Scraper de
Chrome](http://bit.ly/chrome-scraper) fue creada explĆ­citamente para
extraer tablas de sitios de la red. Extensiones para programadores como
[FireBug](http://getfirebug.com/) para Firefox, lo mismo ya viene
incluido en Chrome, Safari e IE) le permite ver exactamente como estĆ”
estructurado un sitio y quƩ comunicaciones se dan entre su navegador y
el servidor.

ScraperWiki es un sitio que le permite crear *scrapers* en una cantidad
de lenguajes de programación diferentes., incluyendo Python, Ruby y PHP.
Si quiere comenzar a *scrapear* sin la complicación de instalar una
plataforma de programación en su computadora esta es la manera de
hacerlo. Otros servicios de la red, tales como las Hojas de CƔlculo de
Google y Yahoo! Pipes, tambiƩn permiten realizar extracciones de otros
sitios.

#### ¿Cómo funciona un "Scraper" de la red?

Los "scrapers" de la red por lo general son piezas pequeñas de código
escritas en un lenguaje de programación tal como Python, Ruby o PHP.
Escoger el lenguaje adecuado depende en gran medida de a quƩ comunidad
tiene acceso: si en su redacción o ciudad hay alguien que ya trabaja con
uno de estos lenguajes, entonces tiene sentido adoptar el mismo
lenguaje.

Si bien algunas de las herramientas de "scraping" con las que basta
cliquear y apuntar mencionadas mƔs arriba pueden ser de ayuda para
comenzar, lo verdaderamente complejo a la hora de *scrapear* en un sitio
es encontrar las pƔginas indicadas y los elementos indicados dentro de
estas pÔginas para extraer la información deseada. Estas tareas no
tienen que ver con programación, sino con comprender la estructura del
sitio y la base de datos.

Al presentar un sitio, su navegador casi siempre usarĆ” dos tecnologĆ­as,
HTTP, para comunicarse con el servidor y pedir recursos especĆ­ficos,
tales como documentos, imƔgenes o videos; y HTML, el lenguaje en el que
se componen los sitios.

#### La anatomƭa de una pƔgina de la red

Toda pÔgina HTML estÔ estructurada como una jerarquía de módulos (que
estÔn definidos por etiquetas de HTML). Un módulo grande contiene muchos
módulos mĆ”s pequeƱos –por ejemplo una tabla que tiene muchas divisiones
mƔs pequeƱas: filas y celdas. Hay muchos tipos de etiquetas que realizan
distintas funciones: algunas producen módulos, otras tablas, imÔgenes o
vƭnculos. Las etiquetas tambiƩn pueden tener propiedades adicionales
(por ejemplo, pueden ser identificadores Ćŗnicos y pueden pertenecer a
grupos llamados ā€œclasesā€ que hacen posible apuntar a y capturar
elementos individuales dentro de un documento). Escoger elementos
apropiados de esta manera y extraer su contenido es la clave para
escribir un "scraper".

Viendo los elementos en una pƔgina de la red, todo puede dividirse en
módulos dentro de módulos.

Para "scrapear" en pƔginas de la red tendrƔ que aprender un poco acerca
de los distintos tipos de elementos que pueden encontrarse en un
documento HTML. Por ejemplo, el elemento &lt;table&gt; abarca toda una
tabla, que tiene &lt;tr&gt; (table row) elementos para sus filas, que a
su vez contienen &lt;td&gt; (table data) para cada celda. El tipo de
elemento mÔs común que encontrarÔ es &lt;div&gt;, que puede significar
bƔsicamente cualquier bloque de contenido. La manera mƔs fƔcil de
conocer estos elementos es usar la barra de desarrolladores, 
[developer toolbar](http://bit.ly/developer-toolbar), de su navegador:
le permitirƔ posicionarse sobre cualquier parte de una pƔgina de la red
y ver el código correspondiente.

Las etiquetas funcionan como el comienzo y el fin de un libro, marcando
el comienzo y el fin de una unidad. Por ejemplo `<em>` *significa el
comienzo de un tramo de texto en itƔlica o destacado y* `</em>`
significa el fin de ese tramo. FƔcil.

#### Un ejemplo: "Scraping" de incidentes nucleares con Python 

[NEWS](http://www-news.iaea.org/EventList.aspx) es el portal de la
Agencia Internacional de Energía Atómica (AIEA) que sigue los incidentes
de radiación en todo el mundo (y disputa el título mÔximo del club de
los tƭtulos raros). La pƔgina tiene listas de incidentes en un sitio
simple, tipo blog, que puede ser fƔcilmente "scrapeado".

![El portal de la Agencia Internacinal de Energía Atómica (IAEA) (news.iaea.org)](figs/incoming/04-CC.png)

Para empezar, cree un nuevo scraper Python en ScraperWiki y se le
presentarÔ un Ôrea para texto mayormente vacía, salvo por algo de código
de soporte. En otra pestaƱa del navegador abra el
<http://www-news.iaea.org/EventList.aspx%5Bsitio> de AIEA y abra la
barra para desarrolladores de su navegador. En la vista de ā€œelementosā€
trate de encontrar el elemento HTML de uno de los tĆ­tulos de noticias.
La barra para desarrolladores de su navegador le ayudarĆ” a relacionar
los elementos en la pÔgina con el código HTML correspondiente.

Al investigar esta pƔgina se revelarƔ que los tƭtulos son elementos
`<h4>` dentro de una &lt;table&gt;. Cada evento es una fila `<tr>`, que
también contiene una descripción y una fecha. Si queremos extraer los
tƭtulos de todos los eventos, debiƩramos buscar la manera de seleccionar
cada fila en la tabla secuencialmente, recopilando todo el texto dentro
de los elementos de tĆ­tulo.

Para convertir este proceso en código, tenemos que tomar conciencia de
todos los pasos. Para tener idea del tipo de pasos requeridos, juguemos
un juego simple: en su ventana de ScraperWiki trate de escribir
instrucciones individuales para cada cosa que va a hacer mientras
escribe este "scraper", como los pasos de una receta (ponga al comienzo
de cada lĆ­nea un signo de numeral para indicarle a Python que no es un
verdadero código de computación). Por ejemplo:

    # Buscar todas las filas en la tabla
    # Unicornio no debe desbordar el lado izquierdo.

Trate de ser lo mƔs preciso posible y no suponga que el programa sabe
algo acerca de la pƔgina que intenta *scrapear*.

Una vez que haya escrito algo de este seudo-código, comparemos esto con
el código esencial para nuestro primer *scraper*:

    import scraperwiki
    from lxml import html

En esta primera sección estaba importando funcionalidad existente de
bibliotecas, recortes de código ya escrito. `Scraperwiki` nos darÔ la
capacidad de descargar sitios de la red, mientras que `lxml` es una
herramienta para el anƔlisis estructurado de documentos HTML. Buena
noticia: si estĆ” escribiendo un scraper con ScraperWiki, estas dos
lƭneas siempre serƔn las mismas.

    url = "http://www-news.iaea.org/EventList.aspx"
    doc_text = scraperwiki.scrape(url)
    doc = html.fromstring(doc_text)

A continuación el código hace un nombre (variable): url, y asigna el URL
de la pƔgina de la AIEA como su valor. Esto le dice al "scraper" que
esta cosa existe y que queremos prestarle atención. Nótese que el URL
mismo estÔ entre comillas ya que no es parte del código del programa
sino un *string*, una secuencia de caracteres.

Entonces usamos la variable del url como entrada de una función,
`scraperwiki.scrape`. Una función que producirÔ una tarea definida, en
este caso, descargarƔ una pƔgina de la red. Cuando termine, asignarƔ su
producto a otra variable, `doc_text`. `doc_text` ahora contendrĆ” el
texto del sitio; no la forma visual que ve en su navegador, sino el
código fuente, incluyendo todas las etiquetas. Dado que esta forma no es
muy fÔcil de analizar, usaremos otra función, `html.fromstring`, para
generar una representación especial, en la que podamos fÔcilmente
referirnos a elementos, el asĆ­ llamado modelo de documento de objeto o
document object model (DOM).

    for row in doc.cssselect("#tblEvents tr"):
    link_in_header = row.cssselect("h4 a").pop()
    event_title = link_in_header.text
    print event_title

En este paso final, usamos el DOM para encontrar cada fila de nuestra
tabla y extraer el tĆ­tulo del evento de su encabezado. Se usan dos
conceptos nuevos: el riso "for loop" y selección de elemento o "element
selection" (`.cssselect`). El "for loop" hace esencialmente lo que
implica su nombre; atraviesa una lista de Ć­tems, asignando a cada uno un
alias temporal (`row` en este caso) y luego aplicarĆ” las instrucciones
con sangrĆ­a para cada Ć­tem.

El otro concepto nuevo, selección de elemento o "element selection", es
hacer uso de un lenguaje especial para encontrar elementos en el
documento. Los selectores CSS son usados normalmente para agregar
información de diseño a elementos HTML y puede ser usado para extraer
con precisión un elemento de una pÔgina. En este caso (línea 6) estamos
seleccionando \#tb1Events tr, que harĆ” corresponder cada `<tr>` en el
elemento tabla con el ID tb1Events (el signo numeral simplemente
significa ID). Nótese que esto producirÔ una lista de elementos `<tr>`.

Eso puede verse en la siguiente lĆ­nea (lĆ­nea 7i), donde estamos
aplicando otro selector para encontrar cualquier `<a>` (que es un
hipervínculo) dentro de un `<h4>` (un título). Aquí sólo queremos ver un
elemento (solo hay un tĆ­tulo por fila), de modo que tenemos que sacarlo
del encabezado de la lista creada por nuestro selector con la función
`.pop()`.

Nótese que algunos elementos en el DOM contienen texto (es decir, aneder
usando la sintaxis `[element].text` que se ve en la lĆ­nea 8. Finalmente
en la lĆ­nea 9 estamos imprimiendo ese texto a la consola ScraperWiki. Si
hace clic en "run" en su "scraper", la ventana mƔs pequeƱa ahora debiera
comenzar a listar los nombres del evento del sitio de la AIEA.

![Un scraper en acción (ScraperWiki)](figs/incoming/04-DD.png)

Ahora puede ver un "scraper" bƔsico operando: descarga la pƔgina, la
transforma a la forma DOM, y luego le permite seleccionar y extraer
cierto contenido. Dado este esqueleto, puede tratar de resolver algunos
de los problemas que quedan usando la documentación del ScraperWiki y
Python:

-   ¿Puede encontrar la dirección del vínculo en el título de cada
    evento?
-   ¿Puede seleccionar el pequeño módulo que contiene la fecha y el
    lugar usando su nombre de clase CSS y extraer el texto del elemento?
-   ScraperWiki ofrece una pequeƱa base de datos para cada scraper, de
    modo que pueda almacenar los resultados; copie el ejemplo
    correspondiente de sus docs y adƔptelo de modo que guarde los
    tĆ­tulos, vĆ­nculos y fechas del evento.
-   La lista de eventos tiene muchas pÔginas; ¿puede *scrapear*
    múltiples pÔginas para obtener eventos históricos también?

Mientras intenta resolver estos desafĆ­os, investigue un poco el
ScraperWiki: hay muchos ejemplos Ćŗtiles en los "scrapers" existentes; a
menudo los datos son bastante interesantes tambiƩn. De este modo no
necesita comenzar su "scraper" de cero: simplemente escoja uno similar,
tómelo y adÔptelo a su problema.

— *Friedrich Lindenberg, Open Knowledge Foundation*

> "Scrapear" en una base de datos pĆŗblica

> Algunos mƩdicos franceses pueden establecer libremente sus honorarios,
por lo que uno puede pagar entre € 70 y € 500 por una consulta de 30
minutos con un oncólogo, por ejemplo. Los datos sobre honorarios por ley
son públicos, pero la administración solo ofrece una base de datos
online difícil de navegar. Para tener una buena visión de los honorarios
de los mƩdicos para Le Monde, decidƭ "scrapear" toda la base de datos.

> Ahí comenzó la diversión. De entrada, el formulario de búsqueda era una
aplicación Flash que redirigía a una pÔgina de resultados HTML vía un
pedido POST. Con ayuda de Nicolas Kayser-Bril, nos llevó algo de tiempo
descubrir que la aplicación usaba una tercera pĆ”gina como paso ā€œocultoā€
entre el formulario de búsqueda y la pÔgina de resultado. Esta pÔgina se
usaba en realidad para almacenar un cookie con valores del formulario de
búsqueda al que entonces accedía la pÔgina de resultados. Hubiese sido
difƭcil imaginarse un proceso mƔs enredado, pero las opciones de la
biblioteca cURL en PHP permiten superar fƔcilmente las vallas, una vez
que se sabe cuÔles son. Finalmente apoderarnos de la base de datos llevó
10 horas, pero valió la pena.

> — *Alexandre LĆ©chenet, Le Monde*


## La red como fuente de datos

¿Cómo puede saber mÔs de algo que solo existe en Internet? Esté buscando
una dirección de correo electrónico, sitio, imagen o artículo de
Wikipedia, en este capƭtulo harƩ con usted una recorrida por las
herramientas que le dirƔn mƔs sobre ellos.

## Herramientas web

Primero, unos cuantos servicios diferentes que puede usar para descubrir
algo mƔs sobre todo un sitio, en vez de una pƔgina particular:

 Whois 

:   Si va a [whois.domaintools.com/](http://whois.domaintools.com/) o
    simplemente tipea whois seguido de un URL *www.ejemplo.com* en
    Terminal.app en una Mac puede obtener la información bÔsica de
    registro de cualquier sitio. En los últimos años algunos dueños han
    preferido el registro privado, lo que oculta sus detalles, pero en
    muchos casos verÔ un nombre, dirección, correo electrónico y número
    de teléfono de la persona que registró el sitio. También puede
    ingresar direcciones IP numƩricas aquƭ y obtener datos sobre la
    organización o el individuo que es dueño del servidor. Esto es
    especialmente útil cuando trata de encontrar mÔs información sobre
    un usuario abusivo o malicioso de un servicio, ya que la mayorĆ­a de
    los sitios registran una dirección IP de todo el que accede a ellos.

 Blekko 

:   El motor de bĆŗsquedas ([Blekko](http://blekko.com/) ofrece una
    cantidad inusual de información sobre las estadísticas internas que
    reĆŗne sobre sitios mientras recorre la red. Si tipea un nombre de
    dominio seguido de ā€œ/seoā€, verĆ” una pĆ”gina de información sobre ese
    URL. La primera pestaƱa en [Figure 7](#FIG048) le muestra quƩ otros
    sitios se vinculan con el dominio por orden de popularidad. Esto
    puede ser extremadamente útil cuando estÔ tratando de comprender qué
    tipo de cobertura recibe un sitio y por quƩ tiene un alto ranking en
    los resultados de bĆŗsquedas de Google, ya que estos se basan en esos
    vƭnculos entrantes. [Figure 8](#FIG049) le dice quƩ otros sitios
    funcionan en la misma mÔquina. Es común que estafadores y la gente
    que envĆ­a spam se trate de legitimar construyendo mĆŗltiples sitios
    que se ensalzan y vinculan mutuamente. Parecen dominios
    independientes e incluso pueden tener detalles de registro
    diferentes, pero a menudo estƔn en el mismo servidor porque eso es
    mucho mÔs barato. Estas estadísticas le dan una visión de la
    estructura oculta del sitio que investiga.

![El buscador Blekko Blekko.com)](figs/incoming/06-PP-01.png)

![Comprender la popularidad en la red, ĀæquiĆ©n se vincula con quiĆ©n? La otra pestaƱa Ćŗtil es ā€œEstadĆ­sticas de Navegación"), especialmente la sección ā€œCo-huesped conā€.(Blekko.com)](figs/incoming/06-PP-02.png)

![Descubrir spammers y estafadores de la red (Blekko.com)](figs/incoming/06-PP-03.png)

 Compete.com 

:   Al estudiar una muestra representativa de consumidores
    estadounidenses, [Compete.com](http://ww.compete.com/) acumula
    estadĆ­sticas de uso detalladas para la mayorĆ­a de los sitios y pone
    a disposición gratuitamente algunos detalles bÔsicos. Elija la
    pestaƱa de Site Profile (Perfil de Sitio) e ingrese un dominio
    ([Figure 9](#FIG0410)). Entonces verƔ un grƔfico del trƔfico del
    sitio en el último año, junto con cifras de cuÔnta gente lo visitó y
    con quƩ frecuencia (como en [Figure 10](#FIG0411)). Dado que se
    basan en muestras los nĆŗmeros son solo aproximados, pero yo los
    encontrƩ razonablemente precisos cuando pude compararlos con la
    analĆ­tica interna. En particular, parecen ser una buena fuente para
    comparar dos sitios, dado que aunque las cifras absolutas pueden ser
    equivocadas para ambos, de todos modos es una buena representación
    de su diferencia relativa en cuanto a popularidad. Pero solo
    estudian a los consumidores estadounidenses, por lo que los datos
    serƔn pobres para los sitios predominantemente internacionales.

![El servicio de perfil de Compete (Compete.com)](figs/incoming/06-PP-04.png)

![¿Qué estÔ de moda? ¿De qué hay demanda?: Lugares calientes de la red (Compete.com)](figs/incoming/06-PP-05.png)

 El buscador de sitios (Site Search) de Google 

:   Un recurso que puede ser extremadamente Ćŗtil cuando trata de
    explorar todo el contenido de un dominio particular es ingresar en
    el buscador los tĆ©rminos ā€œsitioā€: palabra clave. Si agrega
    ā€œsite:ejemplo.comā€ a su frase de bĆŗsqueda, Google solo presentarĆ”
    resultados del sitio que ha especificado. Incluso puede afinar aĆŗn
    mÔs la búsqueda incluyendo el prefijo de las pÔginas que le
    interesan, por ejemplo, ā€œsite: ejemplo.com/pĆ”ginas/ā€, y solo verĆ”
    los resultados que responden a ese patrón. Esto puede ser
    extremadamente útil cuando trata de encontrar información que los
    dueños de dominios ofrecen públicamente pero que no desean difundir,
    de modo que elegir las palabras claves correctas puede permitir
    descubrir material muy revelador.

#### PƔginas, imƔgenes y videos en la red

A veces lo que interesa es la actividad que rodea una historia
especĆ­fica, en vez de un sitio entero. Las herramientas que se presentan
a continuación le dan distintos Ôngulos de cómo lee, responde, copia y
comparte contenido la gente en la red.

 Bit.ly 

:   Siempre recurro a [bitly.com](http://bitly.com/) cuando quiero saber
    cómo comparte la gente un vínculo particular. Para usarlo, ingrese
    el URL que le interesa. Luego haga clic en el vĆ­nculo Info Page+.
    Eso lo lleva a la pƔgina de estadƭsticas completas (aunque puede
    tener que escoger el vĆ­nculo ā€œaggregate bit.lyā€ primero si ha
    ingresado en el servicio). Esto le darĆ” una idea de la popularidad
    de la pƔgina, incluyendo actividad en Facebook y Twitter y debajo de
    eso verĆ” conversaciones pĆŗblicas respecto del vĆ­nculo provistas por
    backtype.com. Esta combinación de datos de trÔfico y conversaciones
    me resulta muy útil cuando trato de comprender por qué un sitio o
    pÔgina es popular y quiénes son sus fans. Por ejemplo me aportó
    fuertes evidencias de que la opinión dominante respecto de la
    relación de Sarah Palin con los delegados de base era equivocada.

 Twitter 

:   Al ser el servicio de micro-blogging mÔs usado, es útil parar ver en
    quƩ medida la gente comparte y habla acerca de piezas de
    contenido individuales. Es engaƱosamente simple descubrir
    conversaciones pĆŗblicas sobre un vĆ­nculo. Uno simplemente pega el
    URL en el que estĆ” interesado en la ventana de bĆŗsqueda y luego
    posiblemente hace clic en ā€œmĆ”s tweetsā€ para ver todos
    los resultados.

 Cache de Google 

:   Cuando una pƔgina se vuelve polƩmica los editores la pueden bajar o
    alterarla sin reconocerlo. Si cree que se estĆ” encontrando con este
    problema, el primer lugar a ir es el cache de Google de la pƔgina
    tal como era cuando hizo su Ćŗltimo recorrido. La frecuencia de los
    recorridos estƔ aumentando constantemente, por lo que tendrƔ mƔs
    suerte si intenta esto dentro de las pocas horas posteriores a que
    se produjeron los supuestos cambios. Ingrese el URL correspondiente
    en la ventana de bĆŗsqueda de Google y luego haga clic en la flecha
    triple, a la derecha del resultado para esa pƔgina. Debiera aparecer
    una vista grƔfica y si tiene suerte habrƔ un pequeƱo vƭnculo de
    ā€œCacheā€ arriba. Haga clic allĆ­ para ver la toma de Google de
    la pƔgina. Si hay problemas para que cargue, puede cambiar a la
    pƔgina mƔs primitiva, solo de texto, haciendo clic en otro link
    arriba de la pƔgina en cache completa. Usted tendrƔ que guardar la
    imagen de la pantalla o copiar y pegar el contenido significativo
    que encuentre, dado que puede quedar invalidado en cualquier momento
    por nuevos cambios.

 La Wayback Machine (MƔquina de Hace Tiempo) del Archivo de Internet 

:   Si necesita saber cómo ha cambiado una pÔgina particular en un
    perƭodo de tiempo mƔs largo, como meses o aƱos, el Archivo de
    Internet tiene un servicio llamado [The Wayback
    Machine](http://archive.org/web/web.php) que periódicamente hace
    tomas de las pƔginas mƔs populares de la red. Vaya al sitio, ingresa
    el vĆ­nculo que quiere buscar y si hay copias, le mostrarĆ” un
    calendario para el momento que quiere examinar. Entonces presentarĆ”
    una versión de la pÔgina aproximadamente como era en aquel momento.
    A menudo le faltarƔ diseƱo o imƔgenes, pero por lo general basta
    para entender cuƔl era el foco del contenido de la pƔgina en
    ese momento.

 Ver el Código Fuente 

:   Es algo un poco improbable, pero los diseƱadores a menudo dejan
    comentarios u otros indicios en el código HTML de cualquier pÔgina.
    EstarĆ” en distintos menĆŗes segĆŗn el navegador que use, pero siempre
    hay una opción de ā€œview sourceā€ (ver código fuente), que le
    permitirĆ” recorrer el HTML en crudo. No necesita entender lo que
    significan las partes solo legibles para la mƔquina, solo estƩ
    atento a los tramos de texto que a menudo estƔn desparramados en
    medio del código. Aunque solo sean referencias de copyright o
    menciones de los nombres del autor, estos a menudo pueden dar pistas
    importantes acerca de la creación y el objetivo de la pÔgina.

 TinEye 

:   A veces uno realmente quiere conocer el origen de una imagen, pero
    sin un texto claro que lo indique no hay ninguna manera evidente de
    hacerlo con motores de bĆŗsqueda tradicionales como Google.
    [TinEye](http://www.tineye.com/) ofrece un proceso especializado de
    ā€œbĆŗsqueda inversa de imagenā€, donde uno le da la imagen que tiene y
    encuentra otras imƔgenes en la red que se ven muy similares. Debido
    a que usa reconocimiento de imagen para hacer la bĆŗsqueda, funciona
    incluso cuando una copia ha sido recortada, distorsionada
    o comprimida. Esto puede ser extremadamente efectivo cuando usted
    sospecha que una imagen que se presenta como original o nueva no lo
    es, dado que puede reconducirlo a la verdadera fuente original.

 YouTube 

:   Si hace clic en el ƭcono de estadƭsticas en el Ɣngulo inferior
    derecho de cualquier video, puede conseguir información valiosa
    sobre su pĆŗblico a lo largo del tiempo. Si bien no es completa, es
    Ćŗtil para entender aproximadamente quienes son los espectadores, de
    donde vienen y cuƔndo.

#### Correo electrónico

Si estÔ investigando correos electrónicos, a menudo querrÔ conocer mÔs
detalles sobre la identidad y ubicación del que los envió. No hay una
buena herramienta disponible para ayudar con esto, pero puede ser muy
útil conocer lo bÔsico acerca de los encabezados ocultos incluidos en
todo mensaje de correo electrónico. Estos funcionan como indicadores
para el correo y pueden revelar mucho acerca del remitente. En
particular, a menudo incluyen la dirección IP de la mÔquina desde la que
fue enviado el correo, parecido a la identidad del que hace una llamada
telefónica. Puede entonces usar "whois" con ese número IP para saber qué
organización posee esa mÔquina. Si resulta ser alguien como Comcast o
AT&T que proveen conexiones a consumidores, entonces puede visitar
MaxMind para obtener su ubicación aproximada.

Para ver estos encabezados en Gmail abra el mensaje y
\[line-through\]\*abra\*el menĆŗ junto a la respuesta arriba a la derecha
y elija ā€œMostrar originalā€.

Entonces verƔ una nueva pƔgina que revela el contenido oculto. Al
comienzo habrĆ” un par de docenas de lĆ­neas que son palabras seguidas por
una coma. La dirección IP que busca puede estar allí, pero el nombre
dependerÔ de cómo fue enviado el correo. Si se envió desde Hotmail, se
llamarĆ” `X-Originating-IP:`, pero si fue enviado desde Outlook o Yahoo
estarĆ” en la primera lĆ­nea que comienza con `Received:`.

Si investigo la dirección con Whois me dice que estÔ asignado a Virgin
Media, un ISP del RU, por lo que uso el servicio de ubicación geogrÔfica
de MaxMind para descubrir que viene de mi ciudad, Cambridge. Esto
significa que puedo estar razonablemente confiado de que se trata
efectivamente de un correo de mis padres y no de impostores.

#### Tendencias

Si estĆ” investigando un tema amplio en vez de un sitio o Ć­tem
particular, estas son algunas herramientas que pueden ayudar:

 Wikipedia Article Traffic (TrƔfico de Artƭculos de Wikipedia) 

:   Si le interesa conocer cómo ha variado el interés del público sobre
    un tema o persona a lo largo del tiempo, puede encontrar cifras de
    vistas dƭa por dƭa para cualquiera pƔgina de Wikipedia en
    [stats.grok.se](http://stats.grok.se/). Es un sitio un poco tosco,
    pero le permitirÔ descubrir la información que necesita revolviendo
    un poco. Ingrese el nombre que le interesa para tener una visión
    mensual del trƔfico en esa pƔgina. Eso le presentarƔ un grƔfico que
    muestra cuƔntas veces fue vista la pƔgina cada dƭa del mes que
    usted especifique. Desgraciadamente solo se puede ver un mes por
    vez, por lo que tendrĆ” que seleccionar otro mes y volver a buscar,
    para ver cambios en perƭodos mƔs prolongados.

 Google Insights 

:   Puede tener una clara visión de los hÔbitos de búsquedas del público
    usando [Insights de Google](http://www.google.com/insights/search/)
    ([Figure 11](#FIG0412)). Ingrese un par de frases de bĆŗsquedas
    comunes, como ā€œJustin Bieber vs Lady Gagaā€, y verĆ” un grĆ”fico de sus
    nĆŗmeros relativos de bĆŗsquedas con el paso del tiempo. Hay muchas
    opciones para refinar su vista de los datos, desde zonas geogrƔficas
    mƔs reducidas hasta mƔs detalle a medida que pasa el tiempo. Lo
    Ćŗnico que falta son valores absolutos: solo verĆ” porcentajes
    relativos, lo que puede ser difĆ­cil de interpretar.

![Google Insights (Google)](figs/incoming/06-PP-06.png)

— *Pete Warden, analista de datos y diseƱador independiente*


## Crowdsourcing en el Datablog de The Guardian


"Crowdsourcing", [segĆŗn Wikipedia](http://es.wikipedia.org/wiki/Crowdsourcing), 
ā€œconsiste en externalizar tareas que, tradicionalmente, realizaba un empleado o
contratista, a un grupo numeroso de personas o una comunidad, a travƩs
de una convocatoria abiertaā€. Lo que sigue estĆ” tomado de una entrevista
con Simon Rogers acerca de cómo el Datablog usó "crowdsourcing" para
cubrir el escƔndalo de los gastos de parlamentarios, el uso de drogas y
los papeles de Sarah Palin:

A veces uno recibe una tonelada de archivos, estadĆ­sticas o informes que
es imposible que una persona pueda analizar. TambiƩn puede conseguir
material que es inaccesible o estĆ” en un mal formato y no puede hacer
demasiado. Es en esto que puede ayudar el "crowdsourcing".

Una cosa que tiene The Guardian es muchos lectores, muchos pares de
ojos. Si hay un proyecto interesante en el que necesitamos su ayuda,
entonces se lo pedimos. Es lo que hicimos con los 
[Gastos de los parlamentarios](http://mps-expenses.guardian.co.uk/). 
TenĆ­amos 450.000 documentos y poco tiempo para hacer algo. 
¿Entonces qué cosa mejor que repartir la tarea entre los lectores?

![Una copia redactada de los gastos incidentales de Stephen Pound (The Guardian)](figs/incoming/04-EE.png){FIG0413}

El proyecto de los gastos de los parlamentarios generó muchas pistas.
Tuvimos mƔs historias que datos. El proyecto fue llamativamente exitoso
en términos de trÔfico. A la gente realmente le gustó.

Actualmente estamos 
[haciendo algo con MixMag sobre el uso de drogas](http://bit.ly/guardian-drugs), 
que tambiƩn ha sido fenomenal.
Parece que va a ser mƔs grande que la encuesta sobre crƭmenes en Gran
BretaƱa en tƩrminos de la cantidad de gente que vuelve, lo que es
brillante.

Lo que ambos proyectos tienen en comĆŗn es que se refieren a temas que
realmente le importan a la gente, por lo que estĆ” dispuesta a dedicarles
su tiempo. Mucho del *crowdsourcing* que hemos hecho depende de la ayuda
de obsesivos. Con los gastos de los parlamentarios tuvimos una cantidad
masiva de trÔfico al comienzo y luego bajó. Pero seguimos teniendo gente
que lee obsesivamente cada pƔgina buscando anomalƭas e historias. Una
persona ha leƭdo 30.000 pƔginas. Saben muchas cosas.

TambiƩn usamos "crowdsourcing" con 
[los papeles de Sarah Palin](http://bit.ly/guardian-palin-papers). 
También en este caso fue de gran ayuda para estudiar la información en 
crudo en busca de historias.

En tƩrminos de generar historias el "crowdsourcing" ha funcionado muy
bien. A la gente realmente le gusta e hizo quedar bien a The Guardian.
Pero en tƩrminos de generar datos no hemos usado el "crowdsourcing"
tanto.

Algunos de los proyectos de "crowdsourcing" que hemos hecho y que
funcionaron realmente bien, han sido encuestas a la antigua. Cuando uno
le pregunta a la gente acerca de su experiencia, su vida, lo que han
hecho, eso funciona muy bien porque la gente no tiende a inventar en
esos casos. Dice lo que siente. Cuando le pedimos a la gente que haga
nuestro trabajo por nosotros hay que encontrar una especie de marco para
que la gente produzca datos de un modo que resulten confiables.

Respecto de la confiabilidad de los datos, creo que la postura de 
[Old Weather](http://www.oldweather.org/) es realmente buena. Consiguen 
que 10 personas hagan cada entrada, que es una buena manera de asegurarse
precisión. Con los gastos de los parlamentarios tratamos de minimizar el
riesgo de que los mismos parlamentarios se metieran online a editar sus
datos para quedar mejor. Pero no se puede estar permanentemente
cuidÔndose de esto. Sólo se puede estar atento a ciertos URL o si
provienen de la zona SW1 de Londres. Asƭ que eso es un poco mƔs difƭcil.
Los datos que sacƔbamos no eran siempre confiables. Aunque las historias
eran muy buenas, no producía números en crudo que pudiéramos usar con
certeza.

Si tuviera que dar consejos a quienes aspiran a ser periodistas de datos
y que quieren usar el "crowdsourcing" para obtener datos, los alentarĆ­a
a hacerlo con algo que a la gente realmente le importa y que le seguirĆ”
importando cuando deje de producir titulares de primera pƔgina. AdemƔs,
si uno puede crear algo que se parezca a un juego, eso puede ayudar
realmente a atraer a la gente. Cuando hicimos la historia de los gastos
por segunda vez, fue mucho mƔs como un juego con tareas individuales
para que las hiciera la gente. Realmente fue de ayuda dar a la gente
tareas especĆ­ficas. Eso fue importante porque creo que si uno solo le
presenta a la gente una montaña de información que tiene que ver y le
dice ā€œmire estoā€, puede resultar un trabajo duro y poco grato. Por lo
que creo que es realmente importante hacer que sea divertido.

— *Marianne Bouchart, Data Journalism Blog, interviewing Simon Rogers,
the Guardian*


## Cómo el Datablog usó "crowdsourcing" para cubrir la venta de entradas para las Olimpíadas

Creo que el proyecto de *croudsourcing* que tuvo la mayor respuesta fue
un [trabajo sobre la subasta de entradas para las
OlimpĆ­adas](http://bit.ly/guardian-olympics). Miles de personas en el RU
trataron de obtener entradas para la OlimpĆ­ada de 2012 y hubo mucha
indignación porque la gente no las recibió. La gente había hecho pedidos
por cientos de libras y se les dijo que no recibirĆ­an nada. Pero nadie
sabĆ­a si eran solo unas pocas personas las que se quejaban ruidosamente
mientras la mayorĆ­a estaba contenta. Por lo que intentamos encontrar una
manera de saberlo.

Decidimos que lo mejor que podĆ­amos hacer realmente, dado que no habĆ­a
buenos datos sobre el tema, era preguntar a la gente. Y pensamos que
tendrĆ­amos que tratarlo como un tema no demasiado serio, porque no
tenĆ­amos una muestra representativa.

Creamos un formulario en Google e 
[hicimos preguntas muy especĆ­ficas](http://bit.ly/guardian-olympics2). 
En realidad era un cuestionario largo: preguntaba cuƔnto era el valor de las 
entradas que habƭan pedido, cuƔnto habƭan debitado de sus tarjetas de crƩdito, 
quƩ eventos querƭan ver, este tipo de cosas.

![Figure 13. ¿CuÔntas entradas Olímpicas consiguió?: los resultados de los lectores (The Guardian)](figs/incoming/04-FF.png){FIG0414}

Lo pusimos como una pequeña imagen a la cabeza del sitio y se difundió
rƔpidamente. Creo que esta es una de las cosas claves; no se puede solo
pensar ā€œĀæQuĆ© es lo que quiero saber para mi historia?ā€. Hay que pensar:
ā€œĀæQuĆ© me quiere contar la gente ahora?ā€ Y el "crowdsourcing" es exitoso
cuando uno descubre de quƩ quiere hablar la gente. El volumen de
respuestas para este proyecto, que es uno de nuestros primeros intentos
de "crowdsourcing", fue inmenso. Tuvimos 1.000 respuestas en menos de
una hora y 7.000 para el final del dĆ­a.

Por lo que obviamente, tomamos un poco mÔs seriamente la presentación de
los resultados en este momento. Inicialmente no sabíamos cómo nos iba a
ir. Por lo que agregamos algunas consideraciones: los lectores del
Guardian pueden tener mayores ingresos que otra gente, la gente que
recibió menos de lo esperado podía estar mÔs dispuesta a hablar con
nosotros, y asĆ­ siguiendo.

No sabƭamos cuƔnto valor tendrƭan los resultados. Terminamos con unos
7.000 registros en los cuales basar nuestro trabajo, y descubrimos que
alrededor de la mitad de la gente que pidió entradas no recibió nada.
Presentamos todo esto y debido a que tanta gente habĆ­a participado el
dƭa anterior, hubo mucho interƩs en los resultados.

Pocas semanas mÔs tarde salió el informe oficial y nuestras cifras
resultaron llamativamente precisas. Eran casi exactas. Creo que en parte
fue por una cuestión de suerte, pero también porque logramos que
respondiera tanta gente.

Si uno le pregunta a sus lectores sobre algo asĆ­ y contestan en los
comentarios de la nota, estarĆ” limitado en lo que puede hacer con los
resultados. De modo que tiene que empezar por pensar: ā€œĀæCuĆ”l es la mejor
herramienta para lo que quiero saber?ā€ ĀæEs un hilo de comentarios? ĀæO
tengo que crear una aplicación? Y si es crear una aplicación, hay que
pensar: ā€œĀæVale la pena la espera? ĀæY se justifican los recursos
requeridos para hacer esto?ā€

En este caso pensamos en los Formularios Google. Si alguien llena el
formulario el resultado aparece como una fila en una hoja de cƔlculo.
Esto significa que aunque aĆŗn si se estuviera actualizando, aĆŗn si
siguieran entrando resultados, se podrƭa abrir la hoja de cƔlculo y ver
todos los resultados.

Pude haber tratado de hacer el trabajo en Google, pero lo descarguƩ a
Microsoft Excel y luego ordené la información de menor a mayor; también
encontré las entradas en las que la gente para decir lo que gastó, había
escrito los nĆŗmeros como palabras (en vez de colocar los dĆ­gitos), y
arreglƩ eso. Decidƭ excluir lo menos posible. De modo que en vez de solo
aceptar las respuestas vƔlidas, tratƩ de arreglar lo que tenƭa. Algunos
habĆ­an usado divisas extranjeras, asĆ­ que las convertĆ­ a libras, todo lo
cual fue un poco trabajoso.

Pero hice todo el anƔlisis en pocas horas y eliminƩ las entradas
obviamente tontas. Mucha gente decidió decir que no había gastado nada
en entradas. Eso es un poco gracioso, pero estĆ” bien. Eran menos de cien
en mƔs de 7.000 entradas.

TambiƩn hubo unas pocas docenas de personas que ingresaron cifras
demasiado elevadas para tratar de distorsionar los resultados. Cosas
como 10.000.000 de libras. Por lo que eso me dejó con un conjunto de
datos que podĆ­a usar con los principios normales que usamos todos los
dĆ­as. Hice lo que se llama una ā€œtabla dinĆ”micaā€ (pivot table). Hice
algunos porcentajes. Ese tipo de cosas.

No tenĆ­amos idea del impacto que tendrĆ­a el proyecto, de modo que
trabajƩ yo solo con el editor del blog de deportes. Juntamos cabezas y
pensamos que este podĆ­a ser un proyecto divertido. Lo hicimos, de
comienzo a fin, en 24 horas. Tuvimos la idea, a la hora del almuerzo
armamos algo, lo pusimos a la cabeza del sitio, vimos que resultaba
bastante popular, lo dejamos a la cabeza del sitio el resto del dĆ­a y
presentamos los resultados online a la maƱana siguiente.

Decidimos usar Google Docs porque da completo control sobre los
resultados. No necesitaba usar las herramientas analĆ­ticas de otra
gente. Lo puedo trasladar fƔcilmente a un software de base de datos o a
hojas de cƔlculo. Cuando uno usa el software de consultas de
especialistas, a menudo se ve restringido a usar las herramientas de
ellos. Si hubiésemos estado pidiendo información muy delicada, quizÔs
hubiĆ©semos dudado de usar Google y pensado en hacer algo ā€œinternoā€. Pero
por lo general es muy fƔcil incorporar Google Forms a una pƔgina de The
Guardian y para el usuario es prƔcticamente invisible el hecho de que
estamos usando ese formulario. Por lo que es muy conveniente.

En tƩrminos de consejos para periodistas de datos que quieren usar el
"crowdsourcing", hay que definir cosas muy especĆ­ficas para consultar a
la gente. En lo posible, haga preguntas tipo ā€œmultiple choiceā€ (elegir
entre opciones fijas). Trate de conseguir datos demogrƔficos bƔsicos de
a quiƩn se dirige, de modo de ver si su muestra puede ser distorsionada.
Si estĆ” pidiendo cantidades y cosas por el estilo, trate de especificar
que requiere la información en dígitos, que tienen que usar una moneda
especƭfica, y asƭ. Muchos no lo harƔn, pero cuanto mƔs los guƭe en todo,
tanto mejor. Y siempre, siempre, agregue una ventana para comentarios
porque mucha gente llenarĆ” los otros campos pero lo que realmente quiere
es darle su opinión sobre el tema. Especialmente si se trata de algo que
tiene que ver con los consumidores o un escƔndalo.

— *Marianne Bouchart, Data Journalism Blog, interviewing James Ball, the
Guardian*


## Usar y compartir datos: las reglas tƩcnicas legales, la letra chica y la realidad


En esta sección echaremos un rÔpido vistazo al estado de las leyes
relacionadas con datos y bases de datos, y lo que puede hacer para
ofrecer sus datos al pĆŗblico usando licencias comunes y herramientas
legales. No deje que nada de lo que sigue ahogue su entusiasmo por el
periodismo de datos. Las restricciones al manejo de datos por lo general
no serƔn una traba y fƔcilmente puede asegurarse de que no sean una
traba para otros que usen los datos que usted publica.

Para decir lo obvio, obtener datos nunca fue mƔs fƔcil. Antes de la
publicación generalizada de datos en la red, aunque uno hubiera
identificado un conjunto de datos que necesitaba, tenĆ­a que pedir a
quien tuviera una copia que se la pusiera a disposición, lo que
posiblemente involucrara el uso del correo o una visita personal. Ahora
uno hace que su computadora le pida a la computadora del otro que le
envĆ­e una copia. Conceptualmente es algo similar, pero usted tiene una
copia de inmediato y el otro (el creador o editor) no ha hecho nada, y
probablemente no tenga idea de que usted descargó una copia.

¿Y qué pasa cuando se trata de descargar datos con un programa (lo que a
veces se llama ā€œscrapearā€) y condiciones de uso del servicio (en inglĆ©s
Terms of Service o ToS)? Considere la frase anterior: su navegador es
justamente ese tipo de programa. Puede ser que el ToS solo permita
acceso con cierto tipo de programa. Si tiene tiempo y dinero ilimitados
para gastar en la lectura de tales documentos y quizƔs para pedir
asesoramiento a un abogado, hƔgalo sin dudar. Pero por lo general trate
de no ser un idiota: si su programa causa daƱo a un sitio, su red puede
ver bloqueado el acceso al sitio en cuestión y quizÔs usted se lo
merezca. Ahora hay mucha experiencia respecto de acceder y "scrapear"
datos en la red. Si piensa hacer esto, le serĆ” provechoso leer los
ejemplos que se dan en sitios como ScraperWiki.

Una vez que tiene datos de interƩs, puede interrogar, desmenuzar,
ordenar, visualizar, correlacionar y realizar cualquier tipo de anƔlisis
que guste con su copia de los datos. Puede publicar su anƔlisis, citando
cualquier dato. La frase hecha ā€œlos datos son libresā€ (en el mismo
sentido que la palabra es libre) dice mucho, o quizƔs sea solo una frase
hecha de los que piensan demasiado en las cuestiones legales
relacionadas con las bases de datos o en sentido aún mÔs amplio (y
retorcido) el aspecto legal del manejo de datos.

¿Qué sucede si, siendo un periodista de datos bueno o que aspira a ser
bueno, tiene la intención de publicar no solo su anÔlisis, incluyendo
algunos hechos o datos puntuales, sino tambiƩn los conjuntos de
datos/bases de datos que usó –y a los que quizĆ”s incorporó mĆ”s
información- al realizar su anÔlisis? O quizÔs solo estÔ curando datos y
no ha hecho ningún anÔlisis (eso es bueno: el mundo necesita curadores
de datos). Si usted estĆ” usando datos recopilados por algĆŗn otro ente,
podría haber alguna complicación. (Si su base de datos ha sido armada
totalmente por usted, de todos modos lea el siguiente pƔrrafo como
motivación para las prÔcticas de compartir información que aparecen en
el pƔrrafo posterior).

Si usted estĆ” familiarizado con el modo en que el copyright limita el
trabajo creativo –si el titular del copyright no ha dado permiso para
usar un trabajo (o el trabajo estĆ” en el dominio pĆŗblico o su uso puede
estar cubierto por excepciones y limitaciones tal como el uso leal) y
usted usa –distribuye, realiza, etc.- el trabajo de todos modos, el
titular del copyright podrĆ­a obligarlo a interrumpirlo. Aunque los datos
son libres, los conjuntos de datos pueden ser restringidos de modo muy
similar, aunque hay mƔs variaciones en las leyes relevantes que en el
caso del copyright aplicado a obras creativas. En sĆ­ntesis, una base de
datos puede estar sujeta a copyright, como obra creativa. En muchas
jurisdicciones, por ā€œel sudor de la frenteā€, simplemente armar una base
de datos, incluso de modo no creativo, hace que la base de datos estƩ
sujeta a copyright. En Estados Unidos en particular, tiende a exigirse
un mĆ­nimo mayor de creatividad para que haya derecho de autor (Feist v.
Rural, un caso sobre una guía telefónica, es el caso clÔsico
estadounidense si quiere buscarlo). Pero en algunas jurisdicciones
tambiĆ©n hay ā€œderechos de base de datosā€ que restringen el uso de bases
de datos, como cosa distinta al copyright (aunque hay mucha
superposición en términos de lo que estÔ cubierto, en particular donde
los umbrales de creatividad para la existencia de copyright son
prƔcticamente inexistentes). Los mƔs conocidos de estos son los derechos
de base de datos *sui generis* de la Unión Europea. De nuevo,
especialmente si se encuentra en Europa, quizƔs quiera asegurarse de que
tiene autorización antes de publicar una base de datos de otra entidad.

Obviamente tales restricciones no son la mejor manera de promover un
ecosistema de periodismo basado en datos (tampoco es algo bueno para la
sociedad en general; cientĆ­ficos sociales y otros le dijeron a la UE que
no lo serían antes de la aparición de los derechos *sui generis*, y
estudios realizados desde su aparición han demostrado que tenían razón).
Afortunadamente como editor de una base de datos usted puede eliminar
tales restricciones para el uso de la base de datos (suponiendo que no
contiene elementos sobre los que usted no tiene autorización para
otorgar permiso), esencialmente otorgando permiso por adelantado. Puede
hacer esto publicando su base de datos bajo una licencia pĆŗblica o una
dedicatoria al dominio pĆŗblico, del mismo modo que muchos programadores
difunden sus códigos bajo una licencia libre y de libre acceso, de modo
que otros puedan utilizar su código (dado que el periodismo basado en
datos a menudo involucra código, no solo datos, por supuesto que usted
debe autorizar el uso de su código también, de modo que su colección de
datos y su anƔlisis sean reproducibles). Hay muchos motivos para dar
libre acceso a sus datos. Por ejemplo, su pĆŗblico podrĆ­a crear nuevas
visualizaciones o aplicaciones con los mismos y con las que usted puede
crear un vĆ­nculo, como hace The Guardian con su grupo en Flickr de
visualización de datos. Sus conjuntos de datos pueden combinarse con
otros conjuntos de datos para que usted y sus lectores tengan una mejor
visión de un tema. Las cosas que hacen otros con sus datos pueden darle
pistas para nuevas historias, o ideas para historias, o ideas para otros
proyectos basados en datos. Y sin duda le darĆ” prestigio.

![Distintivos de datos abiertos (Open Knowledge Foundation)](figs/incoming/04-GG.jpg){FIG0415}

Cuando uno advierte que difundir trabajos bajo licencias pĆŗblicas es una
necesidad, la cuestión pasa a ser: ¿cuÔl licencia? Esa pregunta
complicada frecuentemente serĆ” respondida por el proyecto o la comunidad
en cuyo trabajo usted basa el suyo, o al que espera poder contribuir con
su trabajo: use la licencia que ellos usan. Si necesita investigar mƔs a
fondo, empiece por el conjunto de licencias que son libres y abiertas,
es decir, que autorizan a cualquiera a darle cualquier uso (puede
requerirse tanto libertad de atribución como de compartir). La
[Definición de Conocimiento Abierto](http://opendefinition.org/) , en
espaƱol <http://es.wikipedia.org/wiki/Conocimiento_abierto>, significa
para todo otro conocimiento, incluyendo las bases de datos, lo mismo que
la Definición de Software Libre y la Definición de Código Libre
significan para el software: define lo que hace que una obra sea de
libre acceso y lo que las licencias de libre acceso permiten hacer a los
usuarios.

Puede visitar el sitio de Open Knowledge Definition para ver el 
[actual conjunto de licencias](http://opendefinition.org/licenses/), algunas
definiciones en espaƱol en 
[Creative Commons](http://es.wikipedia.org/wiki/Licencias_Creative_Commons)). 
En sƭntesis, bƔsicamente hay 3 clases de licencias abiertas:

 Dominio PĆŗblico 

:   Estas tambiƩn sirven como licencias de mƔxima permisividad; no hay
    condiciones impuestas al uso de la obra.

 Licencias permisivas o sólo de atribución 

:   Reconocer la autoría es la única condición sustancial de
    estas licencias.

 Licencias copyleft, recĆ­procas o de compartir por igual 

:   Estas tambiƩn requieren que si se publican obras modificadas, sean
    compartidas bajo la misma licencia.

Si usted estĆ” usando un conjunto de datos publicados por otro bajo una
licencia abierta, considere el pƔrrafo anterior como una breve guƭa
respecto de cómo debe cumplir las condiciones de esa licencia abierta.
Las licencias mƔs comunes de Creative Commons, Open data Commons y
varios gobiernos por lo general van acompaƱadas de una sƭntesis que le
permitirƔ ver fƔcilmente cuƔles son las condiciones sustanciales
requeridas. Comúnmente la licencia se presentarÔ en una pÔgina de la red
de la que puede descargarse un conjunto de datos (o de donde pueden ser
"scrapeados", ya que, por supuestos, las pƔginas de la red pueden
contener conjuntos de datos) o en un lugar conspicuo dentro del conjunto
de datos mismos, segĆŗn el formato. Esto es lo que usted debiera hacer
tambiƩn cuando autoriza el acceso a sus conjuntos de datos.

Volviendo al comienzo, ¿qué pasa si el conjunto de datos que necesita no
estĆ” disponibles online aĆŗn o hay algĆŗn tipo de control sobre los
mismos? Considere la posibilidad de pedir acceso no solo para usted,
sino que los datos se abran al uso de todo el mundo. Usted puede dar
algunas indicaciones de algunas de las grandes cosas que podrĆ­an suceder
con esos datos si asĆ­ se hiciera.

El tema de compartir datos con todo el mundo podría llevar a la cuestión
de que algunos conjuntos de datos pueden afectar derechos de privacidad
y otras consideraciones y regulaciones. Por cierto, el hecho de que el
carÔcter abierto de la información elimina muchas barreras técnicas y de
copyright,, o del tipo del copyright no significa que no haya que
cumplir otras leyes. Pero, en el caso de que su sentido comĆŗn le indique
que existe la necesidad de investigar esa cuestión, tenga en cuenta que
esto siempre fue asĆ­ y que hay tremendos recursos y en algunos casos
medidas de protección para periodistas.

”Buena suerte! Pero probablemente necesite la suerte mucho mÔs para
otros aspectos de su proyecto que para enfrentar los (escasos) riesgos
legales.

— *Mike Linksvayer, Creative Commons*


# Entender los datos

![](figs/incoming/05-00-cover.png)

Una vez que tiene sus datos, ¿qué hace con ellos? ¿Qué debe buscar? ¿Qué
herramientas debe usar? Esta sección comienza con algunas ideas acerca
de cómo mejorar su conocimiento del manejo de datos, consejos para
trabajar con cifras y estadĆ­sticas, y cosas a tener en cuenta cuando
trabaja con conjuntos de datos desordenados, imperfectos y a menudo poco
documentados. Podemos luego aprender a obtener historias de los datos,
cuƔles son las herramientas preferidas de los periodistas de datos, y
cómo usar la visualización de datos para que ayude a entender el tópico
en cuestión.

### QuƩ contiene este capƭtulo?

-   [Aprenda a manejar datos con 3 pasos
    simples](entender_los_datos_0.html)
-   [Consejos para trabajar con cifras en las
    noticias](entender_los_datos_1.html)
-   [Pasos bƔsicos para trabajar con datos](entender_los_datos_2.html)
-   [La pieza de pan de £ 32](entender_los_datos_3.html)
-   [Empiece por los datos, termine con una
    historia](entender_los_datos_4.html)
-   [Historias basadas en datos](entender_los_datos_5.html)
-   [Los periodistas de datos debaten sobre sus herramientas
    preferidas](entender_los_datos_6.html)
-   [Usar visualizaciones para descubrir cosas en los
    datos](entender_los_datos_7.html)


## Aprenda a manejar datos con 3 pasos simples

AsĆ­ como la alfabetización refiere a ā€œla capacidad de leer para conocer,
escribir de modo coherente y pensar crĆ­ticamente acerca de material
impresoā€, la alfabetización en materia de datos es la capacidad de
manejar datos para conocer, producir coherentemente y pensar
críticamente acerca de datos. La alfabetización en materia de datos
incluye la alfabetización estadística, pero también comprende cómo
trabajar con grandes conjuntos de datos, cómo fueron producidos, como
relacionar varios conjuntos de datos y como interpretarlos.

![[Cavar en los datos](http://www.flickr.com/photos/jdhancock/3386035827/) (photo by JDHancock)](figs/incoming/05-MM.jpg)

Poynter News University ofrece clases de [matemƔtica para
periodistas](http://www.newsu.org/courses/math-journalists) que ayudan a
dominar conceptos tales como cambios porcentuales y promedios. Es
interesante que estos conceptos se enseƱen simultƔneamente cerca de las
oficinas de Poynter, en escuelas de Florida a estudiantes de quinto
grado (10-11 aƱos), como lo atestigua [la currƭcula](http://bit.ly/k12-courses).

Que los periodistas necesiten ayuda con temas matemƔticos normalmente
vistos antes de la escuela secundaria muestra lo lejos que estƔn las
redacciones de saber manejar datos. Esto es un problema. ¿Cómo puede una
periodista hacer uso de una cantidad de cifras sobre cambio climƔtico si
no sabe lo que significa un intervalo de confianza? ¿Cómo puede un
periodista de datos escribir una historia sobre distribución del ingreso
si no sabe la [diferencia entre media y mediana](http://bit.ly/karenberger-mean-median)?

Una periodista por cierto no necesita tener un tĆ­tulo en estadĆ­stica
para ser mƔs eficiente en el manejo de los datos. Enfrentada a las
cifras, unos pocos trucos simples pueden ayudarla a armar una historia
mucho mejor. Como dice el profesor del Instituto Max Planck, Gerd
Gigerenzer, tener mejores herramientas no permitirĆ” hacer mejor
periodismo si éstas no son utilizadas con visión. Aunque no tenga ningún
conocimiento de matemƔtica o estadƭsticas, puede convertirse fƔcilmente
en una periodista de datos experimentada haciendo 3 preguntas muy
simples.

#### 1. ¿Cómo se obtuvieron los datos?

#### Sorprendente crecimiento del PBI

La manera mƔs fƔcil de darse aires con datos espectaculares es
fabricarlos. Suena obvio, pero datos tan comĆŗnmente comentados como las
cifras del PBI bien pueden ser falsos. El ex embajador britƔnico Craig
Murray informa en su libro, Asesinato en Samarcanda, que las tasas de
crecimiento en UzbekistƔn estƔn sujetas a intensas negociaciones entre
el gobierno local y entes internacionales. Dicho de otro modo, no tienen
nada que ver con la economĆ­a local.

El PBI es usado como el principal indicador porque los gobiernos tienen
que controlar su principal fuente de ingresos: el IVA. Cuando un
gobierno no se financia con el IVA, o cuando no informa pĆŗblicamente de
su presupuesto, no tiene motivos para recoger datos sobre el PBI y le
vendrĆ” mejor inventarlos.

#### El crimen siempre estĆ” en aumento

ā€œEl crimen en EspaƱa creció un 3%ā€, 
[escribe El PaĆ­s](http://bit.ly/elpais-numeracy). 
Bruselas es presa de un aumento del crimen de extranjeros ilegales y drogadictos, 
[escribe RTL](http://bit.ly/rtl-numeracy). Este tipo de de informes basados en
estadĆ­sticas recogidas por la policĆ­a es comĆŗn, pero no nos dice gran
cosa sobre la violencia.

Podemos confiar en que dentro de la Unión Europea los datos no son
falsificados. Pero el personal policial responde a incentivos. Cuando el
desempeƱo estƔ ligado a la tasa de esclarecimiento, por ejemplo, los
policƭas tienen un incentivo para informar lo mƔs posible de incidentes
que no requieren investigación. Uno de tales crímenes es el de fumar
marihuana. Esto explica por quƩ los crƭmenes relacionados con las drogas
en Francia se multiplicaron por 4 en los últimos 15 años, mientras que
el consumo se mantuvo constante.

#### QuƩ se puede hacer

Cuando dude de la credibilidad de una cifra, verifĆ­quela, tal como lo
haría si se tratara de una declaración de un político. En el caso
uzbeco, una llamada a alguien que haya vivido allĆ­ un tiempo basta (ā€œĀæEs
cierto que el paƭs es 3 veces mƔs rico que en 1995, como muestran las
cifras oficiales?ā€).

Para los datos policiales, los sociólogos a menudo realizan estudios de
victmización, en los que preguntan a la gente si es víctima de crímenes.
Estos estudios son mucho menos volƔtiles que los datos policiales.
QuizƔs ese sea el motivo por el que no se los destaca en los medios.

Otros tests permiten evaluar la credibilidad de los datos, tales como la
ley de Benford, pero ninguno de ellos suplanta su pensamiento crĆ­tico.

#### 2. ¿Qué se puede aprender de ello?

#### El riesgo de esclerosis mĆŗltiple aumenta al doble cuando se trabaja de noche

Sin duda cualquier alemana que no estƩ loca dejarƭa de trabajar de noche
luego de [leer este titular](http://bit.ly/dmsg-numeracy). Pero el
artƭculo no nos dice cuƔl es el riesgo realmente.

Tome 1000 alemanes. Solo uno tendrĆ” EM. Si todos estos 1000 alemanes
trabajaran de noche, el nĆŗmero de pacientes de EM se irĆ­a a 2. El riesgo
adicional de tener EM trabajando de noche es 1 en 1000, no 100%. Sin
duda esta información es mÔs útil al ponderar si aceptar un empleo.

#### En promedio, 1 de cada 15 europeos es totalmente analfabeto 

Este titular asusta. AdemƔs es cierto. Entre los 500 millones de
europeos, 36 millones probablemente no saben leer. Agreguemos que 36
millones tambiƩn tienen menos de 7 aƱos; 
[datos de Eurostat](http://bit.ly/eurostat-numeracy).

Cuando escriba sobre un promedio, siempre piense: ¿Un promedio de qué?
¿La población de referencia es homogénea? Los patrones de distribución
desigual explican por quƩ la mayorƭa de la gente maneja mejor que el
promedio, por ejemplo. Mucha gente tiene cero o solo un accidente en
toda su vida. Unos pocos conductores irresponsables tienen muchos, lo
que hace que el número promedio de accidentes sea mucho mÔs elevado de
lo que es la experiencia de la mayorĆ­a de la gente. Lo mismo vale para
la distribución del ingreso: la mayoría de la gente gana menos que el
promedio.

#### QuƩ puede hacer

Siempre tome en cuenta la distribución y la tasa base. Verificar el
media y la mediana asƭ como la moda (el valor mƔs frecuente en la
distribución) le ayuda a interpretar los datos. Conocer el orden de
magnitud hace mƔs fƔcil contextualizar, como en el ejemplo de EM.
Finalmente, informar en base a frecuencias naturales (1 de cada 100) es
mucho mƔs fƔcil de entender para los lectores que usar porcentuales (1%).

#### 3. ¿En qué medida es confiable la información? 

##### El problema del tamaƱo de la muestra

ā€œ80% insatisfecho con el sistema judicialā€, dice una encuesta de la que
se informa en [el Diario de Navarra](http://bit.ly/diariodenavarra) con
sede en Zaragoza. ¿Cómo se puede extrapolar de 800 encuestados a
46.000.000 de espaƱoles? Sin duda esto es poco serio.

Cuando se investiga una gran población (mÔs de unos pocos miles) rara
vez se necesita mƔs que un millar de encuestados para lograr un margen
de error de menos del 3%. Significa que si fuera a rehacer la encuesta
con una muestra totalmente distinta, 19 veces de 20 las respuestas que
recibirĆ­a estarĆ­an dentro del intervalo de 3 puntos porcentuales del
valor encontrado, comparado con lo que hubiera sucedido si entrevistaba
a todas las personas.

##### Tomar tƩ reduce el riesgo de infarto

Los artƭculos acerca de los beneficios de tomar tƩ son comunes. 
[Este artƭculo](http://bit.ly/welt-tea) breve en Die Welt que dice que el tƩ
reduce el riesgo de infarto del miocardio no es la excepción. Si bien
los efectos del tƩ son estudiados seriamente por algunos, muchas piezas
de investigación no toman en cuenta factores de estilo de vida, tales
como dieta, ocupación, o deportes.

En la mayorƭa de los paƭses, el tƩ es la bebida de las clases altas
preocupadas por la salud. Si los investigadores no toman en cuenta los
factores de estilo de vida en sus estudios sobre el tƩ, no nos dicen mƔs
que ā€œlos ricos son mĆ”s sanos y probablemente toman tĆ©ā€.

##### Lo que puede hacer

La matemƔtica que es la base de las correlaciones y los mƔrgenes de
error en los estudios sobre el tƩ es por cierto correcta, al menos la
mayorĆ­a de las veces. Pero si los investigadores no buscan correlaciones
(por ejemplo, tomar tƩ se correlaciona con hacer deporte), sus
resultados son de escaso valor. Como periodista, tiene poco sentido
cuestionar los resultados numƩricos de un estudio, tales como el tamaƱo
de la muestra, a menos que haya serias dudas al respecto. Sin embargo,
es fƔcil de ver si los investigadores no tomaron en cuenta elementos
relevantes de información.

— *Nicolas Kayser-Bril, Journalism++*


## Consejos para trabajar con cifras en las noticias

-   El mejor consejo para manejar datos es que lo disfrute. Los datos
    pueden parecer algo intimidantes. Pero si se deja intimidar no
    llegarƔ a nada. TrƔtelos como algo para jugar y explorar y a menudo
    entregarƔn secretos e historias con sorprendente facilidad. De modo
    que manƩjelos de manera simple, como lo hace con otras evidencias,
    sin temor ni parcialidad. En particular, piense en esto como un
    ejercicio de su imaginación. Sea creativo pensando en las historias
    alternativas que podrĆ­an ser coherentes con los datos y los explican
    mejor, luego póngalas a prueba con mĆ”s evidencias. ā€œĀæQuĆ© otra
    historia podrĆ­a explicar esto?ā€, puede ser una buena pregunta para
    pensar cómo esta cifra evidentemente grande o equivocada, esta clara
    prueba de esto o aquello, podrĆ­a no ser nada por el estilo.

-   No confunda el escepticismo respecto de los datos con cinismo. El
    escepticismo es bueno; el cinismo simplemente es darse por vencido.
    Si cree en el periodismo de datos (y probablemente es asĆ­ o no
    estarĆ­a leyendo este libro), entonces debe creer que los datos
    tienen algo mucho mejor que ofrecer que las mentiras de caricatura o
    los datos de titulares impactantes. Los datos a menudo nos dan
    conocimiento profundo, si se los usa cuidadosamente. No necesitamos
    ser cĆ­nicos ni ingenuos, sino estar alertas.

-   Si le digo que se bebe mÔs durante la recesión, podría decirme que
    se debe a que todos estƔn deprimidos. Si le digo que se bebe menos,
    podrĆ­a decirme que es porque nadie tiene plata. Dicho de otro modo,
    lo que digan los datos no incide en la interpretación que usted esté
    decidido a hacer, a saber, que las cosas estƔn muy mal no importa lo
    que suceda con la bebida. Si aumenta, es malo; si se reduce, es
    malo. La cuestión aquí es que si usted cree en los datos, trate de
    dejar que hablen antes de imponerles su propio estado de Ɣnimo,
    creencias o expectativas. Hay tantos datos que a menudo podrĆ­a
    encontrar confirmación de sus creencias previas si busca un poco.
    Dicho de otro modo, el periodismo de datos, al menos para mĆ­, agrega
    poco valor si usted no tiene la mente abierta. Es solo objetivo en
    la medida que usted lo hace objetivo y no en virtud de que se basa
    en nĆŗmeros.

-   La incertidumbre no es problema. Asociamos las cifras con la
    autoridad y la certidumbre. Muy a menudo la respuesta es que no hay
    respuesta, o la respuesta es la mejor que tenemos pero no es para
    nada precisa. Creo que debemos decir estas cosas. Si eso suena como
    una buena manera de matar una historia, sostendrĆ­a que es una gran
    manera de generar nuevos interrogantes. Del mismo modo, a menudo
    puede haber mƔs de un modo legƭtimo de ordenar los datos. Los
    nĆŗmeros no tienen que ser ciertos o falsos.

-   La investigación es una historia. La historia de cómo intentó
    descubrir algo, al avanzar de un elemento de evidencia a otro, puede
    ser excelente periodismo y esto se aplica especialmente a la
    evidencia de los datos, donde rara vez basta con una cifra.
    Distintas fuentes dan nuevos Ôngulos de interpretación, nuevas ideas
    y una comprensión enriquecida. Me pregunto si estamos demasiado
    preocupados por ganar autoridad y darle la respuesta a la gente,
    hasta el punto de que desaprovechamos un recurso, que es mostrar
    nuestra investigación.
-   Las mejores preguntas son las de siempre: Āæeso realmente es un
    número grande? ¿De dónde salió? ¿EstÔ seguro de que cuenta lo que
    usted cree que cuenta? Estos por lo general son solo incentivos para
    mirar lo que rodea a los datos, las cosas que quedaron de lado por
    mirar un solo nĆŗmero, las complicaciones de la vida real, la amplia
    gama de otras comparaciones posibles con relación al tiempo, el
    grupo o la geografĆ­a; en sĆ­ntesis, el contexto.

— *Michael Blastland, freelance journalist*


## Pasos bƔsicos para trabajar con datos

Hay al menos 3 conceptos clave que tiene que entender cuando comience un
proyecto de datos:

-   Los pedidos de datos deben comenzar con una lista de preguntas que
    quiere contestar
-   Los datos a menudo vienen sucios y hay que limpiarlos
-   Los datos pueden tener aspectos sin documentar

![Figure 2. Datos desordenados](figs/incoming/05-MM.png)

#### Sepa para quƩ preguntas quiere respuestas

En muchos sentidos, trabajar con datos es como entrevistar una fuente en
vivo. Usted le hace preguntas a los datos y logra que revelen las
respuestas. Pero asĆ­ como una fuente solo puede dar respuestas respecto
de las cuales tiene información, un conjunto de datos solo puede
responder preguntas para las que tiene los registros adecuados y las
variables correspondientes. Esto significa que usted debe considerar
cuidadosamente quƩ preguntas quiere responder antes de obtener datos.
BƔsicamente se trabaja hacia atrƔs. Primero, la lista de afirmaciones
basadas en datos que quieres presentar en su historia. Luego decida quƩ
variables y evidencias tendrĆ” que obtener y analizar para hacer esas
afirmaciones.

Considere un ejemplo que tiene que ver con los informes de crĆ­menes
locales. Digamos que quiere escribir una historia que analice los
patrones del crimen en su ciudad, y las cosas que quiere decir tienen
que ver con la hora del dƭa y los dƭas de la semana en los que es mƔs
común que se den ciertos tipos de crímenes, así como en qué zonas de la
ciudad se concentran varias categorĆ­as de crĆ­menes.

TendrĆ­a que advertir que su pedido de datos tiene que incluir la fecha y
el momento en que cada crimen fue informado, el tipo de crimen
(asesinato, robo, asalto, etc.), así como la dirección de donde se dio
el crimen. De modo que fecha, hora, categoría de crimen y dirección son
las variables mĆ­nimas que necesita para responder a esas preguntas.

Pero sea consciente de que hay una cantidad de preguntas potencialmente
interesantes que este conjunto de datos de 4 variables no puede
responder, como la raza y el gƩnero de las vƭctimas, o el valor total de
la propiedad robada, o quƩ agentes son mƔs productivos en cuanto a
lograr arrestos. AdemƔs quizƔs solo pueda conseguir los registros de
cierto período, como los últimos 3 años, lo que quiere decir que no
podrĆ­a saber si los patrones del crimen han cambiado respecto de un
perƭodo mƔs prolongado. Esas preguntas pueden quedar por fuera del plan
de su historia, y eso no es problema. Pero usted no querrĆ” meterse en su
anƔlisis de los datos y de pronto advertir que necesita saber quƩ
porcentaje de los crĆ­menes en distintas zonas de la ciudad son resueltos
con arrestos.

Una lección aquí es que a menudo es buena idea pedir todas las variables
y registros en la base de datos, en vez del subconjunto que responderĆ­a
a las preguntas para la historia inmediata. (de hecho, obtener todos los
datos puede ser mƔs barato que obtener un subconjunto, si tiene que
pagar a la agencia por la programación necesaria para producir el
subconjunto.) Siempre puede armar el subconjunto de datos por su cuenta
y tener acceso al conjunto de datos completo le permitirĆ” responder
nuevas preguntas que pueden surgir durante su trabajo e incluso producir
nuevas ideas para la continuación de la historia. Puede ser que las
leyes de confidencialidad u otras polĆ­ticas signifiquen que algunas
variables, tales como las identidades de las vĆ­ctimas o los nombres de
informantes confidenciales, no puedan difundirse. Pero incluso una base
de datos parcial es mejor que nada, siempre que usted entienda quƩ
preguntas puede o no contestar la base de datos.

#### Limpiar datos no normalizados

Uno de los mayores problemas en el trabajo con bases de datos es que a
menudo usarƔ datos para anƔlisis que han sido recogidos por motivos
burocrÔticos. El problema es que el nivel exigido de precisión es
bastante diferente.

Por ejemplo, una función clave de un sistema de bases de datos para la
justicia penal es asegurarse que el acusado Jones sea traĆ­do de la
cƔrcel al juzgado para estar frente la juez Smith en el momento de su
audiencia. Para ese propósito no importa mucho si la fecha de nacimiento
de Jones es incorrecta, o que estƩ mal escrito el nombre de la calle en
la que vive o siquiera si la inicial de su segundo nombre sea
equivocada. En general el sistema aĆŗn puede usar este registro
imperfecto para llevar a Jones al juzgado de Smith a la hora indicada.

Pero tales errores pueden complicar los esfuerzos del periodista por
descubrir patrones en la base de datos. Por ese motivo, la primera gran
tarea que debe encarar cuando obtiene un nuevo conjunto de datos es
examinar hasta donde tiene problemas y solucionarlos. Una manera rƔpida
de buscar datos no normalizados es crear tablas de frecuencias de las
variables por categorĆ­a, las que uno esperarĆ­a que tengan un nĆŗmero
relativamente pequeƱo de valores diferentes. (Cuando use Excel, por
ejemplo, usted puede usar Filtros o Tablas DinƔmicas para cada variable
categórica.)

Tomemos por caso ā€œgĆ©neroā€, un ejemplo simple. Usted puede descubrir que
el campo de GƩnero incluye cualquier mezcla de valores como estos:
Masculino, Femenino, M, F, 1, 0, MASCULINO, FEMENINO, etc., incluyendo
errores de escritura como ā€œFemenoā€. Para hacer un anĆ”lisis de gĆ©nero
adecuado debe estandarizar – quizĆ”s se decida por M y F- y luego cambiar
todas las variaciones para que coincidan con los estƔndares. Otra base
de datos comĆŗn con este tipo de problemas es la de los registros
financieros de campaƱas electorales de Estados Unidos, donde en el campo
de Ocupación puede dar las distintas variantes de abogado en inglés
(Lawyer, Attorney, Atty, Counsel, Trial lawyer y muchas otras) ademƔs de
los errores de escritura; nuevamente el truco es estandarizar los
títulos de ocupación en una lista de posibilidades mÔs corta.

La limpieza de los datos se vuelve aún mÔs problemÔtica cuando se
trabaja con nombres. Āæā€œJoseph T. Smithā€, ā€œJoseph Smithā€, ā€œJ.T. Smithā€,
ā€œJos. Smithā€ y ā€œJoe Smithā€ son todos la misma persona? QuizĆ”s haya que
mirar otras variables como dirección o fecha de nacimiento, o hacer una
investigación aún mÔs profunda en otros registros, para decidir. Pero
herramientas como Google Refine pueden hacer que la limpieza y
estandarización sean mÔs rÔpidas y menos tediosas.

Datos sucios

Gracias a las leyes de registro pĆŗblico por lo general fuertes en
Estados Unidos, obtener datos aquĆ­ no es un problema tan grande como en
muchos otros paĆ­ses. Pero una vez que los tenemos, aĆŗn quedan los
problemas de trabajar con datos que han sido recogidos por motivos
burocrÔticos y no con propósitos analíticos. Los datos a menudo vienen
ā€œsuciosā€, con valores que no estĆ”n estandarizados. Varias veces he
recibido datos que no se corresponden con el supuesto diagrama del
archivo y el diccionario de datos que los acompaƱan. Algunas entidades
insistirÔn en darle los datos en formatos poco útiles como .PDF, que
tienen que ser convertidos. Problemas como estos hacen que uno lo
aprecie cuando ocasionalmente recibe un conjunto de datos sin
complicaciones.

— *Steve Doig, Walter Cronkite School of Journalism, Arizona State
University*

#### Los datos pueden tener aspectos no documentados

La Piedra de Roseta de cualquier base de datos es el llamado diccionario
de datos. ComĆŗnmente, este archivo (puede ser texto PDF o incluso una
hoja de cÔlculo) le dirÔ cómo estÔ formateado el archivo de los datos
(texto delimitado, texto de ancho fijo, Excel, dBase, etc.), el orden de
las variables, los nombres de cada variable y el tipo de datos de cada
variable (hilo de texto, entero, decimal, etc.). Usted usarĆ” esta
información para que lo ayude a importar adecuadamente el archivo de
datos al software de anƔlisis que piensa usar (Excel, Access, SPSS,
Fusion Tables, distintas variantes de SQL, etc.)

El otro elemento clave de un diccionario de datos es una explicación de
los códigos que puedan usar variables particulares. Por ejemplo, género
puede estar codificado de tal modo que ā€œ1=Masculinoā€ y ā€œ0=Femeninoā€. Los
crĆ­menes pueden estar codificados de acuerdo a los nĆŗmeros estatutarios
de su jurisdicción para cada tipo de crimen. Los registros de
tratamientos hospitalarios pueden usar cualquiera de los cientos de
códigos de 5 dígitos existentes para el diagnóstico de las enfermedades
por las que estĆ” tratando a un paciente. Sin el diccionario de datos,
estos conjuntos de datos serĆ­an difĆ­ciles o incluso imposibles de
analizar adecuadamente.

Pero incluso contando con un diccionario de datos puede haber problemas.
Un ejemplo de tales problemas es lo que le sucedió a periodistas del
Miami Herald en Florida hace algunos aƱos, cuando estaban haciendo el
anƔlisis de los variados castigos que distintos jueces estaban
imponiendo a gente arrestada por manejar ebria e intoxicada. Los
periodistas obtuvieron los registros de condenas del sistema judicial y
analizaron las cifras con las 3 variables distintas de castigos en el
diccionario de datos: cantidad de tiempo en prisión, cantidad de tiempo
detenido y cantidad de multa. Las cifras variaban bastante entre los
jueces, dando a los periodistas evidencias para una historia acerca de
que algunos jueces eran duros y otros mƔs permisivos.

Pero para todos los jueces, en alrededor del 1-2 por ciento de los casos
no había tiempo de prisión, ni de detención, ni multa. Por lo que el
cuadro que mostraba los patrones de condenas de cada juez incluĆ­a una
cantidad pequeƱa de casos como ā€œSin castigoā€, casi como una nota al
margen. Cuando la historia y el cuadro se publicaron, los jueces
aullaron de indignación, diciendo que el Herald los acusaba de violar
una ley estatal que exige que cualquiera condenado por manejar borracho
sufra castigo.

Por lo que los periodistas volvieron a la oficina del empleado de la
corte que les habƭa dado el archivo de datos y le preguntaron quƩ era lo
que había causado el error. Se les dijo que los casos en cuestión
involucraban a acusados indigentes que eran arrestados por primera vez.
Normalmente se les hubiera impuesto una multa pero no tenĆ­an dinero. Por
lo que los jueces los condenaban a servicios comunitarios, tales como
limpiar la basura en los caminos. Resultó que la ley que requería el
castigo habƭa sido aprobada despuƩs de que fuera creada la estructura de
la base de datos. Por lo que los empleados de la corte sabĆ­an que en los
datos los ceros en las 3 variables de prisión-detención-multa
significaban servicio comunitario. Sin embargo, esto no aparecĆ­a en el
diccionario de datos y por tanto el Herald tuvo que publicar la
correspondiente rectificación.

La lección en este caso es que siempre hay que preguntar al ente que le
da los datos si hay elementos no documentados de los mismos, lo que
podría significar códigos nuevos que no estÔn incluidos en el
diccionario de datos, cambios en el ordenamiento del archivo, o
cualquier otra cosa. AdemƔs examine siempre los resultados de su
anĆ”lisis y pregĆŗntese: ā€œĀæEsto tiene sentido?ā€ Los periodistas del Herald
estaban armando el cuadro apurados por el plazo de entrega y estaban tan
concentrados en los niveles de castigo promedio de cada juez, que no
prestaron atención a los pocos casos que parecían no tener castigo.
Debieron haberse preguntado si tenĆ­a sentido que todos los jueces
aparentemente estuvieran violando la ley estatal, aunque mƔs no fuera en
mĆ­nima medida.

— *Steve Doig, Walter Cronkite School of Journalism, Arizona State
University*

> Datos mezclados, ocultos y faltantes

> Recuerdo una situación graciosa en la que tratamos de acceder a los
datos de HungrĆ­a sobre subsidios agropecuarios de la UE: estaban todos
allĆ­, pero en un documento PDF excesivamente pesado y mezclado con datos
sobre subsidios agropecuarios nacionales. Nuestros programadores
tuvieron que trabajar horas antes de que los datos pudieran ser
utilizados.

> TambiƩn tuvimos una experiencia bastante interesante con datos sobre
subsidios de pesca de la UE, que los entes nacionales encargados de los
pagos de los 27 estados miembros estƔn obligados a dar a conocer. Esto
estĆ” tomado de un informe que escribimos [sobre el
tema](http://bit.ly/alfter-eu27): ā€œEn el Reino Unido, por ejemplo, el
formato de los datos varía de pÔginas de búsqueda HTML muy fÔciles de
usar hasta resĆŗmenes en PDF o incluso listas de receptores en formatos
variados disimulados al final de declaraciones de prensa. Todo esto de
un solo estado miembro. Mientras tanto, en Alemania y Bulgaria se
publican listas vacĆ­as. Tienen los encabezados apropiados, pero sin
datosā€.

> — *Brigitte Alfter, Journalismfund.eu*


## La pieza de pan de £ 32

Una historia para el Wales On Sunday acerca de cuƔnto gasta el gobierno
galés en órdenes para productos libre de gluten contenía un titular que
indicaba que pagaba £32 por una pieza de pan. Pero en realidad eran 11
piezas que costaban £2,82 cada una.

Los datos, tomados de una respuesta por escrito de la Legislatura Galesa
y un informe estadĆ­stico del Servicio de Salud de Gales, estaban
presentados con el formato del costo por cada ítem de las órdenes. Sin
embargo en el diccionario de datos no daban ninguna definición adicional
de lo que podría ser un ítem de orden o cómo podría definirlo una
columna de cantidades por separado.

La suposición era que se referĆ­a a un Ć­tem individual –es decir, una
pieza de pan- en vez de lo que era en realidad, varias piezas.

Nadie, ni la gente que dio la respuesta por escrito ni la oficina de
prensa, plantearon la cuestión de la cantidad hasta el lunes posterior a
la publicación de la historia.

Por lo que no debe dar por supuesto que las notas de soporte de los
datos oficiales ayudarÔn a explicar qué información se presenta, o que
la gente responsable de los datos advertirÔ que la información no es
clara, incluso cuando usted les presente una suposición equivocada.

Por lo general los diarios quieren cosas que produzcan buenos titulares,
de modo que, a menos que algo contradiga evidentemente una
interpretación, por lo general es mÔs fÔcil aceptar lo que permite hacer
un buen titular y no investigar demasiado, con el riesgo de que se hunda
la historia, especialmente a la hora del cierre.

![Las órdenes de pan libre de gluten le cuestan a los contribuyentes (WalesOnline)](figs/incoming/05-AA.png)

Pero los periodistas tienen la responsabilidad de verificar las
afirmaciones ridĆ­culas, aunque signifique que esto hace caer la noticia.

— *Claire Miller, WalesOnline*


## Empiece por los datos, termine con una historia

Para atraer a sus lectores tiene que poder darles una cifra en los
titulares que los haga prestar atención. Casi se debiera poder leer la
historia sin tener que saber que se basa en un conjunto de datos. HƔgala
interesante y recuerde quién es su público.

Un ejemplo de esto puede encontrarse en un proyecto del Bureau of
Investigative Journalism que utiliza el [Sistema de Transparencia
Financiera](http://bit.ly/ec-fts) de la Comisión de la UE. La historia
se construyó con el conjunto de datos teniendo en mente interrogantes
especĆ­ficos.

Investigamos en los datos con tĆ©rminos clave tales como ā€œcoctelā€, ā€œgolfā€
y ā€œdĆ­as de descansoā€. Esto nos permitió establecer lo que la Comisión
había gastado en estos ítems y esto planteó numerosas preguntas e
historias para seguir.

Pero los tƩrminos clave no siempre le dan lo que quiere; a veces tiene
que tomarse un respiro y pensar quƩ es realmente lo que busca. Durante
este proyecto tambiƩn querƭamos descubrir cuƔnto gastan los comisionados
en viajes en jet privado pero como el conjunto de datos no contenĆ­a la
frase ā€œjet privadoā€ tuvimos que obtener el nombre de sus proveedores de
viajes por otros medios. Una vez que tuvimos el nombre del proveedor de
servicios de la Comisión, ā€œAbelagā€, pudimos buscar en los datos cuĆ”nto
se estaba gastando en servicios provistos por Abelag.

Con este enfoque tenĆ­amos un objetivo claramente definido para
investigar con los datos: encontrar una cifra que pudiera proveer un
titular; el colorido de la noticia siguió a ello.

Otro enfoque es comenzar con una lista negra y buscar exclusiones. ĀæUna
manera fƔcil de encontrar historias en los datos es saber quƩ cosas no
debiera encontrar allí! Un buen ejemplo de cómo esto puede funcionar es
ilustrado por el proyecto en colaboración de Fondos Estructurales de la
UE, entre el Financial Times y el Bureau of Investigative Journalism.

Investigamos los datos basÔndonos en las reglas de la Comisión respecto
de quƩ compaƱƭas y asociaciones no deben recibir fondos estructurales.
Un ejemplo era el gasto en tabaco y productores de tabaco.

Investigando los datos con los nombres de las compaƱƭas, productores y
cultivadores de tabaco, encontramos datos que revelaron que British
American Tabaco estaba recibiendo € 1.500.000 para una planta en
Alemania.

Dado que esa financiación violaba las normas de gastos de la Comisión,
fue una manera rƔpida de encontrar una historia en los datos.

Nunca se sabe lo que uno puede encontrar en un conjunto de datos, asĆ­
que eche una mirada. Hay que ser bastante audaz y este enfoque funciona
mejor por lo general cuando se trata de identificar caracterĆ­sticas
evidentes que se verƔn con el filtrado (los mayores, los extremos, los
mƔs comunes, etc.).

— *Caelainn Barr, Citywire*


## Historias basadas en datos

El periodismo de datos a veces puede dar la impresión que principalmente
se trata de la presentación de los datos, tales como visualizaciones que
son instrumentos poderosos que permiten comprender rÔpidamente algún
aspecto de las cifras, o bases de datos interactivas que permiten a los
individuos buscar lugares como su propia calle o un hospital. Todo esto
puede ser muy valioso, pero al igual que otras formas de periodismo, el
periodismo de datos también debe ser sobre historias. ¿Qué tipos de
historias pueden encontrarse en los datos? BasƔndome en mi experiencia
en la BBC he armado una lista o ā€œtipologĆ­aā€ de distintos tipos de
historias basadas en datos.

Creo que es Ćŗtil tener en cuenta esta lista, no solo cuando analiza
datos, sino tambiƩn en la fase previa, cuando los estƔ buscando (sean
datos a disposición del público o los que exigen presentar pedidos de
acceso a la información).

 Medición 

:   La historia simple; contar o hacer el total: ā€œLos consejos
    municipales de todo el paĆ­s gastaron un total de \$x miles de
    millones en broches de papel el aƱo pasadoā€. Pero a menudo es
    difĆ­cil saber si eso es mucho o poco. Para eso se necesita contexto,
    lo que puede ser aportado por:

 Proporción 

:   ā€œEl aƱo pasado los consejos municipales gastaron 2/3 de su
    presupuesto de librerĆ­a en broches de papelā€

 Comparación interna 

:   ā€œLos consejos municipales gastan mĆ”s en broches para papel que en
    proveer comidas para personas mayoresā€.

 Comparación externa 

:   ā€œEl gasto de los consejos en broches de papel el aƱo pasado fue el
    doble del presupuesto de la nación de ayuda a otros paĆ­sesā€.

TambiƩn hay otras maneras de explorar los datos de un modo contextual o
comparativo:

 Cambio a lo largo del tiempo 

:   ā€œEl gasto de los consejos en broches para papel se ha triplicado en
    los Ćŗltimos 4 aƱosā€.

 ā€œTablas comparativasā€ 

:   Estas a menudo son geogrÔficas o por institución, y debe asegurarse
    de que la base de comparación sea justa (por ejemplo, que tome en
    cuenta el tamaƱo de la población local). ā€œEl Consejo de Borsetshire
    gasta mƔs en broches para papel por cada miembro del personal que
    cualquier otra municipalidad, con una tasa de 4 veces el promedio
    nacionalā€.

O puede dividir los temas de los datos en grupos:

 AnƔlisis por categorƭas 

:   ā€œLos consejos dirigidos por el Partido Violeta gastan 50% mĆ”s en
    broches de papel que los controlados por el Partido Amarilloā€.

O puede relacionar los factores numƩricamente:

 Asociación 

:   ā€œLos consejos dirigidos por polĆ­ticos que han recibido aportes de
    campaƱa de compaƱƭas de productos de librerƭa gastan mƔs en broches
    de papel, con el gasto aumentando en promedio £ 100 por cada libra
    aportada en la campaƱaā€.

Pero, por supuesto, recuerde que correlación y causa no son la misma
cosa.

De modo que si estĆ” investigando el gasto en broches de papel, ĀæestĆ”
obteniendo tambiƩn las siguientes cifras?

-   Gasto total para dar contexto
-   Referencias geogrÔficas/ históricas/de otro tipo para poder dar
    datos comparativos
-   Los datos adicionales que necesita para asegurarse de que las
    comparaciones son justas, tales como el tamaño de la población.
-   Otros datos que podrƭan facilitar un anƔlisis interesante o con los
    cuales comparar o relacionar el gasto.

— *Martin Rosenbaum, BBC*



## Los periodistas de datos debaten sobre sus herramientas preferidas

Sssssss. Es el sonido de sus datos descomprimiƩndose al abrirse su
envoltorio al vacío. ¿Y ahora qué? ¿Qué busca? ¿Y qué herramientas usa?
Pedimos a periodistas de datos que nos contaran un poco de cómo trabajan
con datos. Esto es lo que nos dijeron:

En el Datablog de The Guardian nos gusta interactuar con nuestros
lectores y permitirles replicar nuestro periodismo de datos rƔpidamente
significa que pueden desarrollar el trabajo que hacemos y a veces ver
cosas que se nos pasaron. Por lo que cuanto mƔs intuitivas son las
herramientas de datos mejor. Tratamos de elegir herramientas que
cualquiera pueda manejar sin tener que aprender un lenguaje de
programación o que requieran fuerte capacitación a un costo elevado.

Por este motivo actualmente usamos mucho productos de Google. Todos los
conjuntos de datos que ordenamos y difundimos aparecen como Google
Fusion Tables, lo que significa que gente que tenga una cuenta de Google
puede descargar los datos, importarlos a su propia cuenta y hacer sus
propios cuadros, ordenar los datos y crear tablas comparativas, o pueden
importar los datos a la herramienta que prefieran.

Para mapear los datos usamosa Google Fusion Tables. Cuando creamos mapas
de calor en Fusion, compartimos nuestros archivos KML de modo que los
lectores puedan descargar y crear sus propios mapas de calor –quizĆ”s
agregando mƔs capas de datos al mapa original del Datablog. El otro
aspecto positivo de estas herramientas de Google es que funcionan con
las muchas plataformas que usan nuestros lectores para acceder al blog,
incluyendo PC, celulares y tabletas.

AdemƔs de las de Google Spreadsheets y Google Fusion Tables, usamos
otras dos herramientas en nuestro trabajo cotidiano. La primera es
Tableau, para visualizar conjuntos de datos multidimensionales; y la
segunda es ManyEyes, para un anƔlisis rƔpido de datos. Ninguna de estas
herramientas es perfecta, por lo que seguimos buscando mejores
herramientas de visualización que nuestros lectores puedan disfrutar.

*The Guardian*\
— Lisa Evans

¿Llegaré a ser programador alguna vez? ”Es muy improbable! Por cierto
que no creo que todos los periodistas tengan que saber programar. Pero
sĆ­ creo que es muy valioso que todos tengan una conciencia general de
qué cosas son posibles y cómo hablar con programadores.

Si estƔ reciƩn comenzando, camine, no corra. Tiene que persuadir a sus
colegas y editores que trabajar con datos le puede permitir conseguir
historias que de otro modo no tendrĆ­a y que valen la pena. Cuando
adviertan el valor de este enfoque, puede comenzar a hacer historias y
proyectos mƔs complejos.

Mi consejo es aprender Excel y hacer algunas historias simples primero.
Comience por cosas pequeƱas y vaya recorriendo el camino hasta el
anƔlisis y mapeo de bases de datos. Se puede hacer tanto en Excel; es
una herramienta extremadamente poderosa y la mayorĆ­a de la gente no usa
siquiera una mĆ­nima parte de su funcionalidad. Si puede haga un curso de
Excel para periodistas, tales como los que ofrece el Centre for
Investigative Journalism.

Con respecto a interpretar datos: no lo tome a la ligera. Tiene que ser
detallista. Preste atención a los detalles y cuestione sus resultados.
Tome notas de cómo procesa los datos y guarde una copia de los datos
originales. Es fƔcil cometer un error. Siempre hago mi anƔlisis 2 o 3
veces prƔcticamente desde cero. Incluso mejor serƭa conseguir que su
editor u otra persona analice los datos por su cuenta y compare los
resultados.

*Financial Times*\
— Cynthia O'Murchu

La capacidad de escribir, instalar y ejecutar software complejo tan
rƔpido como un periodista puede escribir una historia es algo bastante
nuevo. Antes llevaba mucho mƔs tiempo. Las cosas cambiaron gracias al
desarrollo de bases de desarrollo rÔpido de código abierto: Django y
Ruby on Rails; ambos se conocieron a mediados de la dƩcada del 2000.

Django, que estÔ construido sobre el lenguaje de programación Python,
fue desarrollado por Adrian Holovaty y un equipo que trabajaba en una
redacción, el Lawrence Journal-World en Lawrence, Kansas. Ruby on Rails
fue desarrollado en Chicago por David Heinemeier Hansson y 37Signals,
una compaƱƭa de aplicaciones para la red.

Si bien estas plataformas tienen enfoques diferentes del ā€œpatrón MVCā€,
ambas son excelentes y hacen posible crear aplicaciones para la red
rƔpidamente, incluso muy complejas. Eliminan parte del trabajo
rudimentario en la creación de una aplicación. Cosas como crear y buscar
ítems de la base de datos, y hacer corresponder URL con códigos
específicos en una aplicación, estÔn incorporados a esas plataformas,
por lo que los diseƱadores no necesitan escribir programas o hacer cosas
bƔsicas como esas.

El desarrollo de servicios de provisión de espacio en servidores rÔpidos
de la red como los Amazon Web Services eliminaron parte de lo que hacĆ­a
del lanzamiento de una aplicación un proceso lento.

Aparte de eso, usamos herramientas bastante estƔndar para el trabajo con
datos: Google Refine y Microsoft Excel para limpiar los datos; SPSS y R
para hacer estadĆ­sticas; ArcGIS y QGIS para hacer GIS; Git para el
manejo de códigos fuente; TextMate, Vim y Sublime Text para escribir
código; y una mezcla de MySql, PostgreSQL y SQL Server para bases de
datos. Creamos nuestra propia plataforma de JavaScript llamada ā€œGlassā€
que nos ayuda a crear aplicaciones para usuarios pesadas en JavaScript
muy rƔpidamente.

*ProPublica*\
— Scott Klein

A veces la mejor herramienta es la mƔs simple, es fƔcil subestimar el
poder de una planilla de cƔlculo. Pero usar una planilla de cƔlculo en
los tiempos en que todo funcionaba con DOS me permitió entender una
fórmula compleja del acuerdo de asociación de los dueños de los Texas
Rangers, cuando George W. Bush era uno de los propietarios claves. Una
planilla de cƔlculo me permite descubrir datos importantes o errores en
cÔlculos. Puedo escribir líneas de código en algún lenguaje de
programación (script) para limpieza, normalización y mÔs. Es un elemento
bƔsico del set de herramientas del periodista de datos.

Dicho eso, mis herramientas favoritas son aún mÔs poderosas: SPSS para
anƔlisis estadƭstico y mapear programas que me permiten ver patrones
geogrƔficos.

*The Seattle Times*\
— Cheryl Phillips

Soy fanÔtico de Python. Es un lenguaje de programación de código abierto
maravilloso que es fƔcil de leer y escribir (por ejemplo, no hay que
escribir un punto y coma despuƩs de cada lƭnea). Lo que es mƔs
importante, Python tiene una base tremenda de usuarios y por tanto tiene
plugins (llamados paquetes) para todo lo que uno necesite.

Considero que Django es algo que los periodistas de datos rara vez
necesitan. Es una plataforma basada en Python para aplicaciones en la
red, es decir una herramienta para crear aplicaciones grandes en la red
con bases de datos. Decididamente es demasiado pesado para infografĆ­as
interactivas pequeƱas.

También uso QGis, que es una herramienta de código abierto con una gran
variedad de funciones GIS, que son necesarias para periodistas de datos
que de vez en cuanto tienen que manejar datos geogrƔficos. Si necesita
convertir datos geo-espaciales de un formato a otro, entonces QGis es lo
que necesita. Puede manejar casi cualquier formato de geo-datos que
exista (Shapefiles, KML, GeoJSON, etc.). Si necesita recortar unas
cuantas regiones, QGis tambiƩn puede hacerlo. AdemƔs hay una inmensa
comunidad en torno de QGis, por lo que hay toneladas de recursos [como
tutoriales](http://bit.ly/goettingen-tutorial) en la red.

R fue creada principalmente como herramienta de visualización
científica. Es difícil encontrar un método de visualización o técnica de
manejo de datos que no estƩ incorporado a R. R es un universo en sƭ
mismo, la meca del anƔlisis visual de datos. Una contra es que hay que
aprender otro lenguaje de programación, ya que R tiene su propio
lenguaje. Pero una vez que superó los primeros pasos en la curva de
aprendizaje, no hay herramienta mƔs poderosa que R. Los periodistas de
datos capacitados pueden usar R para analizar conjuntos de datos
inmensos que extienden los limites de Excel (por ejemplo, si tiene una
tabla con un millón de filas).

Lo realmente lindo de R es que se puede tener un ā€œprotocoloā€ exacto de
lo que estĆ” haciendo con los datos durante todo el proceso, desde la
lectura de un archivo CSV a generar cuadros. Si los datos cambian puede
regenerar el cuadro usando un clic. Si alguien tiene curiosidad respecto
de la integridad de su cuadro, puede mostrarle la fuente exacta, lo que
permite a cualquiera recrear el mismo cuadro por su cuenta (o quizƔs
encontrar los errores que usted cometió).

NumPy + MatPlotLIb es una manera de hacer lo mismo en Python. Es una
opción si ya estÔ capacitado en Python. De hecho, NumPy y MatPlotLIb son
dos ejemplos de paquetes de Python. Pueden ser usados para anƔlisis y
visualización de datos y los dos se limitan a visualizaciones estÔticas.
No pueden usarse para crear cuadros interactivos con consejos sobre el
manejo de herramientas y cosas mƔs avanzadas.

Yo no uso MapBox, pero supe que es una gran herramienta si se quiere
presentar mapas mƔs sofisticados basados en OpenStreetMap. Permite por
ejemplo adecuar los estilos del mapa (colores, etiquetas, etc.). TambiƩn
hay un acompaƱante de MapBox, llamado Leaflet. Es bƔsicamente una
biblioteca de JavaScript de mƔs alto nivel para mapear que le permite
pasar de un proveedor de mapas a otro fƔcilmente (OSM, MapBox, Google
Maps, Bing, etc.).

RaphaelJS es una biblioteca de visualización mÔs bien de bajo nivel que
le permite trabajar con elementos primitivos (como cĆ­rculos, lĆ­neas,
texto) y animarlos, agregar interacciones, etc. No contiene nada
parecido a un cuadro de barras listo para usar, por lo que usted mismo
tiene que dibujar un conjunto de rectƔngulos.

Sin embargo, lo bueno de Raphael es que todo lo que crea funciona
tambiƩn en Internet Explorer. Eso no sucede con muchas otras bibliotecas
de visualización (asombrosas) como D3. Lamentablemente, tantos usuarios
siguen usando IE y ninguna redacción puede darse le lujo de ignorar al
30% de sus usuarios.

AdemÔs de RaphaelJS, también estÔ la opción de crear una alternativa en
Flash para IE. Es bƔsicamente lo que estƔ haciendo el New York Times.
Eso significa que tiene que desarrollar cada aplicación dos veces.

AĆŗn no estoy convencido de cuĆ”l es el ā€œmejorā€ proceso para crear
visualizaciones para IE y navegadores modernos. A menudo resulta que las
aplicaciones creadas con RapahelJS funcionan muy lentas en IE, alrededor
de 10 veces mƔs lentas que con Flash usando navegadores modernos. Por lo
que las alternativas en Flash pueden ser mejor opción si quiere ofrecer
visualizaciones animadas de alta calidad para todos los usuarios.

*Open Knowledge Foundation*\
— Gregor Aisch

Mi herramienta preferida es Excel, que puede manejar la mayorĆ­a de los
problemas CAR (periodismo asistido por computadoras) y tiene las
ventajas de ser fƔcil de aprender y estar disponible para la mayorƭa de
los periodistas. Cuando necesito fusionar tablas, comĆŗnmente uso Access,
pero luego exporto la tabla fusionada de nuevo a Excel para mƔs trabajo.
Uso el ArcMap de ESRI para anƔlisis geogrƔficos; es poderoso y es
utilizado por las agencias que recopilan datos geo-codificados.
TextWrangler es muy bueno para examinar datos de texto con diseƱos y
delimitadores complicados, y puede hacer bĆŗsqueda y reemplazo
sofisticada con expresiones regulares. Cuando se necesita tƩcnicas
estadística, como regresión lineal, uso SPSS; tiene un menú para señalar
y cliquear fƔcil de usar. Para trabajos realmente pesados, como las
tareas con conjuntos de datos que tienen millones de registros que
necesitan un importante filtrado y transformaciones de variables
programadas, uso software SAS.

*Walter Cronkite School of Journalism*\
— Steve Doig

Entre nuestras herramientas preferidas se incluyen Python y Django para
hackear, scrapear y jugar con datos; y PostGIS, QGIS y las herramientas
de MapBow para crear mapas locos en la red. R y MumPy + MatPlotLib
actualmente disputan la supremacĆ­a como nuestro equipo de trabajo para
anÔlisis de datos exploratorio, aunque últimamente nuestra herramienta
de datos preferida es de nuestra propia cosecha: CSVKit. Hacemos casi
todo en la nube.

*Chicago Tribune*\
— Brian Boyer

En La Nación usamos:

-   Excel para limpiar, organizar y analizar datos,
-   Google Spreadsheets para edición y conexión con servicios tales como
    Google Fusion Tables y la Junar Open Data Platform,
-   Junar para compartir nuestros datos e incrustarlos en nuestros
    artĆ­culos y actualizaciones del blog,
-   Tableau Public para nuestras visualizaciones de datos interactivas,
-   Qlikview, una herramienta de inteligencia para empresas muy rƔpida
    para analizar y filtrar conjuntos de datos grandes,
-   NitroPDF para convertir PDF a archivos de texto y Excel,
-   Google Fusion Tables para visualizaciones de mapas.

*La Nacion (Argentina)*\
— AngĆ©lica Peralta Ramos

Como comunidad de base sin preferencias tƩcnicas, en Transparency
Hackers usamos muchas herramientas y lenguajes de programación
diferentes. Cada miembro tiene su propio conjunto de preferencias y esta
gran variedad es al mismo tiempo nuestro punto fuerte y nuestra
debilidad. Algunos estamos construyendo una ā€œVersión de Linux para
Hackers de Transparenciaā€, que podamos iniciar en cualquier parte para
hackear datos. Este recurso tiene algunas herramientas y bibliotecas
interesantes para manejar datos como Refine, RStudio y OpenOffice Calc
(por lo general una herramienta poco usada por la gente que conoce del
tema, pero realmente útil para cosas rÔpidas/pequeñas). También hemos
estado usando ScraperWiki mucho para hacer prototipos rƔpidamente y
guardar resultados de datos online.

Hay muchas herramientas que nos gustan para visualizaciones de datos y
grƔficos. Python y NumPy son bastante poderosas. Alguna gente de la
comunidad ha estado jugando con R, pero en definitiva las bibliotecas
para ploteado de grƔficos, como D3, Flot, y RaphaelJS es lo que se
termina usando en la mayorĆ­a de nuestros proyectos. Finalmente, hemos
estado experimentando mucho con mapeado, y Tilemill ha sido una
herramienta muy interesante para este trabajo.

*TransparĆŖncia Hacker*\
— Pedro Markun


## Usar visualizaciones para descubrir cosas en los datos

La visualización es crítica para el anÔlisis de datos. Aporta una
primera lĆ­nea de ataque, revelando estructuras intrincadas en datos que
no pueden ser absorbidas de otro modo. Descubrimos efectos inimaginados
y cuestionamos aquellos que han sido imaginados.

*Hobart Press*\\ — William S. Cleveland (de Visualizing Data

Los datos por sĆ­ mismos, que consisten de bits y bytes almacenados en un
archivo en el disco rĆ­gido de una computadora, son invisibles. Para
poder verlos y encontrarles sentido, necesitamos visualizarlos. En esta
sección voy a usar el término visualizar en un sentido mÔs amplio, que
incluye incluso representaciones textuales puras de datos. Por ejemplo,
simplemente cargar un conjunto de datos en un software de planilla de
cÔlculo puede considerarse una visualización de datos. Los datos
invisibles de pronto se convierten en una ā€œimagenā€ visible en nuestra
pantalla. Por tanto, la pregunta no debe ser si los periodistas
necesitan visualizar los datos o no, sino qué tipo de visualización
puede ser la mÔs útil en cada situación.

Dicho de otro modo: ¿cuÔndo tiene sentido ir mÔs allÔ de la
visualización en tablas? La respuesta mÔs simple es: casi siempre. Las
tablas por sí solas decididamente no bastan para darnos una visión
general de un conjunto de datos. Y las tablas por sĆ­ solas no nos
permiten identificar inmediatamente patrones dentro de los datos. El
ejemplo mÔs común aquí son los patrones geogrÔficos que solo pueden
observarse al visualizar datos en un mapa. Pero tambiƩn hay otros tipos
de patrones, que veremos luego en esta sección.

#### Usar visualización de datos para descubrir información clarificadora

No es realista esperar que herramientas y técnicas de visualización de
datos disparen una andanada de historias listas para usar a partir de
los conjuntos de datos. No hay reglas ni ā€œprotocolosā€ que nos garanticen
que tendremos una historia. En cambio, creo que tiene mƔs sentido buscar
ā€œpercepcionesā€, que un buen periodista puede incorporar a historias.

Cada nueva visualización puede darnos percepciones sobre nuestros datos.
Parte de esa información reveladora puede ser conocida ya (pero quizÔs
aĆŗn no demostrada), mientras que otros aspectos pueden resultarnos
completamente nuevos o incluso sorprendentes. Algunas cosas nuevas que
percibimos podrĆ­an significar el comienzo de una historia, mientras que
otras podrĆ­an ser simplemente el resultado de errores en los datos, que
es mƔs probable que encontremos visualizando los datos.

Para hacer mÔs efectiva la búsqueda de nuevas percepciones en los datos,
me resulta de gran ayuda el proceso representado en [Figure 4](#FIG054) 
(y descripto en el resto de esta sección).

![Figure 4. Información reveladora en datos; una visualización (Gregor Aisch)](figs/incoming/05-BB.png)

##### Aprenda a visualizar datos

La visualización ofrece una perspectiva particular sobre el conjunto de
datos. Usted puede visualizar datos de muchas maneras diferentes.

Las tablas son muy poderosas cuando se trata de un nĆŗmero relativamente
pequeƱo de puntos. Muestran etiquetas y montos del modo mƔs estructurado
y organizado y revelan su potencial plenamente cuando se las combina con
la capacidad de ordenar y filtrar los datos. Adicionalmente, Edward
Tufte sugirió incluir pequeños grÔficos dentro de columnas de tablas,
por ejemplo, una barra por fila o una pequeƱa lƭnea de cuadro (desde
entonces conocida también como sparkline). Pero aún así, y tal como ya
dijimos, las tablas claramente tienen limitaciones. Son muy buenas para
mostrar cuestiones unidimensionales, como los primeros 10, pero son muy
pobres cuando se trata de comparar múltiples dimensiones simultÔneamente
(por ejemplo, población por país a lo largo del tiempo).

![Consejos de Tufte: sparklines (Gregor Aisch) ](figs/incoming/05-BC-graphical-table.png)

Los cuadros, en general, le permiten vincular dimensiones de sus datos
con propiedades visuales de formas geomƩtricas. Mucho se ha escrito
sobre la efectividad de las propiedades visuales individuales, y la
versión mÔs breve de todo ello es: el color es difícil, la posición es
todo. En un diagrama de dispersión, por ejemplo, se relaciona dos
dimensiones con las posiciones x- e y-. Incluso se puede presentar una
tercera dimensión relacionada con el color o el tamaño de los símbolos
presentados. Los cuadros lineales son especialmente adecuados para
mostrar evoluciones temporales, mientras que los cuadros de barras son
perfectos para comparar datos de categorĆ­as. Se puede apilar elementos
de cuadros. Si desea comparar un pequeño número de grupos de sus datos,
presentar múltiples instancias del mismo grÔfico es una forma muy
poderosa de hacerlo (también conocido como múltiplos pequeños). En todos
los cuadros se puede usar distintos tipos de escalas para explorar
aspectos diferentes de los datos (por ejemplo, lineal o escala
logarĆ­tmica).

De hecho la mayor parte de los datos que manejamos estƔn relacionados de
algĆŗn modo con gente real. El poder de los mapas es que reconectan los
datos con nuestro mundo fĆ­sico. Imagine un conjunto de datos de
incidentes criminales ubicados geogrÔficamente. Lo crucial es ver dónde
suceden los crƭmenes. AdemƔs los mapas pueden revelar relaciones
geogrƔficas dentro de los datos (por ejemplo, una tendencia de norte a
sur, o de zonas urbanas a rurales).

![Mapa coroplƩtico (Gregor Aisch)](figs/incoming/05-BD-choropleth.png)

Hablando de relaciones, el cuarto tipo mÔs importante de visualización
es el grƔfico. Los grƔficos sirven para mostrar las interconexiones
(bordes) de sus puntos de datos (nodos). La posición de los nodos se
calcula entonces por algoritmos de diagrama de grƔficos mƔs o menos
complejos que nos permiten ver inmediatamente la estructura dentro de la
red. El truco de la visualización por grÔficos en general es encontrar
el modo adecuado para modelar la red misma. No todos los conjuntos de
datos incluyen ya relaciones y aunque las incluyan puede no ser el
aspecto mƔs interesante. A veces el periodista tiene que definir los
bordes entre nodos. Un ejemplo perfecto de esto es el 
[GrƔfico Socialdel Senado](http://slate.me/senate-social) de EE.UU., cuyos bordes
conectan senadores que votaron lo mismo en mƔs del 65% de los casos.

##### Analice e intƩrprete lo que ve

Una vez que haya visualizado sus datos, el siguiente paso es aprender
algo del cuadro que creó. Podría preguntarse:

- ¿Qué puedo ver en esta imagen? ¿Es lo que esperaba? - ¿Hay patrones
interesantes? - ¿Qué significa esto en el contexto de los datos?

A veces puede terminar con una visualización que, pese a su belleza,
puede no decirle nada de interƩs de sus datos. Pero casi siempre hay
algo que puede aprender de cualquier visualización, por trivial que sea.

##### Documente sus percepciones y sus pasos

Si piensa en este proceso como un viaje a travƩs del conjunto de datos,
la documentación es su diario de viaje. DirÔ a dónde viajó, que ha visto
allí y cómo tomó sus decisiones para sus siguientes pasos. Incluso puede
comenzar con su documentación antes de echar su primera mirada a los
datos.

En la mayorĆ­a de los casos cuando comenzamos a trabajar con un conjunto
de datos que no hemos visto previamente, ya estamos llenos de
expectativas y supuestos sobre los datos. Por lo general hay un motivo
por el que estamos interesados en el conjunto de datos que estamos
mirando. Es buena idea comenzar la documentación escribiendo estos
pensamientos iniciales. Esto nos ayuda a identificar nuestros prejuicios
y reduce el riesgo de malas interpretaciones de los datos encontrando
simplemente lo que querĆ­amos encontrar originalmente.

Realmente creo que la documentación es el paso mÔs importante del
proceso, y es tambiƩn el que somos mƔs proclives a dejar de lado. Como
verÔ en el ejemplo que viene a continuación, el proceso descripto
involucra mucha planificación y manejo de datos. Mirar un conjunto de 15
cuadros que ha creado puede ser muy confuso, especialmente al
transcurrir algĆŗn tiempo. De hecho esos cuadros solo son valiosos (para
usted o cualquier persona a la que quiera comunicar lo que descubrió) si
se los presenta en el contexto en el que fueron creados. Por tanto debe
tomarse algĆŗn tiempo para hacer notas sobre cosas como:

- ¿Por qué creé este cuadro? 
- ¿Qué he hecho con los datos para crearlo?
- ¿Qué me dice este cuadro?

##### Transforme los datos

Naturalmente con las nuevas cosas que percibió con la última
visualización, puede tener una idea de lo que quiere ver a continuación.
Puede haber encontrado algún patrón interesante en el conjunto de datos
que ahora quiere inspeccionar con mƔs detalle.

Las posibles transformaciones:

Acercamiento (zoom) : Para ver cierto detalle en la visualización
Agregación : Combinar muchos puntos de datos en un solo grupo. Filtrado
: Eliminar (temporariamente) puntos de datos que no son de nuestro mayor
interés Eliminación de datos atípicos : Eliminar puntos individuales que
no son representativos del 99% del conjunto de datos.

SituƩmonos en el caso de que usted ha visualizado un grƔfico y lo que
surgió no fue mÔs que un enredo de nodos conectados por cientos de
bordes (un resultado muy comĆŗn cuando se visualiza lo que se llama redes
densamente conectadas). Un paso de transformación común sería filtrar
algunos bordes. Si, por ejemplo, los bordes representan flujos de dinero
de paĆ­ses donantes a paĆ­ses receptores, podrĆ­amos eliminar todos los
flujos menores a cierto monto.

#### QuƩ herramientas usar

La cuestión de las herramientas no es fÔcil. Toda herramienta de
visualización de datos disponible es buena para algo. La visualización y
el manejo de los datos debe ser fƔcil y barato. Si cambiar los
parƔmetros de las visualizaciones le lleva horas, no va a experimentar
demasiado. Eso no quiere decir necesariamente que no deba aprender cómo
usar la herramienta. Pero una vez que aprendió, debiera ser realmente
eficiente.

A menudo hay que tener mucho criterio para elegir una herramienta que
cubra tanto las cuestiones del manejo de los datos como la visualización
de datos. Separar las tareas en distintas herramientas significa que
tiene que importar y exportar datos muy a menudo. Esta es una breve
lista de algunas herramientas de visualización y manejo de datos:

- Planillas de cƔlculo como LibreOffice, Excel o Google Docs -
Plataformas de programación estadística como R (r-project.org) o Pandas
(pandas-pydata.org) - Sistemas de Información GeogrÔfica (GIS) como
Quantum GIS, ARcGIS, o GRASS - Biblitoecas de Visualización como d3.js
(mbostock.github.com/d3), Prefuse (prefuse.org) o Flare
(flare.prefuse.org) - Herramientas de manejo de datos como Google Refine
o Datawrangler - Software para crear visualizaciones como ManyEyes o
Tableau Public (tableausoftware.com/products/public)

Las visualizaciones de muestra en la siguiente sección fueron creadas
usando R, que es el cortaplumas suizo de la visualización de datos
(cientĆ­fica).

#### Un ejemplo: encontrarle sentido a los datos sobre contribuciones electorales

Veamos la base de datos de las Finanzas de la CampaƱa Presidencial de
Estados Unidos, que contiene alrededor de 450.000 aportes a candidatos
presidenciales estadounidenses. El archivo CSV es de 60 megabytes y
demasiado grande para manejar fƔcilmente en un programa como Excel.

En el primer paso escribirƩ explƭcitamente mis supuestos iniciales
respecto del conjunto de datos sobre contribuciones para las campaƱas
electorales:

- Obama recibe la mayor suma en contribuciones (dado que es el
presidente y tiene la mayor popularidad) - La cantidad de contribuciones
aumenta al acercarse la fecha de las elecciones. - Obama recibe mƔs
contribuciones pequeƱas que los candidatos republicanos

Para responder a la primera pregunta, tenemos que transformar los datos.
En vez de cada contribución individual, necesitamos sumar el total de lo
aportado a cada candidato. Luego de visualizar los resultados en una
tabla ordenada, confirmamos nuestro supuesto de que Obama obtendrĆ­a la
mayor cantidad de dinero:

+-----------------------------------+-----------------------------------+
| Candidato | Monto ($) |
+===================================+===================================+
| Obama, Barack | 72.453.620,39 |
+-----------------------------------+-----------------------------------+
| Romney, Mitt | 50.372.334,87 |
+-----------------------------------+-----------------------------------+
| Perry, Rick | 18.529.490,47 |
+-----------------------------------+-----------------------------------+
| Paul, Ron | 11.844.361,96 |
+-----------------------------------+-----------------------------------+
| Cain, Herman | 7.010.445,99 |
+-----------------------------------+-----------------------------------+
| Gingrich, Newt | 6.311.193,03 |
+-----------------------------------+-----------------------------------+
| Pawlenty, Timothy | 4.202.769,03 |
+-----------------------------------+-----------------------------------+
| Huntsman, Jon | 2.955.726,98 |
+-----------------------------------+-----------------------------------+
| Bachmann, Michelle | 2.607.916,06 |
+-----------------------------------+-----------------------------------+
| Santorum, Rick | 1.413.552,45 |
+-----------------------------------+-----------------------------------+
| Johnson, Gary Earl | 413.276,89 |
+-----------------------------------+-----------------------------------+
| Roemer, Charles E. \*Buddy\* III | 291.218,80 |
+-----------------------------------+-----------------------------------+
| McCotter, Thaddeus G | 37.030,00 |
+-----------------------------------+-----------------------------------+

Si bien esta tabla muestra los montos mƭnimo y mƔximo y el orden, no
dice demasiado acerca de los patrones subyacentes al ranking de los
candidatos. [Figure 7](#FIG059) es otra vista de los datos, un tipo
de cuadro conocido como ā€œcuadro de puntosā€, en el que podemos ver todo
lo que aparece en la tabla mƔs los patrones dentro del campo. Por
ejemplo, el cuadro de puntos nos permite comparar inmediatamente la
distancia entre Obama y Romney y Romney y Perry, sin tener que restar
valores. (Nota: este cuadro de puntos fue creado usando R. Puede
encontrar vínculos con el código fuente al final de este capítulo).

![Visualizaciones para descubrir patrones subyacentes (Gregor Aisch)](figs/incoming/05-CC.png)

Ahora procedamos con un cuadro mƔs grande del conjunto de datos. Como
primer paso, visualicƩ todos los montos aportados a lo largo del tiempo
en una sola vista. Podemos ver que casi todas las contribuciones son
muy, muy pequeñas comparado con 3 casos salientes. Una investigación mÔs
a fondo revela que estas contribuciones inmensas provienen del ā€œFondo
para la Victoria de Obama 2012ā€ (tambiĆ©n conocido como SuperPAC) y se
hicieron el 9 de junio (US$ 450.000), septiembre 29 (US$1.500.000) y diciembre 30 (US$ 1,900.000).

![3 casos salientes (Gregor Aisch)](figs/incoming/05-DD.png)

Si bien las contribuciones de SĆŗper PACs por si solas son sin duda la
historia mƔs importante en los datos, podrƭa ser interesante mirar mƔs
allÔ. La cuestión ahora es que estas grandes contribuciones perturban
nuestra visión de las contribuciones mÔs pequeñas que provienen de
individuos, por lo que vamos a quitarlas de los datos. Esta
transformación se conoce comúnmente como eliminación de datos atípicos.
Luego de visualizar nuevamente, podemos ver que la mayorĆ­a de las
donaciones estƔn dentro del rango de entre US\\\$ 5.000 y US\\\$ 10.000.

![Eliminar datos atĆ­picos (Gregor Aisch)](figs/incoming/05-EE.png)

De acuerdo al lĆ­mite a las contribuciones establecidos por FECA
(autoridad electoral), no se permite a los individuos donar mƔs de
US$ 2500 a cada candidato. Como podemos ver en el grƔfico, hay
numerosas donaciones por encima de ese lĆ­mite. En particular, nos llaman
la atención dos grandes contribuciones en mayo. Parece que son
compensadas por montos negativos (reembolsos) en junio y julio. Una
investigación mÔs a fondo de los datos revela las siguientes
transacciones:

- El 10 de mayo, *Stephen James Davis*, de San Francisco, empleado en
Banneker Partners (abogados), ha donado **US$ 25.800** a Obama. -
El 25 de mayo, *Cynthia Murphy*, de Little Rock, empleada en el Murphy
Group (relaciones pĆŗblicas), ha donado **US$ 33.300** a Obama -
El 15 de junio el monto de **US$ 30.800** fue devuelto a
*Cynthia Murphy*, lo que redujo el monto donado a US$ 2500. 
- El 8 de julio, se devolvió el monto de **US$ 25.800** a 
*Stephen James Davis*, lo que redujo el monto donado a US$ 0.

¿Qué tienen de interesantes estas cifras? Los US$ 30.800 devueltos a
Cynthia Murphy equivalen al monto mƔximo que pueden dar individuos a
comitƩs nacionales de partidos al aƱo. QuizƔs querƭa combinar ambas
donaciones en una transacción, que fue rechazada. Los US$ 25.800
devueltos a Stephen James Davis posiblemente equivalen a los US$30.800 
menos US$ 5000 (el lƭmite de aportes a cualquier otro comitƩ polƭtico).

Otra cosa interesante descubierta en el último grÔfico es un patrón
lineal horizontal de contribuciones para candidatos republicanos por
US$ 5000 y -US$ 2500. Para verlos con mƔs detalle, visualicƩ solo
las donaciones a republicanos. El grƔfico resultante es un gran ejemplo
de patrones en datos que serían invisibles sin visualización de datos.

![Eliminación de datos atípicos 2 (Gregor Aisch)](figs/incoming/05-FF.png)

Lo que podemos ver es que hay muchas donaciones de US$ 5000 a
candidatos republicanos. De hecho, un anƔlisis de los datos da que hay
1243 de estas donaciones, que es solo el 0,3% del nĆŗmero total de
donaciones, pero debido a que esas donaciones se reparten de modo parejo
en el tiempo, la lĆ­nea aparece. Lo interesante de la lĆ­nea es que las
donaciones de individuos estaban limitadas a US$ 2500. En
consecuencia cada dólar que superó ese límite fue devuelto a los
donantes, lo que resulta en la segunda lĆ­nea de –US$ 2500. En
contraste, las contribuciones a Barack Obama no muestran un patrón
similar.

![Eliminación de datos atípicos 3 (Gregor Aisch)](figs/incoming/05-GG.png)

Por lo que podrƭa ser interesante averiguar por quƩ miles de donantes
republicanos no advirtieron los lĆ­mites para donaciones de individuos.
Para analizar mÔs en profundidad el tema, podemos ver el número total de
donaciones de US$ 5000 por candidato.

![Donaciones por candidato (Gregor Aisch)](figs/incoming/05-HH.png)

Por supuesto que esta es una visión distorsionada dado que no considera
los montos totales de donaciones recibidas por cada candidato. El
siguiente grƔfico muestra el porcentaje de donaciones de US\\\$ 5000 por
candidato.

![ ¿De dónde viene la plata del senador?: donaciones por candidato (Gregor Aisch)](figs/incoming/05-II.png)

#### QuƩ aprender de esto

A menudo tal anƔlisis visual de un nuevo conjunto de datos se vive como
un viaje excitante a un paĆ­s desconocido. Uno comienza como un
extranjero contando solo con los datos y sus supuestos, pero con cada
paso que da, con cada cuadro que produce, percibe cosas nuevas sobre el
tópico. Basado en esas percepciones, toma decisiones respecto de sus
siguientes pasos y que cuestiones ameritan una mayor investigación. Como
habrĆ” visto en este capĆ­tulo, este proceso de visualizar, analizar y
transformar datos podrĆ­a repetirse casi al infinito.

#### Consiga el código fuente

Todos los cuadros que se muestran en este capĆ­tulo fueron creados usando
el maravilloso y poderoso software R. Creado principalmente como
herramienta de visualización científica, es difícil encontrar alguna
técnica de visualización o manejo de datos que no esté incorporada a R.
Para aquellos interesados en saber cómo visualizar y manejar datos
usando R, a continuación aparecen los códigos fuente para los cuadros
generados en este capĆ­tulo:

- [Cuadro de puntos: contribuciones por candidato](https://gist.github.com/1769733) 
- [GrƔfico: todas las contribuciones a lo largo del tiempo](https://gist.github.com/1816161)
- [GrƔfico: contribuciones por comitƩs autorizados](https://gist.github.com/1816169)

Hay tambiƩn una gran variedad de libros y tutoriales disponibles.

— *Gregor Aisch, Open Knowledge Foundation*


# Difundir datos

![](figs/incoming/06-00-cover.png)

Una vez que analizó bien sus datos y decidió que hay algo interesante
sobre lo cual escribir, ¿cómo puede difundirlos al público? Esta sección
se inicia con breves anécdotas acerca de cómo conocidos periodistas
presentaron los datos a sus lectores: desde infografĆ­as, pasando por
plataformas de datos, hasta *links* para descarga. Luego analizamos con
mÔs detenimiento cómo crear nuevas aplicaciones y los detalles de la
visualización de datos. Finalmente analizamos lo que puede hacer para
que su proyecto le resulte atractivo al pĆŗblico.

### QuƩ contiene este capƭtulo?

-   [Presentar datos al pĆŗblico](difundir_datos_0.html)
-   [Cómo crear una aplicación de noticias](difundir_datos_1.html)
-   [Aplicaciones de noticias en ProPublica](difundir_datos_2.html)
-   [La visualización como el caballo de tiro del periodismo de
    datos](difundir_datos_3.html)
-   [El uso de visualizaciones para narrar
    historias](difundir_datos_4.html)
-   [Cuadros diferentes dicen cosas diferentes](difundir_datos_5.html)
-   [Selección de herramientas "HÔgalo Ud. mismo" para hacer sus propias
    visualizaciones de datos.](difundir_datos_6.html)
-   [Cómo presentamos los datos en el Verdens
    Gang](difundir_datos_7.html)
-   [Los datos pĆŗblicos se vuelven sociales](difundir_datos_8.html)
-   [Interactuar con la audiencia en torno a sus
    datos](difundir_datos_9.html)



## Presentar datos al pĆŗblico

Hay muchas maneras diferentes de presentar los datos al pĆŗblico, desde
publicar conjuntos de datos en crudo con historias, hasta crear hermosas
visualizaciones y aplicaciones interactivas en la web. Pedimos consejos
a periodistas de datos con experiencia sobre cómo presentar datos al
pĆŗblico.

#### Visualizar o no visualizar

Hay momentos en que los datos pueden contar la historia mejor que
palabras o fotos y es por eso que tĆ©rminos como ā€œaplicación de noticiasā€
y ā€œvisualización de datosā€ han adquirido el status de palabras clave en
tantas redacciones en los últimos tiempos. También promueve el interés
la gran cosecha de nuevas herramientas y tecnologĆ­as (a menudo
gratuitas) destinadas a ayudar incluso al periodista menos dotado
técnicamente a convertir datos en una presentación visual de una
historia.

Herramientas como Google Fusion Tables, Many Eyes, Tableau, Dipity, y
otras hacen mƔs fƔcil que nunca crear mapas, cuadros, grƔficos o incluso
aplicaciones con datos que hasta aquĆ­ eran el dominio de especialistas.
Siendo las barreras al ingreso ahora apenas un lomo de burro, la
cuestión para los periodistas ahora no es tanto si pueden convertir sus
conjuntos de datos en una visualización sino si les conviene hacerlo.
Una [mala visualización de datos](http://bit.ly/niemanlab-wordcloud) es
peor en muchos sentidos que ninguna visualización.

— *Aron Pilhofer, New York Times*

#### El uso de grƔficos con movimiento

Con un guión ajustado, animaciones bien cronometradas y explicaciones
claras, los grÔficos con movimiento pueden dar vida a números o ideas
complejas, orientando a su pĆŗblico. Las videoconferencias de Hans
Rosling son un buen ejemplo de cómo los datos pueden narrar una historia
en la pantalla. Concuerde o no usted con su metodologƭa, yo tambiƩn creo
que el [Ć­ndice Shoe-throwers](http://econ.st/shoethrowers) de The
Economist es un buen ejemplo del uso del video para contar una historia
basada en números. Usted no presentaría este grÔfico como una imagen
estƔtica o al menos no deberƭa hacerlo. Suceden demasiadas cosas en la
presentación. Pero habiendo llegado paso a paso, a uno le queda la
comprensión de cómo y por qué llegaron a este índice. Con grÔficos con
movimiento y cortos animados, puede reforzar lo que el pĆŗblico estĆ”
escuchando. Los recursos visuales explicativos con la voz *en off*
ofrecen una manera poderosa y memorable de contar una historia.

— *Lulu Pinney, freelance infographic designer*


#### Contarle al mundo

Nuestro flujo de trabajo por lo general comienza con Excel. Es una
manera fƔcil de descubrir si hay algo interesante en los datos. Si
tenemos la sensación de que hay algo, entonces vamos a la mesa de
noticias. Tenemos suerte de estar ubicados junto a la principal mesa de
noticias de The Guardian. Entonces analizamos cómo visualizarlo o
mostrarlo en la pƔgina. Luego escribimos el texto que lo acompaƱa.
Cuando escribo por lo general tengo una versión reducida de la planilla
de cƔlculo junto al editor de texto. A menudo hago anƔlisis parciales
mientras escribo, para encontrar cosas interesantes. Publico en el blog
y me dedico un rato a hacer tweets al respecto, escribiendo a distintas
personas y asegurƔndome de que tiene links a todos los lugares
indicados.

La mitad del trƔfico de algunas de las cosas que subimos al blog vienen
de Twitter y Facebook. Estamos bastante orgullosos de que el tiempo
promedio dedicado a un artĆ­culo en nuestro Datablog es de 6 minutos,
comparado con un promedio de 1 minuto para el resto del sitio de The
Guardian. Seis minutos es bastante bueno y el tiempo en la pƔgina es una
de las mƩtricas claves al analizar nuestro trƔfico.

Esto tambiƩn ayuda a convencer a nuestros colegas acerca del valor de lo
que estamos haciendo. Eso y las grandes historias basadas en datos en
las que hemos trabajado que todos los demÔs en la redacción conocen:
COINS, WikiLeaks y los disturbios en el Reino Unido. Para los datos de
gasto de COINS, tuvimos 5-6 periodistas especializados trabajando en The
Guardian para dar sus puntos de vista sobre los datos cuando fueron
difundidos por el gobierno del Reino Unido. TambiƩn tuvimos otro equipo
de 5-6 periodistas cuando el gobierno difundió los datos de gastos por
encima de las £25000 libras, incluyendo periodistas muy conocidas como
Polly Curtis. WikiLeaks tambiƩn obviamente fue muy importante, con
muchas historias sobre Irak y AfganistƔn. Los disturbios tambiƩn fueron
bastante importantes, con mƔs de 550.000 vistas en 2 dƭas.

Pero no se trata solo de las visitas de corto plazo: tambiƩn tiene que
ver con ser una fuente confiable de información útil. Tratamos de ser el
lugar donde usted puede obtener información buena y significativa sobre
los temas que cubrimos.

— *Simon Rogers, the Guardian*

#### Publicar los datos

A menudo publicamos los datos en nuestro sitio en una visualización y de
una forma que permite la fƔcil descarga del conjunto de datos. Nuestros
lectores pueden explorar los datos detrƔs de las historias interactuando
en las visualizaciones o usando los datos mismos de otros modos. ĀæPor
quƩ es importante esto? Aumenta la transparencia de The Seattle Times.
Mostramos a los lectores los mismos datos que usamos para sacar
poderosas conclusiones. ¿Y quién las usa? Nuestros críticos sin duda,
asƭ como todos los que simplemente estƔn interesados en la historia y
todas sus ramificaciones. Al dar acceso a los datos tambiƩn podemos
recibir comentarios de estos mismos crĆ­ticos y los lectores en general
respecto de lo que no vimos y quƩ mƔs podemos explorar, todas cosas
valiosas para un periodismo que importa.

— *Cheryl Phillips, The Seattle Times*

#### Dar acceso a sus datos

Dar a los consumidores de noticias acceso fƔcil a los datos que usamos
para nuestro trabajo es lo correcto por varios motivos. Los lectores
pueden asegurarse de que no estamos torturando a los datos para llegar a
conclusiones forzadas. Dar acceso a nuestros datos continúa la tradición
de las ciencias sociales de permitir que investigadores reproduzcan
nuestro trabajo. Alentar a los lectores a estudiar los datos puede
generar ideas que lleven a la continuación de las historias. Finalmente,
los lectores interesados en sus datos van a ser proclives a volver una y
otra vez.

— *Steve Doig, Walter Cronkite School of Journalism, Arizona State
University*

#### Crear una plataforma de datos abierta

En La Nación publicar datos con libre acceso es una parte integral de
nuestras actividades periodĆ­sticas de datos. En la argentina no existe
una Ley de Acceso a la Información ni un portal nacional de datos, por
lo que nos parece importante proveer a nuestros lectores el acceso a los
datos que usamos en nuestras historias.

Por tanto publicamos datos estructurados en crudo a travƩs de [nuestra
plataforma](http://data.lanacion.com.ar/) integrada Junar asĆ­ como en
Google Spreadsheets. ExplĆ­citamente autorizamos y alentamos a terceros a
reutilizar nuestros datos y explicamos un poco acerca de cómo hacer esto
[con documentación y tutoriales en video](http://bit.ly/lanacion-tutorials).

Lo que es mƔs, presentamos algunos de estos conjuntos de datos y
visualizaciones en nuestro [blog NACION DATA](http://blogs.lanacion.com.ar/data/). 
Hacemos esto para evangelizar sobre nuestros datos y herramientas de edición de datos 
en la Argentina y mostrar a otros cómo reunimos nuestros datos, como los usamos y cómo
pueden reutilizarlos.

Desde que lanzamos la plataforma en febrero de 2012, hemos recibido
sugerencias e ideas para conjuntos de datos, principalmente de
acadƩmicos e investigadores, asƭ como estudiantes de universidades que
se muestran muy agradecidos cada vez que contestamos con una solución o
un conjunto de datos especĆ­fico. Hay gente que conoce y comenta nuestros
datos en Tableau y varias veces hemos sido el ƭtem mƔs comentado y visto
en el sitio. En 2011 tuvimos 7 de las 100 [visualizaciones mƔs
vistas](http://bit.ly/tableau-7-100).

— *AngĆ©lica Peralta Ramos, La Nación (Argentina)*

#### Humanizar los datos

Al ampliarse el conocimiento del debate en torno a los grandes conjuntos
de datos, una parte importante ha estado notoriamente ausente: el
elemento humano. Mientras muchos pensamos en los datos como nĆŗmeros
disociados, flotando en el vacĆ­o, en realidad son mediciones de cosas
tangibles (y a menudo humanas). Los datos estƔn unidos a la vida de
gente real y cuando abordamos los nĆŗmeros, debemos considerar los
sistemas del mundo real de los que provienen.

Tomemos, por ejemplo, los datos de ubicación que se estÔn recogiendo en
este momento de cientos de millones de celulares y dispositivos móviles.
Es fƔcil pensar en estos datos (cifras que representan latitud, longitud
y tiempo) como ā€œdescarga digitalā€, pero en realidad son datos destilados
de momentos de nuestras narrativas personales. Si bien pueden ser secos
y clƭnicos cuando se leen en una planilla de cƔlculo, cuando permitimos
a la gente incorporar sus propios datos a un mapa y reproducirlos,
experimentan una especie de replay de la memoria que es poderoso y
humano.

En este momento, los datos de localización son utilizados por muchos
diseƱadores de aplicaciones, grandes marcas y anunciantes. Mientras las
segundas (empresas de telecomunicaciones y administradores de
dispositivos) son dueƱos y almacenan los datos, el primero en esta
ecuación –usted- no tiene acceso ni control de esta información. En el
grupo de Investigación y Desarrollo del NYTimes, hemos lanzado un
proyecto prototipo llamado [OpenPaths](https://openpaths.cc/) para
permitir al público explorar sus propios datos de locación y
experimentar el concepto de propiedad de los datos. Al fin de cuentas,
la gente debiera tener control de estas cifras tan estrechamente ligadas
a sus propias vidas y experiencias.

Los periodistas tienen un rol muy importante en sacar a luz esta
humanidad inherente a los datos. Al hacerlo, tienen el poder de cambiar
la comprensión del público tanto de los datos como de los sistemas de
los que emergieron los nĆŗmeros.

— *Jer Thorp, Data Artist in Residence: New York Times R&D Group*


#### Datos abiertos, fuentes abiertas, noticias abiertas

El 2012 bien pudo ser el aƱo de las noticias abiertas. EstƔ en el centro
de nuestra ideologĆ­a editorial y es un mensaje clave de nuestra marca
actualmente. En medio de todo esto, estĆ” claro de que necesitamos un
proceso abierto para el periodismo basado en datos. Este proceso no solo
debe ser alimentado de datos abiertos, sino tambiƩn facilitado por
herramientas abiertas. Para fin de aƱo esperamos poder acompaƱar cada
visualización que publicamos con acceso tanto a los datos como al código
con el que se construyó.

Muchas de las herramientas usadas en la visualización hoy son de fuente
cerrada. Otras vienen con licencias restrictivas que prohĆ­ben el uso de
datos derivados. Las bibliotecas de fuente abierta existentes a menudo
resuelven un problema bien pero no ofrecen una metodologƭa mƔs amplia.
De conjunto esto dificulta a la gente apoyarse en el trabajo de los
demƔs. Esto cierra conversaciones en vez de abrirlas. Con este fin,
estamos desarrollando una cantidad de herramientas abiertas para narrar
historias interactivas. El Miso Project (@themisoproject) es un ejemplo.

Estamos analizando este trabajo con una cantidad de organizaciones de
medios. Se requiere de la participación de la comunidad para realizar
plenamente el potencial del software de código abierto. Si tenemos éxito
introducirƔ una dinƔmica fundamentalmente diferente con nuestros
lectores. Las contribuciones pueden ir mƔs allƔ del comentario a
bifurcar nuestro trabajo, solucionar problemas o re-utilizar datos de
maneras inesperadas.

— *Alastair Dant, the Guardian*

#### Agregue un link de descarga

En los últimos años trabajé con unos cuantos gigabytes de datos para
proyectos o artƭculos, desde el escaneado de tablas escritas a mƔquina
de la dĆ©cada del ā€˜60 hasta los 1,5 gigabytes de cables publicados por
WikiLeaks. Siempre ha sido difĆ­cil convencer a los editores de publicar
sistemƔticamente los datos en formato abierto y accesible. Para superar
el problema, agreguĆ© links para ā€œDescargar los datosā€ dentro de los
artĆ­culos, apuntando a los archivos que los contenĆ­an o los Google Docs
relevantes. El interƩs de potenciales reutilizadores coincidƭa con lo
que vemos en los programas promovidos por el Estado (es decir, muy, pero
muy escaso). Sin embargo, las pocas instancias de reutilización
aportaron nuevas visiones o promovieron conversaciones que bien valen
los pocos minutos extra por proyecto.


— *Nicolas Kayser-Bril, Journalism++*

#### Conozca su alcance

Hay una gran diferencia entre hackear por diversión y hacer ingeniería
de sistemas buscando escala y buen desempeño. Asegúrese de asociarse con
gente que tenga las capacidades apropiadas para su proyecto. No olvide
el diseƱo. La facilidad de uso, la experiencia del usuario y el diseƱo
de la presentación pueden afectar mucho el éxito de su proyecto.

— *Chrys Wu, Hacks/Hackers*



## Cómo crear una aplicación de noticias

Son ventanas que muestran los datos en los que se apoya la historia.
Pueden ser bases de datos abiertas a bĆŗsquedas, visualizaciones
elegantes, o algo totalmente distinto. Pero no importa la forma que
asuman, las aplicaciones alientan a los lectores a interactuar con los
datos en un contexto que es significativo para ellos: investigar
tendencias criminalĆ­sticas en su zona, verificar los antecedentes de su
mƩdico local o analizar las contribuciones polƭticas de su candidato.

MƔs que infografƭas de alta tecnologƭa, las mejores aplicaciones de
noticias son productos durables. Tienen vida por fuera del ciclo de las
noticias, ayudando a menudo a los lectores a resolver problemas del
mundo real, o respondiendo preguntas de un modo tan Ćŗtil como novedoso
que se convierten en recursos perdurables. Cuando periodistas de
ProPublica quisieron explorar en quƩ medida eran seguras las clƭnicas de
diÔlisis de riñón estadounidenses, crearon una
[aplicación](http://projects.propublica.org/dialysis/) que ayudaba a los
usuarios a verificar si las instalaciones en su ciudad eran seguras.
Proveer un servicio tan importante y relevante crea una relación con los
usuarios que va mucho mƔs allƔ de lo que una historia narrativa puede
hacer por sĆ­ sola.

AllĆ­ estĆ” el desafĆ­o y la promesa de crear aplicaciones de noticias que
son lo último en materia tecnológica: crear algo de valor duradero. Sea
usted un diseñador o un gerente, cualquier discusión acerca de crear una
gran aplicación debe comenzar con una mentalidad de desarrollo de un
producto: mantenerse enfocado en el usuario y trabajar para lograr el
mayor impacto con su inversión. Por lo que, antes de comenzar a crear
una aplicación, es bueno hacerse tres preguntas, que se abordan en las
siguientes secciones.

![Monitor de instalaciones para diƔlisis (ProPublica)](figs/incoming/06-AA.png)

#### ¿CuÔl es mi público y cuÔles son sus necesidades? 

Las aplicaciones de noticias no sirven a la historia por la historia
misma, sirven al usuario. SegĆŗn el proyecto, el usuario puede ser un
paciente de diƔlisis que quiere conocer los antecedentes de su clƭnica o
incluso una dueƱa de casa que no conoce el riesgo de terremoto cerca de
su hogar. No importa quién sea, toda discusión sobre la creación de una
aplicación de noticias, como cualquier buen producto, debe empezar por
la gente que la va a usar.

Una sola aplicación puede servir a muchos usuarios. Por ejemplo, un
proyecto llamado [Curbwise](http://curbwise.com/), creado por el Omaha
(Nebraska) World-Herald le sirve a propietarios de casas que creen que
les estƔn cobrando impuestos excesivos, a residentes curiosos
interesados en los valores de propiedades cercanas y trabajadores
inmobiliarios que buscan seguir las tendencias de las ventas recientes.
En cada uno de esos casos, la aplicación responde a necesidades
especĆ­ficas que hacen que los usuarios vuelvan.

Los propietarios de casas, por ejemplo, podrĆ­an necesitar ayuda para
reunir información sobre propiedades próximas de modo de poder demostrar
que sus impuestos son injustamente elevados. Reunir esa información
exige tiempo y es complicado, un problema que Curbwise resuelve para sus
usuarios compilando [un informe fƔcil de
usar](http://curbwise.com/how-to-protest) de toda la información que
necesitan para cuestionar los impuestos a sus propiedades ante las
autoridades municipales. Curbwise vende ese informe por US\$ 20 y la
gente lo paga porque le resuelve un problema real de sus vidas.

Sea que su aplicación resuelva un problema del mundo real como Curbwise
o acompaƱe la narrativa de una historia con visualizaciones
interesantes, siempre sea consciente de la gente que la usarĆ”.
ConcƩntrese en diseƱar y crear los componentes basados en sus
necesidades.

#### ¿CuÔnto tiempo debo dedicar a esto?

Los programadores en la redacción son como agua en el desierto: muy
buscados y escasos. Crear aplicaciones de noticias significa equilibrar
las necesidades diarias de una redacción con los compromisos de largo
plazo que se necesita para crear productos realmente buenos.

Digamos que su editor le viene con una idea: el Consejo Municipal va a
votar la semana entrante si demoler o no varias propiedades históricas
en su ciudad. Sugiere crear una aplicación simple que le permita a los
usuarios ver los edificios en un mapa.

Como programador, usted tiene unas pocas opciones. Puede flexionar su
mĆŗsculo de ingeniero de sistemas creando un mapa fabuloso usando
software especialmente desarrollado para el caso. O puede usar
herramientas existentes como las Google Fusion Tables o bibliotecas de
mapeado de código abierto y terminar el trabajo en un par de horas. La
primera opción le darÔ una mejor aplicación; pero la segunda puede darle
mƔs tiempo para crear otra cosa con mayores probabilidades de tener un
impacto duradero.

El hecho de que una historia sea apta para crear una aplicación compleja
y hermosa no significa que tenga que crearla. Es crĆ­tico saber medir las
prioridades. La cuestión es recordar que toda aplicación que usted cree
tiene un costo: a saber, otra aplicación potencialmente mÔs impactante
en la que pudo haber estado trabajando.

#### ¿Cómo puedo llevar la cosa al siguiente nivel?

Crear aplicaciones de noticias sofisticadas puede exigir mucho tiempo y
ser costoso. Por eso siempre se justifica preguntar cuƔl serƔ el rƩdito.
¿Cómo se convierte una aplicación maravillosa pero que produce solo un
impacto momentƔneo en algo especial y duradero?

Crear un proyecto duradero que trascienda el ciclo de las noticias es
una manera de hacerlo. Otra manera es crear una herramienta que le
ahorre tiempo en el futuro (y haciéndolo con código abierto) o aplicar
un sistema de medición avanzada a su aplicación para saber mÔs de su
pĆŗblico.

Muchas organizaciones crean mapas en base al censo para mostrar los
cambios demogrƔficos en sus ciudades. Pero cuando el equipo de
aplicaciones interactivas del Chicago Tribune [hizo el
suyo](http://bit.ly/chicago-census), llevó las cosas al siguiente nivel
desarrollando herramientas y tƩcnicas para crear esos mapas rƔpidamente,
y que luego [pusieron a disposición de otras
organizaciones](http://bit.ly/chicagotribune-maps).

En mi lugar de empleo, el Center for Investigative Reporting, unimos una
base de datos simple en la que se podĆ­a hacer bĆŗsquedas, con una
plataforma de búsqueda fina que nos permitió saber, entre otras cosas,
cuÔntos usuarios valoran los hallazgos fortuitos y la exploración en
nuestras aplicaciones.

A riesgo de parecer que lo Ćŗnico que le importa es la plata, siempre
piense en tƩrminos de [ganancias sobre la
inversión](http://bit.ly/cironline-return). Resuelva un problema
genƩrico; cree una nueva manera de atraer a los usuarios; ofrezca partes
de su trabajo con código abierto; use sistemas de medición para saber
mÔs acerca de sus usuarios; o incluso descubra cómo puede generar
ingresos con partes de su aplicación, como lo hace Curbwise.

#### En sĆ­ntesis

La creación de aplicaciones de noticias ha recorrido un largo camino en
muy poco tiempo. Las aplicaciones 1.0 eran muy parecidas a infografĆ­as
2.0, visualizaciones de datos interactivas, mezcladas con bases de datos
en las que se podĆ­a hacer bĆŗsquedas, dirigidas primordialmente a
sostener la narrativa de la historia. Ahora muchas de esas aplicaciones
pueden ser diseƱadas por periodistas incluso cuando estƔn apurados por
plazos de entrega usando herramientas de código abierto, lo que deja a
los programadores libres para pensar en cosas mƔs importantes.

Las aplicaciones 2.0, que es hacia donde se dirige el sector, tienen que
ver con combinar la narración y los puntos fuertes del periodismo como
servicio pĆŗblico con el desarrollo de productos y los conocimientos
tecnológicos. El resultado, sin duda, serÔ una explosión de innovación
en torno a maneras de hacer que los datos sean relevantes, interesantes
y especialmente Ćŗtiles para nuestro pĆŗblico y, al mismo tiempo,
esperemos que ayude al periodismo a hacer esto mismo.

— *Chase Davis, Center for Investigative Reporting*



## Aplicaciones de noticias en ProPublica

Una aplicación es una gran base de datos interactiva que narra una
historia noticiosa. Piense en ella como lo harĆ­a con cualquier otra
pieza de periodismo. Simplemente usa software en vez de palabras e
imƔgenes.

Al mostrar a cada lector datos que son específicos a él, una aplicación
puede ayudar a cada lector a comprender una historia de un modo que sea
personalmente significativo. Puede ayudar a un lector a comprender su
relación personal con un fenómeno nacional amplio y ayudarlo a
relacionar lo que sabe con lo que no sabe y por tanto alentar una
comprensión profunda de conceptos abstractos.

Tendemos a crear aplicaciones de noticias cuando tenemos un conjunto de
datos (o creemos que podemos adquirir un conjunto de datos) que sea de
alcance nacional y a la vez lo suficientemente granular como para
exponer detalles significativos.

Una aplicación debiera narrar una historia, y al igual que cualquier
buena historia, necesita un titular, una firma, un encabezado y una
sĆ­ntesis que presente el contenido. Algunos de estos conceptos pueden
ser difĆ­ciles de distinguir en una pieza de software interactivo, pero
estƔn allƭ si uno lo estudia atentamente.

AdemÔs, una aplicación debiera ser generadora de mÔs historias y mÔs
informes. Las mejores aplicaciones de ProPublica han sido usadas como
base para historias locales.

Por ejemplo, tomemos el caso de nuestra aplicación [Dollars for Docs](http://projects.propublica.org/docdollars). 
Rastreaba pagos de compañías farmacéuticas por millones de dólares a médicos para que
hicieran consultorĆ­a, dieran conferencias y otras cosas por el estilo.
La aplicación que creamos permite a los lectores hacer una búsqueda
sobre su propio médico y ver los pagos que recibió. Periodistas de otras
organizaciones tambiƩn usaron los datos. MƔs de 125 organizaciones de
noticias locales, incluyendo el Boston Globe, Chicago Tribune y St.
Louis Post-Dispatch hicieron investigaciones sobre mƩdicos locales
basados en datos de Dollars for Docs.

Unas cuantas de estas historias locales fueron resultado de asociaciones
formales, pero la mayorĆ­a se hicieron de modo independiente, en algunos
casos no tuvimos demasiado conocimiento –si es que supimos algo - de que
se estaba trabajando en la historia hasta que apareció. Como
organización pequeña pero de alcance nacional, este tipo de repercusión
es crucial para nosotros. No podemos tener conocimiento de lo que sucede
en 125 ciudades, pero si nuestros datos pueden ayudar a periodistas que
tienen conocimiento local a narrar historias con impacto, estamos
cumpliendo nuestra misión.

Una de mis aplicaciones favoritas es [Mapping L.A.](http://projects.latimes.com/mapping-la/neighborhoods/) 
de Los Ángeles Times, que comenzó como un mapa de varios barrios de esa ciudad
con datos del público y que hasta su aparición no tenían límites
aceptados por todos. Luego del primer proyecto con aportes del pĆŗblico
(crowdsourcing) el Times pudo usar los barrios como un gran dispositivo
de base para hacer informes de datos: cosas como la tasa de criminalidad
por barrio, calidad de las escuelas por barrio, etc., que antes no podĆ­a
hacer. De modo que Mapping L.A. no solo es a la vez genƩrico y
especĆ­fico, es generador de proyectos y cuenta las historias de la
propia gente.

Los recursos necesarios para crear una aplicación son muy variados. The
New York Times tiene docenas de personas trabajando en aplicaciones y
grƔficos interactivos. Pero [Talking Points
Memo](http://polltracker.talkingpointsmemo.com/) hizo un seguidor de
encuestas políticas de última generación con 2 empleados, ninguno de los
cuales tenía título en ciencias de la computación.

Al igual que la mayorĆ­a de los programadores que trabajan en
redacciones, seguimos una metodologĆ­a Agile modificada para crear
nuestras aplicaciones. Iteramos rƔpidamente y mostramos borradores a la
otra gente de la redacción con la que trabajamos. Es de la mayor
importancia el hecho de que trabajamos en estrecho contacto con
periodistas y leemos sus borradores, incluso los muy iniciales.
Trabajamos mucho mƔs como periodistas que como programadores
tradicionales. AdemÔs de escribir código, llamamos a las fuentes,
reunimos información y acumulamos experiencia. Sería difícil hacer una
buena aplicación usando material que no entendemos.

¿Por qué debieran interesarse las redacciones en producir aplicaciones
basadas en datos? Tres razones: es excelente periodismo, es inmensamente
popular –los contenidos mĆ”s populares de ProPublica son aplicaciones de
noticias- y si no lo hacemos, otro lo harĆ”. Piense en todas las
exclusivas que nos perderƭamos. Lo que es mƔs importante, las
redacciones debieran saber que pueden hacerlo tambiƩn. Es mƔs fƔcil de
lo que parece.

— *Scott Klein, ProPublica*



## La visualización como el caballo de tiro del periodismo de datos

Antes de lanzarse a tratar de armar cuadros o mapas con sus datos,
tómese un minuto para pensar acerca de los muchos roles que los
elementos grƔficos estƔticos e interactivos tienen en su trabajo
periodĆ­stico.

En la fase de buscar la información, las visualizaciones pueden:

-   Ayudarlo a identificar temas y cuestiones para el resto de su tarea.
-   Identificar cosas fuera de lugar: buenas historias o quizƔs errores
    en sus datos.
-   Ayudarlo a encontrar ejemplos tĆ­picos.
-   Mostrar baches en sus informes.

Las visualizaciones también tienen múltiples roles en la edición.
Pueden:

-   Ilustrar un argumento de una historia de un modo mƔs convincente.
-   Quitar información técnica innecesaria de la prosa.
-   En particular cuando son interactivos y permiten la exploración,
    ofrecen transparencia respecto de su proceso de información a sus
    lectores.

Estos roles sugieren que debiera comenzar temprano y a menudo con
visualizaciones en sus informes, sea o no que comience con datos o
registros electrónicos. No lo considere un paso por separado, algo a
considerar una vez que la historia en gran medida ya estƩ escrita.
Permita que este trabajo ayude a guiar su tarea periodĆ­stica.

Comenzar a veces significa simplemente poner las notas que ya tomó en
formato visual. Considere el grÔfico en la Figura 6-2, que se publicó en
el Washington Post en 2006.

![Subsidios agropecuarios a lo largo del tiempo (Washington Post)](figs/incoming/06-MM.png)

Muestra la porción del ingreso agropecuario asociado con subsidios y
eventos claves en los últimos 45 años, y fue creado a lo largo de una
serie de meses. Encontrar datos que pudieran utilizarse para largos
perĆ­odos de tiempo con definiciones y significados similares fue un
desafío. Investigar todas las alzas y bajas nos ayudó a tener presente
el contexto mientras hacƭamos el resto de nuestro trabajo. TambiƩn
significó que la tarea estuvo prÔcticamente acabada antes de que se
escribieran las historias.

A continuación, algunos consejos sobre el uso de visualizaciones para
comenzar a explorar sus conjuntos de datos.

#### Consejo 1: Use pequeños múltiplos para orientarse rÔpidamente en un conjunto de datos grande 

UsƩ esta tƩcnica en el Washington Post cuando seguimos una pista de que
la administración de George W. Bush estaba otorgando subsidios por
motivos polĆ­ticos y no de fondo. La mayorĆ­a de estos programas de ayuda
se guían por fórmulas y otros han sido financiados desde hace años, por
lo que estÔbamos curiosos por ver si pudiéramos encontrar un patrón
analizando casi 1500 casos diferentes discrecionales.

CreƩ un grƔfico para cada programa, con puntos rojos indicando un aƱo
con elecciones presidenciales y puntos verdes indicando elecciones
parlamentarias. El problema: sĆ­, habĆ­a un salto en los seis meses antes
de la elección presidencial en varios de estos programas –los puntos
rojos con los números pico junto a ellos- pero es el año electoral
equivocado. El patrón apareció de modo sistemÔtico durante la elección
presidencial del 2000 entre Al Gore y George W. Bush, no la elección de
2004.

![Subsidios HHS: los sparklines ayudan a encontrar historias (Washington Post)](figs/incoming/06-NN.png)

Esto fue realmente fƔcil de ver en una serie de grƔficos en vez de una
tabla numérica, y un formulario interactivo nos permitió verificar
varios tipos de subsidios, regiones y entes. Los mapas con pequeƱos
mĆŗltiplos pueden ser una manera un modo de mostrar tiempo y lugar en una
imagen estƔtica que es fƔcil de comparar, a veces incluso mƔs fƔcil que
la versión interactiva.

Este ejemplo fue creado con un programa breve escrito en PHP, pero ahora
es mucho mƔs fƔcil de hacer con Excel 2007 y los \_sparklines\_de 2010.
Edward Tufte, el experto en visualización, inventó estos ā€œgrĆ”ficos
intensos, simples, como palabrasā€ para transmitir información con una
sola mirada basados en un conjunto de datos grandes. Ahora se los ve en
todas partes, desde los pequeƱos grƔficos bajo las cotizaciones de la
bolsa hasta los records de triunfos y derrotas en deportes.

#### Consejo 2: Mire sus datos del derecho y del revƩs

Cuando trata de entender una historia o un conjunto de datos, no hay una
manera equivocada de mirar; intƩntelo de todas las maneras que se le
ocurren y tendrƔn muchas perspectivas distintas. Si estƔ informando
sobre criminalidad, podrĆ­a ver un conjunto de cuadros con cambios en los
crƭmenes violentos en un aƱo; otro podrƭa indicar el cambio porcentual;
otro podría ser una comparación con otras ciudades, y otro podría ser de
cambios en el tiempo. Use cifras crudas, porcentajes e Ć­ndices.

MĆ­relos en distintas escalas. Trate de seguir la regla de que el eje de
las x debe estar en cero. Luego viole esa regla y vea si encuentra mƔs
cosas. Pruebe con logaritmos y raĆ­ces cuadradas para datos con
distribuciones extraƱas.

Tenga en mente las investigaciones hechas con percepciones visuales. Los
experimentos de William Cleveland mostraron que los ojos ven cambios en
una imagen cuando la inclinación promedio es de alrededor de 45 grados.
Esto sugiere que hay que ignorar las admoniciones de que siempre se debe
comenzar desde cero y en cambio trabajar pensando en los grƔficos que
permitan ver mƔs cosas. Otras investigaciones sobre epidemiologƭa han
sugerido que se puede encontrar un nivel determinado como delimitador
para su cuadro. Cada uno de estos modos permite ver los datos de modo
diferente. Cuando ya no le dicen nada nuevo sabe que acabó su tarea.

#### Consejo 3: No dƩ nada por supuesto

Ahora que ha mirado sus datos de distintos modos, probablemente habrĆ”
encontrado registros que no parecen correctos: puede no haber entendido
lo que significaban o hay algunos casos fuera de lo comĆŗn que parecen
errores de tipeo o hay tendencias que parecen invertir las cosas.

Si quiere publicar algo basado en sus primeras exploraciones o en una
visualización, tiene que resolver estas cuestiones y no dar nada por
supuesto. Son historias interesantes o errores; desafĆ­os interesantes a
las verdades sabidas o confusiones.

No es inusual que gobiernos municipales den planillas de cƔlculo llenas
de errores, y es tambiƩn fƔcil confundirse con la jerga oficial en un
conjunto de datos.

Primero, vuelva a mirar su trabajo. ¿Ha leído la documentación, sus
advertencias, y existe el problema en la versión original de los datos?
Si todo lo hecho por usted parece estar bien, entonces es hora de tomar
el telƩfono. TendrƔ que conseguir resolverlo si quiere usarlo, por lo
que mejor ponerse ya mismo en marcha.

Dicho esto, no todo error es importante. En los registros de finanzas de
campañas electorales, es común que haya varios cientos de códigos
postales que no existen en una base de datos de 100.000 registros.
Siempre que no sean todos en la misma ciudad o estƩn relacionados con un
mismo candidato, el registro ocasional equivocado simplemente no
importa.

La pregunta que debe hacerse: Āæsi fueran a usar esto, los lectores
tendrían una visión acertada en lo esencial de lo que dicen los datos?

#### Consejo 4: Evite obsesionarse con la precisión 

La contracara de no hacer suficientes preguntas es obsesionarse con la
precisión antes de que importe. Sus grÔficos exploratorios debieran ser
correctos en general, pero no se preocupe si tiene varios niveles de
redondeo, si no suman exactamente 100 por ciento o si le faltan datos de
1 o 2 años en 20 años. Esto es parte del proceso exploratorio. Aún así
verĆ” las grandes tendencias y sabrĆ” lo que tiene que buscar antes de que
llegue el momento de publicar.

De hecho, podrĆ­a considerar eliminar las marcas y los indicadores de
escala, como en los cuadros de mÔs arriba, para tener una mejor visión
del sentido general de los datos.

#### Consejo 5: Cree cronologĆ­as de casos y eventos 

Al comienzo de cualquier historia compleja, comience a crear cronologĆ­as
de eventos y casos claves. Puede usar Excel, un documento en Word, o una
herramienta especial como TimeFlow para la tarea, pero en algĆŗn punto
encontrarĆ” un conjunto de datos que puede usar como base de referencia.
Releerlo periódicamente le mostrarÔ qué baches tiene en su informe que
deben cubrirse.

#### Consejo 6: Reúnase desde el comienzo y a menudo con el departamento grÔfico 

Intercambie ideas respecto de grƔficos posibles con los ilustradores y
diagramadores de su redacción. Ellos tendrÔn buenas alternativas para
ver sus datos, sugerencias de cómo podría funcionar interactivamente, y
saben cómo conectar datos e historias. Le harÔ mucho mÔs fÔcil su tarea
si sabe desde el comienzo quƩ es lo que tiene que buscar o si puede
alertar a su equipo de que no es posible realizar determinado grƔfico
cuando no logra obtener los datos necesarios.

#### Consejos para la publicación de datos

Puede haber pasado solo unos pocos dĆ­as o unas pocas horas en su
exploración, o puede haber tardado meses en reunir la información para
su historia. Pero cuando se acerca el momento de publicarla, hay dos
aspectos que se vuelven importantes.

¿Se acuerda de ese año que le faltó en sus exploraciones iniciales? De
pronto ya no puede avanzar mÔs sin esos datos. ¿Todos los datos con
problemas que ignoró en sus informes? Ahora vuelven como fantasmas. La
razón es que no se puede simplemente esquivar los problemas. Se tiene
todo lo que se necesita para un grƔfico o no se lo tiene, y no hay
solución intermedia.

El esfuerzo de recolección de los datos tiene que coincidir con lo que
requiere el grƔfico interactivo:: No hay modo de ocultarse en un grƔfico
interactivo. Si realmente va a hacer que sus lectores puedan explorar
los datos de cualquier manera que quieran, entonces cada elemento de los
datos tiene que ser lo que dice ser. Los usuarios pueden encontrar
cualquier error en cualquier momento, y eso podrĆ­a afectarlo por meses o
aƱos. Si estƔ creando su propia base de datos, tiene que prever la
corrección de errores, el control de datos y la edición del texto de
toda la base de datos. Si estĆ” usando archivos oficiales, debe decidir
cuƔnto los va a controlar y quƩ piensa hacer cuando encuentre el
inevitable error.

 DiseƱe pensando en dos tipos de lectores 

:   El grĆ”fico –sea un elemento interactivo que se presenta solo o una
    visualización estÔtica que acompaña su artículo- debe satisfacer a
    dos tipos diferentes de lectores. Debe ser fƔcil de entender de un
    vistazo, pero lo suficientemente complejo como para ofrecer algo
    interesante a la gente que quiere ir mƔs allƔ. Si lo hace
    interactivo, asegúrese de que sus lectores obtengan algo mÔs que una
    sola cifra o nĆŗmero.

 Transmita una idea y luego simplifique 

:   AsegĆŗrese de que haya una cosa que quiere que la gente vea. Decida
    cuÔl es la impresión general que quiere que tenga el lector y haga
    que todo lo demƔs desaparezca. En muchos casos, esto significa
    eliminar información aún cuando Internet le permita proveer todo. A
    menos que su objetivo principal sea la transparencia en su actividad
    periodĆ­stica, la mayor parte de los detalles que ha recogido en su
    lĆ­nea de tiempo y cronologĆ­a simplemente no son demasiado
    importantes. En un grƔfico estƔtico serƔn intimidantes. En un
    grƔfico interactivo serƔn aburridos.

— *Sarah Cohen, Duke University*


## El uso de visualizaciones para narrar historias

La visualización de datos amerita su consideración por varios motivos.
No solo puede ser llamativamente hermosa y atraer la atención –recurso
social valioso para compartir y atraer a los lectores- tambiƩn aprovecha
una ventaja cognitiva poderosa: la mitad del cerebro humano estĆ”
dedicado a procesar información visual. Cuando se presenta a un usuario
un grƔfico informativo, se estƔ llegando a Ʃl a travƩs de la vƭa de
banda mÔs ancha de acceso a la mente. Una visualización de datos bien
diseñada puede ofrecer a los que la ven una impresión inmediata y
profunda, e ir al grando de la cuestión sin enredarse con todo lo que
hay en una historia compleja.

Pero a diferencia de otros medios visuales –tales como la fotografĆ­a y
el video- la visualización de datos también estÔ enraizada en hechos
mensurables. Aunque atractiva estƩticamente, tiene menos carga
emocional, estƔ mƔs interesada en echar luz que calor. En una era de
medios con foco estrecho que a menudo estÔn hechos a medida de públicos
con puntos de vista particulares, la visualización de datos (y el
periodismo de datos en general) ofrece la oportunidad tentadora de
narrar historias orientadas principalmente por los hechos y no el
fanatismo.

Lo que es mƔs, al igual que otras formas de periodismo narrativo, la
visualización de datos puede ser efectiva tanto para presentar noticias
nuevas –transmitiendo rĆ”pidamente nueva información al estilo de la
ubicación de un accidente y el número de víctimas- como artículos de
fondo, donde puede profundizar en un tema y ofrecer una nueva
perspectiva, ayudƔndolo a ver algo familiar de un modo completamente
nuevo.

#### Ver lo familiar de un modo nuevo

De hecho, la capacidad de las visualizaciones de datos de cuestionar las
verdades aceptadas es ejemplificada por un [grƔfico
interactivo](http://nyti.ms/employment-lines) publicado por The New York
Times a fines de 2009, un aƱo despuƩs de que comenzara la crisis
económica global. Con la tasa de desempleo nacional de Estados Unidos en
torno 9 %, los usuarios podían analizar la población del país con varios
filtros demogrƔficos y educativos, para ver lo dramƔticos que eran los
cambios en las tasas. Resultó que la tasa iba, de menos del 4% para
mujeres de edad media con tĆ­tulos avanzados, hasta casi la mitad de
todos los jóvenes negros que no habían terminado la escuela secundaria,
y ademƔs esta disparidad no era nada nuevo: dato subrayado por lƭneas de
fiebre que mostraban los valores históricos para cada uno de esto
grupos.

![La tasa de desempleo para personas como usted (New York Times)](figs/incoming/06-GG-01.png)

Incluso cuando ya ha dejado de mirarla, una buena visualización de datos
se mete en su cabeza y deja un modelo mental duradero de un hecho, una
tendencia o un proceso. ¿CuÔnta gente vio [la animación de
tsunamis](http://1.usa.gov/tsunami-animation) presentada por los
investigadores en diciembre de 2004, que mostraba olas en cascada
irradiando desde un terremoto indonesio a travĆ©s del ocĆ©ano ƍndico,
amenazando a millones de residentes costeros en el sur de Asia y Ɓfrica
oriental?

Las visualizaciones de datos –y las asociaciones estĆ©ticas que
engendran- pueden incluso convertirse en hitos culturales, tales como la
representación de las profundas divisiones políticas en Estados Unidos
luego de las elecciones del 2000 y 2004, cuando los estados republicanos
ā€œrojosā€ llenaban el centro del paĆ­s y los estados demócratas ā€œazulesā€
formaban nĆŗcleos en el noreste y el lejano oeste. No importa que en los
medios de EE.UU. antes del 2000 las principales cadenas de medios habĆ­an
intercambiado el azul y el rojo muchas veces para representar a cada
partido, optando algunas incluso por alternar cada cuatro aƱos. De allƭ
el recuerdo de algunos estadounidenses de la victoria Ʃpica en 49
estados ā€œazulesā€ para los republicanos en 1984 liderada por Ronald
Reagan.

Pero por cada grƔfico que engendra un clichƩ visual, aparece otro que
aporta un poderoso testimonio fƔctico, tal como [el mapa de
2006](http://nyti.ms/diaspora-graphic) de The New York Times que usó
cƭrculos de distintos tamaƱos para mostrar donde vivƭan cientos de miles
de evacuados de New Orleans, desparramados por todo el continente por
una mezcla de vínculos personales y programas de relocalización. ¿Estos
evacuados ā€œvaradosā€ podrĆ­an volver alguna vez a sus hogares?

Ahora que hemos hablado del poder de la visualización de datos, es justo
preguntar cuƔndo debemos usarla y cuando *no*. Primero analizaremos
algunos ejemplos en los que la visualización de datos podría ser útil
para ayudar a narrar una historia a sus lectores.

#### Mostrar el cambio a lo largo del tiempo

QuizĆ”s el uso mĆ”s comĆŗn de la visualización de datos –personificado en
el humilde grÔfico de fiebre- es mostrar cómo han cambiado valores a lo
largo del tiempo. El crecimiento de la 
[población china desde 1960](http://bit.ly/google-china-population) o el 
salto en el desempleo desde la caída económica de 2008, son buenos ejemplos. 
Pero las visualizaciones de datos tambiƩn pueden mostrar de modo muy poderoso 
el cambio a lo largo del tiempo a travƩs de otras formas grƔficas. El
investigador portugués Pedro M. Cruz utilizó cuadros con forma de
círculos animados para mostrar dramÔticamente la declinación de los
[imperios europeos occidentales](http://pmcruz.com/visual-experiments/visualizing-empires)
desde comienzos del siglo XIX. Medidos por su población total, Gran
BretaƱa, Francia, EspaƱa y Portugal estallan como burbujas al lograr la
independencia sus territorios extranjeros. Allƭ va MƩxico, Brasil,
Australia, la India, y esperen… allĆ­ van muchas colonias africanas a
comienzos de la dƩcada de 1960, con lo que casi desaparece Francia.

Un [grƔfico del Wall Street Journal](http://on.wsj.com/tech-empire)
muestra el número de meses que les llevó a varios empresarios llegar al
nĆŗmero de US\$ 50 millones en ganancias. Creado utilzando Tableau
Public, una herramienta de grƔficos y anƔlisis de datos gratuita, la
comparación semeja las estelas superpuestas que dejan múltiples
aeronaves al despegar, algunas rƔpidas, otras lentas, algunas pesadas,.

Hablando de aviones, otro grƔfico interesante que muestra el cambio en
el tiempo presenta la participación en el [mercado de las principales
aerolĆ­neas](http://nyti.ms/airline-merger) estadounidenses durante
varias décadas de concentración en el sector.

Luego de que la administración Carter desregulara la aviación de
pasajeros, una seguidilla de adquisiciones financiadas con deuda creó
compañías de aeronavegación nacionales a partir de pequeñas aerolíneas
regionales, como ilustra este grƔfico de The New York Times.

![Rutas de vuelo convergentes (New York Times)](figs/incoming/06-GG-02-b.png)

Dado que casi todos los lectores casuales ven el eje horizontal, de las
ā€œxā€ de un cuadro, como representa el tiempo, a veces es fĆ”cil creer que
*todas* las visualizaciones deben mostrar el cambio en el tiempo.

#### Comparar valores

![Contar el costo humano de la guerra (BBC)](figs/incoming/06-GG-03.png)

La visualización de datos también es útil cuando se trata de ayudar a
los lectores a comparar dos o mƔs valores discretos, sea para poner en
contexto la pƩrdida trƔgica de hombres y mujeres de las fuerzas armadas
en los conflictos de Irak y AfganistƔn (comparƔndolos con los tantos
miles de muertos en Vietnam y los millones que murieron en la segunda
Guerra Mundial, como hizo la BBC en un slideshow de 
[transparencias animadas](http://bbc.in/animated-slideshow) que acompaƱa
su base de datos de bajas); o cuando el National Geographic, utilizando un 
[cuadro muy minimalista](http://bit.ly/ngm-hearts), mostró cuanto mayores
son las probabilidades de morir de enfermedad coronaria (probabilidad de 1
en 5) o infarto (1 en 24) que en accidentes de aviación (1 en 5051) o
por una picadura de abeja (1 en 56789), mostrando las probabilidades
relativas de las distintas causas de muerte (todo dominado por un arco
inmenso que representa las probabilidades generales de morirse: 1 en 1).

La BBC, en colaboración con la agencia Berg Design, también desarrolló
el sitio [ā€œDimensionsā€](http://howbigreally.com/), que le permite
superponer los contornos de los principales eventos mundiales –el
derrame de petróleo de la plataforma marina Deepwater Horizon o las
inundaciones paquistanĆ­es, por ejemplo- a un Google Map de su propia
comunidad.

#### Mostrar conexiones y flujos

La introducción del ferrocarril de alta velocidad en Francia en 1981 no
achicó realmente el país, pero una representación visual ingeniosa
muestra cuanto menos tiempo lleva alcanzar distintos destinos comparado
con el ferrocarril convencional. Una grilla superpuesta al paĆ­s aparece
de forma cuadrada en la imagen de ā€œantesā€, pero se ve aplastada hacia el
centro, ParĆ­s, en la de ā€œdespuĆ©sā€, mostrando no solo que los destinos
estĆ”n mĆ”s ā€œcercaā€, sino que la mayor ganancia de tiempo se da en la
primera parte del viaje, antes de que los trenes tengan que bajar la
velocidad al llegar a vĆ­as no mejoradas.

Para comparar entre dos variables distintas, vea 
[el cuadro de Ben Fry](http://benfry.com/salaryper/) 
evaluando el desempeƱo de equipo de Baseball de las Grandes Ligas relativo 
a lo que ganan sus jugadores. 
Una lƭnea dibujada en rojo (mal desempeƱo) o azul (buen desempeƱo) conecta
los dos valores, dando de forma prÔctica una sensación de qué dueños de
equipos lamentan lo mal que le ha ido con jugadores caros. MÔs aún, el
recorrido de una lĆ­nea de tiempo ofrece una imagen vĆ­vida de la
competencia por el campeonato.

![Salario vs. desempeƱo (Ben Fry)](figs/incoming/06-GG-04.png)

#### DiseƱar con datos

Similares a las conexiones grƔficas en un sentido, los diagramas de
flujo también codifican información en las líneas de conexión,
generalmente de acuerdo al grosor y/o el color de las mismas. Por
ejemplo, con la Eurozona en crisis y varios miembros incapacitados para
pagar sus deudas, The New York Times buscó desentrañar 
[la madeja de deudas](http://nyti.ms/eurozone-crisis) que vincula a los
miembros de la UE con sus socios comerciales al otro lado del AtlƔntico y en Asia.
En un ā€œestadoā€ de la visualización, el ancho de las lĆ­neas refleja el monto
del crƩdito que pasa de un paƭs a otro, y tonos que van del amarillo al
naranja indican lo ā€œpreocupanteā€ de la deuda, es decir, la
improbabilidad de su repago.

Sobre un tópico mÔs feliz, la revista National Geographic produjo un
[grƔfico que parece simple](http://bit.ly/sankey-wine), mostrando las
conexiones de tres ciudades de EE.UU. –New York, Chicago y Los Ɓngeles-
con regiones productoras de vino importantes, y cómo los métodos de
transporte con los que se trae el producto de cada una de las fuentes
podrƭan resultar en una huella de carbono drƔsticamente diferente,
haciendo que para los neoyorquinos, por ejemplo, comprar en Burdeos sea
mĆ”s ā€œverdeā€ que comprar vino de California.

ā€œSourceMapā€, un proyecto iniciado en la escuela de estudios empresarios
del MIT, usa diagramas de flujo para analizar rigurosamente el
abastecimiento global de productos manufacturados, sus componentes y
materias primas. Gracias a mucha investigación un usuario ahora puede
buscar productos que van desde [zapatos de marca
Ecco](http://sourcemap.com/view/1760) hasta [jugo de
naranja](http://sourcemap.com/view/1011), y saber qué rincón del globo
es su origen y su correspondiente huella de carbono.

#### Mostrar jerarquĆ­as

En 1991 el investigador Ben Shneiderman inventó una nueva forma de
visualización llamada
["treemap"](http://www.cs.umd.edu/hcil/treemap-history/) que consiste de
múltiples cajas concéntricas. El Ôrea de cada caja indica la cantidad
que representa, en sí misma y como adición de sus contenidos. Se trate
de [visualizar un presupuesto nacional](http://openspending.org/)
dividido por entes oficiales y sub-entes, la bolsa de valores por sector
y compañía, o un lenguaje de programación por clases y sub-clases, el
"treemap" es una interfaz compacta e intuitiva para representar un ente
y sus partes constituyentes. Otro formato efectivo es el dendrograma,
que se ve como un cuadro de organización mÔs típico, donde las
subcategorĆ­as salen de un solo tronco central.

![OpenSpending.org (Open Knowledge Foundation)](figs/incoming/06-GG-06.png)

#### Explorar grandes bases de datos

A veces la visualización de datos es muy efectiva para tomar información
familiar y mostrarla desde un Ôngulo totalmente nuevo, ¿pero qué sucede
cuÔndo se tiene información nueva que la gente quiere navegar? La era de
los datos trae consigno descubrimientos nuevos sorprendentes casi todos
los dƭas, desde el brillante anƔlisis de [fotos de Flickr de Eric
Fischer](http://bit.ly/flickr-analysis) hasta la difusión por la
municipalidad de la ciudad de New York de miles de [evaluaciones de
docentes](http://projects.wsj.com/nyc-teachers/) hasta ese momento
confidenciales.

Estas bases de datos son mƔs poderosas cuando los usuarios pueden meter
mano y llegar hasta la información que les resulta mÔs relevante.

A comienzos de 2010, se le dio acceso a The New York Times a los
registros privados de Netflix de quƩ pelƭculas se alquilan mƔs en cada
Ôrea. Si bien Netflix se negó a difundir las cifras en crudo, el Times
creó una [base de datos interactiva atractiva](http://nyti.ms/interactive-database) 
que permite a los usuarios explorar las 100 pelƭculas mƔs alquiladas en 12 zonas
metropolitanas de EE.UU., subdivididas hasta el nivel de código postal.
Un ā€œmapa de calorā€ graduado por colores superpuesto a cada comunidad
permitía a los usuarios ver rÔpidamente dónde un título en particular
era mƔs popular.

Hacia el fin del mismo año, el Times publicó los resultados del 
[censo decenal](http://nyti.ms/census-explorer) de los Estados Unidos,
apenas horas despuƩs de que fuera difundido. La interfaz, creada con Adobe
Flash, ofrecía una cantidad de opciones de visualización y permitía a
los usuarios llegar al nivel de cada bloque del censo en el paĆ­s (de 8,2
millones) para ver la distribución de residentes por raza, ingreso y
educación. Tal era la resolución de la base de datos que cuando se
buceaba en el conjunto de datos en las primeras horas despuƩs de su
publicación uno podía llegar a preguntarse si era la primera persona del
mundo en explorar determinado rincón de la base de datos.

Entre los usos igualmente aplaudibles de la visualización como
presentación de una base de datos se incluyen la investigación por la
BBC de [muertes en las rutas](http://bbc.in/road-deaths) y muchos de los
intentos de indexar rÔpidamente grandes cúmulos de datos como la
difusión por WikiLeaks de los registros de guerra de Irak y AfganistÔn.

![Cada muerte en las rutas de Gran BretaƱa 1999-2010 (BBC)](figs/incoming/06-GG-07.png)

#### La regla de 65k

Al recibir la primera pila de datos de los registros de la guerra de
AfganistÔn de WikiLeaks, el equipo que los procesaba comenzó a
manifestar su entusiasmo por tener acceso a 65.000 registros militares.

Esto inmediatamente hizo sonar la alarma entre quienes tenĆ­an
experiencia con Excel de Microsoft. Gracias a una limitación histórica
del modo en que se accede a las filas, la herramienta de importación de
Excel no procesa mÔs de 65.536 registros. En este caso se descubrió que
faltaban 25.000 filas.

La moraleja de esta historia (ademƔs de evitar usar Excel para tales
tareas) es siempre desconfiar de cualquiera que alardee de tener 65.000
filas de datos.

— *Alastair Dant, the Guardian*

#### Imaginar resultados alternativos

En The New York Times, el ā€œcuadro puercoespĆ­nā€ de Amanda Cox con
[proyecciones de dƩficit de EE.UU.](http://nyti.ms/porcupine-graph)
trÔgicamente optimistas a lo largo de los años, muestra cómo a veces lo
que sucedió es menos interesante que lo que no sucedió. La curva de Cox
que muestra el alza del dƩficit fiscal luego de una dƩcada de guerra y
exenciones impositivas muestra lo poco realistas que pueden resultar las
expectativas del futuro.

![Pronósticos presupuestarios, comparados con la realidad (New York Times)](figs/incoming/06-GG-08.png)

Bret Victor, un diseƱador de interfaces de Apple de larga trayectoria (y
originador de la teorĆ­a ā€œ\_kill math\_ā€ o ā€œmatar la matemĆ”ticaā€ de
visualización para comunicar información cuantitativa), ha hecho un
[prototipo](http://worrydream.com/#!/TenBrighterIdeas) de una especie de
documento que se actualiza de conjunto cada vez que se modifica un dato.
En su ejemplo, las ideas de conservación de la energía incluyen premisas
modificables, por la que un paso simple como apagar las luces de los
cuartos en los que no hay gente podrĆ­a ahorrar a los estadounidenses la
generación de 2 a 40 plantas de carbón. Cambiar el porcentaje que
aparece en el medio de un pƔrrafo de texto hace que el resto de la
pƔgina se actualice en consonancia.

Para mƔs ejemplos y sugerencias, aquƭ va el link con una [lista de
links](http://bit.ly/ericson-links) de distintos usos de
visualizaciones, mapas y grƔficos interactivos compilada por Matthew
Ericson de The New York Times.

#### CuÔndo no usar visualización de datos

En definitiva, la visualización de datos efectiva depende de contar con
información buena, limpia, precisa y significativa. Así como muchas
citas, datos, y descripciones alimentan el buen periodismo narrativo, la
visualización de datos es tan buena como los datos que la alimentan.

En quƩ casos su historia puede ser mejor narrada a travƩs de texto o
multimedia:: A veces los datos por sĆ­ solos no narran la historia del
modo mƔs convincente. Si bien un cuadro simple que ilustre una tendencia
o una estadĆ­stica puede ser Ćŗtil, una narrativa que relate las
consecuencias de una cuestión en el mundo real puede ser mÔs inmediata y
de mayor impacto para un lector.

 Cuando tiene muy pocos datos 

:   Se ha dicho que ā€œuna cifra aislada no quiere decir nadaā€. Una frase
    comĆŗn de los editores de noticias en respuesta a una estadĆ­stica
    citada es: ā€œĀæcomparado con quĆ©?ā€ ĀæLa tendencia sube o baja? ĀæQuĆ© es
    lo normal?

Cuando tiene escasa variación en su datos, sin una tendencia o
conclusión clara:: A veces organiza sus datos en Excel o una aplicación
similar y descubre que la información es ruidosa, tiene mucha
fluctuación y muestra una tendencia relativamente chata. ¿Conviene
elevar la base de cero a justo debajo del valor mƔs bajo para dar un
poco mÔs de forma a la línea? ”No! Parece que lo que tiene son datos
ambiguos y necesita buscar y analizar un poco mƔs.

 Cuando un mapa no es un mapa 

:   A veces el elemento espacial no es significativo ni convincente, o
    distrae la atención de las tendencias numéricas pertinentes, como el
    cambio en el tiempo o mostrar las similitudes entre zonas no
    adyacentes.

 Cuando bastarĆ­a con una tabla 

:   Si cuenta con relativamente pocos puntos de datos pero tiene
    información que podría ser útil para algunos de sus lectores,
    considere simplemente presentar los datos en forma tabular. Es
    limpio, de fƔcil lectura y no crea expectativas no realistas de una
    ā€œhistoriaā€. De hecho, las tablas pueden ser una forma muy eficiente
    y elegante de presentar información bÔsica.

— *Geoff McGhee, Stanford University*


## Cuadros diferentes dicen cosas diferentes

En este mundo digital, con la promesa de experiencias 3D de inmersión,
tendemos a olvidar que por tanto tiempo solo tuvimos tinta en papel.
Ahora pensamos en este medio estƔtico, plano, como un ciudadano de
segunda, pero de hecho a lo largo de los siglos que hemos estado
escribiendo e imprimiendo, hemos logrado una increĆ­ble riqueza de
conocimiento y prƔcticas para representar los datos en una pƔgina.
Aunque los cuadros, las visualizaciones de datos y las infografĆ­as
interactivas son la gran moda, nos llevan a dejar de lado muchas de las
mejores prƔcticas que hemos aprendido. Solo estudiando la historia de
cuadros y grƔficos bien logrados es que podemos entender esos
conocimientos acumulados y aprovecharlos con los nuevos medios.

Algunos de los cuadros y grƔficos mƔs famosos derivan de la necesidad de
explicar mejor tablas de datos densas. William Playfair era un polĆ­glota
escocés que vivió desde fines del siglo XVIII hasta comienzos del XIX.
Por sí solo presentó al mundo muchos de los cuadros y grÔficos que
seguimos utilizando hoy. En su libro de 1786, *Commercial and Political
Atlas* (Atlas Comercial y Polƭtico), Playfair introdujo el grƔfico de
barras para mostrar claramente las cantidades de importaciones y
exportaciones de Escocia de un modo nuevo y visual.

Luego popularizó el cuadro de torta en su libro de 1801, *Statistical
Breviary* (Breviario EstadĆ­stico). La necesidad de estas nuevas formas
de cuadros y grƔficos provino del comercio, pero con el paso del tiempo
aparecieron otros que fueron utilizados para salvar vidas. En 1854 John
Snow creó su ahora famoso ā€œCholera Map of Londonā€ (Mapa del Cólera de
Londres), agregando una pequeña barra negra sobre cada dirección en la
que se reportó un incidente. Con el tiempo, se pudo ver cualquier
densidad evidente de la epidemia y actuar en consecuencia para contener
el problema.

Con la prƔctica los practicantes de estos nuevos cuadros y grƔficos se
volvieron mƔs audaces y experimentaron mƔs allƔ, llevando el recurso a
los niveles que conocemos hoy. AndrƩ-Michel Guerry fue el primero en
publicar la idea de un mapa en el que regiones individuales se
identificaban con distintos colores basados en alguna variable. En 1829
creó el primer coroplético dando distinto tono a las regiones de Francia
representando niveles de criminalidad. Hoy vemos tales mapas utilizados
para mostrar los resultados de encuestas políticas, quién votó por
quién, distribución de la riqueza y muchas otras variables con
distribución geogrÔfica. Parece una idea tan simple pero aún hoy es
difĆ­cil de dominar y comprender si no se la usa juiciosamente.

![Uno de los primeros grƔficos de barras (William Playfair)](figs/incoming/06-TT-01.gif)

![Mapa del cólera de Londres (John Snow)](figs/incoming/06-TT-02.jpg)

![Mapa coroplƩtico de Francia mostrando niveles de criminalidad (AndrƩ-Michel Guerry)](figs/incoming/06-TT-03.jpg)

Hay muchas herramientas que un buen periodista tiene que entender y
tener en su herramental para construir visualizaciones. En vez de
zambullirse directo en la parte mƔs honda de la piscina, es importante
tener una base en materia de cuadros y grƔficos. Todo lo que cree tiene
que originarse en una serie de cuadros y grÔficos atómicos. Si puede
dominar lo bƔsico, entonces puede construir visualizaciones mƔs
complejas que se arman a partir de estas unidades bƔsicas.

Dos de los tipos mƔs bƔsicos de grƔficos son los de barras y de curvas.
Si bien son muy similares en cuanto a los casos en los que se usan,
tambiƩn pueden diferir mucho en su significado. Tomemos por caso las
ventas de una compaƱƭa para cada mes del aƱo. Tendrƭamos las 12 barras
que representan el monto de dinero que entra cada mes ([Figure14](#FIG0618)).

Analicemos por quƩ esto debe hacerse con barras en vez de un grƔfico de
curvas. Los grƔficos de lƭneas son ideales para datos continuos. En el
caso de las cifras de ventas, se trata de la suma de cada mes, no datos
continuos. En base a las barras, sabemos que en enero, la compaƱƭa tuvo
ingresos por \$ 100 y en febrero \$ 120. Si convertimos esto en un
grƔfico lineal, de todos modos representarƭa \$ 100 y \$ 120 el primero
de cada mes, pero al dĆ­a 15 del mes parece que hubiera tenido ingresos
de \$ 110. Lo que no es cierto. Las barras se usan para unidades
discretas de medida, mientras que las lĆ­neas se usan cuando se trata de
un valor continuo, como la temperatura.

![Un cuadro de barras simple: útil para representar cantidad discreta de información](figs/incoming/06-TT-04.png)

Podemos ver que a las 8:00 la temperatura era de 20°C y a las 9:00,
22°C. Si miramos la curva para adivinar la temperatura a las 8:30
diríamos 21°C, lo que es un estimado correcto dado que la temperatura es
continua y cada punto no es la suma de otros valores; representa el
valor exacto en el momento o un estimado entre dos mediciones exactas.

![GrÔficos de curva simples: útiles para representar información continua](figs/incoming/06-TT-05.png)

Tanto el grƔfico de barras como el de curvas tienen una variante de
grƔfico apilado ([Figure 17](#FIG0621)). Esta es una excelente
herramienta para narrar historias que puede funcionar de distintos
modos. Pensemos, por ejemplo, en una compaƱƭa que tiene tres tiendas.

Para cada mes tenemos 3 barras, una por cada tienda, 36 en total para el
aƱo. Cuando las colocamos una junta a la otra ([Figure 16](#FIG0620))
podemos ver rÔpidamente qué tienda ganó mÔs en cada mes. Esta es una
historia interesante y vƔlida, pero hay otra oculta en los mismos datos.
Si apilamos las barras, de modo que haya una sola por cada mes, ahora
perdemos la posibilidad de ver fƔcilmente cuƔl tienda gana mƔs, pero
podemos ver en quƩ meses la compaƱƭa tiene mejores resultados de
conjunto.

![Un grƔfico de barras agrupadas](figs/incoming/06-TT-06.png)

![Un grƔfico de barras apiladas](figs/incoming/06-TT-07.png){#FIG0621}

Ambas son representaciones vÔlidas de la misma información, pero
presentan dos historias diferentes usando los mismos datos. Como
periodista, el aspecto mƔs importante de trabajar con datos es que
primero debe escoger qué historia quiere contar. ¿Se trata de cuÔl es el
mejor mes en cuanto a ingresos totales o cuƔl tienda es la nave
insignia? Este es solo un ejemplo simple, pero muestra cuƔl es el centro
del periodismo de datos: Hacer la pregunta indicada antes de avanzar
demasiado. La historia es la que guía la elección de la visualización.

Los grƔficos de barras y curvas son en realidad lo bƔsico del periodismo
de datos. De allĆ­ se puede expandir a los histogramas, diagramas de
Ɣrea, "sparklines", grƔficos de flujo y otros, que tienen propiedades
similares y son adecuados para situación con ligeras diferencias,
incluyendo la cantidad de datos o fuentes de datos y la ubicación del
grƔfico en tƩrminos del texto.

En periodismo uno de los recursos grÔficos mÔs comúnmente utilizados son
los mapas. En ellos hay tiempo, cantidades y geografĆ­a. Siempre queremos
saber cuÔnto hay en un Ôrea comparada con otra Ôrea y cómo fluyen los
datos de un Ɣrea a otra. Los diagramas de flujo y los mapas coroplƩticos
son herramientas muy Ćŗtiles cuando se trata de visualizaciones para
periodismo. Es clave saber cómo codificar un mapa con colores sin dar
una representación equivocada o confundir a los lectores. Los mapas
políticos por lo general tienen un código de color que indica todo a
nada para determinadas regiones, aún si un candidato ganó en una parte
del país por 1%. El color no tiene por qué reducirse a una opción
binaria; se puede usar con cuidado gradientes de color basados en
grupos. Entender los mapas es una parte importante del periodismo.
Contestan fÔcilmente una de las cinco preguntas claves: ¿Dónde?

Una vez dominados los tipos bƔsicos de cuadros y grƔficos, se pueden
comenzar a crear visualizaciones de datos mƔs sofisticadas. Si no
entiende lo bƔsico, entonces estƔ parado sobre terreno poco firme. De la
misma manera que aprende a ser buen escritor –hacer frases cortas, tener
presente el pĆŗblico y no complicar exageradamente las cosas para hacerse
sonar inteligente, sino mƔs bien transmitir el significado al lector-
tambiƩn debe aprender a mesurarse con los datos. Comenzar por algo
pequeƱo es la manera mƔs efectiva de narrar la historia, incrementando
lentamente en la medida de lo necesario.

> La escritura vigorosa es concisa. Una frase no debe contener palabras
innecesarias, el pƔrrafo no debe contener frases innecesarias, por el
mismo motivo que un dibujo no debe tener lĆ­neas innecesarias y una
mƔquina no debe tener partes innecesarias. Esto requiere no que el
escritor haga que todas sus frases sean cortas o que evite dar detalles
y que solo de un bosquejo de sus personajes, sino que toda palabra sea
dicente.

> — William Strunk Jr. *Elements of Style (1918)*\

EstĆ” bien no usar todos los datos que tiene en su historia. No debiera
tener que pedir permiso para ser conciso, esa debe ser la norma.

— *Brian Suda, (optional.is)*


## Selección de herramientas "HÔgalo Ud. mismo" para hacer sus propias visualizaciones de datos.

¿Qué herramientas de visualizaciones de datos se consiguen en la red en
forma gratuita? [AquĆ­](http://www.guardian.co.uk/data) en el Datablog y
Datastore tratamos de hacer lo mƔs posible usando las poderosas opciones
gratuitas de internet.

Eso puede sonar un poco falso, dado que obviamente tenemos acceso a los
increƭbles equipos de grƔficos e interactivos de The Guardian para las
piezas en las que contamos con un poco mƔs de tiempo, tales como este
[mapa de gasto pĆŗblico](http://bit.ly/guardian-spending), creado
utilizando Adobe Illustrator) o este [interactivo de
disturbios](http://bit.ly/guardian-riots) de Twitter.

Pero para nuestro trabajo cotidiano, a menudo usamos herramientas a las
que cualquiera tiene acceso y creamos grƔficos que cualquiera puede
hacer.

¿Entonces, qué usamos?

#### Google Fusion Tables

[Esta base de datos y herramienta de mapeado online](http://www.google.com/fusiontables/Home/) se ha vuelto nuestra primera elección para producir mapas rÔpidos y detallados,
especialmente aquellos que requieren zoom. Se tiene la alta resolución de Google
 Maps, pero puede abrir muchos datos, por ejemplo, 100 MB de CSV. 
La primera vez que uno lo intenta las Fusion Tables pueden parecer un poco
complicadas, pero no se rinda. Lo utilizamos para producir mapas como el
de Irak en la [Figure 18](#FIG0622) y tambiƩn mapas de fronteras como la
[Figure 19](#FIG0623) sobre los sin techo.

![Los registros de guerra de WikiLeaks (The Guardian)](figs/incoming/06-LL-01.jpg){#FIG0622}

![Mapa interactivo de personas sin hogar (The Guardian)](figs/incoming/06-LL-02.jpg){#FIG0623}

La principal ventaja es la flexibilidad –puede subir un archivo KML de
fronteras regionales, por ejemplo- y luego fusionar eso con una tabla de
datos. AdemƔs va a tener una nueva interfaz de usuario, lo que debe
facilitar su uso.

No se necesita ser programador para hacerlo y esta 
[herramienta de fusión de capas](http://bit.ly/fusion-layers) le permite unir distintos
mapas o crear opciones de bĆŗsqueda o filtrado, que luego puede
incorporar en un blog o sitio.

Este excelente [tutorial de Kathryn Hurley](http://bit.ly/fusiontables-tutorial) de Google es un gran
recurso para comenzar.


+-----------------------------------+-----------------------------------+
| <div class="title">               |            |
|                                   |                                   |
| Note                              | Use                               |
|                                   | [shpescape](http://www.shpescape. |
|                              | com/)                             |
|                                   | para convertir archivos .shp      |
|                                   | oficiales en Google *Fusion       |
|                                   | Tables*. TambiƩn estƩ atento a    |
|                                   | que los mapas no sean demasiado   |
|                                   | complicados porque el programa no |
|                                   | puede manejar mÔs de un millón de |
|                                   | puntos por celda.                 |
|                                   |                                   |
|                                   |                              |
+-----------------------------------+-----------------------------------+

#### Tableau Public

Si no necesita el espacio ilimitado de la edición profesional, [Tableau
Public](http://www.tableausoftware.com/public) es gratuito. Con este
servicio visualizaciones bastante complejas de hasta 100.000 filas de
modo simple y fƔcil. Lo utilizamos cuando tenemos que unir distintos
tipos de cuadros, como en este [mapa de tasas
impositivas](http://bit.ly/guardian-top-tax) mƔximas en todo el mundo,
que tambiƩn tiene un cuadro de barras).

O incluso puede usarlo como explorador de datos, que es lo que hicimos
en la [Figure 20](#FIG0624) con los [datos de gastos en las elecciones
federales de EE.UU](http://bit.ly/guardianelections-us), si bien nos
quedamos cortos de espacio en la versión gratuita… algo a tener en
cuenta). Tableau tambiƩn necesita que los datos estƩn formateados de
modos bastante especƭficos para poder aprovecharlo al mƔximo. Pero si
logra manejar eso tiene algo intuitivo que funciona bien. Por ejemplo,
La Nación en la Argentina ha construido toda su [operación de periodismo
de datos](http://www.lanacion.com.ar/data/) en torno a Tableau.

![Finanzas de la campaƱa presidencial 2012 (The Guardian)](figs/incoming/06-LL-03.png){#FIG0624}

Tableau tiene algunos [tutoriales online](http://www.tableausoftware.com/learn/training) 
buenos con los cuales puede comenzar.

+-----------------------------------+-----------------------------------+
| <div class="title">               |            |
|                                   |                                   |
| Note                              | Tableau es para PC aunque se estĆ” |
|                                   | preparando una versión para Mac.  |
|                              | Use un "mirror" tal como          |
|                                   | "parallels" para hacerlo          |
|                                   | funcionar. (N. del T.: una        |
|                                   | aplicación de MAC para poder usar |
|                                   | programas de Windows).            |
|                                   |                                   |
|                                   |                              |
+-----------------------------------+-----------------------------------+


#### GrƔficos con Google Spreadsheets

Puede acceder a esta herramienta en [Google Spreadsheets](http://google-d-s/spreadsheets/)

![Gasto pĆŗblico e impuestos Reino Unido (The Guardian)](figs/incoming/06-LL-04.jpg)

Luego de algo simple (como un grƔfico de barras o curvas, o un grƔfico
de torta), encontrarĆ” que las Google Spreadsheets (que se crean con los
documentos de su cuenta Google) pueden generar algunos grƔficos bastante
buenos, incluyendo las burbujas animadas usadas por el
[Gapminder](http://www.gapminder.org/) de Hans Rosling. A diferencia de
los [grƔficos API](http://code.google.com/apis/chart/) no necesita
preocuparse por el código; es bastante similar a hacer un grÔfico en
Excel, en el sentido de que uno selecciona los datos y hace clic en el
*widget* de grƔficos. TambiƩn vale la pena explorar las opciones de
personalización; se puede cambiar el color, los encabezados y las
escalas. Son bastante neutrales respecto del diseño, lo que es útil en
grƔficos pequeƱos. Los grƔficos de curvas tambiƩn tienen algunas
opciones lindas, incluyendo opciones para anotaciones.

+-----------------------------------+-----------------------------------+
| <div class="title">               |            |
|                                   |                                   |
| Note                              | Dedique algo de tiempo a las      |
|                                   | opciones de personalización de    |
|                              | los grƔficos; puede crear su      |
|                                   | propia paleta de colores.         |
|                                   |                                   |
|                                   |                              |
+-----------------------------------+-----------------------------------+


#### Datamarket

MƔs conocido como proveedor de datos,
[Datamarket](http://bit.ly/datamarket-explore) es en realidad una
herramienta prƔctica para visualizar cifras. Puede subir sus propios
datos o usar algunos de los muchos conjuntos de datos que ofrecen, pero
las opciones son mejores si paga por una cuenta Pro.

+-----------------------------------+-----------------------------------+
| <div class="title">               |            |
|                                   |                                   |
| Note                              | Datamarket funciona de la mejor   |
|                                   | manera con datos de series        |
|                              | temporales, pero no deje de ver   |
|                                   | su extensa variedad de datos.     |
|                                   |                                   |
|                                   |                              |
+-----------------------------------+-----------------------------------+

#### Many Eyes

Si hay un sitio que estÔ necesitado de un poco de atención y cuidado es
[Many Eyes](http://ibm.co/ibm-manyeyes) de IBM. Cuando se presentó,
creado por [Fernanda B. ViƩgas](http://fernandaviegas.com/) y [Martƭn
Wattenberg](http://www.bewitched.com/), fue un ejercicio Ćŗnico en cuanto
a permitir a la gente subir conjuntos de datos de modo simple y
visualizarlos. Ahora, con sus creadores trabajando para Google, el sitio
parece un poco desatendido, con sus paletas de colores apagados; hace
tiempo que no ofrece nada nuevo en materia de visualizaciones.

![[Villanos de Doctor Who](http://bit.ly/guardian-dr-who); The Guardian](figs/incoming/06-LL-06.jpg)

+-----------------------------------+-----------------------------------+
| <div class="title">               |            |
|                                   |                                   |
| Note                              | No se puede editar los datos una  |
|                                   | vez subidos, de modo que          |
|                              | asegúrese de que estén bien antes |
|                                   | de crear la visualización.        |
|                                   |                                   |
|                                   |                              |
+-----------------------------------+-----------------------------------+

#### Color Brewer

No es estrictamente una herramienta de visualización, 
[Color Brewer](http://colorbrewer2.org/) sirve en realidad para elegir colores
de mapas. Puede escoger su color de base y obtener los códigos para toda
la paleta.

#### Y algunos mƔs

Si ninguno de estos le sirve, vale la pena ver lo que hay en
[DailyTekk](http://bit.ly/dailytekk-infographic) que tiene aún mÔs
opciones. Las señaladas no son las únicas herramientas, solo aquellas
que usamos con mayor frecuencia. Hay muchas mƔs por allƭ, incluyendo:

-   [Chartsbin](http://chartsbin.com/), una herramienta para crear
    mapamundis en los que se puede hacer clic.
-   [iCharts](http://www.icharts.net/), que se especializa en pequeƱos
    "widgets" de grƔficos
-   [Geoccomons](http://geocommons.com/) que ofrece datos y datos de
    fronteras para crear mapas globales y locales.
-   Y tambiƩn estƔ [pikctochart.com](http://piktochart.com/) que ofrece
    plantillas para esas visualizaciones de texto/cifras que son
    populares.

— *Simon Rogers, the Guardian*


## Cómo presentamos los datos en el Verdens Gang

El periodismo busca llevar nueva información al lector lo mÔs rÔpido
posible. La manera mƔs rƔpida de hacerlo puede ser mediante un video,
una foto, un texto, un grÔfico, una tabla o una combinación de éstos.
Respecto de las visualizaciones, el objetivo debiera ser el mismo:
información rÔpida. Las nuevas herramientas de datos permiten a los
periodistas encontrar historias que de otro modo no podrĆ­an descubrir, y
presentarlas de nuevas maneras. Estos son unos cuantos ejemplos que
muestran cómo presentamos los datos en el diario mÔs leído de Noruega,
Verdens Gang (VG).

#### Cifras

[Esta historia](http://bit.ly/vg-lotto) se basa en datos de la Dirección
de EstadĆ­sticas de Noruega, datos de contribuyentes, y del monopolio
nacional de loterƭa. En este grƔfico interactivo el lector podrƭa
encontrar distintos tipos de información de cada condado y municipalidad
noruega. La tabla muestra el porcentaje de los ingresos que se usa para
jugar. Se creó usando Access, Excel, MySql y Flash.

#### Redes

Analizamos las redes sociales para estudiar las relaciones entre 157
hijos e hijas de las personas mƔs ricas de Noruega. Nuestro anƔlisis
mostró que los herederos de la gente mÔs rica de Noruega también
heredaron las redes de sus padres. En total habƭa mƔs de 26.000
conexiones, y los grƔficos se terminaron a mano usando Photoshop. Usamos
Access, Excel, Notepad, y la herramienta de anƔlisis de redes sociales
Ucinet.

![Mapeado de datos de contribuyentes y de la loterĆ­a (Verdens Gang)](figs/incoming/06-RR-01.png)

![Los pƔjaros del mismo plumaje se unen (Verdens Gang)](figs/incoming/06-RR-02.png)

#### Mapas

En este [mapa de calor animado](http://bit.ly/vg-heatmap) combinado con
un grƔfico de barras simple se puede ver la incidencia de crƭmenes en un
mapa del centro de Oslo, hora por hora, a lo largo de los fines de
semana por varios meses. En el mismo mapa de calor animado, se puede ver
la cantidad de agentes de policĆ­a trabajando al mismo tiempo. En los
momentos en que se dan los crĆ­menes, la cantidad de agentes de policĆ­a
estƔ en su punto mƔs bajo.

![Mapa de calor animado (Verdens Gang)](figs/incoming/06-RR-03.png)

#### "Text Mining" (Minado de texto)

Para [esta visualización](http://bit.ly/vg-vis), hicimos minería de
texto de los discursos de siete lĆ­deres de partidos noruegos durante sus
congresos. Todos los discursos fueron analizados y los anƔlisis
aportaron los argumentos de algunas historias. Cada historia se vinculó
con el grƔfico y los lectores pudieron explorar y estudiar el lenguaje
utilizado por los políticos. Creamos esta visualización utilizando
Excel, Access, Flash e Illustrator. Si Ʃsto se hubiera hecho en 2012,
hubiƩramos creado el grƔfico interactivo con JavaScript.

![Minado de texto de discursos de lĆ­deres partidarios (Verdens Gang)](figs/incoming/06-RR-04.png)

#### Notas finales 

¿CuÔndo necesitamos visualizar una historia? La mayoría de las veces no
es necesario, pero a veces queremos hacerlo para ayudar a nuestros
lectores. Las historias que contienen una gran cantidad de datos a
menudo necesitan de una visualización. Pero tenemos que ser bastante
crƭticos al elegir quƩ tipo de datos vamos a presentar. Conocemos todo
tipo de cosas cuando informamos sobre algo, ¿pero qué necesita saber
realmente el lector sobre la historia? QuizƔs baste una tabla, o un
grƔfico simple que muestra un proceso que va del aƱo A al aƱo C. Cuando
se trabaja con periodismo de datos, el objetivo no es necesariamente
presentar grandes cantidades de datos. Se trata de periodismo.

Ha habido una clara tendencia en los últimos dos o tres años a crear
grƔficos y tablas interactivas que permiten al lector investigar
distintos temas. Una buena visualización es como una buena imagen. Se
entiende de quƩ se trata con solo mirar uno o dos instantes. Cuanto mƔs
se mira la visualización, mÔs se ve. La visualización es mala cuando el
lector no sabe por dónde empezar o donde termina, y cuando la
visualización estÔ sobrecargada de detalles. En este caso, quizÔs una
pieza de texto serĆ­a mejor.


— *John Bones, Verdens Gang*



## Los datos pĆŗblicos se vuelven sociales

Los datos son valiosos. El acceso a los datos tiene el potencial de
clarificar cuestiones de un modo que genere resultados. Pero el mal
manejo de los datos puede ubicar los hechos en una estructura opaca que
no comunica nada. Si no promueven la discusión o aportan una comprensión
en contexto, los datos pueden ser de limitado valor para el pĆŗblico.

Nigeria volvió a la democracia en 1999 luego de largos años de gobierno
militar. Analizar los hechos detrƔs de los datos se consideraba una
afrenta a la autoridad y como un intento de cuestionar la manchada
reputación de la junta. La Ley de Secreto Oficial obligaba a los
empleados públicos a no difundir información oficial. Aún pasados trece
años del regreso a la democracia, el acceso a los datos públicos puede
ser una tarea difĆ­cil. Los datos sobre el gasto pĆŗblico comunican poco a
la mayorĆ­a del pĆŗblico que no conoce demasiado la contabilidad
financiera y la aritmƩtica compleja.

Al imponerse el uso de dispositivos móviles y con un creciente número de
nigerianos online, junto con BudgIT vimos una gran oportunidad de usar
tecnologías de visualización de datos para explicar y hacer que la gente
se interesara por el gasto pĆŗblico. Para hacer esto, tuvimos que
dirigirnos a usuarios de todo tipo de plataformas y llegar a los
ciudadanos vĆ­a organizaciones no gubernamentales. Este proyecto apunta a
convertir los datos pĆŗblicos en objeto social y crear una red extensa
que exija cambios.

![La aplicación de BudgIT (BudgIT Nigeria)](figs/incoming/06-YY.png)

Para entablar exitosamente la relación con los usuarios, tenemos que
entender lo que quieren. ¿Qué le importa al ciudadano nigeriano? ¿Dónde
sienten que hay falta de información? ¿Cómo podemos hacer que los datos
sean relevantes para sus vidas? El blanco inmediato de BudgIT es el
nigeriano alfabetizado promedio conectado a foros online y medios
sociales. Para competir por la limitada atención de los usuarios
inmersos en una amplia variedad e intereses (juegos, lectura,
socialización) tenemos que presentar los datos de modo breve y conciso.
Luego de difundir una imagen de los datos como un tuit o una infografĆ­a,
existe la oportunidad de una relación mÔs sostenida con una experiencia
mÔs interactiva para dar a los usuarios una visión mÔs amplia.

Al visualizar datos es importante comprender el nivel de manejo de datos
que tienen nuestros usuarios. Por hermosos y sofisticados que puedan
ser, los diagramas complejos y las aplicaciones interactivas pueden no
comunicar de un modo significativo a nuestros usuarios en base a sus
anteriores experiencias con la interpretación de datos. Una buena
visualización habla al usuario en un lenguaje que puede entender, y
presentarƔ una historia con la que puede relacionarse fƔcilmente.

Hemos consultado a mƔs de 10.000 nigerianos respecto del presupuesto, y
los dividimos en tres categorĆ­as de acuerdo a su perfil para asegurar el
valor óptimo. Explicamos brevemente las categorías a continuación:

 Usuarios ocasionales 

:   Son usuarios que quieren información de modo simple y rÔpido. Les
    interesa tener una idea de los datos, no un anƔlisis detallado.
    Podemos dirigirnos a ellos vƭa tweet o grƔficos interactivos.

 Usuarios activos 

:   Usuarios que estimulan el debate y usan los datos para incrementar
    su conocimiento de un Ɣrea determinada o cuestionan los supuestos de
    los datos. A estos usuarios, queremos proveerles mecanismos de
    retroalimentación y la posibilidad de compartir su visión con sus
    pares vĆ­a las redes sociales.

 Acaparadores de datos 

:   Estos usuarios quieren datos en crudo para hacer visualizaciones o
    anÔlisis. Simplemente les damos los datos para sus propósitos.

Con BudgIT nuestra relación con los usuarios se basa en lo siguiente:

 Estimular debates en torno a tendencias actuales 

:   BudgIT sigue debates online y offline y busca proveer datos sobre
    estos tópicos. Por ejemplo, con las huelgas del combustible en enero
    de 2012, hubo constante agitación entre los manifestantes respecto
    de la necesidad de que volviera a haber subsidios al combustible y
    reducir los gastos pĆŗblicos extravagantes e innecesarios. BudgIT
    siguió el debate vía los medios sociales y en 36 horas con mucho
    esfuerzo creó una aplicación que permite a los ciudadanos
    reorganizar el presupuesto nigeriano.

 Buenos mecanismos de retroalimentación 

:   Nos relacionamos con los usuarios a travƩs de canales de debate y
    medios sociales. Muchos usuarios quieren conocer las historias
    detrÔs de los datos y muchos nos piden nuestra opinión. Nos
    aseguramos de que nuestras respuestas solo expliquen los hechos
    detrƔs de los datos y no se vean afectadas por nuestros puntos de
    vista personales o polĆ­ticos. Tenemos que mantener abiertos canales
    de retroalimentación, responder activamente a comentarios y
    relacionarnos con los usuarios de modo creativo para asegurar que se
    mantenga la comunidad creada en torno a los datos.

 Hacerlo local 

:   En el caso de un conjunto de datos que apunta a un grupo en
    particular, BudgIT busca localizar su contenido y promover un canal
    de debate que se relacione con las necesidades e intereses de grupos
    particulares de usuarios. En particular, nos interesa relacionarnos
    con usuarios en torno a cuestiones que les preocupan vĆ­a SMS.

Luego de poner los datos sobre el gasto pĆŗblico en yourbudgit.com,
buscamos tomar contacto con los ciudadanos a travƩs de varias ONG.
También pensamos desarrollar un marco de participación en el que
ciudadanos e instituciones oficiales puedan realizar asambleas pĆŗblicas
para definir Ć­tems claves del presupuesto que deben ser priorizados.

El proyecto ha sido cubierto por medios locales y extranjeros, desde
[CP-Africa](http://bit.ly/cp-africa-budget) hasta [la
BBC](http://bbc.in/africa-budget). Hemos emprendido un estudio de los
presupuestos entre 2002 y 2011 para el sector de seguridad para un
periodista de la AP, Yinka Ibukun. La mayorĆ­a de las organizaciones de
medios son ā€œacaparadores de datosā€ y nos han pedido datos para usar en
sus informes. Estamos planeando nuevas colaboraciones con periodistas y
organizaciones noticiosas en los meses venideros.


— *Oluseun Onigbinde, BudgIT Nigeria*



## Interactuar con la audiencia en torno a sus datos

### Los datos pĆŗblicos se vuelven sociales

Los datos son valiosos. El acceso a los datos tiene el potencial de
clarificar cuestiones de un modo que genere resultados. Pero el mal
manejo de los datos puede ubicar los hechos en una estructura opaca que
no comunica nada. Si no promueven la discusión o aportan una comprensión
en contexto, los datos pueden ser de limitado valor para el pĆŗblico.

Nigeria volvió a la democracia en 1999 luego de largos años de gobierno
militar. Analizar los hechos detrƔs de los datos se consideraba una
afrenta a la autoridad y como un intento de cuestionar la manchada
reputación de la junta. La Ley de Secreto Oficial obligaba a los
empleados públicos a no difundir información oficial. Aún pasados trece
años del regreso a la democracia, el acceso a los datos públicos puede
ser una tarea difĆ­cil. Los datos sobre el gasto pĆŗblico comunican poco a
la mayorĆ­a del pĆŗblico que no conoce demasiado la contabilidad
financiera y la aritmƩtica compleja.


Al imponerse el uso de dispositivos móviles y con un creciente número de
nigerianos online, junto con BudgIT vimos una gran oportunidad de usar
tecnologías de visualización de datos para explicar y hacer que la gente
se interesara por el gasto pĆŗblico. Para hacer esto, tuvimos que
dirigirnos a usuarios de todo tipo de plataformas y llegar a los
ciudadanos vĆ­a organizaciones no gubernamentales. Este proyecto apunta a
convertir los datos pĆŗblicos en objeto social y crear una red extensa
que exija cambios.

![Figure 27. La aplicación de BudgIT (BudgIT Nigeria)](figs/incoming/06-YY.png)

Para entablar exitosamente la relación con los usuarios, tenemos que
entender lo que quieren. ¿Qué le importa al ciudadano nigeriano? ¿Dónde
sienten que hay falta de información? ¿Cómo podemos hacer que los datos
sean relevantes para sus vidas? El blanco inmediato de BudgIT es el
nigeriano alfabetizado promedio conectado a foros online y medios
sociales. Para competir por la limitada atención de los usuarios
inmersos en una amplia variedad e intereses (juegos, lectura,
socialización) tenemos que presentar los datos de modo breve y conciso.
Luego de difundir una imagen de los datos como un tuit o una infografĆ­a,
existe la oportunidad de una relación mÔs sostenida con una experiencia
mÔs interactiva para dar a los usuarios una visión mÔs amplia.

Al visualizar datos es importante comprender el nivel de manejo de datos
que tienen nuestros usuarios. Por hermosos y sofisticados que puedan
ser, los diagramas complejos y las aplicaciones interactivas pueden no
comunicar de un modo significativo a nuestros usuarios en base a sus
anteriores experiencias con la interpretación de datos. Una buena
visualización habla al usuario en un lenguaje que puede entender, y
presentarƔ una historia con la que puede relacionarse fƔcilmente.

Hemos consultado a mƔs de 10.000 nigerianos respecto del presupuesto, y
los dividimos en tres categorĆ­as de acuerdo a su perfil para asegurar el
valor óptimo. Explicamos brevemente las categorías a continuación:

 Usuarios ocasionales 

:   Son usuarios que quieren información de modo simple y rÔpido. Les
    interesa tener una idea de los datos, no un anƔlisis detallado.
    Podemos dirigirnos a ellos vƭa tweet o grƔficos interactivos.

 Usuarios activos 

:   Usuarios que estimulan el debate y usan los datos para incrementar
    su conocimiento de un Ɣrea determinada o cuestionan los supuestos de
    los datos. A estos usuarios, queremos proveerles mecanismos de
    retroalimentación y la posibilidad de compartir su visión con sus
    pares vĆ­a las redes sociales.

 Acaparadores de datos 

:   Estos usuarios quieren datos en crudo para hacer visualizaciones o
    anÔlisis. Simplemente les damos los datos para sus propósitos.

Con BudgIT nuestra relación con los usuarios se basa en lo siguiente:

 Estimular debates en torno a tendencias actuales 

:   BudgIT sigue debates online y offline y busca proveer datos sobre
    estos tópicos. Por ejemplo, con las huelgas del combustible en enero
    de 2012, hubo constante agitación entre los manifestantes respecto
    de la necesidad de que volviera a haber subsidios al combustible y
    reducir los gastos pĆŗblicos extravagantes e innecesarios. BudgIT
    siguió el debate vía los medios sociales y en 36 horas con mucho
    esfuerzo creó una aplicación que permite a los ciudadanos
    reorganizar el presupuesto nigeriano.

 Buenos mecanismos de retroalimentación 

:   Nos relacionamos con los usuarios a travƩs de canales de debate y
    medios sociales. Muchos usuarios quieren conocer las historias
    detrÔs de los datos y muchos nos piden nuestra opinión. Nos
    aseguramos de que nuestras respuestas solo expliquen los hechos
    detrƔs de los datos y no se vean afectadas por nuestros puntos de
    vista personales o polĆ­ticos. Tenemos que mantener abiertos canales
    de retroalimentación, responder activamente a comentarios y
    relacionarnos con los usuarios de modo creativo para asegurar que se
    mantenga la comunidad creada en torno a los datos.

 Hacerlo local 

:   En el caso de un conjunto de datos que apunta a un grupo en
    particular, BudgIT busca localizar su contenido y promover un canal
    de debate que se relacione con las necesidades e intereses de grupos
    particulares de usuarios. En particular, nos interesa relacionarnos
    con usuarios en torno a cuestiones que les preocupan vĆ­a SMS.

Luego de poner los datos sobre el gasto pĆŗblico en yourbudgit.com,
buscamos tomar contacto con los ciudadanos a travƩs de varias ONG.
También pensamos desarrollar un marco de participación en el que
ciudadanos e instituciones oficiales puedan realizar asambleas pĆŗblicas
para definir Ć­tems claves del presupuesto que deben ser priorizados.

El proyecto ha sido cubierto por medios locales y extranjeros, desde
[CP-Africa](http://bit.ly/cp-africa-budget) hasta [laBBC](http://bbc.in/africa-budget). 
Hemos emprendido un estudio de los presupuestos entre 2002 y 2011 
para el sector de seguridad para un periodista de la AP, Yinka Ibukun. 
La mayorĆ­a de las organizaciones de medios son ā€œacaparadores de datosā€ 
y nos han pedido datos para usar en sus informes. 
Estamos planeando nuevas colaboraciones con periodistas y
organizaciones noticiosas en los meses venideros.

— *Oluseun Onigbinde, BudgIT Nigeria*



Added mapeda.ston.

more than 10,000 changes

Added preamble.tex.

































































































1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
% Table of contents formatting
\renewcommand{\contentsname}{Table of Contents}
\setcounter{tocdepth}{1}
 
% Headers and page numbering 
\usepackage{fancyhdr}
\pagestyle{plain}
 
% Fonts and typesetting
\setmainfont{TeX Gyre Pagella}
\setsansfont{Verdana}

% Set figure legends and captions to be smaller sized sans serif font
\usepackage[font={footnotesize,sf}]{caption}

\usepackage{siunitx}

% Adjust spacing between lines to 1.5
\usepackage{setspace}
\onehalfspacing
\raggedbottom

% Set margins
\usepackage[top=1.25in,bottom=1.25in]{geometry}

% Chapter styling
\usepackage[grey]{quotchap}
\makeatletter 
\renewcommand*{\chapnumfont}{%
  \usefont{T1}{\@defaultcnfont}{b}{n}\fontsize{80}{100}\selectfont% Default: 100/130
  \color{chaptergrey}%
}
\makeatother

% Set colour of links to black so that they don't show up when printed
\usepackage{hyperref}
\hypersetup{colorlinks=true, linkcolor=black}

% Tables
\usepackage{booktabs}
\usepackage{threeparttable}
\usepackage{array}
\newcolumntype{x}[1]{%
>{\centering\arraybackslash}m{#1}}%

% Allow for long captions and float captions on opposite page of figures 
\usepackage[rightFloats, CaptionBefore]{fltpage}

% Don't let floats cross subsections
\usepackage[section,subsection]{extraplaceins}

% Allow subfigures
\usepackage{subfig}

% Scalling images
\usepackage[export]{adjustbox}

% Code blocks options
\usepackage{xcolor}

% To test in the future, minted instead of listings
% \usepackage{minted}
\usepackage{listings}
\lstset{
    basicstyle=\ttfamily,
    numbers=left,
    keywordstyle=\color[rgb]{0.13,0.29,0.53}\bfseries,
    stringstyle=\color[rgb]{0.31,0.60,0.02},
    commentstyle=\color[rgb]{0.56,0.35,0.01}\itshape,
    numberstyle=\footnotesize,
    stepnumber=2,
    numbersep=5pt,
    backgroundcolor=\color[RGB]{248,248,248},
    showspaces=false,
    showstringspaces=false,
    showtabs=false,
    tabsize=2,
    captionpos=b,
    breaklines=true,
    breakatwhitespace=true,
    breakautoindent=true,
    escapeinside={\%*}{*)},
    linewidth=\textwidth,
    basewidth=0.5em,
}

\lstdefinelanguage{smalltalk}{
  morekeywords={true,false,self,super,nil},
  sensitive=true,
  morecomment=[s]{"}{"},
  morestring=[d]',
  style=SmalltalkStyle
}
\lstdefinestyle{SmalltalkStyle}{
  literate={:=}{{$\gets$}}1{^}{{$\uparrow$}}1
}