Hogar Caracteristicas Estos defensores quieren asegurarse de que nuestros datos no desaparezcan

Estos defensores quieren asegurarse de que nuestros datos no desaparezcan

Tabla de contenido:

Video: ¿Por qué me vigilan, si no soy nadie? | Marta Peirano | TEDxMadrid (Noviembre 2024)

Video: ¿Por qué me vigilan, si no soy nadie? | Marta Peirano | TEDxMadrid (Noviembre 2024)
Anonim

A fines de mayo de este año, exactamente cinco meses después de la toma de posesión del 45º presidente de los Estados Unidos, un grupo de personas preocupadas por la postura de la nueva administración hacia la ciencia y el cambio climático marcó su propio aniversario especial.

No muy lejos del campus de la Universidad del Norte de Texas, en las llanuras al norte de Dallas, varias docenas de personas se reunieron en Data Rescue Denton para identificar y descargar copias de conjuntos de datos federales sobre el clima y el medio ambiente. Estas reuniones estilo hackathon recibieron mucha atención en los días inmediatamente anteriores a la inauguración; Denton fue el 50º evento desde enero.

Organizándose inicialmente por la preocupación de que la nueva administración podría borrar u ocultar los datos climáticos y otros datos ambientales, los peores temores de los rescatadores de datos parecieron hacerse realidad cuando una de las primeras acciones de la Casa Blanca de Trump fue eliminar las páginas de cambio climático de su sitio web. Luego, el Departamento de Agricultura de los Estados Unidos, después de eliminar los informes de inspección de bienestar animal de su sitio web, respondió a una solicitud de la Ley de Libertad de Información de National Geographic con 1.771 páginas de material completamente redactado.

Cualquiera puede acceder a los más de 153, 000 conjuntos de datos federales a través del portal de datos abiertos del gobierno central en data.gov. Pero eso es solo una fracción de los datos que existen en la nebulosa de la burocracia gubernamental, sin importar la fracción aún más pequeña que hay en un servidor.

"En algún lugar, alrededor del 20 por ciento de la información del gobierno está accesible en la web", dijo Jim Jacobs, Bibliotecario de Información del Gobierno Federal en la Biblioteca de la Universidad de Stanford. "Esa es una cantidad bastante grande de cosas que no están disponibles. Aunque las agencias tienen sus propios wikis y sistemas de gestión de contenido, la única vez que se entera de algo de esto es si alguien lo FOIA".

Sin duda, una gran cantidad de información fue capturada y ahora reside en servidores no gubernamentales. Entre los eventos y proyectos de Data Refuge, como el rastreo de fin de período de 2016, se archivaron más de 200 TB de sitios web y datos del gobierno. Pero los organizadores del rescate comenzaron a darse cuenta de que los esfuerzos parciales para hacer copias completas de terabytes de datos científicos de agencias gubernamentales no podían sostenerse de manera realista a largo plazo; sería como rescatar al Titanic con un dedal.

Entonces, aunque Data Rescue Denton terminó siendo uno de los últimos eventos organizados de este tipo, el esfuerzo colectivo ha estimulado a una comunidad más amplia a trabajar en conjunto para hacer que más datos del gobierno sean reconocibles, comprensibles y utilizables, escribió Jacobs en una publicación de blog.

Mirando a las bibliotecas

En la Universidad de Pensilvania, Bethany Wiggin es la directora del Programa Penn en Humanidades Ambientales, donde ha sido central en el movimiento del Refugio de Datos, la creadora de los eventos de Rescate de Datos. El enfoque ahora ha cambiado, dijo, hacia el aprovechamiento de los marcos nacionales para los esfuerzos a largo plazo en lugar de episodios periódicos locales.

"Nos dimos cuenta de las habilidades que estaban surgiendo en varios lugares haciendo eventos de datos de rescate, algo que podría escalarse", dijo Wiggin, particularmente en las bibliotecas de investigación. "Pero todos estos esfuerzos estaban sucediendo antes del lanzamiento. El poder del Refugio de datos ha sido el de engrosar esas conexiones; catalizar proyectos de larga data y de lento movimiento; y arrojar luz sobre lo importantes que son".

Wiggin ha estado ayudando recientemente a encabezar Libraries + Network, una asociación emergente de bibliotecas de investigación, organizaciones de bibliotecas y grupos de datos abiertos catalizados para expandir el papel tradicional de las bibliotecas en la preservación del acceso a la información. Los participantes incluyen la biblioteca de investigación de la Universidad de Stanford, la Biblioteca Digital de California y la Fundación Mozilla, con aportes y colaboración de entidades tan amplias como los Archivos Nacionales y los directores de datos de varias oficinas federales.

Un proyecto, por ejemplo, es LOCKSS ("muchas copias mantienen las cosas seguras") que Jacobs ha estado coordinando durante varios años. Se basa en el mismo principio que una red de bibliotecas de 200 años conocida como el Programa Federal de Bibliotecas de Depósito; Estas bibliotecas son depósitos oficiales de publicaciones de la Oficina de Impresión del Gobierno de los Estados Unidos (GPO).

LOCKSS, por el contrario, es una versión digital privada de este sistema, que hasta ahora consta de 36 bibliotecas que cosechan publicaciones del GPO con su cooperación. Es un modelo de cómo se puede proteger la información digital de la eliminación o manipulación mediante una amplia dispersión física.

"No se puede asegurar la preservación a menos que tenga control del contenido", dijo Jacobs. "Parte de lo que hizo que las bibliotecas depositarias fueran importantes y útiles durante los últimos 200 años fue que nadie en el gobierno podía editar un documento sin tener que ir a 1, 500 bibliotecas y decir 'Sí, cambie esta página aquí'".

El software LOCKSS utiliza cachés de cheques de contenido a nivel de bits y lo compara con el contenido de otras bibliotecas, lo que según Jacobs ayuda a garantizar la preservación a largo plazo mediante la reparación de archivos degradados.

John Chodacki, otro colaborador de la Red de Bibliotecas +, es director de curaduría de la Biblioteca Digital de California, una instalación de información virtual que sirve a los 10 campus del sistema de la Universidad de California. Trabajando con el desarrollador del Código para la Ciencia y la Sociedad Max Ogden y Philip Ashlock, arquitecto jefe de data.gov, Chodacki dice que su enfoque ha sido utilizar data.gov como una calle de doble sentido.

Primero demostraron que el rescate de datos en sí podría ser mucho más eficiente al recoger una copia de data.gov y colocarla en un sitio externo, datamirror.org, con secuencias de comandos de monitoreo que buscan actualizaciones. Luego, Chodacki y sus colaboradores también comenzaron a analizar si los conjuntos de datos y metadatos aportados al espejo podrían alimentar los flujos de trabajo existentes de data.gov de las agencias a través de páginas en el espejo.

Según la orden ejecutiva de Obama de 2013 que ordenaba la publicación de datos legibles por máquina en data.gov, las agencias aún serían responsables de la generación de los registros que figuran en ese portal; La idea de Chodacki y Ogden es que los conjuntos de datos sugeridos por crowdsourcing simplemente ayudan a distribuir la carga de trabajo.

"No necesitamos replicar todo el ecosistema", dijo Chodacki. "El gobierno federal y estas agencias han estado lidiando con los datos durante mucho más tiempo de lo que ha sido posible hablar de big data, de una manera mucho más sólida que cualquier otra persona".

Asociaciones Público-Privadas

La cuestión del costo es obvia cuando se trata de cómo las agencias pueden identificar qué conjuntos de datos son más valiosos para el público, y luego publicar enlaces a sus metadatos o conjuntos de datos reales a través del portal del gobierno. Un informe de la Oficina de Presupuesto del Congreso (CBO) para el proyecto de ley OPEN Government Data Act actualmente en el Senado, que codificaría la orden ejecutiva de Obama en ley, estima que su implementación total costará $ 2 millones entre 2018 y 2021.

En términos monetarios del gobierno, eso representa esencialmente ningún aumento real en el gasto, concluyó CBO.

Sin embargo, la eficiencia es una cuestión diferente, una que Ed Kearns, de la Administración Nacional Oceánica y Atmosférica, está experimentando junto con socios privados, incluidos Amazon Web Services y Google. Kearns, director de datos de NOAA, dijo que aumentar la disponibilidad pública y el uso de datos de NOAA es un objetivo importante del Proyecto Big Data.

Las compañías identifican qué conjuntos de datos desean, y NOAA los transmite sin costo adicional para el público. Todo lo que NOAA tiene está sobre la mesa, dijo Kearns, pero el objetivo de la asociación de cinco años no es sacar todos los datos de NOAA a la nube, solo fragmentos estratégicos.

Alojar dichos conjuntos de datos en los servicios en la nube de las empresas privadas ofrece varias ventajas al acceso FTP al estilo de los años 80 que todavía es estándar para la transferencia de grandes conjuntos de datos desde agencias federales. Para comenzar, los conjuntos de datos de NOAA tienden a ser vastos: la agencia monitorea los océanos, la atmósfera, el sol y el clima espacial de la Tierra, y a veces requieren semanas o meses para la entrega pública.

Un ejemplo es el archivo de radar Doppler de nivel II NEXRAD de alta resolución de la agencia. Según un estudio publicado en mayo por la Sociedad Meteorológica Estadounidense, la transferencia de todo el archivo NEXRAD de 270 terabytes a un solo cliente en octubre de 2015 habría llevado 540 días a un costo de $ 203, 310. Una copia completa del archivo nunca había estado disponible para análisis externo antes de que NOAA trabajara con Amazon y Google para poner uno en la nube.

El experimento también ha tenido algunos resultados iniciales interesantes con aumentos de uso. Las páginas web meteorológicas y de pronóstico de NOAA ya reciben algunos de los niveles más altos de tráfico entre los sitios gubernamentales, pero después de que Google integró recientemente un conjunto de datos climáticos y meteorológicos, de un tamaño aproximado, en su base de datos BigQuery, la compañía informó que entregó 1, 2 petabytes de este conjunto de datos del 1 de enero al 30 de abril, mucho más de lo que se había accedido en un período de tiempo similar desde los servidores NOAA.

"Google pudo abrirlo a una audiencia completamente nueva", dijo Kearns.

No es solo lluvia y temperaturas estacionales. Los conjuntos de datos ahora disponibles a través de los socios de Big Data incluyen información pesquera, clima marino y un catálogo alojado por IBM que enumera conjuntos de datos actuales, pronósticos, históricos y geoespaciales de los centros NOAA. Los conjuntos de datos futuros podrían incluso incluir información sobre ecosistemas y genómica pesquera.

Pero por diseño, la asociación permite a los colaboradores elegir qué quieren más, lo que conlleva el riesgo de que conjuntos de datos oscuros, pero potencialmente de alto valor, no vean mucha luz del día. Kearns dice que es demasiado pronto para decir lo que eventualmente podría identificarse como valioso.

"La escala y el alcance de lo que puede hacer con estos datos nos asombran", agregó. "No podemos imaginar todos los usos posibles".

En una escala más pequeña, la Ciudad de Filadelfia también ha trabajado con una entidad privada para publicar conjuntos de datos que el público ha dicho que le parecerían más útiles. Aunque el tamaño de una ciudad le da más maniobrabilidad operativa diaria que una entidad federal, el modelo de Philly representa un enfoque para la creación de estrategias de lanzamientos de conjuntos de datos aún no publicados.

Azavea, una empresa de software con sede en Filadelfia especializada en visualización de datos, colaboró ​​con el director de información de la ciudad, Tim Wisniewski, para desarrollar una lista de conjuntos de datos inéditos que las organizaciones sin fines de lucro de la ciudad podrían tener interés en utilizar. Wisniewski y Azavea utilizaron tanto el catálogo de metadatos en línea de la ciudad como los aportes de los departamentos de la ciudad para desarrollar la lista. Azavea y otros socios luego compraron la lista a las organizaciones sin fines de lucro de Filadelfia y lanzaron OpenDataVote, una competencia para que el público vote sobre los proyectos presentados por esas organizaciones sin fines de lucro sobre cómo usarían sus conjuntos de datos preferidos.

Un ganador reciente fue una propuesta presentada por MicroSociety, una organización educativa sin fines de lucro, para utilizar los datos de la ciudad sobre los donantes del Distrito Escolar de Filadelfia para medir el impacto de los programas sin fines de lucro en las escuelas.

"Podemos decir que esta ciudad sin fines de lucro está interesada en un conjunto de datos en particular porque pueden hacer algo con él, y que esta gente votó para apoyarlos", dijo Wisniewski. "Nos permite ir a los departamentos con un caso de uso sólido en la mano en lugar de decir, oye, liberar estos datos solo porque".

Datos antiguos y nuevos

Pero, ¿qué sucede incluso cuando hay un amplio acceso a los datos que ya existen, cuando las nuevas políticas y directivas de financiación significan que los datos en sí mismos ya no se generan? Esa es una preocupación real, dijo Ann Dunkin, quien se desempeñó como directora de información en la Agencia de Protección Ambiental bajo el presidente Obama y ahora dirige TI para el condado de Santa Clara de California.

"La gente está preocupada por los datos antiguos, pero lo que más me preocupa es que los nuevos datos no estén disponibles al mismo ritmo que antes, o que no se generen en absoluto", dijo Dunkin.

En un análisis del presupuesto federal propuesto para 2018 por la revista Science, muchas agencias gubernamentales obtendrían reducciones significativas en sus presupuestos de investigación si el presupuesto se aprueba según lo propuesto. Un recorte de aproximadamente el 22 por ciento en los Institutos Nacionales de Salud implicaría pagos para las universidades de investigación; La solicitud de presupuesto de la NASA eliminaría las iniciativas para monitorear las emisiones de gases de efecto invernadero y otros programas de ciencias de la tierra. Los programas climáticos en NOAA también podrían cerrarse con niveles similares de recortes.

Durante su mandato, la EPA había estado trabajando para hacer que su recopilación de datos se convirtiera en una herramienta que cualquiera pueda utilizar para comprender la salud de su entorno y cómo reaccionar ante ella. Mal día de aire? No salgas afuera. Corriente por el camino contaminado? Mantenga a los niños alejados.

"Mi expectativa es que se moverá hacia atrás", agregó Dunkin. "Podría estar equivocado, pero si usted dice que no vamos a hacer que los datos estén disponibles, la conclusión lógica es que los conjuntos de datos que podrían ayudar a los miembros del público tampoco estarán disponibles o no se generarán en primer lugar".

Wiggin de Data Refuge está trabajando en un proyecto de narración de historias relacionado con este tema que espera catalizará a más personas para exigir la liberación continua de datos y creará una gran cantidad de apoyo para continuar con los programas de recopilación de datos existentes en todo el gobierno federal. Las narraciones de "Tres historias en nuestra ciudad" retratarán el impacto a menudo oculto que tienen los datos federales en lugares inesperados, comenzando primero en Filadelfia y luego en otros lugares del país.

"Una parte crucial del movimiento del Refugio de datos, a medida que avanzamos a la siguiente fase, es ayudar a las personas a comprender cuán ampliamente se utilizan los datos producidos por el gobierno federal en sus vidas", dijo Wiggin. "Ya sea que lo llames clima o salud o seguridad pública, sigue siendo información federal. Está en las comunidades, en el ayuntamiento, en los esfuerzos policiales, en el ejército. Tenemos que seguir recordando cuán importante es esa información".

Recursos:

  • Portal de conjunto de datos ambientales de la EPA: el portal de metadatos de la Agencia de Protección Ambiental.
  • Open Data @ DOE: el portal de datos abiertos del Departamento de Energía.
  • Portal de datos del Servicio de Investigación Económica del USDA
  • Recursos de Big Data de NOAA: enlaces a las páginas de la plataforma de socios de Big Data que alojan datos generados por NOAA.
  • Universidad del Norte de Texas: Cementerio cibernético: un archivo de sitios web gubernamentales obsoletos, obsoletos o cerrados.
  • Página del Proyecto de Archivo de Iniciativa de Datos Ambientales y Gobernabilidad: Herramientas, código y aplicaciones relacionadas con el descubrimiento y archivo de datos gubernamentales.
  • Internet Archive Wayback Machine
  • Archivo de Internet: Cómo guardar páginas en la máquina Wayback: seis formas de nominar páginas para archivar.
  • Biblioteca digital de California: Archivo web de fin de período: una colección de sitios web del gobierno de EE. UU. Guardados de Rastreos de fin de período, desde 2008 hasta el presente.
  • FreeGovInfo.info: contenido de gran alcance con información sobre portales de datos a nivel estatal y federal, y archivos de noticias sobre temas de datos abiertos.
  • Espejo climático: una colección de conjuntos de datos climáticos recopilados por voluntarios.

Esta historia apareció por primera vez en PC Magazine Digital Edition. ¡Suscríbete hoy para obtener más historias originales, noticias, reseñas y consejos!

Estos defensores quieren asegurarse de que nuestros datos no desaparezcan