A diario la NASA recibe varios petabytes (mil terabytes) de información, provenientes de todos los satélites y misiones que tienen en el espacio. La NASA como organización debe administrar con eficiencia esos volúmenes de datos y para muchos es un misterio saber cómo lo logran.
Según lo que Chris Mattman, investigador de la iniciativa big-data de un laboratorio de la agencia, le dijo a Information Weekly, “la NASA en total debe manejar cientos de petabytes, en ocasiones cerca un exabyte [mil petabytes], especialmente si tenemos en cuenta todos los dominios y disciplinas de la ciencia, y las información de los planetas y el espacio”.
Para manejar estos volúmenes de datos, la agencia tiene varios métodos. Lógicamente no pueden almacenar y conservar todo lo que reciben. El primer paso es identificar qué parte de la información debe ser conservada y qué parte puede ser desechada. Por ejemplo, todo lo que proviene de los Sistemas de Observación de la Tierra son procesados, archivados y repartidos por el Centro Activo de Archivos Distribuidos.
“Su misión [la del Centro] es ser los administradores y preservadores de la información. Tienen un proyecto muy grande, y su trabajo es asegurarse de que los datos correctos sean conservados”, y estén a la disposición del laboratorio de la NASA que los necesite para sus investigaciones.
Muchos laboratorios, incluyendo el que dirige Mattman, se apoyan en el software libre para manejar su información porque es más económico. Ellos utilizan una suite de Linux que se llama Hadoop y una herramienta que se llama Apache TIKA que sirve para extraer metadatos y texto estructurado de los documentos.
procesar datos mas que tener grandes servidores es gestionar el software que los maneja….
procesar datos mas que tener grandes servidores es gestionar el software que los maneja….
cuantos hadoop tendran xD xD xD xD
cuantos hadoop tendran xD xD xD xD