Entrevista a Iván de Prado Alonso, CEO de DataSalt, empresa de servicios de Big Data

Entrevistamos a Iván de Prado Alonso, CEO de Datasalt, empresa especializada en servicios y tecnología BigData. Las negritas de las respuestas son mías para facilitar la lectura. Si os gusta la tecnología y tenéis interés en el Big Data os recomiendo que no os la perdáis.

P: Dentro del big data podemos encontrar dos escenarios diferentes: las grandes empresas que acumulan mucha información de años de trabajo y por otro lado fuentes de información pública tipo estadísticas, ¿se atacan igual a la hora de plantear soluciones para extraer información de valor?

R: Un campo prometedor para la extracción de valor se basa en esos datos que las empresas acumulan, pero que sin embargo no se están usando porque existen ciertas barreras. La primera es la clásica formación de “silos” estancos en las empresas que dificultan el cruce “libre” entre diferentes fuentes de datos. La segunda barrera que podríamos destacar es el coste histórico de almacenamiento y procesamiento de grandes volúmenes de datos (Big Data), que ahora se ha visto reducido drásticamente.

Ambas barreras se han roto recientemente gracias a la irrupción de nuevas tecnologías con un coste de almacenamiento y procesamiento muy bajo y con una flexibilidad tal que facilita la mezcla de datos provenientes de diferentes fuentes heterogéneas, reduciendo así el impacto de los “silos”.

Por lo tanto, la aproximación recomendada en el mundo de la empresa es empezar por aplicar las técnicas Big Data a datos propios que ya se poseen pero que no se están explotando.

Ahora bien, como tu bien mencionas, no hay que dejar de lado las fuentes públicas de datos y estadísticas. Una segunda derivada del uso de técnicas Big Data es su flexibilidad para cruzar datos proveniente de cualquier fuente. Y es aquí donde la introducción de datos públicos puede enriquecer y dotar de nuevo valor la información interna que se posee. Me estoy refiriendo a información de corte geográfico, meteorológico, de redes sociales, Open Data, etc.

En definitiva, datos históricos internos y fuentes publicas se deben mezclar en una única estrategia Big Data.

P: ¿Es la tecnología determinante para obtener resultados al manejar Big Data?


R: Tan determinante que desde mi punto de vista ha sido la disrupción tecnológica la que define el término: Big Data son aquellos datos, tal que por su volumen (o velocidad, o variedad), no pueden ser gestionados con la técnicas habituales (generalmente bases de datos relacionales).

Por ser más concreto, hay una tecnología en particular, Hadoop, que es la que sustenta mayoritariamente la revolución Big Data. Este software es Open Source, y está basado en ideas que fueron desarrolladas por Google y posteriormente hechas públicas en forma de documento académico.

Naturalmente, hay muchas más tecnologías y surgirán muchas más, pero ha día de hoy el Big Data es una realidad gracias principalmente a Hadoop.

P: Al pensar en big data suelo imaginarme una montaña de datos mezclados y acumulados, pero ¿qué nos puedes contar del análisis de Big Data en tiempo real?

R: La metáfora es adecuada. Imaginemos una gran montaña de tierra. Podemos pensar en las técnicas actuales tipo Hadoop como un “rebaño” de múltiples excavadoras que a la vez van cogiendo tierra de esa montaña y depositándola en los cimientos de un futuro rascacielos. Múltiples excavadoras pueden mover mucha cantidad de tierra a la vez, pero mover toda la montaña de tierra llevará un tiempo, quizás horas. Esto es lo que se denomina una tecnología por “lotes” que es todo lo contrario al real time.

Ahora pensemos que en lugar de tener una montaña de tierra que mover, lo que ocurre es que nos cae esa montaña de tierra de repente del cielo y tenemos que hacer algo para que caiga y se deposite en el lugar adecuado. ¡Es mucho más complicado así que teniéndola almacenada previamente en una montaña! Esta sería una metáfora del tiempo real.

Lo que quiero dar a entender con esto es que el tiempo real supone un reto. La complejidad de un mismo sistema implementado con latencias de milisegundos (tiempo real) frente a otro con latencias de horas (sin tiempo real) es, en muchos casos, ordenes de magnitud superior. Y a veces no se justifica la inversión, puesto que la alternativa básica (sin tiempo real) suele ser suficientemente buena.

Naturalmente esto no ocurre con todos los casos, ni tampoco implica que el tiempo real sea imposible. De hecho, hay tecnologías que vienen en nuestra ayuda en estos casos como las bases de datos NoSQL, Spark Streaming (http://spark-project.org/docs/latest/streaming-programming-guide.html) o Storm (http://storm-project.net/). Pero aún hay mucho campo que avanzar en este terreno.

P: ¿Cuáles son los tiempos y plazos para acometer un proyecto de análisis de Big Data?

R: Cómo en todo, depende. Pero si puedo anticipar que los proyectos Big Data no son tan complicados como a priori pueden parecer, especialmente si se tiene el conocimiento sobre las tecnologías básicas. Para dar una idea, se pueden tener prototipos en semanas y sistemas completos en 2 o 3 meses. Además, para simplificar la provisión de infraestructuras se pueden usar plataformas en la nube, como por ejemplo Amazon Web Services.

La charla que di en el Big Data Spain de 2012 muestra el caso de nuestro desarrollo para el BBVA, que puede servir como ejemplo de proyecto Big Data y añadir algo de luz sobre la estructura de los proyectos Big Data y sus costes.

P: ¿Cuál es vuestra propuesta desde Datasalt para el sector?

R: Datasalt viene ofreciendo servicios de consultoría y formación en Big Data a empresas que manejan grandes volúmenes de datos. Dentro de nuestros clientes encontramos dos perfiles bien diferenciados.

Por un lado, ofrecemos nuestros servicios a startups cuyo negocio implique el manejo de Big Data. Por poner ejemplos, podríamos mencionar a Trovit o Exoclick. Estaríamos hablando de startups en los sectores de Internet, móviles, publicidad on-line, juegos, etc.

Por otro lado, las grandes empresas en los sectores de la banca, retail, seguros y telecomunicaciones acumulan grandes volúmenes de datos históricos y necesitan de nuevos sistemas Big Data.

Datasalt ofrece a estas empresas desde el asesoramiento y la formación para la implantación de estrategias Big Data hasta el desarrollo de prototipos y de sistemas completos.

Por otra parte, Datasalt desarrolla tecnología Big Data propia que se plasma en los productos Open Source http://pangool.net/ y http://sploutsql.com/. Estas tecnologías, maduradas a la luz de la experiencia, complementan nuestras soluciones desarrolladas para el cliente.

Por último, me gustaría resaltar nuestros servicios de formación general en Big Data, fundamentados en los cursos que realizamos periódicamente en Madrid y Barcelona.


Si el volumen de datos que manejs en tu empresa comienza a ser un problema, o si te estás planteando la estrategia Big Data en tu compañía, puedes consultar a Iván sin ningún compromiso con el siguiente formulario:

[form datasalt-11]