• La desconfianza - esa amenaza silenciosa que acecha

    El título que he empezado a escribir era muy largo, lo pongo aquí: La desconfianza de los usuarios. Esa amenaza silenciosa que acecha a la tecnología y la gestión de los datos Sí, como título no sirve. Pero es la idea que me rondó hace dos noches cuando vi un vídeo que subió un conocido youtuber. En él nos presenta, como es habitual en Dross con un talento que creo que ha superado a los mass media en frescura y 'storytelling capacity' hace tiempo, el caso de un sistema de inteligencia artificial que se comunica con millones de usuarios. El problema empieza cuando te das cuenta de que la mera narración acerca de cómo funciona a grandes rasgos el sistema - el asistente virtual va aprendiendo de todo lo que le dicen los usuarios, esto es, un aprendizaje automático - es directamente asociada con lo oscuro, lo lúgubre y peligroso. Como Dross Rotzank (vaya nick) diría: 'MUY aterrador'. Y vamos, que no es para menos viendo las cosas que el bichito le dice a la pobre gente! Aquí, en este site que es un recurso online sobre ciencia de datos me gustaría reflexionar sobre esta asociación. ¿Cómo hemos llegado a que el imaginario colectivo, con todo el poder que tiene, ya tenga tan interiorizada la asociación entre el delito, lo inmoral y la inteligencia artificial y la vanguardia tecnológica? Creo que no hay que buscar muchos más ejemplos para ratificar esto. Hay muchos más reportajes y comunicaciones sobre la negatividad de estas tecnologías que aplicaciones beneficionas. Estas últimas sabemos que son muchas más a pesar de todo (si queridos youtubers, lo que pasa es que lo oscuro y sobrecogedor vende). Quién no utiliza a diario elementos cotidianos como un navegador GPS que te conduce por la ruta mejor en tiempo real, un traductor web o buscador que se alimenta del big data en la web, o no aprovecha la predicción meteorológica, un comparador de seguros o las recomendaciones que le hace su tienda online preferida. Sin embargo, aunque haga esto todos los días desconfía. Y buenas razones tendrá ese ciudadano medio en desconfiar. Algo se está haciendo mal, muy mal, y nada importa que la UE haya declarado no válido el 'Safe Harbor'* y estemos todas las empresas buscando sustituto a MailChimp porque a un tribunal burócrata y kafkiano ha dicho que le faltan puertas al campo. *EDITO: hay una gran confusion en torno a este asunto del Safe Harbor pero según parece la UE y EEUU han llegado a un nuevo acuerdo para poder seguir utilizando servicios que están localizados en este último país (LINK) Vamos que se ha mareado la perdiz durante estos meses, como se suele decir en España. Desde luego es interesante ver cómo perciben los medios generales, y las personas influyentes el hecho tecnológico. Hay constantes referencias al gran hermano, a administraciones que todo lo ven y oscuras aplicaciones que se aprovechan de los ciudadanos. La tecnología es un medio, no un fin. Empezando por ahí tendríamos que ver las cosas con otra perspectiva. Aunque me temo que está tan arraigada la idea de tecnología como algo bueno en sí mismo y objetivo final que ya es difícil recordar que el objetivo no era que todo el mundo vaya con un móvil en el bolsillo, sino estar bien comunicados. Lo mismo ocurre con la inteligencia artificial, lo mismo ocurre con el big data. ¿Hacia dónde nos lleva? Somos nosotros los que tenemos que decidirlo. PD: vaya entrada larga me ha salido así sin quererlo. Recuerdo hace tiempo cómo en un post se hablaba de transformar la economía basada en los datos (la cual es ya una realidad) haciendo que los usuarios monetizaran sus datos en plataformas como facebook o twitter. ¿Os imagináis la revolución que sería ganar céntimos por megas de vuestros datos generados? Hay otras formas de ver la tecnología.

  • [EVENTO] Smart Data Spain Summit 2016

    Os dejamos aquí la información de un evento en el que colaboramos. Será en mayo, nada menos que en el palco de honor del estadio Santiago Bernabéu. Anímate y nos vemos en el 3S! El desafío de dar valor a los datos en el Palco de Honor del Santiago Bernabéu + 50 expertos debatirán en Madrid sobre cómo transformar los datos en valor en Smart Data Spain Summit 2016 Destacados representantes de entidades como The Coca Cola Company, Ferrovial, Ing Direct, Telepizza, Mahou, Rastreator, NH Hoteles, American Express, Bankinter, Destinia, Fiat, Edenred, Iberdrola (la lista completa de ponentes se puede consultar aquí) se reúnen en el Estadio Santiago Bernabéu para debatir los temas más candentes relacionados con el potencial y la aplicación del Smart Data en la empresa: privacidad y retos normativos, big data & customer experience, Smart cities, cloud, big data & toma de decisiones, IoT, calidad de los datos, almacenamiento, etc.,… serán algunas de las temáticas del Congreso. Smart Data Spain Summit 2016 es el mayor evento para profesionales de empresas privadas y entidades públicas que buscan soluciones novedosas para la gestión y análisis de sus datos, enfocadas a la toma de decisiones y búsqueda de oportunidades de negocio. Accenture Analytics, Arsys, Denodo, HP, Innova-TSN, KPMG, Logtrust, Mercanza, Qlick o Tibco ya han apostado por este evento como actores destacados en materia de big data y serán sponsors* del mismo. El evento se compone de una zona de networking y de 2 zonas de conferencias y tendrá lugar el 12 de mayo de 2016. Puede informarse de todas las novedades y avances del evento en www.smartdata.ifaes.com ¡Una cita ineludible para desarrollar y potenciar su estrategia en big data! Los lectores** de SoyData pueden solicitar su acreditación para asistir al evento aquí, usando el código 3S-SDT16. * Sponsors confirmados a 16/03/2016. Ver listado completo actualizado. **Evento reservado a profesionales. Consultar condiciones de asistencia con la organización.    

  • Aspectos legales en protección de datos

    En más de una ocasión hemos querido resaltar cómo el universo en el que se desenvuelven los datos para las empresas tiene una fuerte componente legal y de buen gobierno que a menudo es dejada de lado en un mundo dominado por la tecnología. Es de (o debería ser) de obligado cumplimiento tener unas nociones aceptables sobre el marco legal en que se mueven los datos, más en concreto los datos personales. Todo aquél que desempeñe alguna labor relativa a la ciencia de datos debería capacitarse en este ámbito de manera adecuada. Estos últimos días se ha sabido que la nueva propuesta del reglamento europeo es aún más restrictiva. Los puntos a tener más presentes, según María Suárez Pliego (responsable del área de Privacidad y Negocio Digital en Suárez de la Dehesa Abogados) en esta entrada de Computing.es son los siguientes: Reducción de las cargas administrativas Reforzamiento de las garantías de protección de los derechos de las personas en lo que se refiere al tratamiento de los datos Principio de transparencia, que supone que los datos deberán tratarse además de forma leal y lícita. Principio de acountability, que supone la obligación de acreditar el cumplimiento de la legislación. Privacy by design, que supone cumplir la normativa de protección de datos desde el diseño. Refuerzo en el principio de finalidad y calidad Obligaciones de los responsables y encargados de tratamiento Régimen de responsabilidad y sanciones Hay otra vuelta de tuerca más, y es la reciente anulación del puerto seguro (safe harbor) por parte del Tribunal de Justicia de la Unión Europea*. Una de las consecuencias inmediatas es que el uso de MailChimp queda enormemente limitado para las empresas de este lado del mundo. Una entrada en la que se habla de este particular mucho mejor de lo que yo lo podría explicar es esta *EDITO: hay una gran confusion en torno a este asunto del Safe Harbor pero según parece la UE y EEUU han llegado a un nuevo acuerdo para poder seguir utilizando servicios que están localizados en este último país (LINK) Vamos que se ha mareado la perdiz durante estos meses, como se suele decir en España. Además si estáis afectados por esto aparecen algunas soluciones y alternativas a MailChimp como GetResponse y Acumbamail. Es curioso ver cómo en la época en la que más se habla de la privacidad y se establecen medidas restrictivas para velar por ella, menos privacidad tenemos y más llamadas comerciales recibimos a las tres de la tarde. ¿Os acordáis de esas guías telefónicas en las que venían los nombres, el teléfono y hasta datos como la dirección o algunas profesiones? Dicen las malas lenguas que en algunos grandes almacenes conservan ejemplares de estas guías como si fueran sagradas escrituras...

  • ¿Qué hay de nuevo, R?

    Ahora que hemos estado un tiempo sin publicar, vamos a retomar la sana costumbre de ponernos al día en torno a una de las herramientas más demandadas y útiles en data science: R Tres links rápidos, -Nathan Yau, ese artista de las visualizaciones de FlowingData.com nos deleita con esta gráfica sobre por qué visitamos la Sala de Emergencias. Los datos para la realización del gráfico han sido tratados con R, su 'thinking language of choice' en sus propias palabras. Para realizar la visualización ha empleado la librería D3.js -Carlos Gil Bellosta nos avisa ya con tiempo para ir preparandonos de que las octavas Jornadas de Usuarios de R se desarrollarán en Albacete los días 17 y 18 de noviembre. Link -¿Habéis oído hablar de GGPlot2? Si manejáis R estoy seguro de que sí. Como sabéis en nuestra academia contamos con un curso de Análisis de Datos con R en el que introducimos algunas pinceladas sobre este paquete de visualización. Para aquéllos que os quedéis con ganas de más, aquí podéis encontrar un curso específico sobre ggplot2 (en inglés) #UsaR!

  • El Data Manager de Information Builders y la adopción de Hadoop

    Según un reciente estudio la adopción de Hadoop por parte de las empresas se encuentra con algunos obstáculos. El principal de ellos es, como muchos estaréis pensando, la complejidad y la curva de aprendizaje. La capacitación se ha convertido en un verdadero caballo de batalla para las empresas que no se quieran quedar atrás en lo que a big data y data science se refiere. En este contexto, la empresa Information Builders ha lanzado iWay Hadoop Data Manager. Con esta solución, IB busca facilitar la gestión y la integración de datos basados en Hadoop garantizando flexibilidad y compatibilidad al mismo tiempo. Con iWay se oculta la complejidad hasta el punto de que la ingestión y manejo de los grandes datos no precisa de programación paralela.

  • El mayor reto en Machine Learning de los próximos años

    KDnuggets Según Lucas Biewald, de CrowdFlower existe un reto en Machine Learning al que todavía no se ha llegado a dar una solución satisfactoria. Resulta que su compañía lanzó una competición en kaggle, a raíz de la cual el autor pudo darse cuenta de que la exactitud de los resultados en los modelos que los data scientists presentan a estas competiciones tienen un carácter asintótico, tal y como aparece en la gráfica de debajo. De tal manera que el modelo ganador en cada fecha va mejorando su exactitud, pero existe una barrera más allá del 70% que va resultando muy dificil de superar aún cuando pasa más tiempo y los equipos que concursan en esta plataforma de crowdsourcing tienen mayor margen para mejorar sus modelos. ¿Cuál es el gran reto? Conseguir modelos al 80% Nota: recordar aquí que la precisión y la exactitud no son sinónimos, a pesar de que en el lenguaje común se les suele utilizar como un mismo concepto indistintamente. Releyendo el artículo original, que podéis ver aquí me entra la duda sobre si con accuracy se están refiriendo a la precisión del modelo, lo cual creo que es muy probable. ¿Qué opináis?  

  • Tendencias Data Science para este año

    Ya está, ¡lo hemos hecho! Tal y como os comentamos en nuestra despedida del 2015 nos mudábamos a SoyData.net Ahora este blog y nuestros cursos, que os los ofrecemos desde una nueva plataforma más completa e interactiva, estarán unidos y el contenido en ambos veréis como va a tener mucha más relación. Lo mejor es que empecemos con una revisión de las tendencias que varios expertos identifican en el sector Data Science para este año 2016. Esta información la hemos recopilado del blog BAM! Business Analytics Management, Data Science Central e import.io Allá vamos: Nuesto hiper-resumen: este año crecerá la analítica en tiempo real y los algoritmos machine learning, el SaaS se afianza en el sector como medio para llegar a usuarios de forma masiva y la explosión de datos procedentes de sensores de la IoT será ya una realidad Predicciones para 2016 hechas por personas de referencia: “2016 will be the year of deep learning. Data will move from experimental to deployed technology in image recognition, language understanding, and exceed human performance in many areas.” – Gregory Piatetsky, President of KDNuggets “2016 will be exciting for Big Data – Big Data will go even more mainstream. 2016 will also be the year when companies without solid big data strategies will start to fall behind. In terms of technology, I see particular growth in real-time data analytics and increasing use of machine-learning algorithms.” – Bernard Marr, Big Data Guru and Bestselling Author “In 2016, the world of big data will focus more on smart data, regardless of size. Smart data are wide data (high variety), not necessarily deep data (high volume). Data are “smart” when they consist of feature-rich content and context (time, location, associations, links, interdependencies, etc.) that enable intelligent and even autonomous data-driven processes, discoveries, decisions, and applications.” – Kirk Borne, Principal Data Scientist at Booze Allen Hamilton and founder of RocketDataScience.org “2016 will see an expansion of big data analytics with tools that make it possible for business users to perform comprehensive self-service exploration with big data when they need it, without major hand holding from IT.” – Ulrick Pedersen, COO of Targit “Because big data needs a lot of processing power, many organisations will make use of cloud-based, big-data-as-a-service offerings, so they can get the full value of their information, without the associated capital expenditure.” – Stuart Mills, Regional Sales Director at CenturyLink “In 2016 it will be all about what actions you will derive from the data you have access to. Bring in the algorithms. Algorithms define action and they are very specific pieces of software that are very good at a very specific action, much better than humans can do. Think for example of quickly determining the right advertisement based on your profile when you visit a website or finding an outlier in vast amounts of transaction data to determine fraud.” – Mark van Rijmenam, Bestselling Author and Founder of Datafloq “The use of masses of data as an indicator of success will turn to the quality of the data being collected. This will mean that the variety for each company is likely to decrease, but the specific data that will be collected will become far more efficient, useful and plentiful. As companies realize that most of what they collect isn’t being used and just taking up storage space, this will become more apparent and the use of this data will come under increased scrutiny.” – Chris Towers, Head of Big Data Innovation at Innovation Enterprise “As with every industry, disruptive forces—security, sustainability, speed and costs—are driving change in the way data centers are architected, constructed and operated. This should continue throughout 2016 as the ability to deliver applications and content to users while collecting and analyzing data becomes more critical to business success.” – Steve Hassell, President of Data Center Solutions at Emerson Network Power “Machine learning will reduce the insight killer — time. Machine learning will replace manual data wrangling and data governance dirty work. The freeing up of time will accelerate data strategies.” – Brian Hopkins, VP and Principal Strategest at Forrester Research “Enabling users to see a broad range of factors contributing to their business is becoming more important than ever. With the ability to combine both internal and external data sources, users now have access to more context around their data, which ultimately leads to more insights and better decisions. Adding socio demographic or location data to analysis easily and quickly can help organisations de-risk some of their management choices.” – James Richardson, Business Analytics Strategist at Qlik “In 2016 I’m looking to fund those businesses that make possible to create APIs, turn web into data, all those difficult problems that constitutes the plumbing of the Internet, will be the like the Levi’s of the net” – Thomas Korte, Founder of AngelPad “Next year businesses will look at deriving value from ALL data. It’s not just the Internet of Things but rather Internet of Anything that can provide insights. Getting value from data extends beyond devices, sensors and machines and includes ALL data — including that produced by server logs, geo location and data from the Internet.” – Scott Gnau, CTO at Hortonworks “Artificial intelligence for mobile phones (your phone being able to figure out what you are doing and predict what you are going to do next).” – Andrea Cox, Open Data Institute “The use of personal-identifiable data is becoming a growing concern for consumers, a focus for regulators, and a battleground for consumer trust. Companies that proactively respect and protect consumer data are going to be the winners. Privacy will become the killer app for 2016.” – Tim Barker, CEO of DataSift “Several jump to mind but the one that sticks out is the surge in new apps that use strong encryption to secure mobile messaging, voice, video and file exchange, for businesses as well as individuals. Not many people have noticed this yet but they will. Doubtless, governments will be unhappy but there is no stopping this one. Businesses in particular no longer trust open communication so we’re heading for a world in which it will all be encrypted.” – John Dunn, Editor for Computerworld UK and Techworld Tendencias emergentes en analítica de datos: Plumbers wanted: data management overhead demands professional data mungers Hardening models:  increasingly complex models require tighter approaches to diagnostics and validation The tunnel link: big data engineering and methodological approaches meet in the middle Change management to the fore: evidence-based decision-making requires management to contemplate new organizational forms Invisible architectures: enterprise architecture embraces systems management to forge a path through the mist of multi-systems complexity We’re not in Kansas anymore:  increasingly diffuse models requires a deeper methodological understanding of broader research paradigms Living with the paradox: coming to terms with irresolvable methodological quandaries Cyborg enterprise:  industrial-scale analytics ushers in the age of highly integrated, large-scale techno-organizational decision programs Not for everyone, but necessary none-the-less:  analytics as a service and outsourcing analytics as a function On-ramping AI: organizational operationalization as a step towards machine automation Emerging profession: professional computational decision engineers and AI stewardship Far-future: the birth of the Chief Meaning Officer – equal parts decision scientist, IT manager, storyteller, and organizational anthropologist LEER MÁS

  • RESUMEN 2015 - Adquisiciones, formación y consolidación

    Resumen del año 2015 Un poco justo de tiempo, sí...pero ahí va nuestro resumen del año que está apunto de llegar a su fín. 2015: Un año de consolidación del sector Big Data & Data Analytics Como resumen, en todo el mundo ya se habla del big data. Incluso entramos en una era post Big Data en la que se están introduciendo cada vez más más términos relativos a qué hacer con los datos o como procesarlos (IoT, Machine Learning, Deep Analytics, entre otros). La idea en sí de Big Data va dando paso cada vez más al concepto de los Datos en sí mismos (grandes o pequeños) como fuente de valor, como infraestructura e incluso como capital de las organizaciones. Sirva como muestra de esta era post Big Data su salida (aparente) en el cuadrante de Gartner de tecnologías emergentes. Reina Spark; Hadoop aumenta su adopción en las empresas En este escenario, Spark se confirma como puntal y promesa. Si bien, y como comentábamos en nuestro último podcast del año, hay espacio para las otras tecnologías. Entre estas, Hadoop, otrora conocida como lingua franca en el Big Data, tiene cada vez más adopción en las empresas según la encuesta de la que nos hicimos eco hace unos meses. Mayor o menor latencia, más o menos complejidad; es importante hacer un análisis de los requerimientos reales que vamos a tener y los objetivos que nos marcamos antes de elegir una u otra herramienta. No dejemos sin mencionar la otra cara de la moneda, el NoSQL sigue abriéndose paso y ganando fuerza. Más aún si tenemos en cuenta que más que un único tipo de herramienta, se trata de varias tecnologías de gestión de datos muy diferentes entre sí: Grafos (Neo4j), documentos (MongoDB), columnares (Apache Cassandra) y clave-valor (Riak). Proliferación de eventos y formación Es la fase que hemos vivido en este año que termina. Las empresas se dicen 'vale, los datos son la nueva fuente de riqueza; ¿qué hacemos con ellos?' y como siguiente paso se presenta el reto de la capacitación. Atrás queda ya el tener que enviar a los equipos de futuros data scientists a Columbia o algún otro lugar lejano, en Estados Unidos para conseguir recibir una formación en las tecnologías de las que todos hablan. En prácticamente un sólo año han surgido gran cantidad de master y cursos para satisfacer esta demanda. Como también es cierto que hay grandes diferencias entre programas y los centros que los imparten. Es vital, tanto para particulares como empresas, informarnos bien de lo que se imparte en estos programas, del profesorado y de la orientación que se ofrece en ellos. Según el prefil que tengamos de partida y al que queramos alcanzar, podemos encontrar un abanico de posibilidades que merece la pena estudiar antes de dar el paso. De manera paralela, hay una proliferación de jornadas y eventos que denota la increible buena salud del sector. No hay una semana en la que no se celebre algún tipo de reunión sobre macrodatos en las grandes ciudades. En conclusión, hay mucho talento ahí fuera, si bien la demanda es gigantesca y hay un creciente interés por satisfacerla. Momento de Adquisiciones en España Los asíduos a esta web recordarán como hace algo más de un año, en estas páginas hablábamos de una fase de grandes adquisiciones o alianzas entre gigantes tecnológicos y los principales 'pure players' en Big Data & Analítica de Datos. Pues bien, esta ola que comenzó como viene siendo habitual en USA ha llegado hasta España en los últimos meses. Synergic Partners y su adquisición por parte del Grupo Telefónica ha sido el colofón a una tendencia que se ha establecido por fín en nuestro país, y que quizá se reproduzca en el próximo año 2016 allende los mares en México, Brasil o alguna otra potencia de América Latina. Además de la empresa anteriormente mencionada, hemos tenido en los últimos meses la incorporación de Bynse (anteriormente conocida como cubenube) al Grupo ACS y más atrás en el tiempo la adquisición de Tuitele (The Data Republic) por Kantar Media, un gigante de los media a nivel mundial, por mencionar otros casos. Si tienes una startup friki e intensiva en Datos, tal vez el año que viene tengas tu momento de gloria y te sientas como en Silicon Valley!! Una nueva profesión: Chief Data Scientist También hemos asistido al nacimiento de un nuevo perfil o profesión: el CDS o chief data scientist. Entendiendo como el responsable último, a nivel ejecutivo y estratégico de la gestión y buen gobierno de los datos de una organización así como de las metodologías a seguir por ésta para la extracción de insights a partir de los océanos de datos. Dado que la propia administración Obama en la Casa Blanca nombró a DJ Patil como Chief Data Scientist entre otras organizaciones clave que han apostado por este nuevo perfil, se puede pensar que no se trata de una moda pasajera y cabe esperar resultados a nivel ejecutivo de esta nueva organización. ¿Para cuándo un CDS (no, no hablo de Adolfo Suárez) en el Gobierno de España o de algún país latinoamericano? Quizá 2016 nos traiga novedades a este respecto. Nota: sólamente con buscar en linkedIn este puesto nos podemos hacer una idea de lo rápido que se ha difundido el concepto --> LINK Mirando al 2016: Cadenas de bloques, criptodivisas y datos en redes distribuidas imagen: blog.bit2me.com Quizá esta es la gran aplicación de sistemas de almacenamiento distribuidos en este momento y previsiblemente con un gran despliegue en 2016. Todos hemos oído hablar del bitcoin, pero lo que a mejor muchos no habéis escuchado es que la tecnología que hay detrás de este sistema de criptodivisa (no es el único en la actualidad). Lo que se conoce en inglés como blockchain es genuinamente un sistema de almacenamiento de datos distribuido, en el que: La información se almacena en redes de nodos interconectadas entre sí Se utiliza una arquitectura análoga a los pares clave-valor Es un sistema a prueba de fallos, debido a la duplicación de la información dividida en bloques e interconexión de sus nodos de procesamiento dentro de una red descentralizada. ¿Podemos hablar del bitcoin como una aplicación práctica del Big Data? Lo cierto es que muchos opinan que las cadenas de bloques están cambiando el mundo a un nivel que es comparable con el advenimiento del ordenador personal (70's), Internet (90's) o la movilidad (2000's). Las oportunidades de negocio, de mejoras operativas y democratización de sectores hasta hace poco 'intocables' como la banca y en definitiva de hacer un mundo mejor están a la vuelta de la esquina, si como dicen en este artículo de Bit2me las blockchain sobreviven a sus propias expectativas. SoyData. Big Data 4Success ahora es SoyData. Este ha sido el año en el cual lo que nació como un blog allá por 2013 ha pasado a constituirse como empresa y hacer negocio entorno a la Ciencia de Datos a ambos lados del Atlántico.Estamos orgullosos de haber creado comunidad en el mundo hispanohablante a través de nuestros informes y estudios. Más orgullosos si cabe, de nuestra plataforma elearning colaborativa, en la que miembros de esta industria pueden ofrecer formación online de calidad y recibirla. Tenemos una creciente bolsa de talento con lo más selecto en cuanto a perfiles big data con la que impulsamos la capacitación y el empleo en LatAm y España. Ha sido, en definitiva un gran año para este humilde proyecto y en el próximo esperamos ofreceros mucho más. Queremos terminar anunciando un cambio fundamental en esta casa: El futuro son los Datos, grandes o pequeños. Siguiendo esta premisa, viendo que el mundo entero está prestando atención a lo que se puede sacar de los Datos, sin importar qué grandes sean o que los llamemos Big o no según su complejidad, hemos decidido aunar nuestro branding en torno a un concepto que nos encanta: yo #SoyData. -El futuro está en los Datos, sean grandes, pequeños, rápidos, complejos.. -Detrás de los datos están las personas. Somos todos nosotros los que de manera directa o indirecta producimos esos océanos de datos y hacemos por tanto que tengan un valor. Por esta razón (a parte de otras como que la gente sepa deletrear bien tu nombre :-p) BD4S a partir del 2016 será SoyData. Desde aquí agradecer la colaboración de vosotros, los expertos del sector, instructores en nuestra academia, también los usuarios que con su feedback hacen que este recurso online sea cada vez mejor. A todos los que nos ayudáis a crecer y nos seguís desde América Latina, España y todo el Mundo: ¡Feliz Año 2016!

  • [PODCAST] Javier Lahoz nos habla de su nuevo curso: Introducción a SPARK

    Javier Lahoz es responsable de Big Data en Orange España. En este podcast nos cuenta algunos detalles interesantes de esta gran herramienta de la que todos hablan: Spark. En su nuevo curso online en la plataforma SoyData.net Javier hace una introducción de este framework 100% práctica y con datos de ejemplo. Como puntos a destacar: -Spark ofrece nuevas posibilidades para el procesamiento entre otros factores, por su ejecución en memoria, lo que hace que la latencia sea mucho menor a frameworks como MapReduce. -Es mayor la complejidad con respecto a otras herramientas, por lo que es recomendable llevar a cabo una capacitación para aprovechar todo el potencial de Spark -En el curso, 100% online y con el soporte que vayas a necesitar, se revisan junto con Spark herramientas de gran utilidad como Vagrant y Zeppelin, ambas son muy referenciadas últimamente para virtualizar y hacer discovery, respectivamente. ¿Interesado en, como este experto dice, entrar por la puerta grande en el sector Data Science? Escuchando este podcast vas a tenerlo aún más fácil: a lo largo del audio te desvelamos un cupón descuento del 50% sobre el importe total del curso (sólo para los 10 primeros que lo canjeéis) #SoyData!

  • Synergic Partners se integra en el Grupo Telefónica

    Nota de Prensa Telefónica refuerza sus capacidades de Big Data con la integración de Synergic Partners Synergic Partners es una consultora española especializada en analítica avanzada de datos y pionera en el desarrollo de soluciones estratégicas de Big Data internacionalmente La compañía seguirá operando de forma independiente y aportará a Telefónica un alto valor en el desarrollo de diferentes proyectos de Big Data Madrid, 12 de noviembre de 2015.- Telefónica ha anunciado hoy la integración de Synergic Partners al Grupo, apostando firmemente por un proyecto conjunto en el campo del análisis avanzado de datos. Synergic Partners es una compañía española especializada en Big Data, Data Science y Data Engineering, reconocida mundialmente como una de las primeras 20 empresas del sector*. La compañía, con oficinas en Madrid y Barcelona, seguirá operando de forma independiente su cartera de clientes y gestionada por sus socios fundadores. Desde el área global de BI&BD (Business Intelligence & Big Data) de Telefónica, Synergic Partners se convertirá en un elemento clave para la aceleración de proyectos conjuntos tanto en España como en el resto de Europa y América Latina que permitan a las empresas potenciar el valor estratégico de sus datos. Creada en 2007 por Carme Artigas y Jaume Agut, Synergic Partners cuenta con un amplio conocimiento y reconocida experiencia en las áreas de gestión, gobierno y analítica de datos, ayudando a las empresas en áreas tan estratégicas como transformación digital; mejora del conocimiento del cliente; gobernanza financiera; control y prevención de riesgos y cumplimiento normativo. Desde su fundación la firma ha desarrollado soluciones específicas para las corporaciones españolas más importantes. "Esta unión significa un gran salto en nuestra estrategia de consolidación, crecimiento y expansión internacional", señalan Carme Artigas y Jaume Agut, socios fundadores de Synergic Partners. “La experiencia y conocimiento acumulada en estos años, junto a las capacidades que nos ofrece formar parte del grupo Telefónica, constituyen una sólida base para centrarnos en el objetivo de convertir a Synergic Partners en la compañía española líder en Big Data a nivel internacional", afirman. “El análisis avanzado y la extracción de valor de Big Data es una de las prioridades de Telefónica. La integración de Synergic Partners nos permitirá incrementar nuestra capacidad analítica para anticiparnos a las necesidades de nuestros clientes y ofrecerles de forma mucho más rápida y personalizada los servicios que nos están demandando y, al mismo tiempo, capturar importantes oportunidades de negocio a nivel externo en este segmento”, ha señalado Eduardo Navarro, Director General Comercial Digital de Telefónica. (*) CIOstory “Big Data Special 2014” --------------------------------------------------------------------------------------------------------------------------------------- Acerca de Telefónica Telefónica es una de las mayores compañías de telecomunicaciones del mundo por capitalización bursátil y número de clientes. Apoyándose en las mejores redes fijas, móviles y de banda ancha, así como en una oferta innovadora de servicios digitales, la Compañía se está transformando en una ‘Telco Digital’, lo que le posiciona muy favorablemente para satisfacer las necesidades de sus clientes y capturar el crecimiento en nuevos ingresos. Presente en 21 países y con una base de clientes de más de 327 millones de accesos, Telefónica tiene una fuerte presencia en España, Europa y Latinoamérica, donde concentra la mayor parte de su estrategia de crecimiento. Telefónica es una empresa totalmente privada que cuenta con más de 1,5 millones de accionistas directos. Su capital social está dividido en la actualidad en 4.864.341.251 acciones ordinarias que cotizan en el mercado continuo de las bolsas españolas y en las bolsas de Londres, Nueva York, Lima y Buenos Aires. Acerca de Synergic Partners   Synergic Partners cuenta con más de 70 profesionales altamente especializados en el análisis avanzado de datos y es la primera consultora de España en el desarrollo de servicios y soluciones reales basadas en Big Data y reconocida internacionalmente como una de las 20 compañías líderes en el sector. En su apuesta por la formación y el fomento del sector de Big Data, Synergic Partners es la única empresa europea asociada a Columbia University y que colabora directamente con el  Data Science Institute, primer instituto a nivel mundial dedicado a la preparación de profesionales de Big Data, donde Synergic Partners aporta conocimiento práctico del mercado al más alto nivel. Además, Synergic Partners participa de forma proactiva en proyectos para organismos como la Comisión Europea o la CEOE, impulsando el crecimiento en el sector y patrocinando eventos en diversos países dedicados exclusivamente a profundizar en la disciplina como el Big Data Week que tendrá lugar próximamente en España.

  • Structure 2015. Gana una entrada gratis

    ¡¡PARTICIPA Y GANA!! UNA ENTRADA A STRUCTURE 2015 En Big data 4Success y SoyData estamos de celebración, ya que somos unos de los patrocinadores del evento cloud más importante del momento, Structure, que se celebrará entre los días 18 y 19 de noviembre en San Francisco, Estados Unidos. Contará con las ponencias de figuras como: Diane Bryant de Intel, Urs Holzle de Google, Jay Parikh de Facebook, etc… Sin duda un evento que hará historia y en el que se tratarán los paradigmas de la nube en la actualidad. Queremos compartir nuestra alegría con vosotros, nuestros clientes y seguidores, y nada mejor que sortear una entrada a Structure *. *Condiciones del sorteo: El sorteo se realizará entre aquellos que sean seguidores de nuestras redes sociales, Facebook y Twitter y compartan o retwitteen las notas iremos publicando que tratarán sobre structure y el sorteo. La comunicación del ganador se hará el día 17 de noviembre a través de nuestras redes sociales. Entre aquellos que no sean agraciados tenemos disponible un 25% de descuento para la adquisición de su entrada aquí https://structureevent2015.eventbrite.com/?discount=SOYDATA  

  • SPARQL, un nuevo Rey de la Ciencia de Datos

    Data Science Central Según Yuanze Yang el lenguaje de consulta de grafos estandarizado conocido como SPARQL es el nuevo Rey de las aplicaciones para Data Science porque "derriba las barreras existentes entre los datos de distintos datasets y distintas bases de datos". Suena bien! Reproduzco aquí las demás razones expuestas en un artículo de Andreas Blumauer en Data Science Central por las que SPARQL es el nuevo rey (en inglés) SPARQL is the new King of all Data Scientist’s tools because … SPARQL is close to how human beings actually think about the world. With SPARQL you can query knowledge graphs. SPARQL is based on knowledge models that can combine mindsets of subject-matter experts, data engineers and information architects. SPARQL is to the Semantic Web and the Web in general what SQL is to relational databases. SPARQL is a W3C recommendation and is supported by many different database vendors, so it doesn’t cause lock-in effects as we’ve become used to with various types of SQL engines (which are not standardized at all). With SPARQL you benefit from the potential to make a collection of data sources look and query like one big database. SPARQL provides pattern based search functionality. With such search capabilities you can find out unknown linkages or non-obvious patterns that give you new insights into your data. Not only is SPARQL a standardized query language, also the access via web interfaces is standardized (this is called a SPARQL endpoint). This makes the integration of different data sources a lot easier. SPARQL is also a standardized update and graph traversal language. SPARQL is a standardized protocol producing standardized results, thus making it a complete API alleviating developers from the necessity to reinvent an API with every single application. With SPARQL you can query over structured and unstructured information as a whole. SPARQL allows you to explore data. In contrast to traditional ways to query databases where knowledge about the database schema/content is necessary SPARQL allows you to ask “tell me what is there”. SPARQL property paths offer completely new ways to explore a data set, e.g. by detecting ‘hidden links’ between business objects. With SPARQL you can define inference rules to gain new information from existing facts. LEER MÁS  

  • La edad de Oro del Machine Learning (Parte II)

    Kdnuggets Si después de las vueltas que le dimos al tema aún te quedan ganas de aprender y convertirte en un experto en Machine Learning (deberías!), ahí van unos cuantos consejos. Estos puntos han sido extraídos de un artículo en Kdnuggets de Kader Muhideen V, Lead Technical Architect en Tata Consultancy Services, el cual os invito a todos que lo vistiéis en el enlace que aparece al final. -Feature engineering, lo que podríamos traducir como hacer una correcta selección de atributos (los 'features' o variables que nombramos en un dataset para hacer funcionar un modelo) -'Model tuning'. Podemos mejorar la precisión de algoritmos que ya vienen incluidos en libraries de R o Python por ejemplo, si ajustamos sus parámetros correctamente. Esto debe hacerse entendiendo muy bien el funcionamiento de los modelos. -Evitar el sobreajuste (overfitting). No debemos buscar una precisión enorme en base a un entrenamiento muy ajustado de nuestro modelo sobre un dataset, ya que la misma precisión y los resultados del mismo modelo cuando lo apliquemos sobre otro conjunto de datos diferente puede caer en picado. -Meter mano en varias técnicas ML, no quedarse sólo con una y aplicarla en todos los casos. -Técnicas de ensamblado de modelos. Según el autor, esto le ha llevado a ganar varias competiciones en kaggle -Utilizar plataformas que implementen ML como R, Java o las librerías de Spark sobre ML -Visualizar tanto los datos como los modelos que sacamos a partir de ellos -Trabajar sobre proyectos del mundo real, para así ir ganando experiencia. LEER MÁS

  • La edad de Oro del Machine Learning (Parte I)

    Todo el mundo habla del aprendizaje automático, o Machine Learning en inglés. Sin duda esta época es en la que más fuerza ha cogido este término, que es anterior al Big Data. No en vano, y que no se asuste nadie, en el último Hype Cycle de Gartner (2015), el Big Data queda fuera, y Machine Learning está dentro (Oh My God! ;-)) Ahí lo tenéis, en toda la cresta de la ola. Le rodean la IoT, los wearables, los bitcoins... Como indicabamos anteriormente, el aprendizaje automático no es exactamente una tecnología emergente, en el sentido de que sea 'nueva'. Hace ya diez años en un master de la Universidad de Alcalá recuerdo que nos explicaban las técnicas para clasificar imágenes de satélite utilizando entrenamiento supervisado o no supervisado. De tal forma que a un sistema le 'enseñábamos' a distinguir por su cuenta si unos píxeles de las imágenes son suelo urbano o un bosque caducifolio, por poner un ejemplo. Spark y Hadoop sin embargo no existían entonces. Si que hemos de reconocer lo obvio: hay un revival del Machine Learning. Motivado por las increíbles aplicaciones que de este paradigma se están llevando a cabo sobre todo en el ámbito de identificar comportamientos del cliente. Así pues, si me permitís la analogía, del suelo urbano o el bosque que era identificado en los píxeles de la imagen satelital pasamos a un cliente satisfecho y dispuesto a comprar o uno que no está interesado en los productos de nuestra empresa. Todo ello extraído no de una simple imagen de satélite, ni de una foto aérea, sino de un data lake formado entre otras cosas por los datos que los usuarios van dejando en redes sociales, transacciones efectuadas, transporte, datos meteorológicos, IoT, y un largo etcétera. ¿La técnica? groso modo, viene siendo la misma. Nota: En el pico de las expectativas de la gráfica se lee 'Advanced Analytics with Self-Service Delivery'...y eso no es Big Data as a Service?? Gartner, Gartner...

  • Encuesta: la adopción de Hadoop aumenta

    DataInformed Algunos quieren jubilar ya al elefante amarillo. Éste, como si de un Benjamin Button se tratara parece que va rejuveneciendo conforme pasa el tiempo. Según la que es hasta el momento la mayor 'encuesta de madurez' realizada en torno a Hadoop, el 24% de las empresas consultadas indicó que su organización ha alcanzado la madurez en el manejo de esta herramienta. Un total de 2.100 fueron los encuestados totales; no está mal, pero las encuestas sobre big data aún no son un Big Data, qué paradoja... Este estudio ha sido desarrollada por AtScale en colaboración con Cloudera, Tableau y MapR. Lo que está claro desde mi punto de vista es que, no tener en cuenta la curva de aprendizaje que cada tecnología supone para una organización es un error y nos conduce a 'modas' un tanto irreales, pero qué se le va a hacer. Actualmente el ritmo de aparición de nuevas herramientas es bastante mayor que el que permite la adopción y amortización de las mismas; con lo que al final se habla mucho de ciertas soluciones, pero muy pocos las están aprovechando. Poco a poco Benjamin! LEER MÁS

1 2 22