Quand Barry Libenson a pris la direction d’Experian en 2015, l’entreprise utilisait encore des systèmes mainframe pour traiter les requêtes. Mais, les données à gérer augmentaient à un rythme exponentiel. À l’époque, les ingénieurs devaient absorber et traiter au fur et à mesure les fichiers de données, puis homogénéiser et nettoyer les informations avant de les transmettre à l'entreprise cliente. Pour répondre aux nouvelles exigences de gestion des données, ils ont ajouté plus de processeurs. Cependant, à l’époque, sur Amazon.com, les clients pouvaient commander en quelques clics de souris des chaussures ou de la puissance de calcul. Barry Libenson savait qu'Experian avait besoin d'une stratégie de gestion des données plus fluide capable de fournir une analyse des données en temps réel.
Comme d’autres entreprises, Experian testait de nouveaux outils de traitement des données. L’entreprise s’amusait avec des variantes de Hadoop comme Cloudera, Hortonworks et MapR dans des sandbox sur site ou sur Amazon Web Service (AWS). Mais le CEO savait que si Experian voulait extraire des données pertinentes de ses sources et délivrer de nouveaux produits à ses millions de clients, l’entreprise avait besoin d’une plateforme qui lui permettrait de standardiser son process. Après quelques tests, Barry Libenson a opté pour Cloudera. Le système multitenant fonctionne sur site dans le cloud hybride d'Experian. Le CEO précise cependant que l’entreprise peut, si nécessaire, augmenter sa capacité de calcul en utilisant AWS. Une institution de crédit colombienne est l’un des premiers clients à profiter du data fabric Hadoop d'Experian. Grâce aux capacités de traitement en temps réel d'Hadoop, Experian a pu traiter 1000 états financiers en moins de six heures contre six mois précédemment avec son système mainframe qui n’a pas la capacité de normaliser et nettoyer les données de plus d’un seul état à la fois. « Les clients savent qu’ils vont disposer de données en temps quasi réel et qu’ils ne risquent pas de recevoir des données périmées », a encore déclaré le CEO.
Avec de tels résultats, on peut se demander pourquoi plus d'entreprises n’ont pas encore opté pour Hadoop. La plateforme détient une part modeste, mais croissante du marché du Big data et des technologies d'analyse d'entreprise. Selon IDC, ce marché génèrera 187 milliards de dollars en 2019. Dans la pratique, le logiciel peut être compliqué à mettre en œuvre, notamment parce qu’il est difficile de trouver des ingénieurs connaissant bien la technologie. Le traitement parallèle et le traitement des informations non structurées répondent à une autre logique en termes de manipulation des données et demandent des compétences particulières. « La manière d'écrire et de penser les applications est totalement différente. Il faut réfléchir en termes de nœuds et savoir qu’une défaillance est possible au niveau de chaque nœud », explique Barry Libenson. « La plupart des développeurs de logiciels qui travaillent le code SQL ne pensent pas ainsi ». Selon le CEO d’Experian, « il est difficile de trouver des gens qui savent travailler dans cette architecture ». Contrairement aux ingénieurs de bases de données chevronnés imprégnés du monde SQL, les personnes fraichement diplômées, les statisticiens et les spécialistes des données ont été formés à Hadoop. Mais, étant donné la guerre acharnée qu’il faut livrer pour recruter ces talents, celui-ci fait souvent travailler ensemble de jeunes diplômés et des spécialistes des données avec des ingénieurs SQL pour obtenir de meilleurs résultats de Hadoop.
Suite à la migration d'Experian vers Hadoop, les ingénieurs de la société peuvent supprimer les goulets d'étranglement qui apparaissent pendant la préparation des données et enrichir en information les produits de l’entreprise. Les banques, les entreprises de services financiers et d'autres entreprises peuvent également accéder aux comptes rendus et à d’autres produits via la nouvelle plate-forme API et l'architecture microservices d'Experian, découplée et moins dépendante de la fonction applicative. Par exemple, une entreprise de services financiers qui souhaite connaître la solvabilité d'un client ou vérifier l'historique des paiements sur une carte de crédit peut faire un appel d’API via Experian pour récupérer les données au lieu de télécharger et de passer par des applications pour accéder à la totalité des informations. « Aujourd’hui, la demande de microservices pour accéder à l'information est beaucoup plus forte que la demande d’applications traditionnelles sur site », a déclaré M. Libenson. « Toutes les institutions financières sont en train de passer à un modèle de microservices, et le système d'API convient très bien à la manière dont ils veulent consommer les informations ».
Le passage d'Experian à des architectures plus modernes et modulaires - Hadoop, microservices et API - a également nécessité une refonte du développement logiciel. Les projets sont rigoureusement documentés et élaborés en plusieurs étapes pendant des mois, et les fonctionnalités sont ajoutées progressivement. Barry Libenson affirme que son département informatique a adopté des méthodologies agiles et DevOps pour construire des produits suffisamment viables, les tester et les affiner selon les besoins. Le passage à un modèle de cloud hybride, à une architecture de microservices et à une plate-forme API représente « un grand changement ». « Cette évolution va permettre à Experian de réduire les erreurs, de faire baisser les coûts et d’accélérer l'innovation », a déclaré M. Libenson.Hortonworks a annoncé hier la disponibilité générale de Hortonworks Data Cloud for AWS, un service cloud spécialement optimisé pour les charges de travail ponctuelles sur AWS. Il s'intègre aux services AWS, dont Amazon S3, RDS et EC2.
ela fait des années que les clients d'Amazon ont la possibilité de déployer Hortonworks Data Platform (HDP) sur AWS, mais le nouveau service d’analyse et de traitement de données est capable de mettre en route ou d’interrompre rapidement des charges de travail ponctuelles. Comme les données résident dans Amazon S3, elles y restent toujours quand un cluster est fermé. « L’utilisation de HDP sur une infrastructure cloud as-a-service est idéale pour mieux gérer les clusters avec lesquels la plupart des gens travaillent depuis un certain temps », a expliqué Shaun Connolly, directeur de la stratégie chez Hortonworks. « Mais Hortonworks Data Cloud apporte des options de configuration différentes. Le service permet des expériences spécifiques, plus orientées vers la science et l'exploration des données, les processus ETL (Extraction, Transformation et Chargement) et la préparation des données, l'analyse et le reporting. Autant de pratiques qui peuvent tirer profit d’un savoir-faire normatif, préconfiguré, dans une solution prête à l’emploi ».
Shaun Connolly affirme que ce service cloud, qui tourne avec les solutions open source Apache Hadoop, Spark et Hive, offre des capacités de niveau entreprise, mais qu’elles font bénéficier au client des options de facturation horaire et annuelle particulières dans AWS Marketplace. Selon lui, les avantages du nouveau service sont les suivants :
- Expérience normative configurée et préréglée pour les usages les plus répandus, permettant aux data scientists, développeurs et utilisateurs finaux d'être plus productifs ;« Nous proposons des applications modernes dans une architecture de données connectée afin d’offrir aux clients une expérience cohérente des données à travers le cloud et le datacenter », a encore expliqué Shaun Connolly. « Hortonworks Data Cloud for AWS est un service cloud à la demande qui fournit une expérience normative pour un usage courant de Hadoop, Spark et Hive. L’offre bénéficie du support de la communauté et permet une facturation flexible - horaire et annuelle – avec des comptes AWS Marketplace existants ».
Hier dans un communiqué, Barry Russell, le directeur général d’Amazon Web Services, Global Business Development, AWS Marketplace and Catalog Services a déclaré que « Hortonworks Data Cloud for AWS était une plate-forme Apache Hadoop open source de niveau entreprise qui permettait aux entreprises de créer des lacs de données sécurisés et de fournir les analyses qui leur permettront d’innover rapidement et en temps réel ». Il a ajouté : « Nos clients veulent des logiciels faciles à utiliser ce qui est le cas de Hortonworks Data Cloud for AWS. Le service est immédiatement disponible, et ils peuvent le déployer immédiatement sur le Marketplace ». Il a également estimé que « ce nouveau partenariat démontrait une volonté commune de livrer des applications client en temps réel et de fournir des analyses robustes qui accélèrent la prise de décision et l’innovation ».
Hortonworks Data Cloud for AWS est en partie construit sur la technologie CloudBreak de SequenceIQ, acquise par Hortonworks en 2015. Shaun Connolly a précisé que, même si CloudBreak avait été entièrement construit sur un modèle de conteneur, et même si Data Cloud contenait quelques conteneurs, le service n’était pas basé sur les conteneurs parce que certains éléments de la technologie ne sont pas assez solides pour les charges de travail en production. « Ils doivent avoir à la fois plus de fonctionnalités, mais être également plus sûrs et plus résistants sur le plan opérationnel », a expliqué M. Connolly. « Cela sera le cas, je pense, en 2017 ». Cette perspective laisse envisager d’autres évolutions. « C'est assez passionnant », a déclaré Shaun Conelly. « Nous voyons se dessiner un monde d'assemblages, avec des applications de données modernes construites à partir d'assemblages, plus précisément un ensemble de conteneurs reliés entre eux dédiés à des usages spécifiques. Il reste encore beaucoup à faire. Notre offre de service cloud qui permet d’effectuer très simplement les tâches les plus courantes, en est la première étape ».
La Société Anonyme d'Economie Mixte d'Exploitation du Stationnement de la Ville de Paris (Saemes) gère 90 parkings avec 23 000 places de stationnement et offre ainsi ses services à plus de trois millions de clients chaque année. Engagé dans la politique officielle pour un usage raisonné des véhicules à moteur, la Saemes a décidé d'ouvrir ses données sur la localisation des parkings, les places disponibles en temps réel, les localisations de consignes à casques de moto, les horaires d'ouverture des parkings, les données d'accessibilité handicapés, etc.Pour cela, la Saemes a construit un portail avec les technologies d'OpenDataSoft construit depuis mars 2016. Pour l'instant, les places disponibles en temps réel (rafraîchissement toutes les deux minutes) ne sont disponibles que dans 5 parkings mais la société s'engage à ce que cette information concerne bientôt 27 parkings. La Saemes a ouvert son portail pour permettre aux prestataires de services tiers de créer des services autour de celles-ci.Le big data est un sujet toujours d'actualité. Un peu plus d'un an après une première édition, Dunod publie une deuxième édition de Big Data et Machine Learning - Les concepts et les outils de la data science. L'ouvrage reste complet sur le sujet abordant notamment en détail les outils et le métier de data scientist.
Alors, quoi de neuf pour justifier cette mise à jour ? Selon les chapitres, quelques pages sont ajoutées ici ou là, parfois quelques unes sont au contraire synthétisées. Mais, globalement, l'ouvrage change peu. Parmi les évolutions notables, il faut cependant mentionner une augmentation significative de la partie consacrée au Machine Learning avec des chapitres étudiant le deep learning, les réseaux de neurones, les systèmes de recommandation...L'évolution rapide des sujets relatifs au big data justifie sans doute une mise à jour aussi peu de temps après la première version. Les propriétaires de la première édition hésiteront sans doute à racheter cette nouvelle version. Par contre, il n'en demeure pas moins un ouvrage intéressant et complet à recommander à ceux qui ne posséderait pas la première édition.Samsung, Intel, Dell, Broadcom, Atmel et Wind River Systems fondent un Consortium pour définir des standards de connectivité liés à l'Internet des Objets. Une première spécification est attendue avant la fin de l'année.
Plusieurs constructeurs ont décidé de créer un consortium nommé Open Interconnect Consortium (OIC) autour de l'Internet des Objets afin de définir les normes qui permettront aux milliards d'objets connectés de communiquer entre eux. Intel, Samsung et Dell se trouvent parmi les membres fondateurs. L'OIC livrera sa première spécification plus tard cette année. Les nombreuses normes à venir permettront aux terminaux de se connecter facilement entre eux, quel que soit leur système d'exploitation, le type de terminal ou la technologie de communication sans fil qu'ils utilisent.