nike sb shoes jewellery uk mont blanc pens uk burberry trainers adidas zx flux uk asics trainers nike roshe uk new balance trainers nike huarache uk nike uk adidas gazelle uk new era uk lacoste trainers cheap oakleys uk Nike presto uk converse uk polo ralph lauren uk fila trainers

Blog

Comment créer une Data-Driven Organisation ?

Cet article est une traduction de l'article "How do you create a data-driven organization?" (http://www.p-value.info/2013/04/how-do-you-create-data-driven.html) rédigé le 10 avril 2013 par Carl Anderson, Directeur Data Science chez WarbyParker.com et publié sur son blog.


Une chose à laquelle j'ai beaucoup réfléchi récemment est de savoir comment construire une organisation pilotée par les données ?
Beaucoup d'entreprises prétendent en faire, mais quand il s'agit de prendre des décisions, ils finissent par adopter celles de leurs dirigeants seniors (décision basée sur l'avis de la personne la mieux payée (by HiPPO : Highest Paid Person's Opinion)) ou, pire encore, par prendre des décision basées sur l'intuition, l'expérience ou la subjectivité. Que faut-il pour créer une entreprise qui prend des décisions fondées sur des preuves et implique une large population d'employés dévolus à la saisie de données, à l'analyse et à la conception de métriques ?
 
J'ai récemment relevé ce défi. Il y a quelques semaines, j'ai changé d'entreprise et suis passé de la côte Ouest à la côte Est des États-Unis pour aller diriger l'équipe de data-analyse de la société Warby Parker à New York. C'est une entreprise qui a connu un grand succès et a grandi très rapidement. Si vite, en fait, qu'elle a eu peu de temps et a accumulé peu d'expérience pour mettre en place une infrastructure de données centralisée,  normalisée et évolutive avec des outils professionnels de business intelligence. Les analystes travaillent dans les limites imposées par Excel et ont de grandes difficultés à relier ensemble les différentes sources de données à travers l'entreprise. L'entreprise a, cependant, un fort désir de changement et est prête à fournir les ressources et le soutien nécessaire pour mettre en place de nouveaux systèmes de recueil, d'analyse et de communication de données et promouvoir la culture appropriée qui permettra de hisser l'entreprise au niveau supérieur.
 
Je voulais relater dans cet article les idées auxquelles j'ai réfléchi et comment j'ai commencé à les mettre œuvre. C'est un travail qui est toujours en cours et je ne peux pas garantir que celui-si soit la bonne approche ou que tout va se passer exactement comme prévu. Ainsi, je serais ravi d'apprendre comment les autres s'en sont tirés et de lire vos commentaires et suggestions.
 
COMPRENDRE L'ENTREPRISE ET LES CLIENTS INTERNES
 
Écoutez les gens. Discutez avec les différents chefs de départements, les analystes et les autres parties prenantes dans les données et écouter ce qu'ils font, comment ils le font, connaître les données avec lesquelles ils travaillent et savoir ce qu'ils aimeraient en faire. Demandez-leur comment l'équipe des data-analystes peut les aider. Identifier les tâches qui sont très manuelles, répétitives et qui pourraient facilement être automatisées. Identifier les différentes sources de données, les points de faiblesse et les souhaits d'amélioration. Poser des questions sur ce qu'ils aimeraient mais ne peuvent pas faire est aussi important que de demander ce qu'ils font actuellement.
 
Identifiez les succès faciles et instaurer la confiance. Alors que la règle est de toujours fixer des objectifs bas afin de pouvoir les atteindre et les surpasser, il est toujours bon d'identifier les succès faciles qui offrent certains avantages immédiats, sont une preuve de bonne volonté et instaurent la confiance. Nous avons pu identifier et mettre en œuvre un outil JavaScript / HTML simple qui permettra d'économiser au moins 100 heures par an à une de nos équipes. Bien que ce n'était pas vraiment un projet orienté données, le temps pour le réaliser était seulement de 3 heures pour nous; Cette équipe apprécie maintenant notre équipe de data-analyse et sera probablement plus favorable pour interrompre leur travail afin que nous puissions mettre en œuvre les prochains changements. 
 
FORMATION ET COMPÉTENCES
 
Identifiez les employés ayant les compétences mais pas les outils. Un membre de notre personnel connait bien SQL mais il n'a pas accès aux bases de données dans sa position actuelle. Il est ainsi obligé de travailler avec des feuilles de calcul Excel. Essayez de procurer à ces personnes les outils dont ils savent déjà bien se servir et ils les utiliseront. Il faut savoir garder un certain niveau niveau de contrôle ici — vous ne voulez pas trop d'outil / pas de prolifération ni de fragmentation des langages — mais si ceux-ci sont à même de devenir les personnes qui formeront le noyau de votre équipe, donner leur rapidement ces outils.
 
Identifiez les personnes qui désirent apprendre. Identifiez les personnes qui sont avides de nouveaux outils et d'apprendre de nouvelles compétences. Il peut s'agir de membres du personnel qui font déjà des statistiques ou prennent des cours de sciences des données en dehors de leur temps de travail. Guidez les, procurez-leur les outils dont ils feront bon usage. Envoyez-les en formation. Ces personnes, en plus d'être plus productives et plus heureuses, deviendront vos premiers défenseurs. Ils seront prêts à conseiller les autres et à partager leur expérience et leurs compétences.

Formez et conseillez. De manière générale, si tous vos analystes utilisent Excel, formez les à utiliser également SQL, R, python ou d'autres compétences pour les amener au niveau suivant, certaines compétences leur permettront de produire des analyses automatisées plus détaillées, et plus pertinentes. Commencez avec un petit groupe de personnes motivées, et laissez-les devenir un bon exemple pour les autres. Les statistiques ne sont pas seulement un ensemble d'outils d'analyse mais elles fournissent également un cadre de pensée critique basée, dans le cas qui nous intéresse, sur des preuves. Chez Warby Parker, nous envisageons d'envoyer cette année une assez grande partie du personnel en formation de statistiques. Avec de nombreux cours gratuits en ligne disponibles aujourd'hui, cela représente un coût relativement faible pour la société, en dehors du temps passé par les employés pour se former, mais nous espérons que le fait d'avoir une grande partie de la société qui pense de manière plus critique, plus numérique et plus objective, cela aura un effet profond sur la culture d'entreprise et la prise de décision.
 
Choisissez soigneusement les bons outils. En clair, si vous introduisez un nouvel outil pour une équipe ou une organisation, assurez-vous que ce soit le bon. Il doit exécuter les tâches dont vous avez besoin, idéalement avec une interface simple à utiliser, mais aussi avec des fonctionnalités utilisatrices puissantes. Il doit être bien documenté, bien soutenu, et dans un monde idéal, être open source.
 
INFRASTRUCTURE DE DONNÉES
 
Il va sans dire que vous avez besoin d'une infrastructure de données robuste et évolutive.
 
Centralisez les données lorsque cela est possible. Cela dépend beaucoup de la taille de l'entreprise mais essayez de créer une infrastructure de données qui rassemble les différentes sources de données lorsque cela est possible afin d'obtenir une vision globale de vos clients et des entreprises. Par exemple, faites en sorte de lier simplement la stratégie publicitaire au flux de clicks, aux ventes, au social, etc. Une solution particulière ne peut évoluer indéfiniment alors que l'entreprise et les données se développent. Par exemple, vous pouvez à terme avoir besoin de passer d'une unique base MySQL à une solution basée sur Hadoop mais les problèmes d'échelle sont toujours de bons problèmes à se poser.
 
Créez un entrepôt de données ouvert. Créez un entrepôt de données avec un accès large et dont les tables sont faciles à utiliser. Par exemple, il peut y avoir certains concepts clés  fréquemment utilisés pour l'analyse qui nécessitent des jointures très complexes entre plusieurs tables. Dénormalisez ces tables pour faciliter l'interrogation (ainsi que d'autres astuces maison bénéfiques). Il y aura quelques données sensibles transactions par cartes de crédit, données médicales, de santé et d'assurance maladie, etc - mais adoptez la transparence autant que possible.
 
Automatiser autant que possible. Si je pense avoir besoin de faire une tâche deux fois ou plus, je vais essayer si possible d'automatiser. Chaque fois que vous pensez que quelque chose est exceptionnel, cela ne l'est presque certainement pas. En automatisant les processus, vous libérez du temps aux futurs analystes pour se concentrer, comme vous le savez, sur l'analyse.
 
Concentrez-vous sur le retour sur investissement (ROI) de l'équipe. Comme tout le monde, une équipe de data-analystes a un temps et des ressources limitées. Concentrez-vous sur le retour sur investissement. La mise en œuvre de deux «assez bonnes» solutions pour résoudre les problèmes en une semaine peut être plus rentable qu'une solution «presque parfaite» pour résoudre un problème. Méfiez-vous des rendements décroissants.
 
Aspirez les données maintenant. Certaines données sont potentiellement précieuses et utiles, mais sont éphémères. Par exemple, des photos Instagram ne sont disponibles que pour une semaine ou deux avant qu'elles ne disparaissent à jamais. Aspirez les maintenant car vous ne saurez jamais quand, ou pour quoi vous pourriez en avoir besoin dans le futur.
 
MÉTRIQUES ET TABLEAUX DE BORD
 
Les objectifs des précédentes stratégies sont de recueillir les données et de les rendre accessibles. Maintenant vient la partie amusante : l'analyse et le reporting.
 
Concevez les métriques avec soin. Elles ne devraient pas être biaisées, déterministes et devraient être le reflet de vraies variables mesurables. Elles devaient être facilement interprétables. Elles devraient refléter l'entreprise. Concevez ou identifiez des métriques qui font avancer la société. Réfléchissez attentivement aux unités. Si vous finissez par comparer des pommes et des oranges, existe-il une monnaie commune, comme le dollar, dans laquelle elles peuvent être converties ? Par exemple, si vous améliorez les opérations et que vous pouvez expédier le produit au client en étant plus rapide d'un jour, est-ce que ça en vaut la peine? Pouvez-vous attribuer un coût en dollar par client / par jour / par commande ?
 
Supprimez les redondances. Les tableaux de bord doivent être riches d'information. Comme la construction d'un modèle statistique, si vous avez deux métriques très fortement corrélées, vous pouvez considérez qu'il y en a une de redondante et vous ferriez mieux de la retirer et d'augmenter la densité d'information des autres métriques.
 
Adaptez-vous à votre auditoire. Dans certains cas, il peut être judicieux d'avoir plusieurs rapports avec différents niveaux de détails pour différents publics. Par exemple, un manager peut avoir besoin d'un rapport très détaillé sur leur équipe et leurs responsabilités, un rapport de niveau supérieur pour son équipe et une vue de 50 000 mètres pour les hauts dirigeants, si vous choisissez les bons paramètres, les rapports seront toujours utiles et pertinents.
 
Impressionnez les hauts dirigeants. Pour mener une culture basée sur les données, impressionner les hauts dirigeants avec des tableaux de bord et des rapports qui offrent une valeur énorme (et ne sont pas seulement beaux) produira presque certainement un effet d'entraînement. Ils attendront ces rapports et fourniront les ressources pour banaliser leur création. Créez des tableaux de bord si pertinents que les dirigeants les regarderont avec l’œil d'un faucon.
 
Déterminer les critères qui correspondent aux valeurs fondamentales de l'organisation. L'une des valeurs fondamentales de Warby Parker est de fournir à la clientèle un service d'une extrême qualité. Il y a ainsi des métriques qui se rapportent à cela, la satisfaction client en étant une. Ces métriques devraient être très visibles à travers l'organisation : au niveau principal des tableaux de bord, sur les écrans, sur les rapports qui sont émis à l'extérieur.
 
Inversement, éliminez les métriques gênantes. Une des premières actions de Marisa Mayer quand elle a repris Yahoo! était d'enlever le cours de l'action de leur page d'accueil interne. C'est son travail de s'inquiéter de cela, mais le reste de l'organisation a mis l'accent sur les actions à mener pour essayer de faire grimper le cours de l'action (en vain) et ils avaient presque oublié les valeurs que Yahoo! devait et devrait porter à leur utilisateurs.
 
Si possible, reliez les indicateurs clés aux autres métriques qui les animent. Par exemple, supposons que la principale cause d'insatisfaction soit lié au retard d'expédition, alors valoriser cette métrique au plus haut niveau du tableau de bord.
 
Laissez parler les données. Dans certains cas, une approche utilisant un apprentissage  automatique ou un apprentissage non supervisé peut apporter des informations surprenantes. Par exemple, beaucoup d'entreprises catégorisent leurs clients en utilisant une série de critères a priori subjectifs. Exécuter une classification non supervisée peut renforcer ces choix de catégorisation, mais il peut aussi donner un aperçu intéressant sur de nouveaux types de groupes auxquels vous ne vous seriez jamais attendus. Être réceptif à découvrir cela stimule votre intuition ou la compréhension de l'entreprise, du marché et des clients. Soyez objectif : si un test A/B montre une plus grande valeur moyenne, mais que les résultats ne sont statistiquement pas significatifs, acceptez le fait qu'ils ne sont pas significatifs. N'allez pas chercher des résultats significatifs là où il n'y en a pas.
 
Laissez parler les stagiaires. Une organisation basée sur les données devrait laisser parler les données où que cela la mène. Ainsi, il faut accorder à un nouveau stagiaire qui a analysé les données sous un nouvel angle autant de poids et de respect qu'un manage senior. Les données sont les partenaires principaux ici. Donner aux gens une voix, un forum et la possibilité de fournir des preuves en s'appuyant sur les données.
 
Partagez largement les données et les résultats. Une organisation basée sur les données devrait largement partager les données et les rapports. Cela ne veut pas dire qu'ils doivent être diffusés à tout le monde comme du spam mais ceux qui sont intéressés devraient y avoir accès (n'oubliez pas que les idées intéressantes et les points de vue alternatifs peuvent provenir de n'importe où dans l'entreprise). Les patrons et les grands managers devraient être ouverts à toutes questions, à tout autre élément de preuve, et mettre en œuvre les changements sur la base de ces preuves.

Voilà mes premières réflexions. Je ferai plus tard dans l'année, peut être à DataGotham à New York, un communiqué de ce qui a et n'a pas marché.

Un petit tour au zoo de la DataViz

 

Jeffrey Heer, Michael Bostock, et Vadim Ogievetsky de l'université de Stanford ont publié en juin 2010 dans la revue Communications of the ACM, 53(6), pp. 59-67, un article intitulé "A Tour through the Visualization Zoo" qui présente un classement des représentations graphiques utilisées en dataViz.

Cette traduction reprend la partie de l'article décrivant les graphiques les plus novateurs comparés à ceux plus connus utilisés dans les outils classiques d’analyse et de visualisation de données. Se reporter à l'article original pour une lecture exhaustive. Toutes les images sont issues de l'article disponible sur le site de Jeffrey Heer.

Introduction

Suite aux progrès de la détection, des réseaux, et de la gestion des données, notre société produit de l'information numérique à un rythme étonnant. Selon une estimation, nous allons générer pour la  seule année 2010, 1200 exaoctets (1018 octets), soit 60 millions de fois la Bibliothèque du Congrès Américain. Dans ce déluge de données réside une mine d'informations précieuses sur la façon dont nous menons nos entreprises, nos gouvernements, et nos vies personnelles. Pour bien utiliser l'information, nous devons trouver des moyens efficaces pour explorer, représenter, et communiquer les données.

Le but de la visualisation graphique est d’aider à comprendre et à analyser les données complexes en tirant parti de la capacité du système visuel humain à percevoir des modèles, à repérer des tendances, et à identifier des valeurs aberrantes. Des représentations visuelles bien conçues peuvent remplacer des calculs cognitifs avec de simples inférences perceptives et améliorer la compréhension, la mémoire et la prise de décision. En rendant les données plus accessibles et attrayantes, des représentations visuelles peuvent également aider à mobiliser et impliquer des publics plus diversifiés en matière d'exploration et d'analyse. Le défi consiste à créer des visualisations efficaces et graphiquement adaptées aux données à analyser.

Créer une visualisation nécessite un certain nombre de jugements nuancés. Il faut déterminer quelles sont les questions à se poser, identifier les données appropriées, et sélectionnez des codages visuels appropriés pour mapper les valeurs des données à des fonctions graphiques telles que la position, la taille, la forme et la couleur. Le défi est que, pour un ensemble de données disponibles,  le nombre de codages visuels - et donc l'espace des conceptions possibles de visualisation - est extrêmement important. Pour nous guider dans ce processus, les informaticiens, psychologues et statisticiens ont étudié la façon dont différents encodages facilitent la compréhension des types de données telles que les numéros, les catégories, et les réseaux. Par exemple, les expériences de perception graphique ont permis de montrer que la position spatiale (comme dans un nuage de points ou un graphique à barres) est la manière la plus précise pour décoder des données numériques, et est généralement préférable à des variables visuelles telle qu’un angle, une longueur 1D, une région 2D, un volume 3D, et une saturation des couleurs. Ainsi, il ne faut pas s'étonner que les représentations graphiques de données les plus courantes, y compris les diagrammes à barres, les graphiques linéaires et les diagrammes de dispersion, utilisent des codages en position. Cependant, notre compréhension de la perception graphique reste incomplète, et doit être complétée  de manière appropriée avec des considérations d’ordre esthétique et interactive.

L’article décrit une « zoologie » des représentations graphiques de données, zoologie reprise et enrichie par différents chercheurs du domaine, laboratoires spécialisés en ergonomie, design et analyse de données, et dont des exemples de représentations, issus de cette classification.

Les cartes

Bien que les cartes peuvent sembler un moyen naturel de visualiser les données géographiques, elles héritent d’un long historique. De nombreuses cartes sont basées sur une projection cartographique: une fonction mathématique qui fait correspondre à la géométrie 3D de la Terre une image 2D.  D'autres cartes faussent ou rendent volontairement abstraites les caractéristiques géographiques afin d’augmenter l’analyse des données ou mettre en évidence des données spécifiques.

Carte choroplèthe

Les données sont souvent collectées et agrégées par zones géographiques. Une approche standard pour communiquer ces données consiste à utiliser un codage de couleur de la zone géographique, ce qui crée une carte choroplèthe. L’exemple ci-dessous utilise un codage couleur pour communiquer la prévalence de l'obésité dans chaque État des États-Unis.

 

 

Carte symbolique

Une alternative à la carte choroplèthe est la carte symbolique qui met à la place des symboles sur une carte sous-jacente. Cette approche évite la confusion entre zone géographique et valeurs des données, et permet d’augmenter le nombre de dimensions pouvant être visualisées (par exemple, la taille des symboles, la forme et la couleur). En plus des formes simples telles que cercles, la carte symbolique peut utiliser des graphes complexes tels que les camemberts. Dans l’exemple ci-dessous, la taille totale des cercles concentriques représente la population d'un État, et chaque anneau indique la proportion de personnes ayant un indice de masse corporelle spécifique.

 

 

Les cartogrammes

Un cartogramme est une carte dont les régions géographiques sont déformées de sorte que les zones encodent directement les valeurs des données. Un exemple courant est de redessiner tous les pays du monde en les redimensionnant proportionnellement à la population ou le PIB, comme ci-dessous :

Source : Images of the social and economic world de Mark Newman

 

De nombreux types de cartogrammes ont été créés; l’exemple ci-dessous montre un cartogramme Dorling. Chaque région géographique est représentée avec un cercle d’une taille donnée, placée de manière à ressembler à la véritable configuration géographique. Les zones circulaires encodent le nombre total de personnes obèses par état et la couleur encode le pourcentage de la population totale qui est obèse.

 

Les représentations hiérarchiques

Alors que certaines données sont simplement une collection de nombres, la plupart des données peuvent être organisées en hiérarchies naturelles. Par exemple : entités spatiales, telles que les régions, les départements, les états et les pays, les structures de commandement pour les entreprises et les gouvernements ; les paquetages logiciels et les arbres phylogénétiques. Même pour les données sans hiérarchie apparente, des méthodes statistiques (par exemple, k-means) peuvent être appliquée pour organiser les données de façon empirique. Des techniques de visualisation spéciales existent pour les structures hiérarchiques, ce qui permet une analyse d’inférence rapide multi-échelles : micro-observations des différents éléments et macro-observations de grands groupes.

 

Les diagrammes nœuds-liens

Les arbres

Le mot «arbre» ​​est utilisé de manière interchangeable avec "hiérarchie", à l’image des branches d'un chêne fractal qui reflète l'imbrication des données. Si nous considérons une représentation plane à deux dimensions d'un arbre, le diagramme nœuds-liens est souvent le choix le plus utilisé. De nombreux algorithmes de représentation d'arbres ont été conçus ; l'algorithme Reingold-Tilford, utilisée ci-dessous sur une hiérarchie de classes de paquetages de logiciels, produit un résultat clair dans un minimum d’espace.

 

Les dendogrammes

Une représentation alternative est le dendrogramme (ou «cluster»), qui place les nœuds-feuilles de l'arbre au même niveau. Ainsi, dans le diagramme ci-dessous, les classes (les nœuds-feuilles en orange) sont sur ​​le diamètre du cercle, et les paquetages bleus (nœuds internes) à l'intérieur. Utiliser une représentation polaire plutôt que des coordonnées cartésiennes améliore l’esthétique du graphe tout en utilisant l'espace de manière plus efficace. La densité des données représentée est naturellement plus dense suivant l’éloignement du centre du cercle, ce qui est adapté à une structure de données hiérarchiques ou les feuilles sont de plus en plus nombreuses lorsqu’on s’éloigne de la racine.


Les arbres indentés

Il ne faut pas oublier les arbres indentés, utilisés de façon courante par les systèmes d'exploitation pour représenter les répertoires de fichiers, entre autres applications. Bien que les arbres indentés exigent un espace vertical important et ne facilitent pas l’analyse multi-échelles des inférences, ils  permettent une exploration efficace et interactive de l'arbre pour trouver un nœud spécifique. En outre, ils permettent une lecture rapide des étiquettes des nœuds, et les données multivariées telles que la taille des fichiers peut être affichée à côté de la hiérarchie.

 

Les diagrammes de proximité

Les diagrammes de proximité sont une variante des diagrammes nœuds-liens; plutôt que de dessiner un lien entre parent et un enfant dans la hiérarchie, les nœuds sont représentés par des zones solides (ou aussi des arcs ou des barres), et leur emplacement par rapport aux nœuds adjacents révèle leur position dans la hiérarchie.

La représentation « stalactite » ou « icicle »

La représentation en "stalactite" ou « Icicle » ci-dessous est similaire à la première représentation  des graphiques nœuds-liens, en ce que le nœud racine apparaît en haut, avec des nœuds enfants positionnés en dessous. Cependant, les nœuds étant représentés par des espaces de remplissage, on peut utiliser la longueur pour encoder la taille des classes logicielles et des progiciels. Cela introduit  une dimension supplémentaire qu’il serait difficile de visualiser dans un diagramme nœuds-liens.

 

Le diagramme en « rayons de soleil » ou « Sunburst »

La représentation "Sunburst" est équivalente à la représentation "icicle", mais en coordonnées polaires. Les deux sont mises en œuvre en utilisant une représentation en "partitions", qui peut également être utilisée pour générer des diagrammes nœuds-liens.

 

Les diagrammes de cloisonnement ou de compartimentage (« cluster » ou « Treemap »)

Les diagrammes de cloisonnement ou compartimentage, aussi nommés diagrammes « Cluster » ou « Treemap » utilisent également des représentations en espaces de remplissage à l’aide de structures compartimentés et emboitées plutôt que des structures contigües pour représenter la hiérarchie. Présenté par Ben Shneiderman en 1991, un TreeMap subdivise récursivement une zone en rectangles. Comme avec les diagrammes de contiguïté, la taille de n'importe quel nœud de l'arbre est rapidement mise en valeur. L'exemple ci-dessous utilise le contour des zones (en bleu) pour accentuer l’effet de compartimentage ; un codage alternatif utilisant les couleurs est parfois utilisé.

 

En utilisant un compartimentage avec des cercles au lieu de rectangles, nous pouvons produire un autre type de diagramme qui a un aspect quasi organique. Bien qu'il n'utilise pas l'espace aussi efficacement que dans un TreeMap, «l'espace gaspillé» du cercle d'emballage révèle efficacement les aspects de hiérarchie, et la taille des nœuds permet de rapidement comparer les régions.

 

 

Les réseaux

En plus des notions d'organisation, un aspect des données que nous pouvons explorer grâce à la visualisation graphique repose sur la notion de relation. Par exemple, pour un réseau social, il est intéressant d’analyser les relations du type : qui est ami avec qui ? Qui sont les acteurs principaux ? Existe-t-il des groupements? Qui sert d’intermédiaire entre des groupes disparates? Abstraitement, une hiérarchie est une forme spécialisée du réseau: chaque nœud a exactement un lien vers son parent, tandis que le nœud racine n'a aucun lien. Ainsi, les diagrammes nœuds-liens sont également utilisés pour visualiser les réseaux, mais la perte de la hiérarchie nécessite un algorithme différent pour positionner les nœuds.

Les mathématiciens utilisent le terme officiel «graphe» pour décrire un réseau. Un défi central dans la visualisation des graphes est le calcul d'une représentation et d’un positionnement efficace des nœuds. Les techniques utilisées cherchent généralement à positionner les nœuds étroitement liés (en termes de distance de graphe, tels que le nombre de liens entre les nœuds, ou d'autres indicateurs) proches dans le dessin; Il est important que les nœuds indépendants soient également  placés assez loin pour différencier les relations. Certaines techniques peuvent chercher à optimiser les autres caractéristiques visuelles, par exemple en réduisant au minimum le nombre de croisements entre les liaisons.

Le réseau orienté forces

Une approche commune et intuitive pour la configuration du réseau est de modéliser le graphique en tant que système physique : les nœuds sont des particules chargées qui se repoussent mutuellement, tandis que les liens sont des ressorts amortis qui tirent les nœuds liés ensemble. Une simulation physique de ces forces détermine ensuite les positions de nœuds ; les techniques d'approximation qui permettent d'éviter le calcul de toutes les forces mutuelles permettent de visualiser un grand nombre de nœuds. En outre, l'interactivité permet à l'utilisateur de diriger les nœuds et de les déplacer pour démêler certains liens. Ces représentations sont un bon point de départ pour comprendre la structure d'un graphe non orienté. Ci-dessous, un modèle orienté forces permet de visualiser les co-occurrences de caractères dans les chapitres du roman de Victor Hugo, Les Misérables.

 

Les diagrammes en arcs

Un diagramme en arcs utilise une disposition unidimensionnelle des nœuds, et des arcs de cercle pour représenter des liens. Bien que les diagrammes en arcs ne peuvent pas retranscrire la structure globale du graphe de manière aussi efficace que la disposition en deux dimensions, avec un bon ordonnancement des nœuds, il est facile d'identifier les regroupements et les ponts. Comme avec la représentation en arbres indentés, les données multivariées peuvent facilement être affichées à côté des nœuds. La problématique liée au tri des nœuds d'une manière à révèler la structure en cluster sous-jacente est appelée « sériation », et a des applications diverses en visualisation, en statistiques, et même en archéologie !

 

Les diagrammes matriciels

Les mathématiciens et les informaticiens pensent souvent à un graphe en fonction de sa matrice d'adjacence : chaque valeur à l’intersection d’une ligne i et d’une colonne j de la matrice correspond à la liaison entre le nœud i et le nœud j. Compte tenu de cette représentation, une visualisation est alors évidente : il suffit de montrer la matrice! L’utilisation de la couleur ou de la saturation au lieu du texte permet de percevoir plus rapidement les valeurs associées aux liens. Le problème de la « sériation » s'applique tout autant aux vues matricielles qu’aux diagrammes en arcs, l'ordre des lignes et des colonnes est important : ici, nous utilisons les groupements générés par un algorithme de détection de communautés pour ordonnancer l'affichage. Bien que le suivi des chemins est plus difficile dans une vue matricielle que dans un diagramme nœuds-liens, les matrices ont en compensation un certain nombre d'avantages. Lorsque les réseaux sont de taille importante et très connectés, les diagrammes nœuds-liens dégénèrent souvent en boules de poils géantes de lignes entrecroisées. Dans les vues matricielles, les croisements de lignes sont impossibles, et avec un tri efficace, on peut rapidement repérer les grappes (« clusters ») et les ponts. Permettre le groupement et la réorganisation interactive de la matrice permet même d'explorer de manière plus efficace la structure du réseau.

 

Les diagrammes en cordes ou rubans (diagrammes non présentés dans l'article original)

Les diagrammes en cordes ou rubans peuvent être utilisés pour transformer une table de données en représentation graphique. Dans cette approche, les colonnes et les lignes de la table sont représentées par des segments autour du cercle. Les cellules individuelles sont représentées comme des cordes ou des rubans qui relient les segments de la ligne et de la colonne correspondante (sources : Circos)

 

 

Conclusion

Bien que qu’un certain nombre de techniques de codage et de représentations visuelles aient été présentées, et que cette présentation ne soit pas exhaustive par rapport aux diagrammes actuellement disponibles dans les différentes librairies graphiques commerciales, du domaine libre ou Open Source, ou du domaine de la recherche, de nombreuses « espèces » de visualisation existent à l'état sauvage, et attendent d'être découvertes. Des domaines émergeants tels que la bioinformatique et la visualisation de texte (« Text Mining ») incitent sans cesse les chercheurs et les concepteurs à formuler de nouvelles représentations ou à trouver des moyens plus puissants pour améliorer les représentations classiques. Dans les deux cas, l'«ADN» qui sous-tend toutes les visualisations reste le même : le principe de représenter graphiquement et visuellement des données en utilisant des aspects visuels tels que la position, la taille, la forme et la couleur dans le but d’améliorer la perception des données, l’analyse et la prise de décision.

La plupart des entreprises n'utilisent pas leurs données pour appuyer leurs décisions

Suite à une étude réalisée en mars 2012 par David Rogers de la Columbia Business School’s Center on Global Brand Leadership et Don Sexton de la New York American Marketing Association (NYAMA), il y a un énorme gap entre ce que les sociétés aimeraient faire et ce ce qu'elles font réellement en matière de collecte, d'utilisation et d'analyse de données pour appuyer les décisions stratégiques de l'entreprise.

Les données sont soit totalement absentes, soit collectées de manière insuffisante, ou non partagées en les départements, et même lorsqu’elles sont disponibles, elles ne sont pas exploitées suffisamment rapidement, ou ne sont utilisées que pour agrémenter les supports de communication.

L'étude porte sur l’interview de 253 décideurs et directeurs entre le 27 janvier et le 8 février 2012. Ces professionnels sont employés dans des grandes compagnies dont 90% ont un revenu annuel global de plus de 50 millions de dollars, et 45% plus de 1 milliard.

Les principales constatations de l'étude sont les suivantes :

  • 91% des marketers pensent que le succès de leur marque repose sur des décisions marketing qui exploitent les données des clients
  • Mais 39% disent que les données de leur société sont trop peu souvent collectées ou pas suffisamment rapidement
  • Et 51% disent qu'un défaut de communication de ces données au sein de l'entreprise est une barrière à une mesure efficace de leur Retour sur Investissement (ROI)
  • Les sociétés collecte peu les nouvelles formes de données numériques comme les données mobiles (19%) comparativement aux données traditionnelles comme les études démographiques (74%) et de comportement (54%)
  • 85% des grandes sociétés utilisent maintenant les réseaux sociaux (Facebook, Twitter, Google+, Foursquare) comme outil marketing
  • 65% des marketers disent que la comparaison de l'efficacité du marketing à travers différents médias numériques est un enjeu majeur pour leur business
  • 37% des personnes interrogées ne font aucune mention des revenus financiers en réponse à une demande de définition du ROI marketing de leur société
  • 57% ne détermine pas leur budget marketing sur une analyse ROI
  • 22% utilisent la notoriété de la marque comme leur seule mesure d'évaluation de leur effort marketing

 

Le Data Driven Decision Making améliore de 5 à 6% la performance des sociétés


Dans l'article "Strength in Numbers: How Does Data-Driven Decisionmaking Affect Firm Performance?" d'Erik Brynjolfsson et Heekyung Hellen Kim du Massachusetts Institute of Technology (MIT) - Sloan School of Management et Lorin M. Hitt de l'université de Pennsylvanie (http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1819486) publié le 22 avril 2011 dans le Social Science Research Network (SSRN), il a été montré d'après une étude portant sur 179 grandes firmes commerciales américaines que les sociétés qui basent leur processus de décision sur l'utilisation et l'analyse des données de l'entreprise améliorent leur performance de 5 à 6%, que ce soit en termes de productivité, de rentabilité, de profitabilité ou d'efficacité.

Cette étude a fait l'objet d'un article paru dans le New York Times du 23 avril 2011, "When There’s No Such Thing as Too Much Information" (http://www.nytimes.com/2011/04/24/business/24unboxed.html?_r=0).

Comment les sociétés améliorent-elles leurs décisions ?

De plus en plus de sociétés basent leurs décisions stratégiques d'entreprises sur l'analyse des données de leur compagnie plutôt que sur l'intuition ou l'instinct de leurs dirigeants.
Nous sommes témoin dans le même temps d'une nouvelle révolution : la révolution des données.

Les sociétés recueillent des données extrêmement détaillées de leurs clients, fournisseurs, partenaires et concurrents vers qui ils diffusent également de l'information. Cette tendance est due en partie à la large diffusion des technologies de l'information en entreprise comme les Progiciels de Gestion Intégré (ERP : Enterprise Resource Planning), les systèmes de Gestion de la Chaîne Logistique (SCM : Supply Chain Management), et les systèmes de Gestion de la Relation Client (CRM : Customer Relationship Management) qui enregistrent et traitent régulièrement de vastes quantités de données. Ces systèmes comportent de plus en plus de fonctionnalités d'analyse enrichies de capacités en Business Intelligence (BI) qui apportent de nombreux outils à appliquer aux données opérationnelles.

De plus, les possibilités de recueil de données en dehors des systèmes opérationnelles ont considérablement augmenté : les téléphones mobiles, véhicules, systèmes automatisés, et autres appareils sont généralement conçus de manière à générer, lors de leur utilisation, des flux de données qui rendent possible un nouveau champ d'analyse : l'analyse du réel (Reality Mining) qui consiste à enregistrer et à analyser les données issues de l'utilisation de nos machines, et relatives à nos comportements sociaux, dans le but d'identifier des modèles de comportement, des tendances, et de les prédire. Les industries et les commerces utilisent des puces RFID pour tracker les objets qui passent dans les chaines logistiques, et utilisent les données qu'ils génèrent pour optimiser et réinventer les processus d'entreprises. De même, le flux des clics-souris et des mots clés de recherche collectés sur les sites internet génère une pléthore de données qui permet de visualiser les comportements et les interactions des clients sans avoir besoin de recourir à de couteuses études d'analyse.

1974 - La sémiologie graphique - Entretien avec Jacques Bertin

Bandeau Bertin 800 200


Dans un entretien réalisé par Marc Emery et publié dans la revue "Metropolis" (urbanisme, planification régionale, environnement), numéro 9 d'octobre 1974, Jacques Bertin, directeur d'études et directeur du Laboratoire de cartographie à l'Ecole des hautes études, auteur d'un ouvrage très important « la Sémiologie graphique » paru en 1967, définit la sémiologie graphique et la graphique (Sémiologie Graphique. Les diagrammes, les réseaux, les cartes, Paris, La Haye, Mouton, Gauthier-Villars, 1967. 2e édition : 1973, 3e édition : 1999, EHESS, Paris).

Cet entretien peut être consulté dans son intégralité dans la revue "Communication et langages", numéro 28, 1975. pp. 33-43 (http://www.persee.fr/web/revues/home/prescript/article/colan_0336-1500_1975_num_28_1_4248).

On peut retrouver dans cet entretien toutes les notions qui définissent ce qu'on peut regrouper sous le terme de DataViz Driven Decision Making et qui étend la notion de Data Driven Decision Making en y ajoutant nos capacités visuelles d'interprétation des variations graphiques, ce que Jacques Bertin appelle la graphique.

Extraits

Pouvez-vous définir la graphique ?
C'est l'emploi des propriétés de la perception visuelle dans le cadre d'un ensemble fini de données. Quelles sont les propriétés de la perception visuelle ? C'est essentiellement le fait que,
devant une image, l’œil est libre de s'intéresser soit à un seul point, soit à l'ensemble de l'image, soit à tout sous-ensemble intermédiaire qu'il construit instantanément. L’œil possède cette faculté unique de voir quasi instantanément la hiérarchie de tous les sous-ensembles possibles.

L’ŒIL EST INFINIMENT PLUS RAPIDE QUE L'ORDINATEUR
Il est instantané. Il opère instantanément la synthèse de 20 millions de points répartis sur une carte, puisqu'il peut comparer cette carte à une autre faite aussi de 20 millions de points.

La graphique est-elle l'un des éléments nécessaires à la prise de décision ?
Une décision met toujours en regard des données finies et le reste des choses. Tous les « décideurs » le disent : « Au moment de dire oui ou non, je suis seul avec moi-même. » La décision est irrationnelle par définition.
LA GRAPHIQUE, UNE PUISSANTE MEMOIRE ARTIFICIELLE
Celle qui peut aider le décideur au moment final. Au moment où il ne dispose plus que de sa propre réflexion, il a des images dans la tête. Quelle lourde responsabilité pour le « graphicien » !

Avez-vous des systèmes de signes particuliers ?
PAS DE SIGNES PARTICULIERS, QUE DES VARIATIONS
Ces variations sont au nombre de huit : les deux variations fondamentales du plan, la variation en x, la variation en y ; et les six variations d'une tache ou variations en z. Une tache, centrée sur un point fixé en x et y, peut encore varier en taille, en valeur, en grain, en couleur, en orientation et en forme.

 

Page 3 sur 3

A propos de NeoViz

NeoViz est spécialiste en Architecture et Data Visualisation des Réseaux d'Information.

  • Data Science
  • Génie logiciel
  • Algorithmique scientifique et numérique
  • Ingénierie grands comptes
  • Ingénierie des systèmes d'informations
  • Analyse des données financières et stratégiques des entreprises et organisations

A propos de la DataViz

La Data Visualisation ou DataViz est l’art de transformer et d’organiser les données numériques sous forme graphique pour permettre de se repérer de manière rapide et intuitive dans une grande quantité d'information (BigData) interconnectée (Réseaux). La DataViz permet de simplifier l'analyse des bases de données complexes, de faciliter la navigation dans les données et d'améliorer les prises de décision (Business Intelligence).

Zapatillas nike zapatillas reebok nike air max blancas ropa abercrombie gafas ray ban zapatillas under armour gafas de sol ray ban Gafas carrea new balance hombre botas futbol zapatillas asics new balance mujer zapatos casuales Zapatillas air jordan nike sb nike corte zapatillas vans zapatos timberland zapatillas sport zapatos de mujer nike free puma zapatillas zapatos gucci botas de futbol nike presto gorras new era Gafas oakley bolsos louis vuitton Adidas Neo cinturones gucci zapatillas saucony zapatillas de moda Adidas Originals Adidas Yeezy nike air force
nike free puma zapatillas zapatos gucci botas de futbol nike presto gorras new era Gafas oakley bolsos louis vuitton Adidas Neo cinturones gucci zapatillas saucony zapatillas de moda Adidas Originals Adidas Yeezy nike air force polos lacoste Adidas Stan Smith Zapatos nike Adidas Gazelle pulseras pandora zapatillas converse