Plan
Introduction problématique : l’intelligence collective plus puissante que les experts pour la détection de signaux faibles ?
Nombreux sont les experts qui se sont jusqu’à présent exprimés sur la « révolution » du phénomène Blockchain et sur ses impacts disruptifs via les nouveaux services proposés par les Fintech, depuis 2008-2009. Mais peu de travaux ont porté sur l’analyse de ce qu’en disent les gens « ordinaires », dans leurs conversations « communes ». Quels sont les expériences, les témoignages, les ressentis , les conversations des gens qui, sans être des « sachants » institués, des journalistes spécialisés, sont liés à ces innovations sociotechniques (Latour, 2005) en cours des Fintech ? Un traitement adapté de ces « sources » alternatives permettrait-il de détecter des signaux faibles et des tendances émergeantes auxquels l’accès n’est pas possible via des techniques conventionnelles d’expertise ou de sondages (Taleb, 2006) ? Ce document de travail rend compte d’un travail en cours, à caractère exploratoire, sous une forme volontairement concise, destiné à être développé dans une étape ultérieure.
Nous présentons quelques résultats temporaires et partiels d’une recherche commencée en 2014 (Jollivet P., Ghitalla, & Moulier-Boutang, 2015) s’inscrivant dans la continuité d’un travail initié par Ghitalla (F. Ghitalla, Diemert, Maussang, & Pfaender, 2004), visant à capter et analyser les expressions spontanées de profanes sur le Web social1- via des techniques de web-scraping, d’ingénierie l’linguistique, et d’analyse structurale de réseaux sémantiques - afin de détecter des signaux faibles et des émergences de tendances, socio-économiques et/ou technologiques. Nous partons en effet du postulat que les citoyens-internautes disposent d’un savoir profane spécifique et que c’est par leurs interactions, sociales et sémantiques, leurs conversations (Laugier, 2011, 2013), notamment médiées par Internet, qu’est générée une forme d’intelligence collective, susceptible d’être bien différente de celle des experts habituellement consultés(Cardon, 2010 ; Moulier-Boutang, 2007).
Nous montrons qu’il est possible de développer un accès à cette intelligence collective – ici, concernant le phénomène Fintech/Blockchain, incluant les impacts organisationnels- à travers l’écoute et l’analyse instrumentée et monitorée de Forum et Fils de discussions (ici, sur Reddit)(Jollivet P., 2016). Ces Forums constituent en effet des lieux privilégiés de réalisation d’une cognition sociale par l’interaction, une innovation par l’apprentissage par l’interaction sociale (Lundvall, 2010), dont un accès est possible via les traces numériques laissées par les contributeurs.
1. Positionnement théorique : le constructivisme pour accéder à une intelligence collective de réseau via l’exploration de données textuelles d’interactions sociales
La littérature mobilisée ici est assez multidisciplinaire, et nous aspirons en effet à contribuer à une recherche finalisée développant la transdisciplinarité (Nicolescu, 1996). Ainsi, un certain éclectisme peut se dégager des références provenant tant des sciences économiques et de gestion2, des sciences de l’information et de la communication, que des sciences des réseaux et des statistiques Pourtant, il s’agit bien d’explorer ici « le paradigme » du réseau (Castells, M., 2010)– fut-il social ou sémantique, économique ou entrepreneurial - susceptible de constituer un renouveau heuristique, conceptuel ou phénoménologique (Cowan, 2005.Easley & Kleinberg, 2010, Benkler, 2006). Pour ce faire, nous nous engageons dans un cheminement de recherche constructiviste qui tente de travailler en coévolution les concepts, les méthodes et les données (Charmaz, 2014a). Le présent article tend cependant à se focaliser3 plutôt sur les aspects méthodologiques de cette exploration du réseau - que nous pensons originaux - à travers une étude « expérimentale » sur les Fintech/Blockchain, incluant les impacts organisationnels.
La posture théorique à travers laquelle nous réalisons notre activité d’exploration de données est donc constructiviste tout particulièrement au sens de l’école de la théorisation ancrée (Charmaz, 2014b).Ainsi, tout en nous appuyant fortement sur des données, textuelles et de première main, collectées en masse4, nous ne nous inscrivons pas dans une perspective d’induction pure, contrairement à Anderson (Sterling, 2008). Symétriquement, bien que mobilisant des outils conceptuels, nous ne suivons pas un réductionnisme hypothético-déductif si pratiqué dans les sciences économiques (Uzunidis, 2012)..
2. Méthodes mixtes : du quali-quanti couplant Traitement Automatique des Langues, Sciences des Réseaux et Données Massives
Les méthodes mixtes ambitionnent de dépasser le clivage antre méthodes qualitatives versus quantitatives (Johnson & Onwuegbuzie, 2004 ; Teddlie & Tashakkori, 2008). Sur le plan méthodologique, l’approche en termes de théorisation ancrée (op. cit.) s’articule bien avec les méthodes mixtes5.
Nous avons mis au point une méthode originale6. consistant en un processus de traitement de données massives (Big Data) issues du web social et d’analyses Ce processus s’étend depuis l’amont de la captation de données textuelles, jusqu’à l’aval de la détection de signaux faibles et d’émergences, en passant par l’étape d’interprétation de ces données et des motifs lexicaux sur différentes cartes sémantico-sociales que nous avons préalablement générées.
Plus précisément, le processus de traitement et d’analyse se déploie selon les étapes suivantes.
a) Design de requête & captation (web-scraping) sur mesure
Cette étape consiste à traduire la thématique sur laquelle on souhaite procéder à l’écoute (ici l’enjeu des Fintech à travers la technologie blockchain) en des requêtes – plus ou moins complexes - compréhensibles par un moteur de recherche. Dans un premier temps (2015) nous formulions nos requêtes à travers un service Web7 permettant une formulation en logique booléenne. Nous mettions au point une unique requête, présentant une structure relativement complexe d’expressions imbriquées constituées d’opérateurs de type booléens (ET, OU et NEAR). Aujourd’hui, nous sommes à même de passer outre ce fournisseur spécialisé en mode en passant directement par des moteurs de recherches génériques (Google, Bing ..). Cependant, ces moteurs n’offrant pas autant de richesses dans l’emploi des requêtes booléennes complexes, nous devons concevoir plusieurs requêtes différentes, que nous agrégeons après l’étape de captation.
L’expérience nous a appris qu’il convenait d’associer, dans les requêtes, d’un coté certains mots clefs assez généraux (par ex., ici, blockchain, organisation …) pour s’ouvrir à l’imprévu de signaux faibles, avec d’un autre coté des expressions clefs assez « pointues » pour être sûr d’accéder à certains sujets précis souhaités ( par ex DAO).
L’étape de web-scraping de données massives (big data) nécessite la mobilisation de « robots » logiciels automatisant la captation et la transformation de pages web (de type html) en base de données (principalement textuelles). Différents services Web fournissent cette prestation. De la qualité de la matrice de captation (développée sur mesure) va dépendre la qualité des données textuelles de verbatim récoltées, et l’ampleur du travail ultérieur de curation de données.
b) Traitement linguistique monitoré
Une originalité de notre processus de traitement porte sur la profondeur du traitement linguistique effectué sur les corpus textuels issus de la base de données de captation Web. Cette profondeur n’est pas courante quand on opère dans un univers de données massives. Nous avons recours à des techniques de Traitement Automatique des Langues (Computational Linguistics) réalisant notamment de l’analyse morpho-syntaxique. Cette analyse, monitorée et paramétrable, permet d’obtenir tout d’abord une lemmatisation automatique assez fine de termes. Mais elle autorise surtout une personnalisation du processus selon le sujet traité, à travers le rajout de termes et expressions spécifiques dans un dictionnaire particulier.
De surcroit, la méthode utilisée permet de rajouter à cette catégorisation linguistique des « étiquetage » (tags) - « manuels » ou automatisés - qualifiant les unités documentaires (ici, les post des contributeurs à un fil de discussions).
Nous utilisons ainsi comme variables (dont les tags sont des instanciations) qualifiant nos post :
- la date de la contribution (« posts »),
- le titre du fil de discussion (« thread) au sein duquel la contribution a été postée,
- le forum dans lesquels ledit fil figure,
- la requête qui a permis de capter cette contribution.
c) Traitement d’analyse structurale de réseau (« Structural Network Analysis »)
L’analyse structurale de réseau est de plus en plus utilisée pour traiter les entités de type réseaux sociaux (réseaux de personnes sur LinkedIn ou Facebook … ). Il est relativement original de procéder comme nous le faisons à l’analyse structurale de réseaux sur des entités « documentaires » (ou textuelles)(Pincemin, B., Heiden, S., 2008 ; Vergne & Swain, 2016)8. En se focalisant sur telle ou telle variable de notre base documentaire de corpus, nous générons différentes cartes. Ces cartes sont tout d’abord qualifiables de « sémantique » (plus strictement des cartes de « lemmes »). Pourtant, la mobilisation des variables « Titre de Fil » et surtout « Forum », permettant de remonter à un niveau plus élevée de l’arborescence de la structuration des discussions sur la plateforme Reddit, fournit quelques indications sur des communautés (sociales) qui se structurent sur certains grands thèmes9. C’est ainsi que nous usons parfois de l’expression « cartes socio-sémantiques ».
Mais l’intérêt majeur pour la détection de signaux faibles de l’analyse structurale de réseau textuel (parfois appelé analyse de similitudes) est qu’elle ne met pas en exergue des « tendances centrales » (à l’instar des statistiques classiques)10 mais des dissimilitudes d’agrégats (« clusters ») et des singularités de motifs (« patterns ») (Granovetter, M. S., 1973 ; Watts, 2003, 2004).
d) Analyse et détection de signaux faibles « candidats »
Une première analyse, visuelle et descriptive, en termes de géographie de l’information et d’analyse structurale de réseau (distances entres lemmes et des motifs que forment ensemble certains lemmes, indicateurs de centralité structurale et d’intermédiarité structurale) permet d’identifier des clusters et des motifs « intrigants » ou « non-triviaux ». Ils constituent pour nous des potentiels signaux faibles de la carte (Franck Ghitalla, 2003 ; Ghitalla, G., 2013).
e) Hypothèse interprétative temporaire
La seconde étape d’analyse relève d’un processus interprétatif, et nécessite donc dès lors une connaissance « métier » du sujet traité11. Il est donc souhaitable ici que soient mobilisés des acteurs à positionnement « professionnel » ou « praticiens », pour le moins pour leur soumettre les hypothèses interprétatives formulées12.
f) Confrontation aux verbatim et infirmation/confirmation/évolution de l’interprétation du signal faible
Nous arrivons à l’étape clé de confrontation des hypothèses interprétatives temporaires (issues de l’analyse cartographique) au matériau « brut » constitué par les verbatim des « posts ». Un outil spécialisé d’exploration de corpus textuel assisté par ordinateur nous permet de retrouver quels sont les différents « posts » correspondant au motif de lemme que l’on a repéré. L’analyse sémantique (humaine) de ces quelques « posts » permet alors de confirmer, infirmer ou de faire évoluer l’hypothèse temporaire interprétative de ce motif, et d’en valider au cas échéant le caractère de « signal faible » de tendance émergente.
3. Premiers résultats : « Transculturalité » / « Blockchain », signal faible ?
Quels sont les résultats principaux, temporaires, issus des traitements et analyses, sur notre sujet des Fintechs/Blockchain/Organisation lui-même. Les premiers résultats, exploratoires et demandant à être confirmés, suggèrent notamment un lien - topographique et socio-sémantique – entre les lemmes « Blockchain » et « Transculturalité ». Cette proximité socio-sémantique, plutôt imprévue, formant un motif lexical qui semble singulier, est-elle robuste ou constitue-t -elle un artefact (lié à la captation par ex.) ? Si c’est le cas, quelle hypothèse interprétative peut-on lui donner ? Enfin et surtout, cette interprétation de motif lexical se trouve-t-elle corroborée (ou non) par un retour à la base de données textuelles de captation et par la confrontation « sémantique » aux verbatim des discussions ? En l’étape actuelle du travail, ce couplage entre motif lexical visible sur la carte et verbatim associés semble suggérer un sens qui parait bien susceptible de constituer un signal faible présentant un intérêt en termes d’émergence de tendance.
Ainsi, les technologies des Blockchain seraient bien considérées par les contributeurs-internautes de Reddit comme étant un fort vecteur d’innovation dans les organisations elles-mêmes, fussent-elle dans le domaine financier ou non. Mais cette innovation du Blockchain, considérée ainsi par les contributeurs de post comme nécessairement techno-organisationnelle, est également considérée comme étant intimement liée à des dimensions culturelles des organisations, et plus précisément à l’enjeu de la transculturalité (figure 1 : carte sémantique générée)
4. Discussion et interprétation : le Blockchain, l’émergence d’une « trans-confiance » ?
L’avancée des travaux de couplages ne nous permet pour l’instant que de faire des hypothèses interprétatives (que nous espérons valider pour la version finale de notre article) de ce « candidat signal-faible ». Le statut de la transculturalité dans l’innovation techno-organisationnelle « blockchain » tiendrait à la fois de la condition et du résultat, témoignant d’un processus de coévolution. La transculturalité serait une condition à la Blockchain car cette technologie, telle quelle s’exprime par exemple dans les Digital Autonomous Organisations (DAO), ne pourrait se réaliser qu’en sein d’une communauté d’acteurs réellement transculturelle. Cette nécessité d’interculturalité pourrait être interprétée comme condition d’appropriation et d’acceptabilité par les acteurs des organisations (Venkatesh et al., 2003,...).
La transculturalité pourrait ensuite constituer une cause de la Blockchain, car cette technologie serait également ressentie sur Reddit comme ayant pour cause la transculturalité croissante de la génération Y et surtout de la génération Z des digital nomads. Cette génération transculturelle, souhaitant trouver des alternatives aux dispositifs de confiance culturellement contingents des habituels « tiers de confiances » nationaux, serait un des moteurs à l’origine du blockchain. Ainsi, à la manière du passage de pluri-culturalités à des trans-culturalités, nous assisterions au dépassement de pluri-confiances basées sur des plusieurs cultures restant nationales et à l’émergence de formes de trans-confiances, dont le Blockchain serait un élément constitutif.
Travail en cours, limites et perspectives : une meilleure focale Fintech grâce à une agrégation de deux corpus
Le travail restant à faire pour une version finalisée et développée de la recherche présentée dans cette proposition d’article tient surtout à la nécessité d’agréger deux vagues de captation de verbatim sur le Web social Reddit que nous avons effectuées : une vague de captation portant sur les relations entre Blockchain et mutation dans les Organisations d’une part ( que nous avons exploitée ici) et une autre vague portant sur les relations entre secteur bancaire, apprentissage et Blockchain d’autre part. D’autres signaux faibles confirmés devront en émerger. Les résultats partiels présentés ici laissent donc présager d’une moisson plutôt riche au cours des semaines prochaines.
Le positionnement de ces travaux de recherche nous parait présenter certaines limites mais ouvrir également des perspectives de recherches appliquées stimulantes. Des limites portent sur le plan méthodologique – surtout à l’étape de captation sur le web (webscraping) – et sur le plan du cadrage de la problématique traitée (les Fintechs). Les techniques de webscraping que nous avons mobilisées nous paraissent générer en effet à l’heure actuelle un peu trop d’artefact de captation13. D’autre part, un cadrage plus focalisé sur la problématique des Fintechs (ici réalisé surtout à travers le sujet du Blockchain) nous apparait, a posteriori, nécessaire, par une meilleure explicitation de ses contours dans notre étape de design de requêtes. Egalement, l’existence possible de biais cognitifs (Mitchell et al., 2002) - lors de l’expression des internautes en interaction et lors de l’interprétation des cartes et des verbatim par l’analyste – constitue également une limite à considérer.
La perspective principale qui nous semble ouverte par ces travaux (et que nous souhaitons explorer dans le futur proche porte) porte sur le prolongement dynamique des ces analyses de cartes socio-sémantiques web-sourcées, avec l’intégration des commentaires et interprétations de différentes parties intéressées dotées de compétences « métiers ». Nous serions ravis de coopérer si des partenaires partageaient cet intérêt.