L’IA conversationnelle vocale dans le domaine du L&D : coaching, jeux de rôle et plus encore

* Veuillez noter que toutes les expériences sont en anglais.

Dans cet article de blog, je vais vous parler du coach en leadership basé sur l’IA que nous sommes en train de tester, et j’ai pensé que vous voudrez peut-être l’essayer avant de poursuivre la lecture.

Jetez-y un œil ! Il est loin d’être parfait, mais plutôt amusant. Nous le mettons à votre disposition pendant quelques jours. (L’utilisation est à notre charge, alors merci de ne pas en abuser !)

Lorsque vous aurez fini de chatter, vous pourrez poursuivre la lecture de cet article. Fin de la parenthèse, revenons à nos moutons :

Oui, les robots peuvent parler.

Le 13 mai dernier, OpenAI a annoncé le lancement d’un nouveau mode conversationnel dans les prochaines semaines.

L’adoption généralisée de ces capacités améliorées fera des interactions verbales avec l’IA un moyen courant d’interagir avec la technologie. Quelles seront les conséquences pour le L&D ? Et comment en sommes-nous arrivés là ? Après tout, les assistants vocaux ne sont pas nouveaux. Alors pourquoi l’annonce a-t-elle suscité autant d’effervescence ?

Pour le savoir, nous avons mené quelques expériences et recueilli au passage l’avis de professionnels du L&D. Découvrons ensemble les résultats et les implications possibles. Il est de plus en plus évident que l’IA conversationnelle aura un impact significatif sur certains aspects clés du L&D.

Pour commencer, un petit point technologique

Les assistants vocaux tels que Siri (Apple) et Alexa (Amazon) existent depuis un certain temps. Ils reposent sur le traitement du langage naturel (NLP) pour interpréter les requêtes des utilisateurs et fournir des réponses prédéfinies. Ils peuvent par exemple vous donner la météo, mais au bout du compte, comme l’a déclaré le directeur général de Microsoft, Satya Nadella, en 2023, ils sont « stupides ». Ils n’ont pas les capacités dynamiques ou génératives d’un grand modèle de langage (LLM) comme celui utilisé par ChatGPT.

ChatGPT a changé la donne. En 2022, Whisper a été introduit en complément de ChatGPT-3.5 pour permettre aux utilisateurs de convertir l’audio en texte. Ils pouvaient donc formuler verbalement des requêtes à ChatGPT qui, d’un simple clic, était en mesure de lire les réponses correspondantes. C’est ainsi que l’audio et les commandes vocales sont entrés en jeu, mais la technologie n’était pas encore au point : impossible d’interrompre, d’être interrompu ou d’avoir une véritable conversation avec l’outil sans formuler d’instructions précises au préalable.

Des start-ups plus récentes ont ensuite déployé des interactions davantage conversationnelles en plus des LLM. Elles ont ainsi introduit les améliorations suivantes : la capacité de l’IA à détecter automatiquement les moments où elle doit prendre ou donner la parole et laisser l’utilisateur l’interrompre ou dialoguer librement, l’ajout d’interjections pour indiquer qu’elle écoute, et l’analyse des expressions vocales. Étant donné que ces expériences reposent sur un processus en plusieurs étapes (création de la réponse par un LLM comme ChatGPT-4, puis énonciation de la réponse par une autre technologie, à savoir un agent vocal), un certain temps de latence subsistait.

Ce mois-ci, OpenAI a annoncé que ChatGPT-4o, sa version la plus récente de chatbot basé sur l’IA générative, sera capable de comprendre et de répondre de manière conversationnelle. Plus besoin de faire appel à un agent vocal pour lire les réponses issues du LLM, c’est le LLM qui s’en chargera directement dorénavant. Si vous demandez à l’IA de « ralentir » ou de « se mettre dans la peau d’un personnage », elle le fera. En outre, elle sera naturellement expressive sur le plan vocal et comprendra les expressions vocales des utilisateurs. Et puisque tout cela sera intégré dans le même système, l’outil gagnera en rapidité.

À ce jour, un modèle textuel de GPT-4o est disponible. Les fonctionnalités vocales les plus avancées (y compris une voix controversée ressemblant à celle de Scarlett Johansson) n’ont toutefois pas encore été déployées, ce qui signifie que vous pouvez parler à GPT-4o, mais que si vous voulez l’interrompre, vous devez l’avertir au préalable (puisqu’il utilise toujours l’ancienne technologie). Vous pouvez cliquer ici si vous souhaitez en savoir plus.

Si vous vous connectez aujourd’hui, vous verrez peut-être un écran similaire à celui-ci lorsque vous utiliserez le mode vocal dans ChatGPT :

Que d’évolutions technologiques ! Parlons à présent de ce que cela implique pour le L&D.

Notre hypothèse de travail : des interactions plus rapides et plus authentiques pour la mise en pratique et la réflexion

Nous avions déjà envisagé la possibilité d’utiliser un outil de chat (via la saisie de texte) pour réaliser des exercices pratiques et des jeux de rôle. Ces interactions étaient amusantes au début, mais l’effort nécessaire pour rendre l’IA réaliste était trop important. Il n’était pas non plus très naturel de passer par le chat alors qu’on pouvait tout aussi bien avoir une véritable conversation (comme pour un appel téléphonique).

Nous voulions donc ajouter des fonctionnalités vocales pour tenter de rendre l’interaction plus réelle et faciliter l’engagement.

Expérience 1 : coach IA

Nous avons utilisé GPT-4 Turbo en tant que LLM, ajouté une couche conversationnelle, puis demandé à l’assistant de jouer le rôle d’un coach en leadership. Une étude a démontré que GPT-4 était l’outil le plus efficace pour les jeux de rôle (sur la base d’une évaluation limitée d’autres modèles).

La vidéo suivante présente les résultats de cette première expérience.

Bien qu’il y ait un petit temps de latence, le niveau d’échange conversationnel est assez bluffant. C’est d’ailleurs moi qui ai le plus de mal à m’exprimer.

J’ai partagé le lien avec des professionnels du L&D de mon réseau pour qu’ils puissent tester l’outil et me donner leur avis.

Dans l’ensemble, les retours étaient positifs :

« Naturel »
« Incroyable ! »
« Fabuleux ! »
« Réaliste »
« Fluide »
« Je pourrais l’utiliser tous les jours sans problème. »
Et voici la réaction de ma femme : « Trop bizarre. »

Commentaires sur le mode vocal :

L’échange conversationnel est très bon et le plus humain à ce jour.
Le mode vocal est propice à la réflexion : les gens ont moins tendance à s’autocritiquer puisque l’interaction est linéaire (ils ne peuvent pas revenir en arrière et faire des modifications) et qu’ils n’écrivent pas ce qu’ils disent. L’échange est donc plus rapide et exige moins d’efforts.
Lorsque j’ai demandé au coach de ralentir (pour pouvoir noter ses conseils), il n’a pas été en mesure de le faire.
Je savais qu’il s’agissait d’une IA, mais c’est devenu moins flagrant au fil de l’interaction.
L’intonation de la voix était naturelle et rendait la conversation fluide.
On constate un petit temps de latence, mais rien de très prononcé.

Commentaires sur l’utilité du coach IA :

Le coach a proposé des idées et des recommandations utiles.
Il a suscité une véritable réflexion et posé de bonnes questions.
Les utilisateurs ont trouvé l’approche et la méthodologie efficaces.
Le coach a tendance à répéter ce que l’utilisateur dit (mentionné à la fois comme un point positif et négatif).
Il a proposé un jeu de rôle en guise d’exercice pratique ; l’idée en soi était judicieuse, mais le jeu de rôle manquait de naturel.

Commentaires sur l’interface utilisateur :

Il faudrait pouvoir noter les recommandations formulées (mentionné plusieurs fois).
La façon d’entamer la conversation n’était pas très claire.
Il serait utile d’avoir un avatar pour avoir l’impression de parler à quelqu’un.
Il faudrait ajouter la possibilité de mettre l’échange en pause (pour pouvoir réfléchir ou s’absenter).
Il faudrait pouvoir définir dès le départ la durée de l’expérience.
Il serait utile d’avoir accès à une transcription de l’échange, à un résumé, aux prochaines étapes ou à d’autres ressources pour pouvoir les consulter ultérieurement.

Expérience 2 : jeu de rôle avec une IA capable de comprendre et d’exprimer des émotions

Dans cette expérience, nous voulions tester l’aptitude de l’IA à reconnaître et exprimer naturellement des émotions. Nous avons donc imaginé un jeu de rôle avec, d’un côté, un représentant de service client, et de l’autre, un client en colère.

En voici un court extrait :

Nous n’avons pas encore eu beaucoup de retours sur cette expérience, mais voici mes premières réactions. Je peux d’ores et déjà vous dire que l’échange a été efficace puisqu’il a réussi à me mettre mal à l’aise ! Je l’ai trouvé difficile et stressant. Le fait d’entendre la voix d’une personne contrariée a instillé une dose de réalisme à l’expérience.

Mais étant donné qu’il ne s’agissait que d’un jeu de rôle, je savais que je pouvais me défiler à tout moment si je me sentais dépassé par la situation. Je serais probablement plus enclin à persévérer si je devais rendre des comptes ou si j’étais évalué. J’ai également découvert que le service client n’était pas fait pour moi !

L’un de nos responsables commerciaux, qui a également testé l’interaction, a dit qu’il avait échangé avec le client virtuel pendant 15 minutes avant de parvenir à une résolution satisfaisante (il lui a même fallu changer de tactique à mi-chemin). Il a indiqué avoir ressenti le besoin de résoudre le problème pour « gagner la partie ». Nous sommes clairement très différents à ce niveau-là !

Nous avons également testé une interaction de coaching avec une IA capable de comprendre et d’exprimer des émotions. Le but était de voir si celle-ci pouvait détecter ce que je ressentais sans s’appuyer sur ce que je disais. Bien que l’IA ait remarquablement réussi l’exercice, je n’ai pas vraiment aimé l’expérience. J’ai ressenti un manque d’authenticité de la part de l’IA, mais c’est peut-être dû au fait que j’étais en mode « test ». L’IA avait également du mal à savoir à quel moment intervenir dans la conversation et n’arrêtait pas de m’interrompre.

Conclusion : l’analyse des émotions est probablement plus utile pour les interactions réelles entre humains.

Expérience 3 : gain de rapidité avec GPT-4o

Lorsque le mode textuel de GPT-4o a été déployé, nous avons décidé de tester à nouveau le coach IA que nous avions créé dans la première expérience. Puisque le mode textuel est censé être 50 % plus rapide que GPT-4 Turbo, nous avons essayé de voir s’il pouvait nous permettre de réduire le temps de latence.

Comme vous pouvez le constater dans la vidéo suivante, l’intégration de GPT-4o à notre coach IA a permis de le réduire un peu.

Conclusion : l’utilisation de GPT-4o permet de réduire le temps de latence de notre application de coaching IA de 3,6 secondes à 2,2 secondes en moyenne, ce qui rend la conversation beaucoup plus naturelle.

Prochaines étapes

Nous avons l’intention de continuer à explorer le mode vocal. Nous mettons actuellement en œuvre certaines des suggestions émises par les professionnels du L&D qui ont testé le coach IA (notamment l’ajout de transcriptions, une synthèse des actions à entreprendre, une meilleure interface utilisateur, des analyses et des options de feedback).

Nous continuerons à tester les nouveaux LLM. Nous explorerons également de nouveaux cas d’utilisation du mode vocal (par exemple, lorsque l’on est en déplacement, pour interagir pendant les réunions, ou encore pour faciliter les tâches administratives).

Voici un petit aperçu des travaux en cours sur les transcriptions en temps réel :

Implications pour le L&D

À mesure que la technologie grand public progresse, elle exerce une pression grandissante sur les expériences learning. Dans ce contexte, qu’implique l’essor de l’IA conversationnelle vocale pour les professionnels du L&D ?

L’IA vocale ne convient pas à toutes les situations, mais elle semble particulièrement efficace dans certains cas de figure (comme le développement des compétences). Il vous suffit d’identifier les cas les plus pertinents pour votre public et de trouver des solutions appropriées.
L’IA vocale permettra aux équipes L&D de proposer de meilleures expériences à plus de personnes et à moindre coût. Toutefois, elle risque aussi de renchérir la valeur des vraies interactions humaines.
De toute évidence, nos expériences interactives avec l’IA ne permettent pas d’offrir à elles-seules un coaching efficace, mais nous pensons qu’elles peuvent constituer un excellent complément aux programmes de formation des entreprises.
GPT-4o sera en mesure d’assumer la plupart des tâches complexes, mais les équipes L&D auront sans doute besoin d’un autre prestataire pour fournir des rapports, des analyses et des intégrations à d’autres processus de travail.

Pour toute question ou tout commentaire sur l’IA conversationnelle, vous pouvez m’envoyer un e-mail à l’adresse tblake@degreed.com.

Merci de votre confiance !

Let’s keep in touch.