Vous pouvez écouter le podcast sur votre lecteur de podcast préféré. En savoir plus.

Les chatbots n’emploient pas que le texte, l’image ou la vidéo. Ils peuvent aussi être directement connectés à un numéro de téléphone, pour répondre aux besoins clients. Ce type de robot conversationnel se développe beaucoup au sein des service d’assistance clients des entreprises.

On les appelle alors « callbot », contraction du verbe anglais « call » (appeler au téléphone) et « bot » (robot). On désigne les assistants vocaux comme Siri, ou Alexa, par le terme « voicebot », au sens où l’interaction s’effectue directement par la voix, sans passer par le canal téléphonique.

Les Callbots qui nous intéressent sont plus évolués que les serveurs vocaux et offrent de nombreux avantages. (voir Quelle est la différence entre callbot et un serveur vocal interactif (SVI) ?).

Le callbot utilise la synthèse vocale pour dialoguer

La différence avec le chatbot tient dans le fait que l’utilisateur formule vocalement sa demande, et non au travers d’un clavier de saisie textuelle. Il faut donc un outil dédié à la conversion de la voix vers le format texte et inversement. C’est ce que l’on appelle le Speech To Text et son contraire, le Text To Speech, souvent siglé STT/TTS.

Il existe de nombreuses solutions sur le marché (voir « Les STT/TTS du marché » à venir), plus ou moins performantes. On y reviendra.

Le Speech To Text (STT) enregistre le propos de l’utilisateur, l’envoie sur un serveur qui effectue une analyse complète du signal vocal pour obtenir une traduction textuelle du propos.

Le Text To Speech (TTS) réalise le chemin inverse : il envoie le texte vers un synthétiseur vocal pour en faire un fichier sonore. Ce fichier est joué à destination de l’utilisateur.

S’engage alors un dialogue où les outils classiques du chatbot analysent la demande convertie en texte, génère une action, puis une réponse transcrite vocalement à l’utilisateur.

La qualité du callbot dépend de la qualité du STT

Le fait de parler à un robot (et que le robot vous réponde) implique une situation différente de celle du chatbot textuel classique. Cette expérience utilisateur nécessite de prendre en compte trois aspects :

La qualité du convertisseur vocal ou Speech To Text

D’abord, il y a la qualité du convertisseur vocal (STT/TTS). Celui-ci joue un rôle essentiel, car il est l’épine dorsale du Callbot. En effet, si la conversion de la voix au texte n’est pas de qualité — et on va voir qu’il existe naturellement de nombreux cas — l’expérience utilisateur démarre très mal.
De la même manière, si la voix synthétique n’est pas d’une extrême qualité — en tout cas, au maximum de ce qu’il est possible de faire aujourd’hui — il est probable que la conversation avec l’humain ne s’éternise pas…

On le voit, la qualité du synthétiseur vocal joue un rôle très important sur la perception du Callbot.

La qualité de la situation dialogique

La communication téléphonique obéit à des règles

Deuxième aspect important, la qualité de la situation dialogique. Le dialogue au téléphone est une pratique sociale extrêmement normalisée. J’en veux pour preuve le « Allo » qui démarre toute conversation interhumaine.

Au téléphone, il est bon de minimiser les risques d’incompréhension. Pour cela, vous pourrez remarquer que les interlocuteurs font en général un effort communicationnel pour écouter l’autre, et s’assurer que la compréhension mutuelle est à son maximum. L’assentiment réciproque, par des petites confirmations orales (des oui, des hums hums…) est réguliers. Le temps d’attente de la réponse est également réduit.

D’ailleurs, si le silence de l’interlocuteur est trop long, un « Allo » risque rapidement de surgir, car la personne craint la coupure communicationnelle. Le « Allo » est une vérification technique, qui va relancer l’interlocuteur (« oui je t’écoute, attends, je réfléchis »).

La conversation homme-machine ne peut pas mimer la conversation interhumaine… en tout cas pour l’instant.

Prenez alors bien conscience qu’un Callbot ne peut pas agir comme un humain… et ne le doit pas : il faut en effet être transparent envers le client et ne jamais le laisser croire, surtout si la voix de synthèse est de qualité, qu’il a affaire à un interlocuteur de son espèce.

La gestion du dialogue est donc différente. Pour autant, la volonté de minimiser les situations réciproques d’incompréhension nécessite la mise en place de dialogues de confirmation ou de récapitulation.

Bref, ce qu’il faut ici retenir, c’est que l’écriture des dialogues doit se faire en respectant la pratique sociale de la conversation téléphonique. Ainsi, il n’est pas envisageable de reprendre le contenu et les éléments de dialogue d’un chatbot, doté d’une interface textuelle, sans les réécrire entièrement pour le callbot.

La prise en compte de la nouveauté communicationnelle

Dernier facteur clé, la prise en compte de la nouveauté communicationnelle. On vient de le comprendre, la conversation avec un callbot n’est pas une conversation interhumaine. C’est encore moins un échange avec un serveur vocal interactif. Avoir affaire à un callbot est une nouveauté pour de très nombreuses personnes.

Certains utilisateurs sont ainsi totalement décontenancés de devoir exprimer naturellement leur demande. J’ai même vu sur un callbot des personnes raccrocher au début de la conversation, quand le callbot leur demandait d’exprimer leur demande, puis rappeler quelques minutes plus tard pour engager la conversation. De toute évidence, l’appelant humain avait besoin de mûrir la situation dialogique nouvelle pour se lancer, souvent avec succès, dans la conversation !

Il est donc prudent, au lancement du callbot, de donner la possibilité à l’appelant de rapidement accéder à l’humain en cas de besoin. C’est une question d’image de marque.

Les prochain article traitera des limitations techniques et sociales du Callbot.

Si vous avez des remarques ou des commentaires, n’hésitez pas ! Si vous aimez l’article, partagez-le sans modération !