

Discover more from La Batcave
Le batsignal est dans le ciel, merci d’être venu 🦇 !
🔶 Le cas d’usage d’aujourd’hui :
”Un chatbot pour t’aider à briser la barrière de la langue”
🔶 Pourquoi ?
Quand tu ne parles pas la langue du pays, difficile de :
▪️ comprendre l’écrit
▪️ comprendre l’oral
▪️ s’exprimer dans la langue
Le sommaire :
1. Je te montre ce qu’il y a sous le capot.
2. Comment tu peux en tirer parti.
3. Ô geek, elle est pour toi celle-ci !
Rentrons dans le vif du sujet ! 👇
1. Je te montre ce qu’il y a sous le capot !
Teste toi-même le prototype :
Pas de vidéo cette semaine, je te laisse directement jouer avec :)
C’est par là 👉 The Babel Bot
➡️ Tu prends en photo ce que tu veux traduire.
➡️ Tu enregistres en vocal ce que tu ne comprends pas. Évite que ce soit trop long quand même, l'idéal c'est max. 15 secondes.
➡️ Si tu ne sais pas comment dire, tu le dis en vocal et tu recevras un vocal du bot dans la langue cible.
Pour la partie vocale, c'est parfois long à démarrer. Donc ne t'inquiète pas si ça prend plus d’1 min pour recevoir sa réponse. Une fois que le bot est échauffé, il envoie en moins de 3 s. Comme avant de faire un effort physique ! ^^
Et il détecte automatiquement la langue, donc pas besoin de le configurer.
Si tu as le moindre bug, n'hésite pas à me le dire, c'est encore un prototype.
Schéma
1 techno = 1 brique Lego
Et je te montre comment elles s’intègrent entre elles sur les 3 fonctionnalités :
👉 Comprendre l’écrit :
👉 Comprendre l’oral :
👉 S’exprimer dans la langue :
Le choix des briques techno.
Je suis resté sur les briques Telegram, Make et Whisper.
Les raisons sont les mêmes que pour l’édition précédente.
Je vais donc faire un copier-coller.
➡️ Tu ne t’en rappelles pas ? Alors je te laisse lire les points 1., 2. et 3.
➡️ Sinon, on se retrouve pour le point 4.
1️⃣ Mon choix s’est tout de suite porté sur un chatbot Telegram.
La raison est très pragmatique, c’est super facile de faire un bot sur ce canal.
Ça prend 2 minutes. Et beaucoup de gens sont sur Telegram.
Par la suite, rien ne t’empêche de faire le même bot sur Whatsapp, Messenger ou autre.
2️⃣ Pour la transcription du vocal, j’ai choisi de passer par Whisper.
C’est l’une des dernières IA de OpenAI qui permet de faire la transcription d’un audio.
Et même de traduire en anglais, en option.
Cerise sur le gâteau, elle est open source et peu gourmande en stockage. Donc si t’es un geek, tu peux la faire tourner le modèle directement chez toi ! 🤩
3️⃣ Il faut relier ces briques entre elles. J’ai choisi ce bon vieux Make.
Make est un outil d’automatisation qui sert de “glue” entre des produits informatiques.
Cela me permet d’avoir très vite un prototype en production.
Il n’est pas toujours possible d’utiliser Make, mais quand ça l’est, “la question elle est vite répondue” 😅.
4️⃣ J’ai utilisé la brique “Vision AI” de Google.
Cette brique a de nombreux cas d’usage :
- détecter des visages
- détecter des objets
- détecter du contenu explicite
- détecter du texte dans les images.
- …
C’est ce dernier cas qui m’a intéressé pour le prototype. J’utilise cette brique pour détecter l’écrit de la photo et le récupérer en version texte.
C’est ce qu’on appelle l’OCR (Reconnaissance optique de caractères).
Pourquoi cette brique ? Très bon rapport qualité prix et relativement facile à mettre en place.
5️⃣ Pour traduire, je suis resté dans l’univers de Google, et j’ai choisi la brique “Cloud Translation”.
J’ai hésité avec Deepl, mais cette brique supporte beaucoup plus de langues.
6️⃣ Pour générer la voix dans la langue cible, j’ai utilisé “Cloud text-to-speech” de Google. Ou '“AI Voice” dans le schéma.
Il y a beaucoup de langues disponibles.
Dans le cadre du prototype, je suis resté sur des voix standards. Elles sont le moins chères mais le plus robotiques.
Pour des voix plus réalistes, ils ont des voix “Neural2” qui sont beaucoup plus naturelles.
2. Comment tu peux en tirer parti.
Il existe énormement de briques techniques à base d’IA.
Comme par exemple dans le cadre de ce prototype :
▪️ transcription (speech-to-text)
▪️ traduction
▪️ génération de voix (text-to-speech)
▪️ reconnaissance de textes (image-to-text / OCR)
Dans la Tech, ce genre de briques sont démocratisées :
- faciles à intégrer
- très bon rapport qualité / prix
Pourtant au niveau métier, ce n’est pas le cas. Je pense que c’est une opportunité : faciliter l’intégration de ces briques IA dans des logiques métiers sans devoir passer par un SaaS.
Je pense que cela s’imbrique dans une tendance d’automatisation pour permettre d’aller plus loin.
Par exemple, pour la gestion des documents.
3. Ô geek, elle est pour toi celle-ci !
Il y a 2 scénarios Make derrière le prototype.
🔵 Le 1er reçoit le message de Telegram.
Si c’est un vocal, j’envoie à Whisper pour faire la transcription que je vais récupérer dans le 2nd scénario.
Si c’est une image, j’envoie à “Vision AI” pour récupérer le texte, puis je traduis avec “Cloud Translation” et enfin j’envoie le résultat à Telegram.
🔵 Le 2nd scénario a pour rôle de traiter la transcription de Whisper.
Si le vocal est dans la langue étrangère, alors je le traduis puis je l’envoie à Telegram.
Si le vocal est en français, alors je le traduis puis je génère une voix dans la langue étrangère. Et enfin je l’envoie à Telegram.
Le mot de la fin
Cette édition t’a plu ? Alors partage-la ! 👇
Sinon, un like ou un message fait toujours plaisir pour me montrer que tu as apprécié et m’encourager à continuer.
La prochaine édition arrivera samedi prochain avant des vacances bien méritées 😁 !
Un indice :
”Transformation de l'âge par mail”.
On se retrouve la semaine prochaine !
Prends soin de toi,
Vincent 🦇