La Batcave

Share this post

Comment générer une image avec la voix sans te ruiner ?

www.labatcave.tech

Comment générer une image avec la voix sans te ruiner ?

La Batcave #5

Vincent 🩇
Nov 26, 2022
3
1
Share this post

Comment générer une image avec la voix sans te ruiner ?

www.labatcave.tech

Le batsignal est dans le ciel, merci d’ĂȘtre venu 🩇 !

Nous avons dĂ©passĂ© la barre des 100 inscrits depuis la derniĂšre fois đŸ„ł

đŸ”¶ Le cas d’usage d’aujourd’hui :
”GĂ©nĂ©rer une image avec l’IA Ă  partir d’un vocal”

đŸ”¶ Pourquoi ?
Tout le monde peut générer des images avec l'IA.

Encore faut-il savoir comment le dire, car "demander" Ă  une IA, c'est un art.
Ou au moins une forme d'ingénierie.

Les gens n’ont pas forcĂ©ment l’envie, ni le temps d’apprendre Ă  maĂźtriser cet art.

Ils veulent simplement l’utiliser.

đŸ”¶ Objectif ?
Faciliter l’utilisation de ces IA gĂ©nĂ©ratives.

Le sommaire :


1. Je te montre ce qu’il y a sous le capot.
2. Comment tu peux en tirer parti.
3. Ô geek, elle est pour toi celle-ci !
4. L’article que je te conseille.

Tu ne veux pas rater les prochaines Ă©ditions ? Inscris-toi 👇

Rentrons dans le vif du sujet ! 👇


1. Je te montre ce qu’il y a sous le capot !

Présentation du résultat en vidéo :

Je te présente le résultat du prototype.
(La vidéo est courte : 20s)


Tu veux tester ? C’est par là 👉 Le Bot Telegram

Schéma

1 techno = 1 brique Lego
Et je te montre comment elles s’intùgrent entre elles :

Le choix des briques techno.

1ïžâƒŁ J’ai dĂ©cidĂ© de partir sur un bot de messagerie, un chatbot.

Pourquoi ? Car l’application est dĂ©jĂ  installĂ©e par l’utilisateur.

Il a l’habitude de l’utiliser quotidiennement, donc moins de friction.


2ïžâƒŁ Mon choix s’est tout de suite portĂ© sur Telegram.

La raison est trùs pragmatique, c’est super facile de faire un bot sur ce canal.
Ça prend 2 minutes. Et beaucoup de gens sont sur Telegram.

Par la suite, rien n’empĂȘche de faire le mĂȘme bot sur Whatsapp, Messenger ou autre.


3ïžâƒŁ Pour la transcription du vocal, j’ai choisi de passer par Whisper.

C’est l’une des derniùres IA de OpenAI qui permet de faire la transcription d’un audio.

Et mĂȘme de traduire en anglais, en option.

Je trouve les rĂ©sultats trĂšs bons. Et comme les IA gĂ©nĂ©ratives ne comprennent que l’anglais, utiliser Whisper me permet de faire 2 tĂąches en une : transcrire et traduire.

Cerise sur le gĂąteau, elle est open source et peu gourmande en stockage. Donc si t’es un geek, tu peux la faire tourner le modĂšle directement chez toi ! đŸ€©


4ïžâƒŁ Concernant l’IA gĂ©nĂ©rative, c’est Stable Diffusion.

Tu le sais peut-ĂȘtre, mais gĂ©nĂ©rer une image a un coĂ»t.

Comme je suis auvergnat, je ne voulais pas que ça me coĂ»te trop cher đŸ€Ș.

Donc j’ai feintĂ©, je n’utilise pas directement Sable Diffusion mais Lexica.

Lexica est un moteur de recherche sur des images gĂ©nĂ©rĂ©es par Stable Diffusion. L’app est gratuite et ils ont une API trĂšs facile Ă  utiliser.


5ïžâƒŁ Il faut relier ces briques entre elles. J’ai choisi ce bon vieux Make.

Make est un outil d’automatisation qui sert de “glue” entre des produits informatiques.

Cela me permet d’avoir trùs vite un prototype en production.

Il n’est pas toujours possible d’utiliser Make, mais quand ça l’est, “la question elle est vite rĂ©pondue” 😅.


2. Comment tu peux en tirer parti.

Je ne vais pas te dire ce qu’il est possible de faire de ces IA gĂ©nĂ©ratives.
Il y a dĂ©jĂ  beaucoup d’articles sur ce sujet.

Je vais plutÎt de donner une façon de penser pour détecter des opportunités business dans la Tech.

C’est ce que j’utilise et je vois des opportunitĂ©s partout 😼.

âžĄïž Trouve une technologie trĂšs technique, pas ou peu dĂ©mocratisĂ©e et difficile d’accĂšs.
âžĄïž CrĂ©e les outils pour faciliter l’usage de cette techno.
âžĄïž Deviens le faiseur de pioches qui permettra Ă  tes clients d’aller chercher de l’or grĂące Ă  toi.

Il faut quand mĂȘme que cette techno rĂ©ponde Ă  de vrais cas d’usage !
RIP MĂ©tavers, mĂȘme si en tant que geek, j’adore le concept.

Et non tu ne dois pas forcĂ©ment ĂȘtre dĂ©veloppeur.
Il te suffit d’avoir une vision tech comme celle que je te partage ici 😉.

Dans le cas des IA génératives, pose-toi cette question :
comment les rendre encore plus faciles d’accùs ?
=> Dans une logique de plus grand nombre.
=> Ou une logique de spécialisation métier : architecte, décorateur, styliste, jeux vidéos, 



3. Ô geek, elle est pour toi celle-ci !

đŸ”” Comment Lexica fait-il pour indexer toutes ces images ?

Voici la rĂ©ponse d’un des dĂ©veloppeurs sur leur Discord :
“We compute CLIP embeddings for all the images and then do a KNN search to show the most similar images”
"Nous calculons le “CLIP embeddings” pour toutes les images et faisons ensuite une recherche KNN pour montrer les images les plus similaires"

Tu peux trouver des infos sur CLIP ici.

C’est un modĂšle qui gĂ©nĂšre la description d’une image.

Il est une des briques fondamentales de toutes les IA gĂ©nĂ©ratives aujourd’hui.

Pour faire simple, le “CLIP embeddings”, c’est les coordonnĂ©es internes au modĂšle qui lui permet de savoir si une image d’un chien est plus proche du mot “chien” ou du mot “chat”.

La technique utilisée par Lexica revient souvent et elle fonctionne trÚs bien.


đŸ”” Tu peux jouer avec Whisper sur HuggingFace.

Enfin, je t’invite vraiment à lire l’introduction du papier ici.
C’est trĂšs intĂ©ressant.


4. L’article que je te conseille :


🟱 J’ai lu une trĂšs bonne analyse sur les IA gĂ©nĂ©ratives d’images.

L’auteur est Sami, de la newsletter Smartr.

D’ailleurs, sa newsletter est un trĂšs bon complĂ©ment de La Batcave pour ne rien rater sur l’actualitĂ© Tech.

L’article 👉 Le vrai problùme avec l’IA n’est pas celui auquel vous pensez


Le mot de la fin

Cette Ă©dition t’a plu ? Alors partage-la ! 👇

Share


Sinon, un like ou un message fait toujours plaisir pour me montrer que tu as apprĂ©ciĂ© et m’encourager Ă  continuer.

L’indice pour le prochain prototype :
Un bot Telegram pour t’aider dans un pays Ă©tranger.

On se retrouve dans 2 semaines !

Tu ne veux pas rater la prochaine Ă©dition ? Inscris-toi 👇

Prends soin de toi,
Vincent 🩇

1
Share this post

Comment générer une image avec la voix sans te ruiner ?

www.labatcave.tech
1 Comment
François-Xavier Nion
Dec 3, 2022Liked by Vincent 🩇

Avec un peu de retard, car beaucoup de taf, top cette newsletter. Merci Vincent.

Expand full comment
Reply
TopNewCommunity

No posts

Ready for more?

© 2023 Vincent 🩇
Privacy ∙ Terms ∙ Collection notice
Start WritingGet the app
Substack is the home for great writing