

Discover more from La Batcave
Le batsignal est dans le ciel, merci dâĂȘtre venu đŠ !
Nous avons dĂ©passĂ© la barre des 100 inscrits depuis la derniĂšre fois đ„ł
đ¶ Le cas dâusage dâaujourdâhui :
âGĂ©nĂ©rer une image avec lâIA Ă partir dâun vocalâ
đ¶ Pourquoi ?
Tout le monde peut générer des images avec l'IA.
Encore faut-il savoir comment le dire, car "demander" Ă une IA, c'est un art.
Ou au moins une forme d'ingénierie.
Les gens nâont pas forcĂ©ment lâenvie, ni le temps dâapprendre Ă maĂźtriser cet art.
Ils veulent simplement lâutiliser.
đ¶ Objectif ?
Faciliter lâutilisation de ces IA gĂ©nĂ©ratives.
Le sommaire :
1. Je te montre ce quâil y a sous le capot.
2. Comment tu peux en tirer parti.
3. Ă geek, elle est pour toi celle-ci !
4. Lâarticle que je te conseille.
Rentrons dans le vif du sujet ! đ
1. Je te montre ce quâil y a sous le capot !
Présentation du résultat en vidéo :
Je te présente le résultat du prototype.
(La vidéo est courte : 20s)
Tu veux tester ? Câest par lĂ đ Le Bot Telegram
Schéma
1 techno = 1 brique Lego
Et je te montre comment elles sâintĂšgrent entre elles :
Le choix des briques techno.
1ïžâŁ Jâai dĂ©cidĂ© de partir sur un bot de messagerie, un chatbot.
Pourquoi ? Car lâapplication est dĂ©jĂ installĂ©e par lâutilisateur.
Il a lâhabitude de lâutiliser quotidiennement, donc moins de friction.
2ïžâŁ Mon choix sâest tout de suite portĂ© sur Telegram.
La raison est trĂšs pragmatique, câest super facile de faire un bot sur ce canal.
Ăa prend 2 minutes. Et beaucoup de gens sont sur Telegram.
Par la suite, rien nâempĂȘche de faire le mĂȘme bot sur Whatsapp, Messenger ou autre.
3ïžâŁ Pour la transcription du vocal, jâai choisi de passer par Whisper.
Câest lâune des derniĂšres IA de OpenAI qui permet de faire la transcription dâun audio.
Et mĂȘme de traduire en anglais, en option.
Je trouve les rĂ©sultats trĂšs bons. Et comme les IA gĂ©nĂ©ratives ne comprennent que lâanglais, utiliser Whisper me permet de faire 2 tĂąches en une : transcrire et traduire.
Cerise sur le gĂąteau, elle est open source et peu gourmande en stockage. Donc si tâes un geek, tu peux la faire tourner le modĂšle directement chez toi ! đ€©
4ïžâŁ Concernant lâIA gĂ©nĂ©rative, câest Stable Diffusion.
Tu le sais peut-ĂȘtre, mais gĂ©nĂ©rer une image a un coĂ»t.
Comme je suis auvergnat, je ne voulais pas que ça me coĂ»te trop cher đ€Ș.
Donc jâai feintĂ©, je nâutilise pas directement Sable Diffusion mais Lexica.
Lexica est un moteur de recherche sur des images gĂ©nĂ©rĂ©es par Stable Diffusion. Lâapp est gratuite et ils ont une API trĂšs facile Ă utiliser.
5ïžâŁ Il faut relier ces briques entre elles. Jâai choisi ce bon vieux Make.
Make est un outil dâautomatisation qui sert de âglueâ entre des produits informatiques.
Cela me permet dâavoir trĂšs vite un prototype en production.
Il nâest pas toujours possible dâutiliser Make, mais quand ça lâest, âla question elle est vite rĂ©pondueâ đ .
2. Comment tu peux en tirer parti.
Je ne vais pas te dire ce quâil est possible de faire de ces IA gĂ©nĂ©ratives.
Il y a dĂ©jĂ beaucoup dâarticles sur ce sujet.
Je vais plutÎt de donner une façon de penser pour détecter des opportunités business dans la Tech.
Câest ce que jâutilise et je vois des opportunitĂ©s partout đź.
âĄïž Trouve une technologie trĂšs technique, pas ou peu dĂ©mocratisĂ©e et difficile dâaccĂšs.
âĄïž CrĂ©e les outils pour faciliter lâusage de cette techno.
âĄïž Deviens le faiseur de pioches qui permettra Ă tes clients dâaller chercher de lâor grĂące Ă toi.
Il faut quand mĂȘme que cette techno rĂ©ponde Ă de vrais cas dâusage !
RIP MĂ©tavers, mĂȘme si en tant que geek, jâadore le concept.
Et non tu ne dois pas forcĂ©ment ĂȘtre dĂ©veloppeur.
Il te suffit dâavoir une vision tech comme celle que je te partage ici đ.
Dans le cas des IA génératives, pose-toi cette question :
comment les rendre encore plus faciles dâaccĂšs ?
=> Dans une logique de plus grand nombre.
=> Ou une logique de spĂ©cialisation mĂ©tier : architecte, dĂ©corateur, styliste, jeux vidĂ©os, âŠ
3. Ă geek, elle est pour toi celle-ci !
đ” Comment Lexica fait-il pour indexer toutes ces images ?
Voici la rĂ©ponse dâun des dĂ©veloppeurs sur leur Discord :
âWe compute CLIP embeddings for all the images and then do a KNN search to show the most similar imagesâ
"Nous calculons le âCLIP embeddingsâ pour toutes les images et faisons ensuite une recherche KNN pour montrer les images les plus similaires"
Tu peux trouver des infos sur CLIP ici.
Câest un modĂšle qui gĂ©nĂšre la description dâune image.
Il est une des briques fondamentales de toutes les IA gĂ©nĂ©ratives aujourdâhui.
Pour faire simple, le âCLIP embeddingsâ, câest les coordonnĂ©es internes au modĂšle qui lui permet de savoir si une image dâun chien est plus proche du mot âchienâ ou du mot âchatâ.
La technique utilisée par Lexica revient souvent et elle fonctionne trÚs bien.
đ” Tu peux jouer avec Whisper sur HuggingFace.
Enfin, je tâinvite vraiment Ă lire lâintroduction du papier ici.
Câest trĂšs intĂ©ressant.
4. Lâarticle que je te conseille :
đą Jâai lu une trĂšs bonne analyse sur les IA gĂ©nĂ©ratives dâimages.
Lâauteur est Sami, de la newsletter Smartr.
Dâailleurs, sa newsletter est un trĂšs bon complĂ©ment de La Batcave pour ne rien rater sur lâactualitĂ© Tech.
Lâarticle đ Le vrai problĂšme avec lâIA nâest pas celui auquel vous pensez
Le mot de la fin
Cette Ă©dition tâa plu ? Alors partage-la ! đ
Sinon, un like ou un message fait toujours plaisir pour me montrer que tu as apprĂ©ciĂ© et mâencourager Ă continuer.
Lâindice pour le prochain prototype :
Un bot Telegram pour tâaider dans un pays Ă©tranger.
On se retrouve dans 2 semaines !
Prends soin de toi,
Vincent đŠ
Comment générer une image avec la voix sans te ruiner ?
Avec un peu de retard, car beaucoup de taf, top cette newsletter. Merci Vincent.