in

Création d’un générateur de bande dessinée vidéo à intelligence artificielle pour mon fils Owly | par Agustinus Nalwan | Avril 2023


OWLY : UN RACONTEUR D’HISTOIRES COMIQUES AI PERSONNALISÉ POUR LES ENFANTS
Chaque soir, raconter des histoires à son enfant est un rituel précieux pour beaucoup de parents. Cependant, au fil du temps, les parents peuvent avoir du mal à trouver de nouvelles histoires captivantes pour leur enfant. C’est ce qu’a constaté le narrateur d’histoires personnelles lorsqu’il a commencé à raconter des histoires à son fils de 4 ans Dexie. Avec une collection de livres pour enfants impressionnante, il a rapidement découvert que pour créer une histoire vraiment captivante, il devrait la personnaliser en fonction des centres d’intérêt de son fils et des valeurs que lui-même souhaite lui inculquer. Mais comment maintenir un tel niveau de personnalisation et de narration sur mesure sans épuiser sa propre créativité ?

L’idée de créer une intelligence artificielle (IA) qui pourrait produire des histoires personnalisées est alors venue à l’esprit du narrateur. Il a nommé cette IA “Owly”, du nom du volatile favori de son fils. Owly est capable de créer des bandes dessinées pleine de vie, avec jusqu’à 10 vignettes, en utilisant des personnages que Dexie connaît et aime. Pour ce faire, le narrateur a utilisé cinq modules : le générateur de script de l’histoire, le générateur d’images de la bande dessinée, le module de conversion texte-en-voix, le créateur de vidéo et le module de contrôle. Le tout a été construit sur une infrastructure d’Amazon SageMaker JumpStart, d’Amazon SageMaker Studio et de Batch Transform.

LE GÉNÉRATEUR D’IMAGES DE BANDE DESSINÉE

Le narrateur a finalement sélectionné le modèle Stable Diffusion 2.1 pour la génération automatique de bandes dessinées en utilisant Amazon SageMaker JumpStart. Il a été convoqué pour produire des images en suivant le module de génération de script de l’histoire. L’IDE Amazon SageMaker Studio, qui offre une interface unifiée pour toutes les tâches de l’apprentissage machine a permis de travailler facilement sur ce projet. Les commandes basées sur Jupyter Notebook ont permis de mettre en place l’ensemble des processus plus rapidement. Les images générées par la Stable Diffusion 2.1 ont pu être visualisées et évaluées instantanément dans Amazon SageMaker Studio.

LE GÉNÉRATEUR DE SCRIPTS D’HISTOIRES

le Générateur de Scripts d’Histoires est le démarrage de tout le processus. Il utilise l’IA pour produire une bande dessinée d’environ 7-10 vignettes avec différentes sections comiques basées sur la prémisse de l’histoire sélectionnée et les figures de personnages de Dexie. Le générateur de texte utilise openAI GPT3.5 Large Language Model (LLM) pour créer un texte de qualité à partir des phrases de départ insérées. Le client essaie différentes phrases de départ, essentiellement une courte proposition pour amener la génération de texte qui suivra. Le GPT-3.5 aide à la production d’un script personnalisé qui inclut les centres d’intérêts et les valeurs éthiques du client.

LA CONVERSION TEXTE-EN-VOIX

Le module Text-to-Speech transforme chaque paragraphe du script de l’histoire en narration audio. Cela permet à l’utilisateur de faire entendre leur histoire personnalisée à leur enfant, fournissant une expérience plus dynamique et immersive. Amazon Polly est utilisé pour ce processus. Polly utilise une méthode appelée traitement par réseau neuronal pour créer des voix naturelles. Polly permet également de régler divers paramètres tels que la vitesse, l’intonation, et le timbre pour produire la narration audio désirée.

LE CRÉATEUR DE VIDÉO

Le créateur de vidéo combine les images, le texte du générateur de script d’histoire et les fichiers audio créés par le module Text-to-Speech pour produire une vidéo personnalisée de l’histoire d’environ 2-3 minutes. Les images créées par Stable Diffusion 2.1 sont transformées en dessins animés numériques dans une bande dessinée en utilisant MoviePy. La bande son est découpée et synchronisée sur la bande dessinée pour donner vie aux photos en une vidéo.

LE MODULE DE CONTRÔLE

Enfin, le module de contrôle sert de centre névralgique de tout le processus, en utilisant AWS Batch pour diriger et combiner tous les modules en une seule tâche. Le module coordonne le flux de travail, lançant chaque module alors que nécessaire, et surveillant la sortie pour détecter et résoudre tout problème potentiel qui pourrait interférer avec la fonctionnalité de l’ensemble du système.

LA CRÉATION DES HISTOIRES

L’utilisation d’Owly équivaut à la création d’une expérience unique et interactive pour les enfants. Avec le pouvoir de créer des personnages personnalisés sur mesure, de les inclure dans les bandes dessinées et de les ajouter à l’histoire, les enfants bénéficient d’une expérience d’histoire qui reflète leurs préférences individualisées en personnages et en scénarios. Owly non seulement assure une meilleure narration, mais aussi une narration de qualité supérieure. Le client n’a pas besoin de s’embarrasser de l’impression de plusieurs livres ou de l’utilisation de différents de manuels scolaires. La création de façons personnalisées de transmettre des connaissances et des idées à l’enfant sous forme d’histoires est presque toujours plus bénéfique que l’utilisation d’histoires conventionnelles. Tout cela a été accompli grâce à l’utilisation du SageMaker d’Amazon, qui est capable de mettre en place efficacement des environnements de machine learning pour des projets de toutes tailles en utilisant des outils comme SageMaker studio et Batch Transform.

What do you think?

Written by Barbara

Leave a Reply

Your email address will not be published. Required fields are marked *

2.0 des Présentations Pich de l’Économie des Créateurs – 38 decks de présentation qui ont aidé les startups créatrices à lever 942 millions de dollars.

BuzzFeed News va fermer ses portes.