Dans les coulisses de la Maison-Artichaut : making of d’un clip d’escargots

Comment fabrique-t-on une animation vidéo d'escargots bretons avec l'aide des intelligences artificielles ? Voici les coulisses, les chiffres vertigineux, les heureux hasards et les bourdes savoureuses qui ont jalonné cinq semaines de production artisanale.

Il y a quelques semaines, je vous racontais ici-même la genèse de "Une Maison-Artichaut sur la plage", ce court métrage d'animation où une famille d'escargots part visiter la maison de leurs rêves. Aujourd'hui, j'aimerais entrouvrir la porte de l'atelier et vous montrer ce qui s'est passé en coulisses. Parce qu'entre l'idée initiale et le clip final, il y a eu… disons que cela mérite quelques explications.

Un rappel rapide sur la fabrication

Pour celles et ceux qui n'auraient pas suivi le premier épisode (et qui n'auraient pas non plus vu le film), voici l'essentiel du pipeline utilisé.

Tout est parti d'un texte rédigé par mon épouse Ann, racontant l'histoire de quelques escargots. Parmi eux : Mario (escargot de terre) et Jerry (escargot de mer). Pas de découpage, pas de chapitres : juste un récit d'un seul tenant, à mi-chemin entre la fable et le conte. À partir de là, Ann a d'abord fabriqué des figurines en feutrine, à la main, qui ont servi de modèles pour les personnages, puis elle a lu pour moi le texte intégral, que j'ai conservé dans un fichier son.

Ensuite, j'ai sollicité deux intelligences artificielles génératives : Flow (de Google) pour les clips animés, et Meta AI pour certaines vidéos, images fixes et variantes. Le tout a été assemblé dans le logiciel de montage vidéo VSDC, avec l'aide précieuse de Claude (l'assistant IA d'Anthropic) pour la préparation des prompts, la résolution de certains casse-tête techniques, et le dialogue méthodologique tout au long du projet.

Pour le détail des figurines et de la genèse du projet, je vous renvoie à l'article original.

Le projet en chiffres : un roman de 500 pages caché dans les coulisses

Quand on parle de production vidéo, on pense d'abord au poids des fichiers, à la durée du clip, au nombre de plans tournés. Tout cela existe bel et bien, et j'y reviens dans un instant. Mais une fois ces données rassemblées, j'ai eu envie de mesurer autre chose : le poids des échanges textuels qui ont accompagné cette aventure.

L'équivalent d'un roman moyen

J'ai posé la question à Claude lui-même, et la réponse m'a sidéré : nos échanges textuels au cours du projet représentent entre 800 000 et 1 million de caractères. Soit, en équivalent éditorial, environ 450 à 550 pages d'un livre de poche. L'équivalent d'un roman moyen.

Et encore, ce chiffre ne comptabilise que le texte. Il faudrait y ajouter :

  • 60 à 80 images échangées (captures de Flow, Meta, VSDC, photos des figurines sous tous les angles…)
  • 25 à 35 widgets HTML/CSS, SVG, artefacts produits par Claude pour visualiser certains aspects du projet (timeline, tableaux comparatifs, schémas de scènes…)

Autrement dit, derrière les quelques minutes du clip final, il y a un volume de conversation digne d'un échange épistolaire approfondi. Comme si, pour faire naître ce petit film d'escargots, deux co-auteurs avaient correspondu pendant cinq semaines sans relâche.

Les chiffres "vidéo" proprement dits

Côté production multimédia, le projet pèse 7,77 Go et rassemble 940 fichiers. Dans le détail :

  • 243 clips vidéo au format MP4 (soit un total de 2,4 Go), qui constituent l'arsenal des plans générés par les IA
  • 461 images fixes au total (JPEG, JPG, PNG, webp), soit près de 500 Mo de références, planches et matériaux bruts (nombre de ces images ont servi de "première frame" pour les vidéos générées).
  • 28 fichiers audio MP3, pour l'illustration sonore (bruitages et musiques).

La contrainte technique qui a tout structuré

Quand on parle de montage vidéo, on imagine volontiers une machine puissante qui exécute fidèlement tous les caprices du monteur. La réalité est bien plus modeste.

Illustration métaphorique du montage vidéo en couches successives

Le défi de la fluidité

Mon logiciel VSDC, pourtant performant, atteint vite ses limites (avec mes 8 Go de RAM seulement) quand on lui demande de jongler avec des dizaines de pistes simultanées, des effets, des transitions, des couches audio… À partir d'un certain niveau de complexité, il se met à bégayer lors de la lecture. Les saccades rendent impossible toute vérification fine du rendu : on ne peut plus juger si un raccord tombe juste, si une transition est élégante, si la musique colle bien à l'image. Sans cette possibilité de visionnage fluide, impossible de continuer à travailler sérieusement.

J'ai donc dû organiser toute ma production autour d'un seul mot d'ordre : préserver la fluidité de lecture coûte que coûte. Cela m'a conduit à adopter une méthode de travail en couches successives, où chaque étape consolide la précédente sous forme de pré-mix. Une fois un pré-mix réalisé, je ne manipule plus qu'un seul fichier compact à la place des cinquante éléments qui l'ont composé. Le gain de fluidité est spectaculaire. Contrepartie : je ne peux plus revenir sur tous les détails…

Le coup des "clips palindromes"

Parmi les techniques que j'ai dû maîtriser figure ce que j'ai fini par appeler les clips palindromes. L'idée est simple : quand un plan généré par une IA dure trois secondes et qu'il en faudrait six, on peut évidemment le boucler. Mais une boucle brute produit toujours une saccade plus ou moins visible au moment où le plan revient à son début. Pour gommer cet effet, on lit d'abord le clip dans le sens normal, puis on demande au logiciel de le remonter à l'envers, image par image, jusqu'à la première. Ainsi, si l'on répète le clip ainsi obtenu, la boucle passe inaperçue.

Cette astuce ne fonctionne hélas pas en toutes circonstances. Les oiseaux ne reculent pas dans le ciel, et les vagues ne refluent pas vers le large. Dans ces cas-là, il faut trouver autre chose. Mais quand cela marche, le résultat est bluffant.

Du découpage par scènes au découpage par cartons

En cours de route, un changement structurel est intervenu : passer d'un découpage par scènes à un découpage par cartons. Ces brèves intercalaires, héritées du cinéma muet, donnent au récit son rythme et permettent à la voix off de respirer. Trois mots sur fond noir, trois secondes de musique, paf : l'œil et l'oreille repartent à neuf.

Refondre toute l'architecture du projet autour de ce nouveau découpage a généré pas mal d'ajustements. Mais le clip y a gagné en respiration.

La spécificité de Flow : des bandes-son qui surprennent

Avant de raconter les meilleures anecdotes, un mot sur ce qui rend Flow particulièrement intéressant (et parfois inattendu).

En effet, quand on demande à Flow de générer un clip, il ne se contente pas de produire des images animées : il ajoute systématiquement une bande-son. Cette bande-son peut inclure des bruitages contextuels, mais aussi une musique adaptée à la scène, et parfois même des dialogues imaginés (en anglais, hélas, ce qui les rend inutilisables pour un clip francophone). Libre à nous de retenir ou non cet apport sonore dans le montage final.

Dans l'immense majorité des cas, j'ai écarté ces bandes-son qui n'apportaient rien de pertinent au projet. Mais il y a eu quelques exceptions remarquables, où ce que Flow proposait dépassait (et de loin) tout ce que j'aurais pu fabriquer à la main.

Quand la sérendipité s'invite au montage

Voici trois moments où l'IA a fait mieux que ce qu'on lui demandait.

Le fest-noz devenu petit chef-d'œuvre

Le texte d'Ann, à ce passage du récit, évoquait simplement les veillées organisées par nos deux escargots pour les enfants du voisinage. Il fallait illustrer cela. J'ai donc imaginé une scène : Mario jouant du biniou (instrument breton par excellence), Jerry à la guitare, le tout au bord de la mer, autour d'un feu crépitant, sous un ciel étoilé, avec des bébés gastéropodes captivés en cercle autour d'un feu. Plus veillée de camp breton que ça, c'était impossible.

J'ai donné ces directives à Flow, sans plus de précisions. Et là, je me suis pris une triple claque.

Première surprise : Flow a généré une musique celtique authentique, parfaitement crédible, composée exclusivement d'un biniou portant la mélodie et d'une guitare assurant l'accompagnement. Exactement ce que j'aurais pu imaginer, mais en mille fois mieux que ce que j'aurais pu trouver dans une banque sonore.

Deuxième surprise : les bébés escargots autour des musiciens se sont mis à sautiller en rythme, dans une chorégraphie spontanée, façon "flash mob au fest noz"… Le tout parfaitement synchrone avec la musique entendue. Pas un décalage, pas un contretemps. L'IA avait composé musique et chorégraphie d'un seul jet, en les synchronisant.

Troisième surprise, et celle-ci est savoureuse : pour atteindre cette synchronicité, les bébés gastéropodes se retrouvent en l'air pendant un temps anormalement long. Défiant ainsi allègrement les lois de la pesanteur, à l'image des héros de cartoon qui continuent à courir dans le vide une fois sortis de la falaise. Un petit clin d'œil involontaire à la grande tradition du dessin animé classique.

Très franchement, j'aurais pu chercher des semaines sans obtenir ce résultat. Là, c'est arrivé en quelques secondes, par-dessus le marché. Finalement, c'est un des rares passages où la voix d'Ann s'arrête, pour laisser place à la musique (ce qui n'était pas du tout prévu au départ).

Le crabe et son grand orchestre

Une autre scène mettait en scène un vieux bus (j'y reviens dans un instant) sur le capot duquel un crabe vient se hisser pour saluer les escargots passagers. Flow a généré un plan absolument charmant. Mais surtout, il a glissé dans la bande-son du clip un détail que je n'avais pas demandé : le bruit (incroyablement réaliste) des pinces du crabe sur la tôle du capot, accompagné en arrière-plan d'un moteur de vieux bus tournant au ralenti. Le réalisme sonore était saisissant.

Là encore, impossible de rivaliser à la main. J'ai gardé tel quel (en superposition sur la voix d'Ann).

Le bus à l'esthétique improbable

Tant que j'y suis, parlons-en de ce bus. J'avais simplement demandé un autobus ancien, un peu pittoresque, tenant à la fois des "School buses" Etats-uniens et de la 2 CV avec ses belles ailes arrondies. L'IA m'a livré un véhicule à l'esthétique parfaitement inclassable : un improbable hybride entre les deux références, avec des proportions un peu étranges, des couleurs imprévues, et un charme indéniable. Ce n'était pas vraiment ce que j'avais en tête, c'était bien meilleur. Et c'est précisément pour cela que je l'ai gardé. Cela apporte au clip une touche d'étrangeté poétique que je n'aurais jamais pensé à demander.

Bus hybride, conçu par IA, entre 'School bus" et 2 CV

Les bourdes savoureuses

Évidemment, tout n'a pas été lumineux. Travailler avec des intelligences artificielles génératives, c'est aussi composer avec leurs biais, leurs fixations, et leurs interprétations (parfois inattendues) de ce qu'on leur demande.

Quand la grande nacre devient une baguette de pain

Une des scènes du clip met en scène ce qu'on appelle une grande nacre — c'est le nom officiel d'un magnifique coquillage en forme de longue lame. J'avais demandé à l'IA d'en produire une animation, façon "stop motion". Le résultat m'a laissé pantois : ce qu'elle m'a livré au début ressemblait beaucoup moins à un coquillage qu'à une baguette de pain bien croustillante, dotée par-dessus le marché d'une petite paire d'yeux légèrement inquiets. La forme allongée, la couleur dorée, la texture striée… toutes les caractéristiques de la nacre ont donné un résultat proche d'une viennoiserie.

Voyez plutôt :

Coquillage grande nacre généré par IA ressemblant à une baguette de pain croustillante avec deux yeux inquiets

À pleurer de rire.

Le camion qui ne voulait pas refuser de démarrer

Une autre séquence, plus dramatique celle-là, demandait de filmer depuis l'intérieur de la cabine d'un camion l'expression dépitée d'un chauffeur dont le moteur refuse de démarrer. Simple, non ? Eh bien non. Les IA que j'ai sollicitées s'obstinaient à faire démarrer le camion. Le chauffeur tournait la clé, le moteur ronflait, gentiment, et surtout le camion avançait ! Avec Claude, nous avons dû tenter une dizaine de formulations différentes, toujours sans succès.

J'étais prêt à abandonner l'idée, mais au bout du compte c'est Claude qui a fini par trouver la formule magique. Au lieu de demander "le moteur ne démarre pas", il a suggéré : "ce camion ne démarrera JAMAIS". Le mot JAMAIS en majuscules, presque comme une incantation. Et là, miracle : l'IA a enfin produit un plan où le chauffeur tourne la clé – et la tête – en tout sens, dans un silence parfait, avec une expression de profond découragement.

Cette anecdote m'a fait beaucoup réfléchir. Quelque part dans les tréfonds algorithmiques des modèles, il existe sans doute une association statistique très forte entre "camion" et "qui roule". Pour la contourner, il faut formuler l'interdit avec assez de force pour qu'il l'emporte sur l'évidence implicite. C'est presque de la psychologie cognitive appliquée aux machines.

Voilà qui m'a rappelé le cursus de communication qu'en son temps j'ai suivi, et au cours duquel nous avons appris que le sens de notre communication est donné par le feedback que l'on obtient. Après avoir épuisé toute ma collection de "… Mais qu'il est bête !", exprimée sur tous les tons, je me suis efforcé de me convaincre que c'était à moi de reformuler ma demande, jusqu'à ce que tout fonctionne comme je l'entendais. Et c'est ce qui s'est produit !

Ce que ce projet m'a appris

Au terme de ces cinq semaines de production, quelques convictions se sont renforcées chez moi.

L'intelligence artificielle n'exécute pas, elle propose

On parle souvent des IA génératives comme d'outils qui exécutent nos demandes. C'est inexact. Elles proposent. Et ces propositions, parfois, peuvent s'avérer meilleures que notre demande initiale. À condition d'être à l'écoute et de savoir reconnaître une bonne idée même quand on ne l'avait pas eue soi-même.

La collaboration suppose un dialogue

Quand une IA "bloque" sur quelque chose, ce n'est pas forcément un bug à contourner. C'est souvent un signe qu'il nous faut reformuler. Le coup du camion en témoigne : changer la formulation, c'est changer le résultat. Et parfois, il faut littéralement parler, échanger avec l'IA, lui expliquer ce qu'on attend, lui montrer où elle se trompe. Patiemment. Sans relâche. Jusqu'à obtenir quelque chose d'acceptable. Comme c'est parfois le cas avec un collaborateur humain.

L'artisanat reste central

Toute la beauté de ce projet vient de la couche humaine qui s'est superposée à la production des IA : choisir parmi les variantes, écarter ce qui ne convient pas, ajuster les durées au quart de seconde près, marier les bruitages, composer la musique, doser les transitions. Aucune IA ne fait cela à votre place, de cette façon-là. Et c'est très bien ainsi.

Pour aller plus loin

Si vous n'avez pas encore vu "Une Maison-Artichaut sur la plage", je vous invite à le découvrir dans l'article qui présente le clip. Vous y trouverez le clip lui-même ainsi que le contexte poétique de cette petite aventure d'escargots bretons.

Et si vous voulez réagir, partager vos propres expériences de production assistée par IA, ou simplement me dire si la grande nacre vous fait penser à autre chose qu'à une baguette de pain… les commentaires sont là pour ça.


UTILISATION DE L'IA

IA, Interface homme - machine, deux mains (l'une humaine, l'autre robotique) se rejoignent...

L'élaboration de cet article a bénéficié d'un processus créatif hybride alliant l'expertise humaine et les capacités d'une intelligence artificielle, qui m'a épaulé dans les tâches de recherche, de rédaction et de peaufinage.

Filet séparateur
Portrait Bernard Lamailloux (façon BD)

Si cet article vous a plu, venez donc consulter d'autres articles de la catégorie 'geekeries et autres bidouilles'



Le Petit Abécédaire...

Livre "Petit abécédaire de  développement personnel à l'usage des formateurs et enseignants", par Bernard Lamailloux

"Un ouvrage bien documenté, écrit par quelqu'un qui sait de quoi il parle et qui le fait avec clarté humour et éthique. Les exemples et les conseils sont judicieux et très utiles. Je le recommanderai avec plaisir.."

Josiane de Saint Paul

Quel livre ! Un travail de moine. D'une grande originalité. J'ai à peine commencé à le parcourir et, déjà, je le savoure. Je vais d'ailleurs continuer à le déguster lentement. Bravo !

Serge Marquis

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *