Ich produziere animierte Kinder-Cartoons im 3D-Pixar-Stil, und die teuerste Zeile in meiner Pipeline ist das Video-Rendering. Eine einzige Folge fraß bisher einen so großen Teil meines Render-Budgets, dass danach kaum noch Spielraum für eine zweite blieb. Das war der Anlass für einen sauberen, datengetriebenen Test: Ich habe 7 Modell-Konfigurationen an genau denselben 5 Shots durchlaufen lassen und gemessen, statt zu raten.
Das Setup: gleiche Shots, gleiche Storyboards, faire Zahlen
Ein fairer Vergleich braucht eine konstante Basis. Also habe ich die 5 Storyboard-Frames einmal generiert und über Hardlinks an alle Modell-Ordner verteilt — kein Modell bekam ein besseres Ausgangsbild als das andere. Genauso bei Audio: Voice, SFX und Ambient wurden je einmal erzeugt und durchgereicht. Der gesamte Test kostete am Ende nur einen kleinen Bruchteil einer regulären Folge, also gut investiertes Lehrgeld.
Getestet wurden: Kling 3.0 (sound:off und sound:on), Grok Imagine, Cinematic Studio 3.0, Seedance 2.0 Fast, sowie WAN und Hailuo. Bewertet habe ich nach relativen Render-Kosten pro 10-Minuten-Folge, Durchlaufquote und Eignung für meinen Content.
Das Ergebnis in einer Tabelle
| Modell | Status | Kosten ggü. Status quo | Differenz |
|---|---|---|---|
| Kling 3.0 sound:off | getestet | ~35 % | −65 % |
| Grok Imagine | getestet | ~35 % | −65 % |
| Kling 3.0 sound:on | getestet | ~45 % | −55 % |
| Seedance 2.0 Fast | getestet | ~79 % | −21 % |
| Seedance 2.0 (alt) | Status quo | 100 % | — |
| Cinematic Studio 3.0 | getestet | ~111 % | +11 % |
| WAN / Hailuo | ungeeignet | — | NSFW-Block |
Der Gewinner ist Kling 3.0 sound:off: identisches Output-Format (1280×720, 24 fps), gleiches Pipeline-Konzept, lief in 100 % der Test-Renders durch — und halbiert die Kosten mit Reserve. Praktischer Effekt: Bei gleichem Budget kann ich zwei statt einer Folge pro Monat bauen.
Der dickste Stolperstein: NSFW-Filter killen drei Modelle
Das Überraschendste: Drei Modelle waren komplett unbrauchbar — nicht wegen schlechter Qualität, sondern wegen ihrer Sicherheitsfilter.
- WAN 2.7: 5 von 5 Shots blockiert. Der Filter triggert beim Start-Image — also schon beim Anblick eines Pixar-3D-Kindercharakters, nicht beim Prompt.
- Hailuo 2.3: ebenfalls 5/5, sogar bei entschärften Prompts („character" statt „boy/girl").
- WAN 2.6: gleiche aggressive Filter-Familie.
Kein Prompt-Trick hilft hier. Die Lehre für mich: Diese Modelle für Kinder-Content schlicht nicht mehr antesten. Immerhin werden blockierte Renders automatisch erstattet — echte Kosten entstehen also nicht, nur verbrannte Zeit.
Auch beim erlaubten Modell muss man beim Prompting aufpassen. Begriffe wie 7-year-old oder child lösen Minderjährigen-Schutzfilter aus, selbst in harmlosen Szenen. Mein Workaround:
vermeiden: "7-year-old girl", "child", "kids"
stattdessen: Name ("Amina"), "young character", "the two characters"
Was sonst nicht sauber lief
Ein systemisches Bild-Generator-Limit ist mir bei allen drei getesteten Image-Modellen begegnet: ein 2–3 cm sichtbarer Hals-Streifen zwischen Hijab-Unterkante und Kragen. Kein Prompt („pinned under chin", „tucked into collar", Großschreibung) löste es zuverlässig. Im fertigen 3D-Video bei Medium-Shot kaum sichtbar — für höhere Ansprüche bleibt nur Inpainting als manueller Fix nach dem Storyboard-Approval.
Zwei kleinere operative Reibungen, beide gelöst: ElevenLabs neigt bei SFX zu sehr stillem Ambient (kräftigere Prompts nötig), und mehr als 8 parallele Render-Jobs führten zu Submit-Fehlern (Retry-Logik nötig).
Zwei Audio-Wege, eine Entscheidung
Weil Kling sound:off stummes Video liefert, generiere ich Voice, SFX und Ambient komplett selbst (Silent-Pipeline) — volle Kontrolle, credit-effizient. Die Alternative für Modelle mit nativem Ton (sound:on, Grok): Demucs trennt den Audio-Track, die Pseudo-Stimme fliegt raus, das native Ambient bleibt (klingt oft authentischer), und meine kuratierte ElevenLabs-Stimme kommt drüber. Beide Wege laufen jetzt stabil.
Fazit
Der ehrlichste Teil eines solchen Tests ist, dass die Entscheidung nicht allein am Preis hängt: Bevor ich den Standard final umstelle, sichte ich die 5 Pilot-Cuts side-by-side nach Character-Konsistenz, Visual Quality, Audio-Naturalness und Lipsync. Mein Algorithmus-Score ist dabei nur Diagnostik — das letzte Wort hat mein Ohr und mein Auge. Aber als Volume-Workhorse ist der Fall klar: gleiche Funktion, halber Preis, doppelte Output-Menge. Genau dafür macht man so einen Test.