Blog

Flux vs. Midjourney. Eine Gegenüberstellung

Brezel und Bier vor Bergsee-Panorama, ki-generiert.

Okay… wir wissen, dass die Welt der KI schnelllebig und disruptiv ist…

Doch hätte vor einem Monat jemand behauptet, ein Start-up deutscher Gründer würde ein Text-to-Image-Modell entwickeln, das so leistungsfähig ist wie Midjourney oder Stability.ai (Stable Diffusion) und das alle anderen in den Schatten stellt – er wäre belächelt worden. Vor allem Midjourney wird schließlich schon seit Jahren kontinuierlich weiterentwickelt, hat eine riesige Nutzergemeinde und belegt in Sachen Bildqualität seit Jahren Spitzenplätze in den Ranglisten.

Jetzt ist es dennoch passiert: Das Start-up Black Forest Labs (BFL) mit Wurzeln im Schwarzwald und Firmensitz in Wilmington, USA, gab am 01. August 2024 nicht nur seine Gründung bekannt, sondern veröffentlichte noch am selben Tag eine Text-to-Image-Technologie, die es vermag, den Marktführer Midjourney über Nacht in den Schatten zu stellen. Ihr Name: Flux. Ihre Bildqualität so hoch, das sie aus dem Stand an die Spitze der Rangliste aller relevanten Text-to-Image-Modelle geschossen ist.

Als Unternehmen mit großem Know-how im Bereich User Experience Design (UX), verfolgen wir das Geschehen im Bereich bildgebender KI sehr genau, um für unsere Kunden diejenigen Tools an den Start zu bringen, die bestmögliche Qualität, Effizienz und Wertschöpfung versprechen. Natürlich hat Flux sofort auch unser Interesse geweckt und wir haben die Technologie ein paar ersten Tests unterzogen. Es folgt ein kurzer Überblick unserer Erfahrungen.

Mann mit Brille im hyperrealisitschen Stil, KI-generiert

Flux-Prompt: Old man with glasses portrait, photo, 50mm, f1.4, natural light, Pathéchrome

Mann vor Computer-Bildschirm im hyperrealistischen Stil, KI-generiert

Flux-Prompt: Portrait shot of an IT developer looking captivated at a computer screen, standing in an IT office with coworkers standing in the background, photographic, 8k resolution, Nikon, Cinematic, 45mm lens, f/1.8, photorealistic

Hier eine Aufstellung aller aktuellen Text-to-Image-Modelle im Vergleich ihrer Bildqualität. Quelle: artificialanalysis.ai

Text-To-Image-Modelle im Vergleich von artificialanalysis.ai

Verfügbarkeit und Nutzungsmöglichkeiten

Im Gegensatz zu Midjourney bietet der Hersteller BFL keine Bedienoberfläche oder GUI an. Wer Flux nutzen möchte, kann dies derzeit entweder über die kostenpflichtigen Dienste Grok, stability.ai und Freepik tun oder über diverse Dienste wie fal.ai und replicate.com – die Kosten pro generierten Bild liegen hier im Cent-Bereich. Wir haben uns zwecks unserer Tests für fal.ai entschieden und konnten ca. 50 Bilder kostenlos generieren.

Wir haben uns natürlich alle drei Flux-Modelle genauer angeschaut. Zunächst ist anzumerken, dass zwei der Modelle (Flux.1.fast & Flux.1.dev) als Open-Source-Angebot zur Verfügung stehen. Beide können zudem lokal ausgeführt werden. Das Modell Flux.1.pro ist indes das leistungsfähigste von allen, das auch für kommerzielle Zwecke eingesetzt werden kann. Hier ist die Nutzung nur über eine der genannten kostenpflichtigen APIs möglich.

Für unsere eigentlichen Tests haben wir das Modell Flux1.dev verwendet, das wir über die Software DiffusionBee lokal auf einem MacBook Pro mit M1-Prozessor installiert haben. Die Generierung eines Bildes dauert hier je nach Konfiguration 1-2 Minuten und ist kostenlos. Für die kommerzielle Nutzung sind diese Bilder allerdings nicht freigegeben.

Stärken von Flux

Die wohl bemerkenswerteste Stärke von Flux ist die Umwandlung von Schrift zu Bildern. Dies funktioniert so fehlerfrei wie bei keinem anderen Modell. Außerdem erlaubt Flux die Verwendung von Marken wie Adidas, Nike oder BMW. Auch was die künstlerische Freiheit angeht, ist Flux etwas weniger restriktiv als die Konkurrenz. Wer z. B. einen ehemaligen amerikanischen Präsidenten fiktiv ins Gefängnis stecken will, kann das mit Midjourney nicht machen, weil hier Sperren greifen. Mit Flux ist das problemlos möglich – aber das wissen wir nur von einem Freund.

Mädchen in T-Shirt mit Adidas-Aufschrift, KI-generiert

Flux-Prompt: Young smiling woman wearing a blue adidas sweatshirt with a big logo in front of an old house in new york

Mädchen in T-Shirt mit Micromata-Aufschrift, KI-generiert

Flux-Prompt: Young smiling woman in a green Shirt with the word „MICROMATA“ written in sans serife font, portrait, photo, 50mm, f1.4, natural light, Pathéchrome

Grenzen des Modells

Flux ist kein Meisterfälscher. Während es mit Midjourney relativ einfach ist, Bilder im Stil bekannter Künstler wie z. B. Leonardo da Vinci zu erstellen, fiel uns das mit Flux nicht ganz so leicht. Dies kann aber auch daran liegen, dass unsere Prompts anfangs nicht präzise genug waren, oder wir die falschen Parameter verwendet haben. Flux, so unsere Erfahrung, braucht sehr detaillierte und beschreibende Prompts, um die besten Ergebnisse zu erzielen. Unterstützung für bessere Prompts fanden wir dann zum Glück bei gliff.app, die einen Flux Prompt Enhancer zur Verfügung stellen.

Computer-Maus im Zeichenstil, KI-generiert

Midjourney-Prompt: Very detailed handdrawing of microchips and a computer mouse by Leonardo Da Vinci – stylize 700

Computer-Maus im Zeichenstil, KI-generiert

Flux.dev: Very detailed handdrawing of microchips and a computer mouse by Leonardo Da Vinci – Sampling Steps 36

Fazit des Tests

Flux ist eine ausgezeichnete Alternative, wenn es darum geht, realistische und hyperrealistische Bilder zu erzeugen. Auch, wenn man Schrift im Bild hat, ist es derzeit die beste Wahl unter den Text-to-Image-Modellen. Die einfache lokale Installation über die Software DiffusionBee, mit der Bilder kostenlos erzeugt werden können, ermöglicht einen schnellen Einstieg. Wir sind sehr gespannt auf die weitere Entwicklung von Flux und wünschen dem Team von Black Forest Labs weiterhin viel Erfolg. Gespannt sind wir auch auf das angekündigte Text-to-Video-Modell.