Regisseur — Podmark Video-Cutter

Das Problem

„Ich muss Videos mehrfach ansetzen, weil der Ton nicht auf der Spur ist. Ich hab viele Ähs und Öhs dabei. Ich möchte ein Video einfach anfangen, einmal durchsprechen, vielleicht Teile wiederholen und ausschalten. Und fertig. Eine Pause am Anfang raus hat riesige Wirkung. Ein paar tausend Leute weiter."

Ein Upload, deine Wahl

Longform und Reels — aus demselben Material

Du entscheidest beim Upload, was rauskommen soll. Die Regie baut erst den sauberen Master und schlachtet ihn auf Wunsch direkt in vertikale Shorts aus.

16 : 9 MASTER

Der saubere Longform-Master

Bester Take gewählt, Füller und Dead-Air raus
Schnitte sekundengenau am echten Sprechbeginn
Lower-Thirds und Titel-Transitions in deiner CI
Untertitel optional, zuletzt eingebrannt

9 : 16

Fertige Reels, vertikal

Beste Stellen automatisch gefunden und geschnitten
16:9 zu 9:16 reframed (Face-Pan oder Split-Screen)
Word-by-Word Captions im Opus-Stil eingebrannt
Mehrere Clips pro Aufnahme, social-ready

16:9

9:16

Master plus Reels in einem Lauf

Ein Upload, beide Formate ohne Doppelarbeit
Reels werden aus dem fertigen Master ausgeschlachtet
Konsistente CI über Longform und Shorts
Editor-Stunden werden zu Agent-Minuten

Wie die Regie arbeitet

Fünf Stufen, ein Loop

Plan

Die KI liest das verbatim-Transkript mit Wort-Timings und Audio-Events. Sie markiert doppelte Takes, Füller, Dead-Air am Anfang und False-Starts. Welcher Take ist der beste?

Rohschnitt

Aus dem Plan wird ein erster Schnitt gebaut und zusammengefügt. Saubere Cuts mit weichen Audio-Übergängen, kein Knacken.

Selbst-Check

Die KI bewertet sich selbst

Springt es? Wurde im Wort geschnitten? Ist der Atem abgehackt? Bei Bedarf geht es zurück in den Plan. Erst dann weiter.

Detailschnitt

Jede Schnittkante wird auf das echte Audio-Onset gesnappt. Füller-Mikroschnitte, Opening-Pause hart raus. Hier wird es sekundengenau.

Specials

Bei Interviews mit mehreren Sprechern oder Kameras: Sprechererkennung, Split-Screen oder A-zu-B-Schnitt, Titel-Transition in die Mitte, damit es nicht stürmt.

Der Unterschied

Wellenform statt nur Transkript

Die meisten Tools schneiden auf Transkript-Zeitstempel. Die sind nie sekundengenau, sie driften 50 bis 100 Millisekunden. Wir analysieren die Audio-Energie selbst und snappen jeden Schnitt auf den Punkt, an dem du tatsächlich zu sprechen anfängst und aufhörst. Genau das macht den Anfangs-Cut perfekt und holt die riesige Wirkung am Video-Start.

Status

Der Motor steht schon

Re-Take-Erkennung, Füller-Schnitt, Audio-primäres Schneiden, Split-Screen und Caption-Pipeline laufen bereits. Neu sind nur der Web-Upload und ein echtes Präzisions-Upgrade.

Bereits da

Doppelte Takes erkennen, besten wählen
Äh und Öh als Wort sauber rausschneiden
Pausen und Dead-Air, vor allem am Anfang
Audio-primäres Schneiden, weiche Cuts
Split-Screen, Lower-Thirds, Titel-Transitions
16:9 zu 9:16 Reframe plus Captions

Neu

Web-Upload mit Stil- und Format-Schalter
Wellenform-Onset für sekundengenaue Cuts
Selbst-Check-Loop vor dem Final-Render
Sprechererkennung als automatischer Special

Vorbild

Die Architektur, nicht die Abhängigkeiten

Julian Ivanov hat den kompletten Ablauf mit Open-Source-Werkzeugen plus Claude Code öffentlich gezeigt: schneiden, animieren, rendern, ganz ohne Schnittprogramm. Wir übernehmen die Architektur, aber nicht die externen Dienste.

✓Läuft komplett lokal. Kein ElevenLabs, kein HeyGen, keine API-Limits, keine laufenden Kosten.

Whisper lokal

Transkript on-device auf unseren eigenen Workern (M5, Studio). Kein Cloud-STT, kein API-Key. Statt ElevenLabs.

Wellenform-Onset

Schnitte aus der Audio-Energie statt aus dem Transkript. Sekundengenau am echten Sprechbeginn. Unser Kern.

Cut-Engine

Re-Take-, Füller- und Dead-Air-Logik. Erkennt doppelte Takes und schneidet ohne Knacksen. Lokal.

podmark-remotion

Render von HTML zu MP4 bis 4K mit unserem eigenen CI. Lower-Thirds, Titel-Transitions. Statt HeyGen.

Claude Design

Optional für Motion-Graphics als HTML, neben dem Gesicht. Kann rein, ist aber kein Muss.

Das Vorbild von Julian Ivanov. Wir bauen den Ablauf eigenständig und lokal nach.

Erst in HD rendern zum Prüfen, dann auf Freigabe in 4K. Genau unser Mockup-Gate.
Storyboard zuerst, Feedback, dann Generieren. Deckt sich mit unserem Plan-Gate.
Motion-Cards passend zu den Zeitstempeln, neben dem Gesicht statt drüber.
Hintergrund-Audio automatisch als No-Copyright, passend zur Stimmung.

Stil

Sachlich oder emotional

Ein Schalter, der den Schnittstil ändert.

	Sachlich	Emotional
Pausen	aggressiv kürzen, snappy	Beats stehen lassen
Tempo	hoch, harte Cuts	weicher, J- und L-Cuts
Overlays	niedrig, Fakten-Pops	höher, Mood, Transitions
Zoom	sparsam	folgt der Emotion

Fahrplan

In vier Phasen zum Produkt

Proof an eigenem Video

Ein Rohvideo komplett durch die fünf Stufen, inklusive Onset-Step. Sekundengenaue Cuts belegen.

Onset-Refinement

Wellenform-Snapping als wiederverwendbarer Schritt in der Cut-Engine.

Web-Wrapper

Upload, Stil- und Format-Schalter, Render auf den eigenen Workern, Download.

Selbst-Check und Specials

Bewertungs-Loop und Sprechererkennung scharf schalten.

Kunden-Produkt

Als Podmark-Service ausrollen. Editor-Stunden werden zu Agent-Minuten.

© 2026 Podmark SL · Barcelona. Alle Rechte vorbehalten.
Sämtliche Inhalte dieser Website, insbesondere Texte, Bilder, Grafiken, Videos, Marken, Konzepte und Designs, sind urheberrechtlich und/oder markenrechtlich geschützt. Jede Vervielfältigung, Bearbeitung, Verbreitung, öffentliche Zugänglichmachung oder sonstige Nutzung ohne vorherige schriftliche Zustimmung der Podmark SL ist untersagt. Rechtsverstöße werden verfolgt.