Audio-First Workflow für Werbetechnik: Diktieren statt Tippen

Werbetechniker arbeiten mit den Händen. Auf der Baustelle, auf der Leiter, am Auto, am Drucker. Tippen auf einem Smartphone ist in dieser Realität keine Option. Schmutzige Handschuhe, Werkzeug in der Hand, Regen, Kälte — das sind die Bedingungen unter denen Informationen erfasst werden müssen.

Trotzdem tippt die Branche. Oder schlimmer: schreibt auf Zettel. Ich bin Björn, Gründer von PlotonIQ und selbst über 20 Jahre im Werbetechnik-Handwerk. Ich habe jahrelang auf Zetteln geschrieben. Ich weiß wie das endet: unleserliche Abkürzungen, vergessene Maße, 47 Fotos auf dem Handy ohne Beschriftung, und ein Büroabend der bis 22 Uhr dauert.

Der Audio-First-Workflow in PlotonIQ dreht das um. Du sprichst — die KI macht den Rest. Vom Parkplatz vor der Bäckerei zum fertigen Angebot: unter 5 Minuten.

Alle PlotonIQ Sprach-Features: Funktionsübersicht →

Das eigentliche Problem: Der Informationsverlust zwischen Baustelle und Büro

Jeder Werbetechniker kennt das: Du stehst vor der Fassade, der Kunde erzählt was er will. Du schreibst auf einen Zettel. "3x Fenster MiGla, 1x Tür ÖZ weiß, Mo inkl." Zurück im Büro: Was bedeutet "MiGla"? Milchglasfolie oder Milchglas? War es 3M oder Oracal? Und ist das eine 3 oder eine 8?

Dazu kommen Fotos. 47 Fotos auf dem Smartphone, irgendwo zwischen dem Mittagessen-Foto und den Urlaubsbildern. Welches Foto gehört zu welchem Auftrag? Welches zeigt die linke Seite, welches die rechte?

Das Ergebnis: Du brauchst abends im Büro 45-60 Minuten um aus einem 20-Minuten-Kundengespräch ein Angebot zu bauen. Ein Großteil dieser Zeit ist Rekonstruktionsarbeit — du versuchst zu erinnern was du auf der Baustelle gesehen und gehört hast. Das ist Energieverschwendung.

So funktioniert der Audio-First-Workflow

Schritt 1: Memo erstellen

In PlotonIQ öffnest du ein neues Memo. Du siehst drei Optionen: Text, Audio, Foto. Du wählst Audio. Kein Login-Prozess, kein langes Laden. Du bist in 3 Sekunden bereit.

Schritt 2: Diktieren

Du drückst den Aufnahme-Button und sprichst. Frei, ohne Formular, ohne Struktur. "Bäckerei Müller, Hauptstraße 12, Saarbrücken. 4 Schaufenster, circa 150 mal 110. Milchglasfolie, der Kunde will 3M Crystal. Eingangstür soll Öffnungszeiten bekommen, weiße Plotschrift. Montage am Donnerstag, der Kunde hat morgens bis 11 zu, dann können wir rein. Ansprechpartner ist Herr Müller selbst, Handy steht im Kontakt."

Aufnahme stoppen. 30 Sekunden. Das war's.

Schritt 3: Fotos zuordnen

Du machst 3-4 Fotos direkt in der App: Gesamtansicht der Fassade, Detail der Fenster, die Eingangstür, eventuell ein Problem (Rollladen der im Weg ist). Jedes Foto wird als Snippet dem Memo zugeordnet — automatisch georeferenziert und mit Zeitstempel. Kein Chaos im Kamera-Roll mehr.

Schritt 4: KI transkribiert und strukturiert

Whisper (OpenAI) transkribiert die Aufnahme in Text. 95%+ Genauigkeit, selbst bei Hintergrundlärm auf der Baustelle, beim laufenden Motor, oder bei Wind. Die KI erkennt automatisch: Kundenname (Bäckerei Müller), Adresse (Hauptstraße 12, Saarbrücken), Materialien (Milchglasfolie, 3M Crystal, Plotschrift), Maße (150x110cm), und Termin-Infos (Donnerstag ab 11).

Das Memo wird strukturiert: Kontaktdaten, Positionen, Materialien, Termine. Aus dem Freitext-Diktat wird ein sauberes Auftrags-Dokument — ohne dass du einen einzigen Buchstaben tippt hast.

Schritt 5: Vom Memo zum Angebot

Ein Klick: "KI-Angebot generieren." Die KI nimmt die erkannten Positionen, kalkuliert mit aktuellen Marktpreisen, generiert die Preisbegründung pro Position und erstellt ein druckfertiges PDF. Du prüfst, passt bei Bedarf an, und versendest.

Gesamtzeit vom Parkplatz vor der Bäckerei bis zum versendeten Angebot: unter 5 Minuten.

Praxisbeispiel: Pylone mit Kastenaufsatz und 6 Leuchtkästen

Stell dir einen komplexen Auftrag vor: Autohaus, Neueröffnung. 1 Pylone 3m mit Kastenaufsatz Milchglas beleuchtet, 6 Leuchtkästen 200x80cm an der Fassade, 4 Schaufenster Milchglasfolie 3M Crystal, 3 Fahrzeuge mit Fahrzeugbeschriftung Oracal 970.

Klassisch wärst du 2-3 Stunden beim Aufmaß. Zurück im Büro: 90 Minuten Angebotserstellung. Totalzeit: fast ein halber Arbeitstag für ein einziges Angebot.

Mit Audio-First: Du machst auf dem Gelände 8 Fotos. Du diktierst 90 Sekunden. Du nutzt die KI-Fotoerkennung um die Schaufenster auszumessen. Im Auto generierst du das Angebot. Zurück im Büro prüfst du es einmal durch, passt einen Preis an, und versendest. Gesamtzeit Angebotserstellung: 12 Minuten.

Fassaden-Sketch für komplexe Projekte

Für Fassaden mit vielen Elementen bietet PlotonIQ einen SVG-Sketch direkt im Memo. Du zeichnest eine vereinfachte Ansicht — Rechtecke für Fenster, Linien für Fassadenkanten — und ordnest jedem Element das diktierte Material zu. Das ist kein CAD-Programm und soll es nicht sein. Es ist eine schnelle Skizze die dem Büro zeigt was gemeint ist. Besonders praktisch wenn du selbst nicht derjenige bist der das Angebot schreibt.

Offline-Fähigkeit

Auf der Baustelle hast du nicht immer Empfang. Im Keller, in der Tiefgarage, in Industriegebieten ohne LTE — das kennst du. Die Audio-Aufnahme und die Fotos werden lokal gespeichert und synchronisiert sobald wieder Netz da ist. Die KI-Transkription und Kalkulation passieren serverseitig — dafür brauchst du Netz. Aber die Erfassung funktioniert offline. Du verlierst keine Aufnahme weil du im Keller stehst.

Warum nicht einfach eine Notiz-App?

Könntest du auch die Sprachmemo-App deines iPhones nutzen? Ja. Aber dann hast du eine Audiodatei — keine strukturierten Daten. Du musst die Aufnahme nochmal anhören, die Infos abtippen, ein Angebot erstellen, Materialpreise nachschlagen. Das dauert genauso lang wie der Zettel.

Der Unterschied bei PlotonIQ: Die Transkription ist der erste Schritt einer automatisierten Pipeline. Sprache → Text → Positionen → Kalkulation → PDF → Versand. Jeder Schritt fließt in den nächsten. Das ist kein Voice-Memo — das ist ein Voice-to-Quote-Workflow.

Konkrete Vorteile mit Zahlen

Informationserfassung auf der Baustelle: 20 Minuten tippen/schreiben → 60 Sekunden diktieren
Büroarbeit am Abend: 60-90 Minuten Rekonstruktion → entfällt komplett
Angebotserstellung: 45 Minuten → 3-5 Minuten inklusive Prüfung
Vergessene Maße und Nachfahrten: regelmäßig (1-2 Stunden pro Nachfahrt) → fast nie
Fotochaos: 47 Fotos ohne Zuordnung → jedes Foto am richtigen Auftrag

Wie Betriebe den Audio-First-Workflow einsetzen

Typischer Anwendungsfall: Ein Betrieb mit Schwerpunkt Fahrzeugbeschriftung — 2 Mitarbeiter, hauptsächlich Fahrzeugbeschriftungen und Schaufensterfolierungen. Früher: Zettel auf der Baustelle, Büroabend bis 21 Uhr. Das Ergebnis: "Ich mache morgens Baustellen und schreibe abends Angebote. Das hat mich gekränkt. Ich bin Handwerker, kein Büroarbeiter. Seit ich Audio-First nutze diktiere ich im Auto und das Angebot ist raus bevor ich zuhause ankomme. Das hat meinen Abend zurückgegeben."

Typischer Anwendungsfall: Ein Messe- und Ausstellungsbauer (6 Mitarbeiter): "Wir haben oft komplexe Projekte mit vielen Positionen. Früher hat das Angebotsschreiben für ein mittelgroßes Messeanderen Systemen 3-4 Stunden gedauert. Jetzt diktieren wir auf der Baustelle und nutzen den Fassaden-Sketch für die Skizzen. Die Angebote sind detaillierter und gehen schneller raus als vorher. Und wir gewinnen mehr Aufträge weil wir beim Kunden sind während wir das Angebot erstellen — das macht einen Eindruck."

Was beide teilen: Die Zeitersparnis ist real, aber der eigentliche Gewinn ist die Qualität der Informationserfassung. Kein Informationsverlust mehr zwischen Baustelle und Büro. Was auf der Baustelle gesehen und gehört wird, ist direkt im System.

Praxis-Tipps für bessere Ergebnisse

Sprich Materialbezeichnungen aus: "3M Crystal Milchglasfolie" statt "MiGla". Die KI erkennt Markennamen besser als Abkürzungen die du dir ausgedacht hast.

Nenne Maße mit Einheit: "150 Zentimeter mal 110 Zentimeter" statt "eins-fünfzig mal eins-zehn". Zahlen mit Einheit werden zuverlässiger erkannt als reine Zahlwörter.

Ein Memo pro Auftrag: Nicht alles in ein Endlos-Memo diktieren. Ein Memo pro Baustelle hält die Zuordnung sauber — besonders wenn du mehrere Baustellen am selben Tag hast.

Fotos zuerst: Mach die Fotos bevor du diktierst. Dann siehst du beim Diktieren die Fotos als Referenz und vergisst keine Position.

Diktiere im Auto, nicht auf der Leiter: Im Auto ist es ruhig. Du sitzt. Du hast Übersicht über die Fotos. Das ist der ideale Moment zum Diktieren — nicht während du noch auf der Baustelle stehst.

Audio-First und KI-Aufmaß kombiniert: der vollständige Workflow

Die wirkliche Stärke entfaltet sich wenn du Audio-First und KI-Aufmaß kombinierst. Du machst auf der Baustelle Fotos mit der PlotonIQ-App. Die Fotos sind automatisch dem Memo zugeordnet. Dann diktierst du. Zurück im Büro oder im Auto: Du öffnest das Aufmaß-Tool, klickst auf die Elemente im Foto, gibst ein Referenzmaß ein. Die KI erkennt Polygone, berechnet Flächen, ordnet die diktierten Materialien den gemessenen Flächen zu.

Das Ergebnis: Ein vollständiges Auftrags-Dokument mit Fotos, Maßen, Materialien und Mengen — aus einem 5-10 Minuten Workflow auf der Baustelle. Was früher einen halben Nachmittag Büroarbeit bedeutet hat.

Nicht jeder Auftrag braucht KI-Aufmaß. Für Standardaufträge reicht das Diktat. Aber für komplexe Fassaden, große Pylone oder Aufträge bei denen genaue Flächenberechnung entscheidend ist, ist die Kombination unschlagbar.

Häufige Fragen zum Audio-First-Workflow

Funktioniert die Spracherkennung auch bei starkem Dialekt?

Whisper ist auf Dialekte trainiert. Bayerisch, Sächsisch, Österreichisch, Schweizerdeutsch — die Erkennungsrate bleibt bei über 90%. Fachbegriffe wie Milchglasfolie, Fahrzeugbeschriftung oder Pylone werden zuverlässig erkannt weil das Modell auf Werbetechnik-Vokabular kalibriert ist.

Was ist wenn ich etwas falsch diktiert habe?

Du kannst das Transkript direkt im Memo bearbeiten bevor du das Angebot generierst. Du siehst den Text, korrigierst Tippfehler oder Zahlendreher, und generierst dann das Angebot auf Basis des korrigierten Textes.

Wie lange dauert die KI-Transkription?

Eine 60-Sekunden-Aufnahme wird in 5-10 Sekunden transkribiert. Die Transkription passiert serverseitig — du kannst während der Verarbeitung weiterarbeiten oder das Memo schließen, es läuft im Hintergrund.

Kann ich mehrere Sprachen im gleichen Memo diktieren?

Whisper erkennt die Sprache automatisch. Für DACH-Betriebe die in Grenzregionen arbeiten oder internationale Kunden haben: Deutsch und Englisch im gleichen Memo funktioniert zuverlässig.

Fazit

Der Audio-First-Workflow passt zur Realität. Hände beschäftigt, Schreibtisch weit weg, Zeit knapp. Statt abends im Büro Angebote zu tippen, diktierst du auf dem Parkplatz und das Angebot ist raus bevor du den Motor startest. Audio-First ist eines von 19 KI-Modulen für Werbetechniker. Das ist keine Zukunftsmusik — das funktioniert heute, auf jedem Smartphone, ohne App-Download.

Beta-Zugang ab monatliche Pläne. Probiere den Audio-First-Workflow beim nächsten Kundentermin aus — ein einziges Mal. Du wirst danach nicht mehr zum Zettel greifen. Beta-Zugang sichern →

Auf der Baustelle diktieren. Im Auto liegt das fertige Angebot