Varför diktering misslyckas på svenska
Du trycker på mikrofonikonen, talar tydlig svenska, och får tillbaka en text full av fel. Det är inte din röst det är fel på. Det är systemen som aldrig byggdes för ditt språk.
Löftet som aldrig infriades
Diktering låter som framtiden. Du pratar, orden dyker upp på skärmen, du sparar tid. Apple har haft det inbyggt i iPhonen i över ett decennium. Google erbjuder det i Android, i Chrome, i Docs. Det fungerar. Det är smidigt. Det är snabbt.
Om du talar engelska.
För den som talar svenska är upplevelsen en helt annan. Inte subtilt annorlunda — fundamentalt annorlunda. Diktering på svenska är inte bara lite sämre än på engelska. Den är så opålitlig att de flesta svenskar som testat den har gett upp. Inte för att de inte gillar idén, utan för att resultatet kräver mer redigering än det hade tagit att skriva texten från början.
Det här är inte ett litet tekniskt problem. Det är en systemisk brist i hur de stora teknikbolagen har byggt sina produkter.
Prickarna som försvinner
Det mest grundläggande felet är också det mest talande. När du dikterar på svenska och säger "sjön", får du ofta "sjon". När du säger "ändå", skrivs det "anda". "Öppna" blir "oppna". "Överallt" blir "overallt".
Ä, ö och å — tre av de mest använda bokstäverna i svenska — hanteras inkonsekvent eller ignoreras helt. Dikteringssystemet faller tillbaka på sin engelska grundmodell, där dessa tecken inte existerar, och gör det näst bästa valet: den närmaste ASCII-motsvarigheten.
Det är som om systemet erkänner att du talar svenska, men inte riktigt tror på det. Det hör "ö" men skriver "o" — för säkerhets skull.
För den som läser texten efteråt är effekten omedelbar. "Sjön var vacker" blir "sjon var vacker" — en mening som ser trasig ut, som om den skrivits av någon som inte kan svenska. Och det var ju inte meningen. Du kan svenska utmärkt. Det var dikteringen som inte kunde.
Engelskans tyngdlag
Problemet med prickarna är ett symptom på något djupare. Apples och Googles dikteringsmodeller är i grunden engelska modeller med andra språk tillagda som ett lager ovanpå. Engelska är inte ett av många språk i systemet — det är standardspråket. Alla andra språk är avvikelser från det normala.
Det betyder att när modellen är osäker — och den är ofta osäker — faller den tillbaka på engelska mönster. Svenska ord som råkar likna engelska ord tolkas som engelska. "Typ" blir "type". "Projekt" blir "project". "Mejl" transkriberas ibland som "mail".
Det blir särskilt problematiskt med svenska egennamn och platser. "Malmö" blir "Malmo". "Göteborg" blir "Goteborg" eller, i värsta fall, ett helt annat ord. Dikteringen känner inte igen att dessa är riktiga ord i ett riktigt språk — för den har aldrig tränat ordentligt på det språket.
De stora teknikbolagens diktering behandlar svenska som ett specialfall. Men för tio miljoner människor är svenska inte ett specialfall. Det är vardagen.
Fyllnadsorden som ingen plockar bort
Svenskar talar som alla andra människor — med fyllnadsord, pauser och omformuleringar. Vi säger "typ" när vi menar "ungefär". Vi säger "liksom" för betoning. Vi säger "asså" som en övergång. Vi säger "eh" och "öh" medan vi tänker.
En bra dikteringstjänst ska förstå att dessa ord inte hör hemma i den färdiga texten. De är en del av talets flöde, inte skriftens. Men Apples och Googles diktering på svenska lämnar dem oftast kvar.
Resultatet ser ut ungefär så här:
"Jag tänkte typ att vi kanske liksom kunde asså flytta mötet till fredag"
Det du menade var:
"Jag tänkte att vi kunde flytta mötet till fredag."
Skillnaden är enorm. Den första meningen låter som en osäker tanke. Den andra är ett tydligt förslag. Men dikteringen vet inte skillnaden, för den har inte tränats tillräckligt på hur svenskar faktiskt talar — och vad som ska filteras bort.
Sammansättningar som faller isär
Svenska är, som bekant, ett sammansättningsspråk. Vi fogar ihop ord till nya ord, ibland till mycket långa nya ord. "Arbetsmarknadsutbildning". "Barnsjukvårdspersonal". "Handläggningsbeslut".
Dikteringssystem hanterar detta dåligt. De bryter isär sammansättningar i sina beståndsdelar, vilket skapar särskrivningar — den typ av fel som gör att texten ser oprofessionell ut. "Arbets marknads utbildning" istället för "arbetsmarknadsutbildning". "Barn sjukvårds personal" istället för "barnsjukvårdspersonal".
Det här är inte bara ett estetiskt problem. I vissa fall ändrar särskrivningen betydelsen. "Sjukhuskläder" är kläder man har på sjukhus. "Sjuk huskläder" är... något helt annat. Dikteringen vet inte skillnaden, för den saknar den djupa förståelsen för hur svenska ordbildning fungerar.
Vad som krävs för att diktering ska fungera på svenska
Problemet är identifierat. Frågan är vad som krävs för att lösa det. Svaret är inte att göra små justeringar i befintliga system. Det är att bygga med svenska som utgångspunkt, inte som tillägg.
Det som behövs är modeller som tränats på stora mängder faktisk svenska — inte bara nyhetstexter och Wikipedia, utan vardagligt tal. Modeller som förstår att "typ" oftast ska tas bort. Modeller som vet att "ö" är "ö" och inte "o". Modeller som kan hantera sammansättningar som enskilda ord. Modeller som inte faller tillbaka på engelska när de blir osäkra.
Det som behövs är att någon tar svenska på allvar som språk — inte som en marknad man kan ignorera för att den bara har tio miljoner talare.
En annan väg
Aivo är byggt kring just den insikten. Istället för att utgå från en engelsk modell och lägga till svenska som ett lager, har Aivo utvecklats med nordiska språk som grund. Ä, ö och å är inte specialtecken — de är grundläggande bokstäver. Sammansättningar hanteras som sammansättningar. Fyllnadsord filtreras bort. Svenska namn och platser känns igen.
Det är inte magi. Det är vad som händer när man bygger teknik med respekt för språket den ska förstå.
Du har förmodligen testat diktering förut och blivit besviken. Det var inte dikteringens idé som var dålig. Det var implementationen som inte tog ditt språk på allvar. Skillnaden mellan diktering som inte fungerar och diktering som förändrar hur du skriver — den skillnaden handlar om huruvida systemet byggdes för dig eller inte.
Det här systemet byggdes för dig.
Diktering som faktiskt förstår svenska
Prova Aivo gratis — rösttangentbordet byggt för nordiska språk. Fungerar i alla appar på iPhone och Mac.