STT Analyse – ElevenLabs toegevoegd, Amazon Transcribe stijgt verder en Chirp3 blijft sterk [Mei 2026]
Index
In eerdere STT-analyses zagen we al dat de prestaties van Speech-to-Text engines sterk verschillen per taal, inputtype en use case. Een engine die goed presteert op algemene transcriptie, is niet automatisch de beste keuze voor postcodes, datums, tijden of alfanumerieke input. Juist in telefonische klantinteracties zijn dit vaak de momenten waarop een voice-oplossing moet bewijzen dat de output betrouwbaar en direct bruikbaar is.
Daarom blijven we verschillende STT-engines structureel meten binnen realistische telefonie-scenario’s. In deze nieuwe analyse kijken we opnieuw naar de prestaties voor Nederlands en Engels. We vergelijken de resultaten met de vorige analyse uit februari 2026 en laten zien welke verschuivingen relevant zijn voor voice-implementaties in de praktijk.
In deze meting is ook ElevenLabs toegevoegd als nieuwe STT-engine. Daarmee wordt de benchmark breder en kunnen we nieuwe spelers in de markt beter vergelijken met engines die al langer in onze analyses zitten, zoals Azure, Google, Amazon en OpenAI.
Een terugblik op de analyse van februari 2026
In de vorige analyse zagen we vooral een duidelijke verbetering bij Amazon Transcribe voor Nederlands. Waar deze engine eerder rond de 33% scoorde, steeg de correctness richting bijna 60%. De overige resultaten bleven grotendeels stabiel.
Dat was op zichzelf een belangrijk inzicht: niet alleen verbetering is relevant, ook stabiliteit speelt een grote rol in productie-omgevingen waar voice-oplossingen dagelijks door eindgebruikers worden gebruikt.
De conclusie uit februari blijft daarmee overeind: er bestaat niet één beste STT-engine. De juiste keuze hangt af van taal, use case, inputtype en de mate waarin output na transcriptie nog genormaliseerd of verwerkt moet worden.
Hoe testen we verschillende STT-engines?
De testopzet is gelijk gebleven aan de vorige analyses. We testen met een vaste set standaardzinnen, ingesproken door native speakers, in telefoonkwaliteit audio. Elke opname wordt gecontroleerd om ruis in de dataset zoveel mogelijk uit te sluiten. Zo zorgen we ervoor dat verschillen in resultaten vooral toe te schrijven zijn aan de STT-engine zelf.
We analyseren de engines opnieuw langs twee assen:
- Taal: Nederlands en Engels.
- Inputtype: onder andere numerieke input, postcodes, datums, tijden, tekstuele input en alfanumerieke invoer.
Daarbij kijken we naar twee kernstatistieken:
- Correctness: in hoeveel gevallen komt de output exact overeen met wat de beller heeft gezegd?
- Word error rate: hoeveel woorden moeten worden aangepast om de output exact te laten matchen met de input van de beller?
Net als in de vorige analyses kijken we naar de output nadat Seamly normalisatie en post-processing heeft toegepast.
Wat is er nieuw in deze analyse?
Ten eerste is in deze analyse ElevenLabs toegevoegd als nieuwe STT-engine. Daarmee kunnen we de prestaties van deze engine vanaf nu structureel volgen en vergelijken met de andere engines in de benchmark.
ElevenLabs is in deze meting nog geen duidelijke koploper, maar vormt wel een relevant extra referentiepunt. Zeker omdat de STT-markt zich snel ontwikkelt, is het belangrijk om nieuwe engines vroeg mee te nemen in de benchmark.
Ten tweede is in het analyseplatform de naamgeving van sommige engines gewijzigd. Labels zoals OpenAI - transcribe - NL en OpenAI - transcribe - nl-NL verwijzen naar dezelfde engine. In deze analyse behandelen we die lijnen dus als één en dezelfde engine. Het gaat niet om een andere configuratie, maar alleen om een gewijzigde benaming in het dashboard.
Resultaten Nederlands
Amazon Transcribe verbetert verder
Voor Nederlands valt Amazon Transcribe opnieuw positief op. In de vorige analyse zagen we al een duidelijke stijging in correctness. In deze nieuwe meting lijkt die verbetering verder door te zetten. Richting het einde van de meetperiode stijgt de correctness opnieuw duidelijk, terwijl de word error rate juist afneemt.
Dat maakt Amazon Transcribe voor Nederlands interessanter dan in eerdere metingen. De ontwikkeling laat goed zien waarom doorlopend benchmarken belangrijk is. Een engine die eerder minder geschikt leek voor een bepaalde taal, kan door modelupdates of verbeteringen relatief snel een betere optie worden.

Afbeelding 1: Correctness per STT-engine - Nederlands

Afbeelding 2: WER per STT-engine - Nederlands
Azure blijft stabiel sterk voor Nederlands
Azure blijft voor Nederlands een van de meest stabiele engines in de benchmark. Waar Amazon Transcribe vooral opvalt door een duidelijke positieve beweging, valt Azure juist op door consistentie. De correctness blijft hoog en de WER blijft laag.
Voor productie-omgevingen is dat relevant. Een engine hoeft niet altijd de grootste stijging te laten zien om waardevol te zijn. Zeker bij voice-oplossingen die dagelijks worden gebruikt, is voorspelbare kwaliteit minstens zo belangrijk als een plotselinge verbetering.
Verschillen per inputtype blijven groot
Op inputtypeniveau zien we voor Nederlands opnieuw duidelijke verschillen tussen engines. Vooral bij datums en tijden, numerieke input en postcodes lopen de prestaties uiteen.
Dat zijn precies de categorieën die in telefonische klantinteracties vaak kritisch zijn. Denk aan geboortedata, klantnummers, afspraakmomenten, ordernummers of bedragen. De resultaten bevestigen opnieuw dat gemiddelde scores niet genoeg zeggen. Voor een voicebot die veel gestructureerde gegevens moet verwerken, moet je specifiek kijken naar prestaties per inputtype.

Afbeelding 3: Correctness per input type - Nederlands
Resultaten Engels
GCloud Chirp3 blijft de sterkste en meest stabiele engine voor Engels
Voor Engels blijft GCloud Chirp3 de sterkste en meest stabiele engine in deze analyse. De correctness blijft relatief hoog en de WER blijft laag. Daarmee bevestigt deze meting het beeld uit de vorige analyse, waarin Chirp3 ook al duidelijk naar voren kwam als sterke keuze voor Engelse input.
Voor Engelstalige voicebots is dat relevant, zeker wanneer de toepassing vraagt om consistente transcriptie over meerdere inputtypes heen. Chirp3 laat niet alleen goede algemene prestaties zien, maar blijft ook relatief stabiel over tijd.

Afbeelding 4: Correctness per STT-engine - Engels

Afbeelding 5: WER per STT-engine - Engels
Engelse postcodes blijven sterk scoren, alfanumerieke input blijft onvoorspelbaarder
Op inputtypeniveau blijven postcodes in de Engelse taal over het algemeen sterk presteren bij meerdere engines. Dat patroon zagen we ook in eerdere analyses. Voor dit type input lijkt de herkenning bij veel engines relatief volwassen.
Alfanumerieke input blijft daarentegen grilliger. Bij combinaties van letters en cijfers lopen de verschillen tussen engines duidelijk uiteen. Dat is relevant voor use cases waarin klanten bijvoorbeeld referentienummers, kentekens, ordercodes of klantcodes inspreken.
Ook hier geldt: een engine die gemiddeld goed scoort, is niet automatisch de beste keuze voor iedere voicebot. De juiste keuze hangt af van het type informatie dat de beller moet doorgeven.

Afbeelding 6: Correctness per input type - Engels
Vergelijking met februari
Vergeleken met de vorige analyse zien we twee belangrijke ontwikkelingen.
Ten eerste zet Amazon Transcribe de positieve lijn voor Nederlands door. Waar de vorige analyse al een duidelijke verbetering liet zien, lijkt de engine in deze nieuwe meting opnieuw sterker te worden.
Ten tweede blijft GCloud Chirp3 voor Engels stabiel sterk. Daarmee bevestigt de nieuwe analyse het eerdere beeld dat Chirp3 voor Engelse input een betrouwbare keuze is.
Daarnaast is ElevenLabs toegevoegd aan onze benchmark. Deze engine is nog geen duidelijke koploper, maar biedt vanaf nu wel een extra referentiepunt in de vergelijking.
Waarom zijn deze inzichten belangrijk?
Deze analyse bevestigt opnieuw dat STT-keuzes continu gevalideerd moeten worden. Een eenmalige benchmark is onvoldoende, omdat prestaties kunnen veranderen. Bovendien zijn algemene prestaties niet genoeg om een goede keuze te maken. De relevante vraag is niet alleen welke engine gemiddeld het beste scoort, maar vooral welke engine het beste past bij een specifieke taal, use case en type input.
Een voicebot die vooral vrije tekst verwerkt, stelt andere eisen aan STT dan een voicebot die veel postcodes, klantnummers, datums of alfanumerieke codes moet herkennen.
Waar gebruikt Seamly deze inzichten voor?
De resultaten gebruiken we direct in onze voice-implementaties. Ze helpen ons bepalen welke STT-engine het beste past bij een specifieke taal, klantvraag of use case. Daarnaast laten de analyses zien waar Seamly’s eigen normalisatie en post-processing verder aangescherpt kunnen worden.
Voor partners betekent dit dat zij hun klanten niet hoeven te adviseren op basis van aannames of algemene benchmarks. Ze kunnen gebruikmaken van actuele inzichten uit realistische telefonie-scenario’s. Juist de input die in echte klantgesprekken vaak kritisch is – zoals postcodes, nummers, datums, tijden en alfanumerieke combinaties – wordt daarin meegenomen.
Meer weten?
Met continu benchmark-onderzoek zorgen we ervoor dat voice-oplossingen via Seamly worden aangesloten op de STT-engine die het beste past bij de taal, use case en input van de klant.
We laten graag in een demo zien hoe Seamly conversational platforms helpt om hun oplossing uit te breiden naar het telefoniekanaal. Met STT-keuzes die gebaseerd zijn op actuele prestaties in realistische belscenario’s.