Skip to content

STT Analyse – Verschuivingen in Amazon Transcribe en Speechmatics [Februari 2026]

Index

Liever in het Engels lezen?

In onze eerste STT analyse lieten we zien hoe groot de verschillen zijn tussen Speech-to-Text engines, afhankelijk van taal en type input. Sindsdien zijn we doorgegaan met het meten en analyseren van verschillende engines. In de update van februari 2026 delen we de meest recente metingen. De resultaten laten zien waarom doorlopend testen essentieel is voor betrouwbare voice-oplossingen.

Korte terugblik: wat zagen we eerder?

In de vorige analyse zagen we duidelijke verschillen tussen STT-engines voor zowel Nederlands als Engels:

  • Voor Nederlands presteerde Azure het sterkst op correctness en word error rate.
  • Voor Engels sprong Google Chirp3 eruit, met name op input types als datums en tijden.
  • De prestaties verschilden sterk per inputtype, zoals numerieke input, postcodes en alfanumerieke input.

De eerste analyse maakte al direct één ding duidelijk: er bestaat niet zoiets als de ‘beste STT-engine’. De juiste keuze hangt af van taal, use case en type input. Juist omdat STT-modellen regelmatig worden geüpdatet, blijven we dit onderzoek uitvoeren. Want wat vandaag goed werkt, kan over een aantal maanden veranderen.

Hoe testen we verschillende engines?

Onze testopzet is ongewijzigd ten opzichte van de vorige analyse. We testen met een vaste set standaardzinnen, ingesproken door native speakers, in telefoonkwaliteit audio. Elke opname wordt gecontroleerd om ruis in de dataset te voorkomen. Zo zorgen we ervoor dat verschillen in resultaten ook daadwerkelijk toe te schrijven zijn aan de STT-engine zelf – en niet aan de input.

Wat testen we?

Net als in de vorige analyse testen we twee assen:

  • Twee verschillende talen: Nederlands en Engels
  • Verschillende inputtypen, zoals getallen, adressen, postcodes, data en tijden

Daarbij kijken we opnieuw naar twee kernstatistieken:

  • Correctness: in hoeveel gevallen komt de tekstuele output exact overeen met wat de beller zegt?
  • Word error rate (WER): hoeveel woorden moeten we aanpassen om de output exact te laten matchen met de input van de beller?

We analyseren de output nadat Seamly normalisatie en post-processing heeft toegepast, zodat resultaten eerlijk en consistent te vergelijken zijn binnen realistische belscenario’s.

Wat laten de nieuwe analyses zien?

Amazon Transcribe – Nederlands

Voor Nederlands zien we bij Amazon Transcribe een opvallende stijging in correctness. Waar deze engine eerder rond de 33% scoorde, ligt de correctness de afgelopen twee maanden op bijna 60%.

Dat betekent dat in aanzienlijk meer gevallen de transcriptie direct overeenkomt met de uitgesproken input. Deze verbetering zien we terug over meerdere inputtypes, zoals numerieke input, postcodes, datums, tekstuele en alfanumerieke invoer.

Dit wijst erop dat Amazon het Nederlandse model actief heeft verbeterd. Een goed voorbeeld van waarom doorlopend meten belangrijk is: engines die eerder minder geschikt leken voor een taal, kunnen zich relatief snel ontwikkelen.

Afbeelding 1: Correctness per STT-engine - Nederlands

Afbeelding 2: Correctness per input type - Nederlands

Speechmatics – Engels

Voor Engels zien we bij Speechmatics juist een minder positieve ontwikkeling. De word error rate is de afgelopen twee maanden gestegen van ongeveer 69% naar 77%.

Een hogere WER betekent dat er meer correcties nodig zijn om de transcriptie exact te laten aansluiten op de gesproken input. Hoewel dit niet per definitie betekent dat de engine ‘onbruikbaar’ is, maakt het wel duidelijk dat de output minder consistent is geworden binnen onze testopzet.

Dit soort verschuivingen onderstrepen dat prestaties niet alleen kunnen verbeteren, maar ook tijdelijk kunnen verslechteren door modelupdates.

Afbeelding 3: word error rate per STT-engine - Engels

Overige resultaten grotendeels stabiel

Voor alle andere engines, talen en inputtypes zien we in deze meting geen grote veranderingen. Correctness en word error rate blijven in lijn met de vorige analyse. Dat is op zichzelf waardevolle informatie: stabiliteit is minstens zo belangrijk als vooruitgang, zeker in productie-omgevingen waar voice-oplossingen dagelijks door eindgebruikers worden ingezet.

Waarom we dit blijven doen

Deze update laat zien waarom we STT-engines continu blijven analyseren: de prestaties van STT-engines kunnen verbeteren, maar ook verslechteren. De verschillen worden vaak pas zichtbaar in telefonie-context en voor specifieke inputtypes of talen. Amazon Transcribe laat namelijk voor Engels geen verbetering zien in de correctness, en voor het Nederlands wel.

Door structureel te meten, weten we:

  • Welke engine op dit moment het beste past bij een taal en use case
  • Waar extra normalisatie en post-processing nodig blijft
  • Wanneer het verstandig is om engine keuzes te heroverwegen

Door STT-engines te meten en vergelijken, krijgen we inzicht in hoe spraakherkenning zich in de praktijk ontwikkelt. Dat doen we op basis van meetbare prestaties binnen echte telefonie-scenario’s. Die inzichten gebruiken we weer om onze voice-oplossing te verbeteren: door de juiste engine per taal en use case te adviseren, en door onze eigen normalisatie en post-processing steeds verder aan te scherpen.

Meer weten? We laten in een demo graag zien hoe Seamly conversational platforms helpt om hun oplossing te ontsluiten aan het telefoniekanaal. Met STT-keuzes die passen bij de use case, taal en input van je klant.