Kunstmatige intelligentie kan indrukwekkende dingen doen. Het kan spraak vrijwel foutloos omzetten in tekst, volledige gesprekken samenvatten en zelfs direct vertalen.
Maar stel een ogenschijnlijk eenvoudige vraag — “Wie zei wat?” — en het wordt ineens ingewikkeld. Daar komt speaker diarization om de hoek kijken. En dat blijkt een van de grootste uitdagingen voor AI.
Speaker diarization is het proces waarbij wordt vastgesteld wie wanneer spreekt in een audio-opname. Als je ooit een transcript hebt gelezen met labels als “Spreker 1”, “Spreker 2”, enzovoort, dan heb je diarization in actie gezien.
In situaties waarin gemeenteraadsleden, pensioenfondsbesturen of projectteams afhankelijk zijn van transcripties om besluiten te herzien, is weten wie wat zei niet alleen handig, maar essentieel.
We staan er zelden bij stil, maar mensen zijn uitzonderlijk goed in het herkennen van stemmen, zelfs in rumoerige omgevingen.
Waarom?
We herkennen vertrouwde stemmen, zelfs als iemand zacht praat.
We gebruiken context: wie het over begrotingen heeft, is waarschijnlijk de financieel verantwoordelijke.
In fysieke bijeenkomsten zien we wie er praat aan lichaamstaal of richting.
Zelfs in telefoongesprekken letten we onbewust op toon, tempo en woordkeuze.
Kortom: we horen niet alleen een stem, we begrijpen die ook.
AI werkt fundamenteel anders. Het kent jouw team niet. Het “ziet” de ruimte niet. Het volgt het gesprek niet zoals wij dat doen.
Het luistert alleen naar ruwe audio en probeert segmenten te labelen op basis van stemgeluid. En dat leidt tot problemen:
Vergelijkbare stemmen? Verwarring.
Door elkaar praten? Vaak fout gelabeld.
Nieuwe spreker halverwege? Wordt soms verward met een bestaande.
Ruis, hoesten, microfoonwissels? Alles kan het systeem verstoren.
En het belangrijkste: AI begrijpt niet wat er wordt gezegd.
Het weet niet dat iemand die over juridische zaken praat waarschijnlijk jouw juridisch adviseur is.
Mensen hebben miljoenen jaren evolutie achter de rug in het verwerken van geluid.
AI heeft… trainingsdata. Heel veel, maar het “denkt” of redeneert niet zoals wij.
Zelfs de meest geavanceerde systemen gebruiken:
Clustering-algoritmen om gelijkaardige stemsegmenten te groeperen
Speaker embeddings (een soort stemvingerafdruk)
Neurale netwerken die proberen te voorspellen wanneer een spreker wisselt
Krachtige tools, maar ze begrijpen geen gesprekken. Ze herkennen patronen. En in echte vergaderingen zijn die patronen vaak rommelig.
AI faalt niet als het worstelt met speaker diarization, het werkt gewoon volgens andere regels.
Het is uitzonderlijk goed in sommige dingen, en beperkt in andere.
Door die beperkingen te begrijpen, kunnen teams AI realistischer en effectiever inzetten.
Task | Humans | AI |
|---|---|---|
Vertrouwde stemmen herkennen | Yes | No |
Omgaan met achtergrondgeluid | Yes | Not really |
Alles onthouden wat is gezegd | No | Yes |
Overlappende spraak onderscheiden | Yes | No |
60 minuten transcriberen in 2 minuten | No | Yes |
Als we verwachten dat AI “denkt zoals wij”, raken we teleurgesteld. Maar als we het zien als een krachtige assistent—geen perfecte vervanger—halen we er het beste uit.
Wij gebruiken de nieuwste diarization-modellen en blijven die continu verbeteren.
Bij kleinere vergaderingen (2–4 personen) is de herkenning van de sprekers meestal zeer accuraat.
Bij grotere of rumoerige bijeenkomsten kunnen er af en toe verwisselingen optreden en die kun je eenvoudig corrigeren.
Want dit is de realiteit: perfecte AI bestaat nog niet. De beste systemen combineren machine‑efficiëntie met menselijke controle.
En precies zo hebben we HandsonMinutes gebouwd. Probeer het zelf.
Taking minutes of a meeting will never be the same again! HandsonMinutes does the work for you using AI. Of course, completely safe and reliable, as you would expect from us.
Record and transcribe notes to create action items and insights.
Receive automatic summaries and action points from meeting notes.
Optionally, chat with the tool to find the right information super quickly
Accurately capture data directly in the correct format for different meetings.