loader
hello@handsonminutes.com
Helvoirtseweg 181, 5263 EC Vught
banner

Waarom AI nog steeds worstelt met een simpele vraag: “Wie spreekt er?”

Kunstmatige intelligentie kan indrukwekkende dingen doen. Het kan spraak vrijwel foutloos omzetten in tekst, volledige gesprekken samenvatten en zelfs direct vertalen.

Maar stel een ogenschijnlijk eenvoudige vraag — “Wie zei wat?” — en het wordt ineens ingewikkeld. Daar komt speaker diarization om de hoek kijken. En dat blijkt een van de grootste uitdagingen voor AI.

Wat is speaker diarization en waarom is het belangrijk?

Speaker diarization is het proces waarbij wordt vastgesteld wie wanneer spreekt in een audio-opname. Als je ooit een transcript hebt gelezen met labels als “Spreker 1”, “Spreker 2”, enzovoort, dan heb je diarization in actie gezien.

In situaties waarin gemeenteraadsleden, pensioenfondsbesturen of projectteams afhankelijk zijn van transcripties om besluiten te herzien, is weten wie wat zei niet alleen handig, maar essentieel.

Mensen zijn hier verrassend goed in

We staan er zelden bij stil, maar mensen zijn uitzonderlijk goed in het herkennen van stemmen, zelfs in rumoerige omgevingen.
Waarom?

  • We herkennen vertrouwde stemmen, zelfs als iemand zacht praat.

  • We gebruiken context: wie het over begrotingen heeft, is waarschijnlijk de financieel verantwoordelijke.

  • In fysieke bijeenkomsten zien we wie er praat aan lichaamstaal of richting.

  • Zelfs in telefoongesprekken letten we onbewust op toon, tempo en woordkeuze.

Kortom: we horen niet alleen een stem, we begrijpen die ook.

Het menselijk brein heeft miljoenen jaren aan evolutie achter zich en begrijpt context. AI daarentegen is getraind op data en herkent patronen — twee fundamenteel verschillende benaderingen.

AI is nog niet zover

AI werkt fundamenteel anders. Het kent jouw team niet. Het “ziet” de ruimte niet. Het volgt het gesprek niet zoals wij dat doen.
Het luistert alleen naar ruwe audio en probeert segmenten te labelen op basis van stemgeluid. En dat leidt tot problemen:

  • Vergelijkbare stemmen? Verwarring.

  • Door elkaar praten? Vaak fout gelabeld.

  • Nieuwe spreker halverwege? Wordt soms verward met een bestaande.

  • Ruis, hoesten, microfoonwissels? Alles kan het systeem verstoren.

En het belangrijkste: AI begrijpt niet wat er wordt gezegd.
Het weet niet dat iemand die over juridische zaken praat waarschijnlijk jouw juridisch adviseur is.

Waarom is dit zo moeilijk?

Mensen hebben miljoenen jaren evolutie achter de rug in het verwerken van geluid.
AI heeft… trainingsdata. Heel veel, maar het “denkt” of redeneert niet zoals wij.

Zelfs de meest geavanceerde systemen gebruiken:

  • Clustering-algoritmen om gelijkaardige stemsegmenten te groeperen

  • Speaker embeddings (een soort stemvingerafdruk)

  • Neurale netwerken die proberen te voorspellen wanneer een spreker wisselt

Beeldcredits: developer.nvidia.com

Krachtige tools, maar ze begrijpen geen gesprekken. Ze herkennen patronen. En in echte vergaderingen zijn die patronen vaak rommelig.

Wat dit ons leert over AI

AI faalt niet als het worstelt met speaker diarization, het werkt gewoon volgens andere regels.
Het is uitzonderlijk goed in sommige dingen, en beperkt in andere.

Door die beperkingen te begrijpen, kunnen teams AI realistischer en effectiever inzetten.

Task

Humans

AI

Vertrouwde stemmen herkennen

Yes

No

Omgaan met achtergrondgeluid

Yes

Not really

Alles onthouden wat is gezegd

No

Yes

Overlappende spraak onderscheiden

Yes

No

60 minuten transcriberen in 2 minuten

No

Yes

Als we verwachten dat AI “denkt zoals wij”, raken we teleurgesteld. Maar als we het zien als een krachtige assistent—geen perfecte vervanger—halen we er het beste uit.

Hoe onze tool hiermee omgaat

Wij gebruiken de nieuwste diarization-modellen en blijven die continu verbeteren.
Bij kleinere vergaderingen (2–4 personen) is de herkenning van de sprekers meestal zeer accuraat.

Bij grotere of rumoerige bijeenkomsten kunnen er af en toe verwisselingen optreden en die kun je eenvoudig corrigeren.

Want dit is de realiteit: perfecte AI bestaat nog niet. De beste systemen combineren machine‑efficiëntie met menselijke controle.


En precies zo hebben we HandsonMinutes gebouwd. Probeer het zelf.

HANDSONMINUTES

Focus on what matters. AI does the rest

Taking minutes of a meeting will never be the same again! HandsonMinutes does the work for you using AI. Of course, completely safe and reliable, as you would expect from us.

Dictaphone

Record and transcribe notes to create action items and insights.

Minutes

Receive automatic summaries and action points from meeting notes.

Chat with your meetings

Optionally, chat with the tool to find the right information super quickly

Templates

Accurately capture data directly in the correct format for different meetings.