We denken dat het ons wel lukt om een robotstem en de
stem van een echt persoon uit elkaar te houden. Maar in de praktijk valt dat behoorlijk tegen.
Uit nieuw onderzoek blijkt dat mensen verrassend slecht zijn in het onderscheiden van
AI-gegenereerde stemmen en echte menselijke spraak. Onderzoekers van Tianjin University en Chinese University of Hong Kong testten hoe goed mensen het verschil kunnen horen en schreven er deze week over in vakblad eNeuro.
AI of mens
Dertig proefpersonen kregen zinnen te horen die óf door een mens waren ingesproken, óf door een AI-stem waren gegenereerd. De opdracht was simpel: bepaal of de spreker mens of machine is. Daarna kregen de deelnemers een korte training en moesten ze het opnieuw proberen.
Mensen zaten er vaak naast. Zelfs na training verbeterde hun score maar een klein beetje. Maar onder de oppervlakte gebeurde er iets interessants. Hersenscans lieten zien dat het brein wél sneller onderscheid begon te maken tussen menselijke en kunstmatige stemmen.
Hoopgevend
Volgens onderzoeksleider Xiangbin Teng is dat veelzeggend. “Het gehoorsysteem van het brein lijkt subtiele verschillen in klank op te pikken, ook al kunnen mensen die nog niet bewust vertalen naar een juiste keuze”, zegt hij. “Dat is eigenlijk hoopgevend.”
Met andere woorden: je hersenen merken al dat er iets niet klopt, maar jijzelf hebt dat nog niet door. Dat biedt perspectief in een tijd waarin AI-stemmen steeds realistischer worden en deepfake-audio een groeiend probleem vormt. “Training kan waarschijnlijk helpen”, vertelt Teng. “We staan nog maar aan het begin van het leren herkennen van AI-gegenereerde content.”
De slechte prestaties van proefpersonen betekenen volgens hem niet dat het verschil er niet is. “De signalen zitten er wel degelijk in”, besluit Teng. “We hebben alleen nog niet geleerd naar de juiste aanwijzingen te luisteren.”