PI & het herkennen van spraak en muziek
🗣 “Hey Siri, bel oma”
🗣 “Hey Google, speel een nummer van Billie Eilish af”
Een aantal jaar geleden had je iemand voor gek verklaard als er werd beweerd dat deze commando’s door je telefoon werden begrepen. Tegenwoordig is het de normaalste zaak van de wereld. Je telefoon kan zelfs hele muziekstukken herkennen door er slechts een paar seconden naar te luisteren!
Hoe kan het eigenlijk dat een telefoon kan luisteren en denken als een mens? Wij herkennen ons favoriete nummer met dank aan onze hersenen. De melodie en tekst worden door onze hersenen gekoppeld aan de juiste titel en artiest. Je telefoon doet in principe hetzelfde (herkennen en koppelen) maar toch net even anders. Computers zijn wel slim, maar niet zo slim als onze hersenen. Je telefoon kan namelijk niet zelf bedenken welk nummer hoort bij het geluidssignaal dat binnenkomt. Het krijgt hulp van een slim algoritme.
Om dit algoritme te begrijpen moeten we eerst kijken naar wat geluid eigenlijk is. Geluid verplaatst zich als een onzichtbare golf. Het geluid dat je hoort als je een gitaarsnaar aanslaat ziet eruit zoals de animatie hierboven. Sla je een andere snaar aan, dan hoor je een andere toon en de golf die daarbij hoort heeft een andere vorm. Ieder geluid heeft dus zijn eigen type geluidsgolf. Daarom produceert iedere zanger, zangeres of muzikant zijn of haar eigen geluidsgolven.
De blauwe golven hierboven staan voor het geluid van alle individuele leden van de band. Tel je al deze golven bij elkaar op, dan krijg je de rode samengestelde golf: de geluidsgolf van de hele band. De rode golf is dus wat je hoort als je naar een band of een nummer luistert. Nu is de vraag: hoe bedenkt je telefoon welk nummer bij die rode geluidsgolf hoort?
Laten we voor het gemak zeggen dat bovenstaande rode geluidsgolf het geluid is van het nummer Bad Guy van Billie Eilish. Het zou mooi zijn als de telefoon in één keer de juiste titel en artiest herkent uit deze rode golf. Dat is alleen niet mogelijk omdat de rode golf er in werkelijkheid veel ingewikkelder uitziet. Wat de telefoon wel kan, is de rode golf ontleden in allerlei kleinere soorten golven. Dat zijn de blauwe golfjes die je ziet. Op deze manier weet het algoritme precies waar het rode geluidssignaal uit is opgebouwd.
Deze kleine blauwe golven samen kun je zien als een digitale vingerafdruk. Je eigen vingerafdruk bestaat uit een unieke samenstelling van lijntjes op je vinger. De digitale vingerafdruk is op dezelfde manier uniek omdat ieder nummer bestaat uit een unieke samenstelling van golfjes. Deze vingerafdruk wordt door je telefoon vervolgens vergeleken met de digitale vingerafdrukken van alle nummers. Wordt er een match gevonden? Dan verschijnt de titel en artiest op je beeldscherm!
De telefoon zet geluid dus om in een digitale vingerafdruk en herkent op die manier het nummer. We hebben tot nu toe de constante π alleen nog niet gezien. Om zo’n digitale vingerafdruk te verkrijgen, moeten de golfjes correct worden uitgekozen. Je telefoon maakt daarbij gebruik van een wiskundige techniek waar π een rol in speelt. Wat een blauwe golf uniek maakt is onder andere de periode van de golf. De periode vertelt je hoe lang de golf erover doet om één keer op en neer te gaan.
De constante π speelt een belangrijke rol bij golven omdat een standaard golf (sinus of cosinus) precies een periode van 2π heeft. De periodes van andere golven kunnen dus worden uitgedrukt in π. Als je de periode bijvoorbeeld twee keer zo kort wilt maken, dan deel je 2π door 2 en krijg je een periode van π. De periode twee keer zo lang maken kan natuurlijk ook: de nieuwe periode is dan 4π. Bij het verkrijgen van de vingerafdruk helpt de constante π dus om te bepalen met welke blauwe golf je te maken hebt.