Van gebaar naar geluid:
Hoe AI gebarentaal omzet in spraak
Denk eens aan je beste vriend. Herinner je je jullie laatste goede gesprek? Misschien bespraken jullie een boek, je favoriete recept of de internationale politiek. Stel je nu voor dat die vriend, na tientallen jaren van vriendschap, geleidelijk zijn gehoor verliest en afhankelijk wordt van gebarentaal. Dit zou natuurlijk een enorme impact hebben op jullie gesprekken en jullie communicatie bemoeilijken. Jullie zouden beiden gebarentaal moeten leren om zonder tekst met elkaar te communiceren, wat tot wel 1320 uur kan kosten om onder de knie te krijgen.
Dit klinkt misschien vergezocht, maar volgens de Wereldgezondheidsorganisatie (WHO) zullen tegen 2050 naar schatting 2,5 miljard mensen in enige mate gehoorverlies hebben. Dit zette ons aan het denken. Kunnen wij als Data Scientists deze mensen helpen makkelijker te communiceren? Hoe zouden we dit probleem kunnen aanpakken? Zou het niet geweldig zijn als mensen die afhankelijk zijn van gebarentaal toch eenvoudig met de wereld om hen heen kunnen communiceren?
Bij Cmotions gebruiken we AI graag om zakelijke en maatschappelijke uitdagingen op te lossen. We besloten onze kennis van AI in te zetten om mensen die afhankelijk zijn van gebarentaal te ondersteunen. Ons doel was om een tool te ontwikkelen die (W)ASL-gebarentaal kan interpreteren en deze kan omzetten in gesproken Engels. We kozen voor gebaren-naar-spraak in plaats van spraak-naar-gebaren, omdat die eerste op het moment van onze start nog niet ontwikkeld was.
Onze aanpak
Ons doel was dus om gebarentaal om te zetten naar spraak. Onze aanpak bestond uit drie stappen, die we hieronder toelichten.
Stap 1 – Van video naar gloss: het finetunen van een videoclassificatiemodel
We hebben een bestaand, vooraf getraind videomodel genaamd ‘VideoMAE’ als basis van ons model gebruikt. Om dit model geschikt te maken voor ons doel, hebben we het gefinetuned door het te trainen op de open-source dataset Word-level Deep Sign Language Recognition from Video: A New Large-scale Dataset and Methods Comparison. Deze WLASL-dataset is de grootste video-dataset voor Word-Level American Sign Language (ASL –Amerikaanse gebarentaal op woordniveau) en bevat 2.000 veelvoorkomende ‘glossen’ (de tekstuele representatie van gebarentaal) in ASL.
De dataset bevat video’s van Amerikaanse gebarentaal met bijbehorende ‘glossen’. Een video waarin het gebaar voor ‘thank you’ wordt vertoond, krijgt bijvoorbeeld het label ‘thank you’. Hierdoor konden we het bestaande videomodel aanpassen, zodat dit model de gebarentaal naar ‘glossen’ vertaalt. Dit bleek behoorlijk goed te werken: we behaalden een nauwkeurigheid van 98,2% en een F1-score van 98,3% na het verwijderen van irrelevante elementen (zoals achtergrondkleur en exacte handpositie) en het toevoegen van ruis. De F1-score laat zien hoe accuraat het gebruikte AI-model is. Voor meer technische details over waarom we ruis toevoegden en waarom we de video’s op dit punt in afzonderlijke gebaren moesten splitsen, verwijzen we je naar dit artikel.
Na deze eerste stap kunnen we nu ‘praten’ met onze vriend door gebarentaal te lezen en te interpreteren. Maar dit is nog verre van een optimale communicatievorm.
Stap 2 – Van woorden naar zinnen
De eerste vertaling van handgebaren naar tekst is nu gemaakt, maar dit resulteert nog niet in bruikbare taal (bijvoorbeeld: “you coffee like tea” in plaats van “Would you like coffee or tea?”). We moeten de syntactische structuur van de gegenereerde woordvolgorde verbeteren. Bovendien wordt de boodschap nog niet uitgesproken. Er zijn dus nog twee extra stappen nodig.
Om de losse woorden om te zetten in begrijpelijke zinnen, gebruiken we een Large Language Model (LLM) dat op het moment van schrijven uitstekende prestaties leverde: Qwen2.5. Simpel gezegd is Qwen een generatief AI-model – ook wel LLM of ‘encoder model’ genoemd – dat tekst kan begrijpen en genereren zoals een mens dat zou doen. Dit model heeft geleerd van enorme hoeveelheden tekstdata tijdens een pre-trainingsfase. Omdat het model na training beschikt over 32 miljard parameters vol kennis, hoeven we het niet verder te trainen met onze eigen data; we hoeven alleen de juiste vragen te stellen. Dit proces noemen we prompt engineering, wat anders is dan het trainen van een model.
Stap 3 – Van zin naar spraak
De laatste stap is het genereren van een audiobestand op basis van de geoptimaliseerde zinnen. Dit doen we met een Python-bibliotheek van Google genaamd ‘gTTS’ (Google Text-To-Speech). We voeren de definitieve zinnen in en vragen het programma om deze hardop uit te spreken. Dit maakt de vertaalketen van gebarentaal naar spraak compleet!
Wil je het hele proces – van een handgebaar in een video tot vloeiend uitgesproken tekst – in actie zien? In dit artikel laten we zien hoe het werkt.
Conclusie
Samenvattend hebben we een systeem ontwikkeld dat videobestanden met gebarentaal kan omzetten in een audiobestand met gesproken taal. Natuurlijk zijn er nog verbeteringen nodig. De noodzaak om video’s op te splitsen in afzonderlijke bestanden maakt het model bijvoorbeeld minder gebruiksvriendelijk. Idealiter is een live vertaling van gebarentaal naar spraak mogelijk wanneer je iemand filmt, zonder eerst een video te hoeven opnemen en uploaden. Desondanks hebben we aangetoond dat het vertalen van gebarentaal naar spraak haalbaar is en een grote bijdrage kan leveren aan het begrijpelijk maken van gebarentaal voor een breder publiek.
Naast het vergemakkelijken van gesprekken, zou een dergelijke tool ook gebruikt kunnen worden voor educatieve doeleinden, bijvoorbeeld bij het leren van gebarentaal. Andere mogelijke toepassingen zijn klantenservice of communicatie met overheidsinstanties en verzekeringsmaatschappijen. Dit zijn slechts enkele voorbeelden.