Kinderen leren onwijs veel woorden in de eerste levensjaren, maar hoe doen ze dat terwijl nieuwe woorden naar eindeloos veel dingen kunnen verwijzen? Deze vraag werd in 1960 aangekaart in een gedachte-experiment door de filosoof Quine, genaamd het “Gavagai”-probleem. Stel je voor dat je als linguïst onderzoek doet naar een onbekende taal gesproken door een stam. Je kent nog helemaal geen woorden, en weet eigenlijk niet waar je moet beginnen. Plots zie je een konijn wegschieten, en een van de stamleden wijst ernaar en roept: “Gavagai!”. We gaan er dan vanuit dat gavagai refereert naar het konijn. Maar hoe weten we zeker dat het niet gaat om de kleur van de vacht, de pluizige staart, of de actie van het wegschieten? De filosoof concludeerde met dit voorbeeld dat de linguïst door deze referentiële ambiguïteit nooit de betekenis van het woord met zekerheid kan weten. Ondanks dit filosofische probleem, bewijzen kinderen echter het tegendeel. Zij staan vanaf de geboorte iedere dag voor dit probleem, en leren toch snel de juiste betekenissen van woorden.
Er is veel onderzoek gedaan naar het vermogen van kinderen om nieuwe woorden te leren, maar deze onderzoeken hebben zich nog niet vaak gericht op multimodale of bidirectionele aspecten van interacties. Met multimodaliteit bedoelen wij communicatie op verbaal en nonverbaal (of: visueel) vlak, zoals spraak gecombineerd met kijgedrag, handgebaren of gezichtsuitdrukkingen. Deze visuele signalen zijn belangrijk om ambiguïteiten in taal op te lossen. Als iemand het bijvoorbeeld over het diertje heeft, dan is het al een stuk makkelijker om vast te stellen dat het diertje verwijst naar bijvoorbeeld een konijn, wanneer diegene tegelijkertijd naar een konijn kijkt en wijst. Wij hebben daarnaast ook gekeken naar bidirectionele eigenschappen van communicatie. Communicatie is per definitie een uitwisseling van informatie met iemand anders. Jouw gedrag tijdens de interactie heeft directe invloed op het gedrag van de ander, en vice versa. Een kind kan om informatie vragen, en de ouder kan deze informatie geven of niet. Wanneer we dus iemands gedrag tijdens interacties willen interpreteren, moeten we deze analyses nooit beperken tot het gedrag van één individu. Op basis hiervan wilden we onderzoeken of we door het bekijken van multimodale en bidirectionele aspecten van interacties beter konden begrijpen wat kinderen kan helpen om taal te leren.
In mijn proefschrift heb ik gebruik gemaakt van het longitudinale YOUth cohort. Er zouden meer dan tweeduizend ouder-kind interacties worden opgenomen binnen dit grootschalige onderzoek, dus in de eerste studie van mijn proefschrift wilde ik bekijken in hoeverre we spraak en nonverbaal gedrag tijdens ouder-kind interacties automatisch kunnen transcriberen. Het annoteren van video-opnames is een zeer kostelijke, tijdrovende klus. Het zou dus heel waardevol zijn als we dit proces kunnen versnellen met geautomatiseerde tools. We hebben gebruik gemaakt van een bestaande dataset van opnames waarin moeders voorlezen aan hun kind die al waren getranscribeerd. Vervolgens hebben we deze opnames automatisch getranscribeerd met Kaldi-NL, en de automatische transcripties vergeleken met de manuele transcripties. We vonden dat “kindgerichte spraak”, gekenmerkt door de hogere toon, toonvariatie en het langzame tempo, minder goed werd getranscribeerd vergeleken met “volwassengerichte spraak”. Maar iets meer dan de helft van de doelwoorden was correct geannoteerd (van der Klis et al., 2020) waardoor de automatische spraakherkenner nog niet geschikt was om te gebruiken voor ons onderzoek.
In de tweede studie over ouder-kind interactie zijn we dan ook handmatig te werk gegaan. We zijn begonnen met het maken en testen van een codeerschema waar nonverbaal gedrag, zoals handgebaren, gezichtsuitdrukkingen en lichaamstaal, aan was toegevoegd. Na het uitvoerig testen en updaten van dit codeerschema, hebben we uiteindelijk 117 ouder-kind paren met het nieuwe schema geanalyseerd. De belangrijkste bevindingen waren dat maarliefst 40% van ouderlijke reacties op hun kinderen multimodaal waren, met name spraak gecombineerd met handgebaren. We vonden ook dat ouders vaak op hun kinderen reageren in dezelfde modaliteit. Wanneer een kind vocaliseert, dan reageert de ouder meestal verbaal. Als een kind gebaart, dan reageert de ouder veel vaker ook nonverbaal. Bovendien, als het kind een vocalisatie en gebaar combineerde, dan was de kans ook veel groter dat de ouder multimodaal reageerde (van der Klis et al., 2023b). Er lijkt dus een match te zijn in modaliteit tussen ouder en kind. Dit onderzoek legde de basis om ouder-kind interacties te analyseren op multimodaal niveau.
In de derde studie hebben wij de taalmaten die waren verzameld in het kader van het YOUth-onderzoek onder de loep genomen. De grootschalige dataset met verschillende longitudinale taaluitkomstmaten biedde een mooie kans om tegenstrijdige resultaten omtrent demografische effecten op taalontwikkeling te onderzoeken. Zo zijn onderzoekers het nog steeds niet eens of taalontwikkeling wordt beïnvloed door bijvoorbeeld het geslacht van het kind, de sociaal-economische status, de zwangerschapsduur, het geboortegewicht of meertaligheid. Wij hebben deze factoren onderzocht in een steekproef van ruim 400 Nederlandse kinderen die op meerdere meetmomenten verschillende taaltaken hebben gedaan, zowel oudervragenlijsten als een gedragstaak in het lab. Uit ons onderzoek blijkt dat de effecten van deze factoren sterk taak- en leeftijdsafhankelijk zijn (van der Klis et al., 2024). Taakeffecten ontstaan met name door de aanwezigheid van bias in oudervragenlijsten, waar ouders systematisch hun kind overschatten of juist onderschatten. Dit is met name een probleem voor baby’s, aangezien het moeilijker is voor ouders om inschattingen te maken over het taalbegrip van een jonge baby. Het is belangrijk dat onderzoekers naar taalontwikkeling zich bewust zijn van deze invloeden op woordenschat verkregen via oudervragenlijsten.
In de vierde studie hebben wij twee verschillende theorieën tegenover elkaar gezet. Eerdere studies hebben aangetoond dat kinderen die op vroege leeftijd veel gebaren, later een grotere woordenschat hebben. In de literatuur zijn er twee verschillende theorieën die dit proberen te verklaren. De eerste theorie luidt dat baby’s die veel gebaren, al vroeg oefenen met een symbolisch en referentieel systeem, zoals het taalsysteem. Hierdoor leren deze kinderen makkelijker taal. De tweede theorie luidt dat het niet gaat om de symboliek van gebaren, maar de interacties die gebaren uitlokken. Als een kind ergens naar wijst, en de moeder reageert met “Wat een mooie pop!”, dan leert het kind gelijk het woord pop wanneer het kind hier al naar kijkt en interesse in heeft. Weet u nog het probleem van referentiële ambiguïteit zoals beschreven in de eerste alinea? Het aanbieden van het woord met zoveel gelijktijdige visuele signalen richting het object zou een optimaal leermoment kunnen vormen. Om deze twee theorieën te toetsen, hebben we de effecten van kindgebaren die snelle en passende reacties hebben uitgelokt bij ouders vergeleken met kindgebaren waar de ouders helemaal niet op hadden gereageerd. Alhoewel replicatie in een grotere studie van belang is om de patronen te bevestigen, lijkt het erop dat juist de kindgebaren die reacties hebben uitgelokt bij ouders samenhangen met een grotere woordenschat gemeten enkele jaren later, terwijl kindgebaren waar niet op gereageerd werd juist samenhangen met een kleinere woordenschat op latere leeftijd. Dit suggereert dat kinderen niet leren van het oefenen met een symbolisch systeem, maar dat de interactie die het gebaar uitlokt bij de ouder nou juist zo bevordelijk is voor de taalontwikkeling (van der Klis et al., 2025).
Kortom, mijn promotieonderzoek laat zien dat het bestuderen van multimodale en bidirectionele aspecten van ouder-kind interacties ons een beter begrip geeft over wat kinderen al heel vroeg kan ondersteunen bij het leren van taal. Deze kennis is heel waardevol, zeker aangezien wij recent in het YOUth-onderzoek hebben gevonden dat kinderen getest na de coronapandemie gemiddeld een kleinere woordenschat hebben vergeleken met leeftijdsgenoten voor de pandemie (van der Klis & Junge, in prep). Een mooi doel voor vervolgonderzoek is dan ook om te kijken of we ouders kunnen stimuleren om meer te reageren op de vroege communciatie, inclusief handgebaren, van hun jonge kind. Het is nog waardevol om te benoemen dat de automatische spraakherkenning over de afgelopen vijf jaar onwijs is verbeterd, en momenteel kunnen deze nieuwere tools gebruikt worden als startpunt voor het maken van transcripties van kindgerichte spraak (van der Klis et al., 2023a). Ik ben momenteel ook nog steeds bezig met collega’s en studenten van Kunstmatige Intelligentie om een systeem te trainen dat automatisch handgebaren van baby’s kan detecteren in video-opnames. Deze technologische vooruitgangen beloven veel goeds voor toekomstige onderzoeken, en hopelijk komen we dan dichterbij het begrijpen welke verschillen in ouder-kind interacties een deel van de enorme variatie in de taalontwikkeling van kinderen kunnen verklaren.
Referenties uit mijn proefschrift:
van der Klis, A., Adriaans, F., Han, M., & Kager, R. (2020). Automatic recognition of target words in infant-directed speech. Companion Publication of the 2020 International Conference on Multimodal Interaction, 522. https://doi.org/10.1145/3395035.3425184
van der Klis, A., Adriaans, F., Han, M., & Kager, R. (2023a). Using open-source automatic speech recognition tools for the annotation of Dutch infant-directed speech. Multimodal Technologies and Interaction, 7(7). https://doi.org/10.3390/mti7070068
van der Klis, A., Adriaans, F., & Kager, R. (2023b). Infants’ behaviours elicit different verbal, nonverbal, and multimodal responses from caregivers during early play. Infant Behavior and Development, 71, 101828. https://doi.org/10.1016/j.infbeh.2023.101828
van der Klis, A., Junge, C., Adriaans, F., & Kager, R. (2024). Examining Dutch children’s vocabularies across infancy and toddlerhood: Demographic effects are age-specific and task-specific. Journal of Child Language, 1–20. https://doi.org/10.1017/S0305000924000199
van der Klis, A., Junge, C., Adriaans, F., & Kager, R. (2025). The role of dyadic combinations of infants’ behaviors and caregivers’ verbal and multimodal responses in predicting vocabulary outcomes. Infancy, 30(1), e12626. https://doi.org/10.1111/infa.12626
