Press "Enter" to skip to content

Biases i folketingstaler


‘Word embeddings’ kan, modsat one-hot encoding strategier til at kvantificere tekst, indfange den betydning afsenderen af en tekst tillægger forskellige ord og fænomener. Det betyder, at de kan bruges til undersøge og fremhæve implicitte eller eksplicitte biases i tekster. I dette indlæg introducerer jeg word embeddings og viser hvordan de kan anvendes til at måle hvor maskulint vs. feminint og hvor liberal vs. socialistisk ord italesættes af afsenderen.

Word embeddings er allerede i vid udstræk anvendt i samfundsforskningen. Rodman (2020) bruger fx word embeddings til at undersøge hvordan ‘lighed’ italesættes som politisk koncept hen over en 100-årig periode i USA, og hvilken “mening” lighed har i forskellige perioder igennem historien. På samme vis udnytter Kozlowski, Taddy og Evans (2019) word embeddings til at vise hvordan kultur kan undersøges gennem tekst ved fx at projicere forskellige musikgenre eller erhverv hen på koncepter som ‘køn’, ‘etnicitet’ og ‘social klasse’. Er du mere nysgerrig på word embeddings kan du læse lidt mere om dem herunder.

Word embeddings 101:
Læs mere

Politiske tekster såsom parlamentstaler, partimanifester, tweets osv. indeholder – ikke overraskende – meget information om afsenderens bagvedliggende holdninger og meninger. Udfordringen består imidlertid i at kvantificere dettee ustrukturerede data og udtrække denne information. Her er one-hot encoding – dvs. simpel optælling af forekomsten af forskellige ord i en tekst – en let tilgængelig og, i mange tilfælde, stærk måde, at kvantificere tekst data på. Selvom kontekst ikke indfanges, siger hyppigheden af brugen af visse ord meget om ens politiske ståsted. En ny måde at anskue text-as-data på, er vha. såkaldte ‘word embeddings’. Kort sagt er ‘word embeddings’ k-dimensionelle, numeriske vektorer, der beskriver ords semantik ved at placere dem i relation til andre ord i et geometrisk rum. Disse vektorer “læres” af en algoritme, der trænes til at forudsige ords betydning på baggrund af den kontekst de bruges i. Omend det ikke er den mest intuitive definition af word embeddings nogensinde givet, har den alligevel vidtrækkende konsekvenser for hvad vi kan bruge dem til.

Jeg har tidligere forsøgt at måle polariseringen i det danske Folketing under COVID-19 vha. en machine learning model, der prædikterede hvilken politisk blok (rød/ blå) en given tale kom fra. Her var hvert ord blot repræsenteret ved hyppigheden hvormed det blev brugt, dvs. i en simpel tælle-matrice. Dette siger ikke noget om den kontekst som ordnene bliver brugt i – men det kan word embeddings!

Simpelt fortalt kan man med word embeddings finde ud af hvilke andre ord et givent ord – fx ‘Danmark’ – associeres med i en tekst. Hvis word embeddings estimeres på en mangfoldig nok kollektion af tekst, vil ordet ‘Danmark’ givetvist associeres kraftigt med andre lande som ‘Tyskland’, ‘Sverige’, ‘USA’ osv. Dermed “lærer” word embeddings altså noget om ord semantiske betydning og mening. I mit kandidatspeciale på Statskundskab på Københavns Universitet trænede jeg et sæt word embeddings på Canadiske parlamentstaler på 1901-2020, der på samme måde kunne se forskel på Canadiske provinsers hovedstader og største byer.

Anyway, meningen bag et ord er selvfølgelig givet af afsenderen og den måde hun/ han bruger et ord på. Derfor siger word embeddings også noget om de implicitte (eller eksplicitte) biases vi alle sammen render rundt med om vores omverden, og som alt andet lige udtrykkes gennem vores måde at tale på. Og nogle, der taler meget om alt muligt, er danske folketingspolitikere.

SÅ – jeg har estimeret et sæt word embeddings på samtlige folketingstaler givet i Folketinget fra 2009 til 2020. Selvfølgelig har nogle ords mening ændret sig i denne periode (men der skal en stor mængde tekst til at træne disse modeller), og derfor afspejler resultaterne også et slags gennemsnit for en godt tiårig periode i dansk politik. Set med de store historiske briller, er en godt 10-årig periode også en udmærket længde til at opsummere forskellige dimensioner i dansk politik.

Lad os kigge nærmere på betydningen af visse ord opfanget af disse word embeddings. Tager vi eksemplet fra før, viser tabel 1 hvilke ord danske folketingspolitikere i højest grad associerer med ordet ‘danmark’.

OrdAfstand til ‘danmark
land0.59
landet0.58
lande0.54
danske_samfund0.52
danske0.52
vi0.52
andre_lande0.50
Ord tættest associeret med ordet ‘danmark’ målt ved deres respektiv afstand (cosine similarity).

Tabellen viser – måske ikke så overraskende – at ‘danmark’ af folketingspolitikere associeres med en form for nationalitetssans ved ordene ‘landet’, ‘vi’ osv. Kigger man i stedet på ordet ‘sverige’, er det naturligt nok mere neutralt og associeres tættest med andre lande.

OrdAfstand til ‘Sverige’
tyskland0.66
norge0.63
andre_lande0.57
frankrig0.49
holland0.48
Ord tættest associeret med ordet ‘danmark’ målt ved deres respektiv afstand (cosine similarity).

Disse associationer vækker ikke den store opsigt givet tekstens kilde – de viser meget fint, at word embeddings afspejler ords betydning ift. den specifikke måde tekstens afsender taler.

Kozlowski, Taddy og Evans (2019) udnytter dette, at word embeddings afspejler en form for semantisk relation mellem ord, til at konstruere forskellige indeks, der måler bl.a. køn (mand/ kvinde), etnicitet (sort/ hvid) og politisk orientering (liberal/ konservativ). Herpå projicerer de forskellige koncepter som musikgenrer og erhverv, for at måle i hvilken udstrækning fx jazz italesættes som mere maskulint end feminint, eller som mere liberalt end konservativt. De gør dette ved at tage gennemsnitsafstanden mellem antonym-par, der hver især er definerende for indeksets poler. Et eksempel herpå er indekset, som indfanger køn, hvilket konstrueres som: (han – hun) + (hans – hendes) + (ham – hende) + (mand – kvinde)… På den måde konstureres en samlet k-dimensionel vektor, der repræsenterer køn. Ligesom med ordparene tidligere, kan afstanden mellem denne og andre, ord herefter estimeres. Denne afstand er i sig selv ikke sigende, men det er derimod de relative afstande mellem forskellige ord, der er interessante. Mere negative værdier vil i denne sammenhæng afspejle mere feminint associerede ord.

Jeg konstruerer efter samme opskrift et køn-indeks, som det italesættes eller opfattes af danske folketingspolitikere. Fordi Kozlowski, Taddy og Evans bruge anvender word embeddings trænet på et meget mangfoldigt corpus af tekst, kan de opfange de kønsbias, der eksisterer fx ift. erhverv mere generelt. Jeg forventer dog stadig, at danske folketingspolitikere til en vis grad udviser sådanne biases i den måde de italesætter fx erhverv. Jeg bruger erhverv som eksempel her, fordi de fleste af os har maskuline og feminine associationer til forskellige erhverv. I tillæg til at placere forskellige erhverv ift. en kønsdimension, konstruerer jeg også et indeks, der indfanger dikotomien liberal-socialistisk, som har været og er en centralt distinktion i dansk politik. Denne defineres som (liberal – socialistisk) + (liberale – socialistiske) + (liberalt – socialistisk) + (liberalisme – socialisme). Resultaterne fremgår af figuren nedenfor.

Ordene for de forskellige erhverv er valgt ud fra hvilken bøjning, der hyppigst er brugt i talerne for at sikre de bedst beskrivende word embeddings for dermed at kunne beregne den mest sigende afstand. Derfor varierer det fra ord til ord hvilken form det står i. Ideelt havde jeg anvendt gennemsnitsafstanden for samtlige bøjninger af et ord word embeddings til de givne dimensioner.

Figuren viser udvalgte ords placering på de to dimensioner. På kønsdimensionen indikerer mere negative værdier mere feminine associationer, mens mere negative værdier på ideologidimensionen indikerer mere socialistiske associationer.

Figuren viser en række interessante, omend ikke så overraskende forhold. Ord som ‘sosu-assistent’, ‘sygeplejerske’ og ‘dagplejer’ italesættes som mere feminine end eksempelvis ord som ‘advokat’, ‘professor’ og ‘tømrer’, mens ord som ‘læge’ og ‘iværksætter’ er relativt kønsneutrale. Til gengæld italesættes ‘læge’ og ‘iværksætter’ mere liberalt, mens ord som ‘murer’, ‘tømrer’ og ‘sygeplejerske’ i højere grad associeres med den socialistiske ende af ideologidimensionen. På denne måde kan word embeddings altså anvendes til synliggøre implicitte og eksplicitte biases i det sprog vi taler.


Litteratur:

Rodman, Emma. 2020. “A Timely Intervention: Tracking the Changing Meanings of
Political Concepts with Word Vectors.” Political Analysis. 28 (1): 87-111. DOI: https://doi.org/10.1017/pan.2019.23

Kozlowski, A. C., Taddy, M., & Evans, J. A. (2019). The Geometry of Culture: Analyzing the Meanings of Class through Word Embeddings. American Sociological Review84(5), 905-949. DOI: https://doi.org/10.1177/0003122419877135