Kunstig intelligens kan hjælpe et presset sundhedsvæsen med at fordele begrænsede ressourcer, men også skabe mere ulige adgang til dem. Det viser forskningssamarbejde mellem Københavns Universitet, Rigshospitalet og DTU, der senest har undersøgt, om AI evner at spotte risiko for depression ligeligt hos forskellige grupper. Forskningen viser muligheder for at kæmme algoritmerne for bias, inden de tages i brug.
Kunstig intelligens vinder mere og mere indpas i sundhedsvæsnet. MR-scanninger er allerede blevet effektiviseret af AI, og danske sygehuse afprøver nu AI til bl.a. at stille hurtige diagnoser på akutpatienter, bedre kræftdiagnoser og -behandlinger. Men det er kun begyndelsen.
Den 14. August udtalte den danske sundhedsminister, Sophie Løhde, at hun ser en fremtid, hvor AI skal aflaste vores trængte sundhedsvæsen.
På hospitaler og i psykiatrien er en af de opgaver, som AI er velegnet til at hjælpe med at forbedre fordelingen af begrænsede midler ved hjælp af risikoanalyser og rangeringer, der kan sikre, at fx behandlinger gives til de patienter, hvor det batter mest.
I udlandet bruger man allerede AI til at vurdere, hvilke personer, der skal modtage behandling for depression. En udvikling, der kan være på vej til en presset dansk psykiatri.
Nu kalder forskere ved Københavns Universitet dog på eftertænksomhed hos politikerne, så AI ikke medfører mere ulighed eller ligefrem bliver et instrument for kyniske økonomiske kalkuler. Uagtsomhed kan gøre hjælpen til en bjørnetjeneste, påpeger de.
– Der er stort potentiale i kunstig intelligens, men vi skal være varsomme, da en blind indføring af det kan skævvride sundhedsvæsenet på nye måder, som er svære at se, fordi resultaterne ved første øjekast ser rigtige ud, siger Melanie Ganz fra Datalogisk Institut og Rigshospitalet.
Usynlig forskelsbehandling
I en ny forskningsartikel dokumenterer hun, sammen med sine medforfattere, hvordan skjulte bias sniger sig ind i en algoritme designet til at beregne risiko for depression.
Sammen med kolleger fra DTU udviklede forskerne selv algoritmen, efter samme design som de algoritmer, der allerede er i brug ude i virkelighedens sundhedsvæsner. På baggrund af virkelige depressionsdiagnoser forudsiger algoritmen, hvor stor risiko personer har for at udvikle depression.
– I udlandet bliver det mere og mere udbredt at se på, hvordan man tidligt kan opspore og forhindre depression. I USA bruger private forsikringsselskaber eksempelvis i stigende grad AI til at prioritere ressourcerne, og det når med al sandsynlighed også Danmark i en nær fremtid. Men spørgsmålet er, hvor retfærdigt et grundlag, prioriteringen egentlig sker på, siger medforfatter Sune Holm fra Institut for Fødevare- og Ressourcevidenskab.
Forskerne har brugt depression som case til at undersøge, hvordan vi kan evaluere de algoritmer, som vi bruger både inden for sundhedsvæsnet og andre steder i samfundet, så vi bliver i stand til at spotte og justere problemer i tide og gøre algoritmerne mere fair inden de tages i brug.
Forskernes egen algoritme var trænet i reelle, historiske sundhedsdata om 6 mio. danskere, hvoraf ca. 200.000 havde en depressionsdiagnose.
– De rigtige algoritmer med den rette træning kan blive kæmpe aktiver for en kommune med begrænsede ressourcer, men vores forskning viser, at hvis maskinlæringen ikke håndteres ordentligt, så kan det skævvride adgangen til behandling, så nogle grupper overses eller sågar holdes ude, siger Melanie Ganz.
Studiet viser nemlig, at algoritmen har lettere ved at spotte risiko for depression hos visse borgergrupper end hos andre ud fra de variabler, de er trænet i – fx uddannelse, køn, etnicitet og række andre variabler. Algoritmens evne til at identificere risiko for depression varierede således med op til 15 % mellem forskellige grupper.
– Det betyder, at selv en region eller kommune, der i god tro indfører en algoritme til at hjælpe med at fordele fx behandlingstilbud, kan komme til at skævvride den her sundhedsindsats, siger Melanie Ganz.
Algoritmen kan nemlig være en målbar succes, fordi den tildeler ressourcer til personer, der faktisk har behovet, men samtidigt have skjulte bias, der udelukker eller nedprioriterer visse grupper, uden det er synligt for dem, der forvalter det.
I værste fald kan AI-systemerne blive et instrument for kyniske kalkuler. Valget af bestemte algoritmer ville kunne bruges til at skjule prioriteringer af ressourcer til grupper i samfundet, som man ønsker at understøtte frem for andre.
Redskab til at sikre fair algoritmer
Sune Holm påpeger, at AI også giver nogle grundlæggende etiske dilemmaer.
– Hvis vi begynder at anvende de her systemer, er det vigtigt at afklare, hvem der har ansvaret for prioriteringer af ressourcer og individuelle behandlingsforløb, når de er resultater af algoritmer. Ydermere kan det blive svært for en læge at forklare sin patient, hvorfor en beslutning er taget, hvis algoritmen er uforståelig, lyder det fra Sune Holm.
Forskningen bidrager teoretisk til et område af maskinlæring, der handler om algoritmers forskelsbehandling på tværs af grupper, men metoderne er også et håndfast redskab til at kvalitetstjekke algoritmers fairness.
– De metoder, som vi har udviklet, kan bruges som en konkret recept til evaluere fairness af algoritmer, inden de tages i brug i fx kommuner og regioner. Vi håber forskningen på den måde kan bidrage til, at der er de rette redskaber på plads, når algoritmerne for alvor gør deres indtog på det her område, siger Melanie Ganz.
– Både politikere og borgere må være bevidste, ikke blot om fordelene, men også de faldgruber, der er forbundet med brugen af AI. Så man kan være kritisk i stedet for bare uden videre at sluge pillen, lyder det fra Sune Holm.
Han mener, der kan være behov for at sikre, at anvendelsen af en algoritme har en dokumenteret positiv effekt på patienterne inden man investerer i at implementere den. Eksempelvis bør det være klart, hvordan den kan give værdi i den kliniske praksis den skal indgå i.
Fakta: Depression i Danmark
Depression er en invaliderende lidelse, som er meget udbredt. Sundhedsstyrelsen vurderer, at omkring 500.000 danskere bliver ramt af en svær depression i løbet af deres liv. Samtidigt er der bred enighed om, at vores psykiatri mangler ressourcer til at løfte behovet.
Ekstra info: En startup-virksomhed som scenarie
Som eksperiment havde forskerne i et tænkt scenarie påtaget sig rollen som startup-virksomhed, der henvender sig til danske kommuner og andre myndigheder med AI-løsninger, der hjælper dem med at prioritere begrænsede midler, fx til sundhedsområdet. I Danmark bliver AI endnu ikke i dag brugt som diagnostisk hjælpemiddel for depression, men det findes internationalt, og vi har i Danmark tradition for at udvikle værktøjer til at støtte beslutninger inden for diagnostik. ”I USA findes der allerede startups, der tilbyder AI-løsninger til at analysere og rangere risiko for depression. Med vores store fælles sundhedsvæsen er et realistisk scenarie i Danmark, at perioder med fx underbemanding vil kalde på AI-løsninger, der kan prioritere de begrænsede ressourcer bedst, fx i psykiatrien,” siger Melanie Ganz.
Fakta: Sådan virker algoritmen
Historisk data om 6 mio. danskere fra Danmarks Statistik og medicinske registre blev anvendt. Heraf havde ca. 200.000 en depressionsdiagnose. Data indeholdte en række variabler, der statistisk påvirker risikoen for depression. Demografisk data som alder, køn, indkomst, hvorvidt personen bor alene, er danskfødt eller immigrant, bopæl, uddannelse, civil status og flere andre faktorer. Med afsæt i de statistiske data og virkelige depressionsdiagnoser stillet af sundhedsfaglige forsøger algoritmen så at forudsige på mennesker, om de har risiko for depression. Ved at skjule diagnosen for AI’en kunne forskerne bruge data fra den ene halvdel af de diagnosticerede danskere til at træne maskinen i at spotte mønstre og markører, som den kunne bruge til sine forudsigelser. Den anden halvdel blev brugt til at teste om algoritmen ramte plet.
Fakta: Sådan undersøgte de fairness
For at analysere dens fairness undersøgte forskerne kvaliteten af algoritmen på forskellige subgrupper af populationen ved at beregne kalibrering og den diskriminerende evne for hver subgruppe separat. Kalibrering af en maskinlæringsalgoritme svarer til at justere et termometer for at sikre, at det giver nøjagtige målinger. Det handler om at gøre algoritmens forudsigelser mere pålidelige ved at tilpasse dem bedre til virkeligheden. På samme tid skal en algoritme, f.eks. en der afgør, om en e-mail er spam eller ej, være god til at skelne mellem forskellige kategorier. Dens diskriminerende evne er dens talent for at genkende de subtile mønstre eller karakteristika, der adskiller én kategori fra en anden. Resultaterne viste en forskel i kvaliteten af algoritmens forudsigelser på op til 15% på tværs af subgrupper.
Ekstra info: Lovgivning på vej
I slutningen af året træder lovgivning i kraft i EU, der stiller krav til algoritmerne og kan lægge en dæmper på udviklingen, påpeger forskerne. Når der, som på sundhedsområdet, er tale om højrisiko-AI, følger der bl.a. krav om dokumentation og afrapportering, der forklarer konklusionerne og kan være med til at sikre den menneskelige hånd om beslutninger baseret på algoritmer. Ifølge forskerne er der dog så mange steder i sundhedsvæsnet, der kan forbedres med kunstig intelligens, fra arbejdsgange, diagnoser og behandlinger og til fx monitorering af intensivpatienter, at brugen af AI må være kommet for at blive. “Når lovgivningen træder i kraft, så tror jeg først det vil bremse udviklingen lidt, – så kommer der en tilpasning, og det vil bestemme en retning. På en lidt længere bane vil AI kun blive brugt mere og mere, og derfor er det også vigtigt, at vi som forskere er med til at påpege faldgruber, så lovgivningen kan tage højde for dem,” siger Melanie Ganz.