Logistische regressie
In o.a. het artikel ‘De ontwikkeling van de Wet Damocles: burgemeesters trekken zwaard in de strijd tegen drugs’, gepubliceerd in het Tijdschrift voor Bijzonder Strafrecht & Handhaving, maak ik gebruik van logistische regressieanalyses om verzamelde rechtbankuitspraken over art. 13b Opiumwet statistisch te analyseren. Door middel van logistische regressieanalyse onderzoek ik welke onafhankelijke variabelen in welke mate de uitkomst van een rechtszaak beïnvloeden. Hieronder geef ik meer uitleg over het gebruik van deze methode. De logistische regressieanalyse is gedaan in R (‘rms’ package).
Een logistische regressie toetst of er samenhang bestaat tussen een dichotome afhankelijke variabele en één of meerdere onafhankelijke variabele(n). De onafhankelijke variabelen worden ook wel de voorspellers of verklarende variabelen genoemd. In mijn onderzoek naar de toepassing van art. 13b Opiumwet is de afhankelijke variabele de uitkomst van een rechtszaak. Deze heeft twee waarden: het beroep slaagt of het beroep wordt afgewezen.
Het algoritme in R vergelijkt het tweede niveau van de uitkomst met het eerste niveau (het referentieniveau). In mijn analyse betekent dit dat ‘het beroep wordt afgewezen’ wordt vergeleken met ‘het beroep slaagt’. Het logistische regressiemodel modelleert vervolgens de kans dat het beroep wordt afgewezen door verschillende verklarende variabelen (voorspellers) toe te voegen aan het model. Bij zaken over de toepassing van art. 13b Opiumwet kunnen de soort drugs die worden aangetroffen en het type gebouw dat wordt gesloten bijvoorbeeld dienen als voorspellers.
De structuur van het model voor logistische regressie is als volgt:
De uitkomstvariabele, , wordt de log odds (of logit) van de uitkomst genoemd. Log odds is de natuurlijke logaritme van de odds en kan alle waarden tussen min oneindig en oneindig aannemen. De odds, ook wel relatieve kans of kansverhouding genoemd, is de verhouding tussen de kans op uitkomst A en de kans op uitkomst B in dezelfde context. De context wordt bepaald door de waarde die de voorspellers aannemen (de rechterkant van het model). Zo kan de kans dat het beroep wordt afgewezen onder meer afhangen van de drugs die worden aangetroffen, het soort gebouw dat wordt gesloten of het verweer dat wordt gevoerd.
De eerste waarde in de formule, , is de intercept. De intercept geeft de kans weer dat het beroep wordt afgewezen als alle voorspellers op het referentieniveau zijn (voor categorische variabelen) of gelijk zijn aan nul (voor numerieke variabelen). Het algoritme kiest automatisch het eerste niveau van een categorische variabele als referentieniveau. Hier worden de andere niveaus van de variabele mee vergeleken (zie tabel 2). De variabele ‘soort drugs’ heb ik bijvoorbeeld ingedeeld in vier niveaus: 1) harddrugs, 2) softdrugs, 3) beide en 4) geen. Het algoritme kiest automatisch het eerste niveau, harddrugs, als referentieniveau en vergelijkt de uitkomst van alle andere zaken met de uitkomst van de zaken waarin harddrugs zijn aangetroffen. Het referentieniveau heeft geen invloed op de uitkomst van de statistische analyse, enkel op de interpretatie van de uitkomst.
De waarden,, zijn de coëfficiënten. Dit zijn de schattingen van het effect dat de voorspellers,
, hebben op de uitkomst van de zaak. Met andere woorden, de coëfficiënten laten zien hoeveel de kans dat het beroep wordt afgewezen toe- of afneemt als de waarde van de voorspeller verandert. De coëfficiënten,
, worden weergegeven in log odds ratios. Dit is de natuurlijke logaritme van de odds ratio (OR). Een log odds ratio vergelijkt de odds (de kansverhouding) dat het beroep wordt afgewezen voor de verschillende niveaus van een variabele met het referentie niveau. Log odds ratios kunnen worden omgezet naar odds ratios (OR) door de natuurlijke logaritme weg te halen. Dit kan door de e-macht te nemen van de coëfficiënt. OR is de verhouding tussen de odds dat X gebeurt en de odds dat Y gebeurt. Zie tabel 1 als voorbeeld. De odds voor afgewezen beroepen als softdrugs worden aangetroffen wordt berekend door het aantal afgewezen beroepen te delen door het aantal geslaagde beroepen (a/b). De OR is vervolgens de vergelijking tussen de odds voor softdrugs en harddrugs: OR=(a/b)/(c/d).
De OR kan alle waarden tussen de nul en oneindig aannemen. Een OR van 1 betekent dat de kans op beide uitkomsten gelijk is: er is geen associatie tussen de twee variabelen. Als de OR >1, dan is de eerste odds groter dan de tweede odds. Als de OR <1, dan is de eerste odds kleiner dan de tweede odds. Een OR van 2 betekent in dit voorbeeld dat de odds op een afgewezen beroep in zaken waarin softdrugs worden aangetroffen twee keer zo groot is als de odds op een afgewezen beroep in zaken waarin harddrugs worden aangetroffen.
Het interpreteren van een logistische regressie tabel
Tabel 2 laat de resultaten van een logistische regressie analyse zien. Het algoritme in R vergelijkt het tweede niveau van de uitkomst met het eerste niveau (het referentieniveau). In mijn analyse betekent dit dat ‘het beroep wordt afgewezen’ vergeleken wordt met ‘het beroep wordt toegewezen’. In de eerste kolom staan de coëfficiënten. Deze worden weergegeven in log odds ratios. Als de coëfficiënt een positieve waarde heeft, wordt de kans dat het beroep wordt afgewezen vergroot. Indien de coëfficiënt een negatieve waarde heeft wordt de kans dat het beroep wordt afgewezen verkleind. Omgekeerd wordt de kans dat het beroep wordt toegewezen dan vergroot.
In de tweede kolom is de natuurlijke logaritme van de OR weggevallen door de e-macht van de coëfficiënt te nemen (=2,47). Hierdoor blijft de OR over. De OR op een ongegrond verklaard beroep in zaken waarin een lokaal wordt gesloten ten opzichte van zaken waarin een woning wordt gesloten is 2,47.
De derde kolom toont de 95% betrouwbaarheidsinterval. Dit is een intervalschatting die de nauwkeurigheid van de geschatte OR laat zien. De werkelijke waarde wordt verwacht binnen de interval te liggen.
In de vierde en laatste kolom staat de p-waarde. Deze wordt berekend met behulp van de Wald test. De nulhypothese dat twee of meer verdelingen niet met elkaar samenhangen (OR=1), kan worden verworpen als de p-waarde lager is dan 0,05. Als de uitkomst van een logistische regressieanalyse significantie aantoont (p<0,05) voor bepaalde variabelen, betekent dit dat die variabele de uitkomst van een zaak beter voorspellen dan op basis van kans wordt verwacht. Tabel 2 laat zien dat lokalen (p=0,009) en het voeren van een proportionaliteitsverweer (p<0,001) onafhankelijke voorspellers zijn voor de uitkomst van de zaak. De OR voor een proportionaliteitsverweer is 5,04. Dit betekent, rekening houdend met de invloeden van het soort gebouw en het type drugs, dat de odds dat het beroep wordt afgewezen bij belanghebbenden die een proportionaliteitsverweer voeren vijf keer zo hoog is als de odds voor belanghebbenden die geen proportionaliteitsverweer voeren.
De onderste drie rijen van de tabel laten zien of het model significant is. De p-waarde is kleiner dan 0,05. Dit betekent dat het model in tabel 2 significant is. Met andere woorden, minstens één onafhankelijke variabele is significant. De C-index laat de waarschijnlijkheid zien dat het voorspellen van de uitkomst beter is dan toeval. Een C-index van 0.5 geeft aan dat het model niet beter is dan toeval. Een model met een C-index hoger dan 0,7 is doorgaans een goed voorspellingsmodel. Als de C-index hoger is dan 0,8 dan wordt het model als sterk voorspellend gezien. Een C-index van 1 betekent dat de voorspellingen van het model perfect zijn.