Sommeren har for længst passeret sit højdepunkt, mens arbejdet med min første artikel følger en mere jævn kurve, og det føles at være et stykke væk fra dens ende. Det er arbejdet med de små detaljer som stjæler meget af min tid, og bloggen er ikke opdateret på det sidste – mest grundet en altopslugende jagt på missing values. I forskning går man op i missing values. De kaldes ikke missing kun fordi værdien mangler i dit dataset, men også fordi de gemmer sig. De står ikke og blinker til dig, de opererer mere i de skjulte. Man skal holde styr på dem, have overblik over, hvor de gemmer sig, vide hvornår de pludselig springer frem. Følgende problemstilling er opstået som følge af dette møjsommelige efterforskningsarbejde:

Du skal lave en ny variabel. Den skal tage udgangspunkt i en variabel som hedder ”smerter i nakke sidste uge” med alternativerne ”ja”, ”nej” og ”missing”, og en anden variabel som hedder ”smerter i lænden sidste uge” med alternativerne ”ja”, ”nej” og ”missing”. Missing opstår, hvis du ikke har besvaret spørgsmålet. Den nye variabel skal hede ”smerter i både nakke og lænden sidste uge”, også den med ”ja”, ”nej” og ”missing”. Hvilken gruppe skal du placere observationen i, hvis kombinationen er ”nej” under smerte i nakken og ”missing” under smerte i lænden? En ting er helt sikkert, den kan ikke blive et ”ja”. Men bliver den et ”nej” eller en ”missing”? Rent logisk kunne vi placere observationen under ”nej”, fordi vi ved, at der ikke er nogen nakkesmerter, og dermed er kombinationen nakke OG lændesmerter udelukket – uafhængig af svaret på lændespørgsmålet. Alligevel vil de fleste forskere placere den under ”missing”, fordi man aktivt skal have svaret ”nej” på lændespørgsmålet, for at det skal blive et ”nej” i den nye variabel.

Svaret er: Der er ingen facit. Det man gør, skal beskrives, om muligt med en begrundelse af hvorfor. Og i sidste ende er det vigtigt, at man ikke hårdnakket tror, man er bærer af det ”rette” svar, af den eneste rette løsning. I mit dataset har det ingen praktisk betydning, hvor disse missing values havner, i ”nej” eller ”missing”, det handler om et tal under 10 ud af 1313. Det rykker ikke resultaterne – hverken i den ene eller anden retning. Der er meget tankearbejde som ligger bag en tilsyneladende ubetydelig linje i den endelige artikel.