Utilizzo di differenti chiavi identificative di soggetti presenti in diversi archivi

Carlotta Sacerdote¹, Marco Dalmasso², Giovannino Ciccone¹, Moreno Demaria³ e Roberto Gnavi²

¹Epidemiologia dei Tumori, ASO San Giovanni Battista, CPO Piemonte, Torino

²Servizio di Epidemiologia, ASL 5, Torino ³Area di Epidemiologia Ambientale, ARPA, Torino

Da tempo l’analisi di informazioni di carattere socio-sanitario utilizza il collegamento di dati relativi alle persone fisiche presenti in archivi di differente provenienza, livello di aggiornamento, accessibilità e qualità (1). In assenza, almeno per la situazione italiana, di un univoco codice in grado di individuare ogni persona in modo indipendente dallo specifico settore di interesse, è utile collegare i diversi archivi informatizzati attraverso la definizione di chiavi identificative ricavate da sottoinsiemi, più o meno ampi, dei dati anagrafici disponibili.

In Italia, esperienze di utilizzo di chiavi identificative estratte da dati di tipo anagrafico sono state effettuate per il collegamento di informazioni relative alla stessa persona presenti su differenti archivi (2-4) o sulla medesima fonte informativa, come nel caso dell’individuazione di successivi ricoveri ospedalieri del medesimo assistito. Lo scopo del presente lavoro è di fornire semplici indicatori di validità di diverse chiavi identificative, tramite un esempio di utilizzo di differenti chiavi sperimentate su tre diversi archivi di interesse epidemiologico.

La valutazione delle caratteristiche di differenti chiavi univoche di identificazione è stata effettuata utilizzando i seguenti archivi:

•Coorte torinese del progetto EPIC (5): contiene informazioni anagrafiche, sugli stili di vita e sulle abitudini alimentari di 10 604 residenti a Torino. Il risultato atteso su questo archivio è che le chiavi identificative risultino univoche;

•Anagrafe del Comune di Torino: contiene i dati relativi a 1 944 080 cittadini iscritti all’Anagrafe comunale alla data del 31 dicembre 1998 (compresi i soggetti deceduti o emigrati a partire dal 1971). Anche utilizzando questo archivio il risultato atteso è che le chiavi identificative risultino univoche;

•Schede di Dimissione Ospedaliera (SDO) del Piemonte nell’anno 1997: includono 923 289 casi di ricovero registrati presso strutture ospedaliere del Piemonte. Mentre nei due archivi precedenti non possono esistere ripetizioni del medesimo soggetto, nel caso delle dimissioni questo evento è frequente. Per misurare la capacità delle differenti chiavi nel riconoscere correttamente questa condizione, è utilizzato il Codice Fiscale (CF) che, in 668 744 ricoveri (corrispondenti al 72,43% del totale), risulta indicato in modo completo e formalmente corretto. L’analisi è stata condotta sui 335 725 casi di ricoveri ripetuti che fanno riferimento a 122 884 differenti persone fisiche, identificate da uno specifico CF. Il risultato atteso utilizzando questo archivio è che le chiavi non risultino diverse per il medesimo soggetto.

Considerando l'impossibilità di utilizzare, almeno per quanto riguarda l'archivio delle dimissioni ospedaliere, l’informazione sul nome, vengono costruite le seguenti chiavi identificative:

a) prime 4 lettere del cognome (sono eliminati spazi, apostrofi, accenti), 1 carattere per il sesso, codice del Comune di nascita e data di nascita in forma completa;

b) analoga alla a), ma considerando solo le prime 3 lettere del cognome;

c) analoga alla a), ma considerando le prime 4 lettere del cognome estratte con algoritmo tipo CF;

d) analoga alla c), ma estraendo solo le prime 3 lettere del cognome.

La coorte EPIC e l’Anagrafe di Torino permettono di quantificare la quota di casi per i quali vengono generati, per soggetti diversi, valori non univoci della chiave identificativa; questo valore rappresenta una misura della scarsa specificità delle chiavi.

L’archivio delle dimissioni ospedaliere, dove si assume che i casi con lo stesso CF facciano riferimento alla medesima persona, permette di misurare la quota di casi per i quali non vengono generati gli stessi valori della chiave in corrispondenza del medesimo CF. Anche in questa situazione, questo valore misura la scarsa specificità della chiave.

Nella Tabella vengono presentati, espressi in termini di variazione percentuale, i margini di aumento (per gli archivi della coorte EPIC e dell’Anagrafe) e di diminuzione (per l’archivio delle SDO, rispettivamente per tutte le persone con ricoveri ripetuti e per le persone con ricoveri doppi) dell’indicatore di corretta identificazione al variare della chiave.

Aumentando il numero di caratteri considerati, nel caso dell’archivio della coorte EPIC, i guadagni in termini di corretta attribuzione appaiono contenuti, mentre, a causa della maggiore numerosità dell’archivio, risultano più consistenti nel caso dell’Anagrafe. Le diminuzioni dell'indicatore registrate utilizzando l’archivio delle SDO vanno nella direzione attesa: aumentando il numero di caratteri utilizzati, aumenta la probabilità di generare chiavi diverse per gli stessi soggetti.

Più interessante è il confronto fra le prestazioni registrate dalle distinte coppie di chiavi per le quali vengano utilizzati i primi caratteri del cognome (a, b) o la loro corrispondente versione costruita utilizzando l’algoritmo del CF (c, d). Anche in questa analisi, si osservano, sugli archivi EPIC e Anagrafe, aumenti dell'indicatore di corretta attribuzione nel caso si utilizzi il CF. All'opposto, nell’archivio delle SDO, l'utilizzo delle chiavi c, d fa registrare, rispetto alle chiavi a, b, consistenti diminuzioni dell'indicatore di corretta attribuzione. Queste variazioni possono essere attribuite alla scarsa qualità della compilazione del cognome, che interessa in maggior misura le consonanti piuttosto che le vocali (non utilizzate nel caso delle chiavi c, d).

Come atteso, il confronto fra le coppie di chiavi per le quali sono utilizzati 3 o 4 caratteri del cognome, evidenzia come, all'aumentare del numero di caratteri considerati, diminuisca la probabilità di assegnare la medesima chiave a persone distinte ma, parallelamente, aumenti la probabilità di considerare come distinte occorrenze che risultano relative al medesimo soggetto.

La probabilità di generare erroneamente chiavi identiche a partire da individui diversi è inferiore al 2,5% con qualunque chiave (Anagrafe). La percentuale di errore si riduce in media dell’1% utilizzando 4 caratteri invece che 3 e dello 0,5% utilizzando l’algoritmo del CF rispetto alla semplice estrazione dei primi caratteri del cognome. La probabilità di generare erroneamente chiavi diverse a partire da dati anagrafici dello stesso individuo (archivio SDO) risulta intorno al 4% per tutte le chiavi, tranne quando si utilizzano solo 3 caratteri con l’algoritmo del CF (errore intorno al 5%).

Le due chiavi che minimizzano entrambi gli errori sono quella che utilizza i primi 4 caratteri del cognome e quella che utilizza i primi 3 caratteri con algoritmo tipo CF. La scelta tra le due chiavi dipenderà dal tipo di dati che vengono linkati e dal grado di completezza delle variabili anagrafiche delle fonti informative utilizzate.

Riferimenti bibliografici

1. Rosso S. Archivi e liste di popolazione: accessibilità, completezza, aggiornamento. In: Atti del Convegno della Associazione Italiana di Epidemiologia, 1986.

2. Lagorio S, Forastiere F, Michelozzo P, et al. Accertamento delle cause di morte in studi di follow up: confronto di procedure utilizzabili in Italia. Epid Prev 1987; 31: 57-61.

3. Costa G, Demaria M, Bisanti L, et al. Uso di dati amministrativi per la ricerca epidemiologica. La consultazione dell’archivio dei codici fiscali per l’accertamento di esistenza in vita negli studi di coorte. Epid Prev 1988; 35: 40-6.

4. Costa G, Demaria M. Un sistema longitudinale di sorveglianza della mortalità secondo le caratteristiche socio-economiche, come rilevate ai censimenti di popolazione: descrizione e documentazione del sistema. Epid Prev 1988; 36: 37-47.

5. Riboli E, Kaaks R. The EPIC project: rationale and study design. Int J Epidemiol 1997; 26(suppl. 1): S6-14.

Bollettino epidemiologico nazionale

Utilizzo di differenti chiavi identificative di soggetti presenti in diversi archivi