Confronto tra due test per la sorveglianza dei sintomi depressivi nella popolazione

Confronto tra due test per la sorveglianza dei sintomi depressivi nella popolazione*

Paolo D’Argenio¹, Valentina Minardi¹, Nadia Mirante¹, Cristiana Mancini², Vincenza Cofini³, Anna Carbonelli³, Giancarlo Diodati⁴, Carla Granchelli⁴, Massimo Oddone Trinito⁵, Emanuele Tarolla¹ e Antonella Gigantesco¹

¹Centro Nazionale di Epidemiologia, Sorveglianza e promozione della Salute, Istituto Superiore di Sanità, Roma; ²ASL 1 Avezzano-Sulmona-L’Aquila, L’Aquila; ³Dipartimento di Medicina Clinica, Sanità Pubblica, Scienze della Vita e dell'Ambiente, Università degli Studi dell’Aquila; ⁴ASL Pescara; 5ASL Roma C

SUMMARY (Comparison of two tests for the surveillance of depressive symptoms in the population) - PHQ-2 and PHQ-8, two tests for depression, were performed on a sample of 957 people aged between 18 and 69. We calculated sensitivity, specificity and predictive values of PHQ-2 (compared to PHQ-8), and prevalence ratios, for high-risk groups, obtained using both tests. PHQ-2 shows good sensitivity and specificity, but low positive predictive value, therefore the prevalence of depression is overestimated. Nevertheless PHQ-2 is able to recognize susceptible subgroups, though it underestimates the strength of association. With these limitations, PHQ-2 proves to be a valid tool for public health surveillance.

Key words: depressive disorders; surveillance; validity

antonella.gigantesco@iss.it

Introduzione

Secondo l’OMS, la depressione è la causa più importante di perdita di anni in buona salute per disabilità o morte prematura nei paesi ad alto reddito. In Italia, la stima della prevalenza di depressione maggiore, a 12 mesi, tra le persone da 18 anni in su è pari al 3% (1).

Per orientare le decisioni di politica sanitaria è essenziale stabilire l’estensione dei disturbi depressivi nella popolazione, i cambiamenti nel tempo, le differenze geografiche e quelle tra gruppi della popolazione e, a tale scopo, la sorveglianza di popolazione sui rischi comportamentali rappresenta uno strumento disponibile e a basso costo (2). Tuttavia, i criteri descritti nel manuale diagnostico e statistico dei disturbi mentali DSM-IV-TR, valutati con un’intervista psichiatrica strutturata per porre una diagnosi di depressione maggiore, sono inapplicabili nel contesto della sorveglianza.

Uno degli strumenti più utilizzati è il Patient Health Questionnaire che, nella versione completa (PHQ-9), è composto da 9 domande con cui è possibile individuare la presenza di episodio depressivo maggiore con sensibilità 71-84% e specificità 90-97% (3). La validità della versione a 8 domande (PHQ-8) è allo stesso livello di quella del PHQ-9 (4).

In Italia, il sistema di sorveglianza sui rischi comportamentali PASSI (5), per calcolare l’indicatore della depressione nella popolazione, utilizza una versione ridotta del Patient Health Questionnaire che include solo le prime due domande (PHQ-2).

Con i dati di uno studio svolto nel 2010, in cui i sintomi depressivi sono stati rilevati sia con il PHQ-2 che con il PHQ-8, è stata valutata la validità del PHQ-2 nella sorveglianza di sanità pubblica.

Metodi

Il progetto Cometes (Conseguenze a medio termine del terremoto del 6 aprile 2009 sullo stato di salute della popolazione) ha stimato, tra l’altro, la prevalenza dei sintomi depressivi, intervistando telefonicamente, nel corso del 2010, un campione casuale di 957 assistiti di età 18-69 anni, residenti nei comuni aquilani colpiti dal sisma e iscritti all’anagrafe sanitaria della ASL (6). Con il PHQ-8 si chiede al rispondente di indicare, facendo riferimento alle due settimane precedenti all’intervista, il numero di giorni in cui ha avuto: poco interesse o piacere nel fare le cose; un sentimento di depressione; difficoltà del sonno; senso di stanchezza; problemi dell’appetito; considerazione negativa di sé stesso; difficoltà a concentrarsi; lentezza o irrequietezza motoria. Rispetto alla versione a nove item, viene omessa una domanda che riguarda i pensieri suicidari o autolesionistici. Gli intervistati che rifiutano di rispondere anche a una sola domanda vengono esclusi.

Il numero di giorni è convertito, per ciascuna domanda, in punti: 0-1 giorni = 0 punti; 2-6 giorni = 1 punto; 7-11 giorni = 2 punti; 12-14 giorni = 3 punti. Una somma dei punti assegnati alle otto risposte con valore compreso tra 0 e 9 indica assenza di depressione o depressione lieve, mentre un valore superiore a 9 indica presenza di depressione. Il PHQ-2 è costituito dalle prime due domande. In questo caso, un punteggio complessivo tra 0 e 2 indica assenza di depressione, mentre un punteggio tra 3 e 6 indica presenza di depressione. In base al confronto con il PHQ-8 sono state stimate la sensibilità, la specificità e i valori predittivi del PHQ-2 e sono stati calcolati gli intervalli di confidenza di queste proporzioni.

Inoltre, sono state confrontate le prevalenze ottenute con l’uno e l’altro metodo, in gruppi considerati a maggior rischio di depressione, come le donne e le persone con difficoltà economiche, le persone senza lavoro regolare e quelle che riferiscono una malattia cronica (4) per verificare se la minore accuratezza del PHQ-2 fosse tale da impedire di apprezzare associazioni la cui importanza è ben nota. Le associazioni sono state valutate con il rapporto di prevalenza, corredato dell'intervallo di confidenza. Per le analisi è stato usato il complex survey design e i calcoli sono stati effettuati utilizzando i software STATA e Open-EPI.

Risultati

Il tasso di risposta è stato del 91,2% e il tasso di rifiuto del 4,3%. Dei 957 intervistati, il 49% erano uomini, il 29% erano giovani tra 18 e 34 anni, il 32% aveva tra 35 e 49 anni e il restante 39% aveva tra 50 e 69 anni.

Tra gli intervistati, 20 persone (pari al 2,1%) non hanno risposto a entrambe le domande del PHQ-2. Includendo costoro, il totale di rispondenti che non hanno risposto a una o più delle domande del PHQ-8 è stato di 62 (6,5%). Pertanto, le analisi che confrontano PHQ-2 e PHQ-8 riguardano 895 rispondenti.

La prevalenza di positivi al PHQ-2 è pari a 15,7% (IC95% 13,5-18,1), mentre la prevalenza di positivi al PHQ-8 è pari a 5,8% (IC95% 4,4-7,6). In totale 52 intervistati sono classificati come affetti da sintomi di depressione secondo il PHQ-8, mentre ben 138 sono classificati con sintomi di depressione con il PHQ-2 (Tabella 1).

La sensibilità del PHQ-2 è risultata pari al 98,1% (IC95% 89,9-99,7) e la specificità pari all'89,7% (IC95% 87,4-91,6). Considerando il valore del PHQ-2 per quanto riguarda la classificazione del singolo individuo, il valore predittivo positivo è stato del 37,0%, mentre il valore predittivo negativo è stato pari al 99,9%.

Nella tabella 2 sono riportati i valori di prevalenza e i rapporti di prevalenza (RP) in gruppi particolarmente vulnerabili. In ogni strato, la prevalenza di depressione misurata con PHQ-2 è risultata 2-3 volte maggiore di quella misurata con il PHQ-8.

Gli RP, misurati con il PHQ-8, sono tutti maggiori di 1 (Tabella 2); quelli per genere, difficoltà economiche, e condizione di lavoro sono risultati statisticamente significativi, mentre quello per presenza di malattie croniche (1,3) non è statisticamente significativo. I valori dell'RP, misurati con il PHQ-2, mostrano le stesse associazioni rispetto a quelli misurati con il PHQ-8, anche se sono sistematicamente più bassi.

Discussione

La sorveglianza dovrebbe essere il più possibile accettabile, sostenibile e sensibile (7). Il PHQ-2 è risultato più accettabile in virtù di un minor numero di mancate risposte e, dal punto di vista della sostenibilità, il risparmio di sei domande rappresenta un vantaggio in termini di tempo necessario per l’intervista.

La sensibilità, considerata a livello individuale, è la proporzione di veri casi diagnosticati, mentre a livello della popolazione è la capacità di riconoscere i cambiamenti del fenomeno sotto sorveglianza nel tempo, nello spazio e tra gruppi di popolazione (7).

A livello degli individui, questo studio ha mostrato che, nei confronti del PHQ-8, il PHQ-2 classifica bene le persone che non sono affette da depressione, grazie all’elevato valore predittivo negativo. Invece il PHQ-2, quando segnala la presenza di depressione risulta poco affidabile, per la presenza di circa un 10% di falsi positivi. A livello della popolazione, la presenza dei falsi positivi provoca una sovrastima della prevalenza di depressione misurata col PHQ-2 che risulta 2-3 volte maggiore rispetto a quella misurata col PHQ-8. Se a questo si aggiunge il fatto che lo stesso PHQ-8 nella popolazione generale presenta una percentuale di falsi positivi rispetto al gold standard (4), la sovrastima della prevalenza di depressione dovrebbe essere ancora maggiore.

Tuttavia, dal punto di vista della sensibilità del sistema di sorveglianza, il PHQ-2 conferma (8, 9) una performance simile al PHQ-8, perché è in grado di individuare i gruppi a maggior rischio, anche se la forza dell’associazione è lievemente minore.

Lo studio tuttavia non ha effettuato un confronto del PHQ-2 con un vero gold standard, ma con uno strumento utilizzato e validato come il PHQ-8 (2, 4). D’altro canto i punti di forza sono il fatto che l’indagine è stata svolta in difficili condizioni di campo e il fatto che i risultati sono coerenti con quelli di altri studi (8, 9).

In conclusione, il PHQ-2, quando applicato alla popolazione generale, è più accettabile e sostenibile rispetto ad altri test. PHQ-2 produce un indicatore che sovrastima la prevalenza di depressione, ma è in grado di apprezzare le differenze tra gruppi a maggior rischio, per cui si conferma uno strumento valido per i fini propri della sorveglianza della depressione.

Riferimenti bibliografici

1. Demyttenaere K, Bruffaerts R, Posada- Villa J, et al. Prevalence, severity, and unmet need for treatment of mental disorders in the World Health Organization World Mental Health Surveys. JAMA 2004;291(21):2581-90.

2. Strine TW, Mokdad AH, Balluz L, et al. Depression and anxiety in the United States: findings from the 2006 behavioral risk factor surveillance system. Psychiatr Serv 2008;59(12):1383-90.

3. Wittcampf KA, Naeije L, Schene AH, et al. Diagnostic accuracy of the mood module of the patient health questionnaire: a systematic review. Gen Hosp Psychiatry 2007;29(5):388-95.

4. K roenke K, Strine TW, Spitzer RL, et al. The PHQ-8 as a measure of current depression in the general population. J Affect Disord 2009;114(1- 3):163-73.

5. Baldissera S, Campostrini S, Binkin N. Features and initial assessment of the Italian behavioral risk factor surveillance system (PASSI), 2007-2008. Prev Chronic Dis 2011;8(1):A24.

6. Gigantesco A, Mirante N, Granchelli C, et al. Psychopathological chronic sequelae of the 2009 earthquake in L'Aquila, Italy. J Affect Disord 2013. doi: 10.1016/j.jad.2012.12.006. [Epub ahead of print].

7. Groseclose S, German R, Nsubuga P. Evaluating public health surveillance. In: Lee L, Teutsch S, Thacker S. (Ed.). Principles and practice of public health surveillance. New York: Oxford University Press; 2010. p. 166-97.

8. LÖwe B, Kroenke K, Gräfe K. Detecting and monitoring depression with a two-item questionnaire (PHQ-2). J Psychosom Res 2005;58(2):163-71.

9. Jiang Y, Hesser JE. A comparison of depression and mental distress indicators, Rhode Island behavioral risk factor surveillance system, 2006. Prev Chronic Dis 2011;8(2):A37.

(*) La ricerca è stata finanziata dal CCM-Centro Nazionale per la Prevenzione e il Controllo delle Malattie del Ministero della Salute nell’ambito del progetto Conseguenze a medio termine del terremoto del 6 aprile 2009 sullo stato di salute della popolazione (Cometes)

Bollettino epidemiologico nazionale

Confronto tra due test per la sorveglianza dei sintomi depressivi nella popolazione*