¿Tiene relevancia el valor predictivo de las pruebas para la práctica clínica? Parte 1.

Dr. Antonio Fernández Moyano. Internista. Jefe del Servicio de Medicina. Hospital San Juan de Dios del Aljarafe. Sevilla. @antoniofmoyano

Nota: el contenido del artículo está desglosado en tres entradas.

Valor predictivo de las pruebas. ¿Estamos sobrevalorando el resultado de una prueba diagnóstica?

En muchas ocasiones sí.

Es importante saber que las pruebas diagnósticas no son perfectas, de forma que un resultado positivo no implica necesariamente la presencia de enfermedad, ni uno negativo la descarta. La prueba positiva puede asignar falsamente una enfermedad, o al ser negativa, no identificar la presencia de una existente. Además, el resultado de una prueba no necesariamente va a modificar la probabilidad -respecto a la que tenía el paciente antes de hacerse la prueba-, de que éste tenga o no tenga un diagnóstico. Y por último y no menos relevante, dada la trascendencia de las posibles decisiones equivocadas para la persona y su entorno según el resultado de la prueba, es necesario incluir la probabilidad de error de las pruebas en el proceso de razonamiento clínico.

Cuando solicitamos una prueba a un paciente dentro del proceso de razonamiento clínico en fase diagnóstica, lo que realmente buscamos, es modificar la probabilidad de considerar si el paciente tiene o no tiene la enfermedad, respecto a la situación previa a la realización del test. Antes de realizar la prueba el paciente está situado en una probabilidad de tener una enfermedad (probabilidad pre-test) y después de la prueba lo situamos en otra probabilidad (probabilidad pos-test). Una prueba será más útil mientras mayor sea el cambio de probabilidad pre-test a pos-test, tanto para considerar que tiene una enfermedad como para descartarla. Es decir, la utilidad de una prueba diagnóstica viene determinada por la disminución en el grado de incertidumbre que produzca al clínico, antes y después de que ésta sea realizada.

Para ilustrarlo, vamos a utilizar el siguiente ejemplo (datos inventados, pero que pueden ser cercanos a la realidad). Valoraremos la utilidad de la radiografía simple de tórax para detectar una masa de pulmón sugestiva de cáncer, en hombres mayores de 65 años, fumadores con un consumo acumulado de más de 60 paquetes/año, con síndrome consuntivo, tos irritativa y hemoptisis de más de 3 meses. Para este ejemplo en cuestión, asumimos que en una población de 1000 pacientes de estas características, los hallazgos podrían ser los siguientes (tabla 1).

En esta tabla, se identifica que en nuestro grupo de 1000 pacientes, 905 tienen cáncer de pulmón, lo que hace una prevalencia de cáncer de pulmón del 90,5% (905/1000). De los 905 pacientes con cáncer de pulmón, 900 (llamados verdaderos positivos -VP-) tenían en la radiografía una imagen sugestiva de cáncer, mientras que en los otros 5, no se identificó imagen sugestiva (llamados falsos negativos -FN-). Por otro lado, de los 95 pacientes que no tenían cáncer, en 94 (llamados verdaderos negativos –VN-) no había imagen sugestiva en la radiografía y en 1 paciente la imagen radiológica sugería cáncer de pulmón (falso positivo -FP-).

¿Podemos decir que la realización de una radiografía de tórax es útil en esta población?

Para poder responder esta pregunta, necesitamos refrescar dos conceptos: Las propiedades de una prueba diagnóstica y la probabilidad pre y post-test.

Las propiedades de la prueba diagnóstica que determinan su utilidad son la validez, seguridad y reproductibilidad. La validez es el grado en que una prueba mide lo que se supone que debe medir. La validez de la prueba se expresa por su sensibilidad y especificidad. La seguridad es la probabilidad que ante un resultado positivo o negativo de una prueba, el paciente presente o no la enfermedad. La seguridad de la prueba se expresa por el valor predictivo positivo o negativo. La reproductibilidad es la capacidad del test para ofrecer los mismos resultados cuando se repite su aplicación en circunstancias similares (esta última propiedad no la trataremos en esta entrada).

Empecemos por lo más habitual:

Sensibilidad: Es la capacidad de la prueba para detectar la enfermedad. La sensibilidad nos permite conocer qué probabilidad hay de que en alguien que tiene el diagnóstico, la prueba sea positiva. En nuestro ejemplo, de todos los pacientes que finalmente tuvieron un cáncer de pulmón, ¿qué proporción tenía una radiografía de tórax sugestiva?
Especificidad: Es la capacidad de la prueba para detectar a los sanos. La especificidad nos permite conocer qué probabilidad hay de que en las personas sanas, la prueba sea negativa/normal. Para nuestro caso, de todas las personas sin cáncer de pulmón, ¿qué proporción tenia radiografía de tórax normal?

Para nuestro ejemplo, sería lo siguiente (tabla 2):

Es decir que el 99,4% de nuestros pacientes con cáncer de pulmón tenían una radiografía de tórax sugestiva y un 98,9% de pacientes sin cáncer tenían una radiografía de tórax normal. Podemos decir con estos datos (inventados), que la prueba es muy sensible y muy específica.

La sensibilidad y la especificidad son propiedades intrínsecas de una prueba particular y no dependen de la población específica, es decir, estos valores deberían mantenerse constantes cuando la misma prueba se aplica a poblaciones diferentes. En nuestro ejemplo, en el cociente de sensibilidad o especificidad no figura número total de la población (1000 personas).

¿Tiene la misma relevancia que una prueba sea muy sensible o sea muy específica?

Ante una prueba, la más valida será la que tenga mayor sensibilidad y especificidad. Si hay que elegir entre una y otra, elegiremos una prueba con alta sensibilidad cuando queramos detectar enfermedades graves, tratables o que los falsos positivos (que seguro existirán) no supongan una adversidad vital muy relevante. Elegiremos una prueba con alta especificidad cuando la enfermedad buscada sea difícil de tratar (evitaremos diagnosticar erróneamente) y/o el hecho de conocer que se padece una enfermedad tenga una importancia relevante para la persona, su entorno o el sistema.
No introducimos en este discurso la reproductibilidad, seguridad del procedimiento o costes para no distraer la atención, pero también son elementos a considerar sin duda.

Ahora el camino contrario, una vez hecha la prueba...

El camino natural del razonamiento clínico se encuentra con que una vez realizada la prueba en cuestión, ¿qué probabilidad tenemos que coincida con la realidad? Para responder a este aspecto, incluimos dos nuevos conceptos:

El valor predictivo positivo (VPP): Nos indica la probabilidad de que uno de nuestros pacientes con una masa sugestiva en la radiografía de tórax tenga un cáncer de pulmón.
El valor predictivo negativo (VPN): Nos indica la probabilidad que una persona que tiene una radiografía de tórax normal no tenga cáncer de pulmón.

En nuestro caso, el VPP sería: 900/901= 0,99, y el VPN sería 94/99 = 0,95. Ello significa que en el 99% de los pacientes que tengan una radiografía de tórax patológica tienen un cáncer (y que un 1% no lo tenía) mientras que de los que no se detectaron anomalías en la radiografía de tórax, el 95% efectivamente no la tenían (y un 5 % sí la tenían).

El elemento clave para incorporar el concepto de VPP y VPN en la práctica clínica, es que ambas dependen de la prevalencia de la característica buscada en una población específica. Vamos a ver esto: mientras la característica sea más rara, el valor predictivo positivo será más bajo -es decir, si en esta población referida el cáncer de pulmón fuera muy poco prevalente, la probabilidad de que ante una radiografía de tórax patológica el paciente tuviera un cáncer de pulmón sería bajo-, y el valor predictivo negativo será más alto (es decir la normalidad de la radiografía de tórax hace muy probable que el paciente no tenga cáncer de pulmón). Al contrario, cuanto más común sea la característica, el valor predictivo positivo será más alto y el valor predictivo negativo será más bajo. Así, si la prevalencia de cáncer de pulmón en mi población en lugar de ser de un 90%, fuera del 5% (por ejemplo, si nuestra población fueran mujeres no fumadoras menores de 40 años sin síntomas respiratorios), el VPP bajaría del 99% al 75% y el VPN subiría del 95% al 99%.

Así, el clínico se encuentra que los valores de sensibilidad y especificidad no proporcionan información relevante a la hora de tomar una decisión ante un determinado resultado de la prueba, y por el contrario, el valor predictivo, que es útil para establecer la probabilidad de asegurar o descartar un diagnostico (probabilidad pos-test), presenta la limitación de depender de la prevalencia en la población objeto de estudio (probabilidad pre-test). Para disminuir esta incertidumbre se ha generado otro índice de seguridad que es independiente de la prevalencia, llamado Razón de verosimilitudes (RV), también conocido como cociente de probabilidades (CP) que desarrollaremos en la siguiente entrada.