La solución se conoce como «filtrado». Se trata del proceso por el que una señal en un punto dado es reemplazada por el valor medio de sus puntos vecinos. Esto parece complicado, pero nos tropezamos con datos filtrados constantemente. Cuando los climatólogos afirman que «acabamos de experimentar el año más cálido desde que se tienen registros», no están comparando los datos de temperatura día a día; en su lugar, probablemente obtienen un valor medio de todos los días del año suavizando las fluctuaciones diarias de temperatura, con lo que obtienen un resultado que facilita la comparación.
El filtrado tiende a homogeneizar las señales, lo que hace que los picos resulten menos pronunciados. Cuando hacemos una foto con una cámara digital en condiciones de poca luz, las exposiciones prolongadas que ello requiere a menudo producen imágenes granuladas. Ocasionalmente aparecen píxeles brillantes en las áreas oscuras de la imagen, y viceversa. Dado que la intensidad de los píxeles de una fotografía digital se representa numéricamente, se puede utilizar el filtrado para reemplazar el valor de cada píxel por el valor medio de sus píxeles vecinos, lo que elimina el ruido y da una imagen resultante más homogénea.
También podemos usar diferentes tipos de valores medios al filtrar. El valor medio con el que estamos más familiarizados es la media aritmética . Para encontrar la media aritmética, se suman todos los valores de un conjunto de datos y luego se divide el resultado entre el número de valores. Si, por ejemplo, quisiéramos determinar la media aritmética de la estatura de Blancanieves y los siete enanitos, sumaríamos todas sus estaturas y las dividiríamos entre ocho. Este valor medio resultaría distorsionado por Blancanieves, cuya estatura relativa la convierte en un valor atípico en el conjunto de datos. Un tipo de valor medio más representativo sería la mediana . Para hallar la estatura mediana del grupo, alineamos a Blancanieves y los enanos por orden de estatura (con Blancanieves delante de todo y Mudito ocupando el último lugar) y medimos la estatura de la persona que ocupa la parte central: como hay ocho en la fila, que es un número par, no tendremos a una sola persona en la parte central, de modo que calcularemos la estatura media de las dos que ocupan dicho lugar (Gruñón y Dormilón), y esa será la mediana. Al utilizar la mediana, hemos eliminado la altura discordante de Blancanieves, que distorsionaba la media. Por la misma razón, a menudo se utiliza la mediana cuando se presentan datos sobre valores medios de renta. Como puede verse en la Figura 4, los altos salarios de las personas más ricas de nuestras sociedades tienden a distorsionar la media (una idea que volveremos a encontrar en el próximo capítulo, en el contexto de las engañosas matemáticas de los tribunales); la mediana nos proporciona aquí una idea más precisa que la media en relación con cuál cabe esperar que sea la renta disponible de un hogar «típico». Obviamente, se podría argumentar que en este tipo de estadísticas no habría que descuidar la estatura de Blancanieves o la renta de las personas que más ganan, ya que son tan válidas como cualesquiera otros datos del conjunto. Aunque, en efecto, puede que sea así, lo cierto es que ni la media ni la mediana son correctas en un sentido objetivo: simplemente ofrecen distintos tipos de valores medios que resultan útiles para diferentes aplicaciones.
Figura 4. Frecuencia de las familias del Reino Unido con una determinada renta disponible (después de impuestos, y en bloques de 1000 libras) en 2017. Podría considerarse que la mediana (27310 libras) representa mejor la renta disponible de la familia «típica» que la media (32676 libras).
Cuando filtramos una imagen digital granulada, nuestro propósito es eliminar los efectos de los píxeles espurios. Al promediar los valores de los píxeles vecinos, el filtrado basado en la media modula esos valores extremos, pero no los elimina por completo. Por el contrario, el filtrado basado en la mediana ignora impunemente los valores de los píxeles extremadamente ruidosos.
Por esa misma razón, en los monitores de las UCI hospitalarias se está empezando a usar el filtrado basado en la mediana para evitar falsas alarmas. 8Tomando la mediana de una serie de lecturas secuenciales, las alarmas solo se activan si se cruzan los umbrales durante un período de tiempo sostenido (aunque todavía breve), en lugar de hacerlo en el momento en que se produce un pico o un valle puntual en la lectura del monitor. El filtrado basado en la mediana puede reducir la aparición de falsas alarmas en los monitores de las UCI hasta en un 60 % sin poner en peligro la seguridad de los pacientes. 9
Las falsas alarmas son una subcategoría del tipo de errores conocidos como «falsos positivos». Un falso positivo, como su propio nombre indica, es un resultado de una prueba que señala que una determinada condición o atributo está presente cuando en realidad no lo está. Normalmente los falsos positivos se producen en pruebas binarias, es decir, en aquellas que admiten dos resultados posibles: positivo o negativo. En el contexto de las pruebas médicas, los falsos positivos implican que a personas que no están enfermas se les diga que sí lo están, mientras que en los tribunales suponen que se condene a personas inocentes por delitos que no han cometido (en el próximo capítulo conoceremos a muchas de estas víctimas).
Una prueba binaria puede ser errónea de dos maneras distintas. En la Tabla 2 pueden verse los cuatro resultados posibles de una prueba binaria: dos de ellos son correctos, y los otros dos incorrectos; además de falsos positivos, también hay falsos negativos.
En el contexto del diagnóstico médico, cabe suponer que los falsos negativos son potencialmente los más dañinos, ya que le dicen a un paciente que no tiene la enfermedad para la que se le realiza la prueba, cuando en realidad la tiene. Más adelante en este mismo capítulo conoceremos a algunas de las confiadas víctimas de falsos negativos. Pero los falsos positivos también pueden tener implicaciones tan serias como sorprendentes, aunque por razones completamente distintas.
Tabla 2. Los cuatro resultados posibles de una prueba binaria.
Tomemos el caso, por ejemplo, de la denominada «detección sistemática» de enfermedades o «cribado». El cribado es una prueba masiva en relación con una determinada enfermedad, que se realiza entre personas que pertenecen a un grupo con alto riesgo de padecerla, pero que no presentan síntomas de esta. Por ejemplo, en el Reino Unido se invita a todas las mujeres mayores de cincuenta años a someterse a exámenes rutinarios de mama, dado que el riesgo de desarrollar cáncer de mama aumenta a partir de esa edad. Actualmente la aparición de falsos positivos en los programas de cribado es objeto de un intenso debate.
Se calcula que en el Reino Unido la prevalencia del cáncer de mama no diagnosticado entre las mujeres es de alrededor de un 0,2 %. Eso significa que, en cualquier momento del tiempo, por cada 10 000 mujeres a las no que se ha diagnosticado cáncer de mama, cabría esperar que 20 de ellas tuvieran realmente la enfermedad. No parece un porcentaje muy elevado, pero eso se debe a que en la mayoría de los casos el cáncer de mama se detecta muy pronto. De hecho, se calcula que una de cada ocho mujeres recibirá un diagnóstico de cáncer de mama a lo largo de su vida. En el Reino Unido, alrededor de una de cada diez mujeres recibe el diagnóstico en una fase tardía de la enfermedad (en los estadios III o IV). El diagnóstico tardío reduce significativamente las posibilidades de supervivencia a largo plazo, lo que respalda el argumento de que las mamografías regulares resultan de vital importancia, especialmente para las mujeres que pertenecen a grupos de edad vulnerables. Sin embargo, existe un problema matemático en relación con el cribado del cáncer de mama del que la mayoría de las personas no son conscientes.
Читать дальше