Ciencia

Las estadísticas. ¿Sabemos interpretar los datos? | Albert Mesa Rey

Desde el inicio de la pandemia y en época de elecciones, los medios de información nos empachan con datos y estimaciones. ¿Pero cómo se obtienen esos datos y como se procesan?

Mark Twain, uno de los más grandes escritores norteamericanos hizo famosa la siguiente frase: «Hay tres clases de mentiras: las mentiras, las grandes mentiras y… las estadísticas«. La frase tiene algo de verdad, sobre todo cuando esta parte de las Matemáticas se usa de forma espuria, (como casi todo lo que tocan los políticos), pero la Estadística está en la base de la investigación científica. Sin ella sería imposible evaluar los datos para ofrecer conclusiones científicamente válidas.

Bioestadística era una asignatura de 1º de Medicina que al principio de curso afronté con resignación, de la que acabé profundamente enamorado y ha sido un gran bagaje en mi dilatada carrera profesional en la investigación clínica y en medicina del trabajo.

Pero ¿Qué es la Estadística?

La estadística es la rama de las Matemáticas dedicada a la recopilación, el análisis, la interpretación y la presentación de datos empíricos, y se divide, a su vez, en dos áreas: la estadística descriptiva y la estadística inferencial.

La estadística descriptiva se encarga de la descripción de datos (es decir, de información recogida a partir de un estudio). Por ejemplo, en un estudio demográfico sobre los nacidos en 2019 en España, la estadística descriptiva se encargaría de extraer los datos de la edad media de las madres.

La estadística inferencial, en cambio, se ocupa de extrapolar los datos extraídos de un estudio realizado sobre una muestra del conjunto total de datos, para así aplicarlos al conjunto completo, ya que en ocasiones la población total de la que extraer información es demasiado grande e inabarcable. Por lo tanto, la estadística inferencial realiza un análisis a partir de la generalización de las muestras que estudia, mientras que la descriptiva no lo hace.

Cada una de las características de los objetos de estudio (por ejemplo, el peso y la edad de la población) se denomina variable. Las variables pueden tener una naturaleza muy variada, por lo que se establecen diferentes maneras de medirlas para trabajar con ellas en un estudio estadístico. Los datos que recoge una variable pueden ser de los siguientes tipos: Discretos, continuos, nominales, ordinales, intervalos y ratios.

Algunos errores que se comenten al hablar de estadística.

Estamos muy acostumbrados a manejar la media. La media mide el centro de una distribución. Esta se calcula sumando todos datos y dividiendo por el número de ellos. ¿Pero es la media solamente un buen indicador?

Supongamos que estamos 3 personas en una mesa y nos comemos 6 pasteles. Si aplicamos la formula general, habremos comido 2 pasteles en promedio [(2+2+2)/3=2] pero la media también daría el mismo resultado si yo me los como todos [(6+0+0)/3=2].

Las llamadas medidas de tendencia central (Media, Mediana y Moda) no son buenos indicadores de una distribución si no van acompañadas de una medida de dispersión que nos ayude a estudiar la desviación de las muestras con respecto a la media. Las más comunes son la Varianza y la Desviación Típica.

Los errores o manipulaciones más corrientes en estadística inferencial vendrían mayoritariamente en mi opinión, del cálculo del tamaño de la muestra, de la forma en que el muestreo se realiza y de los sesgos en la forma en que se recogen los datos.

Dado que normalmente es imposible recoger los datos de una variable en toda la población, se escoge al azar una muestra que se considere representativa de esta población. Es aquí donde entra la posibilidad de manipulación de los sondeos y estadísticas que muchas veces se publican.

El cálculo del tamaño de la muestra es crucial a la hora de dar validez a nuestras predicciones para la “población” basándonos en la muestra. Es una ecuación que tiene en cuenta:

El nivel de confianza Es el grado de certeza (o probabilidad) expresado en porcentaje con el que se pretende realizar la estimación de un parámetro a través de un estadístico muestral. El nivel de confianza más efectivo y utilizado es 95%.
El margen de error que queremos asumir. Este es un indicador de la fiabilidad del estudio y de la exactitud de los resultados. El margen de error se expresa como un porcentaje que indicará que los resultados obtenidos están dentro, más o menos de este porcentaje de los valores presentados. Por lo regular es de 5% o menos
El número de la población total de donde vamos a extraer la muestra.

Una vez obtenido el “tamaño de la muestra” hay que extraerla de la población, para que esa muestra sea representativa.

Los métodos de muestreo darían para un artículo hablando de ellos. Básicamente existen 4 tipos esenciales de muestreo:

Muestreo aleatorio simple: Es un método fiable de obtención de información en el que cada uno de los miembros de una población se elige al azar, simplemente por casualidad. Cada individuo tiene la misma probabilidad de ser elegido para formar parte de una muestra.
Muestreo por conglomerados: También conocido como muestreo por racimos, es un método en el que los investigadores dividen a toda la población en secciones o conglomerados que representan a una población. Los grupos se identifican e incluyen en una muestra basada en parámetros demográficos como la edad, el sexo, la ubicación, etc. Esto hace que sea muy sencillo para el creador de la encuesta obtener una inferencia efectiva a partir de la retroalimentación.
Muestreo sistemático: Los investigadores utilizan el método de muestreo sistemático para elegir los miembros de la muestra de una población a intervalos regulares. Para ello es necesario seleccionar un punto de partida para la muestra y un tamaño de muestra que pueda repetirse a intervalos regulares. Este tipo de método de muestreo tiene un alcance predefinido y, por lo tanto, esta técnica de muestreo es la que menos tiempo consume.
Muestreo estratificado: El muestreo aleatorio estratificado es un método en el que el investigador divide la población en grupos más pequeños que no se superponen, sino que representan a toda la población. Durante el muestreo, estos grupos pueden organizarse y luego extraer una muestra de cada grupo por separado. Por ejemplo, un investigador que desee analizar las características de las personas pertenecientes a diferentes divisiones de ingresos anuales creará estratos (grupos) según los ingresos anuales de la familia.

Otra fuente de sesgos puede ser, especialmente en investigaciones sociológicas, la forma en que se producen las preguntas a los participantes del estudio (muestra), con las que se obtendrán los datos. Lo honesto es que ni las preguntas, ni el encuestador, ni el ambiente condicionen la respuesta del entrevistado. Como puede suponer el lector, este es también un importante factor que puede hacer válida la frase de Mark Twain mencionada el principio del artículo.

En toda investigación científica o sociológica (que pretenda sacar conclusiones imparciales de una variable que se desee estudiar, es básico tener un protocolo en el que se describan todos los aspectos de la investigación. Este protocolo deberá especificar:

El propósito de la investigación.
Los criterios o características de la población a estudiar y las técnicas de muestreo.
Las preguntas o pruebas que tendrá el cuestionario de recogida de datos.
Los parámetros que se van a recoger.
El tamaño de la muestra.
Las pruebas estadísticas que se va a aplicar a la muestra.
La explotación de los datos obtenidos. (que es lo que se va a hacer con los resultados)
En muchos casos, especialmente en la investigación biomédica, también el protocolo exige la publicación de los resultados obtenidos sean o no favorables al promotor del estudio.

Corolario:

La estadística es una herramienta indispensable para el conocimiento. El manejo de los datos, sean numéricos o cualitativos, de una forma estructurada, nos permite conocer las características de cualquier tema y trabajar con ellos para sacar conclusiones de trabajo. La ciencia no puede considerar como tal, estudios “a propósito de un caso”.

Si bien los números son incontestables y objetivos, en estadística inferencial, lo importante es el manejo que se hace de los mismos, la interpretación y las predicciones. Un buen estadístico aplicará la prueba de análisis estadístico apropiada al tipo de datos que se manejen y hará una interpretación correcta de los resultados obtenidos.

Si es así, los datos serán útiles y aportarán conocimiento. De lo contrario solamente se habrá obtenido un “hermoso” fraude, adornado de muchos números, que servirá para manipular a la población al servicio de intereses espurios.

Todos somos conscientes del bochornoso uso fraudulento del CIS (Centro de Investigaciones Sociológicas) dirigido por Félix Tezanos al servicio exclusivo de Pedro Sánchez y su PSOE. El manejo de los datos que hace y publica es intoxicación pura y dura. Es la vergüenza de los que respetamos y amamos esta rama de las Matemáticas.

Amable lector: Si tienes tiempo e interés en ampliar o contrastar alguno de los conceptos citados de este artículo, sugiero que “pinches” en los enlaces que he ido resaltando. Gracias por leerme.