Por Antonio Flores Arriaza
Ideasafa1@gmail.com
En el entorno de la problemática del concurso docente y la “evaluación” de los mismos, he escuchado que fueron sometidos a pruebas educativas y, otros, que fueron sometidos a pruebas psicométricas. Concluyo que, para ellos, son el mismo tipo de pruebas. Y, de ser así: están equivocados.
Una prueba educacional es un cuestionario que se puede construir en una oficina por un conocedor del tema (excepto si se quiere construir pruebas estandarizadas a nivel nacional o regional que debería hacerse por un grupo de expertos: como lo hice para AID en 1988 con el Institute for International Research, USA). Se escoge la temática del conocimiento (porque conocimiento es lo que miden) que se quiere medir y, en función de esos objetivos propuestos o competencias que se espera encontrar planteados en el programa educativo y que, el “evaluado”, deberá saber. El experto, diseña el peso que dará a cada reactivo (sea este una pregunta, frase incompleta, afirmación u otra forma de redacción). La forma de redactar dependerá del enfoque teórico (marco teórico) educativo que siga el constructor (puede seguir a Bloom, a Gagné, o a otros). Los reactivos pueden ser de respuesta única o de mejor respuesta. Los reactivos pueden tener igual dificultad porque tienen un límite de tiempo o dificultad creciente que no existe tiempo ya que, será el nivel de competencia lo que determinará hasta dónde responderá: no podrá hacer más allá de su competencia.
Las pruebas psicométricas o tests son, inicialmente, un cuestionario que se construye en función de una planeación que diseña los aspectos concretos (indicadores) que se van a observar. Estos indicadores son el producto de hacer observable un concepto que se quiere medir. Por ejemplo: la inteligencia, las aptitudes, la personalidad son conceptos. En función de una teoría que uno selecciona por considerarla la más adecuada (marco teórico), se define dicho concepto (otra teoría podría definirlo de otra forma) y, desde esa definición, se identifican los indicadores: de tal manera que la idea se vuelve observable o medible. En función de los indicadores identificados, se define la cantidad de reactivos que tendrá el cuestionario (que lo es hasta aquí).
Ahora. Se selecciona una muestra que represente a la población. Y, dependerá de qué definimos por población (hay tests de inteligencia como el WAIS cuya población fue la de USA y, el mismo test llamado EIWA cuya población fue la de Puerto Rico: así que la clasificación de los resultados dependerá de esa población tomada como referencia). Para construir un test hay que usar un muestreo basado en la probabilidad matemática. Así que hay que tener una base de datos real de esa población. La mejor forma de muestreo probabilístico es el aleatorio estratificado proporcional ya que, la muestra de la población es como si hubiésemos aplicado “chiquitolina” a esa población y la tenemos en chiquito pero “igualita” en su distribución original. Después de aplicarlo, se hace un análisis estadístico de cada ítem para medir si posee la capacidad para identificar a quienes poseen esa propiedad que medimos de quienes no la poseen. La versión “final” se conforma únicamente con esos ítems que sí poseen esa capacidad. Luego, se aplica el instrumento (que ya dejó de ser un simple cuestionario) y, sus resultados, pasan a un estudio estadístico para determinar las propiedades de todo el instrumento que se está convirtiendo en test. Se calcula su validez (que hay cuatro tipos y se va diseñando desde que se identificaron los indicadores) en mucho, efectuando correlaciones estadísticas con otros test construidos antes y conocidos que sí miden lo que se busca medir: si nuestro instrumento obtiene una alta correlación positiva o directa con ese otro, será porque miden lo mismo. Pero, también, se correlaciona con los resultados de tests que ya se conoce que miden otro aspecto: con estos, la correlación estadística debe ser negativa o inversa. Y otras mediciones estadísticas. También se mide la confiabilidad (la constancia o estabilidad de los resultados: un test de inteligencia, un audiómetro, una resonancia magnética no pueden darle un resultado hoy y otro distinto mañana). Ya que debemos estar seguros que, efectivamente, ese es el diagnóstico que se puede dar a la persona evaluada. Esto es una prueba psicométrica. Es muy distinta de una prueba educacional. Si bien, algunas partes iniciales sean similares.
Y, las escalas de actitudes son otro tipo de test pero que no se construye ni se interpretan igual que las anteriores. Las actitudes tienen tres componentes: la opinión (lo que se cree conocer, la creencia), la emoción o afecto (el sentimiento hacia el tema) y la psicomotricidad (lo que se termina haciendo o reaccionando). En este caso, la emoción importa más que la opinión para determinar la reacción. Son las escalas de actitud las que se usan al investigar, tratando de pronosticar la decisión política, la compra de ciertos productos. La interpretación de una escala de actitudes no se hace igual que la de una prueba de conocimientos (en la actitud no importan mucho los conocimientos). Las actitudes son, por naturaleza muy cambiantes. Así que, importa que tenga validez, pero no importa la confiabilidad ya que las actitudes son, por esencia, cambiantes. Pero, si no se entiende esto, se termina intentando construir otro instrumento que resultará sin validez.
Entonces ¿qué tipo de pruebas le están aplicando a los docentes? Hace un mes conocí a una persona que con un profundo desconocimiento en estas diferencias y empecinada en aplicar sus creencias de las pruebas educativas a las escalas de actitudes. Nada más distante: como ya hemos dicho, las actitudes se fundamentan en emociones no en conocimiento. Pero, nuestro sistema educativo muchas veces, está dirigido por estos “profesionales altamente” calificados que abusan de su limitado poder.