ENCICLOPEDIA ARGENTINA DE SALUD MENTAL

Tendencias actuales en Evaluación Psicológica: Big data, Realidad virtual y Evaluaciones invisibles

Brenlla, Ma. Elena
Universidad Catolica Argentina (UCA)
CIPP

Introducción

“Medimos a los hombres por sus sombras” Esta frase, atribuida a Thurstone, sirve para indicar que medir en psicología no es fácil y, por lo tanto, evaluar tampoco lo es. No obstante, el desarrollo tecnológico de las últimas dos décadas puede ser crucial para el avance sustantivo de la medición y evaluación psicológicas.

Este es el tema central que trata este capítulo para lo cual se describen sucintamente los problemas cruciales de la medición en psicología y los enfoques en evaluación psicológica (EP), se refieren tres desarrollos actuales en evaluación psicológica -Big data, Realidad virtual y Evaluaciones invisibles- y, finalmente, se realizan unas conclusiones del impacto potencial de las nuevas tecnologías en la EP.

Medir en psicología

Es claro que las nociones de medición y evaluación están indisolublemente entrelazadas ya que, independientemente del modelo de evaluación psicológica que se adopte, siempre se requiere de algún tipo de medición. No obstante, es conveniente diferenciar ambas nociones.

Esencialmente, medir consiste en asignar números a los fenómenos de acuerdo a ciertas reglas (Martínez Arias, 1996). Pero esto no es simple en psicología debido a que las mediciones en psicología son indirectas y están influidas por el error de medida.

Vale decir los constructos no son asequibles directamente sino que los inferimos a través de manifestaciones que pueden ser recogidas con distintas técnicas de evaluación. Esto implica que las mediciones, en su mayoría, no refieren a cantidades -como lo requiere el modelo clásico de medida, que supone las propiedades de distintividad, orden, aditividad y proporcionalidad en toda medición - sino a relaciones entre cantidades -tal como lo establece el modelo representacional- que pueden ser de tipo nominal (distintividad), ordinal (orden), de intervalos (aditividad) y de razón (proporcionalidad) (Stevens, 1946).

Además, la medición en psicología no es exacta. Tal como postuló Spearman (1905), toda medición está sujeta al error de medida por lo que la puntuación observada está compuesta por una puntuación verdadera (desconocida) y el error de medida. De esta manera, las mediciones no solo son indirectas sino que, por definición, son inexactas. Por ende es crucial que las puntuaciones devenidas de técnicas y tests psicológicos presenten evidencias satisfactorias de fiabilidad y validez. Estas nociones han sido tratadas en otros capítulos con extensión y propiedad por lo que se remite al lector a ellos, solo baste recordar aquí que la fiabilidad refiere a la consistencia, estabilidad y objetividad de las medidas mientras que la validez atañe a su significación y pertinencia empírica y conceptual y que ambas son características ineludibles en la valoración de cualquier medida o test psicológico.

Evaluar en psicología

En cambio evaluar en psicología implica un proceso más amplio, un procedimiento sistemático para observar la conducta y describirla con ayuda de escalas o categorías establecidas. Como señaló Cronbach (1990), la evaluación es más que la mera aplicación de tests, ya que conlleva la integración y la valoración de la información recogida. Así un proceso de medición del que se obtiene una expresión numérica responde a la pregunta de ¿cuánto? mientras que la evaluación se centra en la pregunta ¿qué significa o implica ese resultado? En este sentido, la evaluación puede ser entendida como un juicio de valor que se asocia a un desempeño o resultado.

Garaigordobil (1998) define a la EP como “Aquella disciplina que explora y analiza el comportamiento de un sujeto o grupo con distintos objetivos (descripción, diagnóstico, selección/predicción, explicación, cambio y/o valoración) a través de un proceso de toma de decisiones en el que se emplean una serie de dispositivos (tests y diversas técnicas de medida y/o evaluación), tanto para la evaluación de aspectos positivos como patológicos”

De esta manera la EP engloba tanto las tareas de psicodiagnóstico, de evaluación de potencialidades y capacidades y de valoración de programas e intervenciones que se clasifican en función del objetivo específico de evaluación (Casullo, 1992; Fernández Ballesteros, 2013). Un caso especial es el referido a psicodiagnóstico en el que se incluyen, muchas veces, pruebas proyectivas. Sin restar valor a ellas, en este capítulo haremos foco en las psicométricas. Si bien hay muchas maneras de agrupar los enfoques y modelos de evaluación, aquí enumeramos cuatro enfoques principales basados en la revisión de Crawford (2000): tradicional; conductual-situacional; cognitivo y basados en el uso de computadoras.

- Enfoque tradicional

El enfoque tradicional en EP reúne pruebas y tests diseñados, en su mayoría, en la órbita de la Teoría Clásica de los Tests donde el objetivo es maximizar la información referida a la puntuación verdadera mediante la minimización del error de medida. Este enfoque incluye pruebas psicométricas consagradas -sea en el formato clásico de lápiz y papel o en versiones informatizadas- tales como el Inventario Multifásico de Personalidad de Minnesota (MMPI-2), las escalas Wechsler de inteligencia o el test de Bender que, muchas veces fueron construidas sobre la base de criterios clínicos en lugar de factoriales, como es el caso del test de Raven o el Cuestionario de los 16 factores de la personalidad de Cattell. Pero sea su origen clínico o factorial, lo cierto es que estas pruebas son ampliamente utilizadas por los profesionales para la toma de decisiones en los ámbitos clínico, educativo y forense. Si bien han mostrado su utilidad a lo largo de los años, es menester indicar tres cuestiones de relevancia:

- la mayor parte de estas pruebas se apoyan en el modelo de rasgos o atributos cuya hipótesis principal es que la conducta es una función de variables internas u organísmicas que dotan de consistencia y estabilidad a la conducta a lo largo del tiempo; esto es, se asume la existencia formal o material de factores subyacentes o latentes que explican el comportamiento humano.

- el diseño y respuesta a los tests autoperceptivos están sujetos a la influencia de heurísticos cognitivos (por ejemplo, efecto marco, efecto halo) y de factores socio-culturales (por ejemplo, deseabilidad social, conformismo) que pueden distorsionar los patrones de respuesta.

- la mayor parte de las técnicas de evaluación psicológicas que utilizamos en nuestro medio son adaptaciones de tests diseñados en otros países por lo cual la calidad de las adaptaciones es crucial para el uso idóneo de estos tests.

- Enfoque conductual-situacional

En el modelo conductual se enfatiza el predominio de la situación y el valor del refuerzo en el modelado de la conducta y representó una crítica potente al enfoque tradicional al cuestionar la consistencia y estabilidad de los rasgos ante la evidencia de cambios de respuestas en función de condicionamientos externos como el conformismo social (Mischel, 1971; Nelson & Hayes, 1986).

Se sirve de métodos observacionales tales como hojas de registro y observaciones sistemáticas, donde la evaluación es directa, repetida e idiográfica (Hartman, 1984). Típicamente, se usa en el ámbito clínico en conjunción con técnicas de intervención para monitorear el avance de tratamientos específicos.

Si bien las técnicas conductuales brindan métodos bien estudiados para observar fenómenos psicológicos no obstante carecen de evaluaciones de fiabilidad y validez, condiciones indispensables para el desarrollo de teorías y evaluaciones psicológicas. En este sentido, las nuevas tecnologías pueden ser promisorias para el enfoque conductual al proveer de herramientas para el registro sistemático de datos a gran escala que permita su análisis psicométrico.

- Enfoque cognitivo

El enfoque cognitivo representó un avance en la EP ya que propuso el análisis de los procesos de respuesta y el significado del escalamiento de los tests en la investigación psicológica (Embretson, 1985). Ya en 1957 Loevinger había indicado la ingenuidad de suponer que el rasgo medido por un ítem en un test de personalidad se corresponda de manera directa con el contenido evaluado. Pero en las últimas décadas, con la consolidación del paradigma cognitivo, se desarrollaron modelos psicométricos que tienen en cuenta los procesos, operaciones o estrategias utilizados por las personas al resolver los ítems de un test. Este acercamiento entre las teorías cognitivas y la psicometría ha influido tanto en el diseño de tests como en los objetivos de medición y en sus procesos de validación (Cortada de Kohan, 2000; Romero Martínez et al, 2010). En el diseño de pruebas, porque la teoría cognitiva acerca del constructo que se pretende medir fundamenta y orienta la construcción del test (Embretson, 1985); en los objetivos de la medición, porque estos modelos permiten interpretar las respuestas del individuo pero también los pasos intermedios que realizó para obtenerlas, lo cual redunda en información acerca del proceso y no solo del resultado y coadyuva a una mejor interpretación de las puntuaciones de los examinados y, en los procesos de validación, porque robustecen las evidencias sobre las relaciones entre la teoría cognitiva subyacente y los procesos realmente usados por las personas en la solución de las tareas o ítems. Un buen ejemplo de este acercamiento entre teoría cognitiva y psicometría son los llamados “modelos componenciales” (Embretson, 1999; Van der Linden & Hambleton, 1997), que se caracterizan por especificar las operaciones mentales que intervienen en la solución de cada ítem y proponer un modelo de Teoría de Respuesta al Ítem (TRI) que obtenga la probabilidad de acierto en el ítem a partir de sus propiedades estructurales y del nivel de habilidad del sujeto evaluado. De esta manera, el avance tecnológico es de relevancia para el desarrollo de este tipo de modelos al permitir el registro instantáneo de los procedimientos que lleva a cabo una persona para responder un test (por ejemplo, tiempo de latencia, cantidad de veces que se retrotrae la evaluación, movimientos oculares, entre otros).

- Enfoques basados en el uso de computadoras

Este enfoque nace con el desarrollo de la informática, tanto de equipos como de programas de análisis y gestión de datos. Hay que diferenciar aquí entre la informatización de tests tradicionales, el desarrollo de métodos para el análisis complejo de datos y para la investigación psicológica.

En el primer caso, se alude a la informatización de los test -esto es, la administración de los tradicionales test de lápiz y papel mediante una computadora- que trajo aparejadas ventajas en el control y precisión de la presentación de ítems, un mejor registro del tiempo de reacción y proceso de respuesta y mayor rapidez en la elaboración de informes y devolución de resultados (Lozzia et al. 2009). En el segundo caso, a la potencia de cálculo que permitió el desarrollo de métodos de Teoría de Respuesta al Ítem conjeturados teóricamente y que pudieron extenderse gracias al refinamiento de los procesadores y, en el tercero, al desarrollo de metodologías específicas para la investigación psicológica. Al respecto, los trabajos pioneros en el área incluyeron métodos nuevos de tiempo de latencia de respuesta para, por ejemplo, analizar las distorsiones deliberadas en pruebas de personalidad (Holden et al, 1993); de habla humana, para detectar patrones acústicos asociados a la ansiedad (Mahl, 1987) y simulaciones computacionales, para probar modelos de conducta en distintos ámbitos, por ejemplo en psicología clínica (Meier & Wick, 1991).

Tenemos entonces, por un lado, ciertas limitaciones de la evaluación tradicional devenidas de características propias de la medición en psicología así como de la influencia de la situación y de los procesos cognitivos sobre la respuesta a los procedimientos de evaluación y, por otro, un desarrollo exponencial de nuevas tecnologías que podrían significar superar estos inconvenientes bien documentados.

Esto nos conduce a dos cuestiones fundamentales: ¿Qué cambios son necesarios para que la evaluación tradicional mejore? y ¿En qué medida las nuevas tecnologías pueden ayudar a hacerlo?

Los cambios tecnológicos han posibilitado abordajes novedosos para la evaluación de estímulos, respuestas, información y procesos que hasta no hace mucho eran impensados. Si bien en todos los casos se trata de información, los desarrollos actuales parecen decantarse en dos grandes grupos: las técnicas basadas en el procesamiento de grandes cantidades de datos y las referidas al procesamiento de información individual.

En este capítulo se conjetura que ambos enfoques pueden ser de utilidad para validar de manera psicométrica y experimental las pruebas psicológicas y mejorar la evaluación tanto en las áreas de aplicación como en la investigación. De los muchos métodos que existen en la actualidad en este capítulo se describen tres: Big data, Realidad virtual y Evaluaciones invisibles debido a razones de extensión más que de importancia.

Técnicas y métodos de EP actuales: Big-data, Realidad virtual y Evaluaciones invisibles

Big data

La noción de Big data hace referencia tanto al uso de grandes bases de datos como a las tecnologías y metodologías que permiten su recolección a través de dispositivos como los celulares inteligentes o smartphones, tablets u otros dispositivos (Das, 2011).

Las tecnologías Big data recogen información que puede clasificarse como estructurada y no estructurada. La primera, se refiere a parámetros preestablecidos por una organización -como el presentismo o el número de clientes- y es conocida como Intelligence Bussiness. Pero estas tecnologías permiten también acceder a información no estructurada como el lenguaje natural, la actividad y el comportamiento en redes sociales, los datos recopilados por dispositivos portables -como los anteojos o relojes inteligentes- y los datos procedentes de sensores de movimiento, orientación, sonido ambiental, entre otros. Esta información no estructurada es valiosísima para la investigación en psicología ya que permite conocer comportamientos humanos en su contexto natural, en tiempo real y en forma simultánea en grandes muestras de personas (Armayones et, 2015).

No obstante quién la produzca y use es crucial por cuestiones éticas, teóricas y metodológicas. En este sentido, hay que tener en cuenta que muchas aplicaciones (app) que usan comúnmente las personas en la actualidad han sido creadas por empresas que soslayaron la importancia de los aspectos psicológicos. Por ejemplo, en los últimos años ha habido una proliferación de app relacionadas con la salud y el ejercicio físico. Ambos han sido muy estudiados en psicología, por lo que se conocen mecanismos y procesos psicológicos asociados. Cowan et al. (2012) analizaron si en esas aplicaciones se consideraban esos constructos teóricos relevantes -como la autoeficacia percibida o la conducta de prevención- y encontraron que la mayoría de estas app no tienen en cuenta teorías validadas en Psicología.

Esto abre un campo muy promisorio para la investigación e intervención psicológicas, a punto tal que la American Psychological Association en su sitio web considera nuevos puestos de trabajo en el futuro, como el de psicólogo Big data (APA, 2014).

Big data y evaluación psicológica

Pero, ¿en qué sentido y cómo puede ayudar la tecnología Big data en la medición y evaluación psicológicas? Por sus características, parece especialmente apropiada para la investigación psicométrica incluyendo el estudio de constructos psicológicos -por ejemplo, personalidad, estrés, memoria, entre otros-, el diseño de tests y métodos de análisis de datos y para la validación ecológica de pruebas existentes.

Una de las temas que más se ha estudiado hasta el momento es la conjunción entre información tomada de redes sociales y características de personalidad. Así, en un estudio donde se analiza la relación entre el comportamiento en redes sociales y características de personalidad en los que se encontró concordancia estrecha entre evaluación de la personalidad basada en la actividad de 86.220 personas en Facebook con la evaluación realizada «tradicionalmente» (Youyou et al, 2015). En la misma línea, uno de los resultados más resonante fue el estudio Cambridge que consistió en el análisis combinado de los «me gusta» de Facebook y pruebas de personalidad que permitieron predecir la orientación sexual, uso de sustancias, edad, género y opiniones políticas de las personas evaluadas (Kosinski, Stillwell, & Graepel, 2013). En otros trabajos se relacionaron variables de personalidad con el lenguaje natural -de un corpus de más de 700 millones de palabras- de 75.000 voluntarios y se obtuvo una relación consistente entre dimensiones de la personalidad y el uso de determinadas palabras y frases.(Schwartz, et al., 2013).

Además, la tecnología Big data permite el desarrollo de métodos como el análisis semántico latente -que ayuda a reducir grandes cantidades de información basada en textos (Kern et al, 2016)- o el examen del contenido de los mensajes de Twitter, mediante análisis lingüísticos, para detectar respuestas emocionales negativas después de eventos traumáticos (Jones, Wojcik, Sweting y Silver, 2006) así como puede contribuir a probar hipótesis alternativas respecto de un constructo. Por ejemplo, Stanley y Byrne (2016) contribuyen a un enfoque basado en la teoría del modelado de datos masivos de la memoria humana -almacenamiento y recuperación de conocimientos a largo plazo- probando dos modelos teóricos alternativos. De esta manera, la investigación con Big data incluye también el estudio de procesos psicológicos como la memoria o la atención y expande su campo de aplicación en psicología. Chapman, Weiss y Dubenstein (2016) consideran modelos de desarrollo de medidas que se centran directamente en la validez predictiva utilizando un enfoque de aprendizaje automático que cuestiona y complementa los enfoques tradicionales para evaluar la fiabilidad.

En cuanto a la manera de obtener la información, Armayones et.al. (2015) indican dos modos principales:

- Hetero-registro: se trata del monitoreo continuo del comportamiento de una persona sin la participación activa de ésta; por ejemplo, geoposicionando sus recorridos por la ciudad para evaluar el tiempo que dedica a hacer distintas actividades.

- Auto-registro: se solicita que durante un período y con un objetivo claro la persona complete cuestionarios, confirme que ha realizado una tarea, responda tests, entre otras.

El valor de este modo de registro es que requiere solo de un teléfono celular, se recibe en tiempo real y permite recoger los datos que el profesional o el investigador consideran relevantes a los propósitos de la evaluación. De la misma manera, la persona puede recibir tratamiento, como lo prueban las investigaciones pioneras de Botella en español. Pero volviendo a la EP, esta manera de obtener la información se ajusta al enfoque Ecological Momentary Assessment (Shiffman, Stone, & Hufford, 2008) (Evaluación Ecológica Momentánea) que alude a la posibilidad de evaluar determinadas variables en distintos momentos temporales y en el ambiente natural de la persona, aumentando así la validez ecológica de los resultados y minimizando problemas como las dificultades para recordar y registrar emociones, cogniciones y/o conductas. Este enfoque no es nuevo pero es indudable que las aplicaciones y los teléfonos inteligentes potencian su práctica.

En resumen, la tecnología Big data a puede contribuir a revolucionar la investigación psicométrica (Markowetz et al, 2014) y la manera de realizar EP. No obstante, requiere de reflexión y recaudos éticos que aseguren el uso responsable, confidencial y consentido de la información personal provista así como la ineludible necesidad de validar modelos predictivos de Big Data mediante la aplicación de modelos desarrollados independientemente.

Realidad virtual y evaluación psicológica

Dentro del vasto conjunto de posibilidades que ofrecen las nuevas tecnologías, la Realidad Virtual (RV) se sitúa como una de las herramientas más prometedoras (Rivas, 1998; Alsina-Jurnet, 2009; Climent-Martínez et al. 2014). La Realidad Virtual puede ser definida como un sistema computacional que genera una peculiar interacción entre el usuario y la computadora a partir de entornos tridimensionales con los que la persona puede interactuar en tiempo real (Alsina-Jurnet, 2009). Las propiedades básicas de todo equipo de RV son la interacción e inmersión. La primera implica la posibilidad de tener control sobre el sistema creado donde el usuario interactúa activamente con los elementos tridimensionales y el mundo virtual responde en tiempo real a estas acciones. La inmersión alude a la estimulación de los sentidos de modo que se logre recrear experiencias similares a la realidad. Esto permite generar en el usuario la ilusión “de estar físicamente” en el mundo virtual, sensación que se denomina “sentido de presencia” (Riva, 1998; Alcañiz, Baños, Botella & Rey, 2003).

De acuerdo con Riva (1998), los entornos virtuales ofrecen gran flexibilidad a la hora de diseñar ambientes que se pueden adecuar a distintos objetivos experimentales. Esto permite controlar de forma sistemática la presentación de estímulos, obteniendo respuestas más consistentes y precisas y un análisis detallado de ellas. Además, se llevaron a cabo estudios para analizar la capacidad de los entornos virtuales de reproducir determinadas emociones o estados en los usuarios -por ejemplo, ansiedad o relajación- y la relación entre dichas emociones y el sentido de presencia. Los resultados mostraron que la realidad virtual puede funcionar como un medio capaz de inducir emociones específicas a los usuarios y que los niveles de presencia fueron más significativos en los escenarios virtuales diseñados para generar emociones que el escenario de control (Riva et al, 2007). Estas características configuran a la RV como un método de interés para la investigación y evaluación psicológicas. Así, en la última década aparecieron investigaciones en torno al estudio de videojuegos serios, plataformas virtuales de estimulación cognitiva y herramientas diagnósticas mediante realidad aumentada y/o virtual.

Realidad virtual y evaluación de rasgos y atributos psicológicos

Riva (1998) fue un pionero al diseñar el test “The Body Image Virtual Reality Scale” cuyo objetivo es evaluar distorsiones en la imagen corporal mediante elementos de realidad virtual. Los resultados demostraron que la RV constituye una herramienta útil para la evaluación debido a que permite mayor grado de inmersión para los usuarios y da retroalimentación inmediata.

Por su parte, Cangas et.al. (2012; 2018) elaboraron un programa de simulación 3D para la detección de alumnos en riesgo de abuso de sustancia, acoso escolar y alteraciones en la imagen corporal.

Numerosas investigaciones avalan que las tecnologías de RV ofrecen nuevas oportunidades para el desarrollo de herramientas innovadoras en la evaluación neuropsicológica (Klinger, Chemin, Lebreton & Marié, 2004; Pérez-Salas,2008; Pedroli et al. 2016; Díaz-Pérez & Flórez-Lozano, 2018). Se han realizado numerosos trabajos de revisión, los cuales presentan estudios empíricos de evaluación mediante escenarios virtuales de la memoria ( Díaz-Orueta & Cardas, 2016), de pacientes con demencia (Díaz-Pérez & Flórez-Lozano, 2018) y daño cerebral (Calderón-Chagualá, 2019). Además, actualmente existen dos herramientas de realidad virtual, diseñadas y validadas en España, para evaluar procesos atencionales: Nesplora AULA para niños y Nesplora Aquiarium para adultos(Iriarte et al., 2012).

La RV se configura como especialmente apropiada para la evaluación de las funciones ejecutivas. Estas componen un dominio de funciones de autorregulación que facilitan el control, organización y coordinación de otras funciones cognitivas y respuestas emocionales que, a su vez, nos permiten responder a las demandas externas e internas (Climent-Martínez et. al. 2014). Varios autores coinciden que dentro de esta gran cantidad de procesos cognitivos se incluyen la resolución de problemas, la planificación, la capacidad para mantener la atención y orientar la conducta hacia una meta, la toma de decisiones, la resistencia a la interferencia, la flexibilidad cognitiva, el autocontrol y el uso de la retroalimentación (Barkley, 1997; Rosselli, Jurado & Matute, 2008; Ramos-Galarza & Pérez-Salas, 2015; Pedroli et al. 2016).

Las formas tradicionales de evaluación no logran abarcar la complejidad del funcionamiento de las funciones ejecutivas por lo que se hace necesario desarrollar herramientas que permitan evaluar el desempeño de estos procesos cognitivos en tareas que simulen la realidad (Pedroli et. al. 2016). En este sentido, los dispositivos de Realidad Virtual permiten crear ambientes de evaluación con mayor validez ecológica (Climent-Martínez et al. 2014).

De las aproximaciones más recientes a la evaluación de las funciones ejecutivas con realidad virtual nos encontramos con el test Virtual Action Planning Supermarket (VAP-S), el entorno virtual AssesSim Office y el Ice Cream Seller Test. Mientras los dos últimos mencionados aún se encuentran en una versión experimental, Klinger et al. (2004) diseñaron y garantizaron las propiedades psicométricas de validez y fiabilidad del VAP-S, siendo utilizado en numerosas investigaciones para la evaluación de las funciones ejecutivas en, por ejemplo, pacientes con deterioro cognitivo leve, lesión cerebral y pacientes con esquizofrenia (Josman, Klinger & Kizony, 2008; Werner, Rabinowitz, Klinger, Korczyn & Josman, año; Josman, Kizony, Hof & Klinger, 2013). Se trata de un entorno virtual que simula un supermercado donde los usuarios deben completar una serie de tareas siguiendo un listado de compras. Resulta una herramienta útil y concreta que permite evaluar y detectar dificultades en la planificación, organización espacial, el aprendizaje y la memoria de trabajo, la velocidad de procesamiento y flexibilidad cognitiva. Dichas capacidades son fundamentales para la adaptación del individuo al medio, déficit en estas áreas impactan negativamente en la regulación de la conducta y en el autocontrol emocional, impidiendo llevar a cabo tareas cotidianas. Por ello es importante contar con instrumentos adecuados para la evaluación de las funciones ejecutivas.

Evaluación invisible

La Evaluación Invisible es una de las estrategias más utilizadas como alternativa a la evaluación tradicional. Su característica fundamental reside en que los contenidos de la prueba están encubiertos en una actividad diferente lo cual genera que el evaluado no sea consciente de que está siendo evaluado (Rosas et.al., 2015). Un concepto análogo es el de Evaluación Encubierta que refiere a evaluaciones que están incorporadas en el contexto de aprendizaje o evaluación, por ejemplo, los videojuegos para evaluar habilidades cognitivas (Shute, 2011).

Diversas investigaciones compararon pruebas tradicionales, es decir de lápiz y papel, y pruebas en formato de juego y demostraron que se puede obtener la misma media de desempeño. La única diferencia entre ambas formas es la experiencia subjetiva del evaluado. Las correlaciones entre ambos tipos de pruebas mostraron valores mayores a 0,79, es decir, valores deseables al momento de analizar la validez de una prueba. Estas pruebas evalúan habilidades cognitivas, proceso de lectura inicial y velocidad de procesamiento (Alliende, Condemarin & Milicic, 2000; Desrochers, Pusateri & Fink, 2007; McPherson & Burns, 2007).

La EI debe cumplir ciertos requisitos: ser invisible como “evaluación” para la persona evaluada y permitir obtener un puntaje que cumpla con los requisitos de construcción de pruebas psicométricas definidas en el estándar internacional (American Psychological Association & National Council in Measurement in Education, 2002). La primera condición de la EI no implica necesariamente que la persona no debe ser instruida para contestar una evaluación, sino que implica que la naturaleza de la tarea que se le propone logre que la olvide rápidamente involucrándose en el juego. Este requisito marca una diferencia fundamental con las pruebas tradicionales, entre ellas que el sujeto evaluado no activa los esquemas o scripts de una situación de evaluación (Schank & Abelson, 1977). Esto se torna una ventaja en los casos de personas que hayan tenido malas experiencias o hayan obtenido resultados bajos en situaciones de evaluación. Por otro lado, las demandas cognitivas son esencialmente diferentes siendo que la EI implica un despliegue de contenidos automatizados y procesos implícitos, mientras que la evaluación tradicional generalmente pregunta por contenidos no automatizados o requiere procesos explícitos. Ahora bien, en ambos tipos de evaluaciones se utilizan la atención, memoria y funciones ejecutivas en términos de flexibilidad y control, pero existe una gran diferencia en cuanto a la focalización de esos recursos. En la evaluación tradicional el foco está puesto en el contenido explícito, mientras que en la invisible el foco es la actividad realizada en la cual el contenido está implícito.

Entre las diferencias subjetivas entre ambas evaluaciones cabe destacar que se ha reportado que los niños perciben las EI como diferentes a las evaluaciones que están acostumbrados a contestar en la escuela y las prefieren en términos afectivos, confirmando que las pruebas tradicionales no resultan atractivas para lo niños. Esto probablemente se debe a que les anticipan potenciales consecuencias negativas que les generarían estrés y ansiedad al ser sometidos a la evaluación. La reducción de la ansiedad frente a la evaluación es un factor a tener en cuenta al momento de considerar la fiabilidad de la prueba ya que los datos muestran menores niveles de activación en condiciones EI (Eum & Rice, 2011).

En resumen, el propósito de las evaluaciones invisibles es que el sujeto evaluado no sienta que lo está siendo. Cabe destacar, sin embargo, que la persona sabe que está siendo evaluada porque se cumple con los requerimientos éticos de la evaluación en psicología. Sin embargo, la naturaleza de la tarea planteada logra que la persona rápidamente se olvide que está en una situación de evaluación.

Conclusiones

La medición en psicología es compleja porque implica considerar su carácter indirecto e inexacto. A su vez, la evaluación psicológica también lo es porque requiere de mediciones fiables y válidas, así como de diseños o adaptaciones realizadas de acuerdo a estándares internacionales que garanticen su uso idóneo.

Las técnicas de evaluación tradicionales son susceptibles al error de medida debidos a la distorsión deliberada o inconsciente de respuesta que da la persona -sea por conformismo, deseabilidad social o nivel de instrucción-, del entrevistador y de la situación de evaluación. Es conocido que las situaciones de evaluación elevan la activación y los niveles de ansiedad de los entrevistados y que las distorsiones pueden socavar la validez de los datos.

Por estas razones, las nuevas tecnologías pueden representar un avance importante para la investigación y evaluación psicológicas. Todos los enfoques de evaluación -tradicional, conductual, cognitivo y por computadora- se benefician con sus aportes que pueden resumirse en que,

- Las versiones informatizadas de los tests permiten el control y precisión de la presentación de ítems y mayor rapidez en la elaboración de informes y devolución de resultados.

- Proveen un mejor registro del tiempo de reacción y de los proceso de respuesta

- Las nuevas tecnologías Big data, RV y EI alientan la colaboración y retroalimentación entre distintas disciplinas –psicología, sociología, sistemas informáticos, estadísticos, entre otros-

- Las nuevas tecnologías coadyuvan a mediciones y evaluaciones en tiempo real y con validez ecológica

- La disponibilidad de grandes bases de datos en redes sociales son un medio privilegiado para la observación y análisis de actitudes y comportamientos psicológicos.

- La evaluación psicológica puede realizarse tanto por heteroregistro como autoregistro, esto coadyuva al monitoreo y evolución de conductas.

- Los entornos virtuales ofrecen gran flexibilidad a la hora de diseñar ambientes que se pueden adecuar a distintos objetivos experimentales y permiten respuestas más consistentes y precisas.

- Las evaluaciones invisibles reducen el monto de ansiedad en la evaluación de atributos cognitivos.

En conclusión, estos novedosos estilos de evaluación disminuyen la ansiedad o desinterés de la persona en las largas y rutinarias sesiones de evaluación, brindan flexibilidad pero a la vez precisión en la medida y permiten acceder a comportamientos en tiempo real. Todo ello coadyuva al desarrollo de investigaciones y a la realización de evaluaciones más ecológicas así como a la mejora de las evidencias de fiabilidad y validez de las pruebas. Pero fundamentalmente la Psicología no puede ser ciega al desarrollo tecnológico por lo que se propone difundir estas nuevas modalidades –a nivel académico y profesional- y se pase de la fase de curiosidad a la de investigación sistemática y contribuir así, al avance de la disciplina.

Referencias Bibliográficas

Alcañiz, M., Baños, R., Botella, C., & Rey, B. (2003). The EMMA Project: Emotions as a Determinant of Presence. PsychNology Journal 1(2), 141-150.

Alliende, F., Condemarín, M. & Milicic, N. (2000). Abriendo mundos. Santiago, Chile: Editorial Universitaria.

Alsina-Jurnet, I. (2009) Aplicaciones de la realidad virtual en la enseñanza de la psicología. Revista de Enseñanza en Psicología: Teoría y Experiencia, 5 (1), 1-15.

American Educational Research Association, American Psychological Association & National Council in Measurement in Education (2002). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.

Cangas, A. J., Carmona, J. A., Langer, Á. I., Gallego, J., & Scioli, A. (2018). Análisis de la validez del programa de simulación 3D My-School para la detección de alumnos en riesgo de consumo de drogas y acoso escolar. Universitas Psychologica, 17(2), 1-11. doi: 10.11144/Javeriana.upsy.17-2.avps.

Casullo, M. M. (1999). La evaluación psicológica: Modelos, técnicas y contexto sociocultural. Revista Iberoamericana de diagnóstico y evaluación psicológica, 1(1), 97-113.

Chapman, B. P., Weiss, A., & Duberstein, P. R. (2016). Statistical learning theory for high dimensional prediction: Application to criterion-keyed scale development. Psychological methods, 21(4), 603.

Climent-Martínez, C., Luna-Lario, P., Bombín-González, I., Cifuentes-Rodríguez, A.,Tirapu-Ustárroz, J., & Díaz-Orueta, U. (2014). Evaluación neuropsicológica de las funciones ejecutivas mediante realidad virtual. Revista de Neurología, 58 (10), 465-475.

Cortada de Kohan, N. (2000). Importancia de la investigación psicométrica. Revista Latinoamericana de Psicología, 34 (3), 229-240.

Crawford, K. L. S. (2000). Current Trends in Psychological Testing. Masters Theses. 1630. http://thekeep.eiu.edu/theses/1630

Cronbach, L. J. (1972). Fundamentos de la exploración psicológica. Madrid: Biblioteca Nueva.

Desrochers, M. N., Pusateri Jr., M. J. & Fink, H. C. (2007). Game assessment: Fun as well as effective. Assessment & Evaluation in Higher Education, 32, 527-539.

Díaz-Orueta, U., Climent, G., Cardas-Ibáñez, J., Alonso, L., Olmo-Osa, J., & Tirapu-Ustárroz, J. (2016). Evaluación de la memoria mediante realidad virtual: presente y futuro. Revista de Neurología, 62 (2), 75-84. doi: 10.33588/rn.6202.2015453.

Díaz-Peréz, E. & Flórez-Lozano, J.A. (2018). Realidad virtual y demencia. Revista de Neurología, 66, 344-352.

Eftekhar, A., Fullwood, C., & Morris, N. (2014). Capturing personality from Facebook photos and photorelated activities: How much exposure do you need? Computers in Human Behavior, 37, 162–170. doi:10.1016/j.chb.2014.04.048.

Embretson, S. E. (1999). Generating items during testing: psychometric issues and models. Psychometrika, 64, 407-433.

Embretson, S. E. (Ed.) (l 985). Test design: Developments in psychology and psychometrics. New York: Academic Press.

Eum, K. & Rice, K. G. (2011). Test anxiety, perfectionism, goal orientation, and academic performance. Anxiety, Stress, & Coping, 24, 167-178.

Garaigordobil, M. (1998). Evaluación Psicológica: Bases teórico-metodológicas, situación actual y directrices de futuro. Madrid: Amarú.

Fernández Ballesteros, R. (2013). Evaluación psicológica. Conceptos, métodos y estudio de casos. Madrid: Síntesis.

Holden, R.R., Fekken, G. C., & Cotton, D. H. (1991). Assessing psychopathology using structured test-item response latencies. Psychological Assessment, J, 111-118.

Jones, N. M., Wojcik, S. P., Sweeting, J., & Silver, R. C. (2016). Tweeting negative emotion: An investigation of Twitter data in the aftermath of violence on college campuses. Psychological methods, 21(4), 526.

Kern, M. L., Park, G., Eichstaedt, J. C., Schwartz, H. A., Sap, M., Smith, L. K., & Ungar, L. H. (2016). Gaining insights from social media language: Methodologies and challenges. Psychological methods, 21(4), 507.

Kosinski, M., Stillwell, D. J., & Graepel, T. (2013). Private traits and attributes are predictable from digital records of human behavior. Proceedings of the National Academy of Sciences (PNAS), 110(15), 5802–5805.

Loevinger, J. ( l 957). Objective tests as instruments of psychological theory. [Monograph Supplement No. 9]. Psychological Reports,}., 635-694.

Mahl, G. F. (1987). Explorations in nonverbal and verbal behavior. Hillsdale, NJ: Erlbaum.

Markowetz, A., Błaszkiewicz, K., Montag, C., Switala, C., & Schlaepfer, T. E. (2014). Psycho-Informatics: Big Data shaping modern psychometrics. Medical Hypotheses, 82(4), 405–11. doi:10.1016/j. mehy.2013.11.030.

Martínez Arias, R. (1996): Psicometría: Teoría de los Tests Psicológicos y Educativos. Caps. 2, 3, 4 y 12. Madrid: Síntesis (1; 2; 3)

McPherson, J. & Burns, N. R. (2007). Gs invaders: Assessing a computer game-like test of processing speed. Behavior Research Methods, 39, 876-883.

Meier, S. T., & Wick, M. T. (1991). Computer-based unobtrusive measurement: Potential supplements to reactive self-reports. Professional Psychology: Research and Practice, 22, 410-412.

Nosek, B. A., Spies, J. R. & Motyl, M. (2012). Scientific Utopia: II. Restructuring incentives and practices to promote truth over publishability. Perspectives on Psychological Science, 7(6): 615-631.

Romero-Martínez, S., Ponsoda-Gil, V., & Ximénez, C. (2010). Análisis de un test de aritmética mediante el modelo logístico lineal de rasgo latente. Revista Latinoamericana de Psicología, 40(1), 85-95.

Rosas, R., Ceric, F., Aparicio, A., Arango, P., Arroyo, R., Benavente, C.& Tenorio, M. (2015). ¿Pruebas tradicionales o evaluación invisible a través del juego?: Nuevas fronteras de la evaluación cognitiva. Psykhe (Santiago), 24(1), 1-11.

Schank, R. C. & Abelson, R. P. (1977). Scripts, plans, goals, and understanding: An inquiry into human knowledge structures. Hillsdale, NJ: Lawrence Earlbaum.

Shute, V. J. (2011). Stealth assessment in computer-based games to support learning. En S. Tobias & J. D. Fletcher (Eds.), Computer games and instruction (pp. 503-524). Charlotte, NC: Information Age.

Stanley, C., & Byrne, M. D. (2016). Comparing vector-based and Bayesian memory models using large-scale datasets: User-generated hashtag and tag prediction on Twitter and Stack Overflow. Psychological methods, 21(4), 542.

Stevens, S. (1946). On the Theory of Scales of Measurement. Science, New Series, Vol. 103, No. 2684, pp. 677-680.

Van der Linden, W. & Hambleton, R. (1997). Handbook of modern item response theory. New York: Springer.

Youyou, W., Kosinski, M., & Stillwell, D. (2015). Computer-based personality judgments are more accurate than those made by humans. Proceedings of the National Academy of Sciences, 112(4), 201418680. doi:10.1073/pnas.1418680112.

2da Edición - Agosto 2019