¿Pueden los chatbots de inteligencia artificial evaluar los datos educativos tan bien como los humanos?
Acceder a información precisa en las vastas bases de datos educativas sigue siendo un desafío para muchos usuarios. Las respuestas a preguntas simples, como el rendimiento escolar o las normas estadísticas, a menudo están dispersas en informes, tablas o documentos técnicos. Para facilitar este acceso, se están desarrollando herramientas de inteligencia artificial generativa, como los chatbots. Sin embargo, su fiabilidad y precisión plantean interrogantes, especialmente cuando se trata de datos sensibles y actualizados.
Una solución prometedora se basa en la tecnología llamada generación aumentada por recuperación. A diferencia de los modelos clásicos de inteligencia artificial, este enfoque no se basa únicamente en conocimientos preregistrados. Extrae información en tiempo real de fuentes oficiales y verificadas para proporcionar respuestas adaptadas y contextuales. Esto reduce los riesgos de errores o información obsoleta, un problema frecuente con las herramientas tradicionales.
Investigadores probaron un chatbot especializado en el ámbito educativo, diseñado para responder preguntas complejas sobre normas y datos escolares. Para evaluar su desempeño, compararon sus respuestas con las de jueces humanos según tres criterios principales: la exactitud de la información, su exhaustividad y la claridad de la comunicación. Los resultados muestran que el chatbot ofrece respuestas tan fiables como las evaluadas por expertos. En algunos casos, incluso superaba la coherencia de las evaluaciones humanas, especialmente en la calidad de la comunicación.
La innovación principal radica en el uso de otro modelo de inteligencia artificial para automatizar parte de la evaluación. Este procedimiento, llamado evaluación por un gran modelo de lenguaje, permite ahorrar tiempo y recursos, manteniendo al mismo tiempo un alto nivel de calidad. Los análisis revelan que este método automatizado produce resultados comparables a los de los evaluadores humanos, excepto en la claridad de las respuestas, donde incluso resulta más coherente.
Este avance abre el camino a un uso más amplio de la inteligencia artificial para analizar y hacer accesibles datos educativos complejos. Podría ayudar, en particular, a docentes, padres y responsables a obtener información precisa rápidamente, sin necesidad de contar con conocimientos técnicos. La automatización parcial de la evaluación también permite reducir costos y acelerar los procesos, conservando al mismo tiempo una supervisión humana para garantizar la exactitud de los resultados.
El estudio subraya, no obstante, que estas herramientas no deben reemplazar por completo la experiencia humana. Actúan más bien como asistentes, facilitando el acceso a la información, aunque requieren una verificación ocasional. En el futuro, este enfoque podría extenderse a otros ámbitos donde la precisión y la actualización de los datos sean cruciales.
Bibliographie
Source du rapport
DOI : https://doi.org/10.1186/s40536-026-00287-w
Titre : Evaluating generative AI chatbots for large-scale assessment data: comparing LLM-as-a-judge and human ratings
Revue : Large-scale Assessments in Education
Éditeur : Springer Science and Business Media LLC
Auteurs : Ting Zhang; Luke Patterson; Blue Webb; Zeyu Jin; Maggie Beiting-Parrish