Ponemos un examen de MBA a ChatGPT y no aprueba (pero por poco)

1 year ago 61

Hemos puesto a ChatGPT frente a un examen de Inteligencia Artificial y Aprendizaje Automático, una asignatura introductoria a estudiantes del grado de Business, que forma parte del máster en Administración de empresas de ESADE. No ha aprobado, pero ha dejado muy impresionado al profesor. Él es José Antonio Rodríguez Serrano, físico y doctor en IA que ha trabajado en investigación y desarrollo durante muchos años, y hoy da clases en varias asignaturas de este MBA.

“Cuando salió ChatGPT le puse ejercicios que vemos en clase, sí me llamó la atención que en alguno me daba respuestas impresionantes. Incluso como persona que ha trabajado en el campo, me impresionó”, dice.

ChatGPT va camino de ser la alumna con más títulos, por lo menos entre las IA, a juzgar por la cantidad de pruebas que le estamos haciendo pasar desde que se presentó en sociedad. La revista PLOS Digital Health acaba de publicar un estudio que enfrentó a ChatGPT a los exámenes necesarios para obtener la licencia de médico en Estados Unidos, y los resultados indican que podría superarlos o estaría cerca de hacerlo. Aunque en otros exámenes en general no está aprobando con sobresaliente, sí parece ser una estudiante regular que salva los papeles, y que aún así asombra a profesores y expertos.

La inteligencia artificial ha sido el campo de estudio de Rodríguez Serrano durante mucho tiempo. Ha sido investigador, ha publicado artículos y patentes y ha trabajado como científico de datos para el BBVA, en cuya aplicación móvil hay recomendaciones que incorporan este tipo de algoritmos. Desde hace unos años se dedica a enseñar lo que ha aprendido en este campo.

Desde Newtral.es le propusimos hacerle a ChatGPT un examen real de una de sus asignaturas del Máster. Rodríguez eligió la de “Artificial Intelligence and Machine Learning”: lo que viene a ser algo así como preguntarle a la IA por IA, algo que, al final, parece no haber supuesto ninguna ayuda para el chatbot.

Cómo se hizo el examen con ChatGPT

Hay una particularidad en la forma de preguntar a ChatGPT, y es que tenemos que adaptar las preguntas a la forma de interacción con esta IA. Rodriguez no ha podido presentarle todas las preguntas del examen, en parte, por esas exigencias de formato.

Una de las dificultades que el profesor apunta al momento de hacer el examen a ChatGPT es que hay consignas que consisten en interpretar gráficas o tablas, algo imposible para ChatGPT (que no permite enviarle imágenes o preguntarle por ellas, sólo hay que escribir instrucciones o comandos de forma textual). Otras preguntas apelan directamente a conceptos procedentes de clase (por ejemplo: ¿Cuáles son los 5 pasos que vimos?”) de lo cual ChatGPT no tiene contexto.

Tras enviarle una selección de ejercicios y ver los resultados, el profesor le otorga en una escala del 1 al 10 “como máximo un 4”, es decir, un suspenso. Haciendo una extrapolación, ¿habría aprobado el verdadero examen? Rodríguez cree que entre las respuestas incorrectas y otras que por el mismo formato del chat no puede procesar, no aprobaría. Además hay que tener en cuenta que en esta asignatura el examen corresponde al 40% de la nota. El resto es la evaluación de un proyecto y participación en la clase.

La nota del examen del MBA para ChatGPT: no aprobado

“Un 4 no está nada mal”, dice Rodríguez, refiriéndose a que hace dos años no se hubiese esperado que podíamos estar en este punto de evolución de la IA. “Si las tecnologías de large language models (grandes modelos de lenguaje) mejoran, se refinan para aplicar razonamientos matemáticos o consultar datos, en poco tiempo podrán llegar a aprobar exámenes especializados”, dice.

ChatGPT ya ha aprobado otro examen de un máster en administración de empresas, el prestigioso Wharton de la Universidad de Pensilvania, con una nota de B o B-, equivalente a un 80-89%, es decir, un notable. Para Christian Terwiesch, el profesor que lo evaluó, esto tiene implicaciones importantes para la educación de las escuelas de negocio.

ChatGPT y los conceptos teóricos: notable

En el examen del MBA de ESADE, cuando el profesor le hizo preguntas sobre conceptos teóricos, y le planteó escenarios para que se pusiera en situación, ChatGPT contestó generalmente bien.

Primero se le planteó que haríamos un examen y si podría respondernos preguntas sobre Machine Learning en español. Luego ocurrió este intercambio:

Profesor – Si un coche autónomo detecta un peatón y frena, ¿de cuál de estos casos se trata?: verdadero positivo, verdadero negativo, falso positivo, falso negativo.

ChatGPT – Se trataría de un verdadero positivo. Un verdadero positivo es cuando el modelo predice correctamente la presencia de una determinada característica (en este caso, la presencia de un peatón) y en realidad existe esa característica.

Profesor – Si realizo un pago en el extranjero y mi banco bloquea mi tarjeta de crédito, ¿de cuál de estos casos se trata?: verdadero positivo, verdadero negativo, falso positivo, falso negativo.

ChatGPT – Se trataría de un falso positivo. Un falso positivo es cuando el modelo predice la presencia de una determinada característica (en este caso, una transacción fraudulenta) pero en realidad no existe esa característica. En este caso, el pago es real pero el banco lo detecta como una transacción fraudulenta.

Este es otro problema al que ChatGPT que ha respondido bien en este examen:

Profesor – Si queremos entender qué factores afectan a las ventas de una empresa, en función de atributos que podemos observar de las mismas, dime si se trata de una clasificación, regresión, o de algún caso de aprendizaje no supervisado.

ChatGPT – Se trataría de un caso de regresión. En un problema de regresión, se busca establecer una relación entre una variable dependiente (en este caso, las ventas de una empresa) y una o varias variables independientes (atributos observables de una empresa). El objetivo es poder predecir o explicar cómo cambia la variable dependiente en función de los valores de las variables independientes.

ChatGPT y la Matemática, regular

Como muchos ya han podido comprobar, a ChatGPT por lo general no se le dan bien las matemáticas. Que falle con cálculos simples es quizás una de las sorpresas de este tipo de sistemas, que a base de leer millones de documentos se basa en patrones estadísticos para responder.

“A base de leer millones de documentos, la respuesta que da es como que sí supiera cosas, aunque todos sabemos que no sabe, no entiende. Pero tiene tanta información que sólo autocompletando te da la respuesta equivalente a haberla sabido”, explica Rodríguez. Esto a veces también sucede con temas matemáticos. “En Matemática falla mucho, pero a veces sorprendentemente, acierta”.

Este ha sido el caso de algunas preguntas del examen que hizo ChatGPT. Rodríguez le puso un problema con matemáticas, que se trata de un caso común, una fórmula sencilla, con números redondos y sin dar otros números para distraer. En estas ocasiones contesta correctamente, como se muestra abajo.

Profesor – Las ventas de una tienda de comida siguen este modelo de regresión lineal: f(x1, ×2) = 0.35*x1 + 120*x2, donde x1 son los minutos que pasan desde que abre la tienda y x2 indica si es fin de semana (X2-1) o no (x2-0). Si x1=100, es domingo, y las ventas son de 160, cuál es el error cuadrático medio?

ChatGPT – El error cuadrático medio se calcula como la raíz cuadrada de la media de los errores al cuadrado. En este caso, el valor esperado de las ventas es f(x1, x2) = 0.35100 + 1201 = 35 + 120 = 155. El error es 160 – 155 = 5. El error cuadrático medio es la raíz cuadrada de (5^2)/1 = 25/1 = 5.

Los tropiezos de ChatGPT en el examen

Aunque es fácil obtener contraejemplos y demostrar que “(aún) no sabe”. Preguntando algo conceptual sobre el mismo tipo de fórmula que responde bien arriba, aquí no es capaz de dar la respuesta correcta (las respuestas válidas aquí son 14 o 16, según qué método de codificación se utilice).

Profesor – Usamos una regresión lineal para estimar el precio de pisos. Tenemos 2 atributos numéricos (metros cuadrados y número de habitaciones), una variable categórica que representa el barrio (10 posibles valores) y otra el tipo de propiedad (piso, casa, estudio, loft). ¿Cuántos coeficientes tiene esta regresión lineal?

ChatGPT – La regresión lineal tiene 2 coeficientes numéricos (metros cuadrados y número de habitaciones), más 10 coeficientes para cada uno de los posibles valores de la variable categórica del barrio, más uno adicional para la variable categórica del tipo de propiedad totalizando 2+10+1 = 13 coeficientes en total.

El profesor ha probado más ejemplos de este tipo en el examen con ChatGPT, aquí otro caso en el que el razonamiento es correcto:

Profesor – Algunas impresoras estiman la cantidad de tinta restante usando una regresión linear. Considera un modelo muy sencillo del siguiente tipo:

tinta consumida = c1 * número de páginas + c2 * tipo de documento + c3*modo ahorro activado

Si el eco modo está activado, el tercer atributo toma el valor 1, de otro modo 0. Dime si los coeficientes c1 y c3 deberían tener signo positivo o negativo.

ChatGPT – El coeficiente c1 debería tener un signo positivo, ya que a medida que aumenta el número de páginas impresas, se espera que aumente el consumo de tinta.

El coeficiente c3 debería tener un signo negativo, ya que si el modo de ahorro de tinta está activado, se espera que el consumo de tinta sea menor en comparación con cuando 9 no está activado.

Pero volviéndole a hacer la misma pregunta, responde algo muy genérico sin mojarse, algo que no es incorrecto, pero ChatGPT tampoco da con la respuesta correcta para el examen:

ChatGPT – No se puede determinar si los coeficientes c1 y c3 deben tener signo positivo o negativo simplemente basándose en el modelo de regresión lineal que se ha proporcionado. El signo del coeficiente dependerá de los datos de entrenamiento y cómo se relacionen los atributos con el tinta consumida. El coeficiente c1 probablemente tendrá un signo positivo ya que se espera que a medida que aumenta el número de páginas impresas, aumente el consumo de tinta. Sin embargo, el signo del coeficiente c3 dependerá de cómo el modo de ahorro de tinta afecte al consumo de tinta. Puede ser que el modo de ahorro reduzca el consumo de tinta, en cuyo caso el coeficiente c3 tendría un signo negativo, o puede ser que el modo de ahorro no afecte significativamente al consumo de tinta, en cual caso el coeficiente c3 tendría un signo cercano a 0.

ChatGPT lee tablas en el examen

ChatGPT sorprendió al profesor una vez más en el examen: cuando le pegó una tabla en modo texto y el chatbot fue capaz de leerla:

Aunque luego, al cambiar de orden los elementos de la tabla, Rodríguez llevó a ChatGPT a generar una respuesta incorrecta.

ChatGPT fue abierto al público un día después de que este profesor tomara el último examen del año a sus alumnos, por lo que no lo han podido usar para sus últimas revisiones. Pero Rodríguez ya está pensando en hablarles de ChatGPT el próximo primer día de clase. “Se los explicaré desde el primer día, lo vamos a incorporar”.

Cree que es fundamental hacer responsable al estudiante de lo que entrega, del resultado final, más allá de las herramientas que ha utilizado. “A mí me da igual si lo has escrito tú o si lo ha escrito una máquina, si lo has escrito con Word o si te lo has copiado de internet. Al final te voy a poner la nota sobre lo que estoy intentando evaluar. Creo que el punto clave es incorporar que es muy fácil generar un texto pero eres tú el que se responsabiliza de lo que has entregado. Es más importante transmitir eso”, explica.

Imagen: M. Gonzalo con Midjourney

Fuentes

Jose Antonio Rodriguez Serrano, profesor del Departamento de Operaciones, Innovación y Data Sciences de Esade

Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models

Finantial Times, AI chatbot’s MBA exam pass poses test for business schools

Read Entire Article

Ponemos un examen de MBA a ChatGPT y no aprueba (pero por poco)

Cómo se hizo el examen con ChatGPT

La nota del examen del MBA para ChatGPT: no aprobado

ChatGPT y los conceptos teóricos: notable

ChatGPT y la Matemática, regular

Los tropiezos de ChatGPT en el examen

ChatGPT lee tablas en el examen

Fuentes

Related

黎巴嫩爆炸案吹起台灣電子產品危險的陰謀論

【議題觀察室】「台灣人拜日本神」是崇拜軍國主義嗎？學者：是民間「有應公」信仰的一種啦！

Addio macchina prestata ai familiari

Ponemos un examen de MBA a ChatGPT y no aprueba (pero por poco)

Cómo se hizo el examen con ChatGPT

La nota del examen del MBA para ChatGPT: no aprobado

ChatGPT y los conceptos teóricos: notable

ChatGPT y la Matemática, regular

Los tropiezos de ChatGPT en el examen

ChatGPT lee tablas en el examen

Fuentes

Related

黎巴嫩爆炸案 吹起台灣電子產品危險的陰謀論

【議題觀察室】「台灣人拜日本神」是崇拜軍國主義嗎？ 學者：是民間「有應公」信仰的一種啦！

Addio macchina prestata ai familiari

黎巴嫩爆炸案吹起台灣電子產品危險的陰謀論

【議題觀察室】「台灣人拜日本神」是崇拜軍國主義嗎？學者：是民間「有應公」信仰的一種啦！