Descubriendo la superioridad de la IA: Comparando ChatGPT, Gemini, Copilot y Claude
¿Por qué elijo este chatbot y no otro? La eterna pregunta sin respuesta definitiva
El enigma de la evaluación de los chatbots
La pregunta de por qué se utiliza un chatbot en particular es sencilla, pero la respuesta es difícil de precisar. Los usuarios suelen responder que un chatbot específico, como ChatGPT, Copilot, Gemini o Claude, les funciona bien para sus necesidades. Sin embargo, la duda persiste: ¿existe un chatbot mejor para una tarea determinada? Curiosamente, aún no lo sabemos.
Existen numerosos puntos de referencia que intentan evaluar el rendimiento de los modelos de IA, pero suele haber una diferencia significativa entre los resultados de estas pruebas y la experiencia real. Lo que a unos les parece una buena respuesta puede no serlo para otros, y cada escenario es diferente porque los chatbots no suelen responder exactamente igual a las mismas preguntas.
El problema de las afirmaciones subjetivas
Como se destaca en The New York Times, cuando las empresas presentan sus nuevos modelos de IA, a menudo lo hacen con afirmaciones subjetivas y difícilmente verificables, como que tienen capacidades mejoradas sin especificar por qué. Este es un problema real en la industria: no sabemos si Gemini escribe mejor código que ChatGPT o Copilot, o si ChatGPT Plus, que es de pago, realmente merece la pena en cuanto a la calidad de sus respuestas. Lo mismo ocurre con los modelos de generación de imágenes, aunque en este caso la subjetividad y las opiniones personales juegan un papel aún más importante.
La importancia de las pruebas más exigentes
Un estudio reciente del Instituto para la IA Centrada en el Humano de la Universidad de Stanford subraya este problema en su sección sobre el rendimiento técnico de los modelos. Los investigadores dejan claro que la IA supera a los humanos en algunas tareas, pero no en todas. También señalan que los modelos de IA actuales han saturado las pruebas existentes, como ImageNet, Squad o SuperGLUE, que antes eran buenas medidas para los modelos de IA. Los modelos se han vuelto demasiado buenos, por lo que ahora se están creando pruebas más exigentes, como SWE Bench para la generación de código, HEIM para la generación de imágenes, MMuM para el razonamiento general, MoCA para el razonamiento moral, AgentBench para el comportamiento de los agentes de IA y HALUEval para analizar si los modelos alucinan.
Esta entrada ha sido visitada por 8 lectores.
La puntuación humana: una métrica cada vez más importante
Hay una métrica que es cada vez más importante para los usuarios: la puntuación que los humanos damos a estos modelos. Un modelo puede obtener una puntuación muy alta en un punto de referencia de generación de texto, pero ¿qué le parece a un usuario que lo utiliza? Sistemas como Chatbot Arena Leaderboard, que registran el sentimiento público sobre los chatbots, son cada vez más relevantes para monitorizar el progreso de estos modelos de IA. Vimos esto recientemente cuando apareció Claude 3 Opus, el nuevo modelo de Anthropic, que superó a GPT-4 en los puntos de referencia, pero que en el Chatbot Arena Leaderboard los usuarios prefirieron a Claude 3 Opus. Esto significa que la gente siente que es mejor.
La dificultad de confiar en los puntos de referencia
En el mundo de los procesadores, los puntos de referencia suelen dar una idea muy clara de lo que podemos esperar de ellos. Aunque las pruebas sintéticas también son una referencia y pueden no coincidir exactamente con la experiencia final, podemos confiar bastante en esos resultados. Con los modelos de IA, la cosa no está tan clara, y es un problema que parece difícil de resolver por el momento.
¡Esperamos que haya sido de utilidad este artículo de la categoría Inteligencia Artificial. Por cualquier consulta sobre los artículos presentados en esta Web por favor contactanos a redaccion@noticiaspuertosantacruz.com.ar. Recuerda que somos un medio independiente que está 100% automatizado con IA (Inteligencia Artificial) por lo que siempre te recomendamos que visites las fuentes originales de cada artículo presentado en esta web. Todavía no te vayas, ¡tenemos mucho más contenido interesante para vos! Te invitamos a explorar otros artículos similares a Descubriendo la superioridad de la IA: Comparando ChatGPT, Gemini, Copilot y Claude en nuestra amplia colección sobre Inteligencia Artificial.
Artículos relacionados