Responde lo que sea!
Grok está diseñado para responder preguntas con algo de ingenio e incluso con algo de humor.
Un elemento único de Grok es que tiene conocimiento del mundo en tiempo real por que se basa en Twitter y además por que al parecer responde a preguntas que el resto de LLMs no están autorizados de responder.
¿Y para que otro chat que responde preguntas?
Según sus creadores, “En xAI queremos crear herramientas de IA que ayuden a la humanidad en su búsqueda de comprensión y conocimiento”.
Los objetivos principales son:
- Recopilar y analizar comentarios para beneficiar a la humanidad.
- Potenciar la investigación y la innovación.
(Grok-0) fue entrenado con 33 mil millones de parámetros.
Este primer modelo se acerca a las capacidades de LLaMA 2 (70B) en los puntos de referencia LM estándar, pero utiliza solo la mitad de sus recursos de capacitación.
Grok-1, un modelo de lenguaje de última generación que es significativamente más potente, logrando un 63,2% en la tarea de codificación HumanEval y un 73% en la tarea de codificación HumanEval.
HumanEval : tarea de finalización de código Python (Chen et al. 2021)
Tabla comparativa distintos LLMs
Punto de referencia | Grok-0 (33B) | Llama 2 70B | Inflexión-1 | GPT3.5 | Grok-1 | palma 2 | claudio 2 | GPT-4 |
---|---|---|---|---|---|---|---|---|
GSM8k | 56,8% 8 tiros | 56,8% 8 tiros | 62,9% 8 tiros | 57,1% 8 tiros | 62,9% 8 tiros | 80,7% 8 tiros | 88,0% 8 disparos | 92,0% 8 disparos |
MMLU | 65,7% 5 tiros | 68,9% 5 tiros | 72,7% 5 tiros | 70,0% 5 disparos | 73,0% 5 tiros | 78,0% 5 disparos | 75,0% 5 disparos + CoT | 86,4% 5 tiros |
evaluación humana | 39,7% 0 tiros | 29,9% 0 tiros | 35,4% 0 tiros | 48,1% 0 tiros | 63,2% 0 tiros | – | 70% 0 disparos | 67% 0 tiros |
MATEMÁTICAS | 15,7% 4 tiros | 13,5% 4 tiros | 16,0% 4 disparos | 23,5% 4 tiros | 23,9% 4 tiros | 34,6% 4 tiros | – | 42,5% 4 tiros |
Grok-1 muestra mejores resultados, que sus competidores. Solo es superado por modelos que fueron entrenados con una cantidad significativamente mayor de datos de entrenamiento y recursos informáticos como GPT-4.
Evaluación calificada por humanos | Grok-0 | GPT3.5 | claudio 2 | Grok-1 | GPT-4 |
---|---|---|---|---|---|
Examen nacional de matemáticas de secundaria de Hungría (mayo de 2023) | 37% 1 disparo | 41% 1 disparo | 55% 1 disparo | 59% 1 disparo | 68% 1 disparo |
Para crear Grok, se creó una pila de inferencia y entrenamiento personalizada basada en Kubernetes, Rust y JAX.
Hay innumerables formas en que fallan las GPU: defectos de fabricación, conexiones sueltas, configuración incorrecta, chips de memoria degradados, cambios aleatorios ocasionales de bits y más. Durante el entrenamiento de Grok, se sincronizaron cálculos en decenas de miles de GPU durante meses y todos estos modos de falla se vuelven frecuentes debido a la escala. Para superar estos desafíos, se empleó un conjunto de sistemas distribuidos personalizados que garantizan que cada tipo de falla se identifique de inmediato y se maneje automáticamente.
Rust ha demostrado ser una opción ideal para construir una infraestructura escalable, confiable y mantenible. Ofrece alto rendimiento, un ecosistema rico y previene la mayoría de los errores que normalmente se encontrarían en un sistema distribuido. La confiabilidad de la infraestructura es crucial; de lo contrario, el mantenimiento protagoniza la innovación. Rust brinda la confianza de que cualquier modificación o refactorización de código probablemente producirá programas funcionales que se ejecutarán durante meses con una supervisión mínima.
Ahora se prepara un nuevo avance en las capacidades del modelo, que requerirá coordinar de manera confiable ejecuciones de capacitación en decenas de miles de aceleradores, ejecutar canales de datos a escala de Internet y crear nuevos tipos de capacidades y herramientas en Grok. Si quieres formar parte de este proceso, hay vacantes disponibles que puedes explorar aquí .
Acceso a información en tiempo real
Grok tiene acceso a herramientas de búsqueda e información en tiempo real, pero como ocurre con todos los LLM capacitados en la predicción del siguiente token, este aún puede generar información falsa o contradictoria y es por esto que la retroalimentación humana es esencial.
Los resultados contradictorios demuestran que los optimizadores pueden explotar fácilmente las vulnerabilidades en los sistemas de inteligencia artificial, tanto durante el entrenamiento como durante el tiempo de servicio, provocando que cometan errores atroces.
Grok por el momento no tiene otros sentidos, como la visión y el oído, pero es solo cuestión de tiempo para que sean implementados.