Grok

Responde lo que sea!

Grok está diseñado para responder preguntas con algo de ingenio e incluso con algo de humor.

Un elemento único de Grok es que tiene conocimiento del mundo en tiempo real por que se basa en Twitter y además por que al parecer responde a preguntas que el resto de LLMs no están autorizados de responder.

¿Y para que otro chat que responde preguntas?

Según sus creadores, “En xAI queremos crear herramientas de IA que ayuden a la humanidad en su búsqueda de comprensión y conocimiento”.

Los objetivos principales son:

Recopilar y analizar comentarios para beneficiar a la humanidad.
Potenciar la investigación y la innovación.

(Grok-0) fue entrenado con 33 mil millones de parámetros.

Este primer modelo se acerca a las capacidades de LLaMA 2 (70B) en los puntos de referencia LM estándar, pero utiliza solo la mitad de sus recursos de capacitación.

Grok-1, un modelo de lenguaje de última generación que es significativamente más potente, logrando un 63,2% en la tarea de codificación HumanEval y un 73% en la tarea de codificación HumanEval.

HumanEval : tarea de finalización de código Python (Chen et al. 2021)

Tabla comparativa distintos LLMs

Punto de referencia	Grok-0 (33B)	Llama 2 70B	Inflexión-1	GPT3.5	Grok-1	palma 2	claudio 2	GPT-4
GSM8k	56,8% 8 tiros	56,8% 8 tiros	62,9% 8 tiros	57,1% 8 tiros	62,9% 8 tiros	80,7% 8 tiros	88,0% 8 disparos	92,0% 8 disparos
MMLU	65,7% 5 tiros	68,9% 5 tiros	72,7% 5 tiros	70,0% 5 disparos	73,0% 5 tiros	78,0% 5 disparos	75,0% 5 disparos + CoT	86,4% 5 tiros
evaluación humana	39,7% 0 tiros	29,9% 0 tiros	35,4% 0 tiros	48,1% 0 tiros	63,2% 0 tiros	–	70% 0 disparos	67% 0 tiros
MATEMÁTICAS	15,7% 4 tiros	13,5% 4 tiros	16,0% 4 disparos	23,5% 4 tiros	23,9% 4 tiros	34,6% 4 tiros	–	42,5% 4 tiros

from xAI

Grok-1 muestra mejores resultados, que sus competidores. Solo es superado por modelos que fueron entrenados con una cantidad significativamente mayor de datos de entrenamiento y recursos informáticos como GPT-4.

Evaluación calificada por humanos	Grok-0	GPT3.5	claudio 2	Grok-1	GPT-4
Examen nacional de matemáticas de secundaria de Hungría (mayo de 2023)	37% 1 disparo	41% 1 disparo	55% 1 disparo	59% 1 disparo	68% 1 disparo

from xAI

Para crear Grok, se creó una pila de inferencia y entrenamiento personalizada basada en Kubernetes, Rust y JAX.

Hay innumerables formas en que fallan las GPU: defectos de fabricación, conexiones sueltas, configuración incorrecta, chips de memoria degradados, cambios aleatorios ocasionales de bits y más. Durante el entrenamiento de Grok, se sincronizaron cálculos en decenas de miles de GPU durante meses y todos estos modos de falla se vuelven frecuentes debido a la escala. Para superar estos desafíos, se empleó un conjunto de sistemas distribuidos personalizados que garantizan que cada tipo de falla se identifique de inmediato y se maneje automáticamente.

Rust ha demostrado ser una opción ideal para construir una infraestructura escalable, confiable y mantenible. Ofrece alto rendimiento, un ecosistema rico y previene la mayoría de los errores que normalmente se encontrarían en un sistema distribuido. La confiabilidad de la infraestructura es crucial; de lo contrario, el mantenimiento protagoniza la innovación. Rust brinda la confianza de que cualquier modificación o refactorización de código probablemente producirá programas funcionales que se ejecutarán durante meses con una supervisión mínima.

Ahora se prepara un nuevo avance en las capacidades del modelo, que requerirá coordinar de manera confiable ejecuciones de capacitación en decenas de miles de aceleradores, ejecutar canales de datos a escala de Internet y crear nuevos tipos de capacidades y herramientas en Grok. Si quieres formar parte de este proceso, hay vacantes disponibles que puedes explorar aquí .

Acceso a información en tiempo real

Grok tiene acceso a herramientas de búsqueda e información en tiempo real, pero como ocurre con todos los LLM capacitados en la predicción del siguiente token, este aún puede generar información falsa o contradictoria y es por esto que la retroalimentación humana es esencial.

Los resultados contradictorios demuestran que los optimizadores pueden explotar fácilmente las vulnerabilidades en los sistemas de inteligencia artificial, tanto durante el entrenamiento como durante el tiempo de servicio, provocando que cometan errores atroces.

Grok por el momento no tiene otros sentidos, como la visión y el oído, pero es solo cuestión de tiempo para que sean implementados.

rag-apps

Framework para datos

¿Y para que otro chat que responde preguntas?

(Grok-0) fue entrenado con 33 mil millones de parámetros.

Grok-1, un modelo de lenguaje de última generación que es significativamente más potente, logrando un 63,2% en la tarea de codificación HumanEval y un 73% en la tarea de codificación HumanEval.

Para crear Grok, se creó una pila de inferencia y entrenamiento personalizada basada en Kubernetes, Rust y JAX.

Acceso a información en tiempo real