rag-apps

Framework para datos

Grok

Responde lo que sea!

Grok está diseñado para responder preguntas con algo de ingenio e incluso con algo de humor.

Un elemento único de Grok es que tiene conocimiento del mundo en tiempo real por que se basa en Twitter y además por que al parecer responde a preguntas que el resto de LLMs no están autorizados de responder.

¿Y para que otro chat que responde preguntas?

Según sus creadores, “En xAI queremos crear herramientas de IA que ayuden a la humanidad en su búsqueda de comprensión y conocimiento”.

Los objetivos principales son:

  • Recopilar y analizar comentarios para beneficiar a la humanidad. 
  • Potenciar la investigación y la innovación.

(Grok-0) fue entrenado con 33 mil millones de parámetros. 

Este primer modelo se acerca a las capacidades de LLaMA 2 (70B) en los puntos de referencia LM estándar, pero utiliza solo la mitad de sus recursos de capacitación. 

Grok-1, un modelo de lenguaje de última generación que es significativamente más potente, logrando un 63,2% en la tarea de codificación HumanEval y un 73% en la tarea de codificación HumanEval.

HumanEval : tarea de finalización de código Python (Chen et al. 2021)

Tabla comparativa distintos LLMs

Punto de referenciaGrok-0 (33B)Llama 2 70BInflexión-1GPT3.5Grok-1palma 2claudio 2GPT-4
GSM8k56,8%
8 tiros
56,8%
8 tiros
62,9%
8 tiros
57,1%
8 tiros
62,9%
8 tiros
80,7%
8 tiros
88,0%
8 disparos
92,0%
8 disparos
MMLU65,7%
5 tiros
68,9%
5 tiros
72,7%
5 tiros
70,0%
5 disparos
73,0%
5 tiros
78,0%
5 disparos
75,0%
5 disparos + CoT
86,4%
5 tiros
evaluación humana39,7%
0 tiros
29,9%
0 tiros
35,4%
0 tiros
48,1%
0 tiros
63,2%
0 tiros
70%
0 disparos
67%
0 tiros
MATEMÁTICAS15,7%
4 tiros
13,5%
4 tiros
16,0%
4 disparos
23,5%
4 tiros
23,9%
4 tiros
34,6%
4 tiros
42,5%
4 tiros
from xAI

Grok-1 muestra mejores resultados, que sus competidores. Solo es superado por modelos que fueron entrenados con una cantidad significativamente mayor de datos de entrenamiento y recursos informáticos como GPT-4.

Evaluación calificada por humanosGrok-0GPT3.5claudio 2Grok-1GPT-4
Examen nacional de matemáticas de secundaria de Hungría (mayo de 2023)37%
1 disparo
41%
1 disparo
55%
1 disparo
59%
1 disparo
68%
1 disparo
from xAI

Para crear Grok, se creó una pila de inferencia y entrenamiento personalizada basada en Kubernetes, Rust y JAX.

Hay innumerables formas en que fallan las GPU: defectos de fabricación, conexiones sueltas, configuración incorrecta, chips de memoria degradados, cambios aleatorios ocasionales de bits y más. Durante el entrenamiento de Grok, se sincronizaron cálculos en decenas de miles de GPU durante meses y todos estos modos de falla se vuelven frecuentes debido a la escala. Para superar estos desafíos, se empleó un conjunto de sistemas distribuidos personalizados que garantizan que cada tipo de falla se identifique de inmediato y se maneje automáticamente. 

Rust ha demostrado ser una opción ideal para construir una infraestructura escalable, confiable y mantenible. Ofrece alto rendimiento, un ecosistema rico y previene la mayoría de los errores que normalmente se encontrarían en un sistema distribuido. La confiabilidad de la infraestructura es crucial; de lo contrario, el mantenimiento protagoniza la innovación. Rust brinda la confianza de que cualquier modificación o refactorización de código probablemente producirá programas funcionales que se ejecutarán durante meses con una supervisión mínima.

Ahora se prepara un nuevo avance en las capacidades del modelo, que requerirá coordinar de manera confiable ejecuciones de capacitación en decenas de miles de aceleradores, ejecutar canales de datos a escala de Internet y crear nuevos tipos de capacidades y herramientas en Grok. Si quieres formar parte de este proceso, hay vacantes disponibles que puedes explorar aquí .

Acceso a información en tiempo real

Grok tiene acceso a herramientas de búsqueda e información en tiempo real, pero como ocurre con todos los LLM capacitados en la predicción del siguiente token, este aún puede generar información falsa o contradictoria y es por esto que la retroalimentación humana es esencial. 

Los resultados contradictorios demuestran que los optimizadores pueden explotar fácilmente las vulnerabilidades en los sistemas de inteligencia artificial, tanto durante el entrenamiento como durante el tiempo de servicio, provocando que cometan errores atroces. 

Grok por el momento no tiene otros sentidos, como la visión y el oído, pero es solo cuestión de tiempo para que sean implementados.


Publicado

en

por