Deepseek R1 no es el mejor, es mucho mas que eso

Indice

DeepSeek R1, desarrollado por un laboratorio chino con menos de 200 empleados, ha irrumpido en el mundo de la inteligencia artificial como un símbolo de eficiencia y accesibilidad. Aunque no es el modelo más avanzado ademas no es multimodal —a diferencia de gigantes como GPT‑4 de OpenAI o Gemini—, su capacidad para competir en tareas de razonamiento y codificación a una fracción del costo (se estima en unos 5,6 millones de dólares de entrenamiento frente a cientos de millones para otros modelos) está redefiniendo el futuro de la IA. Este artículo explora cómo DeepSeek R1 combina innovaciones técnicas y métodos de ingeniería de vanguardia para desafiar el dominio de Silicon Valley y democratizar la IA.

¿Qué es DeepSeek R1 y por qué destaca?

DeepSeek R1 es un modelo de lenguaje basado en transformadores, diseñado para procesar texto con una arquitectura que cuenta con 671.000 millones de parámetros. Y no es como muchos dicen que es el mejor modelo sino que esta a la par que otros como o1 de OpenAI, como podemos ver en esta comparativa.

Su fortaleza reside en su eficiencia y rendimiento en tareas de razonamiento y codificación, logrando resultados comparables a los de modelos mucho más grandes con una inversión significativamente menor y en hacer su modelo open source. Su entrenamiento se basa en métodos innovadores de ingeniería y en un aprendizaje por refuerzo sin supervisión previa (RL sin SFT), demostrando que la calidad no siempre requiere inversiones exorbitantes.

Deepseek R1 a nivel empresarial, académico y geopolítico

DeepSeek ha irrumpido con fuerza en el panorama de la inteligencia artificial (IA), generando repercusiones significativas tanto a nivel empresarial, académico como geopolítico.

Impacto empresarial:

Reducción de costos y democratización de la IA: DeepSeek ha demostrado que es posible desarrollar modelos de IA avanzados con inversiones significativamente menores, utilizando hardware menos potente y optimizando los procesos de entrenamiento. Esto ha reducido las barreras de entrada para empresas y desarrolladores independientes, permitiendo un acceso más amplio a tecnologías de IA de alto rendimiento.
Reconfiguración del mercado tecnológico: La eficiencia y el rendimiento del modelo R1 de DeepSeek han desafiado a gigantes tecnológicos establecidos, provocando ajustes en sus estrategias y modelos de negocio. Empresas como Nvidia han experimentado caídas en su valor de mercado debido a la competencia emergente de DeepSeek.

Impacto académico:

Acceso a tecnología avanzada: DeepSeek ha permitido a instituciones académicas acceder a modelos de IA de vanguardia sin necesidad de grandes inversiones en infraestructura. Esto ha facilitado la investigación y el desarrollo de nuevas aplicaciones de IA en diversas disciplinas académicas.
Fomento de la colaboración: La naturaleza de código abierto de DeepSeek ha promovido la colaboración entre investigadores y estudiantes, permitiendo la creación de proyectos conjuntos y el intercambio de conocimientos en el ámbito de la IA.

Repercusiones geopolíticas:

Desafío al dominio tecnológico occidental: El éxito de DeepSeek, a pesar de las restricciones impuestas por Estados Unidos sobre la exportación de chips avanzados a China, ha cuestionado la eficacia de estas sanciones y ha evidenciado la capacidad de innovación independiente de China en el sector de la IA.
Respuesta estratégica de Estados Unidos: La aparición de DeepSeek ha sido considerada un "momento Sputnik" para la IA estadounidense, llevando al gobierno y a las empresas a reevaluar sus políticas y estrategias para mantener su competitividad en el ámbito de la inteligencia artificial.

Desde mi punto de vista, esto será beneficioso para Europa, ya que permitirá el acceso a un modelo a la altura de los desarrollos estadounidenses, facilitando su uso e investigación. Esto contribuirá a equilibrar la balanza tecnológica a nivel internacional, reduciendo la dependencia de modelos cerrados de empresas norteamericanas y fomentando una mayor competencia en el sector.

Métodos de Ingeniería que Hacen a DeepSeek R1 Tan Eficiente

DeepSeek R1 implementa diversas técnicas avanzadas que reducen los requisitos de memoria y coste computacional, permitiendo alcanzar un alto rendimiento:

Razonamiento Autoregresivo

Generación Token por Token: Predice el siguiente token de forma secuencial, reevaluando el contexto en cada paso. Por ejemplo, si está escribiendo una explicación sobre física, ajusta el lenguaje según el nivel del usuario.
Iteración con Retroalimentación: En tareas complejas (ej: resolver un problema matemático), el modelo puede "pensar en voz alta" mediante cadenas de razonamiento (chain-of-thought prompting), generando pasos intermedios antes de la respuesta final.

Arquitectura MOE

Eficiencia computacional: Aunque el modelo puede tener un gran número total de parámetros, solo se utiliza una fracción de ellos en cada inferencia, reduciendo significativamente los requisitos computacionales.
Escalabilidad: Permite crear modelos mucho más grandes sin un aumento proporcional en los costos de inferencia.
Especialización: Los expertos pueden desarrollar capacidades específicas, mejorando el rendimiento en diferentes dominios o tareas.

Uso de Punto Flotante de 8 Bits

Menor uso de memoria: Utilizar números de 8 bits en lugar de 16 bits reduce el espacio ocupado en memoria, facilitando su ejecución en hardware más modesto.
Mayor velocidad: Las operaciones con números de 8 bits son más rápidas, acelerando el entrenamiento y la inferencia.
Eficiencia energética: La menor precisión conlleva un menor consumo de energía, lo cual es crucial para aplicaciones en dispositivos móviles y edge computing.

Optimización de la Atención

Cacheo de la atención: El modelo almacena en caché cálculos de atención que se repiten, evitando la recálculo en cada iteración y reduciendo la carga computacional.
Compresión de la ventana de contexto: Aunque DeepSeek R1 tiene una ventana de contexto más reducida que otros modelos como GPT-4, ha optimizado su uso para maximizar la eficiencia sin sacrificar demasiado en rendimiento.

Refuerzo Automático sin Supervisión Humana

Aprendizaje por recompensas: DeepSeek R1 se entrena recibiendo recompensas por respuestas correctas y penalizaciones por errores, lo que le permite aprender de forma autónoma sin la necesidad de miles de horas de retroalimentación humana (RLHF).
Datos sintéticos: El modelo utiliza datos generados por otros sistemas de IA para enriquecer su entrenamiento, reduciendo costos y acelerando el proceso.

Programación en Código Máquina

Parte de estas innovaciones explican el por que la caída en bolsa de NVIDIA. Deepseek ha conseguido saltarse la limitación tecnológica y la dependencia a esta compañía.

Optimización para chips H800: A pesar de las restricciones impuestas por EE. UU., DeepSeek ha optimizado el uso de chips menos avanzados, como los H800 de Nvidia, para alcanzar un rendimiento excepcional. Esto lo consiguen con FlashMLA entre otras tecnologías.
Uso de PTX: Programar directamente en PTX (Parallel Thread Execution) permite maximizar la eficiencia del hardware, evitando las limitaciones del ecosistema CUDA.

Semana de Código Abierto

Ademas de publicar el modelo, comenzando el 24 de febrero de 2025, abrieron el código de 5 repositorios – un lanzamiento diario – no porque hayan hecho grandes afirmaciones, sino simplemente como desarrolladores compartiendo su progreso pequeño pero sincero con total transparencia.

¿Por qué? Porque cada línea compartida se convierte en un impulso colectivo que acelera el viaje. Los desbloqueos diarios comienzan pronto. No hay torres de marfil, solo pura energía de garaje e innovación impulsada por la comunidad .

Día 1 - FlashMLA

Núcleo de decodificación MLA eficiente para GPUs Hopper
Optimizado para secuencias de longitud variable, probado en producción

Repositorio de FlashMLA en GitHub
✅ Soporte BF16
✅ Caché KV paginada (tamaño de bloque 64)
⚡ Rendimiento: 3000 GB/s limitado por memoria | 580 TFLOPS BF16 limitado por computación en H800

Día 2 - DeepEP

DeepEP - la primera biblioteca de comunicación EP de código abierto para entrenamiento e inferencia de modelos MoE.

Repositorio de DeepEP en GitHub
✅ Comunicación all-to-all eficiente y optimizada
✅ Soporte tanto intranodo como internodo con NVLink y RDMA
✅ Núcleos de alto rendimiento para entrenamiento y prefilling de inferencia
✅ Núcleos de baja latencia para decodificación de inferencia
✅ Soporte nativo para despacho FP8
✅ Control flexible de recursos GPU para superposición de computación-comunicación

Día 3 - DeepGEMM

DeepGEMM - una biblioteca FP8 GEMM que soporta tanto GEMMs densos como MoE, impulsando el entrenamiento e inferencia de V3/R1.

Repositorio de DeepGEMM en GitHub
⚡ Hasta 1350+ TFLOPS FP8 en GPUs Hopper
✅ Sin dependencias pesadas, tan limpio como un tutorial
✅ Compilado completamente Just-In-Time
✅ Lógica central en ~300 líneas - aún supera a los núcleos ajustados por expertos en la mayoría de los tamaños de matriz
✅ Soporta diseño denso y dos diseños MoE

Día 4 - Estrategias de Paralelismo Optimizadas

✅ DualPipe - un algoritmo de paralelismo de tubería bidireccional para superposición de computación-comunicación en el entrenamiento de V3/R1.
Repositorio en GitHub

✅ EPLB - un balanceador de carga experto-paralelo para V3/R1.
Repositorio en GitHub

Analiza la superposición de computación-comunicación en V3/R1.
Repositorio en GitHub

Día 5 - 3FS, Propulsor para Todo el Acceso a Datos de DeepSeek

Sistema de Archivos Fire-Flyer (3FS) - un sistema de archivos paralelo que utiliza el ancho de banda completo de los SSDs modernos y las redes RDMA.

⚡ 6.6 TiB/s de rendimiento agregado de lectura en un clúster de 180 nodos
⚡ 3.66 TiB/min de rendimiento en el benchmark GraySort en un clúster de 25 nodos
⚡ 40+ GiB/s de rendimiento máximo por nodo cliente para búsqueda en KVCache
Arquitectura disgregada con semántica de consistencia fuerte

3FS → Repositorio en GitHub
⛲ Smallpond - marco de procesamiento de datos en 3FS → Repositorio en GitHub

Día 6 - Una cosa más: Visión general del sistema de inferencia DeepSeek-V3/R1

Rendimiento y latencia optimizados mediante:
Escalado de lotes impulsado por EP entre nodos
Superposición de computación-comunicación
⚖️ Balanceo de carga

Datos de producción de los servicios en línea de V3/R1:
⚡ 73.7k/14.8k tokens de entrada/salida por segundo por nodo H800
Margen de beneficio de costos 545%

Inmersión profunda: Día 6 - Una cosa más: Visión general del sistema de inferencia DeepSeek-V3/R1

Documento de Infraestructura de IA 2024 (SC24)

Fire-Flyer AI-HPC: Un diseño conjunto de software-hardware rentable para aprendizaje profundo

Enlace al documento
Enlace al documento en Arxiv

Detalles del modelo principal Modelo Principal

Tamaño y Capacidad:
DeepSeek R1, en su versión completa, cuenta con 671.000 millones de parámetros. Este nivel de complejidad le otorga un poder de razonamiento y procesamiento muy superior al de las versiones reducidas.
Requisitos de Hardware:
Para ejecutar el modelo principal se requiere una infraestructura de hardware de alto rendimiento. Basándonos en la información de Geeky Gadgets, las recomendaciones incluyen:
- GPUs de Alta Gama:
  Se necesita un sistema compuesto por múltiples GPUs de alto nivel, como por ejemplo:
  - NVIDIA RTX A6000: Se recomienda un sistema con 10 GPUs, cada una con 48 GB de VRAM, lo que suma aproximadamente 480 GB de VRAM en total.
  - O alternativamente, un sistema con 20 NVIDIA RTX 4090, cada una con 24 GB de VRAM.
- CPU y Memoria RAM:
  Un procesador multinúcleo potente y, al menos, 256 GB de RAM son necesarios para gestionar las operaciones y la comunicación entre las GPUs.
- Almacenamiento:
  Se requiere un almacenamiento SSD de alta velocidad, con una capacidad mínima de 1 TB, para alojar el modelo y los datos asociados.
Estas especificaciones son típicamente alcanzadas en entornos empresariales o centros de datos dedicados a la IA, y no son factibles en ordenadores personales convencionales.
Enlace al Modelo Principal:
DeepSeek-R1 en Hugging Face

Detalle de Cada Modelo Destilado y sus Requisitos de Hardware

DeepSeek-R1-Distill-Qwen-1.5B

Basado en la variante Qwen2.5-Math-1.5B, este modelo destilado reduce el tamaño a 1.5 mil millones de parámetros. Está optimizado para tareas matemáticas y razonamiento básico, ofreciendo una solución muy eficiente para aplicaciones que no requieren el poder del modelo completo.

Requisitos de Hardware:

Procesamiento: Se puede ejecutar en un sistema sin necesidad de GPU dedicada; un CPU moderno (no más de 10 años de antigüedad) y al menos 8 GB de RAM son suficientes.

Uso en Ollama: Gracias a su bajo requerimiento, este modelo es ideal para ejecutarlo en PCs a través de plataformas como Ollama, que facilitan la implementación de modelos de bajo tamaño.

Enlace:
DeepSeek-R1-Distill-Qwen-1.5B

DeepSeek-R1-Distill-Qwen-7B

Con 7 mil millones de parámetros, esta versión destilada basada en Qwen2.5-Math-7B ofrece un equilibrio entre rendimiento y requerimientos de recursos. Es adecuada para tareas de razonamiento y codificación, ideal para desarrolladores que necesiten eficiencia en entornos con GPUs de gama media.

Requisitos de Hardware:

GPU: Se recomienda una GPU con al menos 8 GB de VRAM, lo que permite mejorar significativamente la velocidad de inferencia.

RAM: Un mínimo de 16 GB de RAM es adecuado para la mayoría de los entornos de desarrollo.

Uso en Ollama: Esta versión se adapta bien a PCs de alto rendimiento, y puede correr en sistemas compatibles con Ollama para aprovechar la facilidad de despliegue local.

Enlace:
DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1-Distill-Qwen-14B

Con 14 mil millones de parámetros, derivado de Qwen2.5-14B, este modelo destilado está diseñado para ofrecer una mayor capacidad de procesamiento en tareas complejas, manteniendo una infraestructura menos robusta que la del modelo principal.

Requisitos de Hardware:

GPU: Se recomienda una GPU con al menos 12 GB de VRAM (si bien 16 GB son preferibles para un rendimiento más fluido).

RAM: Se sugiere disponer de 32 GB de RAM para manejar el mayor tamaño del modelo y cargas de trabajo más intensivas.

Uso en Ollama: Con estos requerimientos, usuarios con PCs equipadas con GPUs de gama media a alta pueden ejecutar este modelo mediante Ollama.

Enlace:
DeepSeek-R1-Distill-Qwen-14B

DeepSeek-R1-Distill-Qwen-32B

Este modelo destilado, con 32 mil millones de parámetros, está dirigido a aplicaciones que requieren mayor potencia de procesamiento en tareas de razonamiento y codificación, sin llegar a los extremos del modelo principal.

Requisitos de Hardware:

GPU: Se requiere una GPU con al menos 24 GB de VRAM para lograr un rendimiento óptimo.

RAM: Se recomienda contar con al menos 64 GB de RAM para gestionar la mayor carga de datos y operaciones.

Uso en Ollama: Usuarios con sistemas de gama alta pueden ejecutar este modelo en PCs mediante Ollama, lo que permite una implementación local más sencilla y escalable.

Enlace:
DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Llama-8B

Basado en Llama-3.1-8B, este modelo destilado reduce el tamaño a 8 mil millones de parámetros y está diseñado para capturar muchas de las capacidades de razonamiento avanzadas del modelo principal, siendo adecuado para entornos con recursos moderados.

Requisitos de Hardware:

GPU: Una GPU con aproximadamente 8 GB de VRAM es suficiente para obtener un rendimiento razonable en entornos de desarrollo.

RAM: Entre 16 y 32 GB de RAM son recomendables para asegurar una ejecución fluida.

Uso en Ollama: Este modelo es especialmente apto para ejecutarse en PCs a través de Ollama, facilitando la experimentación y el desarrollo sin necesidad de hardware empresarial.

Enlace:
DeepSeek-R1-Distill-Llama-8B

DeepSeek-R1-Distill-Llama-70B

Con 70 mil millones de parámetros, esta versión destilada basada en Llama-3.3-70B-Instruct ofrece una capacidad de procesamiento considerable, acercándose a las prestaciones de modelos de mayor escala. Es ideal para aplicaciones que demandan alto rendimiento, pero que no pueden invertir en la infraestructura necesaria para el modelo completo.

Requisitos de Hardware:

GPU: Se recomienda una GPU con al menos 48 GB de VRAM. Alternativamente, se puede optar por configuraciones multi-GPU (por ejemplo, varias GPUs NVIDIA RTX A6000) para alcanzar la capacidad requerida.

RAM: Mínimo 128 GB de RAM, dada la magnitud del modelo y las operaciones simultáneas durante la inferencia.

Uso en Ollama: Debido a sus elevados requisitos, este modelo está pensado para entornos empresariales o PCs de alto rendimiento. Usuarios que cuenten con una infraestructura robusta pueden ejecutar este modelo mediante Ollama, aprovechando las capacidades avanzadas de despliegue local.

Enlace:
DeepSeek-R1-Distill-Llama-70B

Importancia para el Usuario

Las versiones destiladas de DeepSeek R1 permiten que desarrolladores, pequeñas empresas y usuarios individuales puedan experimentar y desplegar soluciones de IA sin requerir la infraestructura costosa del modelo principal. Dependiendo del tamaño del modelo y los recursos disponibles, se pueden ejecutar en PCs mediante plataformas como Ollama, que simplifican el despliegue local. Sin embargo, es fundamental recordar que, si bien estas versiones son más accesibles, no ofrecen el mismo poder de procesamiento y capacidad de razonamiento que el modelo completo de 671.000 millones de parámetros, el cual es indispensable para aplicaciones de alta exigencia.

Paper Técnico

Para profundizar en el funcionamiento y las innovaciones detrás de DeepSeek R1, la compañía ha publicado un detallado paper técnico:

Paper DeepSeek-R1:
Título: "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning"
Este documento describe el proceso de entrenamiento mediante aprendizaje por refuerzo y las optimizaciones implementadas para lograr un alto rendimiento con recursos limitados.
Enlace al paper: ArXiv: 2501.12948

FAQ

Con el fin de desmentir muchos bulos de internet, he creado esta sección de preguntas frecuentes.

¿Pero lo más caro es mejor, no?

Pues no. Deepseek ha demostrado que con una buena labor de ingeniería y mucho esfuerzo se pueden conseguir modelos a la altura de los mejores con un impacto económico y energético mucho menor.

¿Los datos que envío a Deepseek están controlados por el gobierno chino?

El chat sí, pero el modelo no. Con suficiente presupuesto, se puede tener el modelo en servidores propios. Además, ya podemos usar el modelo completo DeepSeek R1 implementado en servidores de empresas estadounidenses como Together AI, Microsoft o Perplexity, entre otros.

¿Deepseek está censurado?

Sí, sobre todo en lo que respecta a China y su política. Pero al ser un modelo Open Source, ya han surgido variantes del modelo sin censura, como el R1-1776 de Perplexity, que no tiene censura con respecto a China y mantiene la calidad.

¿Pero esto del Open Source es de hippies, no?

De vez en cuando veo a algún "cuñado" diciendo que el Open Source es de hippies.

Hace poco vi en un video que decian: "Es terrible, seguimos en el año 2025 y seguimos con la pantomima del Open Source, la panda de hippies estos fans de Linus Torvalds".

Y lo mismo tiene un teléfono Android o un Mac, cuya base del sistema operativo es Open Source. El Open Source es una tendencia en tecnología, y muchas compañías como Google, Meta, Microsoft, etc., promueven y desarrollan tecnologías Open Source. De esta forma, se nutren de la comunidad de desarrolladores independientes y de otras empresas que mejoran el software o, en este caso, el modelo.

¿Deepseek es el primer modelo Open Source?

No, el primer modelo de lenguaje grande (LLM) verdaderamente Open Source fue BLOOM (BigScience Large Open-science Open-access Multilingual Language Model), lanzado en julio de 2022 por el colectivo BigScience. Aunque, hasta la salida de Deepseek R1, Llama de Meta era el más popular.

¿Deepseek R1 es el primer modelo Open Source que se ha puesto a la altura de los modelos cerrados de OpenAI?

No. En julio de 2024, Meta presentó Llama 3.1 405B, el cual se ponía a la altura de la mayoría de los modelos del momento.

Lo que diferencia a Deepseek es haberlo conseguido con mucho menos presupuesto y muchas más limitaciones.

Si el modelo de Deepseek completo es MoE, ¿por qué consume tanta memoria RAM?

Aunque la arquitectura MoE (Mixture-of-Experts) permite que solo se active una fracción de los parámetros (por ejemplo, 37B de los 671B totales en el caso de Deepseek) en cada paso de inferencia, el modelo completo sigue siendo enorme. Esto implica que, para operar, se necesita almacenar y gestionar no solo la parte activa, sino también todo el conjunto de pesos, las activaciones intermedias y los buffers de comunicación necesarios para el paralelismo entre GPUs. Además, en implementaciones de model parallelism, cada GPU debe disponer de suficiente VRAM para alojar su segmento del modelo y soportar las operaciones de sincronización y caché de datos. En resumen, aunque MoE reduce la cantidad de cálculos por token, no elimina la necesidad de una gran capacidad de memoria para gestionar el modelo en su totalidad. En este caso, creo que Deepseek ha elegido esta arquitectura para hacer el modelo más modular.

Glosario

Entrenamiento de un modelo e inferencia

Durante el entrenamiento, un modelo de IA aprende patrones a partir de grandes cantidades de datos.
En la inferencia, el modelo aplica ese conocimiento para analizar nuevos datos y generar una salida (una respuesta, una imagen, una clasificación, etc.).

Modelo LLM destilado

Un modelo LLM destilado es una versión más pequeña y eficiente de un modelo de lenguaje grande (LLM, Large Language Model) creada mediante un proceso llamado destilación del conocimiento (knowledge distillation).

¿Cómo funciona la destilación en un LLM?

Modelo grande (Profesor): Se entrena un modelo grande y potente (el "profesor"), que suele ser costoso en cómputo.
Modelo más pequeño (Estudiante): Se entrena un modelo más pequeño (el "estudiante") para imitar el comportamiento del modelo grande.
Transferencia de conocimiento: En lugar de aprender desde cero, el modelo pequeño aprende de las salidas del modelo grande, absorbiendo sus conocimientos en una forma más compacta y eficiente.
Optimización: Se eliminan partes innecesarias del modelo y se optimiza para ejecutarse más rápido con menos recursos.

Arquitectura MOE

La arquitectura Mixture of Experts (MoE) es un enfoque innovador en el diseño de redes neuronales que combina múltiples "expertos" especializados dentro de un solo modelo. A diferencia de los modelos tradicionales donde todas las neuronas participan en cada inferencia, MoE activa selectivamente solo un subconjunto de parámetros para cada entrada.

El primer modelo de inteligencia artificial open source en implementar una arquitectura de Mixture of Experts (MoE) significativa fue Mixtral 8x7B, desarrollado por la empresa francesa Mistral AI y lanzado en diciembre de 2023. Pero hasta la salida de Deepseek no había un modelo MOE open source tan potente.

RL (Reinforcement Learning)

El Reinforcement Learning (RL) o Aprendizaje por Refuerzo es un paradigma de aprendizaje automático donde un agente aprende a tomar decisiones mediante la interacción con un entorno. La idea fundamental es que el agente aprende a través de ensayo y error, recibiendo recompensas o penalizaciones según sus acciones.

Los componentes clave del Reinforcement Learning son:

Agente: La entidad que toma decisiones y aprende.
Entorno: El mundo con el que interactúa el agente.
Estados: Las diferentes situaciones en las que puede encontrarse el agente dentro del entorno.
Acciones: Las posibles decisiones que puede tomar el agente.
Recompensas: Señales numéricas que el entorno proporciona al agente después de cada acción, indicando lo buena o mala que fue esa acción.
Política: La estrategia que sigue el agente para decidir qué acciones tomar en cada estado.

El proceso típico funciona así:

El agente observa el estado actual del entorno
Basado en ese estado, elige una acción según su política
El entorno cambia a un nuevo estado como resultado de esa acción
El agente recibe una recompensa
El agente actualiza su política para maximizar las recompensas futuras

Aplicaciones importantes incluyen:

Videojuegos (AlphaGo, que venció a campeones mundiales de Go)
Robótica (robots que aprenden a caminar o manipular objetos)
Sistemas de recomendación
Control de procesos industriales
Vehículos autónomos

SFT (Supervised Fine-Tuning)

SFT (Supervised Fine-Tuning) es un proceso donde se toma un modelo pre-entrenado y se ajusta usando ejemplos etiquetados por humanos de pares de preguntas y respuestas de alta calidad. Este paso tradicionalmente prepara al modelo para alinearse mejor con las intenciones humanas antes de aplicar RL.

RLHF (Reinforcement Learning from Human Feedback)

RLHF significa "Reinforcement Learning from Human Feedback", que en español se traduce como "Aprendizaje por Refuerzo a partir de Retroalimentación Humana".

Es una técnica utilizada en Inteligencia Artificial para entrenar modelos, como los de lenguaje, combinando aprendizaje por refuerzo con retroalimentación proporcionada por humanos. Básicamente, en lugar de depender solo de una función de recompensa predefinida, el modelo aprende a optimizar sus respuestas en función de la evaluación humana.

¿Cómo funciona RLHF?

Un modelo base es preentrenado usando grandes cantidades de datos de texto.
Los humanos evalúan respuestas generadas por el modelo, indicando cuáles son mejores.
Se entrena un modelo de recompensa, que aprende a predecir qué respuestas son preferidas por los humanos.
Se usa aprendizaje por refuerzo (normalmente Proximal Policy Optimization - PPO) para ajustar el modelo según el feedback humano.

Conclusión

DeepSeek R1 representa un avance significativo en la democratización de la inteligencia artificial, ofreciendo un modelo potente y eficiente.

El enfoque de DeepSeek en la eficiencia y la transparencia, combinado con sus innovaciones técnicas (uso de 8 bits, optimización de atención, refuerzo automático sin supervisión y programación en código máquina), demuestra que es posible alcanzar resultados de primer nivel sin inversiones multimillonarias. Esto no solo desafía el dominio de Silicon Valley, sino que también abre la puerta a un ecosistema de IA más colaborativo y accesible, donde más actores pueden innovar y competir.

Contenidos relacionados

No se ha encontrado ninguno

Deja una respuesta Cancelar la respuesta