En los últimos meses, el equipo editorial del título hermano francés de Computer Weekly, Lemagit, ha estado evaluando diferentes versiones de varios modelos de idiomas grandes descargables gratuitos (LLMS) en máquinas personales. Estas LLM actualmente incluyen Gemma 3 de Google, Meta’s Llama 3.3, Claude 3.7 Sonnet de Anthrope, varias versiones de Mistral (Mistral, Mistral Small 3.1, Mistral Nemo, Mixtral), IBM’s Granite 3.2, Qwen 2.5 de Alibaba y Deepseek R1, que es un razonamiento primario de Over Llama.
El protocolo de prueba consiste en tratar de transformar entrevistas grabadas por periodistas durante sus informes en artículos que pueden publicarse directamente en Lemagit. Lo que sigue son las experiencias del equipo de Lemagit:
Estamos evaluando la viabilidad técnica de hacerlo en una máquina personal y la calidad de la salida con los recursos disponibles. Dejemos en claro desde el principio que nunca hemos logrado que una IA funcione correctamente para nosotros. El único punto de este ejercicio es comprender las posibilidades reales de la IA basada en un caso concreto.
Nuestro protocolo de prueba es un aviso que incluye 1,500 tokens (6,000 caracteres, o dos páginas de revistas) para explicar a la IA cómo escribir un artículo, más un promedio de 11,000 tokens para la transcripción de una entrevista que dura alrededor de 45 minutos. Tal aviso generalmente es demasiado pesado para caber en la ventana gratuita de una IA en línea. Es por eso que es una buena idea descargar una IA en una máquina personal, ya que el procesamiento sigue siendo gratuito, sea cual sea su tamaño.
El protocolo se lanza desde el software LM Studio Community, que imita la interfaz de chatbot en línea en la computadora personal. LM Studio tiene una función para descargar LLM directamente. Sin embargo, todos los LLM que se pueden descargar de forma gratuita están disponibles en el sitio web de Hugging Face.
¿Cuáles son las limitaciones técnicas?
Técnicamente, la calidad del resultado depende de la cantidad de memoria utilizada por la IA. Al momento de escribir, el mejor resultado se logra con una LLM de 27 mil millones de parámetros codificados en 8 bits (Gemma de Google, en la versión “27b Q8_0”), con una ventana de contexto de 32,000 tokens y una longitud rápida de 15,000 tokens, en una Mac con SOC M1 MAX y 64 GB de RAM, con 48 GB compartido entre los procesos de procesos (ORCHETRATACIONES (ORCHETRESTACIONES (ORCHETRES (Aceleración del vector para buscar respuestas) y los núcleos NPU (aceleración de la matriz para comprender los datos de entrada).
En esta configuración, la velocidad de procesamiento es 6.82 tokens/segundo. La única forma de acelerar el procesamiento sin dañar el resultado es optar por un SOC con una frecuencia GHz más alta o con más núcleos de procesamiento.
En esta configuración, los LLM con más parámetros (32 mil millones, 70 mil millones, etc.) exceden la capacidad de memoria y ni siquiera cargan o generan resultados truncados (un artículo de un solo párrafo, por ejemplo). Con menos parámetros, usan menos memoria y la calidad de la escritura cae dramáticamente, con repeticiones e información poco clara. El uso de parámetros codificados en menos bits (3, 4, 5 o 6) acelera significativamente el procesamiento, pero también reduce la calidad de la escritura, con errores gramaticales e incluso palabras inventadas.
Finalmente, el tamaño de la ventana rápida en las fichas depende del tamaño de los datos que se suministrarán a la IA. No es negociable. Si este tamaño satura la memoria, entonces debe optar por un LLM con menos parámetros, lo que liberará a RAM en detrimento de la calidad del resultado final.
¿Qué calidad podemos esperar?
Nuestras pruebas han dado como resultado artículos que están bien escritos. Tienen un ángulo, una cronología coherente de varias secciones temáticas, citas en el lugar correcto, un titular dinámico y una oración final.
Independientemente del LLM utilizado, la IA es incapaz de priorizar correctamente los puntos discutidos durante la entrevista
Sin embargo, nunca hemos logrado obtener un artículo publicado. Independientemente del LLM utilizado, incluido Deepseek R1 y sus supuestas habilidades de razonamiento, la IA es sistemáticamente incapaz de priorizar correctamente los diversos puntos discutidos durante la entrevista. Siempre pierde el punto y a menudo genera artículos bonitos pero poco interesantes. Ocasionalmente, escribirá un discurso completo y bien argumentado para decirles a sus lectores que la compañía entrevistó … tiene competidores.
Los LLM no son iguales en el vocabulario y el estilo de escritura que eligen. Al momento de escribir este artículo, Meta’s Llama 3.x está produciendo oraciones que son difíciles de leer, mientras que Mistral y, en menor medida, Gemma tiende a escribir como agencias de marketing, utilizando adjetivos halagadores pero desprovistos de información concreta.
Sorprendentemente, el LLM que escribe más bellamente en francés dentro de los límites de la configuración de la prueba es el qwen chino. Inicialmente, la LLM más competente en nuestra plataforma de prueba fue MixTral 8x7b (con una X en lugar de una S), que combina ocho LLM temáticas, cada una con solo 7 mil millones de parámetros.
Sin embargo, las mejores opciones para ajustar Qwen y MixTral en los 48 GB de nuestra configuración de prueba son, para la primera, una versión con solo 14 mil millones de parámetros y, para los segundos, los parámetros codificados en 3 bits. El primero escribe información poco clara y poco interesante, incluso cuando se mezcla con Deepseek R1 (Deepseek R1 solo está disponible como una versión destilada de otro LLM, ya sea Qwen o Llama). Este último está plagado de errores de sintaxis.
La versión de MixTral con parámetros codificados en 4 bits ofreció un compromiso interesante, pero los desarrollos recientes en LM Studio, con una huella de memoria más grande, evitan que la IA funcione correctamente. Mixtral “8x7b Q4_K_M” ahora produce resultados truncados.
Una alternativa interesante a Mixtral es el muy reciente Mistral Small 3.1 con 24 mil millones de parámetros codificados en 8 bits, que, según nuestras pruebas, producen un resultado de una calidad bastante cercana a Gemma 3. Lo que es más, es un poco más rápido, con una velocidad de 8.65 tokens por segundo.
¿Cuáles son las posibles optimizaciones de hardware?
Según los especialistas entrevistados por Lemagit, la arquitectura de hardware es más probable que respalde el trabajo de IA generativa en una máquina personal es aquel en el que la misma RAM es accesible para todos los tipos de núcleos informáticos al mismo tiempo. En la práctica, esto significa usar una máquina basada en un procesador de sistema en chip (SOC) donde los núcleos de CPU, GPU y NPU están conectados juntos al mismo acceso físico y lógico a la RAM, con datos ubicados en las mismas direcciones para todos los circuitos.
Cuando este no es el caso, es decir, cuando la máquina personal tiene una GPU externa con su propia memoria, o cuando el procesador es realmente un SOC que integra los núcleos de CPU, GPU y NPU, pero donde cada uno tiene acceso a una parte dedicada en la RAM común, entonces las LLM necesitan más memoria para funcionar. Esto se debe a que los mismos datos deben replicarse en cada parte dedicados a los circuitos.
Por lo tanto, si bien es posible ejecutar un LLM con 27 mil millones de parámetros codificados en 8 bits en un Silicon M Mac con 48 GB de RAM compartida, utilizando los mismos criterios de evaluación, tendríamos que conformarnos con un LLM con 13 mil millones de parámetros en una PC donde un total de 48 GB de RAM estaría dividido entre 24 GB de RAM para el procesador y 24 GB de RAM para la carta de gráficos.
Esto explica el éxito inicial de Macs basados en Silicon M para ejecutar LLM localmente, ya que este chip es un SOC donde todos los circuitos se benefician del acceso a UMA (arquitectura de memoria unificada). A principios de 2025, AMD imitó esta arquitectura en su rango Ryzen Ai Max Soc. Al momento de escribir, el Core Ultra SOCS de Intel, que combinan CPU, GPU y NPU, no tienen dicho acceso de memoria unificada.
¿Cómo se escribe un buen mensaje?
Escribir el mensaje que explica cómo escribir un tipo particular de artículo es un trabajo de ingeniería. El truco para comenzar bien es darle a la IA un trabajo que ya ha sido realizado por un humano, en nuestro caso, un artículo final acompañado de una transcripción de la entrevista, y pregunte qué aviso debería haberse dado para hacer el mismo trabajo. Alrededor de cinco ejemplos muy diferentes son suficientes para determinar los puntos esenciales de la solicitud a escribir, para un tipo particular de artículo.
El truco es darle a la IA un trabajo que ya ha sido realizado por un humano y preguntar qué aviso debería haberse dado para hacer el mismo trabajo.
Sin embargo, la IA produce sistemáticamente indicaciones que son demasiado cortas, que nunca serán suficientes para escribir un artículo completo. Entonces, el trabajo es usar los leads que nos da y respaldarlos con todo el conocimiento empresarial que podemos reunir.
Tenga en cuenta que cuanto más agradablemente se escribe el aviso, menos precisamente la IA comprende lo que se dice en ciertas oraciones. Para evitar este sesgo, evite los pronombres tanto como sea posible (“él”, “esto”, “que”, etc.) y repita el sujeto cada vez (“el artículo”, “el artículo”, “el artículo” …). Esto hará que el aviso sea aún más difícil de leer para un humano, pero más efectivo para la IA.
Asegurar que la IA tenga suficiente latitud para producir contenido variado cada vez es una cuestión de prueba y error. A pesar de nuestros mejores esfuerzos, todos los artículos producidos por nuestro protocolo de prueba tienen un parecido familiar. Sería un esfuerzo sintetizar la gama completa de creatividad humana en forma de diferentes indicaciones competitivas.
La utilidad de la IA debe ponerse en perspectiva
En el marco de nuestro protocolo de prueba y en el contexto de las capacidades de IA al momento de escribir, es ilusorio pensar que una IA sería capaz de determinar por sí solo el grado de relevancia de todos los comentarios realizados durante una entrevista. Intentar que escriba un artículo relevante, por lo tanto, implica necesariamente una etapa preliminar de despojar la transcripción de la entrevista.
En la práctica, despojar la transcripción de una entrevista de todos los elementos que son innecesarios para el artículo final, sin, sin embargo, eliminar elementos de contexto que no tienen lugar en el artículo final, pero que guían la IA hacia mejores resultados, requiere que la transcripción se reescriba. Esta reescritura cuesta el tiempo humano, en beneficio del trabajo de la IA, pero no en beneficio del trabajo del periodista.
Este es un punto muy importante: a partir de ese momento, la IA deja de ahorrar el tiempo del usuario. Tal como está, usar AI significa cambiar el tiempo de trabajo de una tarea existente (escribir el primer borrador de un artículo) a una nueva tarea (preparar datos antes de entregarlo a una IA).
En segundo lugar, la descripción en 1.500 tokens del esquema a seguir al escribir un artículo solo funciona para un tipo particular de artículo. En otras palabras, debe escribir un esquema para artículos sobre una startup que propone una innovación, un esquema completamente diferente para aquellos sobre un proveedor que lanza una nueva versión de su producto, otro esquema para un jugador que establece una nueva dirección estratégica, etc. Cuantos más casos de uso haya, más tiempo tomará el trabajo de ingeniería aguas arriba.
Peor aún, hasta la fecha, nuestros experimentos solo han implicado escribir artículos basados en una sola entrevista, generalmente en conferencias de prensa, por lo que en un contexto en el que el entrevistado ya ha estructurado sus comentarios antes de entregarlos. En otras palabras, después de más de seis meses de experimentación, todavía estamos solo en la etapa más simple. Todavía no hemos podido invertir tiempo en escenarios más complejos, que sin embargo son el lote diario de la producción de Lemagit, comenzando con artículos escritos sobre la base de varias entrevistas.
La paradoja es la siguiente: para que AI alivie a un usuario de parte de su trabajo, ese usuario tiene que trabajar más. Por otro lado, en estos temas, la IA en una máquina personal está a la par con la IA pagada en línea.