Cómo correr un LLM en local gratis con Ollama

¿Cansado de depender de ChatGPT o de pagar por APIs? En este tutorial aprenderás a instalar y ejecutar modelos de lenguaje (LLMs) directamente en tu máquina Linux, sin necesidad de una GPU potente y completamente gratis. Todo gracias a Ollama. ¿Qué es Ollama? Ollama es una herramienta de código abierto que te permite descargar y ejecutar modelos de lenguaje localmente con un solo comando. Funciona como un gestor de modelos: tú eliges el modelo, Ollama lo descarga y lo ejecuta de forma optimizada en tu hardware. Lo mejor de todo es que no necesitas configurar Python, CUDA ni ningún entorno complejo. Funciona out of the box. Las ventajas principales son que es 100% privado (tus conversaciones no salen de tu máquina), no tiene límites de uso ni cuotas, funciona sin conexión a internet una vez descargado el modelo, y es compatible con CPUs normales aunque con GPU va más rápido.

Requisitos mínimos Antes de empezar, asegúrate de tener Linux (Ubuntu, Debian, Arch, Fedora... cualquier distro), al menos 8 GB de RAM para modelos pequeños de 4B parámetros, 16 GB de RAM recomendado para modelos medianos de 7B parámetros, y unos 5 a 10 GB de espacio en disco por modelo. Si tienes GPU NVIDIA o AMD, Ollama la detectará automáticamente y la usará. Si no, correrá en CPU sin problema, simplemente más lento.

Paso 1: Instalar Ollama Abre tu terminal y ejecuta este único comando: curl -fsSL https://ollama.com/install.sh | sh Este script detecta tu sistema operativo y arquitectura, descarga el binario correcto y lo instala automáticamente. Todo en menos de un minuto. Para verificar que la instalación fue correcta ejecuta ollama --version y deberías ver algo como "ollama version 0.x.x". Si es así, estás listo.

Paso 2: Descargar y ejecutar tu primer modelo Ahora viene la parte divertida. Vamos a usar Llama 3.2 de Meta, uno de los mejores modelos open source disponibles. Ejecuta: ollama run llama3.2 La primera vez que ejecutes este comando, Ollama descargará el modelo automáticamente (unos 2 GB para la versión de 3B parámetros). A partir de la segunda vez, arrancará directamente sin descargar nada. Una vez cargado, verás un prompt interactivo donde puedes escribir directamente, por ejemplo: "Hola, ¿puedes explicarme qué es un proceso zombie en Linux?" ¡Ya tienes tu propia IA local funcionando! Para salir del chat escribe /bye o pulsa Ctrl + D.

Paso 3: Otros modelos que puedes usar Ollama tiene una biblioteca enorme de modelos. Estos son los más útiles según el uso que quieras darle: Para chat general y redacción puedes usar llama3.2, que pesa unos 2 GB y necesita 8 GB de RAM. Para razonamiento y código, mistral es una excelente opción con unos 4 GB. Si lo que quieres es ayuda específica con programación, codellama está especializado en eso. Para tareas más avanzadas con 16 GB de RAM, llama3.1:8b y deepseek-r1 son opciones muy potentes. Para descargar cualquiera de ellos simplemente ejecuta ollama run seguido del nombre del modelo. Para ver todos los que tienes instalados usa ollama list, y para eliminar uno que ya no uses ejecuta ollama rm seguido del nombre.

Paso 4: Hacer preguntas rápidas sin abrir el chat A veces no quieres abrir un chat interactivo, sino simplemente hacerle una pregunta rápida al modelo desde un script. Puedes pasar la pregunta directamente como argumento: ollama run llama3.2 "Explícame qué hace el comando awk en una línea" También puedes combinarlo con otros comandos de Linux usando pipes. Por ejemplo, puedes pasarle las últimas líneas de un log del sistema y pedirle que analice si hay algo raro, o pedirle a codellama que genere un script de bash para una tarea concreta.

Paso 5: Usar la API de Ollama Ollama expone una API REST en localhost:11434 que puedes usar desde cualquier aplicación. Esto te permite integrar los modelos en tus propios proyectos con una simple petición HTTP. Lo más interesante es que esta API es compatible con el formato de OpenAI, lo que significa que puedes usar Ollama como sustituto local de la API de OpenAI en muchas aplicaciones sin cambiar apenas el código.

Consejos para mejorar el rendimiento Si notas que el modelo va lento, aquí van algunos trucos. Si tienes GPU NVIDIA, verifica que Ollama la está usando buscando el texto "using CUDA" en la salida al arrancar el modelo. Si no aparece, puede que necesites instalar los drivers de CUDA. Usar modelos cuantizados es otra opción muy efectiva. Son versiones más ligeras que ocupan menos memoria y van más rápido a cambio de una pequeña pérdida de calidad. Por ejemplo, llama3.2:1b es la versión de 1B parámetros, muy rápida y perfecta para máquinas con poca RAM.

Conclusión Con Ollama puedes tener una IA privada, gratuita y funcional en tu Linux en menos de 5 minutos. No necesitas cuenta en ningún servicio, no hay límites de uso y tus datos se quedan en tu máquina. A partir de aquí las posibilidades son enormes: integrarlo en scripts de automatización, usarlo para analizar logs, generar código o simplemente tener un asistente local para el día a día. En próximos artículos veremos cómo conectar Ollama con Open WebUI para tener una interfaz gráfica tipo ChatGPT en tu propio servidor, y cómo construir un chatbot que responda preguntas sobre tus propios documentos usando RAG.

¿Te ha resultado útil este artículo? Compártelo con alguien que también quiera liberarse de las APIs de pago. Y si tienes dudas, déjalas en los comentarios.

Cómo correr un LLM en local gratis con Ollama en Linux

IA

IA para Ciberseguridad: Cómo auditar tus scripts de Bash y detectar vulnerabilidades

More from this blog

Bash scripting: de cero a scripts útiles en Linux

Redes en Linux: domina ip, netstat, ss y las herramientas esenciales

Nextcloud: monta tu propio Google Drive privado en Linux

Git avanzado: los comandos que todo desarrollador debería conocer

Raspberry Pi: proyectos para empezar y sacarle partido desde el primer día

Command Palette

IA

IA para Ciberseguridad: Cómo auditar tus scripts de Bash y detectar vulnerabilidades

More from this blog