Skip to content
Próximamente Soberano UE

Meridian

Gateway privado de inferencia LLM

Visualización abstracta del enrutamiento de solicitudes a través de un gateway de inferencia privado

Meridian es un gateway de inferencia LLM autoalojado. Se sitúa entre tu aplicación y tu flota de GPUs — enrutando solicitudes por capacidad, gestionando colas de prioridad y escalando instancias GPU bajo demanda. Un único binario Go con una API compatible con OpenAI. Sin código de terceros en la ruta de datos.

Las aplicaciones declaran lo que necesitan — “reasoning”, “fast”, “long-context” — no qué modelo usar. El gateway resuelve el mejor backend disponible por capacidad, carga, latencia y coste. Cambia modelos o proveedores sin modificar el código de la aplicación.

Tus modelos se ejecutan en tus GPUs: hardware on-premise o proveedores cloud con sede en la UE (Hetzner, OVHcloud, Scaleway, Genesis Cloud). Ningún tráfico de inferencia pasa por infraestructura bajo jurisdicción estadounidense. Sin exposición al CLOUD Act.

Meridian es la capa de inferencia detrás de LumaVista, nuestra plataforma de investigación con IA — y funciona igualmente bien como gateway independiente para cualquier aplicación que necesite inferencia LLM privada y enrutada.

Capacidades

Enrutamiento basado en capacidades

Los agentes declaran lo que necesitan — “reasoning”, “fast”, “long-context” — no qué modelo usar. El gateway empareja las solicitudes con el mejor backend disponible por capacidad, carga, latencia y coste. Cambia modelos sin modificar el código de la aplicación.

Cola de prioridad de tres niveles

Las solicitudes críticas (chat en tiempo real) se atienden primero. El trabajo normal (procesamiento en segundo plano) le sigue. Los trabajos por lotes de baja prioridad llenan la capacidad restante. Encolamiento justo ponderado con envejecimiento para evitar inanición. Los niveles de suscripción controlan la concurrencia, no la prioridad.

Autoescalado de flota GPU

GPUs siempre activas gestionan el tráfico constante. Cuando la demanda aumenta, el escalador aprovisiona instancias adicionales de proveedores cloud de la UE. Las instancias en enfriamiento se rellenan con trabajo por lotes hasta que expira su hora de facturación. Controles de presupuesto previenen costes desbocados.

Soberanía total de datos

Sin proxy de terceros, sin telemetría externa, sin API de inferencia que vea tus prompts. Tus modelos se ejecutan en tus GPUs — on-premise o en proveedores con sede en la UE sin exposición al CLOUD Act estadounidense. El gateway es un único binario Go que tú despliegas y controlas.

Panel de flota GPU

Visibilidad en tiempo real de cada instancia GPU — utilización, temperatura, rendimiento, tasa de coste, estado de salud. Interfaz de administración integrada con profundidad de cola en vivo, línea temporal de escalado, desglose de facturación y uso por tenant. Configuración dinámica sin reinicios.

Prometheus + Webhooks

Métricas nativas de Prometheus para analítica a largo plazo — latencia de solicitudes, rendimiento de tokens, profundidad de cola, utilización GPU, seguimiento de costes. Alertas webhook configurables para Slack, PagerDuty o cualquier endpoint. Umbrales de presupuesto, alertas de salud, notificaciones de escalado — todo personalizable en tiempo de ejecución.

Especificaciones técnicas

Lenguaje Go
Compatibilidad API OpenAI chat/completions (streaming + no-streaming)
Motores compatibles vLLM, SGLang, TensorRT-LLM, Ollama, cualquier compatible con OpenAI
Protocolo HTTP/1.1 + SSE, gRPC (previsto)
Despliegue Librería Go integrada, imagen Docker independiente, SaaS gestionado (previsto)
Observabilidad Métricas Prometheus, alertas webhook, panel integrado
Proveedores de escalado Hetzner, OVHcloud, Scaleway, Genesis Cloud
Autenticación Clave API por tenant, mTLS entre gateway y backends
Requisitos mín. Un núcleo, 128 MB RAM (solo gateway, sin motores de inferencia)

Modos de despliegue

Librería integrada

Importa como módulo Go. Sin sobrecarga de red. El gateway se ejecuta en el mismo proceso junto a tu aplicación.

go get lumavista.eu/meridian

Servicio independiente

API compatible con OpenAI. Reemplazo directo de LiteLLM, OpenRouter o cualquier proxy de inferencia. Una sola imagen Docker.

docker run meridian

SaaS gestionado

Lo ejecutamos por ti en infraestructura de la UE. Multi-tenant con aislamiento por clave. Pago por token más tarifa de plataforma.

Próximamente

Solicitar acceso anticipado

Contactar