Bientôt disponible Souverain UE

Meridian

Gateway d'inférence LLM privé

Visualisation abstraite du routage de requêtes à travers un gateway d'inférence privé

Meridian est un gateway d'inférence LLM auto-hébergé. Il se place entre votre application et votre flotte GPU — routant les requêtes par capacité, gérant les files de priorité, et dimensionnant les instances GPU à la demande. Un seul binaire Go avec une API compatible OpenAI. Zéro code tiers dans le chemin de données.

Les applications déclarent ce dont elles ont besoin — « raisonnement », « rapide », « contexte long » — et non quel modèle utiliser. Le gateway sélectionne le meilleur backend disponible selon la capacité, la charge, la latence et le coût. Changez de modèle ou de fournisseur sans modifier le code applicatif.

Vos modèles tournent sur vos GPU : matériel sur site ou fournisseurs cloud à siège européen (Hetzner, OVHcloud, Scaleway, Genesis Cloud). Aucun trafic d'inférence ne transite par une infrastructure sous juridiction américaine. Aucune exposition au CLOUD Act.

Meridian est la couche d'inférence derrière LumaVista, notre plateforme de recherche IA — et fonctionne tout aussi bien en gateway autonome pour toute application nécessitant une inférence LLM privée et routée.

Capacités

Routage par capacités

Les agents déclarent ce dont ils ont besoin — « raisonnement », « rapide », « contexte long » — et non quel modèle utiliser. Le gateway associe les requêtes au meilleur backend disponible selon la capacité, la charge, la latence et le coût. Changez de modèle sans modifier le code applicatif.

File de priorité à trois niveaux

Les requêtes critiques (chat en temps réel) sont servies en premier. Le travail normal (traitement en arrière-plan) suit. Les tâches batch de faible priorité comblent la capacité restante. L'équilibrage équitable pondéré avec vieillissement empêche la famine. Les niveaux d'abonnement contrôlent la concurrence, pas la priorité.

Auto-scaling de flotte GPU

Les GPU permanents gèrent le trafic régulier. Lors des pics de demande, le scaler provisionne des instances burst auprès de fournisseurs cloud UE. Les instances en refroidissement absorbent le travail batch jusqu'à l'expiration de leur heure de facturation. Les garde-fous budgétaires préviennent les dépassements de coûts.

Souveraineté complète des données

Aucun proxy tiers, aucune télémétrie externe, aucune API d'inférence qui voit vos prompts. Vos modèles tournent sur vos GPU — sur site ou chez des fournisseurs à siège européen sans exposition au CLOUD Act américain. Le gateway est un seul binaire Go que vous déployez et contrôlez.

Tableau de bord de flotte GPU

Visibilité en temps réel sur chaque instance GPU — utilisation, température, débit, taux de coût, état de santé. Interface d'administration intégrée avec profondeur de file en direct, chronologie de scaling, ventilation de facturation et usage par locataire. Configuration dynamique sans redémarrage.

Prometheus + Webhooks

Métriques Prometheus natives pour l'analytique long terme — latence des requêtes, débit de tokens, profondeur de file, utilisation GPU, suivi des coûts. Alertes webhook configurables pour Slack, PagerDuty ou tout endpoint. Seuils budgétaires, alertes de santé, notifications de scaling — le tout personnalisable à chaud.

Spécifications techniques

Langage	Go
Compatibilité API	OpenAI chat/completions (streaming + non-streaming)
Moteurs supportés	vLLM, SGLang, TensorRT-LLM, Ollama, tout moteur compatible OpenAI
Protocole	HTTP/1.1 + SSE, gRPC (prévu)
Déploiement	Bibliothèque Go intégrée, image Docker autonome, SaaS managé (prévu)
Observabilité	Métriques Prometheus, alertes webhook, tableau de bord intégré
Fournisseurs de scaling	Hetzner, OVHcloud, Scaleway, Genesis Cloud
Authentification	Clé API par locataire, mTLS entre le gateway et les backends
Config. minimale	Mono-cœur, 128 Mo RAM (gateway seul, hors moteurs d’inférence)

Modes de déploiement

Bibliothèque intégrée

Importez comme module Go. Zéro surcoût réseau. Le gateway s'exécute dans le même processus que votre application.

go get lumavista.eu/meridian

Service autonome

API compatible OpenAI. Remplacement direct de LiteLLM, OpenRouter ou tout proxy d'inférence. Une seule image Docker.

docker run meridian

SaaS managé

Nous l'opérons pour vous sur une infrastructure UE. Multi-locataire avec isolation par clé. Paiement au token plus frais de plateforme.

Bientôt disponible

Demander un accès anticipé

Nous contacter