AI
Unser LLMaaS Gateway (Large Language Models as a Service) bietet hochperformanten Zugriff auf eine kuratierte Auswahl aktueller Open-Weight-Sprachmodelle. Die Inferenz läuft vollständig auf unserer in der Schweiz betriebenen GPU-Infrastruktur — Ihre Prompts, Embeddings und generierten Antworten verlassen die Schweiz nicht.
Verfügbare Modelle
Aktuell produktiv über das Gateway erreichbar:
Top Modelle
- MiniMax-M2.7
- Deepseek v3.2
- Qwen3.6-35B-A3B
- Gemma4
Weitere verfügbare Modelle
- apertus-70b
- apertus-8b
- bge-reranker
- deepseekr1-670b
- gpt-oss-120b
- kimi-k2
- inference-llama4-maverick
- inference-qwen3-vl-235b
- qwen3-embedding-4b
- qwen3-reranker-4b
- voxtral-4b-tts-2603
- whisper-large-v3-turbo
Weitere Top-Modelle befinden sich in der Evaluierungsphase und werden in kürze hinzugefügt. Alle Modelle sind nach demselben Format ansprechbar (provider/model, z.B. ew/minimax27), so dass ein Modellwechsel in der Regel ein Einzeiler bleibt.
OpenAI-kompatible API
Das Gateway exponiert eine OpenAI-kompatible REST-Schnittstelle — bestehender Code, der das OpenAI-SDK (Python, Node, Go, …) nutzt, kann ohne Anpassung der Anwendungslogik auf unsere Endpoints zeigen:
POST /v1/chat/completions— Chat- und Reasoning-Anfragen, inkl. Streaming und Tool-CallingPOST /v1/embeddings— Vektor-Embeddings für RAG, semantische Suche, KlassifikationPOST /v1/rerank— Re-Ranking von Suchergebnissen für höhere TrefferqualitätGET /v1/models— Liste aller aktuell verfügbaren Modelle
→ Vollständige Schnittstellenbeschreibung unter API Reference.
Virtuelle Keys & Governance
Das Gateway unterstützt Virtual Keys (Prefix sk-bf-...) für feingranulare Zugriffskontrolle, Modell-Routing und Verbrauchsverfolgung pro Team, Projekt oder Anwendungsfall. Das Self-Service-Management der virtuellen Keys wird in Kürze im Cloud Service Portal verfügbar sein — bis dahin werden Keys auf Anfrage durch unseren Support ausgestellt.
Typische Anwendungsfälle
- RAG-Pipelines — Dokumentensuche mit Embeddings + Rerank, kontextbasierte Antwortgenerierung
- Code-Assistenz — interne Entwicklerwerkzeuge, Code-Review und Refactoring-Vorschläge
- Klassifikation & Extraktion — strukturierte Datenextraktion aus E-Mails, Berichten, Tickets
- Agenten & Automatisierung — Tool-Calling-fähige Workflows mit kontrollierten Schreibrechten
- Mehrsprachige Inhalte — Übersetzung und Lokalisierung mit Fokus auf DACH-Sprachräume
Early Adopter Access
Möchten Sie LLMaaS bereits jetzt für interne Pilotprojekte evaluieren? Das Gateway wird aktuell schrittweise für ausgewählte Early Adopter geöffnet.
Zugang anfragen
Wenden Sie sich an unseren Support, um Zugangsdaten, einen API-Key sowie passende Modellempfehlungen für Ihren Anwendungsfall zu erhalten.