AI 智慧 · MLOps · LLM 運維
🧠 xLLMOPs
完整 LLM 生命週期管理平台。多模型路由(OpenAI / Anthropic / Ollama)、Prompt 版本工作室、RAG 知識庫管理、LoRA/QLoRA 微調、Celery GPU 佇列、成本治理,29 個服務模組。
開發中
🔀 多模型路由
📚 RAG 知識庫
💰 成本治理
技術棧
FastAPINext.js 14LiteLLMMilvusCeleryRedisPrometheus
成熟度
50% · 多模型路由 + Agent 骨架完成
Prompt Studio
0 tokens
點擊「發送」查看 AI 回應...
— tokens
— ms
— cost
RAG 知識庫查詢
Milvus 向量資料庫 · text-embedding-ada-002 · cosine similarity
🔧
LoRA / QLoRA 微調
此功能正在開發中,預計 Q3 上線。支援 LoRA、QLoRA、資料集版本控制、GPU 佇列管理。
開發中
🔀
多模型路由
基於延遲、成本、準確度動態路由,Fallback 主模型失敗自動降級。
✍️
Prompt 版本工作室
Prompt 版本控制、A/B 測試、評分、發佈,支援多模型並行比較。
📚
RAG 知識庫
支援 Milvus、pgvector、Qdrant、Weaviate、Pinecone 等多向量 DB,Metadata 過濾。
💰
成本治理
按請求/用戶/月份預算追蹤,超額告警,模型切換節省成本建議。
🔧
LoRA/QLoRA 微調
低秩調適、量化調適,資料集版本控制,Celery GPU 佇列,訓練指標監控。
📊
Observability
Prometheus + Grafana 指標、Jaeger 分散式追蹤、Flower Celery 監控。
┌─── 前端層 (Next.js 14 + TypeScript) ──────────────────┐
│ 模型管理 / Prompt Studio / RAG / 訓練 / 監控 │
└──────────────────────┬────────────────────────────────┘
│
┌──────────────────────▼──────────────────────────────────┐
│ FastAPI 後端(29 個服務模組) │
│ /api/agents · /api/knowledge · /api/llm │
│ /api/workflow · /api/training · /api/monitor │
│ /api/document · /api/ocr · /api/mcp │
└──────┬───────┬──────┬────────┬──────┬───────────────────┘
▼ ▼ ▼ ▼ ▼
LiteLLM Milvus Redis Celery PostgreSQL
(路由) (向量DB)(快取) (Worker) (元資料)
│
OpenAI · Anthropic · Ollama · vLLM (本地)
已完成
基礎平台
✅ 29 個服務模組骨架✅ 多模型路由✅ Agent 系統✅ Docker Compose
進行中
核心功能
🔄 完整 RAG 管道🔄 LoRA 微調引擎🔄 監控儀表板
待開發
進階功能
⏳ AI 模型評估⏳ 成本最佳化⏳ 資源市集