Milvus 实战 | 基于 Kubernetes 的分布式集群部署方案
nanshan 2025-03-11 19:19 10 浏览 0 评论
Milvus 作为一款针对海量特征向量的相似度搜索引擎,在单台服务器上就可以处理十亿级数据规模。而对于百亿或者千亿级数据,则需要具有水平扩展能力的 Milvus 集群来满足对海量向量数据的高性能检索需求。
我们使用了 Mishards 中间件来搭建 Milvus 集群。Mishards 是一个用 Python 开发的 Milvus 集群分片中间件,其内部处理请求转发、读写分离和水平扩展,为用户提供内存和算力可以扩容的 Milvus 实例。详情请参阅 Mishards。https://milvus.io/cn/docs/v0.10.0/mishards.md
本文将主要介绍如何在集群内部配置 StorageClass 实现共享存储,如何使用 Helm 或 kubectl 部署 Milvus 集群,最后通过在集群外部访问 Milvus 服务测试集群。本集群包含 2 个 Milvus 实例(1 个可读实例,1 个可写实例)、1 个 MySQL 实例和 1 个 Mishards。本示例将使用两台服务器部署一个 Milvus 集群:服务器 A 配置为 Kubernetes Master 节点;服务器 B 配置为 Kubernetes Worker 节点。
以下是 Kubernetes 示例架构图:
|实现共享存储
一、为什么需要共享存储
容器中的文件在磁盘上是临时存放的,这给容器中运行的特殊应用程序带来一些问题。首先,当容器崩溃时,kubectl 将重新启动容器,容器中的文件将会丢失。其次,当在一个 Pod 中同时运行多个容器时,常常需要在这些容器之间共享文件。Kubernetes 抽象出 Volume 对象来解决这两个问题。
但是,当一个 Pod 不再存在时,Volume 也将不再存在。因此,Kubernetes 引入了 Persistent Volumes (PV)。PV 是集群中一块已经由管理员配置或使用 StorageClass 动态配置的存储。此 API 对象包含存储实现的细节,即 NFS、iSCSI 或特定于云供应商的共享存储系统。Kubernetes 通过网络访问的共享文件系统,不仅可以更加可靠地存储来保存应用产生的重要数据,还可以实现 Pod 之间数据共享。
二、部署 StorageClass
1. 为了共享数据,PV 访问模式必须被设置为 ReadOnlyMany 或 ReadWriteMany。
2. 文件存储系统的选择:
如果集群部署在 AWS,可以使用 Elastic File System (EFS)。
https://aws.amazon.com/cn/efs/
如果集群部署在 Azure,可以使用 Azure File Storage (AFS)。
https://docs.microsoft.com/en-us/azure/aks/azure-files-dynamic-pv
部署流程
1. 拉取源码:
$ git clone https://github.com/helm/charts.git
$ cd charts/stable/nfs-client-provisioner
配置文件下载完成后,需要将 values.yaml 文件中的 server 参数改为共享存储服务器的 IP 地址,将 path 参数改为共享存储目录。此外,由 StorageClass 动态创建的 PersistentVolume 将使用 mountOptions 字段指定的挂载选项。
2. 安装 NFS client chart:
$ helm install nfs-client .
NFS Client Provisioner 是用于自动创建 Kubernetes PV 的自动化插件。它可以根据已配置好的 NFS Server,自动创建 Kubernetes PV。
3. 检查部署状态:
$ helm list
4. 通过 watch 指令检查是否部署成功:
$ watch kubectl get po -l app=nfs-client-provisioner
5. 查看当前 StorageClass:
$ kubectl get storageclass
NAME PROVISIONER RECLAIMPOLICY VOLUMEBINDINGMODE ALLOWVOLUMEEXPANSION AGEnfs-client (default) cluster.local/
nfs-client-nfs-client-provisioner Delete Immediate true 5d23h
| 部署 Milvus 集群
这里将展示两种部署 Milvus 集群的方式。
- 利用 Helm 部署 Milvus
下面将演示如何利用 Milvus chart 和 Helm 包管理器在 Kubernetes 集群上部署 Milvus。
1. 拉取源码:
$ git clone -b 0.10.0 https://github.com/milvus-io/milvus-helm.git
$ cd milvus-helm
2. 部署 Milvus:
$ git clone https://github.com/milvus-io/milvus-helm.git$ cd milvus-helm$ helm install --set cluster.enabled=true --set persistence.enabled=true --set mysql.enabled=true my-release .
关于 Milvus Server 的详细参数,可参考Milvus Server Configuration。
https://github.com/milvus-io/milvus-helm/tree/0.10.0#configuration
3. 查看 Milvus 部署状态:
$ helm list
4. 查看 Pods 是否启动成功:
$ kubectl get pods
# You are expected to see the following output.
NAME
READY STATUS RESTARTS AGE
my-release-milvus-mishards-8f97db7fb-qxxgn 1/1 Running 0 12m
my-release-milvus-readonly-66784bccd6-67wcr 1/1 Running 0 12m
my-release-milvus-writable-55d7ff788b-n4zc6 1/1 Running 1 12m
my-release-mysql-8688668cd-2rj7k 1/1 Running 1 12m
nfs-client-nfs-client-provisioner-86cf7c4bc-hd7bq 1/1 Running 3 32m
如果有 Pods 未启动成功,请使用以下命令进行错误排查:
$ kubectl logs
or
$ kubectl describe pod
2. 利用 kubectl 部署 Milvus
利用 kubectl 部署应用的实质是部署 YAML 或 JSON 文件中定义的内容。因此需要利用 Go 安装 schelm 插件。通过 schelm 插件获得 manifest 文件,它们即为 Kubernetes 可以识别的 YAML 格式的资源描述。
1. 拉取源码:
$ git clone -b 0.10.0 https://github.com/milvus-io/milvus-helm.git
$ cd milvus-helm
2. 下载并解压 Go:
$ wget https://dl.google.com/go/go1.14.6.linux-amd64.tar.gz
$ sudo tar -C /usr/local -xzf go1.14.6.linux-amd64.tar.gz
3. 在 /etc/profile 或者 HOME/.profile 添加环境变量:
export PATH=$PATH:/usr/local/go/bin
以上为在 Ubuntu 安装 Go 的方法,其他系统请参考 Install the Go tools。
https://golang.org/doc/install
4. 安装 schelm 插件:
$ go get -u github.com/databus23/schelm
$ sh
sh sha224sum sha384sum shadowconfig sh.distrib shopt showconsolefont showrgb shuf
sha1sum sha256sum sha512sum shasum shift shotwell showkey shred shutdown
5. 获取 Milvus 的 manifest 文件:
$ helm install --dry-run --debug --set cluster.enabled=true --set persistence.enabled=true --set mysql.enabled=true my-release . | ~/go/bin/schelm output/
6. 将配置文件应用到 Pod:
$ cd output/milvus/
$ kubectl apply -f templates/
$ cd /charts/mysql/
$ kubectl apply -f templates/
如果出现格式转换错误,请修改对应的 YAML 文件。
7. 查看 Pods 是否启动成功:
$ kubectl get pods
| 测试
此时,Milvus 服务已成功部署到 Kubernetes 上。但是,Kubernetes 的默认服务为ClusterIP,集群内的其它应用可以访问该服务,而集群外部无法进行访问。所以,如果想在 Internet 或者生产环境中使用集群,需要更换 Service 以暴露应用。Kubernetes 的两种可以暴露服务的 Service 类型为:NodePort 和 LoadBalancer。此外可以通过 Ingress 公开从集群外部到集群内 services 的 HTTP 和 HTTPS 路由。下面将介绍如何使用 NodePort 服务在外部访问集群。
1. 修改服务方式:
$ vim values.yaml
参数修改:
将 Milvus Server Configuration 部分的 service.type 修改为 NodePort。
更多关于暴露应用的方法,请参考 Expose Your App Publicly。
https://kubernetes.io/docs/tutorials/kubernetes-basics/expose/
2. 更新 Milvus release:
$ helm upgrade --set cluster.enabled=true --set
persistence.enabled=true --set mysql.enabled=true my-release .
3. 查看端口状态:
$ kubectl get service
# You are expected to see the following output.
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
kubernetes ClusterIP 10.96.0.1 443/TCP 24h
my-release-milvus NodePort 10.99.64.80 19530:32227/TCP 30m
my-release-milvus-readonly ClusterIP 10.99.29.32 19530/TCP,19121/TCP 30m
my-release-milvus-writable ClusterIP 10.98.84.247 19530/TCP,19121/TCP 30m
my-release-mysql ClusterIP 10.97.182.37 3306/TCP 30m
4. 在集群外的服务器安装 Milvus Python SDK:
$ pip3 install pymilvus==0.2.14
5. 下载 Python 示例代码:
$ wget https://raw.githubusercontent.com/milvus-io/pymilvus/0.2.14/examples/example.py
修改其 _HOST 为集群中任意一台服务器 IP 地址,_PORT 为暴露服务的静态端口。
6. 运行示例代码:
$ python3 example.py
# You are expected to see the following output.
CollectionSchema(collection_name='example_collection_', dimension=8, index_file
......
{'partitions': [{'row_count': 10, 'segments': [{'data_size': 400, 'index_name':
Creating index: {'nlist': 2048}
(collection_name='example_collection_', index_type=, params=
Searching ...
Query result is correct
......
| 结语
本文利用两种方法轻松将 Milvus 部署到 Kubernetes 中,并通过在数据集外部访问 Milvus Server 进行了相关测试。当需要使用 Milvus 处理海量特征向量时,可以使用该分布式集群方案增强横向扩容能力,以获得更好的体验。也可自行尝试将该系统从物理机环境中无缝迁移到公有云中。
基于 Mishards 的分布式方案请参考 Mishards。
https://github.com/milvus-io/bootcamp/tree/master/solutions/Mishards
基于 Kubernetes 的分布式搭建方案请参考 Milvus Helm、K8s Bootcamp。
https://github.com/milvus-io/milvus-helm
https://github.com/milvus-io/bootcamp/tree/0.10.0/solutions/Kubernetes
相关推荐
- 使用nginx配置域名及禁止直接通过IP访问网站
-
前段时间刚搭建好这个网站,一直没有关注一个问题,那就是IP地址也可以访问我的网站,今天就专门研究了一下nginx配置问题,争取把这个问题研究透彻。1.nginx配置域名及禁止直接通过IP访问先来看n...
- 如何在 Linux 中使用 PID 号查找进程名称?
-
在Linux的复杂世界中,进程是系统运行的核心,每个进程都由一个唯一的「进程ID」(PID)标识。无论是系统管理员在排查失控进程,还是开发者在调试应用程序,知道如何将PID映射到对应的进程名称都是一项...
- Linux服务器硬件信息查询与日常运维命令总结
-
1.服务器硬件信息查询1.1CPU信息查询命令功能描述示例lscpu显示CPU架构、核心数、线程数等lscpucat/proc/cpuinfo详细CPU信息(型号、缓存、频率)cat/proc/c...
- Ubuntu 操作系统常用命令详解(ubuntu常用的50个命令)
-
UbuntuLinux是一款流行的开源操作系统,广泛应用于服务器、开发、学习等场景。命令行是Ubuntu的灵魂,也是高效、稳定管理系统的利器。本文按照各大常用领域,详细总结Ubuntu必学...
- 从 0 到 1:打造基于 Linux 的私有 API 网关平台
-
在当今微服务架构盛行的时代,API网关作为服务入口和安全屏障,其重要性日益凸显。你是否想过,不依赖商业方案,完全基于开源组件,在Linux上构建一个属于自己的私有API网关平台?今天就带你...
- Nginx搭建简单直播服务器(nginx 直播服务器搭建)
-
前言使用Nginx+Nginx-rtmp-module在Ubuntu中搭建简单的rtmp推流直播服务器。服务器环境Ubuntu16.04相关概念RTMP:RTMP协议是RealTi...
- Linux连不上网?远程卡?这篇网络管理指南你不能错过!
-
大家好!今天咱们聊个所有Linux用户都躲不开的“老大难”——网络管理。我猜你肯定遇到过这些崩溃时刻:新装的Linux系统连不上Wi-Fi,急得直拍桌子;远程服务器SSH连不上,提示“Connecti...
- 7天从0到上线!手把手教你用Python Flask打造爆款Web服务
-
一、为什么全网开发者都在疯学Flask?在当今Web开发的战场,Flask就像一把“瑞士军刀”——轻量级架构让新手3天速成,灵活扩展能力又能支撑百万级用户项目!对比Django的“重型装甲”,Flas...
- nginx配置文件详解(nginx反向代理配置详解)
-
Nginx是一个强大的免费开源的HTTP服务器和反向代理服务器。在Web开发项目中,nginx常用作为静态文件服务器处理静态文件,并负责将动态请求转发至应用服务器(如Django,Flask,et...
- 30 分钟搞定 Docker 安装与 Nginx 部署,轻松搭建高效 Web 服务
-
在云计算时代,利用容器技术快速部署应用已成为开发者必备技能。本文将手把手教你在阿里云轻量应用服务器上,通过Docker高效部署Nginx并发布静态网站,全程可视化操作,新手也能轻松上手!一、准...
- Nginx 配置实战:从摸鱼到部署,手把手教你搞定生产级配置
-
各位摸鱼搭子们!今天咱不聊代码里的NullPointerException,改聊点「摸鱼必备生存技能」——Nginx配置!先灵魂拷问一下:写了一堆接口却不会部署?服务器被恶意请求打崩过?静态资源加载...
- 如何使用 Daphne + Nginx + supervisor部署 Django
-
前言:从Django3.0开始支持ASGI应用程序运行,使Django完全具有异步功能。Django目前已经更新到5.0,对异步支持也越来越好。但是,异步功能将仅对在ASGI下运行的应用程序可用...
- Docker命令最全详解(39个最常用命令)
-
Docker是云原生的核心,也是大厂的必备技能,下面我就全面来详解Docker核心命令@mikechen本文作者:陈睿|mikechen文章来源:mikechen.cc一、Docker基本命令doc...
- ubuntu中如何查看是否已经安装了nginx
-
在Ubuntu系统中,可以通过以下几种方法检查是否已安装Nginx:方法1:使用dpkg命令(适用于Debian/Ubuntu)bashdpkg-l|grepnginx输出...
- OVN 概念与实践(德育概念的泛化在理论和实践中有什么弊端?)
-
今天我们来讲解OVN的概念和基础实践,要理解本篇博客的内容,需要前置学习:Linux网络设备-Bridge&VethPairLinux网络设备-Bridge详解OVS+Fa...
你 发表评论:
欢迎- 一周热门
-
-
UOS服务器操作系统防火墙设置(uos20关闭防火墙)
-
极空间如何无损移机,新Z4 Pro又有哪些升级?极空间Z4 Pro深度体验
-
手机如何设置与显示准确时间的详细指南
-
NAS:DS video/DS file/DS photo等群晖移动端APP远程访问的教程
-
如何在安装前及安装后修改黑群晖的Mac地址和Sn系列号
-
如何修复用户配置文件服务在 WINDOWS 上登录失败的问题
-
一加手机与电脑互传文件的便捷方法FileDash
-
日本海上自卫队的军衔制度(日本海上自卫队的军衔制度是什么)
-
10个免费文件中转服务站,分享文件简单方便,你知道几个?
-
爱折腾的特斯拉车主必看!手把手教你TESLAMATE的备份和恢复
-
- 最近发表
-
- 使用nginx配置域名及禁止直接通过IP访问网站
- 如何在 Linux 中使用 PID 号查找进程名称?
- Linux服务器硬件信息查询与日常运维命令总结
- Ubuntu 操作系统常用命令详解(ubuntu常用的50个命令)
- 从 0 到 1:打造基于 Linux 的私有 API 网关平台
- Nginx搭建简单直播服务器(nginx 直播服务器搭建)
- Linux连不上网?远程卡?这篇网络管理指南你不能错过!
- 7天从0到上线!手把手教你用Python Flask打造爆款Web服务
- nginx配置文件详解(nginx反向代理配置详解)
- 30 分钟搞定 Docker 安装与 Nginx 部署,轻松搭建高效 Web 服务
- 标签列表
-
- linux 查询端口号 (58)
- docker映射容器目录到宿主机 (66)
- 杀端口 (60)
- yum更换阿里源 (62)
- internet explorer 增强的安全配置已启用 (65)
- linux自动挂载 (56)
- 禁用selinux (55)
- sysv-rc-conf (69)
- ubuntu防火墙状态查看 (64)
- windows server 2022激活密钥 (56)
- 无法与服务器建立安全连接是什么意思 (74)
- 443/80端口被占用怎么解决 (56)
- ping无法访问目标主机怎么解决 (58)
- fdatasync (59)
- 405 not allowed (56)
- 免备案虚拟主机zxhost (55)
- linux根据pid查看进程 (60)
- dhcp工具 (62)
- mysql 1045 (57)
- 宝塔远程工具 (56)
- ssh服务器拒绝了密码 请再试一次 (56)
- ubuntu卸载docker (56)
- linux查看nginx状态 (63)
- tomcat 乱码 (76)
- 2008r2激活序列号 (65)