KubeDB 面试题

30 道题

分类: Kubernetes
子分类: db
题目数: 30 道

已阅读 0 / 30 题

1 KubeDB 的整体架构与核心 CRD 体系是什么？

答案：

KubeDB 是 ByteBuilders（原 AppsCode 团队，2023 年重组为 ByteBuilders）维护的 Kubernetes Operator，以声明式 API 管理生产级数据库实例。其架构由 Operator 控制器层和 CRD 资源层构成，通过统一抽象覆盖 MySQL、PostgreSQL、MongoDB、Redis、Elasticsearch 等多种数据库引擎。

架构组件

组件	职责
KubeDB Operator	核心控制器，监听 CRD 变更并协调数据库生命周期
Sidecar Controller	管理 Sidecar 容器注入（监控 Exporter、备份工具、TLS 证书）
Mutating Webhook	准入时注入默认值、校验配置、设置安全上下文
Validating Webhook	准入时校验 CRD 字段合法性，拒绝非法配置
Stash Operator	独立 Operator，负责数据库备份与恢复编排
KubeVault Operator	集成 HashiCorp Vault，管理数据库凭据和 TLS 证书
Prometheus Exporter	内置数据库指标暴露 Sidecar（mysqld_exporter / postgres_exporter 等）

核心 CRD 层次

KubeDB 核心 CRD:
├── 数据库实例 CRD（引擎特定）
│   ├── MySQL (mysqls.kubedb.com)
│   ├── PostgreSQL (postgreses.kubedb.com)
│   ├── MongoDB (mongodbs.kubedb.com)
│   ├── Redis (redises.kubedb.com)
│   ├── Elasticsearch (elasticsearches.kubedb.com)
│   ├── MariaDB (mariadbs.kubedb.com)
│   └── ProxySQL (proxysqls.kubedb.com) / PgBouncer (pgbouncers.kubedb.com)
├── 版本管理
│   └── Version (mysqlversions / pgversions / mongodbversions ...)
├── Schema 管理
│   └── Schema (mysqlschemas / pgschemas / ...)
│   └── Database (mysqldatabases / pgdatabases / ...)
├── 备份与恢复
│   └── BackupConfiguration
│   └── BackupSession（Stash CRD）
├── 配置管理
│   └── ConfigMap / Secret 注入
├── 连接池代理
│   └── ProxySQL / PgBouncer
└── 外部数据库导入
    └── ExternalDB（引用非 KubeDB 管理的现有数据库）

KubeDB MySQL CRD 示例

apiVersion: kubedb.com/v1alpha2  # 实际 KubeDB 常用 v1alpha2（部分 CRD 已升 v1）
kind: MySQL
metadata:
  name: my-cluster
  namespace: prod
spec:
  version: "8.0.36"
  replicas: 3
  topology:
    mode: GroupReplication
    group:
      name: "dc1"
  storageType: Durable
  storage:
    storageClassName: gp3
    accessModes: [ReadWriteOnce]
    resources:
      requests:
        storage: 100Gi
  podTemplate:
    spec:
      resources:
        requests:
          cpu: 4
          memory: 8Gi
  monitor:
    agent: prometheus.io/operator
    prometheus:
      serviceMonitor:
        labels:
          release: kube-prometheus-stack
  deletionPolicy: Halt

2 KubeDB 对 MySQL 的 Standalone / Group Replication / InnoDB Cluster 支持有何差异？

答案：

KubeDB 支持三种 MySQL 部署拓扑：Standalone（单实例）、Group Replication（组复制）和 InnoDB Cluster（组复制 + MySQL Router），覆盖开发测试到生产高可用场景。

三种拓扑对比

维度	Standalone	Group Replication	InnoDB Cluster
节点数	1	3+（奇数推荐）	3+（奇数推荐）
高可用	无，依赖 PVC 重建	自动故障转移	自动故障转移 + 读写分离
数据一致性	单点	多数派 Paxos（Single-Primary）	多数派 Paxos（Single-Primary）
读写分离	不支持	不支持	MySQL Router 自动路由
自动故障切换	无	内置 Group Replication 协议	MySQL Router + GR
适用场景	开发/测试	生产高可用写入	生产读写分离高并发
管理 CRD	MySQL spec.topology.mode: standalone	spec.topology.mode: GroupReplication	spec.topology.mode: InnoDBCluster

Group Replication 拓扑配置

apiVersion: kubedb.com/v1alpha2  # 实际 KubeDB 常用 v1alpha2（部分 CRD 已升 v1）
kind: MySQL
metadata:
  name: prod-mysql-gr
spec:
  version: "8.0.36"
  replicas: 3
  topology:
    mode: GroupReplication
    group:
      name: "dc1-gr"
  podTemplate:
    spec:
      containers:
        - name: mysql
          resources:
            requests:
              cpu: 4
              memory: 8Gi
            limits:
              cpu: 8
              memory: 16Gi
  storageType: Durable
  storage:
    storageClassName: gp3
    accessModes: [ReadWriteOnce]
    resources:
      requests:
        storage: 500Gi

InnoDB Cluster 拓扑配置

spec:
  topology:
    mode: InnoDBCluster
    innoDBCluster:
      router:
        replicas: 2

Group Replication 通过 MySQL 原生组复制协议实现，基于 Paxos 达成多数派共识。InnoDB Cluster 在 Group Replication 之上叠加 MySQL Router，Router 感知集群拓扑变化，自动将写流量路由到 Primary 节点、读流量分发到 Secondary 节点。

3 KubeDB 对 PostgreSQL 的 Standalone / Streaming Replication 支持如何实现？

答案：

KubeDB PostgreSQL 支持 Standalone 单实例和 Streaming Replication 流复制两种模式，通过原生 WAL 日志传输实现主备数据同步。

Standalone 与 Streaming Replication 对比

维度	Standalone	Streaming Replication
节点数	1	2+（1 Primary + N Standby）
高可用	无	手动 Failover（Promote）
数据同步	无	异步 / 同步流复制
读写分离	不支持	Standby 只读
故障恢复延迟	依赖备份恢复	Standby 热备，秒级切换
适用场景	开发/测试/批处理	生产读写分离 / 灾难恢复

Streaming Replication 配置

apiVersion: kubedb.com/v1
kind: PostgreSQL
metadata:
  name: prod-pg
spec:
  version: "16.2"
  replicas: 3
  standbyMode: Hot
  streamingMode: synchronous
  authMode: md5
  podTemplate:
    spec:
      containers:
        - name: postgres
          resources:
            requests:
              cpu: 4
              memory: 8Gi
            limits:
              cpu: 8
              memory: 16Gi
  storageType: Durable
  storage:
    storageClassName: gp3
    accessModes: [ReadWriteOnce]
    resources:
      requests:
        storage: 200Gi
  monitor:
    agent: prometheus.io/operator

关键参数说明

参数	说明
standbyMode: Hot	Standby 节点允许只读查询
standbyMode: Warm	Standby 节点仅接收 WAL，不接受查询
streamingMode: synchronous	主库事务提交需等待备库确认
streamingMode: asynchronous	主库不等待备库确认

KubeDB 通过 Kubernetes Service 暴露 Primary 节点写入端点（<name>）和 Standby 只读端点（<name>-replicas），应用层可直接访问区分读写流量。

4 KubeDB 对 MongoDB 的 Standalone / ReplicaSet / Sharded Cluster 支持有何区别？

答案：

KubeDB MongoDB 支持三种部署模式：Standalone（开发测试）、ReplicaSet（小型生产高可用）、Sharded Cluster（大规模水平扩展），覆盖从单实例到分片集群的完整场景。

三种模式对比

维度	Standalone	ReplicaSet	Sharded Cluster
节点组成	1 个 mongod	N 个 mongod（1 Primary + N-1 Secondary）	configsvr RS + shard RS × N + mongos × N
高可用	无	自动 Failover（Raft 选举）	每层独立 Failover
数据分片	不支持	不支持	基于 Shard Key 水平分片
扩展性	无	读扩展（Secondary 分担读）	读写均水平扩展
最小节点数	1	3	9（configsvr×3 + shard×3 + mongos×3）
适用场景	开发/本地测试	中小规模生产	大规模生产 / 大数据量

ReplicaSet 配置

apiVersion: kubedb.com/v1
kind: MongoDB
metadata:
  name: prod-mongo-rs
spec:
  version: "7.0.8"
  replicas: 5
  replicaSet:
    name: rs0
  podTemplate:
    spec:
      resources:
        requests:
          cpu: 4
          memory: 8Gi
        limits:
          cpu: 8
          memory: 16Gi
  storageType: Durable
  storage:
    storageClassName: gp3
    accessModes: [ReadWriteOnce]
    resources:
      requests:
        storage: 500Gi

Sharded Cluster 配置

apiVersion: kubedb.com/v1
kind: MongoDB
metadata:
  name: prod-mongo-sharded
spec:
  version: "7.0.8"
  shardTopology:
    configServer:
      replicas: 3
      storage:
        storageClassName: gp3
        resources:
          requests:
            storage: 50Gi
    mongos:
      replicas: 2
    shard:
      replicas: 3
      shards: 2
      storage:
        storageClassName: gp3
        resources:
          requests:
            storage: 500Gi

MongoDB Sharded Cluster 架构

graph TD
    Mongos["mongos x 2
(请求路由层，无状态)"]
    ConfigSvr["Config Server RS
(x3)
集群元数据"]
    Shard0["Shard-0 RS (x3)
数据分片 0"]
    Shard1["Shard-1 RS (x3)
数据分片 1"]

    Mongos --> ConfigSvr
    Mongos --> Shard0
    Mongos --> Shard1

5 KubeDB 对 Redis 的 Standalone / Cluster / Sentinel 三种模式如何实现？

答案：

KubeDB Redis 支持 Standalone（单实例）、Cluster（分片集群）和 Sentinel（哨兵高可用）三种模式，覆盖缓存、会话存储、消息队列等场景。

三种模式对比

维度	Standalone	Cluster	Sentinel
节点组成	1 个 Redis	6+（3 Master + 3 Slave 最小）	3+ Sentinel + 1 Master + N Slave
高可用	无	内置自动 Failover	Sentinel 自动故障转移
数据分片	不支持	Hash Slot 自动分片（16384 slots）	不支持
水平扩展	不支持	在线增删节点，Slot 迁移	不支持
故障检测	无	节点间 Gossip 协议	Sentinel 多节点共识
适用场景	开发测试 / 本地缓存	大规模生产 / 超大数据集	中小规模高可用缓存

Standalone 配置

apiVersion: kubedb.com/v1
kind: Redis
metadata:
  name: cache-redis
spec:
  version: "7.2.4"
  mode: Standalone
  storageType: Durable
  storage:
    storageClassName: gp3
    accessModes: [ReadWriteOnce]
    resources:
      requests:
        storage: 20Gi

Cluster 模式配置

apiVersion: kubedb.com/v1
kind: Redis
metadata:
  name: redis-cluster
spec:
  version: "7.2.4"
  mode: Cluster
  cluster:
    master: 3
    replicas: 1
  storageType: Durable
  storage:
    storageClassName: gp3
    accessModes: [ReadWriteOnce]
    resources:
      requests:
        storage: 100Gi
  podTemplate:
    spec:
      resources:
        requests:
          cpu: 2
          memory: 4Gi

Sentinel 模式配置

KubeDB 通过独立的 RedisSentinel 资源管理 Sentinel 集群，再通过 Redis CR 中的 sentinelRef 引用。Sentinel 集群本身是无状态部署，不存储数据。

apiVersion: kubedb.com/v1
kind: RedisSentinel
metadata:
  name: redis-sentinel
  namespace: prod
spec:
  version: "7.2.4"
  replicas: 3
  podTemplate:
    spec:
      resources:
        requests:
          cpu: 200m
          memory: 256Mi
apiVersion: kubedb.com/v1
kind: Redis
metadata:
  name: redis-ha
spec:
  version: "7.2.4"
  mode: Sentinel
  replicas: 3
  sentinelRef:
    name: redis-sentinel
    namespace: prod

6 KubeDB 对 Elasticsearch 的支持包含哪些功能？

答案：

KubeDB Elasticsearch 支持从单节点到多节点集群的完整部署，涵盖数据节点（Data）、主节点（Master）、协调节点（Ingest / Coordinating）的角色分离，以及内置的备份恢复和监控集成。

Elasticsearch 节点角色

角色类型	职责	资源需求
Master	集群管理、索引创建、分片分配	CPU 2+ core, Memory 4Gi+
Data（Hot）	热数据存储与检索（SSD）	CPU 8+ core, Memory 32Gi+
Data（Warm）	温数据归档存储（HDD）	CPU 4+ core, Memory 16Gi+
Data（Cold）	冷数据低成本存储	CPU 2+ core, Memory 8Gi+
Ingest	预处理管道，数据写入前处理	CPU 4+ core, Memory 8Gi+
Coordinating	查询分发与结果聚合	CPU 4+ core, Memory 8Gi+

Elasticsearch 集群配置

apiVersion: kubedb.com/v1
kind: Elasticsearch
metadata:
  name: es-prod-cluster
spec:
  version: "8.12.2"
  tls:
    issuerRef:
      apiGroup: cert-manager.io
      kind: Issuer
      name: es-ca-issuer
  topology:
    master:
      replicas: 3
      storage:
        storageClassName: gp3
        accessModes: [ReadWriteOnce]
        resources:
          requests:
            storage: 20Gi
    dataHot:
      replicas: 6
      storage:
        storageClassName: gp3
        accessModes: [ReadWriteOnce]
        resources:
          requests:
            storage: 1Ti
    dataWarm:
      replicas: 3
      storage:
        storageClassName: st1
        accessModes: [ReadWriteOnce]
        resources:
          requests:
            storage: 2Ti
    ingest:
      replicas: 2
      storage:
        storageClassName: gp3
        accessModes: [ReadWriteOnce]
        resources:
          requests:
            storage: 20Gi
  podTemplate:
    spec:
      resources:
        requests:
          cpu: 8
          memory: 32Gi

7 KubeDB 的数据库生命周期管理（Provisioning -> Scaling -> Upgrading -> Backup -> Restore -> Deletion）各阶段如何实现？

答案：

KubeDB 通过声明式 API 管理数据库全生命周期，每个阶段对应 CRD 字段变更或独立 CRD 操作。

生命周期阶段

graph TD
    PROV["Provisioning（创建）
创建 CR 实例
Operator 创建 StatefulSet + PVC + Service"]
    SCALE["Scaling（扩缩容）
修改 replicas / storage 字段
Operator 调整 StatefulSet 副本数或 PV 容量"]
    UPGR["Upgrading（升级）
修改 version 字段
Operator 滚动更新各 Pod，按顺序完成数据迁移"]
    BACKUP["Backup（备份）
创建 BackupConfiguration
Stash 执行备份"]
    RESTORE["Restore（恢复）
创建新 CR 实例
引用 BackupSession，Stash 恢复数据"]
    DELETE["Deletion（删除）
删除 CR 实例
TerminationPolicy 控制 PVC 清理策略"]

    PROV --> SCALE
    PROV --> UPGR
    PROV --> BACKUP
    PROV --> RESTORE
    PROV --> DELETE

Provisioning 阶段

Operator 收到 MySQL CR 创建事件后：生成 StatefulSet（命名 <name>）-> 创建 Headless Service（<name>, <name>-pods 等）-> 创建 PVC 并绑定 PV -> Pod 启动 -> Init Container 执行初始化（init script / restore snapshot）-> Sidecar 注入（metrics exporter / TLS）-> Status.Phase 变为 Ready。

Scaling 阶段

Vertical Scaling：修改 spec.podTemplate.spec.resources，Operator 执行 StatefulSet RollingUpdate
Horizontal Scaling：修改 spec.replicas（MySQL GR / MongoDB RS / Redis Cluster），Operator 追加或缩减节点
Storage Scaling：修改 spec.storage.resources.requests.storage，Operator 通过 PVC 扩容实现（需 StorageClass 支持 allowVolumeExpansion: true）

8 KubeDB 与 Stash 的备份恢复集成是如何实现的？

答案：

KubeDB 通过 Stash Operator 实现数据库备份与恢复，数据库 CR 中声明 BackupConfiguration，Stash 负责执行备份策略（CronJob）和恢复流程。

备份架构

sequenceDiagram
    participant MC as KubeDB MySQL CR
    participant SC as Stash CRD
    MC->>SC: spec.backupConfig
    Note over SC: BackupConfiguration
    SC->>SC: schedule + retentionPolicy + repository
    MC->>SC: spec.init.restore
    Note over SC: BackupSession（每次备份执行）
    Note over SC: 快照信息 + 状态
    Note over SC: RestoreSession（恢复执行）
    Note over SC: 目标 + 数据源
    Note over SC: Repository（后端存储）
    Note right of SC: S3 / GCS / Azure / NFS / PVC

BackupConfiguration 配置

apiVersion: kubedb.com/v1alpha2  # 实际 KubeDB 常用 v1alpha2（部分 CRD 已升 v1）
kind: MySQL
metadata:
  name: prod-mysql
spec:
  version: "8.0.36"
  replicas: 3
  topology:
    mode: GroupReplication
  backupConfig:
    schedule: "0 2 * * *"
    retentionPolicy:
      name: keep-last-7
      keepLast: 7
      prune: true
    repository:
      name: s3-backup-repo

Stash Repository 配置

apiVersion: stash.appscode.com/v1alpha1
kind: Repository
metadata:
  name: s3-backup-repo
spec:
  backend:
    s3:
      endpoint: s3.amazonaws.com
      bucket: kubedb-backups
      region: us-east-1
      prefix: mysql/prod-mysql
    storageSecretName: s3-credentials

从备份恢复新实例

apiVersion: kubedb.com/v1alpha2  # 实际 KubeDB 常用 v1alpha2（部分 CRD 已升 v1）
kind: MySQL
metadata:
  name: mysql-restored
spec:
  version: "8.0.36"
  init:
    archiver:
      encryptionSecret:
        name: encrypt-secret
    restore:
      repository:
        name: s3-backup-repo
        namespace: prod
      snapshot: prod-mysql-daily-20250101

备份与恢复流程

备份流程:
  1. BackupConfiguration CronJob 触发
  2. Stash 创建 BackupSession
  3. Sidecar 执行 mysqldump / pg_dump / mongodump（逻辑备份）或文件系统快照（物理备份）
  4. 数据加密并上传至 Repository 后端
  5. BackupSession 记录快照元数据
  6. retentionPolicy 触发过期快照清理

恢复流程:
  1. 创建新 MySQL CR，指定 init.restore.snapshot
  2. Init Container 从 Repository 拉取快照数据
  3. 数据解密并导入数据库
  4. Operator 启动主容器
  5. Status.Phase 变为 Ready

9 KubeDB 如何实现自动 TLS/SSL 证书管理？

答案：

KubeDB 通过 cert-manager 集成实现数据库 TLS/SSL 证书的自动签发、续期和挂载，支持服务端证书和客户端证书认证。

TLS 证书管理流程

1. cert-manager Issuer / ClusterIssuer 注册
       │
2. KubeDB 创建 Certificate CR（<db-name>-client-cert / <db-name>-server-cert）
       │
3. cert-manager 通过 ACME / CA / SelfSigned 签发证书
       │
4. 证书存入 Secret（<db-name>-client-cert / <db-name>-server-cert）
       │
5. KubeDB Sidecar 将证书挂载到 Pod 指定路径
       │
6. 数据库启动时加载证书，启用 TLS
       │
7. cert-manager 到期前自动续期并滚动更新 Pod

TLS 配置

apiVersion: kubedb.com/v1alpha2  # 实际 KubeDB 常用 v1alpha2（部分 CRD 已升 v1）
kind: MySQL
metadata:
  name: tls-mysql
spec:
  version: "8.0.36"
  tls:
    issuerRef:
      apiGroup: cert-manager.io
      kind: Issuer
      name: mysql-ca-issuer
    certificates:
      - alias: server
        subject:
          organizations:
            - kubedb
        dnsNames:
          - localhost
          - tls-mysql.prod.svc
        ipAddresses:
          - "127.0.0.1"
      - alias: client
        subject:
          organizations:
            - kubedb

cert-manager Issuer 配置

apiVersion: cert-manager.io/v1
kind: Issuer
metadata:
  name: mysql-ca-issuer
  namespace: prod
spec:
  ca:
    secretName: mysql-ca-key-pair

TLS 模式对比

模式	说明	安全级别
不配置 spec.tls	明文传输，无 TLS 加密	低
spec.tls.issuerRef + certificates（仅 server）	服务端 TLS + 自签或 CA 签发，客户端无需证书	中
spec.tls.issuerRef + certificates（仅 server） + 客户端 CA 校验	服务端 TLS + 自签或 CA 签发	高
spec.tls.issuerRef + certificates（server + client）	双向 TLS（mTLS），客户端需提供证书	最高

10 KubeDB 的监控集成（Prometheus Operator + Grafana）如何配置？

答案：

KubeDB 内置各数据库引擎对应的 Prometheus Exporter Sidecar，通过 Prometheus Operator 的 ServiceMonitor / PodMonitor 自动发现目标，配合 Grafana Dashboard 实现指标可视化。

监控架构

graph TD
    subgraph Pod["KubeDB MySQL Pod"]
        MySQL["mysql
容器"]
        Exporter["mysqld_exporter (sidecar)
端口 9104"]
    end

    MySQL --> Exporter
    Exporter --> Svc["Service (metrics 端口)"]
    Svc --> SvcMonitor["ServiceMonitor
(Prometheus Operator)"]
    SvcMonitor --> Prometheus["Prometheus 抓取指标"]
    Prometheus --> Grafana["Grafana Dashboard"]

监控配置

apiVersion: kubedb.com/v1alpha2  # 实际 KubeDB 常用 v1alpha2（部分 CRD 已升 v1）
kind: MySQL
metadata:
  name: monitored-mysql
spec:
  version: "8.0.36"
  monitor:
    agent: prometheus.io/operator
    prometheus:
      serviceMonitor:
        labels:
          release: kube-prometheus-stack
        interval: 30s

各数据库 Exporter 与端口

数据库	Exporter	默认端口
MySQL	mysqld_exporter	9104
PostgreSQL	postgres_exporter	9187
MongoDB	mongodb_exporter	9216
Redis	redis_exporter	9121
Elasticsearch	elasticsearch_exporter	9108
MariaDB	mysqld_exporter	9104

常用监控指标

指标类别	MySQL	PostgreSQL	MongoDB
连接数	mysql_global_status_threads_connected	pg_stat_database_numbackends	mongodb_connections_current
QPS/TPS	mysql_global_status_questions	pg_stat_database_xact_commit	mongodb_op_counters_total
慢查询	mysql_global_status_slow_queries	pg_stat_statements	mongodb_mongod_slow_query_count
复制延迟	mysql_slave_status_seconds_behind_master	pg_stat_replication_flush_lag	mongodb_mongod_replset_member_replication_lag
缓冲池命中率	mysql_global_status_innodb_buffer_pool_read_requests	pg_stat_database_blks_hit	mongodb_wiredtiger_cache_hits
锁等待	mysql_global_status_innodb_row_lock_waits	pg_locks_waiting	mongodb_mongod_lock_queue_total

11 KubeDB 的数据库版本升级（Version CRD）如何实现？

答案：

KubeDB 通过 Version CRD 管理数据库引擎版本，升级时修改 CR 的 spec.version 字段，Operator 执行滚动更新完成版本迁移。

Version CRD 机制

MySQL CR                            MySQLVersion CR
  spec.version: "8.0.36"     ──►    metadata.name: 8.0.36
                                     spec.version: 8.0.36
                                     spec.db:
                                       image: kubedb/mysql:8.0.36
                                     spec.exporter:
                                       image: kubedb/mysqld-exporter:v0.15.0
                                     spec.initContainer:
                                       image: kubedb/mysql-init:8.0.36

版本升级流程

升级 MySQL 8.0.35 → 8.0.36:
  1. 修改 MySQL CR spec.version: "8.0.36"
  2. Operator 校验目标 Version CR 存在且有效
  3. Operator 计算升级路径（小版本 vs 大版本）
  4. 逐 Pod 执行滚动升级:
     a. 对当前 Pod 执行 pre-upgrade 检查
     b. 创建升级前快照（可选）
     c. 更新 Init Container 和主容器镜像
     d. 启动新版本数据库，执行 mysql_upgrade
     e. 等待 Pod Ready
  5. 全部 Pod 升级完成，Status.Phase 更新

升级约束

升级类型	支持方式	操作
小版本升级（8.0.35 -> 8.0.36）	滚动更新	直接升级，数据兼容
大版本升级（5.7 -> 8.0）	仅支持的路径	需 mysql_upgrade 数据迁移
降级	不支持	不支持版本回退
跨大版本跳跃（5.7 -> 8.4）	不支持	需逐级升级

# 升级示例
apiVersion: kubedb.com/v1alpha2  # 实际 KubeDB 常用 v1alpha2（部分 CRD 已升 v1）
kind: MySQL
metadata:
  name: my-mysql
spec:
  version: "8.0.36"  # 从 8.0.35 修改为此版本

升级前检查清单

1. 确认目标 Version CR 已存在于集群中
2. 确认升级路径被 Operator 支持
3. 创建完整备份（BackupSession）
4. 确认磁盘空间足够（升级可能产生临时文件）
5. 在维护窗口内执行升级
6. 监控升级过程中应用连接状态

12 KubeDB 的存储类型支持（Ephemeral / Persistent / External）有何区别？

答案：

KubeDB 支持三种存储类型：Ephemeral（临时存储，Pod 重启数据丢失）、Durable（持久化存储，基于 PVC/PV）、External（引用外部已有数据库，KubeDB 仅管理连接信息）。

三种存储类型对比

维度	Ephemeral	Durable	External
数据持久化	否（Pod 重启丢失）	是（PVC 绑定 PV）	外部系统负责
适用场景	开发测试 / CI / 临时环境	生产环境	导入现有数据库 / 非 KubeDB 管理
PVC 创建	不创建	自动创建	不创建
存储扩容	不支持	支持（需 SC allowVolumeExpansion）	外部管理
数据迁移成本	低	中	无
生命周期绑定	Pod 生命周期	PV 生命周期	独立于 KubeDB

Ephemeral 配置

spec:
  storageType: Ephemeral

Durable 配置

spec:
  storageType: Durable
  storage:
    storageClassName: gp3
    accessModes:
      - ReadWriteOnce
    resources:
      requests:
        storage: 200Gi

External 配置

apiVersion: kubedb.com/v1alpha2  # 实际 KubeDB 常用 v1alpha2（部分 CRD 已升 v1）
kind: MySQL
metadata:
  name: external-mysql
spec:
  version: "8.0.36"
  externallyManaged: true
  externalDatabase:
    host: mysql-legacy.prod.internal
    port: 3306
    authSecret:
      name: external-mysql-auth
apiVersion: v1
kind: Secret
metadata:
  name: external-mysql-auth
type: kubernetes.io/basic-auth
data:
  username: <base64-encoded>
  password: <base64-encoded>

StorageClass 选型建议

场景	推荐 StorageClass	原因
MySQL / PostgreSQL 生产	gp3 / io2 (AWS)	高 IOPS，低延迟
MongoDB 写入密集	io2 Block Express	亚毫秒级延迟
Elasticsearch Hot	gp3 / pd-ssd	高 IOPS，热数据快速检索
Elasticsearch Warm/Cold	st1 / pd-standard	低成本大容量
Redis RDB/AOF	gp3	持久化写入可靠性

13 KubeDB 如何通过 Secret 注入自定义数据库配置？

答案：

KubeDB 支持通过 Secret 或 ConfigMap 注入自定义数据库配置文件，覆盖默认参数，实现数据库引擎级别的精细化调优。

配置注入机制

1. 创建包含自定义配置内容的 Secret / ConfigMap
2. 在 CR 中通过 spec.configSecret 引用
3. Operator 将配置挂载到 Pod 内对应路径
4. 数据库启动时加载自定义配置
5. Pod 重启后仍使用原配置（配置持久化于 Secret）

MySQL 自定义配置

apiVersion: v1
kind: Secret
metadata:
  name: mysql-custom-config
stringData:
  my.cnf: |
    [mysqld]
    max_connections = 500
    innodb_buffer_pool_size = 8G
    innodb_log_file_size = 2G
    slow_query_log = ON
    long_query_time = 2
    max_allowed_packet = 256M
    character-set-server = utf8mb4
    collation-server = utf8mb4_unicode_ci
    innodb_flush_log_at_trx_commit = 1
    sync_binlog = 1
apiVersion: kubedb.com/v1alpha2  # 实际 KubeDB 常用 v1alpha2（部分 CRD 已升 v1）
kind: MySQL
metadata:
  name: tuned-mysql
spec:
  version: "8.0.36"
  configSecret:
    name: mysql-custom-config

PostgreSQL 自定义配置

apiVersion: v1
kind: Secret
metadata:
  name: pg-custom-config
stringData:
  postgresql.conf: |
    max_connections = 300
    shared_buffers = 8GB
    effective_cache_size = 24GB
    maintenance_work_mem = 2GB
    checkpoint_completion_target = 0.9
    wal_buffers = 256MB
    default_statistics_target = 100
    random_page_cost = 1.1
    effective_io_concurrency = 200
    work_mem = 32MB

各数据库配置文件路径

数据库	配置文件	容器内路径
MySQL	my.cnf	/etc/mysql/conf.d/
PostgreSQL	postgresql.conf	/etc/postgresql/
MongoDB	mongod.conf	/etc/mongod.conf
Redis	redis.conf	/etc/redis/
Elasticsearch	elasticsearch.yml	/usr/share/elasticsearch/config/

14 KubeDB 的 Horizontal Scaling 与 Vertical Scaling 如何操作？

答案：

KubeDB 支持水平扩缩容（变更副本数）和垂直扩缩容（变更资源配额），前者影响集群拓扑成员数，后者影响单节点计算/内存能力。

Horizontal Scaling（水平扩缩）

# MySQL Group Replication 从 3 节点扩展到 5 节点
spec:
  replicas: 5  # 原值 3

水平扩缩流程：Operator 检测 replicas 变更 -> 创建新 Pod + PVC -> 新节点加入 Group Replication / ReplicaSet / Redis Cluster -> 数据同步 -> 节点 Ready。

水平缩容流程：Operator 标记缩容目标 Pod -> 数据迁移（如 Redis Slot 迁移）-> 从集群移除节点 -> 删除 Pod。

支持水平扩缩的模式

数据库	支持模式	限制
MySQL	Group Replication / InnoDB Cluster	仅奇数节点（推荐），Standalone 固定 1
PostgreSQL	Streaming Replication	Standalone 固定 1
MongoDB	ReplicaSet / Sharded Cluster	Standalone 固定 1
Redis	Cluster	Master 节点不可在线缩减

Vertical Scaling（垂直扩缩）

# 原地扩容 CPU 和内存
spec:
  podTemplate:
    spec:
      resources:
        requests:
          cpu: 8    # 原值 4
          memory: 16Gi  # 原值 8Gi
        limits:
          cpu: 16   # 原值 8
          memory: 32Gi  # 原值 16Gi

垂直扩缩流程：Operator 更新 StatefulSet -> StatefulSet 触发 Pod 重建（RollingUpdate）-> 新 Pod 以新资源规格启动 -> 数据库进程根据新资源配置自动调整内部参数（如 innodb_buffer_pool_size）。

Storage Scaling（存储扩缩）

spec:
  storage:
    resources:
      requests:
        storage: 500Gi  # 原值 200Gi

存储扩容前提：StorageClass allowVolumeExpansion: true。PVC 扩容为在线操作（CSI 驱动支持时），无需 Pod 重启。存储缩容不支持（Kubernetes PVC 不可缩减）。

15 KubeDB 的 Halted 功能是什么？

答案：

Halted 是 KubeDB 提供的数据库暂停功能，用于临时释放计算资源但保留数据和配置，可随时恢复运行。Halted 状态下所有 Pod 副本数缩减为 0，PVC 保持不变。

Halted 机制

spec:
  halted: true

Halted 行为

项目	行为
StatefulSet replicas	设置为 0
PVC / PV	保留不删除
Service	保留
Secret / ConfigMap	保留
数据	完整保留于 PV
恢复	设置 halted: false，Operator 恢复 Pod

Halted 与 Deletion 对比

维度	Halted	Delete（DoNotTerminate）	Delete（WipeOut）
Pod 运行	停止	停止	停止
PVC	保留	保留	删除
数据	保留	保留	永久删除
恢复方式	halted: false	从备份恢复	不可恢复
成本	仅 PV 存储费用	仅 PV 存储费用	零成本
适用场景	临时暂停开发环境	下线但保留数据	完全清理环境

使用场景

1. 非工作时间暂停开发/测试环境数据库，降低云资源成本
2. 维护窗口期间暂停业务数据库，避免连接干扰
3. 临时释放集群计算资源给高优先级业务
4. 数据库迁移前暂停写入，执行最终数据一致性校验

16 KubeDB 的 Termination Policy（WipeOut / DoNotTerminate / Halt / Delete）有何区别？

答案：

Termination Policy 控制 KubeDB CR 删除时对底层资源（PVC、Secret、数据）的处理方式，共有四种策略。

四种策略对比

策略	删除 CR 时的行为	数据安全性	适用场景
DoNotTerminate	拒绝删除 CR	最高（阻止删除）	生产环境默认
Halt	删除 CR，但保留 PVC、Secret、数据	高（数据保留）	生产安全删除
Delete	删除 CR + PVC + Secret（数据清空）	中（数据被删除）	开发测试环境
WipeOut	删除 CR + PVC + Secret，且跳过最终备份	最低（不可恢复）	完全清理 / CI

策略行为详表

操作	DoNotTerminate	Halt	Delete	WipeOut
删除 CR	阻止	允许	允许	允许
创建最终备份	N/A	是	是	否
删除 StatefulSet	N/A	是	是	是
删除 Pod	N/A	是	是	是
删除 Service	N/A	是	是	是
删除 PVC	N/A	否	是	是
删除 Secret	N/A	否	是	是
删除 PV 数据	N/A	否	是（取决于 reclaimPolicy）	是（取决于 reclaimPolicy）

配置示例

apiVersion: kubedb.com/v1alpha2  # 实际 KubeDB 常用 v1alpha2（部分 CRD 已升 v1）
kind: MySQL
metadata:
  name: prod-mysql
spec:
  version: "8.0.36"
  deletionPolicy: Halt  # 默认 DoNotTerminate

生产环境建议

1. 生产环境默认使用 DoNotTerminate，防止误删除
2. 确认下线前改为 Halt，删除 CR 但保留数据
3. 数据确认不再需要后，手动清理 PVC 和 Secret
4. WipeOut 仅用于 CI/CD 测试环境，自动清理临时资源
5. Halt 删除前确保已有有效备份

17 KubeDB 的初始化脚本支持（Init Script / Restore Snapshot）是什么？

答案：

KubeDB 支持数据库实例创建时通过 Init Script 执行自定义 SQL 或 Shell 脚本，或从已有备份快照恢复数据，实现数据库初始化自动化。

两种初始化方式

方式	说明	适用场景
Init Script	在数据库首次启动后执行自定义脚本	创建初始 Schema、Seed 数据、创建用户
Restore Snapshot	从 Stash 备份恢复已有数据	数据迁移、灾难恢复、环境克隆

Init Script 配置

apiVersion: kubedb.com/v1alpha2  # 实际 KubeDB 常用 v1alpha2（部分 CRD 已升 v1）
kind: MySQL
metadata:
  name: mysql-with-init
spec:
  version: "8.0.36"
  init:
    script:
      configMap:
        name: mysql-init-scripts
apiVersion: v1
kind: ConfigMap
metadata:
  name: mysql-init-scripts
data:
  init.sql: |
    CREATE DATABASE IF NOT EXISTS orders;
    CREATE USER 'app_user'@'%' IDENTIFIED BY 'SecurePass123';
    GRANT ALL PRIVILEGES ON orders.* TO 'app_user'@'%';
    FLUSH PRIVILEGES;

    USE orders;
    CREATE TABLE IF NOT EXISTS items (
      id BIGINT AUTO_INCREMENT PRIMARY KEY,
      name VARCHAR(255) NOT NULL,
      created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
    );

从快照恢复初始化

spec:
  init:
    archiver:
      encryptionSecret:
        name: backup-encrypt-secret
    restore:
      repository:
        name: s3-backup-repo
        namespace: prod
      snapshot: prod-mysql-backup-20250101

Init 执行流程

1. Pod 启动 Init Container
2. Init Container 校验 init.script 或 init.restore 配置
3. 若为 script：复制 SQL 文件到共享卷
4. 若为 restore：从 Repository 拉取快照并解压
5. 数据库主容器启动
6. 数据库进程执行 /docker-entrypoint-initdb.d/ 下脚本
7. 脚本执行完成，Operator 标记 Status.Phase: Ready

18 KubeDB 与 KubeBlocks 对比分析

答案：

KubeDB 与 KubeBlocks 同为 Kubernetes 数据库管理 Operator，但设计哲学、抽象层级和支持广度存在显著差异。

核心对比

维度	KubeDB	KubeBlocks
开发者	AppsCode / ByteBuilders（孟加拉）	ApeCloud（中国）
开源协议	社区版 AGPL	AGPL
抽象方式	每种数据库独立 CRD（MySQL / PostgreSQL / MongoDB …）	统一 ClusterDefinition + ComponentDefinition
数据库支持	MySQL / PG / Mongo / Redis / ES / MariaDB 等 10+	MySQL / PG / Redis / MongoDB / Kafka / Pulsar / StarRocks 等 30+
Addon 机制	无，数据库支持硬编码	Addon 市场，社区可自行扩展
备份恢复	深度集成 Stash	内置 VolumeSnapshot + 工具备份
监控集成	Prometheus Operator 内置 Exporter Sidecar	Prometheus + Grafana 内置集成
版本管理	Version CRD（每引擎独立）	ClusterVersion + ComponentVersion
多集群	不内置	KubeBlocks Cloud 支持多集群管理
OAM 模型	不支持	完整 OAM（Application / Component / Trait）
中文社区	较弱	活跃中文社区
Day 2 运维	滚动升级 / 扩缩 / 备份	滚动升级 / 扩缩 / 备份 / 参数模板 / 故障恢复 / 在线迁移

架构哲学差异

KubeDB 采用每种数据库一CRD的方式，KubeDB MySQL 用户的配置语法完全区别于 PostgreSQL，学习成本与引擎数量成正比。KubeBlocks 通过统一抽象屏蔽引擎差异，所有数据库共享相同的 CRD 体系，Addon 机制允许第三方扩展。

选型建议

场景	推荐
已有 Stash / KubeVault 生态	KubeDB
需要管理超 10 种数据库引擎	KubeBlocks
需要 OAM 模型标准化交付	KubeBlocks
团队中文交流需求强	KubeBlocks
简单场景仅需 MySQL + PG	两者均可
已有 cert-manager / Prometheus 标准生态	KubeDB 集成更自然

19 KubeDB 与 Percona Operator for MySQL 对比分析

答案：

KubeDB 和 Percona Operator for MySQL 均提供 Kubernetes 上 MySQL 集群管理能力，但 Percona Operator 专精于 Percona XtraDB Cluster（PXC），KubeDB 覆盖更广泛。

核心对比

维度	KubeDB	Percona Operator for MySQL
数据库引擎	MySQL + Percona XtraDB + MySQL GR	Percona XtraDB Cluster（Galera）
高可用方案	Group Replication / InnoDB Cluster	Galera Cluster（PXC）
HA 节点数	≥3（奇数）	≥3（奇数）
数据同步	基于 Binlog（Paxos）	Galera 同步复制（Certification-based）
备份方式	Stash（S3/GCS/Azure/NFS）	xtrabackup（S3/Azure/PVC）
监控	mysqld_exporter（内置 Sidecar）	mysqld_exporter + PMM 集成
TLS	cert-manager 集成	内置 cert-manager 集成
Proxy	ProxySQL CRD	HAProxy / ProxySQL
Orchestrator	无	内置 Orchestrator（拓扑管理）
PMM 集成	社区版支持（深度有限）	深度集成 Percona Monitoring and Management
社区背景	AppsCode（孟加拉）	Percona（美国，MySQL 生态核心贡献者）

Group Replication vs Galera 对比

维度	Group Replication（KubeDB）	Galera（Percona）
协议	Paxos（MySQL 8.0 内置）	Certification-based Replication
写入方式	Single-Primary / Multi-Primary	Multi-Primary（所有节点可写）
冲突检测	单 Primary 无冲突	提交前 Certification 检查冲突
大事务性能	较小影响	受 Certification 影响明显
网络延迟容忍	较好	较敏感（同步复制）
节点扩缩	在线	在线（SST/IST）
成熟度	MySQL 8.0+ 内置	10+ 年生产验证

选型建议

生产环境若需要 MySQL 官方生态最大兼容性（MySQL Router、MySQL Shell）选择 KubeDB + Group Replication；若需要成熟的 Galera 同步复制方案和 PMM 全栈监控选择 Percona Operator。

20 KubeDB 与 CloudNativePG 对比分析

答案：

KubeDB 和 CloudNativePG 均为 Kubernetes 上的 PostgreSQL Operator，CloudNativePG 专注 PostgreSQL 单一引擎，KubeDB 提供多引擎统一管理。

核心对比

维度	KubeDB	CloudNativePG
专注范围	多引擎（PG + MySQL + Mongo + Redis + ES）	仅 PostgreSQL
项目归属	AppsCode（商业公司）	EDB（PostgreSQL 最大商业厂商）
开源协议	AGPL	Apache 2.0
Kubernetes 原生	基于 StatefulSet	直接管理 Pod（无 StatefulSet）
持久化存储	PVC（StatefulSet 自动管理）	PVC（Operator 直接管理）
高可用	Streaming Replication（手动 Promote）	内置自动 Failover 和 Switchover
备份恢复	Stash 集成	内置 Barman（pg_basebackup + WAL 归档）
连接池	PgBouncer CRD	PgBouncer 内置集成
版本升级	滚动更新	支持在线小版本升级（in-place）
更新策略	更新 CR spec.version	直接更新 CR（镜像变更）
PostGIS	支持	完整支持
Kubernetes 集成深度	Operator 模式标准集成	极深度（直接调度 Pod 到节点管理实例存储）

CloudNativePG 独特优势

无需 StatefulSet：直接管理 Pod，对 Kubernetes 调度和存储绑定有更细粒度控制
声明式 Hibernate：支持 declarativeHibernation 类似 KubeDB Halted 但更成熟
在线小版本升级：支持 PostgreSQL 小版本 in-place 升级，无需重建容器
同步复制：支持同步流复制（synchronous replication）配置独立于节点数

KubeDB 优势场景

KubeDB 在多引擎混合环境中有优势：统一 API 管理 MySQL / PostgreSQL / MongoDB / Redis，减少运维团队学习多个 Operator 的成本。

21 KubeDB 的 MySQL Group Replication 拓扑管理如何实现？

答案：

KubeDB 通过 StatefulSet 有序管理与 Init Container 协调启动实现 MySQL Group Replication 的拓扑自动构建和故障恢复。

Group Replication 启动流程

1. StatefulSet 按序启动 Pod（mysql-0, mysql-1, mysql-2）
       │
2. mysql-0 作为 Bootstrap 节点启动
   ├── 创建 replication_user
   ├── SET GLOBAL group_replication_bootstrap_group=ON
   ├── START GROUP_REPLICATION
   └── 成为 Group 中第一个成员
       │
3. mysql-1 启动
   ├── 等待 mysql-0 的 Group Replication 就绪
   ├── 通过 Headless Service 发现 mysql-0
   ├── CHANGE MASTER TO ... FOR CHANNEL 'group_replication_recovery'
   ├── START GROUP_REPLICATION
   └── 加入 Group，数据同步开始
       │
4. mysql-2 重复 mysql-1 流程
       │
5. Group 成员达到 replicas 数量，Operator 标记 Ready

Group Replication 服务端点

Service	用途
`<name>`	Primary 节点读写端点
`<name>-pods`	Headless Service，Pod 间直连（GR 内部通信基于此）
`<name>-replicas`	所有 Secondary 节点只读端点
`<name>-standby`	Standby 节点（用于 Standby 集群）

故障转移流程

1. Primary 节点 Pod 异常（Crash / Node NotReady）
2. Group Replication 自动检测 Primary 失联（member_expel_timeout）
3. 剩余节点中选新 Primary（基于 member_weight 或 UUID）
4. KubeDB Operator 更新 Service Label Selector 指向新 Primary
5. <name> Service 流量自动切换到新 Primary
6. 原 Primary 恢复后以 Secondary 身份重新加入 Group

22 KubeDB 的 License 模式（Community / Enterprise）有何区别？

答案：

KubeDB 分为 Community Edition（社区版）和 Enterprise Edition（企业版）两个版本，功能集和支持范围不同。

版本对比

功能	Community	Enterprise
基础数据库管理（CRUD）	支持	支持
自动备份恢复（Stash 集成）	支持	支持
监控集成（Prometheus）	支持	支持
TLS/SSL 证书管理	支持	支持
MySQL Group Replication	支持	支持
MongoDB Sharded Cluster	支持	支持
Elasticsearch 热温冷架构	仅 Data / Master / Ingest	支持完整 Hot-Warm-Cold
Redis Sentinel / Cluster	支持	支持
Schema Manager（声明式 DB/表/用户）	不支持	支持
ProxySQL / PgBouncer CRD	不支持	支持
自动升级（Auto OpsRequest）	不支持	支持
External MongoDB	不支持	支持
多地域 / 跨集群拓扑	不支持	支持
管理控制台（KubeDB UI）	不支持	支持
7x24 商业支持	不支持	支持
开源协议	AGPL	商业许可

Enterprise 版主要特色

Schema Manager：以 CRD 形式声明式管理数据库、表和用户（KubeDB Community 0.40+ 部分支持，不是 Enterprise 专属）
Auto OpsRequest：通过 OpsRequest CRD 自动执行升级、扩容、重启等运维操作
KubeDB UI：Web 控制台可视化管理数据库实例
跨集群复制：支持 MongoDB / PostgreSQL 跨 Kubernetes 集群数据复制

23 KubeDB 的 Operator 自身高可用设计是什么？

答案：

KubeDB Operator 自身通过 Deployment 多副本部署实现高可用，结合 Leader Election 机制确保同一时间只有一个活跃控制实例。

Operator HA 架构

KubeDB Operator Deployment
  replicas: 2
  ├── kubedb-operator-xxxxx (Leader)
  │   ├── 持有 Lease Lock
  │   ├── Watch CRD 变更
  │   └── 执行 Reconcile Loop
  │
  └── kubedb-operator-yyyyy (Standby)
      ├── 等待 Lease Lock
      ├── 不执行 Reconcile
      └── Leader 失效后竞选

Leader Election 机制

KubeDB Operator 使用 Kubernetes 原生 Leader Election（基于 ConfigMap 或 Lease 资源）：

启动时各副本竞争 Leader Lock
获得 Lock 的副本成为 Leader，执行 Reconcile
Leader 每 N 秒续约 Lock（默认 15s）
Leader 失去续约能力 -> Lock 超时释放（默认 30s）
Standby 副本获取 Lock -> 成为新 Leader
新 Leader 开始 Watch 并 Reconcile

Operator 部署配置

apiVersion: apps/v1
kind: Deployment
metadata:
  name: kubedb-operator
  namespace: kubedb
spec:
  replicas: 2
  selector:
    matchLabels:
      app: kubedb
  template:
    metadata:
      labels:
        app: kubedb
    spec:
      serviceAccountName: kubedb-operator
      containers:
        - name: operator
          image: kubedb/operator:v2024.4.27
          args:
            - --leader-elect=true
            - --lease-duration=15s
            - --renew-deadline=10s
            - --retry-period=2s
          resources:
            requests:
              cpu: 500m
              memory: 1Gi
            limits:
              cpu: 2000m
              memory: 2Gi

24 KubeDB 的网络与服务发现机制是什么？

答案：

KubeDB 通过 Kubernetes Headless Service 和 ClusterIP Service 组合实现数据库节点间的服务发现、客户端连接路由和读写分离。

Service 类型与用途

Service	类型	用途
`<name>`	ClusterIP	客户端 Primary 节点读写端点
`<name>-replicas`	ClusterIP	客户端只读端点（所有 Secondary）
`<name>-pods`	Headless	Pod 间直连（GR 内部通信 + DNS 解析到各 Pod IP）
`<name>-stats`	ClusterIP	Exporter 指标暴露

服务发现架构（以 MySQL Group Replication 为例）

graph TD
    App["App Pod
写操作 → mysql.prod:3306
读操作 → mysql-replicas:3306"]
    MysqlSvc["mysql Service
(ClusterIP)
→ Primary Pod"]
    ReplicasSvc["mysql-replicas Service
→ Secondary Pods"]
    HeadlessSvc["mysql-pods (Headless Service)
DNS: mysql-pods.prod.svc
→ mysql-0.prod.pod, mysql-1..."]

    App --> MysqlSvc
    App --> ReplicasSvc
    MysqlSvc --> HeadlessSvc
    ReplicasSvc --> HeadlessSvc

DNS 解析规则

# Primary 读写
mysql.prod.svc.cluster.local:3306

# 只读（负载均衡到所有 Secondary）
mysql-replicas.prod.svc.cluster.local:3306

# 直连特定 Pod
mysql-0.mysql-pods.prod.svc.cluster.local:3306

# Group Replication 内部发现（基于 Headless Service 解析）
mysql-0.mysql-pods.prod.svc.cluster.local:33061

读写分离拓扑

KubeDB 自动将 Primary 标签注入 Service Selector，读写分离依靠 Service 层面的 Label 区分：

Primary Pod Label: kubedb.com/role: primary
Secondary Pod Label: kubedb.com/role: secondary

mysql Service Selector:
  kubedb.com/role: primary    → 仅路由到 Primary

mysql-replicas Service Selector:
  kubedb.com/role: secondary  → 路由到所有 Secondary

25 KubeDB 的 Schema Manager（声明式数据库 / 表 / 用户管理）是什么？

答案：

KubeDB Enterprise 版的 Schema Manager 通过 CRD 实现数据库、表、用户的声明式管理，将 Schema 变更纳入 GitOps 流程。

Schema Manager CRD

CRD	用途
MySQLDatabase / PGDatabase	声明式管理数据库（CREATE / DROP DATABASE）
MySQLTable / PGTable	声明式管理表结构（CREATE / ALTER TABLE）
MySQLUser / PGUser	声明式管理数据库用户和权限
MySQLSchema / PGSchema	声明式导入数据库 Schema（SQL Dump）

Schema CR 示例

# 声明式创建数据库
apiVersion: schema.kubedb.com/v1alpha1
kind: MySQLDatabase
metadata:
  name: orders-db
  namespace: prod
spec:
  database:
    serverRef:
      name: prod-mysql
      namespace: prod
    config:
      name: orders
# 声明式创建用户
apiVersion: schema.kubedb.com/v1alpha1
kind: MySQLUser
metadata:
  name: app-user
  namespace: prod
spec:
  database:
    serverRef:
      name: prod-mysql
      namespace: prod
  authentication:
    password:
      secretRef:
        name: app-user-password
  privileges:
    - database: orders
      scope: ALL
# 声明式初始化表结构
apiVersion: schema.kubedb.com/v1alpha1
kind: MySQLSchema
metadata:
  name: orders-schema
  namespace: prod
spec:
  database:
    serverRef:
      name: prod-mysql
      namespace: prod
  schema:
    configMap:
      name: orders-schema-sql
apiVersion: v1
kind: ConfigMap
metadata:
  name: orders-schema-sql
data:
  schema.sql: |
    USE orders;
    CREATE TABLE items (
      id BIGINT AUTO_INCREMENT PRIMARY KEY,
      name VARCHAR(255) NOT NULL,
      price DECIMAL(10,2) NOT NULL,
      created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
    );
    CREATE TABLE orders (
      id BIGINT AUTO_INCREMENT PRIMARY KEY,
      user_id BIGINT NOT NULL,
      status ENUM('pending','shipped','delivered') DEFAULT 'pending',
      created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
    );

Schema Manager 价值

1. GitOps 集成：Schema 变更记录于 Git，可追溯、可回滚
2. 一致性保障：环境间 Schema 一致，消除手动变更导致的漂移
3. 权限控制：通过 RBAC 控制谁可以修改数据库 Schema
4. 审计追踪：每次 Schema 变更记录在 Kubernetes Events 和 Status 中

26 KubeDB 的跨地域复制（Cross-Region Replication）如何实现？

答案：

KubeDB Enterprise 版支持跨 Kubernetes 集群的数据库复制，用于异地灾备、多区域读写和地理分布数据同步。

跨地域复制架构

graph LR
    subgraph RegionA["Region A (Primary)"]
        subgraph PrimaryCluster["KubeDB MySQL Group Replication"]
            Primary["mysql-primary (3 nodes)"]
        end
    end

    subgraph RegionB["Region B (Standby / DR)"]
        subgraph StandbyCluster["KubeDB MySQL Standby Cluster"]
            Standby["mysql-standby (3 nodes)"]
        end
    end

    Primary -->|"Binlog Replication (WAN/VPN)"| Standby

MySQL Standby 配置（Primary 集群）

# Primary 集群
apiVersion: kubedb.com/v1alpha2  # 实际 KubeDB 常用 v1alpha2（部分 CRD 已升 v1）
kind: MySQL
metadata:
  name: mysql-primary
  namespace: prod
spec:
  version: "8.0.36"
  replicas: 3
  topology:
    mode: GroupReplication

MySQL Standby 配置（DR 集群）

# DR 集群 KubeDB >= v2024.x Enterprise
apiVersion: kubedb.com/v1alpha2  # 实际 KubeDB 常用 v1alpha2（部分 CRD 已升 v1）
kind: MySQL
metadata:
  name: mysql-standby
  namespace: dr
spec:
  version: "8.0.36"
  replicas: 3
  topology:
    mode: GroupReplication
  init:
    standby:
      sourceRef:
        name: mysql-primary
        namespace: prod
      sourceCluster:
        host: mysql-primary.prod.svc.cluster.local
        port: 3306

跨区域复制关键参数

参数	建议值	说明
复制模式	异步（Asynchronous）	避免跨区域网络延迟影响写入性能
Binlog 格式	ROW	跨区域复制推荐行级日志
网络加密	TLS / WireGuard / VPN	跨公网传输强制加密
复制过滤	排除临时表 / 日志表	减少不必要的数据同步
监控告警	复制延迟 > 60s	及时发现同步异常

27 KubeDB 的 Redis 集群分片（Redis Cluster）机制是什么？

答案：

KubeDB Redis Cluster 模式实现了 Redis 官方集群分片协议，通过 Hash Slot 将数据分布在多个 Master 节点上，每个 Master 配备若干 Slave 实现高可用。

Redis Cluster 分片架构

graph TD
    subgraph Cluster["Redis Cluster (6 nodes min)
Hash Slot: CRC16(key) % 16384"]
        subgraph SG0["Shard Group 0"]
            M0["Master-0
Slots 0-5460
key: user:1001
key: order:5001"]
            S0["Slave-0
key: user:1001
key: order:5001"]
        end
        subgraph SG1["Shard Group 1"]
            M1["Master-1
Slots 5461-10922
key: user:2001
key: order:6001"]
            S1["Slave-1
key: user:2001
key: order:6001"]
        end
        subgraph SG2["Shard Group 2"]
            M2["Master-2
Slots 10923-16383
key: user:3001
key: order:7001"]
            S2["Slave-2
key: user:3001
key: order:7001"]
        end
    end

    M0 --> S0
    M1 --> S1
    M2 --> S2

Redis Cluster CR 配置

apiVersion: kubedb.com/v1
kind: Redis
metadata:
  name: redis-cluster
spec:
  version: "7.2.4"
  mode: Cluster
  cluster:
    master: 3
    replicas: 1
  storageType: Durable
  storage:
    storageClassName: gp3
    accessModes: [ReadWriteOnce]
    resources:
      requests:
        storage: 50Gi

集群 Slot 分配与扩缩容

初始化:
  Master-0: Slots 0-5460    (5461 个)
  Master-1: Slots 5461-10922 (5462 个)
  Master-2: Slots 10923-16383 (5461 个)

扩容（master: 3 → 4）:
  Master-3 加入集群，无 Slot
  redis-cli --cluster reshard → 从现有 Master 迁移 Slot
  Master-3: Slots 0-1365, 5461-6826, 10923-12288

缩容（master: 4 → 3）:
  Master-3 的 Slot 迁移到其他 Master
  Master-3 从集群移除
  StatefulSet replicas 缩减

集群故障转移

1. Master-0 宕机
2. Slave-0 通过集群 Gossip 协议检测 Master-0 失效
3. Slave-0 发起选举（Slave 之间的 Raft 子协议）
4. Slave-0 当选为新 Master，接管 Slots 0-5460
5. KubeDB Operator 更新 Service 指向新 Master
6. 原 Master-0 恢复后以 Slave 身份重新加入

28 KubeDB 的故障排查与诊断方法有哪些？

答案：

KubeDB 数据库实例故障排查遵循 Operator 层 -> 容器层 -> 数据库层 -> 存储层的自顶向下诊断路径。

故障排查命令清单

步骤	命令	目的
1	`kubectl get mysql -n <ns>`	查看 CR 状态（Phase / Reason）
2	`kubectl describe mysql <name> -n <ns>`	查看 Events 和 Conditions
3	`kubectl get pods -l app.kubernetes.io/name=mysql -n <ns>`	查看 Pod 状态
4	`kubectl logs <pod> -n <ns> --previous`	查看上次崩溃日志
5	`kubectl logs <pod> -n <ns> -c mysql-init`	查看 Init Container 日志
6	`kubectl exec <pod> -n <ns> -c mysql -- mysql -u root -p$MYSQL_ROOT_PASSWORD -e "SHOW STATUS;"`	数据库运行状态
7	`kubectl logs deployment/kubedb-operator -n kubedb`	Operator 自身日志
8	`kubectl describe pvc <name> -n <ns>`	PVC 绑定和容量状态

常见故障场景与诊断

故障现象	可能原因	诊断方法	解决方案
Phase: NotReady / CrashLoopBackOff	配置错误 / 资源不足	`kubectl logs <pod> --previous`	修正 ConfigSecret / 增加资源
Phase: Provisioning 卡住	Init Container 脚本错误 / Backup 下载失败	`kubectl logs <pod> -c mysql-init`	修正 Init Script / 检查 S3 凭证
PVC Pending	StorageClass 不存在 / PV 不足	`kubectl describe pvc <name>`	创建 StorageClass / 扩容存储集群
Group Replication 无法形成集群	网络策略阻断 / DNS 解析异常	`kubectl exec ... -- mysql ... SHOW SLAVE STATUS`	检查 NetworkPolicy / CoreDNS
Primary 切换后应用连接断开	Service 未及时更新	检查 Service Endpoints	应用端启用重连机制
Backup CronJob 执行失败	S3 凭证过期 / 磁盘空间不足	`kubectl logs -l app.kubernetes.io/name=stash`	更新凭证 / 清理过期备份

Operator 层诊断

# 查看 Operator 日志
kubectl logs -n kubedb deploy/kubedb-operator --tail=100 -f

# 关键日志模式
# "Reconciling MySQL"  → 每个 Reconcile 循环入口
# "error syncing"      → Reconcile 失败
# "successfully synced" → Reconcile 成功

# 查看 Webhook 是否正常
kubectl get validatingwebhookconfigurations,mutatingwebhookconfigurations | grep kubedb

29 KubeDB 的安全合规（加密 / 审计 / 授权）能力如何？

答案：

KubeDB 通过多层安全机制实现数据库实例的安全运行，涵盖传输加密、静态加密、认证授权和审计日志。

安全能力分层

层级	能力	实现方式
传输加密	TLS / mTLS 加密传输	cert-manager 自动签发证书
静态加密	存储层加密	StorageClass 加密（AWS EBS / GCP PD / Azure Disk 加密）
认证管理	用户密码管理	Secret 存储，KubeVault 集成动态凭据
访问授权	RBAC 控制 CRD 操作	Kubernetes RBAC + KubeDB RBAC
审计日志	数据库操作审计	数据库引擎原生审计日志（MySQL Enterprise Audit / pgAudit）
网络安全	网络策略隔离	NetworkPolicy 限制数据库端点访问
Pod 安全	PodSecurityContext	SecurityContext 配置非 root 运行

TLS 双向认证（mTLS）配置

spec:
  tls:
    issuerRef:
      apiGroup: cert-manager.io
      kind: Issuer
      name: mysql-ca-issuer
    certificates:
      - alias: server
        dnsNames:
          - mysql-secure.prod.svc
      - alias: client
        subject:
          organizations:
            - prod-apps

Secret 凭据管理

# KubeDB 自动生成根密码并存入 Secret
apiVersion: v1
kind: Secret
metadata:
  name: db-auth
type: kubernetes.io/basic-auth
data:
  username: cm9vdA==
  password: <auto-generated-base64>

NetworkPolicy 隔离

apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: mysql-deny-all
spec:
  podSelector:
    matchLabels:
      app.kubernetes.io/name: mysql
  policyTypes:
    - Ingress
  ingress:
    - from:
        - podSelector:
            matchLabels:
              app: authorized-app
      ports:
        - protocol: TCP
          port: 3306

KubeVault 集成（动态凭据）

KubeDB 可集成 KubeVault 实现数据库凭据的动态生成和定期轮换，避免静态密码泄露风险。

30 KubeDB 生产环境最佳实践有哪些？

答案：

KubeDB 生产环境部署需覆盖高可用、资源规划、备份策略、安全加固、监控告警和运维流程六个维度。

一、高可用架构

实践	配置
KubeDB Operator 多副本	`replicas: 2` + Leader Election
MySQL 生产	Group Replication 3 节点（奇数，跨可用区分布）
PostgreSQL 生产	Streaming Replication 3 节点（1 Primary + 2 Standby）
MongoDB 生产	ReplicaSet 3-5 节点 + 跨 AZ 分布
Redis 生产	Sentinel（中型）/ Cluster（大型）模式
Pod 反亲和	`podAntiAffinity` 确保节点分布在不同的 Worker Node
拓扑分布约束	`topologySpreadConstraints` 跨 AZ 均匀分布

二、资源规划

# 推荐资源规格
spec:
  podTemplate:
    spec:
      resources:
        requests:
          cpu: 4
          memory: 8Gi
        limits:
          cpu: 8
          memory: 16Gi
      # 绑定内核，减少 CPU 争抢
      cpuPolicy:
        cpuManagerPolicy: static

数据库规模	推荐 CPU	推荐内存	推荐存储
小型（< 100GB）	2-4 core	4-8 Gi	100-200 Gi gp3
中型（100-500GB）	4-8 core	16-32 Gi	200-500 Gi gp3/io1
大型（500GB-2TB）	8-16 core	64-128 Gi	500-2000 Gi io2
超大型（> 2TB）	16+ core	128+ Gi	2 Ti+ io2 Block Express

三、备份策略

spec:
  backupConfig:
    schedule: "0 2 * * *"      # 每日凌晨 2 点全量备份
    retentionPolicy:
      name: keep-last-30
      keepLast: 30
      keepDaily: 7
      keepWeekly: 4
      keepMonthly: 3
      prune: true
    repository:
      name: s3-prod-backup     # 跨区域 S3 存储

四、安全加固清单

1. 配置 spec.tls 启用 TLS 加密传输（spec.tls 存在即启用，无需 enableSSL 字段）
2. **spec.deletionPolicy: Halt**（**KubeDB 实际字段值是 Halt / Delete / WipeOut**，**不是** K8s PDB 字段 `DoNotTerminate`）防止误删除
3. NetworkPolicy 限制数据库端口仅允许授权 Pod 访问
4. configSecret 中关闭不必要的数据库特性（如 LOAD DATA LOCAL）
5. PodSecurityContext 以非 root 用户运行
6. 定期轮换数据库根密码（通过 Secret 更新）
7. 启用审计日志（MySQL Enterprise Audit / pgAudit）
8. 敏感字段（password）不打印在 CR Status 中

五、监控告警规则

告警	条件	级别
数据库 Instance NotReady	`kubedb_phase{phase!="Ready"}` > 0 持续 5min	Critical
连接数 > 80%	`mysql_global_status_threads_connected / max_connections > 0.8`	Warning
复制延迟 > 60s	`mysql_slave_status_seconds_behind_master > 60`	Warning
存储使用 > 85%	`kubelet_volume_stats_used_bytes / capacity > 0.85`	Warning
备份失败	BackupSession Phase Failed	Critical
Operator 不健康	`up{job="kubedb-operator"} == 0`	Critical

六、运维流程规范

1. 数据库 CR 纳入 Git 版本管理（GitOps）
2. 任何 CR 变更前先在 Staging 集群验证
3. 大版本升级前创建完整备份，并测试恢复流程
4. 存储扩容在业务低峰期执行（需 StorageClass 支持在线扩容）
5. 副本数变更（水平扩缩）在维护窗口内执行
6. 每月演练备份恢复流程，验证 RPO/RTO
7. Operator 升级前阅读 Release Notes，确认数据库引擎兼容性
8. 禁止在 Kubernetes Dashboard 或 kubectl edit 中直接修改 StatefulSet（应通过 KubeDB CR 操作）
9. 定期审计 Secret 访问记录
10. 节点维护前将 Pod 驱逐到其他节点（kubectl drain --ignore-daemonsets --delete-emptydir-data）

Pod 反亲和配置

spec:
  podTemplate:
    spec:
      affinity:
        podAntiAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            - labelSelector:
                matchLabels:
                  app.kubernetes.io/name: mysql
                  app.kubernetes.io/instance: prod-mysql
              topologyKey: kubernetes.io/hostname

拓扑分布约束

spec:
  podTemplate:
    spec:
      topologySpreadConstraints:
        - maxSkew: 1
          topologyKey: topology.kubernetes.io/zone
          whenUnsatisfiable: DoNotSchedule
          labelSelector:
            matchLabels:
              app.kubernetes.io/name: mysql