Kubernetes 博客

张贴在 2026

Headlamp 2025 年度项目亮点

借由 Evangelos Skopelitis (Microsoft) | 2026.01.22 在博客

本公告是对最初在 Headlamp 博客上发布的帖子的回顾。 Headlamp 在 2025 年取得了长足的发展。该项目持续成长，覆盖了更多平台和团队；通过插件机制支持了新的工作流和集成方式；同时也看到了来自更广泛社区的协作不断增强。我们想借此机会分享一些最新进展，并重点介绍 Headlamp 在过去一年中的演进与变化。更新加入 Kubernetes SIG UI 今年标志着该项目的一个重要里程碑：Headlamp 现已成为 Kubernetes SIG UI 的正式组成部分。此举使路 …

更多
宣布成立 Checkpoint/Restore 工作组

借由 Radostin Stoyanov, Viktória Spišaková, Adrian Reber, Peter Hunt | 2026.01.21 在博客

Kubernetes 社区包含多个特别兴趣小组（SIG）和工作组（WG），旨在促进感兴趣的贡献者之间就重要议题展开讨论。今天，我们宣布成立新的 Kubernetes Checkpoint Restore WG，专注于将 Checkpoint/Restore 功能集成到 Kubernetes 中。动机和应用场景工作组讨论了以下几个高层次的应用场景：优化交互式工作负载（例如 Jupyter Notebook 和 AI 聊天机器人）的资源利用率加速初始化时间较长的应用程序启动， …

更多
Kubernetes v1.36：可变 CSI 节点可分配特性正式发布（GA）

借由 Eddie Torres (Amazon Web Services) | 2026.01.14 在博客

我很高兴地代表 Kubernetes SIG Storage 社区宣布可变 CSI 节点可分配计数特性已在 Kubernetes v1.36 中毕业为正式可用（GA）！该特性最早在 Kubernetes v1.33 中作为 Alpha 版本引入，并在 v1.34 中提升为 Beta 版本，它允许容器存储接口（CSI）驱动动态更新报告的节点能够处理的最大卷数量。此特性显著提高了 Pod 调度决策的准确性，并减少了由于过时的卷容量信息导致的调度失败。背景传统上，Kubernetes …

更多
Kubernetes v1.35：扩展容忍度运算符以支持数值比较（Alpha）

借由 Heba Elayoty (Microsoft) | 2026.01.05 在博客

许多生产级 Kubernetes 集群会混合使用按需（on-demand，高 SLA）节点与 spot/可抢占（preemptible，低 SLA）节点，以在保证关键工作负载可靠性的同时优化成本。平台团队需要一个“安全默认值”，让大多数工作负载远离风险容量，同时又允许特定工作负载用明确阈值显式选择接受（opt-in），例如“我可以容忍失败概率最高 5% 的节点”。目前，Kubernetes 的污点与容忍度（taints and tolerations）可以匹配精确值或检查键是否存在，但 …

更多
Kubernetes v1.35: 通过就地重启 Pod 实现更高的效率

借由 Yuan Wang Giuseppe Tinti Tomio Sergey Kanzhelev | 2026.01.05 在博客

Kubernetes 1.35 版本引入了一项强大的新特性，满足了用户对 Pod 就地重启的迫切需求。这项名为“重启所有容器”（Restart All Containers，1.35 版本为 Alpha 版）的特性，相比于资源用量较高的删除并重建整个 Pod 的方式，能够更高效地重置 Pod 的状态。该特性对于 AI/ML 工作负载尤为实用，使应用程序开发人员能够专注于核心训练逻辑，同时将复杂的故障处理和恢复机制交给边车容器和声明式 Kubernetes 配置来处理。 …

更多

张贴在 2025

Kubernetes 1.35：版本化 z-pages API 带来更强大的调试能力

借由 Richa Banker, Han Kang | 2025.12.31 在博客

调试 Kubernetes 控制平面组件可能很具挑战性，尤其是在需要快速理解组件运行时状态或验证配置时。在 Kubernetes 1.35 中，我们为 z-pages 调试端点带来结构化、可被机器解析的响应，让构建工具和自动化排障流程变得更加轻松。什么是 z-pages？ z-pages 是 Kubernetes 控制平面组件所公开的特殊调试端点。它们在 Kubernetes 1.32 中以 Alpha 特性引入， …

更多
Kubernetes v1.35：云控制器管理器中的基于监视的路由协调

借由 Lukas Metzner (Hetzner) | 2025.12.30 在博客

在 Kubernetes v1.34 及更早版本中，使用 k8s.io/cloud-provider 库构建的云控制器管理器（CCM）实现中的路由控制器会以固定的时间间隔进行路由协调。这会导致在路由没有变化的情况下，向云提供商发出不必要的 API 请求。其他使用同一库实现的控制器已经使用基于监听的机制，利用 informer 来避免不必要的 API 调用。 v1.35 版本引入了一个新的特性门控，允许更改路由控制器的行为，使其使用基于监听的 informer。新特性 SIG …

更多
Kubernetes v1.35：引入工作负载感知调度

借由 Maciej Skoczeń (Google), Dominik Marciński (Google) | 2025.12.29 在博客

调度大型工作负载比调度单个 Pod 更复杂、也更脆弱，因为它通常需要把所有 Pod 作为整体来考虑，而不是逐个独立调度。例如，在调度一个机器学习批处理任务时，你往往需要有策略地放置每个 worker（例如放在同一个机架上），才能让整体执行效率更高。同时，这类工作负载中的 Pod 在调度视角下往往非常相似，这从根本上改变了调度过程应有的形态。虽然已经有很多定制调度器可以高效处理工作负载调度，但考虑到工作负载调度对 Kubernetes 用户的普遍性和重要性，尤其是在 AI 时代 …

更多
避免升级到 etcd v3.6 时出现僵尸集群成员

借由 Benjamin Wang（VMware by Broadcom）， Josh Berkus（Red Hat） | 2025.12.21 在博客

本文是对近期发布在官方 etcd 博客原文的镜像转载。关键信息：升级到 v3.6 之前，务必先升级到 etcd v3.5.26 或更高版本。这样能自动修复集群，避免僵尸成员问题。问题概述最近，etcd 社区解决了一个升级时可能出现的问题：当用户从 v3.5 升级到 v3.6 时，集群可能会出现“僵尸成员”。这些僵尸成员是之前从数据库集群中移除的 etcd 节点，却又重新出现并加入数据库共识。集群会因此无法正常工作，直到这些僵尸成员被再次移除。在 etcd v3.5 及以前版本， …

更多
Kubernetes v1.35：Job Managed By 特性正式发布（GA）

借由 Dejan Zele Pejchev (G-Research), Michał Woźniak (Google) | 2025.12.18 在博客

在 Kubernetes v1.35 中，通过 .spec.managedBy 指定外部 Job 控制器的能力升级为正式可用（GA）。该特性允许外部控制器对 Job 的调谐（reconciliation）承担完全责任，从而解锁更强大的调度模式，例如借助 MultiKueue 进行跨多集群派发。为何要委派 Job 调谐？该特性的主要动机是支持多集群批处理调度架构，例如 MultiKueue。 MultiKueue 架构区分“管理集群（Management Cluster）”与一组“工作集 …

更多