张贴在 2026

  • Headlamp 2025 年度项目亮点

    借由 Evangelos Skopelitis (Microsoft) | 2026.01.22 在 博客

    本公告是对最初在 Headlamp 博客上发布的帖子的回顾。 Headlamp 在 2025 年取得了长足的发展。该项目持续成长,覆盖了更多平台和团队; 通过插件机制支持了新的工作流和集成方式;同时也看到了来自更广泛社区的协作不断增强。 我们想借此机会分享一些最新进展,并重点介绍 Headlamp 在过去一年中的演进与变化。 更新 加入 Kubernetes SIG UI 今年标志着该项目的一个重要里程碑:Headlamp 现已成为 Kubernetes SIG UI 的正式组成部分。此举使路 …

    更多

  • 宣布成立 Checkpoint/Restore 工作组

    借由 Radostin Stoyanov, Viktória Spišaková, Adrian Reber, Peter Hunt | 2026.01.21 在 博客

    Kubernetes 社区包含多个特别兴趣小组(SIG)和工作组(WG), 旨在促进感兴趣的贡献者之间就重要议题展开讨论。 今天,我们宣布成立新的 Kubernetes Checkpoint Restore WG, 专注于将 Checkpoint/Restore 功能集成到 Kubernetes 中。 动机和应用场景 工作组讨论了以下几个高层次的应用场景: 优化交互式工作负载(例如 Jupyter Notebook 和 AI 聊天机器人)的资源利用率 加速初始化时间较长的应用程序启动, …

    更多

  • Kubernetes v1.36:可变 CSI 节点可分配特性正式发布(GA)

    借由 Eddie Torres (Amazon Web Services) | 2026.01.14 在 博客

    我很高兴地代表 Kubernetes SIG Storage 社区宣布可变 CSI 节点可分配计数特性已在 Kubernetes v1.36 中毕业为正式可用(GA)! 该特性最早在 Kubernetes v1.33 中作为 Alpha 版本引入,并在 v1.34 中提升为 Beta 版本, 它允许容器存储接口(CSI) 驱动动态更新报告的节点能够处理的最大卷数量。 此特性显著提高了 Pod 调度决策的准确性,并减少了由于过时的卷容量信息导致的调度失败。 背景 传统上,Kubernetes …

    更多

  • Kubernetes v1.35:扩展容忍度运算符以支持数值比较(Alpha)

    借由 Heba Elayoty (Microsoft) | 2026.01.05 在 博客

    许多生产级 Kubernetes 集群会混合使用按需(on-demand,高 SLA)节点与 spot/可抢占(preemptible,低 SLA)节点, 以在保证关键工作负载可靠性的同时优化成本。平台团队需要一个“安全默认值”,让大多数工作负载远离风险容量, 同时又允许特定工作负载用明确阈值显式选择接受(opt-in),例如“我可以容忍失败概率最高 5% 的节点”。 目前,Kubernetes 的污点与容忍度(taints and tolerations)可以匹配精确值或检查键是否存在, 但 …

    更多

  • Kubernetes v1.35: 通过就地重启 Pod 实现更高的效率

    借由 Yuan Wang Giuseppe Tinti Tomio Sergey Kanzhelev | 2026.01.05 在 博客

    Kubernetes 1.35 版本引入了一项强大的新特性,满足了用户对 Pod 就地重启的迫切需求。 这项名为“重启所有容器”(Restart All Containers,1.35 版本为 Alpha 版)的特性, 相比于资源用量较高的删除并重建整个 Pod 的方式,能够更高效地重置 Pod 的状态。 该特性对于 AI/ML 工作负载尤为实用,使应用程序开发人员能够专注于核心训练逻辑, 同时将复杂的故障处理和恢复机制交给边车容器和声明式 Kubernetes 配置来处理。 …

    更多

张贴在 2025

  • Kubernetes 1.35:版本化 z-pages API 带来更强大的调试能力

    借由 Richa Banker, Han Kang | 2025.12.31 在 博客

    调试 Kubernetes 控制平面组件可能很具挑战性, 尤其是在需要快速理解组件运行时状态或验证配置时。 在 Kubernetes 1.35 中,我们为 z-pages 调试端点带来结构化、可被机器解析的响应, 让构建工具和自动化排障流程变得更加轻松。 什么是 z-pages? z-pages 是 Kubernetes 控制平面组件所公开的特殊调试端点。 它们在 Kubernetes 1.32 中以 Alpha 特性引入, …

    更多

  • Kubernetes v1.35:云控制器管理器中的基于监视的路由协调

    借由 Lukas Metzner (Hetzner) | 2025.12.30 在 博客

    在 Kubernetes v1.34 及更早版本中,使用 k8s.io/cloud-provider 库构建的云控制器管理器(CCM)实现中的路由控制器会以固定的时间间隔进行路由协调。 这会导致在路由没有变化的情况下,向云提供商发出不必要的 API 请求。 其他使用同一库实现的控制器已经使用基于监听的机制, 利用 informer 来避免不必要的 API 调用。 v1.35 版本引入了一个新的特性门控,允许更改路由控制器的行为, 使其使用基于监听的 informer。 新特性 SIG …

    更多

  • Kubernetes v1.35:引入工作负载感知调度

    借由 Maciej Skoczeń (Google), Dominik Marciński (Google) | 2025.12.29 在 博客

    调度大型工作负载比调度单个 Pod 更复杂、也更脆弱, 因为它通常需要把所有 Pod 作为整体来考虑,而不是逐个独立调度。 例如,在调度一个机器学习批处理任务时, 你往往需要有策略地放置每个 worker(例如放在同一个机架上), 才能让整体执行效率更高。 同时,这类工作负载中的 Pod 在调度视角下往往非常相似, 这从根本上改变了调度过程应有的形态。 虽然已经有很多定制调度器可以高效处理工作负载调度, 但考虑到工作负载调度对 Kubernetes 用户的普遍性和重要性, 尤其是在 AI 时代 …

    更多

  • 避免升级到 etcd v3.6 时出现僵尸集群成员

    借由 Benjamin Wang(VMware by Broadcom), Josh Berkus(Red Hat) | 2025.12.21 在 博客

    本文是对近期发布在官方 etcd 博客原文的镜像转载。 关键信息: 升级到 v3.6 之前,务必先升级到 etcd v3.5.26 或更高版本。这样能自动修复集群,避免僵尸成员问题。 问题概述 最近,etcd 社区解决了一个升级时可能出现的问题:当用户从 v3.5 升级到 v3.6 时,集群可能会出现“僵尸成员”。这些僵尸成员是之前从数据库集群中移除的 etcd 节点,却又重新出现并加入数据库共识。集群会因此无法正常工作,直到这些僵尸成员被再次移除。 在 etcd v3.5 及以前版本, …

    更多

  • Kubernetes v1.35:Job Managed By 特性正式发布(GA)

    借由 Dejan Zele Pejchev (G-Research), Michał Woźniak (Google) | 2025.12.18 在 博客

    在 Kubernetes v1.35 中,通过 .spec.managedBy 指定外部 Job 控制器的能力升级为正式可用(GA)。 该特性允许外部控制器对 Job 的调谐(reconciliation)承担完全责任,从而解锁更强大的调度模式, 例如借助 MultiKueue 进行跨多集群派发。 为何要委派 Job 调谐? 该特性的主要动机是支持多集群批处理调度架构,例如 MultiKueue。 MultiKueue 架构区分“管理集群(Management Cluster)”与一组“工作集 …

    更多