V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
Symo

k8s 如何实时监控 deployment 的部署结果

  •  
  •   Symo · Apr 21, 2022 · 3393 views
    This topic created in 1481 days ago, the information mentioned may be changed or developed.

    比如当 apply 一个新的 deployment 的时候, 如果部署成功了只能通过日志观测, 但是日志报警却无法配置成实时, 希望是能有一个工具可以监控 deployment 对应的 pod 状态, 然后通知到 IM 里面. 做了一些搜索但是没有找到类似的组件, 目前使用的是阿里的 ACK 托管集群. 求教目前比较常见的解决方案有哪些

    12 replies    2022-07-28 13:44:39 +08:00
    Judoon
        1
    Judoon  
       Apr 21, 2022
    “如果部署成功了只能通过日志观测”
    这个结论是怎么得出的?

    pod 加上健康检查的话,本身 k8s 接口就能获取到生命周期状态啊
    Symo
        2
    Symo  
    OP
       Apr 21, 2022
    @Judoon 通过 kubectl 是周期性的检查容器状态吧?
    目前的状况是打算把现在的 ECS 部署上 K8S, 但是通过阿里云提供的 flow 部署之后就没有办法看到 pod 的状态.
    能想到的办法就是在 postStart 的时候 curl 一个外部请求, 但是感觉不是合理, 万一网络波动反而造成 pod 失败.
    cutiechi
        3
    cutiechi  
       Apr 21, 2022
    TracyMagic
        4
    TracyMagic  
       Apr 21, 2022
    prometheus 加上个告警不就可以了吗?
    xnile
        5
    xnile  
       Apr 21, 2022
    可以自己用 client-go 实现一个
    fighterhit
        6
    fighterhit  
       Apr 21, 2022
    我理解楼主的意思,上头的可能没做过这块不清楚需求。其实我们在做的时候也一直面临这个问题,想获取状态无非是"推"、“拉”两种,像轮询这种就算是“拉”,但是和拉的时间间隔有关,不好把握,不一定是实时的;另一种“推”就是 k8s 所在的某个服务端直接给你推状态结果。我们现在是自己写的一套根据事件 event 来跟踪结果,达到某个状态(比如你可以定义为 pod 所有容器 started )来”回调“(其实相当于“推”)给前端等其它模块来感知结果。但这里面也有问题,一是 k8s event 不保证一定有,也就是可能会丢(只不过我们从没遇到过),另一个就是 k8s 本身有些状态不是一次性的,可能会重试成功(比如 imagePullBackOff ),虽然出现了错误但实际内部重试几次可能还会成功,也就是中间的错误状态也会变。相对好点的方法你可以用 websocket 流来实时推 pod 状态,但需要你编写一些代码。其实 k8s client-go 里 informer 的 list-watch 机制挺好的,利用了 etcd 特性 watch 变化来推送给客户端,之前一直在找有没有类似实现机制的框架可以方便实现其它用途,因为 informer 是 k8s client-go 里的除非把它拆出来,但目前还没找到。
    Frankcox
        7
    Frankcox  
       Apr 21, 2022
    写点代码,利用 List Watch 机制监控下试试?
    最近自己也在搞一个 k8s 的监控服务,监控 cluster 的健康和 pod 与 events ,用 bark 推送到 ios 。
    Symo
        8
    Symo  
    OP
       Apr 22, 2022
    @fighterhit 是这样的, 今天又找到一个阿里的开源实现 https://github.com/AliyunContainerService/kube-eventer, 在阿里云自己的 ACK 集群上面使用的也是这个, 但是比开源的版本更新. 内部实现用的就是 list&watch 的机制, 感觉可以参考这个代码开发一下.
    fighterhit
        9
    fighterhit  
       Apr 23, 2022
    @Symo 嗯,之前大概了解过这个项目。如果是监听 k8s 资源变化基本都是用的 k8s client-go list-watch 机制,但跳出 k8s 资源来不知道有没有这种类似的框架
    kowgarnett
        10
    kowgarnett  
       Apr 27, 2022
    希望实时那要不要考虑直捣 etcd 去 watch key ?
    yyttrr
        11
    yyttrr  
       Apr 28, 2022
    我这里是部署按钮边上做了个检查按钮,点击通过 api 获取对应 pod 的状态,可以一个个的看 std 日志、event 啥的,谁上线谁看
    dnsjia
        12
    dnsjia  
       Jul 28, 2022
    用 client-go 获取 deployment pod 就绪数量,同时判断 template-hash 能够满足你的需求
    https://docs.dnsjia.com/application/deploy/
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1386 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 48ms · UTC 17:08 · PVG 01:08 · LAX 10:08 · JFK 13:08
    ♥ Do have faith in what you're doing.