使用 TICK 堆栈和 Slack 监控集群集群

原文：https://medium.com/hackernoon/monitor-swarm-cluster-with-tick-stack-slack-3aaa6483d44a

在本文中，我将向您展示如何建立一个开源时间序列平台来监控您的 Docker Swarm cluster &发送关于 Slack 的通知，以防异常检测。

我们监控堆栈的组件:

用于收集和报告指标的插件驱动的服务器代理。

用于度量、事件和实时分析的可扩展时间序列数据库。

用于在数据基础上构建图表的实时可视化工具。

时间序列数据的处理、监控和警报框架。

实时团队消息应用程序。

注意:这篇文章中使用的所有代码都在我的 Github 上。

1 —群组设置

如果您已经有了一个现有的 Swarm 集群，您可以跳过这一部分，如果没有使用以下脚本来设置一个具有 3 个节点的Swarm(1 个管理器 & 2 个工作器):

发出以下命令:

chmod +x setup.sh 。/setup.sh

上述命令的输出如下:

2 —堆栈设置

创建完成后，通过 SSH 连接到您的管理器节点，并克隆以下存储库:

https://github.com/mlabouardy/swarm-tick.git

为了启动所有这些容器，我使用了 docker-compose :

发出以下命令来部署堆栈:

docker stack deploy — compose 文件 docker-compose.yml tick

等待节点从 DockerHub 中提取图像:

拉出后，您应该会看到服务正在运行:

在http://IP:8888(chrono grafDashboard)上打开浏览器，正确配置数据源:

3 —系统使用仪表板

点击“创建仪表板，并为仪表板指定一个名称:

在添加图形之前，我们将使用一个叫做仪表板模板变量的概念，来创建动态的&交互式图形。在我们的度量查询中，我们将使用变量来代替像节点名和容器名这样的硬编码。因此，点击前面创建的仪表板顶部的“模板变量”。并且，创建一个名为 :host: 的变量，如下所示:

注意:目前，还没有为用 swarm 全局模式 ( Github )创建的服务设置主机名的解决方案。这就是为什么我们得到的是 id 列表而不是名字

您现在可以使用仪表板顶部的下拉菜单来选择:主机:模板变量的不同选项:

现在是时候创建我们的第一个图表了，所以点击“添加图表按钮。

3.1 —每个节点的内存使用量

要创建查询，您可以使用查询构建器，或者，如果您已经熟悉 InfluxQL ，您可以在文本输入中手动输入查询:

从“vm_metrics”中选择 mean(“free”)作为“mean_free”，mean(“used”)作为“mean_used”，mean(“total”)作为“mean_total”。“自动发电机”。" mem_vm "其中 time >:dashboard time:AND " host " =:host:GROUP BY:interval:FILL(null)

我们的查询计算度量 mem_vm 中字段键 free 、 used 和 total 的平均值，并按照时间和节点名称对它们进行分组。

您可以通过点击“选项选项卡来更改图形类型、X 轴和 Y 轴格式:

仪表板上的一个可视化效果并不十分有趣，所以我添加了更多的图表来展示更多的可能性:

3.2 —每个节点的 CPU 使用率

从“vmmetrics”中选择 mean(“usage user”)作为“mean_usageuser”，mean(“usage system”)作为“mean_usage_system”。“自动发电机”。" cpu_vm "其中 time >:dashboard time:AND " host " =:host:GROUP BY:interval:FILL(null)

3.3 —每个节点的磁盘使用量

从“vm_metrics”中选择 mean(“free”)作为“mean_free”，mean(“total”)作为“mean_total”，mean(“used”)作为“mean_used”。“自动发电机”。" disk_vm "其中 time >:dashboard time:AND " host " =:host:GROUP BY:interval:FILL(null)

我们最终得到了这样一个漂亮的仪表板:

让我们创建另一个仪表板来监控在集群上运行的 Docker 容器。

4 —群体服务仪表板

创建第二个名为“ Services ”的仪表板，并创建一个模板变量来存储集群上运行的服务列表:

您可以按服务名过滤 now 指标:

4.1 —每个服务的内存使用量

从“dockermetrics”中选择 mean(“usage percent”)作为“mean_usage_percent”。“自动发电机”。" docker_container_mem_docker "其中 time > :dashboardTime:和" com . docker . swarm . service . name " =:container:GROUP BY:interval:FILL(null)

4.2 —每项服务的 CPU 使用率

从“dockermetrics”中选择 mean(“usage percent”)作为“mean_usage_percent”。“自动发电机”。" docker_container_cpu_docker "其中 time > :dashboardTime:和" com . docker . swarm . service . name " =:container:GROUP BY:interval:FILL(null)

4.3 —网络发送/接收

从“dockermetrics”中选择 mean(“tx packets”)作为“mean_txpackets”，mean(“rx packets”)作为“mean_rx_packets”。“自动发电机”。" docker_container_net_docker "其中 time > :dashboardTime:和" com . docker . swarm . service . name " =:container:GROUP BY:interval:FILL(null)

4.4 —每个服务的 IO 读/写

从“dockermetrics”中选择 mean(“io serviced recursive write”)作为“mean_io_recursive_writewrite”，mean(“io serviced recursive read”)作为“mean io serviced recursive read”。“自动发电机”。" docker_container_blkio_docker "其中 time > :dashboardTime:和" com . docker . swarm . service . name " =:container:GROUP BY:interval:FILL(null)