Linux运维自动化核心在于可复用、可追溯、易协作,需坚持声明式描述、安全、幂等、分环境三原则;Ansible适合中小规模,SaltStack适配大规模,均须遵循IaC规范与故障应急机制。
Linux运维自动化不是写几个脚本就完事,关键在可复用、可追溯、易协作的设计逻辑。批量部署和配置管理的核心,是把“人执行的动作”变成“机器理解的声明式描述”,同时守住安全、幂等、分环境这三条底线。
Ansible适合中小规模场景,SSH直连、YAML写法直观、模块丰富。重点不在“能跑”,而在“怎么组织”。建议按角
色拆解playbook:web.yml、db.yml、monitor.yml,每个文件只负责一类服务;变量统一放在group_vars/或host_vars/下,避免硬编码IP或密码;敏感信息用ansible-vault加密,而不是注释掉或写进Git。
SaltStack适合500+节点以上场景,Master-Minion架构天然支持高并发。真正落地难点不在安装,而在state文件设计。推荐按功能分SLS文件(如nginx.sls、users.sls),再用top.sls按环境(dev/staging/prod)绑定主机和状态;所有路径、端口、用户都定义为Jinja变量,通过pillar动态注入;禁止在state里写shell命令,该用file.managed就不用cmd.run。
所有playbook、SLS、模板文件必须进Git仓库,分支策略参考Git Flow:main存生产就绪配置,develop集成功能,feature分支命名带业务标识(如feat-redis-auth)。每次合并前走PR流程,至少一人CR;上线前用ansible-playbook --check或salt '*' state.show_highstate预览变更;生产环境首次应用,先选3台同类机器灰度,确认日志、监控、业务指标无异常再全量。
再完善的自动化,也要考虑“一键切回人工”的能力。比如Ansible playbook里保留deploy_manual.yml,只做基础环境准备(用户、目录、权限),跳过服务启停;Salt的top.sls里预留manual环境,对应minion_id以-manual结尾;所有部署脚本输出完整日志到/var/log/automate/,带时间戳和执行ID,方便关联ELK排查。
# linux
# 架构
# 批量部署
# red
# 状态码
# 配置文件
# ai
# curl
# 端口
# 编码
# nginx
# git
# redis
# echo