职位描述
职位概述:
我们正在招聘一名高技能、积极主动的站点可靠性工程师(SRE)加入我们的技术团队。在此岗位上,您将参与设计、构建并维护可扩展、可靠且安全的云可移植系统。您将与软件工程和 IT 团队密切合作,保障关键业务服务的可用性、性能与弹性。这是一个在云原生环境中,推动自动化、可观测性和事件响应最佳实践的好机会。
主要职责:
• 设计、构建并维护高可用、可扩展的系统和基础设施。
• 为部署、监控、管理和告警开发和实施自动化。
• 与开发团队合作,确保应用的可靠性和运维。
• 监控系统性能,主动发现问题,推动故障根因分析与解决。
• 定义并跟踪服务级别指标(SLI)、服务级别目标(SLO)和服务级别协议(SLA)。
• 创建和维护系统、流程及事件报告的完善文档。
• 管理和维护 CI/CD 流水线及基础设施即代码(IaC)。
• 推动安全、合规和灾难恢复的最佳实践。
• 参与值班轮岗,响应生产事故。
• 持续寻求提升系统可靠性、可扩展性和性能的机会。
技能要求:
• 具有 3 年及以上 SRE 或 DevOps 岗位经验。
• 精通 Linux/Unix 系统管理和 TCP/IP 网络。
• 至少熟悉一种主流公有云(AWS、Azure 或 GCP)。
• 有 Kubernetes (K8s) 集群管理经验(升级、扩展、排查故障)。
• 熟悉容器化技术(Docker、Padman 等)。
• 熟练掌握一种或多种脚本/编程语言(Go、Java、Python、Bash 等)。
• 熟悉监控、日志和可观测性工具(如 Prometheus、Grafana、ELK、Datadog 等)。
• 有 GitOps 工作流和自动化工具(如 FluxCD、ArgoCD)实践经验。
• 熟悉配置管理/IaC 工具(如 Terraform、Ansible、Helm 等)。
• 具备优秀的故障排查和解决问题的能力。
• 良好的沟通及协作能力,要求流利的英文沟通。
加分项:
• 有使用 Golang 开发 Kubernetes Operator 的经验。
• 熟悉 RabbitMQ、Kafka 等消息总线与流服务的性能调优和故障排查。
• 有数据库管理与扩展(如 MongoDB、Cassandra)深度经验。
• 具备混沌工程相关原理及工具的实际操作经历。
• 有高可用、低延迟系统环境经验者优先。
学历要求:
• 计算机科学、工程或相关专业本科及以上学历。