职位描述
工作职责:
1、系统稳定性支撑:协助维护企业核心业务系统(如 APP 后端、数据服务)的日常运行,参与服务器、数据库、中间件(Redis/Kafka)的巡检与状态监控,及时发现并反馈异常问题;
2、自动化工具开发:参与 SRE 自动化平台建设,基于 Python/Go 等语言开发运维脚本(如批量部署、日志分析工具),提升运维效率,减少重复人工操作;
3、监控与告警优化:协助搭建或优化监控体系(如使用 Prometheus/Grafana),配置关键指标告警规则,降低误报率,确保系统故障能快速被感知;
4、故障应急响应:参与线上故障排查与处理(如服务超时、服务器宕机),记录故障处理过程,协助输出复盘报告,推动问题根源解决;
5、文档与规范建设:整理运维操作手册(如系统部署流程、常见问题排查指南),参与制定 SRE 工作规范,保障运维操作的标准化与可复用性。
任职资格:
1、2026届应届生,本科及以上学历,计算机相关专业,良好的计算机基础(网络,存储,操作系统等);
2、熟悉常见的公共组件(redis,nginx,mq)和数据库(mysql,oracle)的动作原理和配置方法;
3、对云原生(K8S,微服务,分布式)有自己独特的见解,有K8S相关证书优先;
4、具备良好的表达沟通能力和学习能力,很强的集体荣誉感及团队协作精神,OWNER意识,工作认真负责,态度积极主动,对结果负责;
5、具备一定coding能力,可以通过自动化的方法解决工作遇到的一些重复工作,提升工作效率;
6、有实际组织班级活动或参加过校园创业大赛优先。
截止日期:2026年10月11日