职位发布者
职位描述
-通过与我们的交易技术团队携手合作,不断提高我们交易系统的弹性、吞吐量和延迟配置文件
-管理和支持我们的 AWS 云基础设施、EC2 实例和物理服务器
-开发和管理 IaC 以确保我们基础设施的一致性
-确保我们的操作系统构建和配置的安全强化
-管理和维护配置管理工具以确保一致性
-将我们的堆栈与 Kubernetes 集成
-确保堆栈设计和操作的 SRE 最佳实践
-设计、实施和测试灾难恢复功能,以确保我们的业务
-在发生技术故障时能够继续运营
-参与升级的随叫随到轮班
要求:
-理论和实践网络知识,包括但不限于单播和多播路由协议、Linux 内核的 TCP 堆栈实现、拥塞避免/控制(例如 BBR)、流量控制、网络模拟、AWS VPC/TGW 和 Kubernetes VPC CNI 等。DPDK 经验是一个加分项。
-具有内核故障排除的专业经验:strace、bpftrace、perf 分析/跟踪、导航/阅读/构建相关内核代码。
-具有用户空间监控(例如 Thanos/Prometheus/AlertManaging)、日志记录(例如 Splunk/Loki)、警报、故障排除、分析/跟踪等的专业经验。
-具有丰富的 AWS 实践知识,至少有 5 年支持和管理基于 Linux 的系统的 SRE/DevOps 经验。最好拥有计算机科学或工程学位 - 需要对基本的计算机科学原理有深入的理解。
-熟悉 Kubernetes/Ansible/Chef 以及一种或多种编程语言:Python、Golang、C、NodeJS。
特别申明:
- 熊猫招聘严禁企业和招聘者用户做出任何损害求职者合法权益的违法违规行为,包括但不限于扣押求职者证件、收取求职者财物、向求职者集资、让求职者入股、诱导求职者异地入职、异地参加培训、违法违规使用求职者简历等。 若发布的职位存在违法等恶意内容的情况, 请立即举报
工作地址