440 millones en 45 minutos: 7 señales de que tu servicio va a fallar

Antes de entrar en materia, déjame contarte la historia de terror favorita de todo SRE.

440 millones perdidos en 45 minutos

Ocurrió la mañana del 1 de agosto de 2012. Knight Capital Group, una de las mayores firmas de trading de Wall Street, desplegaba una actualización de su software.

Tenían 8 servidores. El equipo de operaciones actualizó el software en 7 de ellos... pero se olvidó de uno.

¿El problema? El nuevo código reutilizaba una "flag" antigua que supuestamente ya no servía. Pero en ese octavo servidor no actualizado, esa "flag" activaba una función de prueba antigua llamada Power Peg, diseñada para comprar acciones agresivamente sin importar el precio.

A las 9:30 a.m. abrió la bolsa. En el segundo 1, el sistema empezó a enviar órdenes erróneas. Los ingenieros veían el caos, pero no sabían qué estaba pasando. No tenían un "kill switch" automatizado. Tuvieron que rastrear el problema manualmente mientras el dinero se evaporaba.

Resultado: En solo 45 minutos, perdieron 440 millones de dólares. La empresa quebró y fue vendida poco después.

No fue un hacker. No fue un terremoto. Fue un proceso de despliegue manual defectuoso y deuda técnica acumulada.

¿Te suena lejano? Quizás no pierdas millones, pero las causas raíz de ese desastre son las mismas que tiran tu servicio un martes cualquiera.

7 señales inconfundibles de que tu servicio va a fallar

Hoy vamos a hablar de un tema que me maravilla, pero que también me ha dado muchísimos dolores de cabeza a lo largo de mi carrera: los incidentes.

Seguro que te suena la historia: servicio caído, todos corriendo como pollos sin cabeza y tú preguntándote por qué siempre pasa lo mismo. La realidad es que los desastres rara vez ocurren "de la nada". Casi siempre hay señales previas, alarmas silenciosas que ignoramos hasta que es demasiado tarde.

Esta semana he querido recopilar las 7 señales inconfundibles de que tu servicio va a fallar. Si en tu empresa detectas 4 o más de estas, ten cuidado: el incidente no es una posibilidad, es una certeza (y probablemente te pillará en vacaciones).

Aquí las tienes:

1. El "Factor Bus" es 1 (Silos de conocimiento)

¿Hay una parte de tu infraestructura que "solo toca Fulanito"? Si tienes un servicio crítico que solo una persona sabe cómo funciona, tienes una bomba de relojería. El problema no es si fallará, sino cuándo (spoiler: será cuando esa persona esté desconectada).

2. La ansiedad por desplegar los viernes por la tarde

Esas prisas de última hora... "Ya está acabado, súbelo y nos vamos". Desplegar un viernes a las 17:30 sin las pruebas adecuadas es jugar a la ruleta rusa con tu fin de semana. Si no puedes garantizar la calidad, espera al lunes. Tu "yo del futuro" te lo agradecerá.

3. Monitoring pobre: Solo logs y CPU

Si tu monitorización se basa solo en ver si la CPU está al 100% o en leer logs, estás ciego. Necesitas métricas de negocio y tiempos de respuesta. Si no sabes qué está pasando realmente, cuando todo caiga, lo único que podrás hacer es reiniciar y rezar (y eso nunca funciona a largo plazo).

Newsletter Semanal

¿Te gusta lo que lees?

Únete a otros ingenieros que reciben reflexiones sobre carrera, liderazgo y tecnología cada semana.

4. El Onboarding eterno (2 meses o más)

Si una persona nueva tarda dos meses en ser productiva, tu sistema es demasiado complejo o está fatal documentado. Esa misma complejidad es la que os hará tardar una eternidad en arreglar un bug en una parte legacy del código.

5. Ignorar los Postmortems

El ser humano es el único animal que tropieza dos veces con la misma piedra, pero los ingenieros no deberíamos permitirlo. Si tuviste un incidente grave y no documentaste las causas ni ejecutaste las acciones para evitar que se repita, estás pidiendo a gritos que vuelva a pasar.

6. El Síndrome del Héroe

¿Siempre es la misma persona la que salva el día? Eso no es bueno. Genera una dependencia brutal y evita que el equipo asuma la responsabilidad (ownership). Además, el héroe acaba quemado y sin poder irse de vacaciones tranquilo. Fomenta la rotación.

7. Runbooks desactualizados

No hay nada peor que un documento de "Cómo solucionar X" que está obsoleto. En medio del caos, seguir instrucciones que no funcionan no solo no ayuda, sino que te hace perder un tiempo valioso intentando averiguar qué falla en el propio manual.

Un incidente de 440 millones casi siempre empieza con una decisión técnica que nadie documentó correctamente. Para elevar el rigor de tu equipo y evitar estos escenarios, te comparto la plantilla de RFC que yo mismo utilizo para proponer y documentar cambios críticos:

Recurso Recomendado

Plantilla RFC (Request for Comments)

Estructura profesional para proponer cambios técnicos, evaluar alternativas y documentar decisiones en equipo.

¿Te sientes identificado?

Si has visto estas señales en tu día a día, es hora de actuar. No esperes a que el sistema colapse. Invertir en observabilidad, documentación y cultura de equipo es la única forma de dormir tranquilo.

Contenido de Newsletter

Este contenido fue enviado primero a mi newsletter

Cada semana envío reflexiones exclusivas, recursos y análisis profundos sobre ingeniería de software, liderazgo técnico y desarrollo de carrera. No te pierdas el próximo.

Únete a más de 5,000 ingenieros que ya reciben contenido exclusivo cada semana