{"id":143,"date":"2011-08-10T17:26:06","date_gmt":"2011-08-10T16:26:06","guid":{"rendered":"http:\/\/klondike.xiscosoft.es\/klog\/?p=143"},"modified":"2011-08-11T17:10:52","modified_gmt":"2011-08-11T16:10:52","slug":"un-vistazo-desde-el-infierno-o-por-que-apoyo-a-los-senores-benjami-y-gallir","status":"publish","type":"post","link":"https:\/\/klondike.es\/klog\/2011\/08\/10\/un-vistazo-desde-el-infierno-o-por-que-apoyo-a-los-senores-benjami-y-gallir\/","title":{"rendered":"Un vistazo desde el infierno (o por que apoyo a los se\u00f1ores @benjami y @gallir)."},"content":{"rendered":"<p>Domingo de una Campus Party a 2 o 3 horas del cierre del servidor de Direct Connect, la introducci\u00f3n de un nuevo sistema en el servidor (con manifiestos problemas de concurrencia que s\u00f3lo aparecieron al ir a vivo por el n\u00famero de usuarios y que tardamos en identificar) junto a problemas con algunos usuarios que compart\u00edan contenidos ilegales a mitad de semana y un nuevo firewall mucho m\u00e1s restrictivo hab\u00edan hecho mella en mis horas de sue\u00f1o hasta el punto de acabar dormido sobre el suelo esa noche. Al poco de despertarme y mientras ando preguntando a los operadores que tal hab\u00eda ido en mi ausencia (y la de imobilis el otro root admin del DC por entonces) me comentan que han aparecido cientos de usuarios con contenidos ilegales\u00a0 durante esa noche.<\/p>\n<p>Tras indagar en las causas nos damos cuenta que las reglas de ADL por defecto, que instala el cliente cuando no hay ninguna,  que en teor\u00eda deber\u00edan ocultar dichos contenidos para evitar su difusi\u00f3n los hac\u00edan aparecer en la cabeza de la lista con lo que muchos usuarios despistados se los bajaron creyendo que eran de otro tipo durante el frenes\u00ed de la \u00faltima noche. Adem\u00e1s conforme iban pasando los minutos su distribuci\u00f3n aumentaba m\u00e1s y m\u00e1s por lo que era necesario tomar medidas cuanto antes.<\/p>\n<p>Seguir el procedimiento tradicional no era factible pues no pod\u00edamos banear y atender personalmente a varios cientos de usuarios de una sentada, proponer que modificasen el archivo con las reglas tampoco era muy buena idea pues si se eliminaba se regeneraba y pedir que lo modificar\u00e1n no ser\u00eda f\u00e1cil para los menos avezados. Tampoco pod\u00edamos adelantar el cierre del servidor (aunque en perspectiva quiz\u00e1s hubiera sido la mejor opci\u00f3n) porque nos hab\u00edamos comprometido a cerrarlo a una hora determinada y normalmente lo solemos hacer con ciertas tradiciones incluyendo una cuenta atr\u00e1s con todo el equipo reunido.<\/p>\n<p>Conforme intentaba aplicar la soluci\u00f3n  que aparentaba m\u00e1s factible (hacer b\u00fasquedas por los ficheros inadecuados y banear a los usuarios con un mensaje indicando claramente el fichero causante del ban) ten\u00eda a 5 compa\u00f1eros insistiendo cada uno en aplicar una soluci\u00f3n distinta. Y entonces&#8230; ocurri\u00f3. Cerr\u00e9 los ojos dos minutos me di cuenta de que yo no ganaba nada con esto, lo hac\u00eda por diversi\u00f3n y que la situaci\u00f3n no iba a solucionarse de esta manera, al menos no con tanta presi\u00f3n a mis espaldas, y lo mand\u00e9 todo a tomar por culo con un grito de rabia. Enfadado, les ped\u00ed a los 3 operadores que intentasen avisar a los usuarios del problema y banear a los afectados con un aviso claro. El admin auxiliar (un chico muy majo con muchos conocimientos de administraci\u00f3n de sistemas pero que no conoc\u00eda del todo la arquitectura del sistema) sigui\u00f3 insistiendo y cabreado le respond\u00ed que s\u00ed quer\u00eda solucionarlo as\u00ed (la soluci\u00f3n estaba pensada a medio plazo como medida de prevenci\u00f3n m\u00e1s que otra cosa) le dije que lo hiciera \u00e9l, y me fu\u00ed furioso al ba\u00f1o (no hab\u00eda podido atender la llamada de la naturaleza desde hac\u00eda horas lo que contribuy\u00f3 a mi cabreo).<\/p>\n<p>Entonces \u00bfa qu\u00e9 viene esta an\u00e9cdota? La situaci\u00f3n es parecida a la de <a title=\"La crisis que se comi\u00f3 Gallir.\" href=\"http:\/\/gallir.wordpress.com\/2011\/08\/10\/la-crisis-con-amazon-aws\/\">Gallir<\/a>, el problema va haci\u00e9ndose m\u00e1s y m\u00e1s grande conforme pasa el tiempo y los planes de contingencia fallan (no ten\u00edamos por entonces un plan de contingencia para algo as\u00ed porque lo consider\u00e1bamos muy improbable). Para m\u00e1s INRI el otro administrador (imobilis) en ese momento estaba durmiendo y no pod\u00edamos contar con \u00e9l porque ten\u00eda que conducir hasta Granada ese d\u00eda, lo que merm\u00f3 a\u00fan m\u00e1s nuestra capacidad de respuesta. Sin embargo aprendimos muchas cosas de esta.<\/p>\n<ol>\n<li>El equipo de operadores y administradores de DC gracias a los a\u00f1os que llevamos tratando hemos desarrollado una complicidad que nos permiti\u00f3 recuperarnos en las horas siguientes, de hecho los propios operadores pidieron ayuda a compa\u00f1eros de su clan para resolver la situaci\u00f3n y cuando volv\u00ed 1 hora despu\u00e9s me hab\u00edan perdonado todo y el problema estaba casi resuelto.<\/li>\n<li>Nunca conf\u00edes en que un cliente no puede fastidiarla, el fallo de un cliente distribuido entre m\u00e1s de la mitad de los usuarios es m\u00e1s grave que un fallo en el servidor (queremos intentar tener un sistema de actualizaciones autom\u00e1ticas integrado en el cliente por si acaso).<\/li>\n<li>Hay algo m\u00e1s importante que un buen plan de contingencia: un buen equipo. Un equipo preparado te resolver\u00e1  los problemas cuando los planes fallen.<\/li>\n<\/ol>\n<p>En fin, esta entrada quer\u00eda escribirla desde que pas\u00f3 aquello, as\u00ed que s\u00f3lo agradecer al equipo su ayuda y compresi\u00f3n de nuevo. Y apoyar a Gallir y decirle que de mayor quiero ser c\u00f3mo \u00e9l pues la \u00faltima vez que me com\u00ed un marr\u00f3n tan grande revent\u00e9 en vez de tomarmelo todo con tanta calma y profesionalidad como \u00e9l.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Domingo de una Campus Party a 2 o 3 horas del cierre del servidor de Direct Connect, la introducci\u00f3n de un nuevo sistema en el servidor (con manifiestos problemas de concurrencia que s\u00f3lo aparecieron al ir a vivo por el n\u00famero de usuarios y que tardamos en identificar) junto a problemas con algunos usuarios que [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[9],"tags":[15,14],"class_list":["post-143","post","type-post","status-publish","format-standard","hentry","category-campus-party","tag-campus-party-2","tag-dc"],"_links":{"self":[{"href":"https:\/\/klondike.es\/klog\/wp-json\/wp\/v2\/posts\/143","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/klondike.es\/klog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/klondike.es\/klog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/klondike.es\/klog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/klondike.es\/klog\/wp-json\/wp\/v2\/comments?post=143"}],"version-history":[{"count":4,"href":"https:\/\/klondike.es\/klog\/wp-json\/wp\/v2\/posts\/143\/revisions"}],"predecessor-version":[{"id":145,"href":"https:\/\/klondike.es\/klog\/wp-json\/wp\/v2\/posts\/143\/revisions\/145"}],"wp:attachment":[{"href":"https:\/\/klondike.es\/klog\/wp-json\/wp\/v2\/media?parent=143"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/klondike.es\/klog\/wp-json\/wp\/v2\/categories?post=143"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/klondike.es\/klog\/wp-json\/wp\/v2\/tags?post=143"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}