sviluppo-web-qa.it

Il miglior incidente con l'amministratore di sistema

Sto cercando storie divertenti sugli incidenti dell'amministratore di sistema che hai avuto. Eliminazione dell'email del CEO, formattazione del disco rigido errato, ecc.

Aggiungerò la mia storia come risposta.

87
Alan H

Mi sono divertito a scoprire la differenza tra il comando "killall" di Linux (uccide tutti i processi corrispondenti al nome specificato, utile per fermare gli zombi) e il comando "killall" di solaris (uccide tutti i processi e arresta il sistema, utile per arrestare il server di produzione in nel bel mezzo delle ore di punta e far ridere tutti i tuoi colleghi per una settimana).

133
Tim Howland

Mi occupavo del nostro proxy web aziendale che all'epoca era il prodotto di Netscape. Mentre giocavo nei moduli di amministrazione (era un'interfaccia basata sul web) c'era un grande pulsante (e giuro che era rosso) che diceva Elimina database utenti. Nessun problema, ho pensato. Vediamo quali sono le opzioni che mi dà quando lo colpisco. Sicuramente ci sarà un prompt di conferma se non ci sono opzioni.

Sì, nessuna conferma. Nessuna opzione Non più utenti.

Quindi, è andato dal Sig. Solaris Sysadmin e ha detto che avevo un disperato bisogno di un ripristino dal nastro a cui ha risposto: "Non eseguo il backup di quella scatola".

"Uh, vieni di nuovo", ribattei.

"Non eseguo il backup di quella casella. È nella mia lista di cose da aggiungere alla rotazione del backup ma non ci sono ancora riuscito."

"Questo server è in produzione da quasi 8 mesi!" Ho urlato.

scrollata di spalle , rispose. "Scusate."

73
squillman

Molti anni fa la società per cui lavoravo aveva un client che eseguiva un backup notturno del server NT 4.0 su un Jaz drive (come un disco Zip ad alta capacità).

Abbiamo impostato un file batch, che è stato eseguito come lavoro pianificato durante la notte. Ogni mattina raccoglievano il disco delle scorse notti dall'unità e prima di partire la sera inserivano il disco successivo nella sequenza.

Ad ogni modo, il file batch era simile a questo (l'unità Jaz era l'unità F:) ...

@echo off
F:
deltree /y *.*
xcopy <important files> F:

Ad ogni modo, una notte si sono dimenticati di inserire il disco. La modifica all'unità F: non riuscita (nessun disco nell'unità) e il file batch ha continuato a essere eseguito. La directory di lavoro predefinita per il file batch? C :. La prima volta che ho visto una routine di backup distruggere il server di cui stava eseguendo il backup.

Quel giorno ho imparato qualcosa sul sysadminning (e sulla gestione delle eccezioni).

Jim.

PS: la correzione? "deltree/y F:\*. *".

66
Jim OHalloran

root @ dbhost # find/-name core -exec rm -f {} \;

Io: "Non riesci a entrare? OK. Qual è il nome del DB?"

Cu: "Core".

Io: "Oh".

61
Dave

Adoro il modo in cui tutti qualificano la loro storia con "quando ero giovane/verde" come se non l'avrebbero mai più rifatta. Gli incidenti possono capitare anche ai professionisti più esperti.

Il mio peggior momento è così brutto che ho ancora delle palpitazioni a pensarci ...

Avevamo un SAN con dati di produzione su di esso. Critico per l'azienda. Il mio "mentore" ha deciso di estendere una partizione per liberare spazio sul disco. Riesci a vedere dove sta andando? Ha detto che il SAN potrebbe farlo dal vivo, nelle ore di produzione e nessuno se ne accorgerebbe. Le campane di allarme avrebbero dovuto iniziare a suonare, ma erano notevolmente silenziose. Ha detto di aver fatto "un sacco di volte prima "senza problemi. Ma ecco il punto - mi ha fatto fare clic sul pulsante che diceva" sei sicuro? "! Dato che ero nuovo della compagnia, ho pensato che questo ragazzo sapesse di cosa stava parlando. Grande errore. la buona notizia era che il LUN si era esteso, la cattiva notizia era ... beh, sapevo che c'erano brutte notizie quando ho iniziato a vedere errori di scrittura del disco sulla finestra di Windows.

Sono contento di indossare pantaloni marroni.

Abbiamo dovuto spiegare perché 1 TB di dati era scomparso all'ora di pranzo. È stata una giornata davvero brutta.

In realtà è un buon principio: prima di fare qualcosa di cui hai dei dubbi, immagina di dover spiegare al management se qualcosa va storto. Se non riesci a pensare a una buona risposta per spiegare le tue azioni, allora non farlo.

60
PowerApp101

Nagios ci ha telefonato una mattina quando l'orario di lavoro ha iniziato a dire che non poteva connettersi a un server non critico. Ok, fai un'escursione nella sala server. È un vecchio server, un Dell 1650 acquistato nel '02, e sapevamo che i 1650 avevano problemi hardware. Il PFY colpisce il pulsante di accensione. Niente. Colpiscilo di nuovo e tienilo premuto per cinque secondi per "forzare l'accensione" ... il che sovrascrive la protezione degli errori del BMC, poiché senza un DRAC non c'è modo di esaminare i registri BMC senza avere l'alimentazione allo chassis.

La macchina avvia POST, quindi muore di nuovo. Sto sopra di esso e dico "Sento odore di fumo". Estraiamo il server su Rails e uno degli alimentatori sembra caldo, quindi il PFY lo estrae e sta per chiudere la scatola. Dico "No, non è fumo dell'alimentazione, è fumo della scheda madre".

Apriamo di nuovo il caso e cerchiamo la fonte dell'odore che brucia. Viene fuori una bobina di induttore e un condensatore qualcosa ha fatto esplodere il regolatore di tensione sulla scheda madre e ha spruzzato rame fuso e condensatore goop su tutto, mettendo in corto circuito un sacco di cose e fondamentalmente facendo un gran casino.

La parte peggiore per me era riconoscere che avevo fumato abbastanza hardware per riconoscere la differenza tra l'odore di una scheda madre bruciata e un alimentatore bruciato.

54
Karl Katzke

Tre giorni fa (seriamente) sono stato effettuato l'accesso remoto a un server scolastico, installando Service Pack 2 su un file server Windows Server 2008.

Ho deciso di pianificare il riavvio necessario per la sera tardi, quando gli insegnanti non avrebbero effettuato l'accesso per finire le pagelle di fine anno. Ho scritto qualcosa del tipo:

 alle 23:59 "shutdown -r -t 0" 

... che potrebbe aver funzionato bene.

Ma poi ho indovinato me stesso. La sintassi del mio "arresto" era corretta? Ho provato a visualizzare la guida all'uso digitando

 spegnimento/h 

... e ho perso immediatamente la mia connessione RDP. Nel panico, ho colpito Google per la sintassi. Una rapida ricerca ha rivelato che la versione Server 2008 di shutdown include un parametro/h, che (come avrete intuito) va in letargo sulla macchina.

Gli insegnanti hanno iniziato a chiamarmi in pochi minuti per segnalare che non potevano più aprire o salvare le pagelle su cui stavano lavorando. Dato che ero fuori sede e la sala server era chiusa a chiave, ho dovuto chiamare direttamente il preside della scuola e guidarla attraverso il processo di riaccensione della macchina.

Oggi ho portato biscotti fatti in casa a tutti come una forma di scuse.

47
Brent D

In un precedente lavoro, disponevamo di un ottimo sistema locale che registrava e archiviava ogni singolo pezzo di posta che entrava, usciva o rimaneva all'interno dell'azienda.

Hai spazzato via tutta la tua casella di posta? Nessun problema! Alla ricerca di un pezzo di posta che qualcuno ti ha inviato una settimana/mese/anno fa ma non ricordi chi lo ha inviato o quale fosse l'oggetto? Nessun problema! Restituiremo tutto da febbraio per te in una cartella speciale.

Ad un certo punto, è emersa la necessità che l'amministratore delegato dell'azienda monitorasse la posta tra un concorrente e un venditore interno sospettato. Quindi abbiamo impostato uno script che è stato eseguito ogni notte e consegnato la posta pertinente dal giorno precedente al CEO. Nessun problema!

Circa un mese dopo la notizia di un doppio e più urgente problema scese dall'alto. Sembra che mentre il CEO stava leggendo l'elenco delle mail inviate a $ OTHERCOMPANY, si fosse imbattuto in questo:

To: [email protected]$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)

Naturalmente, essendo il CEO una persona importante e tutto il resto, era troppo impegnato per fare clic su tutte quelle finestre di dialogo "Invia ricevuta di lettura" in Outlook e aveva configurato il suo client per inviarle tutte. Uno dei messaggi catturati dal filtro di monitoraggio aveva una richiesta di conferma di lettura impostata. Indovina cosa ha fatto Outlook? Certamente risolto il monitoraggio "clandestino".

Il nostro prossimo compito: aggiungere regole al filtro di posta per bloccare le conferme di lettura in uscita dal CEO a quella società. Sì, è stato il modo più semplice. :)

37
MikeyB

Ah, il mio era circa 10 anni fa, quando mi stavo ancora bagnando i piedi. Ho avuto la gioia di installare i backup della batteria su tutti i computer dei programmatori. Volevano anche che il software fosse caricato per avvertire di mancanza di corrente e spegnersi correttamente.

Quindi l'ho installato sul mio computer per testare tutto prima ovviamente e assicurarsi che tutto funzionasse. Quindi scollego il cavo di alimentazione e il messaggio appare sullo schermo. msgstr "alimentazione esterna persa, avvio arresto del sistema".

Quindi ho pensato, Hey, ha funzionato. Ma per qualche strano motivo, non ricordo nemmeno, ha inviato quel messaggio come messaggio di rete, quindi tutti i 200+ computer dell'azienda hanno ricevuto quel messaggio, dove 100+ utenti erano programmatori.

Sì, parla di fuori di testa !!

Ho tenuto la testa bassa in quel posto per un po '!

36
jherlitz

Userei spesso il comando "sys-unconfig" sulle macchine Solaris per ripristinare il servizio Nome macchina, I.P. indirizzo e password di root. Ero su un sistema di utenti e ho effettuato l'accesso al server di installazione dell'edificio e ho cercato qualcosa (come root), dimenticando di aver effettuato l'accesso a un'altra macchina (prompt "#" non descrittivo) Ho eseguito il comando "sys-unconfig".

# sys-unconfig     
        WARNING

This program will unconfigure your system.  It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.

This program will also halt the system.

Do you want to continue (y/n) ? y

Connection closed

#

Quel messaggio "connessione chiusa" si trasformò lentamente in panico ... a quale macchina ero connesso quando ho eseguito quel comando.

La parte peggiore di questo non è stato il momento difficile che i miei colleghi mi hanno dato, è stato che ho fatto la stessa cosa un mese dopo.

35
Alan H

Ne ho una abbastanza buona. Certo, era prima del mio tempo come amministratore di sistema, ma era ancora legato alla tecnologia, quindi ho pensato di aggiungerlo.

All'epoca lavoravo come tecnologia satcom/a banda larga per l'USAF. Dopo essermi laureato in una scuola tecnica, mi sono trovato di stanza in Corea del Sud. Poco dopo l'arrivo in stazione, si presentò l'opportunità di viaggiare a sud con i "grandi" che erano stati lì per un po 'e in realtà lavorare su alcune attrezzature del mondo reale (cioè "produzione").

Sono andato giù con l'equipaggio e come un giovane tecnico impaziente, si stava rilassando un po ', abbastanza eccitato dalla prospettiva di mettere le mani su un vero pezzo di equipaggiamento che stava passando il traffico di voce e dati militari LIVE.

Per iniziare lentamente, mi hanno consegnato un manuale, si sono rivolti alla sezione di manutenzione preventiva e mi hanno indicato nella direzione di quattro rack pieni di molti grandi multiplexer digitali. L'attrezzatura era abbastanza facile, avevamo coperto la stessa attrezzatura nella scuola di tecnologia.

Prima pagina del manuale letto; "Alimentare il multiplexer ditigale. Ruotare entrambi gli interruttori posteriori in posizione ON e attendere l'accensione dell'apparecchiatura, quindi iniziare i test." Alzai lo sguardo e c'era già il potere APPLICATO!

Ero sicuramente in un dilemma. Non sapendo come procedere, ho girato al meglio, "Ummmm .. Kinda perso qui", guarda il senior.

Mi guardò e rise, "No, no, va bene. Puoi ignorare quella parte della lista di controllo." Poi, quando notò lo sguardo sul mio viso, (dato che a scuola ci hanno insegnato MAI, MAI ignorato qualsiasi parte di una lista di controllo, ed era certo morte e distruzione se si dovesse farlo) ha dato uno sguardo serio al suo faccia e disse: "Ignora SOLO quella parte! Segui il resto, fino alla lettera!"

Devo dire che ho eseguito il multi-step PM istruzioni, felice come una vongola e orgoglioso di aver permesso a una tecnologia di così basso rango (anche se intelligente) di fare questo importante lavoro.

Tra la quinta e la sesta lista di controllo per la manutenzione preventiva su questi enormi multiplexer ho iniziato a notare un aumento del livello di attività attorno a me. I telefoni squillavano, le persone si muovevano rapidamente. Si stavano scambiando sguardi interrogativi.

Alla fine, un gruppo di persone corse da me, guidato da uno dei tecnici senior che mi aveva abbattuto.

"Ehi! Stiamo vedendo enormi interruzioni nel traffico dati e abbiamo isolato/tracciato il percorso di ritorno ai rack su cui stai lavorando! Stai vedendo qualcosa di strano .."

(A quel punto fu interrotto da un altro degli addetti alla risoluzione dei problemi che si erano fatti strada verso il primo gruppo di multiplexer su cui avevo eseguito i PM.)

"NOCI SANTE! SONO SPENTI! STATI SPEGNENDO !!!!"

In breve tempo, guardai mentre correvano frettolosamente attraverso il primo passo del manuale, "Ruota entrambi gli interruttori posteriori in posizione ON ..." Quando la tecnologia senior fu finita, si avvicinò a me e mi chiese incredulo cosa stavo pensando di, spegnendo le apparecchiature critiche.

Spaventato dal mio ingegno, gli consegnai la lista di controllo che stavo seguendo, giurando che non avevo deviato affatto. Che l'avevo seguito, "alla lettera" come aveva ordinato.

Dopo un po 'rise e indicò dove si trovava il problema.

Nel manuale, la fase FINALE nell'elenco di controllo della manutenzione preventiva era:

"Registrare la lettura finale della sonda, pulire il pannello anteriore, rimuovendo tutta la polvere e il particolato, quindi portare entrambi gli interruttori di alimentazione posteriori in posizione OFF."

:)

27
Greg Meehan

Stavo ricaricando un sistema per qualcuno e durante il processo di backup manuale gli ho posto la domanda "Hai altri programmi che usi?" e "C'è qualcos'altro di importante che fai sul computer?"

Ha detto "no" SEVERAL volte.

Ero convinto e formattato l'unità.

Circa 30 minuti dopo ha detto "oh mio dio" e gli ha messo entrambe le mani in testa.

Si scopre che ha lavorato alla sceneggiatura di un libro per oltre 10 ANNI in un programma specializzato. Questo era quando i programmi usavano per salvare i dati dell'utente nella sua directory dei file di programma e mi mancava.

Whhhhooooops.

Non era arrabbiato con me, ma era una sensazione rassicurante.

26
MathewC

È una specie di incidente di amministratore di sistema ... nella misura in cui gli amministratori di sistema devono occasionalmente trasportare fisicamente un gran numero di macchine dal punto A al punto B (dove A e B sembrano essere sempre separati da diverse rampe di scale in un edificio senza ascensore). Durante l'ennesima gita della giornata, mi sono fermato per un attimo di tre voli su dal piano di carico del seminterrato per chattare con qualcuno che stava scendendo, ho appoggiato la torre a grandezza naturale con la stazione che stavo schizzando sul corrimano interno del vano scala aperto e ... beh, hai indovinato ... leggermente perso la presa su di esso. Si immerse infallibilmente dritto nel pozzo e quando raggiunse il fondo, ehm ... non tanto con la funzionalità di quello! Parti totalmente recuperabili: due stick di RAM, un floppy drive e una scheda ISDN (Dio benedica la gente dell'ingegneria di Hermstedt!). Tutto il resto si spezzò, crepitò o si spezzò in piccoli pezzi.

Per grazia di Dio, nessuno camminava sotto, il che, per fortuna per me, è stato il primo del mio capo, quindi ho dovuto mantenere il mio lavoro. Però mi sono sentito molto male per circa un'ora.

Morale: la gravità vince sempre!

26
avstrallen

Il mio preferito personale non è in realtà il mio, e ne sono MOLTO felice. Dai un'occhiata qui.

23
RainyRat

Questo non è successo a me, ma ...

Lavoravo in un'azienda che produceva software che funzionava su macchine Linux fornite dal client. Sostanzialmente 'prenderemmo il controllo' delle macchine, le configureremmo completamente secondo le nostre specifiche e faremmo tutto il management e il monitoraggio. Essenzialmente, eravamo un team di 10-15 amministratori di sistema, in grado di gestire migliaia di server per centinaia di clienti. Gli errori dovevano succedere.

Uno del nostro team ha riscontrato alcuni problemi su un server (un backup, credo) e ha deciso che avrebbe dovuto eseguire fsck su di esso. Ha interrotto tutti i servizi rilevanti, si è assicurato che il sistema fosse stato sottoposto a backup di recente, quindi ha eseguito fsck, ma si è lamentato del fatto che il filesystem fosse montato. Dato che eravamo remoti e non avevamo accesso remoto (DRAC, ILO, ecc.), Non poteva fare l'sck, ma era abbastanza sicuro che sarebbe stato sicuro farlo con il filesystem montato, se stavi attento.

Ha deciso di provarlo da solo eseguendo fsck sulla sua partizione di root, con risultati prevedibili: ha corrotto la sua partizione di root e non è più riuscito ad avviarsi.

Confuso, si avvicinò e parlò con il capo della nostra squadra. Il lead ha detto che era abbastanza sicuro che non potevi farlo, e il membro del team ha detto 'Certo che puoi!', Ha preso la tastiera del lead e gli ha mostrato che puoi - eseguendo fsck sulla partizione root del lead. Che ha completamente danneggiato la sua partizione root HIS.

Risultato finale? Nessun dato perso dai clienti, grazie ai test dei membri del team. Sono stati persi due giorni di produttività dei dipendenti, ma ciò è valso molto, molto meno dei dati sulla macchina del cliente. E per la cronaca? È possibile eseguire fsck su un'unità montata, ma solo per verificare i dati. Non ripararlo. Questo è stato l'errore del membro del team.

-

Per aggiungere la mia storia, lavoravo nella stessa azienda e cercavo di reimpostare una password utente. Il nostro sistema ha rifiutato di consentirmi di impostarlo sulla password di cui aveva bisogno, perché ha tracciato gli hash delle password precedenti e si è rifiutato di consentirti di duplicare la password. Il meccanismo era semplice: ha convalidato la tua password rispetto all'hash più recente nel database.

(E per la cronaca, doveva essere la vecchia password perché era un account condiviso e assicurarsi che tutti sapessero che la nuova password non era pratica)

Ho deciso di andare nel database degli utenti ed eliminare i nuovi record in modo che usasse quello più vecchio. È tutto solo SQL (che esegue una versione antica di Sybase), quindi è facile. Innanzitutto, ho dovuto trovare i record:

SELECT * FROM users_passwords WHERE username='someuser';

Ho trovato il vecchio disco che voleva conservare; ce n'erano altri due davanti. Ho deciso di essere intelligente e di eliminare qualsiasi cosa più recente del vecchio disco. Guardando il set di risultati, ho visto che la vecchia password era l'ID # 28 nel database e le nuove erano l'ID #superimila (sistema molto occupato). È semplice, tutte le vecchie righe erano> 28, quindi:

DELETE FROM users_passwords WHERE id > 28;

Non c'è niente di peggio che fare una semplice potatura di file e vedere "212.500 righe interessate". Fortunatamente, avevamo due server di database master (con l'ID utente), ma Sybase (almeno, la nostra versione) non supportava la replica automatica, quindi non cancellava automaticamente i vecchi record. È stato banale ottenere un dump della tabella users_passwords e reimportarlo. Eppure, un grande "oh f ** k!" momento.

23
Dan Udey

Digitato kill 1 come root. init e tutti i suoi figli sono morti. E tutti i loro figli. ecc. ecc.

Quello che intendevo digitare era kill %1

Dopo aver realizzato quello che ho fatto, sono corso sul pannello di controllo di una BIG selezionatrice di balle di lana e ho premuto il pulsante di arresto di emergenza. Ciò ha impedito alla macchina di strapparsi in pezzi, poiché avevo appena ucciso il software che lo controllava.

22
Jason Tan

Dichiarazione DELETE senza una clausola WHERE, nel database degli utenti attivi dei clienti.

22
Ian Boyd

Un altro dei miei preferiti:

Quando ho installato un computer e una stampante laser locale su un sistema, ho avuto la brillante idea di collegarli entrambi all'UPS del computer. Hai mai provato a stampare su una stampante laser locale quando è collegato a un UPS desktop? Bene, se non lo sai, tende a tirare tutti gli amplificatori ... Il che riavvia il computer ... E il lavoro di stampa non finisce mai ...!

Hai mai ricevuto la chiamata: 'Ogni volta che stampo, riavvia il mio computer e non stampa !!!'?

Ops!

JFV

22
JFV

Eravamo nel mezzo di un'interruzione di corrente e abbiamo visto che l'UPS funzionava al 112% del suo carico configurato. Questo non era un grosso problema dato che stavamo correndo sul generatore in quel momento.

Quindi andammo in giro tirando i cavi di alimentazione di backup per ridurre il consumo di energia su quell'UPS (ne avevamo due, uno molto più grande dell'altro). Siamo arrivati ​​allo switch di rete che gestiva la sala server (questa era la sala server con tutti i server interni dell'azienda, con i clienti che affrontavano i server in un'altra sala server). Lo switch era un grande switch di classe enterprise con tre alimentatori. Le forniture erano N + 1, quindi ne avevamo bisogno solo due per far funzionare l'interruttore.

Abbiamo preso un cavo e lo abbiamo estratto. Sfortunatamente per noi gli altri due sono stati collegati a una singola ciabatta, che è esplosa prontamente quando il carico è salito sui due alimentatori che sono stati collegati. Quindi l'amministratore di sistema è andato nel panico e ha inserito il terzo cavo. L'interruttore ha tentato di accendersi, mettendo l'intero carico dell'interruttore sul singolo alimentatore. Invece di interrompere l'alimentazione elettrica, esplose in una pioggia di scintille a non più di 12 pollici dalla mia faccia, facendomi tornare indietro nel rack di server.

Per istinto ho provato a saltare di lato, ma sfortunatamente alla mia sinistra c'era un muro, e due alla mia destra era un ragazzo di 6'4 "molto grande. In qualche modo sono riuscito a saltargli addosso, o forse a farlo rimbalzare via dei rack Compaq (quelli con i frontali a maglie sottili) senza mettere un intero nel rack e senza toccare il ragazzo delle strutture.

21
mrdenny

Ad un certo punto della mia carriera, un'indagine legale presso la società per la quale lavoravo ci imponeva che tutte le e-mail fossero conservate da "questo giorno" in avanti, fino a quando diversamente indicato. Dopo circa un anno di archiviazione dei backup completi giornalieri del nostro ambiente di scambio (1 TB ogni notte) abbiamo iniziato a rimanere senza spazio.

Gli amministratori dello scambio hanno suggerito di conservare solo l'ottava copia dell'e-mail. Per fare ciò, abbiamo dovuto ripristinare i database di scambio per un periodo di giorni, estrarre l'e-mail di cui avevano bisogno (persone specifiche contrassegnate per un'indagine) e archiviarlo nuovamente. Lo hanno fatto per ogni 8 ° giorno di posta elettronica per tutti i nostri backup. È stato scelto l'ottavo giorno perché Exchange aveva un set di parametri in cui "elementi eliminati" sono conservati nel database per 8 giorni.

Dopo aver terminato ogni archivio, tornavo indietro ed eliminavo tutti i backup più vecchi di quelli che avevano archiviato.

TSM non ha un modo semplice per farlo, quindi è necessario eliminare manualmente gli oggetti dal database di backup.

Ho scritto uno script che eliminerebbe tutti i backup più vecchi di una data, mediante un calcolo della data usando la differenza tra oggi e la data in questione. Un giorno ho dovuto cancellare circa un mese di backup, tranne quando ho fatto il calcolo della data, ho fatto un refuso e ho inserito la data come 7/10/2007 anziché 6/10/2007, ed eseguito lo script. Ho cancellato un intero mese di dati in più, accidentalmente che faceva parte di una causa molto importante.

Successivamente, ho aggiunto alcuni passaggi allo script per confermare che si desidera eliminare i dati e mostrarti cosa stava per eliminare ...

Fortunatamente, non hanno nemmeno mai usato nessuno dei dati che abbiamo lavorato così duramente per preservare, e ho ancora il mio lavoro.

20
WerkkreW

Dopo una lunga giornata o un tracciamento delle prestazioni e l'ottimizzazione di un enorme mainframe (sai che le bestie che impiegano un paio d'ore prima che tutti i siti di backup in standby abbiano concordato che è effettivamente riavviato e completamente sincronizzato) Ho allungato le dita, digitato spegnimento soddisfatto -p ora sul mio portatile Prompt, chiuse il coperchio, strappò il cavo seriale dal mainframe, con l'anticipazione di un bel bicchiere freddo di birra chiara.

Improvvisamente sento il suono assordante di far girare il mainframe mentre il mio laptop mostrava ancora felicemente X.

Mentre aspettavo che la macchina tornasse completamente online, ho deciso di avere il tempo di far funzionare il mio ACPI sul mio laptop in modo da non essere mai tentato di spegnere il mio laptop.

20

Ho cancellato l'account di qualcuno per errore, ho confuso i nomi con quello che volevo eliminare. Opps

Il bello è che non hanno mai saputo cosa è successo. Ho ricevuto la chiamata a cui non potevano accedere, il centesimo è caduto sull'account che ho eliminato.

Mentre ero al telefono con loro, ho ricreato rapidamente il loro account, ricollegato la loro vecchia cassetta postale (per fortuna Exchange non cancella subito le cassette postali) e l'ho ricondotto ai loro vecchi file utente.

Poi li ho incolpati per aver dimenticato la loro password che avevo appena ripristinato per loro :)

16
SpaceManSpiff

Ho accidentalmente installato un file tar.gz sulla mia scatola Gentoo Linux nel posto sbagliato e ha lasciato i file dappertutto. Questo deve essere stato intorno al 1999, 19 all'epoca (grazie per i commenti qui sotto)

Essendo il geek che sono, ho deciso di provare a copiarmi dal lavoro di sfogliare manualmente ogni file.

Quindi ho provato:

tar --list evilevilpackage.tar.gz | xargs rm -rf

Non mi ci è voluto molto tempo per notare che tar elencava anche tutte le directory utilizzate dal programma, quelle incluse erano ''/usr,/var,/etc '' e alcune altre che non volevo davvero andare.

CTRL-C! CTRL-C! CTRL-C! Troppo tardi! Tutto finito, reinstallare il tempo. Fortunatamente la scatola non conteneva nulla di importante.

16
Andrioid

Questo incidente non si è verificato ... ma vale la pena ricordare:

Sono stato inviato a un data center molto utilizzato per condurre test di larghezza di banda su un nuovo circuito. Sono arrivato alla sala demarc/IDF, ho trovato un posto su uno degli scaffali per il mio router di prova, ho effettuato i miei collegamenti e ho iniziato i test. Sfortunatamente, non sono riuscito a notare che il router di frontiera in produzione non si trovava esattamente sul rack successivo (quasi allo stesso livello), ma che aveva anche la stessa marca e modello del mio router di test.

Quando il test è stato completato, ho iniziato a premere l'interruttore di accensione in posizione off (... immaginalo al rallentatore ...) e, lo giuro, proprio mentre stavo applicando la pressione mi sono reso conto che il router di cui mi trovavo spegnere era quello in produzione. Il mio cuore si è fermato e quasi ... beh, uso la tua immaginazione.

Ho lasciato il data center MDF appariva spaventato e pallido, ma allo stesso tempo felice di avere ancora un lavoro!

16
l0c0b0x

Come una piccola parte della mia vita precedente ho amministrato il file server dell'azienda, una scatola 4:11 di netware. Non ha quasi mai avuto bisogno di alcun input, ma se lo ha fatto, hai aperto una finestra della console remota.

Abituato a usare il DOS continuamente, quando avevo finito, naturalmente scrivevo "Esci". Per Netware, "exit" è il comando per arrestare il sistema operativo. Fortunatamente, non ti farà chiudere a meno che tu non abbia prima "Down" il server (rendilo non disponibile per la rete/i client) Quindi quando digiti "Esci" nella console, dice utilmente, "Devi prima digitare" Giù "prima di poter uscire"

Chiedimi quante volte ho 1: ho digitato "exit" nella sessione della console e 2: Obbedientemente ho digitato "Down" e poi "Exit" in modo da poter "finire quello che stavo cercando di fare"

E poi il telefono inizia a squillare .....

LOL

12
Bob

L'ultimo posto in cui ho lavorato, il mio collega aveva i suoi figli con sé nella sala server (perché? Non ho IDEA!).

Si assicurò che fossero lontani dai server e spiegò al suo bambino di 5 anni che non avrebbe dovuto toccare NESSUNO dei server e Sicuramente nessuno degli interruttori di alimentazione.

In effetti, li aveva proprio vicino alla porta ... (riesci a vedere dove sta andando ...?)

Il ragazzo non ha toccato nessuno dei pulsanti di accensione del server ... No, sarebbe del tutto troppo facile da spiegare. Invece ha colpito il GRANDE PULSANTE ROSSO che era vicino alla porta ... Il pulsante che spegne l'alimentazione all'INTERA SALA SERVER !!!

Le linee telefoniche iniziarono immediatamente a illuminarsi chiedendosi perché Exchange, File Server, ecc. Non fossero disponibili ... Immagina di provare a spiegarlo al CEO!

-JFV

11
JFV

Un'altra storia che non è accaduta (phew):

Ogni giorno eseguivamo backup incrementali su un'unità nastro.

Ci è capitato di scrivere un nastro contenente i dati da spedire a qualcun altro. Dissero "non possiamo leggere il tuo nastro". In realtà, nemmeno noi. O qualsiasi nastro in effetti.

Abbiamo acquistato un'altra unità nastro e abbiamo trattenuto il respiro fino a quando non l'abbiamo installata.

Morale della storia. Assicurati sempre di testare i tuoi backup.

11
Matthew Farwell

Una volta ho litigato con il software di monitoraggio UPS APC. Essendo una piccola azienda, avevamo un paio di piccoli UPS e vari server erano configurati per monitorarli. La maggior parte dei server erano Linux, ma alcuni eseguivano Windows e quindi erano quelli utilizzati perché il software APC è solo Windows.

Tuttavia, il software APC all'epoca era codificato per presumere che l'UPS con cui stava parlando alimentasse anche il suo PC! Questo non era il caso di questo server, ma l'ho scoperto troppo tardi per dirlo di fermarsi. Inoltre, purtroppo, il programmatore principale stava dimostrando il prodotto dell'azienda a un partner: era un'app basata sul Web, in esecuzione sullo stesso server in cui non volevo che il software APC si spegnesse ...

10
staticsan

Lavoro per un provider wireless in Nord America e ho fatto un po 'di formazione per una persona del mio gruppo per eseguire gli ordini di lavoro. Ero stato sveglio le prime due notti (facciamo tutto durante la finestra di manutenzione), ma stava bene e ha detto che doveva impararlo da solo, quindi l'ho lasciato e ho lasciato il mio cellulare e cercapersone. Ho effettuato l'accesso e verificato la configurazione quando mi sono alzato alle 8 del mattino seguente.

Il cambiamento è stato che stavamo aggiungendo un nuovo pool di indirizzi IP per BlackBerrys , il pool che stavamo aggiungendo era di circa 10000 indirizzi. Per fare ciò, aggiungiamo route sul router che puntano all'indirizzo del processore su un blade che esegue tutta l'elaborazione delle chiamate (essenzialmente funziona come un proxy). Inoltre, accediamo al processore e configuriamo il pool IP e colleghiamo il pool IP da utilizzare per i nostri utenti wireless. Tuttavia, per i test, normalmente lo configuriamo su un processore (in realtà avvia un telefono e testiamo tutte le funzionalità), quindi spostiamo la configurazione sul processore effettivo su cui lo desideriamo.

Avanzamento veloce di due settimane e ricevo una chiamata dal nostro centro di controllo che ci sono state molte chiamate in merito ad alcuni problemi intermittenti del BlackBerry, e i pochi BlackBerry che hanno visto sembrano andare in bicicletta in un pool comune, ma non lo erano davvero sicuro di quello che stava succedendo. Mi ci sono voluti solo circa 5 minuti per rendermi conto che questa era la nuova piscina che il mio collega aveva appena aggiunto due settimane prima. Inoltre, non ci volle molto per vedere che il router aveva due percorsi, uno che andava al processore di test e uno che andava al processore di chiamata corretto. Essendo quello che era, si è dimenticato di eliminare il percorso verso il processore di test e ha superato il percorso corretto.

In sostanza un BlackBerry si connetteva alla rete, si connetteva al proxy per ottenere il suo indirizzo IP, il proxy gli dava un indirizzo dal pool con il percorso errato e il BlackBerry cercava di parlare con RIM relay, e la risposta verrebbe instradata al proxy di test e non tornerebbe mai all'utente, essenzialmente senza connettività.

Siamo stati fortunati, tuttavia, poiché i BlackBerry hanno un comportamento che se non possono contattare il relè, si disconnetteranno/riconnetteranno alla rete, ma alcuni dispositivi RIM rimasero senza servizio per diverse ore fino a quando non furono in grado di passare a un funzionamento piscina. Ho ripensato, e quando ho ricontrollato il lavoro, avevo solo verificato la configurazione del proxy che era nuova per questo ragazzo, non ho mai controllato la configurazione del routing poiché questo ragazzo era in precedenza con il team backbone e il routing era la sua cosa. Oops!

L'ho riparato e l'ho chiamato quel pomeriggio, la sua giornata stava andando bene, ma ho iniziato con mi dispiace, ma sto per rovinarti per tutta la settimana. Un anno dopo la storia continua a girare intorno alle birre.

8
Kevin Nisbet

Inciampando su un server tower che era incastrato dietro un rack e colpendo la mia testa sul retro del router principale Cisco mentre scendevo. Rivelando così quanto vagamente i cavi di alimentazione fossero effettivamente alloggiati negli alimentatori sulla parte anteriore del Catalyst 65 .

Si. Adesso abbiamo un elmetto protettivo agganciato nella sala server. Con il mio nome sopra.

8
Bill B

Stavo dando a un nuovo amministratore di sistema un tour di un'app Service Manager. Ho detto "se mai avessi bisogno di interrompere questo servizio, faresti clic su questo pulsante, ma non dovresti mai farlo durante il giorno". Non crederesti mai quanto fosse sensibile il suo pulsante del mouse!

Due minuti dopo il servizio era ripartito e nessuno sembrava accorgersene.

8
Antony

Mia zia mi ha chiesto di riparare il loro computer. Hanno detto che non si sarebbe avviato ed è stato così per 2 settimane. Sospettavo fosse il BIOS o il sistema operativo.

Mi sono seduto davanti al loro computer. Mi sono accovacciato per premere il pulsante di accensione. Alzo lo sguardo.

Il BIOS è passato. Quello è buono.

Il sistema operativo si è avviato. Quello è buono.

Ho spostato il mouse pensando che forse c'è un problema con i dispositivi di input. Non si sono verificati problemi con i dispositivi di input.

Ho aperto il suo elaboratore di testi. Funzionò.

Stampo testare la stampante. Ha stampato.

A questo punto, mi sono alzato e ho detto a mia zia (che mi stava guardando) che non c'è niente di sbagliato nel computer. Ha affermato che non era così prima che mi sedessi.

Ora posso affermare alla mia famiglia che sono così buono, che posso riparare qualsiasi computer semplicemente sedendomi di fronte.

7
MrValdez

Quando sono stato assunto per la prima volta come amministratore di sistema dall'amministratore principale ... nella prima settimana abbiamo ricevuto un nuovissimo server Dell ... Windows Server 2003 ... era il suo bambino piccolo fino a quando non sono stato segretamente chiamato nella sala server a mezzanotte un sabato sera per ripulire da esso numerosi esempi di malware perché stava navigando con esso sul WEB prima della distribuzione SENZA ANTIVIRUS !!!

La pulizia del malware è qualcosa con cui ho avuto molta esperienza, ma dato che si trattava di un server ho fatto un formato e reinstallato per essere ancora più sicuro.

Non gli ho mai detto una parola a riguardo. Sapeva di aver incasinato regalmente.

7
cop1152

Più una cosa di scripting personale che una cosa di amministrazione di sistema, ma ...

Stavo scrivendo uno script Perl per agire come una macro che ora recuperava la riproduzione di informazioni da Banshee e lo inserivo carattere per carattere come eventi da tastiera usando il programma "xte". In questo modo, potrei farlo funzionare all'interno di programmi senza alcuna interazione speciale, sarebbe proprio come l'ho digitato.

Bene, ho codificato la cosa quasi perfettamente. Ho deciso di provarlo in qualche gioco casuale. Il tasto premuto per far apparire la chat era shift + enter. Ora per fare ciò avevo bisogno di tenerlo premuto shift, stampa enter, quindi rilasciare shift. Purtroppo nella mia fretta ho dimenticato "rilasciare maiusc". Ho eseguito la sceneggiatura e questo ha portato al blocco dell'effetto collaterale alquanto esilarante del mio tasto Maiusc. Ho pensato "nessun problema, andrò semplicemente al terminale e scriverò manualmente la linea per rilasciare shift". Sfortunatamente, come tutti sanno, Linux fa distinzione tra maiuscole e minuscole. Non accetterebbe il comando in tutte le maiuscole poiché ho dovuto inserirlo. Non potevo "contraccambiare" o cose del genere.

Ciò mi ha portato a una caccia al tesoro di cinque minuti mentre visitavo i siti Web e utilizzavo il mouse per copiare + incollare singole lettere minuscole nel terminale per formare il comando di cui avevo bisogno per disattivarlo.

7
DWilliams

Non è un grosso problema, ma sicuramente una mattinata "Egg on my face" circa 10 anni fa. Stavo esaminando il vecchio inventario hardware e ri-immaginando i dischi pronti per il download dell'hardware. Cercando di trovare il modo più efficiente possibile per farlo, avevo creato un CD-Rom con una copia di Norton Ghost e l'immagine da applicare. Hai acceso la macchina e, mentre era POST, metti il ​​CD nell'unità. La macchina si avviava dal CD e si reimmaginava automaticamente. Ha funzionato bene.

Il problema si presentava quando stavo facendo copie del CD in modo da poter mettere in parallelo più macchine. Ho finito di masterizzare l'ultimo CD, ho spento il computer desktop e sono tornato a casa per la giornata. Bene, puoi indovinare cosa è successo la mattina dopo. Sono entrato, ho acceso il mio PC e sono andato a fare un caffè ...

Quando sono tornato per qualche motivo la mia macchina era fuori dal dominio e non accettava la mia password ...

Avevo appena capito cosa era successo e ho iniziato a imprecare quando gli altri ragazzi sono arrivati ​​per la giornata. Sì, non mi hanno lasciato vivere per un po '.

7
Sam

In passato, quando ero molto green, avevo bisogno di installare il software AV sul PC dei miei utenti, poiché nessuno sembrava averlo. Quindi ho trascorso un po 'di tempo a capire come eseguire un'installazione remota, piuttosto che colpire circa 40 o 50 desktop. L'installazione remota ha funzionato perfettamente e tutto è andato bene, fino a quando vari gestori non sono entrati nel mio ufficio per lamentarsi di non poter accedere.

Si è scoperto che alcune persone avevano Symantec AV installato sui loro computer e questo non coesisteva affatto con il software McAfee che stavo usando e avrebbe bloccato i computer dopo un tentativo di accesso.

Fortunatamente, è stato possibile disabilitare il servizio in remoto se si è arrivati ​​alla macchina prima che provassero ad accedere, quindi sono riuscito a ottenere punti per risolverlo invece di dover ricostruire tutti i PC di gestione senior ...

7
user2278
6
Rook

Fatto da uno dei miei dipendenti ... Esempio perfetto del perché etichetti chiaramente i tuoi server:

Ho inviato il mio dipendente al colo per ricostruire il server di database MSSQL secondario (che non aveva dati correnti su di esso). Uno primario era attivamente in uso. Probabilmente puoi prevedere il resto di questa storia ... Una volta lì, ha riavviato il server, avviato l'installazione e riformattato le unità, solo per farmi chiamare e chiedergli perché il server di database primario non rispondeva più. (Doh)

6
skraggy

Il mio è successo solo 6 mesi fa. Siamo appena passati a un nuovo server per un'applicazione Web PHP/MySQL. Da quando ho scelto il sistema operativo, ho scelto quello con cui ho più familiarità/familiarità: Ubuntu.

Avevamo una serie di script di backup che sarebbero stati eseguiti da cron ogni ora, ogni giorno, ecc. La transizione è andata perfettamente. Ci sono stati solo circa 2 minuti di inattività mentre ho trasferito il database MySQL dal vecchio server a quello nuovo e ho cambiato IP.

Alcune settimane dopo, stavo lavorando in MySQL dalla riga di comando e cancellavo alcuni vecchi record di test che non erano più necessari. Dato che sono prima un programmatore, poi un secondo amministratore di sistema, ho preso l'abitudine di digitare prima il punto e virgola (;) e poi digitare il comando. Bene, mentre stavo per aggiungere la clausola WHERE alla mia query DELETE, ho accidentalmente premuto il tasto Invio. ... oops.

Query OK, 649 rows affected (0.00 sec)

"Non è un grosso problema", ho pensato. "Il backup orario è appena terminato 4 minuti fa. Potrebbero esserci 3 record persi in tutto. Sono andato rapidamente alla directory di backup e ripristinato. Problema risolto.

... Poi ho notato il timestamp sul backup. Aveva 17 giorni. Non c'erano altri backup. Avevo appena cancellato tutto ciò che era entrato nel sistema meno di 17 giorni prima.

Si scopre che c'è un bug nel demone cron di Ubuntu che gli impedisce di eseguire un file di script con un punto (.) Ovunque nel nome. Non genera un errore, quindi non ci sono prove di un problema. Si rifiuta solo di eseguirlo. Tutti i nostri script di backup avevano punti nei loro nomi. Hanno funzionato perfettamente prima, ma non ora.

Lezioni che ho imparato:

  1. Non inserire il punto e virgola sulla riga di comando di MySQL fino a quando non si desidera effettivamente eseguire la query.
  2. Controllare il timestamp sui file di backup prima di ripristinarli.
  3. Testa i tuoi script di backup e assicurati che funzionino davvero .
6
Andrew Ensley

Molto più tempo di quanto mi piacerebbe pensare, ero la persona tecnica dell'azienda e ho lavorato con alcuni consulenti per l'installazione della loro applicazione. L'hardware era un VAX DEC e utilizzava un server di archiviazione HSC50. I consulenti hanno impiegato gran parte della giornata con la loro installazione e, dopo aver lasciato, ho deciso di eseguire il backup del disco di sistema su un disco vuoto utilizzando l'utilità di copia bit per bit dell'HSC50. Dopo che la copia è stata eseguita e ho provato a riavviare, ho scoperto di aver invertito i nomi del disco di origine e di destinazione e di aver eseguito il backup del disco vuoto bit per bit sul disco di sistema.

Sono stato in grado di ricostruire VMS sul disco di sistema e reinstallare gran parte dell'applicazione, ma penso che non abbia mai funzionato altrettanto bene. Da allora, se stavo facendo una copia/backup/ecc., Proteggerei da scrittura il disco di origine prima di continuare. (Ora che le opzioni di protezione dalla scrittura non esistono più, guardo il comando prima Ho premuto Invio.)

6
JonP

Sono stato chiamato per indagare su un avviso proveniente da un computer Windows che indicava che il sistema di monitoraggio non aveva file di licenza. Ho aperto il comando Prompt e ho iniziato a indagare sul problema e ho scoperto che i comandi di base di Windows non erano nemmeno lì.

Un amministratore di sistema che aveva eseguito uno script in remoto aveva scritto uno script che utilizzava il comando del per eliminare una cartella specificata da una radice e una sottocartella con le cartelle specificate in Variabili d'ambiente. Se le variabili d'ambiente non sono state impostate, ha eliminato in silenzio l'intera partizione.

Quando è stato detto, l'amministratore di sistema è stato così sorpreso che hanno confermato l'azione eseguendo la suddetta sceneggiatura sul proprio taccuino, rovinando così anche quella.

La cosa sorprendente è stata che Windows funzionava bene, fino al riavvio del server. Si lamentava solo il software avaro di monitoraggio.

Era il server Active Directory secondario per un partito politico. Ops.

5
Stuart Woodward

Aggiunta di una regola di bypass a un firewall per accelerare alcuni download di BitTorrent. Si scopre che il sistema utilizzato dalla regola di bypass non era troppo stabile e ha eliminato il firewall. Questo era un firewall di confine per la connessione Internet di ogni scuola in città. A peggiorare le cose, il riavvio è stato appena sufficiente a causare la morte del disco rigido del firewall. Divertente? Non così tanto. Spettacolare fallimento? Decisamente.

4
Mark

Il mio è stato uno sforzo del team tag.

Sono stato incaricato dalla direzione di registrare uno dei nostri DBA in un server in modo che potesse fare una sorta di pulizia. Ha eseguito la sua domanda e immediatamente entrambi i nostri cercapersone sono andati via, il che ha spinto espletivi da entrambi.

A quanto pare, la pulizia era in realtà una goccia del database e doveva essere eseguita su uno dei server di sviluppo. Tuttavia, le istruzioni che ho ricevuto mi hanno portato a ritenere che si trattasse di una piccola operazione di pulizia che avrebbe dovuto avvenire in produzione.

Fortunatamente, siamo riusciti a ripristinare dal backup con una perdita minima di dati.

Lezione imparata: assicurati di sapere SEMPRE ESATTAMENTE cosa dovresti fare quando fai casino con i server di produzione. Se c'è incertezza, è meglio ottenere chiaroveggenza.

4
Bill B

Ok. Ottenere & su una tastiera americana, premi Maiusc-7. Per ottenerlo su una tastiera svedese, premi Shift-6. Quindi, cosa ottieni quando premi Shift-7 su una tastiera svedese? Ottieni /.

Anni fa i layout svedesi non erano così comuni. La mia preferenza personale era quella di utilizzare il layout americano. Un giorno volevo cancellare un mucchio di file e sottodirectory in una directory.

Colpisco:

rm -fr *

Ma è stato troppo lento, quindi ho colpito rapidamente:

Ctrl-C rm -fr * &

O l'ho fatto? Beh non l'ho fatto. Mi ci sono voluti alcuni secondi per capire che ero su una tastiera svedese. Vedi sopra per decodificare quello che è successo. E quel disastro era un dato di fatto.

Quello è stato il giorno in cui ho imparato il comando:

dd

Alla fine sono riuscito a passare praticamente dal disco al nastro, solo che ci è voluta tutta la notte. Il giorno dopo ho saputo che il sistema stava per essere reinstallato comunque.

Sono stato fortunato, ma ho imparato alcune cose.

4
fredarin

Quando la maggior parte della flotta di server era ancora Windows NT, il metodo remoto principale in uso era pcAnywhere. Avevamo un bug "noto", che a volte i server si riavviavano improvvisamente quando usavano pcAnywhere, e agli utenti finali veniva detto di questo noto bug.

Il bug era che pcAnywhere (almeno qualunque versione che stessimo usando) aveva un pulsante "riavvia Host" accanto al pulsante "disconnetti da Host". Quindi ogni tanto ...: D

4
marty

VNC è entrato in un server Win 2k a 200 miglia di distanza, è andato per aggiungere un indirizzo IP, quindi ... fai clic destro sull'icona di rete nella barra delle applicazioni, ha fatto clic su "Disabilita" non "Proprietà" - DOH! .... Soluzione .... Sali in macchina. Non felice! Se solo avessero un 'sei sicuro' su quell'opzione di menu!

Mike

4
Mike McClelland

Estate 2002.

Ho inavvertitamente distribuito IE 6.0 con un riavvio forzato a 16.000 utenti a metà giornata.

In verità ho colto il mio errore e ho digitato il più veloce di sempre odadmin spegni tutto (Comando Tivoli per arrestare tutti i server di distribuzione).

3
Shawn Anderson

Su Linux e FreeBSD hostname -s visualizzerà il nome host breve. Questo è il nome host tagliato al primo punto ".

Su Solaris 9, hostname -s imposterà il nome host come '-s'.

Quindi, il mio collega amministratore ha eseguito uno script per controllare tutti i nostri 120 sistemi, inclusi 10 server Oracle Database Mission Critical in esecuzione su Solaris 9.

for Host in `cat all-hosts`; do
ssh $Host "hostname -s"
done

Tutti i nostri server Oracle sono falliti all'istante. La velocità di questo fallimento è stata davvero sorprendente, ci sono voluti circa 20 secondi per riprenderci da questo errore, ma era già troppo tardi. Era tutto a posto.

L'ironia è che il nostro datacenter ha sofferto di un grave blackout pochi giorni prima e stavamo aggiornando il nostro foglio di calcolo "power down/power up" per garantire un recupero più rapido per eventuali futuri blackout.

3
Stefan Lasiewski

Non io, ma qualcuno con cui lavoro. Hanno creato un criterio sul server AV che conteneva un * nel campo del processo. In parole povere: non consentire la lettura, la scrittura, l'esecuzione di alcun processo che contenga il nome *.

Questa politica è stata quindi replicata su 1.500 server, che a loro volta hanno arrestato RDP e qualsiasi altro processo. Ripararlo significava montare ogni disco rigido del server uno per uno e rimuovere il criterio. 48 ore con una squadra di 15.

3
stuart Brand

Sono un programmatore, quindi tutti i miei errori appartengono a StackTranslate.it. Tuttavia, di seguito sono riportati alcuni degli errori dell'amministratore di sistema a cui ho assistito.

  1. Revocare le autorizzazioni di accesso da TUTTI gli utenti su un dominio Windows NT. (A parte l'amministratore integrato sul PDC, purtroppo solo il contraente che ha impostato il dominio conosceva la password, e se ne erano andati da molto tempo) Non so davvero come sia stato realizzato. So che devo sedermi e chattare con i miei colleghi sviluppatori per alcune ore.

  2. Elimina accidentalmente i server membri OU . Sono state altre poche ore a chattare mentre è stato eseguito un ripristino da nastro.

  3. Il nostro amministratore intendeva autorizzare tutti gli amministratori di dominio a utilizzare l'accesso a CD e unità floppy. (Abbiamo usato SecureNT per controllare l'accesso ai supporti rimovibili in quel momento.) Purtroppo ha ottenuto l'appartenenza al gruppo all'indietro e invece ha dato a tutti gli utenti dei supporti rimovibili anche i diritti di amministratore di dominio completi. Ho trovato questo perché alcune tabelle sono state visualizzate in un database SQL di produzione che era stato creato da un utente che non avrebbe dovuto. Quando ho detto all'amministratore in questione, mi è piaciuto guardare il suo volto cambiare da, no, è il modo giusto, fino a, oh ****. Per fortuna non è stato fatto alcun danno grave.

3
pipTheGeek

Ah, il mio primo grande incidente è stato quando stavo scrivendo un piccolo pannello di amministrazione SVN sul nostro server di sviluppo, un software completamente insicuro che doveva essere utilizzato solo per l'aggiornamento del sito Web interno "Sviluppo".

A volte il repository SVN si corrompeva, quindi avevo scritto un pulsante che avrebbe chiamato un PHP, che avrebbe ripulito l'intera directory SVN richiesta e sembrava simile a questo ..

<?php
$directory=$_GET['dir'];
$result = Shell_exec("Sudo rm -Rvf /".$direcory);
echo $result;
?>

Per coloro che non lo vedono - ho scritto male "$ directory" in Shell_exec, causando l'esecuzione del sistema "Sudo rm -Rvf /" .... Inizialmente pensavo che la pagina web si prendesse solo il tempo per eliminare tutti i file nel repository. Dopo circa 10-15 minuti ho scoperto di aver distrutto oltre 1/2 del file system.

Ops.

2
grufftech

La storia dell'ex datore di lavoro è grandiosa. Alcuni dettagli sono stati modificati per proteggere gli innocenti. Ho avuto un problema con il personale, lo chiamavo Fred, che aveva avuto molti problemi di produttività, ma sembrava essersi riscattato e aver ottenuto alcuni privilegi. L'unico problema era, quando i suoi privilegi venivano ripristinati, un bug in uno script di provisioning gli dava alcuni privilegi extra.

Ero nel mezzo di un grande progetto, quindi ho chiesto a Fred di impacchettare un hotfix di Windows necessario per un'applicazione. (Questo era nei giorni pre-blaster in cui le persone non rattoppavano religiosamente come fanno oggi). Quindi Fred esegue un test nel nostro laboratorio e tutto funziona bene.

Fred quindi fa un paio di domande:

"Who should I Push it to?" (Mind you, this is a patch for some custom VB app)

"Everyone", I respond

"Ok, what time should it start?"

"How about 2AM?", I answer. (Figuring I'd have time to look over everything before I left for the day!)

Quindi cosa succede dopo? Configura un lavoro con la nostra app di distribuzione software per inviare a tutti ed è anche abbastanza gentile da selezionare le caselle per ogni piattaforma supportata dal prodotto. Quindi, imposta l'ora di inizio per le 2:00, come nella 2:00 che ha avuto luogo circa 12 ore in passato.

Il risultato? Tutto si riavvia e prova a installare una patch di runtime VB5. Verso le 2:45 PM di venerdì pomeriggio. Tutto.

Qualunque cosa? Come 40.000 PC? Sì. 3.000 server Windows? Sì. 300 scatole HP, Sun e IBM Unix? Sì. Un cluster AS/400? Sì.

L'unica cosa che non è stata riavviata sono stati i controller di dominio Windows, perché i ragazzi di AD hanno disabilitato la nostra applicazione per qualche motivo. Santo incubo. Dopo una settimana di rastrellamento, non riuscivo a credere di essere ancora impiegato.

La battuta finale? Fred ha ottenuto un'enorme promozione in un lavoro in cui non poteva più ferire nulla.

2
duffbeer703

Forse più di una scoreggia cerebrale a tarda notte di ogni altra cosa.

Uno degli sviluppatori ha avuto problemi con l'esecuzione di un Java profiler su una scatola di Solaris. Il profiler si lamentava che c'erano due copie di Libc; una in /lib e uno in /usr/lib. Quindi dopo alcuni lds abbiamo spostato quello da /lib poiché tutto indicava /usr/lib, o almeno così hanno detto.

Ma all'improvviso nulla ha funzionato. No ls, no cd, no cp o mv. Dopo circa 20 minuti di "oh merda, oh merda" abbiamo capito che uno degli sviluppatori aveva una copia di Emacs attualmente in esecuzione su quella scatola e siamo stati in grado di aprire il backup /lib copia di Libc e riscrivilo con il nome originale. E voilà! Tutto ha funzionato. Lezione appresa; lasciare Libc dove vuole essere e non apportare modifiche alle richieste degli sviluppatori alle 2 del mattino!

2
beggs

Ne ho avuto uno non molto tempo fa. Durante alcuni Oracle ODBC del bridge, ho dovuto modificare il percorso su circa 500 post utente.

È un'operazione abbastanza semplice, davvero. Peccato che mi sono dimenticato di quelle citazioni. Le persone hanno iniziato a squillare dopo aver ricevuto alcuni strani messaggi confusi (il ODBC fallita), e sembrava pensare che il riavvio della macchina sarebbe stato solo necessario.

Naturalmente, qualche altra installazione precedente PREPENDE (!!!) alcuni percorsi dei file di programma nella variabile di sistema (con spazi e tutti, senza virgolette), quindi il nuovo percorso si è fermato proprio lì, in c:\Program (ovviamente, l'esistenza di% ProgramFiles% è rimasto completamente ignorato). Nessun sistema, nessun sistema32, nessuna shell. Quindi neanche script di accesso.

Le persone che si sono riavviate non avevano più accesso alla rete e nessuno script automatico poteva riparare il danno. Ovviamente, non appena sono andato da un utente lamentoso, mi sono guardato intorno e ho controllato il percorso, ho avuto quella sensazione di affondamento.

In circa 30 minuti ho avuto un altro script, con i valori di percorso più standard, pronto per essere inviato a tutti (la posta elettronica funzionava ancora). Gli utenti hanno persino telefonato per essere sicuri che la patch fosse reale, poiché non vengono utilizzati per inviare exe criptici con strane ragioni per applicarli, e la maggior parte di loro non era nemmeno a conoscenza di ciò che stava accadendo.

La prima versione era disordinata (un nuovo punto e virgola ad ogni esecuzione), ma registrava tutti i possibili valori di percorso disponibili, quindi avevo rapidamente i dati con possibili percorsi, quindi dovevo solo creare qualcosa di intelligente per controllarli tutti, e finire per ottenere il percorso piacevolmente a posto.

Tutto sommato, è durato solo circa 45 minuti, e per fortuna sono stato io a rimettere tutto a posto. Ma ancora, quando ora appare un percorso corrotto, sono ancora pronto a prendermi la colpa;)

2
Berzemus

Il mio migliore è arrivato in un momento in cui il nostro server di backup era in un limbo amministrativo - il mio capo stava "discutendo" se rimanere o meno in ufficio, fuori sede dalla nostra sala server (e non fare backup per qualche motivo) o se dovrebbe essere installato nella sala server per risparmiare enormi quantità di larghezza di banda. Mi sembra di ricordare che questo stato di limbo esisteva da diversi mesi.

Il nostro server Web aveva un array RAID 5 per l'archiviazione di siti Web. Sembra che abbia funzionato in modalità degradata (senza informarmi per motivi sconosciuti o che non ricordo) da qualche tempo prima che la seconda delle tre unità si guastasse. Ho avuto modo di mettere una notte in attesa di rimettere insieme il server. I nostri clienti non erano contenti che i loro siti Web fossero scomparsi e che dovevano ripristinare dai propri backup. Soprattutto quelli che non avevano i propri backup.

Le domande che il mio capo mi ha posto sono state: "Come può un array RAID fallire in quel modo? Pensavo che non avrebbero dovuto!" e "Perché non abbiamo avuto i backup del nostro server web?"

Tuttavia, la lezione non è stata ignorata. Il mio capo è stato collaborativo quando ho suggerito che gli aggiornamenti al nostro server di posta dovrebbero includere un array RAID 1 con un hot spare (invece di discutere con me sul costo aggiuntivo, che normalmente avrebbe fatto). E, naturalmente, il server di backup stava eseguendo correttamente il proprio lavoro in breve tempo.

2
Ernie

Che ne dite di imparare la differenza tra le funzionalità "Rimuovi cassetta postale" di Exchange Server 2007 e "Disattiva cassetta postale"? Soprattutto quando rimuovo la vecchia cassetta postale di tutti per gestire un database corrotto?

...

Ripristino su un server di scambio ... non divertente ... Dover ripristinare un server di scambio E Active Directory ... doppio non divertente.

Farlo alle 11:00 di venerdì mattina ... Senza prezzo.

2
IceMage

Stavo cercando di liberare un po 'di spazio sulla partizione primaria del server web RedHat 5 del sito. Ero relativamente nuovo su Linux ma avevo usato DOS per anni.

Sono riuscito a spostare l'intera cartella/bin in un'altra partizione, eliminando il sito Web di produzione e lasciandomi senza comandi di sistema accessibili. Ho dato di matto, non potevo rinominare, copiare, spostare, nulla perché avevo spostato tutti quei file eseguibili utili.

Per fortuna sono stato in grado di utilizzare un disco di avvio e annullare il mio lavoro.

2
Darth Continent

Ero nuovo su RAID 5 e stavo ancora imparando come funzionava. All'epoca ero l'unico ragazzo IT in un'azienda molto piccola. Tutti i file a cui tutti hanno avuto accesso sono stati archiviati su un solo server. Il server stava esaurendo lo spazio e aveva solo 3 unità nell'array RAID, quindi ho pensato che l'aggiunta di un quarto avrebbe aumentato lo spazio e la reattività. L'ho fatto durante l'orario di lavoro. Non avevo imparato il concetto di manutenzione dopo le ore.

L'array ha iniziato la ricostruzione e ha detto che sarebbe stato fatto in 36 ore. Ho pensato che fosse troppo lungo. Ho trovato un dispositivo di scorrimento che controllava la priorità di ricostruzione ed era impostato sull'impostazione più bassa. L'ho impostato su medio. Il tempo è sceso a 8 ore. Le spie del disco rigido lampeggiavano un po 'più velocemente, ma pensavo ancora che fosse ancora troppo lungo per soli 80 GB di dati. Quindi ho impostato la priorità su alta. Le luci del disco rigido sono diventate solide e ho pensato "è più simile!" Quindi la GUI che stavo usando ha smesso di rispondere. Si è collegato al box da remoto. Ho provato a ripristinarlo, ma non è stato possibile trovare il server.

Ho iniziato a sentire le persone in fondo al corridoio lamentarsi che non potevano accedere al server. Sono andato al server per accedere per vedere cosa stava succedendo. Lo schermo bianco ha impiegato 5 minuti per passare allo sfondo. Passarono altri 5 minuti prima che arrivasse il prompt di accesso. La pressione di ciascun tasto ha richiesto 5 minuti per la registrazione. Avevo impostato la priorità così alta che il server non avrebbe risposto a nulla. La ricostruzione dell'array ha richiesto 2 ore. Fortunatamente era un'ora prima di pranzo, quindi a nessuno importava così tanto. Il mio manager all'epoca era una donna davvero simpatica e disse che non era un grosso problema. L'ingegnere capo del design mi ha dato uno sguardo cattivo però. Ho sudato proiettili per 2 ore. Lezione appresa.

2
Joseph

Ho avuto un dipendente lamentarsi che il suo laptop era lento, quindi ho controllato la frammentazione del disco rigido ed è stato (ed è fino ad oggi) il peggiore che abbia mai visto. I tentativi di deframmentare l'unità furono inutili perché non c'era abbastanza spazio libero. Ho provato a ripulire i file temporanei (non sono sicuro del motivo per cui non ho semplicemente spostato temporaneamente le cose sul server) e ho stupidamente eliminato tutto il suo Outlook.pst pensando che fosse un backup della sua e-mail e non della sua e-mail effettiva. Mi ha perdonato, ma non lasciarmi mai dimenticare.

(Questo è successo molti anni fa poco dopo essermi laureato. Adesso sono molto più competente.)

2
Scott

Errore molto stupido. Stavo scrivendo uno script sulla mia stazione di lavoro Linux che elaborava un numero di file, ma non importava che tipo di file fosse, purché fossero molti file. Quindi ho deciso che era una buona idea copiare /etc in una directory in cui stavo facendo i miei test. Quando le cose sono andate male, ho cancellato la copia e copiato /etc di nuovo nella mia directory di test. È andato bene, per qualche tempo, e poi ho scritto

rm -rf /etc 

invece di

rm -rf etc/  

OK, niente di cui preoccuparsi, potrei ancora fare cose sulla mia workstation e ho pensato di poterlo rianimare copiandolo da un'altra workstation o qualcosa del genere. Oppure, reinstallare alla fine della giornata. Innanzitutto, prendi qualcosa da bere e, a causa della politica aziendale, ho bloccato lo schermo. Accidenti, ho bisogno della mia password per sbloccare e questo è in/etc/.....

Stupidi errori:

  • facendo troppo root (avevo una buona ragione per farlo O :)).
  • digitando /etc invece di etc/
  • usando /etc a scopo di test
2
blauwblaatje

C'è stato il tempo in cui ho accidentalmente cancellato l'utente "bin" su una scatola Unix. Naturalmente, l'eliminazione di un utente comporta anche la rimozione della sua home directory.

Riesci a indovinare quale sia la home directory di Bin?

/bidone

1
Barry Brown

Un paio di aziende fa avevamo una scatola di Windows NT 4 come server principale che eseguiva tutto, come backup aveva un disco rigido con mirroring.

Ho accidentalmente cancellato alcuni file importanti, nessun problema basta riavviare la scatola, selezionare il disco 2 dal menu SCSI e siamo di nuovo in esecuzione sulla copia in meno di un minuto.

Quindi ho avviato il comando per ricostruire l'unità mirror. Si scopre che sebbene Windows ora avesse nuove unità C: e D: il software di mirroring intelligente non ne sarebbe stato ingannato. Ha usato i numeri ID SCSI per l'origine e la destinazione e ha copiato felicemente 1-> 2.

Grazie Adaptec!

1
Martin Beckett

Alla fine della settimana, quasi tutti fuori dall'edificio, vado nella sala server per caricare nuovi nastri nell'autocambiatore, per il backup completo lungo tutto il fine settimana. L'aria condizionata è troppo fredda, penso, e spegnerlo (la sala server era solo una stanza con un CA montato a parete - niente fondi per qualcosa di serio). Quindi carico i nastri, mi assicuro che la TBU legga i codici a barre OK e vada.

Il giorno dopo, mi sveglio la mattina, con i postumi di una sbornia (ehi, è il fine settimana!), Guardo il mio telefono e vedo un mucchio di SMS messaggi "$ server che va giù". Quindi un altro "UPS principale in calo".

Prendo le chiavi, guido verso gli uffici e apro la sala server, trovando che ci sono circa 60c e tutte le apparecchiature sono spente.

Ho finito col trascinare alcuni fan per far uscire l'aria calda, prima ancora che potessi anche iniziare a far funzionare l'aria condizionata, per non parlare dell'UPS e degli oltre 40 server e apparecchiature di comunicazione. E passare il fine settimana in ufficio ovviamente. E ringraziando tutte le divinità per le unità UPS intelligenti che possono abbattere tutto bene se la temperatura ambiente è troppo alta. Da allora tengo sempre una felpa con cappuccio e non spengo mai l'aria condizionata

1
dyasny

Dieci anni fa stavo lavorando a un progetto che richiedeva un proxy SOCKS. Stavo usando un programma chiamato WinGate che oltre al proxy SOCKS, forniva una piccola funzionalità gateway Internet con NAT, DHCP e alcune altre cose. Ciò accadeva prima che Windows condividesse la connessione Internet, quindi WinGate ti consentiva di condividere il tuo modem remoto con la tua rete Ethernet.

Ho installato il software e ho iniziato a lavorare sulla funzionalità client SOCKS. Più tardi quel giorno, abbiamo perso la connettività Internet. All'improvviso, si è fermato e nessuno ha potuto accedere al di fuori dell'azienda. Abbiamo chiamato il nostro ISP e tutto sembrava a posto sulla connessione. Il router funzionava bene. Non siamo riusciti a capire cosa è andato storto. Sono arrivato a un certo punto perché avevo una certa conoscenza di TCP/IP, ma non ho fatto alcun passo avanti.

Il giorno seguente il nostro addetto IT ha scoperto che il server DHCP aveva fornito l'indirizzo del router alla macchina di qualcuno e che tutti lo utilizzavano per il gateway predefinito che non andava da nessuna parte. Più tardi quel giorno il nostro addetto IT è entrato nel mio ufficio e ho chiesto: "Quindi hai capito chi ha dato l'indirizzo IP sbagliato?" Disse: "Sì, sei tu!"

WinGate aveva eseguito per impostazione predefinita l'esecuzione di un server DHCP e aveva fornito l'indirizzo del router al primo client il cui indirizzo precedente era scaduto. Sono stato piuttosto arrossato per un po '.

1
David Smith

All'inizio, quando ero giovane, stavo cercando di essere 'utile' e ho provato a copiare 250 MB di dati su una linea di 128 kbit/s in 86 siti diversi contemporaneamente ... durante l'orario di lavoro. Mentre lo facevo, ho sentito persone che mi chiedevano perché tutto impiegasse così tanto tempo.

Inutile dire che ho ucciso i trasferimenti e (per fortuna) nessuno sapeva che ero io!

1
JFV

Abbiamo realizzato sistemi IVR chiavi in ​​mano per clienti su scatole Unix. Una volta gli sviluppatori avevano tutto il loro codice in/devel. Mi hanno chiesto di rimuovere le directory di sviluppo e la scatola e di portare i server all'aeroporto di domenica pomeriggio (il mio giorno libero!). Nella mia fretta, ho cancellato/dev/*. Immediatamente vide il mio errore, si sedette e meditò per un minuto. Non ero sicuro che il sistema sarebbe morto se il kernel non avesse hook ai dispositivi di sistema, quindi ho guardato la directory/dev su una macchina identica e per fare mknod [c | b] major minor per ripristinare i tastierini, tty, scsi, fd0 e null hanno quindi creato un floppy sull'altra macchina/sviluppo e montato e copiato localmente per ottenere il resto.

Ancora non ho idea di cosa sarebbe successo se avessi lasciato le cose da solo, ma sono abbastanza sicuro che non sarebbe stato felice al riavvio :)

Lezione appresa: la directory di sviluppo non può essere chiamata/sviluppo.

1
schemathings

Ciò è accaduto quando avevo appena iniziato il mio primo lavoro di supporto con uni, ero collegato al server 2003 di un cliente che cercava di accedere a una delle macchine dell'utente dopo che si erano lamentati dei problemi di connettività.

Le ho parlato di una risoluzione dei problemi di base e ho notato che aveva un IP statico, quindi ho iniziato a parlarle impostando questo su DHCP. Ho aperto le proprietà sulla connessione LAN sul server da usare mentre le ho spiegato cosa fare. Dopo averla fatta provare e reimpostare su DHCP, aveva ancora un IP statico, quindi le chiese di disabilitare la connessione e riattivarla.

Ora a questo punto stavo facendo tutto ciò che le stavo dicendo sul server senza effettivamente modificare alcuna impostazione, fino al momento in cui le ho chiesto di fare clic con il tasto destro sulla connessione LAN e premere disabilita, che poi ho continuato a fare.

Mi ci è voluto forse mezzo secondo per capire cosa avevo appena fatto.

Ci sono voluti forse 10 minuti perché gli altri ingegneri smettessero di ridere di me prima che uno di loro dovesse andare in macchina per un'ora per riattivare il NIC nel sito dei clienti.

1
Darren Mac

Mi occupavo di un sacco di server di database, ognuno con un ciclo di sviluppo e test ben definito. Il nostro ruolo consisteva nel portare le modifiche fornite dagli sviluppatori, usando la loro documentazione dal loro ambiente di test nell'ambiente di test del cliente per i test dei clienti prima di iniziare. Inoltre, l'ambiente di test dei clienti è stato creato dal backup più recente dell'ambiente live.

Tutto questo è stato accuratamente documentato, insieme al processo per implementare la modifica nell'ambiente live dopo che il cliente aveva firmato la modifica.

Abbiamo avuto un nuovo inizio nel nostro team e dopo essere stato con noi per un paio di mesi, lo abbiamo lasciato sedere in una serie di cicli di cambiamento fino a quando una fatidica notte gli abbiamo permesso di farlo da solo. Il test del cliente è andato liscio e il cliente ha felicemente approvato la modifica.

Il nuovo inizio ha fatto esattamente ciò che aveva fatto ogni volta che aveva introdotto la modifica nell'ambiente di test, sicuro di non aver bisogno di seguire la documentazione che il resto di noi ha fatto. Passaggio (1), ricostruzione dal backup precedente ...

La mattina dopo il cliente ha notato che mancava il lavoro del giorno precedente e non ci è voluto molto per scoprire cosa fosse successo. Fortunatamente i database avevano abilitato il logging delle modifiche in modo da poter recuperare tutta l'attività. Il nuovo inizio ha almeno imparato a valutare la documentazione e a seguirla in futuro.

1
Cry Havok

Me ne è successa una buona nuova la scorsa settimana.

Ho avuto uno dei miei ragazzi costruire un server DNS temporaneo per una piattaforma di test che stiamo costruendo, ho chiesto ai nostri ragazzi DNS di aggiornare un particolare dominio di test per puntare a questo nuovo server DNS temporaneo ma il ragazzo ha aggiornato il record live non quello di test .

Improvvisamente questo unico server (fortunatamente una nuova scatola quindi una specifica ragionevole) che serve praticamente ogni richiesta DNS per quasi 5 milioni di utenti - 400 milioni di richieste il primo giorno! - fortunatamente il TTL era solo 24 ore, quindi ora è quasi esaurito.

1
Chopper3

Dimensione totalmente diversa, ma è ancora un incidente dell'amministratore di sistema.

Siamo spiacenti: devi capire un po 'di gergo italiano per ottenerlo. Non può essere tradotto. Devi conoscerlo a memoria

Mi è stato chiesto di riparare qualcosa su un server Solaris a Napoli, in Italia. Avevo bisogno della password di root e all'epoca non parlavo molto italiano. I ragazzi sembravano riluttanti a dirmi cosa fosse. Alla fine uno di loro sussurrò a metà:

sticazzi

Ho detto: Ah, "sticazzi". Come si scrive? e gli ha dato un pezzo di carta + penna.

Un anno dopo ho incontrato M.*o B.* di nuovo (Ciao! - se leggi questo). All'epoca il mio italiano era molto meglio. Gli ho detto che ora conosco un po 'più di italiano.

È stata una risata dura.

La morale della storia: Se hai bisogno di chiedere la password di root in una lingua che non conosci, una volta che ti viene data una risata migliore, arrossisci e sembri insultato allo stesso tempo.

1
fredarin

Tutti 'rm -rf /' sono ad un certo punto per caso. Il mio stava cercando di eliminare alcuni dei file extra nella mia home directory 2 giorni prima della scadenza della mia ultima assegnazione delle strutture dati.

Professionalmente sono stato abbastanza capace da non avere alcun disastro catastrofico finora.

1
sclarson

Questo non è successo a me, ma immagino sia una storia davvero bella.

Questi ragazzi stavano lavorando con uno di quei vecchi server a torre piena di Solaris che, come sapevo, contenevano database per diversi database Informix di questa azienda. Questa era una società di servizi di base in modo da poter immaginare quanti dati ciò significhi.

C'è stato un momento in cui diverse configurazioni tramite server sono state copiate su un disco floppy e quindi passate da un server all'altro. Dopo aver lavorato con un server, avrebbero semplicemente espulso il dischetto e sarebbero passati a quello successivo.

Accompagnato da un'altra persona nel gruppo dei sysadmin, questo ragazzo stava lavorando su queste configurazioni mentre parlavano di cose casuali. Terminò il passo, quindi premette il pulsante per espellere il floppy.

- "ASPETTA! Non rilasciare il pulsante!"

Quando guarda di nuovo, ha premuto il pulsante di ripristino per errore e non il pulsante di espulsione. Al momento in cui ha rilasciato quel pulsante, l'intero sistema di database dell'azienda si spegnerà immediatamente. (Ho pensato che questi pulsanti fossero istantanei ... ma è così che va la storia.)

Quindi, ogni amministratore di sistema interrompe ciò che sta facendo per chiamare i responsabili di reparto e "dire a tutti di disconnettersi dal sistema. Ora". mentre questo ragazzo guarda tutto ciò che sta accadendo collegato a un server con un dito.

1
Alpha

Durante l'impostazione di un indirizzo IP statico in /etc/network/interfaces su un box Debian, qualcuno ha accidentalmente cambiato gli indirizzi IP sulla linea dell'indirizzo IP e sulla linea del gateway.

Indovina cosa succede quando "rubi" l'IP dello switch principale?

1
prestomation

Oh, un giorno ho cancellato un database PostgreSQL inavvertitamente e l'ho recuperato dai file di registro;)

0
maciek

Per fortuna sono stato in grado di riprendermi facilmente da ciò che sto per condividere con te. Quindi hai sentito parlare del famigerato

rm -rf /
deltree/y/s/b \

Il mio problema era che ho digitato questo e sapevo che era sbagliato, quindi sono andato a premere il tasto Backspace, ma grasso lo ha toccato e invece ho premuto il tasto Invio! Mi ci sono voluti letteralmente solo 2 secondi per rendermi conto di ciò che avevo fatto, quindi ho iniziato furiosamente a premere ripetutamente ctrl-c per interrompere l'operazione. Quando l'ho interrotto, metà del file system era sparita.

Backup in soccorso, amici miei! Oltre a un riavvio, non ci sono stati altri tempi di fermo. In un certo senso, quel giorno sono stato davvero fortunato perché avevo ottimi backup in atto.

0
jftuga

All'inizio dell'amministrazione del sistema ho inventato alcuni nuovi metodi per eseguire il processo di inventario (inventario) per i nostri negozi al dettaglio. Ho preso molti laptop e ho collegato loro scanner di codici a barre e ho reso il processo dieci volte più veloce del solito come quando lo abbiamo fatto scrivendo tutti gli articoli con la penna su pappier. Ho anche acquistato alcuni terminali palmari Symbol PDT DOS. Per prolungare la durata delle batterie dei terminali Symbol ho creato manualmente i miei pacchi batteria e i cavi collegati. Quella notte e la mattina dopo ero così orgoglioso di me stesso ed ero orgoglioso come un pavone che camminava nell'ufficio dicendo quanto fossi intelligente.

L'incubo è iniziato quando stavo inviando i dati al server per fare un calcolo e un confronto di titoli ed elenchi. Uno dei dispositivi Symbol con un pacco batteria aggiuntivo era stato lampeggiato perché uno dei fili era scaduto e il dispositivo era rimasto senza energia per lungo tempo.

Ora tutto il lavoro di circa 100 datori di lavoro è caduto in acqua. Qual è lo scopo di 13 o 15 dispositivi e il loro elenco se non li avessi tutti? Come potevo sapere cosa mancava dell'inventario.

Per descrivere più da vicino il mio disastro, abbiamo avuto solo pochi giorni liberi l'anno. È quando chiudiamo i nostri negozi e facciamo scorte, e quell'evento costa alla nostra azienda un sacco di soldi e sforzi.

Fortunatamente per me il nostro direttore e chef di quel nuovo processo è stato ragionevole e ha accettato le liste di inventario come erano al computer per quell'anno.

Dopodiché, eseguo sempre due copie dei dati mentre il lavoro è ancora in corso e subito dopo il completamento del processo di inventario, ovviamente non mi vanto più.

0
adopilot

Sono un po 'un amministratore di sistema principiante/hobbiest con solo 30-40 siti ospitati sul mio server, quindi non è stato poi così male. Stavo rimuovendo i permessi di esecuzione su tutti i file nella directory/bin/xxx e tutti hanno iniziato con.

Quindi, prendendo l'ovvia azione, ho corso

chmod -R a-x .*

Wow. Quando rimuovi i permessi di esecuzione sulla tua directory bin, è abbastanza complicato da pulire. Per risolvere il problema, i tecnici del data center hanno dovuto avviare un CD live. La parte migliore è stata che ho dovuto guidarli attraverso come risolverlo. La parte peggiore è che sapevano ancora abbastanza da ridere di me: P

0
Brandon Wamboldt

All'inizio di Internet gestivo tutto sui server SGI Challenge S. A un certo punto, a mia insaputa, il "dipartimento artistico" ha ordinato un server di stampa di rendering demo da IKON. Camminato una mattina, la sfida si comportava in modo divertente, le chiamate dell'amministratore nella sala server, passiamo attraverso la diagnostica di routine, ecc. Finalmente dico che deve essere l'alimentatore. Certo che non abbiamo pezzi di ricambio. Torno nell'ufficio principale - vedo la macchina in prestito e realizzo - è anche un SGI - lo apro, svito l'alimentatore, riavvio il server - bingo! Ordiniamo un ricambio durante la notte, il rappresentante si presenta in AM per chiedere come ci piace la demo, dobbiamo hummada hummada per 30 minuti fino a quando FedEx si presenta e sostituiamo gli alimentatori e facciamo rotolare la scatola demo fuori dalla porta. Tutto in una giornata di lavoro.

0
schemathings

Molto tempo fa, ho deciso di modificare il punto di montaggio della mia partizione dati. Così ho creato una nuova directory, ho cambiato il punto di mount in/etc/fstab ed ho eliminato la directory su cui era precedentemente montata.

Il fatto è che mi sono reso conto che le partizioni erano ancora montate sulla vecchia directory quando nautilus mi ha mostrato una barra di avanzamento (per quella che dovrebbe essere una cancellazione 4Kb). Per fortuna sono stato in grado di annullarlo prima che fosse fatto un grosso danno, ma ho perso alcuni file.

0
Flávio Amieiro

Durante la manutenzione in una posizione condivisa ho tirato il nostro cavo di alimentazione DNS primario. Stavo sostituendo il secondario in quel momento e devo aver strappato il cavo prima di chiudere il rack. Tutti i nostri siti hanno iniziato a perdere rapidamente e ho dovuto tornare al co-location per ricollegare la cosa stupida.

0
Snipper

Durante la mia prima attività di installazione (molti anni fa, nell'era di DOS), elimino per errore quasi tutti i file di sistema e metà dei file dell'applicazione sul computer che appartiene al direttore dell'istituzione pubblica. Ma non è stata colpa mia. Provo a eliminare i file non importanti nella cartella C:/TEMP per liberare spazio. L'eliminazione inizia ... dopo alcuni istanti vedo alcuni nomi familiari dalla cartella radice e DOS scorrere verso l'alto sullo schermo ... Premere forte Ctrl + Break ... ma troppo tardi ...

Questo è stato il modo più difficile per imparare qual è il problema dei file con collegamenti incrociati sul file system FAT.

0
miHost

Abbiamo una struttura di collaudo a freddo per i nostri ingegneri nel nord del Minnesota. Circa 10 anni fa il T1 che avevamo lì è morto. Avevamo spostato i server da quella struttura al nostro datacenter principale perché avevamo installato la linea più veloce, quindi praticamente tutto era inutile lassù. Vieni a scoprire che un contadino nel Minnesota centrale ha attraversato la fibra con un pezzo di attrezzatura agricola. Non eravamo affatto felici che la fibra fosse persino accessibile a quel pezzo di equipaggiamento e non fosse sepolta molto più in profondità ...

0
squillman

Immagina una tazza di caffè. È una tazza piena, con zucchero. Immagina che sia seriamente fuori posto sul vassoio della tastiera a scomparsa di un rack. Un rack pieno di server. Il vassoio viene in qualche modo inserito nel rack. La tazza entra nella griglia e poi si rovescia.

È stata colpa mia e da allora ero un amministratore esperto, quindi non ho scuse. C'era un bagno nelle vicinanze e sono stato in grado di pulire la maggior parte del pasticcio con asciugamani di carta. Per fortuna non è entrato abbastanza caffè nei server, quindi li ho chiusi e li ho puliti bene. Solo 400 utenti interessati. Accidenti!

Poi c'è stato un altro incidente, chiamiamolo così, che è successo a un mio amico. Ha dedicato gli ultimi 10 anni alla costruzione della propria azienda. Ha circa 15 dipendenti e tutti i dati dell'azienda erano in questo unico server. Ciò includeva tutti i progetti passati e presenti, molti dati dei clienti, informazioni che aveva contratto per tenerli al sicuro, tutte le informazioni di contatto, ecc. Tutti ben criptati con LUKS. Lo stavo assillando da molto tempo per farlo iniziare a fare backup, ma non lo ha mai fatto. Troppo occupato, a corto di fondi, ti viene l'idea. Era sicuro che il suo RAID1 lo avrebbe salvato. Il suo ultimo backup aveva 8 mesi. Quello era anche il tempo di attività del suo server. Aveva cambiato la sua password LUKS proprio prima dell'ultimo riavvio, 8 mesi prima. Ora riavviava il suo server e poi si rendeva conto di non aver scritto la nuova password e non se ne ricordava. Tutto ciò che riuscì a ricordare era che era molto lungo e aveva diverse parole approssimativamente disposte in qualche modo con una sorta di maiuscole e forse simboli gettati dentro.

Potete immaginare il grado di demoralizzazione tra i suoi dipendenti e la rabbia dei clienti che hanno dovuto rinviare le loro informazioni per l'elaborazione, apprendendo così che i loro dati erano "temporaneamente" non disponibili. Per farla breve, ci sono voluti circa 40 ore di lavoro, 14 giorni di autonomia e un programma specializzato per generare e testare più di un milione di password per trovare finalmente la sua password LUKS.

0
joechip

Diversi anni fa, il nostro amministratore iSeries all'epoca stava facendo delle pulizie nell'area in cui i nostri server IBM iSeries erano seduti nella sala computer. Erano le 8:30 del mattino. Proprio come ho iniziato ad andare avanti con qualsiasi cosa stavo lavorando in quel momento. Lo schermo è diventato vuoto pochi secondi dopo che le chiamate telefoniche hanno iniziato a entrare.

Vieni a scoprirlo, quando spostava un tavolo il cavo di alimentazione era avvolto attorno alla gamba quanto bastava per uscire quando spostava il tavolo.

Circa due ore dopo, dopo che il sistema si è ripreso dallo spegnimento, le persone hanno potuto lavorare di nuovo.

0
Mike Wills

Abbiamo avuto un po 'di confusione qualche anno fa. A metà mattina, gli utenti hanno iniziato a segnalare un sacco di errori relativi al blocco durante l'accesso alla nostra app ospitata su SQL Server. L'app si ferma completamente, nessuno può fare nulla. Invece di prendere il tempo per scoprire cosa lo sta causando, facciamo un riavvio di emergenza e tutto ricomincia a funzionare. Quindi comincio a curiosare tra i vari registri per vedere cosa potrebbe averlo innescato, e appena prima che tutto andasse a vuoto trovo una transazione denominata aperta contro la tabella principale senza un COMMIT corrispondente.

Si è scoperto che il mio collega aveva scritto un po 'di SQL in Query Analyzer per correggere alcuni dati errati nella tabella principale e lo aveva inserito in una transazione. Ma, invece di colpire F5 per eseguirlo, aveva evidenziato tutto e poi aveva colpito F5. Solo che non aveva abbastanza messo in evidenza tutto ... aveva perso la fine in cui aveva effettivamente commesso la transazione ... lasciando il tavolo bloccato.

0
MartW