Pertanyaan Ada yang terbakar di ruang server; bagaimana saya bisa dengan cepat mengidentifikasi apa itu?


Beberapa hari yang lalu, kami melihat bau terbakar yang mengerikan keluar dari ruang server. Singkat cerita, itu akhirnya menjadi salah satu modul baterai yang terbakar di unit UPS, tetapi butuh beberapa jam sebelum kami dapat mengetahuinya. Alasan utama kami dapat mengetahuinya adalah bahwa tampilan UPS akhirnya menunjukkan bahwa modul perlu diganti.

Inilah masalahnya: seluruh ruangan dipenuhi bau. Melakukan tes mengendus sangat sulit karena bau telah menyusup semuanya (belum lagi itu membuat kita pusing). Kami hampir keliru mengambil server basis data produksi kami karena di mana baunya paling kuat. Tanda-tanda vital tampak ok (temps CPU menunjukkan 60 derajat C, dan kecepatan kipas ok), tapi kami tidak yakin. Kebetulan bahwa modul baterai yang terbakar adalah tentang ketinggian yang sama dengan server di rak dan hanya 3 kaki jauhnya. Seandainya ini keadaan darurat yang nyata, kami akan gagal total.

Secara realistis, peluang bahwa perangkat keras server yang sebenarnya terbakar adalah kejadian yang cukup langka dan sebagian besar waktu kita akan melihat pada UPS pelakunya. Tetapi dengan beberapa rak dengan beberapa peralatan, itu bisa dengan cepat menjadi permainan menebak. Bagaimana seseorang dengan cepat dan akurat menentukan peralatan apa yang sebenarnya terbakar? Saya menyadari pertanyaan ini sangat tergantung pada variabel lingkungan seperti ukuran ruangan, ventilasi, lokasi, dll, tetapi setiap masukan akan dihargai.


448
2018-04-04 14:22




@DeerHunter Yah, terima kasih ya itu akhir hari dan ada sangat sedikit orang di builing. Terima kasih atas kritik konstruktif Anda, dan saya akan pastikan untuk memberi tahu supervisor tentang kehidupan apa yang dia pertaruhkan dalam memutuskan untuk menjaga sistem tetap terjaga. - Chad Harrison
@hydroparadise - seseorang harus punya nyali untuk mengatakan "BERHENTI Kami tidak melakukan hal ini dengan benar. "Jika atasan Anda tidak memahami peraturan keselamatan, tidak banyak yang bisa dilakukan, kecuali menumbuhkan beberapa tulang belakang dan tidak membungkuk untuk mendesak untuk mengambil jalan pintas. - Deer Hunter
@ DeerHunter: Apa tanggapan yang tepat ketika Anda mencium sesuatu yang terbakar? Tidak ada asap yang terlihat, hanya bau yang terbakar. Apakah Anda mematikan seluruh datacenter, mengeluarkannya selama beberapa jam, kemudian menyalakan server satu per satu sampai baunya kembali? Sebuah pusat data rak kecil 25 dapat memiliki 1.000 server untuk diperiksa, itu banyak downtime untuk "bau" - OP tidak melaporkan asap atau api yang terlihat. - Johnny
@Johnny - Mengutip OP: "seluruh ruangan dipenuhi dengan bau. Melakukan tes mengendus sangat sulit karena bau telah menyusup semuanya (belum lagi itu membuat kita pusing)" Menjawab pertanyaan Anda - ya, Anda harus curhat ruangan, dan atasi masalah secara sistematis. Yang lain tidak bertanggung jawab. - Deer Hunter
Jadi, apakah mereka kritis terhadap penanganan OP dari bau yang menunjukkan bahwa tidak ada perbedaan dalam urgensi antara bau dan api / asap? Jika Anda mencium sesuatu yang membakar di rumah Anda tetapi tidak melihat asap dan tidak mendengar alarm, apakah Anda mendesak Anda dan keluarga keluar dari rumah dan menelepon 911? - trpt4him


Jawaban:


Konsensus umum tampaknya adalah bahwa jawaban atas pertanyaan Anda datang dalam dua bagian:

Bagaimana kita menemukan sumber bau yang terbakar?

Anda punya "Cara" yang dipahat dengan baik:

  • The "Sniff Test"
  • Carilah asap / kabut yang terlihat
  • Berjalan ruangan dengan kamera (IR) termal untuk menemukan hot spot
  • Periksa pemantauan dan panel perangkat untuk peringatan

Anda dapat meningkatkan peluang Anda untuk menemukan masalah dengan cepat dalam beberapa cara - pemantauan yang lebih baik sering kali paling mudah. Beberapa pertanyaan untuk ditanyakan:

  • Apakah Anda mendapatkan suhu dan peringatan kesehatan lainnya dari peralatan Anda?
  • Apakah sistem UPS Anda melaporkan kesalahan ke sistem pemantauan Anda?
  • Apakah Anda mendapatkan alarm undian saat ini dari peralatan distribusi daya Anda?
  • Apakah detektor asap ruangan melaporkan ke sistem pemantauan? (dan Bisakah mereka?)

Kapan kita harus memecahkan masalah versus menekan Big Red Switch?

Ini pertanyaan yang lebih menarik.
Menekan tombol merah besar dapat merugikan perusahaan Anda sejumlah besar uang dengan terburu-buru: Pembebasan agen bersih dapat mencapai puluhan ribu dolar, dan biaya pemadaman / pemulihan setelah pemadaman listrik darurat (EPO, "menjatuhkan ruangan" ) dapat menghancurkan.
Anda tidak ingin menjatuhkan pusat data karena kapasitor dalam catu daya muncul dan membuat ruangan bau.

Sebaliknya, kebakaran di ruang server dapat membebani perusahaan Anda data / peralatan, dan yang lebih penting lagi, kehidupan staf Anda.
Pemecahan masalah "bau aneh yang lucu" seharusnya tidak pernah lebih diutamakan daripada keamanan, jadi penting untuk memiliki beberapa aturan yang jelas tentang pemecahan masalah kondisi "pra-kebakaran".

Panduan yang mengikuti adalah keterbatasan pribadi saya yang saya terapkan tanpa adanya (atau sebagai tambahan) prosedur / aturan lain yang didefinisikan dengan jelas - mereka telah melayani saya dengan baik dan mereka dapat membantu Anda, tetapi mereka dapat dengan mudah membuat saya terbunuh atau dipecat besok, jadi terapkanlah pada Anda risiko sendiri.

  1. Jika Anda melihat asap atau api, jatuhkan ruangan
    Ini seharusnya tidak perlu dikatakan tetapi mari kita katakan: Jika ada kebakaran aktif (atau asap yang menunjukkan bahwa akan segera terjadi) Anda mengevakuasi ruangan, memotong daya, dan mengeluarkan sistem pencegah kebakaran.
    Pengecualian mungkin ada (latihan akal sehat), tetapi ini hampir selalu tindakan yang benar.

  2. Jika Anda melanjutkan untuk memecahkan masalah, selalu ada setidaknya satu orang lain yang terlibat
    Ini karena dua alasan. Pertama, Anda tidak ingin berkeliaran di pusat data dan tiba-tiba memiliki rak naik di baris yang Anda berjalan dan tidak ada yang tahu Anda ada di sana. Kedua, orang lain adalah ahli kewarasan Anda memeriksa pemecahan masalah dibandingkan menjatuhkan ruangan, dan jika Anda membuat panggilan untuk menekan Big Red Switch Anda memiliki manfaat memiliki orang kedua setuju dengan keputusan (membantu untuk menghindari aspek pembatas karir) keputusan seperti itu jika seseorang mempertanyakannya nanti).

  3. Lakukan langkah-langkah keamanan yang hati-hati saat memecahkan masalah
    Pastikan Anda selalu memiliki jalur keluar (ujung terbuka dari baris dan jalur yang jelas untuk keluar).
    Jaga seseorang yang ditempatkan di rilis EPO / penindasan api.
    Bawalah alat pemadam api dengan Anda (Halon atau agen pembersih lainnya, silakan).
    Ingat aturan # 1 di atas.
    Jika ragu, tinggalkan ruangan. Jagalah pernapasan Anda: gunakan respirator atau masker oksigen. Ini dapat menyelamatkan kesehatan Anda jika terjadi kebakaran kimia.

  4. Tetapkan batas dan pertahankan
    Lebih akurat, atur dua batas:

    • Kondisi ("Seberapa buruk aku akan membiarkan ini terjadi?"), Dan
    • Waktu ("Berapa lama saya akan terus berusaha mencari masalah sebelum terlalu berisiko?").

    Batasan yang Anda tetapkan juga dapat digunakan untuk membiarkan tim Anda memulai shutdown yang teratur dari area yang terpengaruh, jadi ketika Anda MELAKUKAN tarik kekuatan Anda tidak menabrak sekelompok mesin aktif, dan waktu pemulihan Anda akan jauh lebih pendek, tetapi ingat bahwa jika shutdown teratur terlalu lama Anda mungkin harus membiarkan beberapa sistem crash atas nama keselamatan.

  5. Percaya instingmu
    Jika Anda khawatir tentang keamanan setiap saat, hubungi pemecahan masalah dan kosongkan ruangan.
    Anda mungkin atau mungkin tidak menjatuhkan ruangan berdasarkan perasaan, tetapi berkumpul kembali di luar ruangan dalam (relatif) keselamatan adalah bijaksana.

Jika tidak ada bahaya dalam waktu dekat Anda dapat memilih mendatangkan pemadam kebakaran lokal sebelum mengambil tindakan drastis seperti EPO atau pelepasan agen bersih. (Mereka mungkin meminta Anda untuk melakukannya juga: Mandat mereka adalah untuk melindungi orang, lalu properti, tetapi mereka jelas-jelas ahli dalam menangani kebakaran sehingga Anda harus melakukan apa yang mereka katakan!)

Kami telah membahas ini dalam komentar, tetapi mungkin juga dirangkum dalam jawaban juga - @DeerHunter, @Chris, @Sirex, dan banyak lainnya yang berkontribusi dalam diskusi


380
2018-04-04 14:29



Universitas saya pergi untuk memasang pusat data baru. Mereka menerapkan sistem EPO / Fire Suppression yang sangat canggih. Peralatan yang dijaga dalam jutaan dolar dan itu juga digunakan untuk jutaan dolar penelitian untuk bagian medis dari sekolah. Tentunya jika diperlukan tombol merah akan dipukul tetapi, itu dikatakan jika tombol merah adalah hit, hanya ulang itu mendekati $ 200.000 dolar AS. Wajib Pajak Dolar Anda bisa yakin betul bahwa jika saklar itu dipukul ketika tidak dibutuhkan orang yang memukulnya tidak akan lagi memiliki pekerjaan. - Ryan
+1 untuk sistem teman. Saya pikir itu sedikit gila bahwa ada DC di luar sana yang menggunakan EPO untuk juga membuang penindasan kebakaran juga. Ada banyak situasi di mana Anda ingin EPO tanpa ingin membuang halotron ke seluruh penjahat yang tersengat listrik. EPO adalah kesepakatan serius tetapi bukan "menghancurkan segalanya dalam kesepakatan DC" atau setidaknya tidak seharusnya. Orang-orang di DC diharapkan dapat memahami tombol merah besar dan sistem pencegah kebakaran cukup baik untuk menimbang efek menekan tombol. EPO sebenarnya berhenti api dan menyimpan DC, misalnya. - chris
Sebuah catatan penting yang belum saya singgung adalah bahwa sebagian besar waktu ketika sesuatu gagal sehingga mengeluarkan bau terbakar, apa pun yang terbakar padamkan sendiri sebelum bau itu terdeteksi dan tanpa membakar apapun di luar peralatan yang gagal. Kadang-kadang sepotong peralatan akan terus membara selama itu memiliki kekuatan, tetapi jika seseorang melihat asap itu harus mungkin untuk mengidentifikasi peralatan, memotong daya hanya untuk itu, dan melihat apakah asap segera membersihkan atau terus memburuk. - supercat
@ryan: Jika menekan tombol merah besar biaya begitu banyak dolar pembayar pajak, orang yang bertanggung jawab dengan mudahnya telah menyusun rencana untuk menyelesaikan insiden kecil dengan pemadam kebakaran lokal yang tidak melibatkan karyawan yang membahayakan. - Christoph
@ryan Itu mengingatkan saya pada laporan tv tentang CERN yang saya lihat baru-baru ini: Tim kamera dan reporter diambil benar-benar untuk keberanian sistem dan dan satu saat salah satu kamera orang hampir menabrak tombol darurat merah dengan ranselnya - memberikan serangan jantung dekat kepada staf pria yang berpikir tentang biaya reboot ... - Hagen von Eitzen


Kamera Thermal Imaging dapat melakukan pekerjaan, dan membiarkan Anda mengidentifikasi di mana terlalu panas. Alat seperti ini akan membiarkan Anda mengidentifikasi juga asal api atau membakar di ruangan yang dipenuhi asap.


182
2018-04-05 04:59



Kamera thermal pergi untuk di bawah grand saat ini, dan jika Anda menjalankan ruang server besar mereka adalah alat yang layak untuk dimiliki. - rackandboneman
A T.I.C. tidak begitu mahal dan sangat berguna di pusat data atau ruang server besar. Tidak hanya dalam kasus masalah seperti kabel atau peralatan yang terlalu panas, tetapi juga sebagai pencegahan atau deteksi dini masalah, optimasi pendinginan, aliran udara, dll. - ddalcero
Senapan suhu laser, seperti yang ini, adalah alternatif yang murah - MichaelHouse
@mfinni Electricians juga sering memiliki kamera thermal. (Pemeriksaan pencitraan panas dari panel distribusi daya kami setiap tahun, atau setelah pekerjaan kabel utama, adalah standar ketika saya bekerja di perusahaan hosting). - voretaq7
Kamera termal memiliki keterbatasan yang sangat besar: 1. Bidang pandang dapat mencegah penggunaan 2. Lingkungan Anda mungkin sangat padat. [Kebakaran besar akan terlihat tetapi bukan yang kecil] 3. Rata-rata suhu akan diperlukan untuk menentukan ambang batas - monksy


Anda tidak melakukan hal-hal ini yang telah dikatakan. Anda meninggalkan lingkungan yang berbahaya karena apa pun yang dipompa melalui seluruh ruangan berbahaya bagi kesehatan Anda dan mungkin benar-benar mengacaukan paru-paru Anda. Jika ada bau tajam dari sesuatu yang terbakar di ruangan yang tidak dapat Anda temukan, hubungi (911 | 112 | 999 | nomor darurat apa pun yang sesuai dengan yurisdiksi Anda) dan biarkan api (perusahaan | departemen | brigade) mengatasinya saat mereka berada di udara botolan.

Bagian komputer mengandung semua jenis bahan kimia yang menarik termasuk air raksa, kadmium, memimpin, dan banyak plastik di dalam casing. Perhatikan bahwa semua tautan yang saya buat menjelaskan bagaimana keterpaparan tingkat rendah dapat menyebabkan kerusakan permanen atau bahkan kematian yang cepat. Ini adalah lingkungan yang bisa segera berbahaya bagi kehidupan dan kesehatan.

... jadi benar-benar, jika ada sesuatu yang terbakar, jangan menghabiskan waktu berjam-jam untuk mengendus asap. Jika Anda tidak dapat mengidentifikasi dan segera bertindak untuk menahannya, keluarlah.


137
2018-04-04 14:27



Perlu ditambahkan bahwa jika ini terjadi di pusat data "nyata" dengan detektor asap yang terintegrasi dengan AC dan sistem pemadam yang dipasang, alarm kebakaran akan padam dan ruangan akan disegel dan dibanjiri dengan Argon atau CO2 secara otomatis, jadi bahkan tidak ada pikiran tentang berlari-lari dan mengendus peralatan. - the-wabbit
@ syneticon-dj Ini tergantung pada mengetik detektor dipasang. Detektor ionisasi mungkin telah menabrak penindasan api, tetapi saya telah bekerja di (dan peralatan saat ini di tempat-tempat) yang memiliki detektor asap optik - Mereka membutuhkan asap yang terlihat (atau setidaknya kabut yang baik) sebelum mereka bepergian. - voretaq7
Saya berharap saya dapat meningkatkan suara ini lebih banyak. dengan risiko menjadi kontroversial, petugas pemadam kebakaran 'dapatkan seorang profesional' adalah satu-satunya cara untuk maju. - Iain
Ya, sebagai mantan petugas pemadam kebakaran, saya tidak akan tinggal di sana tanpa peralatan saya. Bahkan ketika api padam, kita dilatih untuk tetap berkemas karena gas beracun. Jika saya akan memanggil pro, Anda juga harus! - Jeff Ferland
@ Michael desain yang saya lihat tidak bergantung pada detektor asap langit-langit tetapi memiliki detektor fotoelektrik dalam aliran udara kembali. Satu-satunya saat saya telah melihat pemicunya adalah selama pengujian rutin di mana sistem argonite telah terlepas dan sumber asap telah ditempatkan di salah satu lemari. Ini bekerja seperti yang saya harapkan untuk bekerja. Untungnya, saya tidak pernah berurusan dengan kebakaran nyata. - the-wabbit


Jika Anda memiliki pemantauan yang tepat pada UPS (biasanya melalui SNMP), unit itu sendiri harus membunyikan lonceng pada sistem pemantauan Anda. Jika tidak, bicarakan dengan vendor Anda tentang itu. Ini tidak berfungsi atau sistem pemantauan Anda tidak dikonfigurasi dengan benar.

Jika sesuatu yang aktif benar-benar terbakar, itu seharusnya mengeluh tentang hal itu dalam beberapa cara, atau hanya mematikan jaringan, yang juga harus menyebabkan alarm.

Jika sesuatu seperti rel listrik yang sebenarnya terbakar melalui isolasi, dan itu bukan pada PDU yang pintar, maka kita kembali ke pertanyaan awal Anda, yang "bagaimana saya menemukan sesuatu yang terbakar?" Dan saya pikir jawaban yang tepat adalah "Pukul EPO dan cari tahu. Server produksi Anda mungkin tidak cukup penting untuk mempertaruhkan nyawa."


76
2018-04-05 10:49



Apa artinya EPO? - Midhat
Daya Darurat Mati ... tombol merah besar yang memotong semua daya ke ruangan. Sebagian besar untuk saat terbakar. - Grant
+1 yang tegas, akan memberi +1.000. Tekan tombol, evakuasi, tunggu, bereskan hal-hal nanti. Melakukan bisnis seperti biasa dengan api dan asap yang ada (dan mencoba memecahkan masalah apa pun) adalah salah satu kesalahan terburuk yang dapat dilakukan oleh seorang insinyur. - Deer Hunter
@chris Saya harus tidak setuju pada "EPO, Leave, Wait" - Mengaktifkan EPO dan / atau rilis agen bersih untuk ruangan yang penuh dengan peralatan produksi dapat sangat sering menjadi apa yang kami sebut Perpindahan Karier. Jika tidak ada aktif, terlihat api atau jejak asap yang berasal dari beberapa peralatan yang melakukan penyelidikan awal biasanya adalah Hal yang Tepat. Tentu saja Anda harus benar-benar bersiap untuk lari dari ruangan sambil menekan tombol merah yang sesuai di setiap titik dalam penyelidikan Anda. - voretaq7
Bahkan mungkin sistem pemantauan yang sempurna tidak akan menangkap ini sampai pada saat yang sama panel UPS mengatakan "Ganti Modul" - yang mengatakan Anda tentu ingin sistem pemantauan Anda untuk membawa hal-hal seperti itu ke perhatian Anda. Lain kali sebuah modul mungkin gagal pada pukul 19.30 pada hari Jumat ketika tidak ada orang di sekitar, dan peringatan pemantauan akan membuat Anda kembali dan menangani masalah sebelum berkembang menjadi keadaan darurat yang lengkap. Jika Anda dapat mengikat pemantauan ke FACP, asap dan / atau sensor panas Anda bahkan dapat memperingatkan Anda tentang isolasi yang membakar rel listrik dan sejenisnya. - voretaq7


Ini adalah salah satu situasi di mana

XKCD Die Hard sysadmin

tidak berlaku, Anda harus memanggil seorang profesional

Firefighter in protective gear

Ada lagi yang bodoh.


43
2018-04-05 12:50



ini jelas merupakan jawaban terbaik. :) - Citizen
@Navin No kamu jangan orang-orang di departemen pemadam kebakaran melakukan itu. - Iain


Sebagai seseorang yang karir sebelumnya adalah sebagai teknologi elektronik, saya memiliki pengalaman dengan "bau terbakar" yang bukan kebakaran. Ini tidak biasa.

Saya tidak akan menutup pusat data untuk bau. Asap adalah masalah lain, sesuatu benar-benar terbakar (biasanya, tetapi kapasitor tantalum berukuran kacang dapat mengisi ruangan dengan asap juga). Sungguh menakjubkan berapa banyak bau yang bisa dihasilkan komponen goreng dalam catu daya.

Sebuah termometer TIC atau IR (alat yang berguna dan jauh lebih murah daripada TIC) tidak akan selalu menunjukkannya karena komponen tidak menghasilkan banyak panas sama sekali dan itu ada di dalam sebuah case. Tetapi periksa perangkat yang tidak berfungsi, gunakan alat pemantauan Anda. Untuk bau seperti itu maka 95% dari waktu itu akan menjadi catu daya yang mempengaruhi kinerja seluruh perangkat.


40



+1, pasokan listrik yang meledak adalah hal biasa. Di sebagian besar pusat data dengan tingkat aliran udara yang tinggi, asap akan hilang dengan cepat dan sulit untuk menemukan sumber bau. Namun, di ruangan yang kecil, baunya bisa sangat buruk, dan dapat dengan cepat menyebar ke seluruh ruangan. - Stefan Lasiewski


Saya suka pencitraan IR atau jawaban termometer tetapi mungkin apa yang juga membantu adalah "detektor bau" nyata. Setelah semua yang memicu perhatian Anda adalah bau. Asap, panas, IR dll. Semuanya pengganti.

Sesuatu seperti ini: from Shinyei . Saya pribadi tidak pernah menggunakannya atau bahkan melihatnya digunakan di pusat data. Tapi setidaknya secara teoritis itu harus menjadi alat yang rapi. Jika Anda memiliki uang untuk dibelanjakan pada alat ini.

http://www.sca-shinyei.com/odormeter atau http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Ini memberi Anda kekuatan bau serta klasifikasi. Jadi homing ke bau itu harus mungkin. Iblis ada dalam detailnya tentu saja. Seberapa sensitifnya, menutupi bau latar belakang yang palsu, dll.

Salah satu keunggulan dibandingkan pengukuran berbasis suhu murni adalah bahwa bau sering terjadi pada titik atau ambang jauh sebelumnya. Atau jika komponen yang terlalu panas disembunyikan oleh tubuh / kabel tersembunyi dll, lebih mudah untuk mendeteksi molekul yang melarikan diri daripada hot spot line-of-sight.

Situasi lain adalah bau yang tidak berhubungan dengan panas. Kami memiliki kebocoran sirkuit pendingin sebelumnya dan bau pendingin juga aneh. Aku bahkan tidak akan masuk ke dalam kasus kuno seekor tikus mati di saluran. :)

Saya terkejut betapa peka sensor ini. Ternyata H2S / merkaptan dll. (Biang keladi biasa) dapat dideteksi pada tingkat sub ppm.

enter image description here


19