Pertanyaan Apakah praktik yang lebih baik untuk membeli disk RAID secara individual vs. secara massal?


Ini mungkin terdengar seperti pertanyaan aneh, tetapi itu menghasilkan beberapa diskusi bersemangat dengan beberapa rekan saya. Pertimbangkan sebuah array RAID berukuran sedang yang terdiri dari sesuatu seperti delapan atau dua belas disk. Ketika membeli batch awal dari disk, atau membeli pengganti untuk memperbesar array atau me-refresh perangkat keras, ada dua pendekatan umum yang bisa diambil:

  1. Beli semua drive dalam satu pesanan dari satu vendor, dan terima satu kotak besar berisi semua disk.
  2. Pesan satu disk masing-masing dari berbagai vendor, dan / atau menyebar (selama beberapa hari atau minggu) beberapa pesanan dari satu disk masing-masing.

Ada beberapa jalan tengah, jelas, tetapi ini adalah pola pikir utama yang berlawanan. Saya benar-benar ingin tahu pendekatan mana yang lebih masuk akal dalam hal mengurangi risiko kegagalan katastrofik dari array. (Mari kita definisikan bahwa sebagai "25% dari disk gagal dalam jendela waktu sama dengan berapa lama waktu yang diperlukan untuk membentuk kembali larik sekali.") Logikanya adalah, jika semua disk berasal dari tempat yang sama, mereka semua mungkin memiliki yang sama cacat yang mendasarinya menunggu untuk menyerang. Timebomb yang sama dengan hitungan mundur awal yang sama pada jam, jika Anda mau.

Saya telah mengumpulkan beberapa pro dan kontra yang lebih umum untuk setiap pendekatan, tetapi beberapa dari mereka merasa seperti dugaan dan insting sebagai pengganti data berbasis bukti keras.

Beli sekaligus, pro

  • Lebih sedikit waktu yang dihabiskan dalam tahap penelitian / pemesanan.
  • Meminimalkan biaya pengiriman jika biaya vendor untuk itu.
  • Disk cukup banyak dijamin memiliki versi firmware yang sama dan "quirks" yang sama dalam karakteristik operasional mereka (suhu, getaran, dll.)
  • Kenaikan harga / kekurangan stok tidak mungkin menghentikan proyek di tengah jalan.
  • Setiap disk berikutnya siap digunakan saat diperlukan untuk dipasang.
  • Nomor seri semuanya diketahui di muka, disk dapat dipasang di dalam enklosur agar dapat meningkatkan nomor seri. Tampaknya terlalu rewel, tetapi beberapa orang tampaknya menghargai itu. (Saya kira antarmuka manajemen mereka memilah disk dengan nomor seri bukannya urutan port perangkat keras ...?)

Beli sekaligus, kontra

  • Semua disk (mungkin) berasal dari pabrik yang sama, dibuat pada saat yang sama, dari bahan yang sama. Mereka disimpan di lingkungan yang sama, dan tunduk pada potensi pelanggaran yang sama selama transit. Setiap cacat atau kerusakan yang ada dalam satu kemungkinan ada di semua.
  • Jika drive digantikan satu per satu ke dalam larik yang ada dan setiap cakram baru perlu disita ulang secara individual, itu bisa berpotensi berminggu-minggu sebelum cakram terakhir dari pesanan dipasang dan ditemukan rusak. Jendela pengembalian / penggantian dengan vendor mungkin kedaluwarsa selama waktu ini.
  • Tidak dapat mengambil keuntungan dari penurunan harga di dekat masa depan yang mungkin terjadi selama proyek.

Beli secara individual, pro

  • Jika satu disk gagal, ia berbagi sangat sedikit sejarah manufaktur / transit dengan salah satu disk lain. Jika kegagalan disebabkan oleh sesuatu di bidang manufaktur atau transit, akar penyebabnya kemungkinan tidak terjadi di disk lain.
  • Jika disk mati saat kedatangan atau gagal selama jam pertama penggunaan, yang akan terdeteksi segera setelah pengiriman tiba dan proses pengembalian dapat berjalan lebih lancar.

Beli secara individual, kontra

  • Membutuhkan waktu yang cukup lama untuk menemukan vendor yang cukup dengan harga yang pantas. Pelacakan pesanan, kegagalan pengiriman, pengembalian barang yang rusak, dan masalah lain bisa menghabiskan waktu untuk diselesaikan.
  • Biaya pengiriman yang berpotensi lebih tinggi.
  • Kemungkinan yang sangat nyata ada bahwa disk baru akan diperlukan tetapi tidak akan ada di tangan, mengulur-ulur proyek.
  • Manfaat yang dibayangkan. Terlepas dari vendor atau tanggal yang dibeli, semua disk berasal dari tempat yang sama dan benar-benar sama. Cacat manufaktur akan terdeteksi oleh kontrol kualitas dan disk di bawah standar tidak akan dijual. Kerusakan pengiriman tentu sangat mengerikan (dan jelas terlihat oleh mata telanjang) yang merusak drive akan terlihat jelas saat dibongkar.

Jika kita hanya dengan menghitung poin, "beli dalam jumlah besar" menang cukup jelas. Tetapi beberapa pro lemah, dan beberapa kontra kuat. Banyak butir-butir peluru hanya menyatakan kebalikan logis dari beberapa yang lain. Beberapa hal ini mungkin takhayul yang absurd. Tetapi jika takhayul melakukan pekerjaan yang lebih baik dalam mempertahankan integritas array, saya kira saya akan bersedia melakukannya.

Kelompok mana yang paling masuk akal di sini?

MEMPERBARUI: Saya memiliki data yang relevan dengan diskusi ini. Array terakhir yang saya buat sendiri (sekitar empat tahun lalu) memiliki delapan disk. Saya memesan dari satu vendor, tetapi membagi pembelian menjadi dua pesanan dari empat disk masing-masing, sekitar satu bulan terpisah. Satu disk array gagal dalam jam pertama berjalan. Itu berasal dari batch pertama, dan jendela kembali untuk pesanan itu telah ditutup pada waktu yang dibutuhkan untuk memutar semuanya.

Empat tahun kemudian, tujuh disk asli ditambah satu penggantinya masih berjalan tanpa kesalahan. (amit-amit.)


93
2017-08-23 16:01




Beri +1 dari saya untuk pertanyaan itu, karena saya sudah lama ingin mengetahuinya. saya sudah pastinya melihat fenomena file server besar 'HDD semua datang ke ujung kurva bak mandi sekitar waktu yang sama, tetapi sering jumlah vendor yang disetujui untuk server tersebut cukup kecil, sehingga pendekatan "beli lotsa tempat" cukup sulit. Saya tidak sabar untuk melihat jawaban data nyata di dalamnya. - MadHatter
Kembali. pembaruan Anda: Ini adalah titik data tunggal. Ulangi ini untuk ribuan disk untuk mendapatkan metrik yang berguna. Ini sulit untuk dilakukan, terutama dengan siklus produk yang lebih pendek dari disk, yang menyebabkan kurangnya data semacam ini. - Sven♦
Saya sepertinya ingat setuju pada meta beberapa waktu lalu praktek terbaik pertanyaan ada di topik, asalkan mereka tidak hanya menghasilkan sekelompok anekdata. Saya harap pertanyaan ini bisa memiliki jawaban yang bagus, dan saya pikir kita harus memberikannya kesempatan. - MadHatter
Terima kasih @, Anda seorang pria; di sini berharap. Dan untuk setiap penjawab potensial: data, bukan anekdot, silakan. - MadHatter
Saya mengelola banyak mesin dengan serangan. Semua disk gagal akhirnya jadi hanya memiliki cukup suku cadang di tangan yang dapat Anda tukar dengan mereka pada pemberitahuan paling awal, kemungkinan lebih baik daripada menunggu gagal penuh. - Criggie


Jawaban:


Dalam praktiknya, orang yang membeli dari vendor perusahaan (HPE, Dell, dll.) jangan khawatir tentang ini.

Drive yang dipasok oleh vendor ini sudah tersebar di beberapa produsen di bawah nomor bagian yang sama.

Disk HP di bawah SKU tertentu mungkin HGST atau Seagate atau Western Digital.

Nomor bagian HP yang sama, variasi pada pabrikan, nomor lot, dan firmware enter image description here

Anda tidak harus mencoba mengakali / mengecoh probabilitas kegagalan batch. Anda dipersilakan untuk mencobanya jika itu memberikan ketenangan pikiran, tetapi itu mungkin tidak sepadan dengan usaha.

Praktik yang baik seperti pengelompokan, replikasi, dan backup solid adalah perlindungan nyata untuk kegagalan batch. Tambahkan suku cadang panas dan dingin. Pantau sistem Anda dengan cermat. Manfaatkan filesystem pintar seperti ZFS :)

Dan ingat, kegagalan hard drive tidak selalu mekanis ...


56
2017-08-23 16:29



Aspek penyimpanan / pengiriman masih dalam proses. Jika seseorang di ruang persediaan HP atau FedEx menjatuhkan kotak penuh disk, itu mungkin mempengaruhi seluruh batch yang diterima. - smitelli
@smitelli Oke. Backup, RAID, replikasi, DR, suku cadang. Kemungkinan semua drive Anda gagal sekaligus cukup kecil sehingga ini bukanlah masalah yang harus dipersiapkan oleh sebagian besar peserta. - ewwhite
Sesuatu yang harus diperhatikan, saya membeli 5 drive arsip tingkat konsumen untuk kotak SW RAID dalam satu pesanan dari amazon. Yang pertama gagal setelah 48 bulan. Yang kedua, 53 bulan. Kegagalan ketiga dan keempat dalam rentang 2 minggu pada bulan ke-55, dan yang terakhir gagal pada 57 bulan. Untungnya saya menggunakan redundansi 3-cara tetapi tetap ... bukan sesuatu yang saya harapkan. Saya tidak tahu apakah serial itu berurutan tetapi drive itu sendiri pada dasarnya identik. - MooseBoys
@wwhite Ya, tapi jika Anda memesan 10 SKU yang sama sekaligus, kemungkinannya lebih kecil dari beberapa pemasok dibandingkan jika Anda memesannya dalam 1 per bulan. Itulah intinya saya sedang membuat. - Kaithar
Jawaban ini tampaknya sedikit dogmatis dan tampaknya tidak memberikan argumen mengapa itu mungkin benar ... apakah Anda sudah berbicara dengan semua orang yang memesan oleh Dell? Apa yang "pintar" tentang mengakali kegagalan batch? Apakah itu benar baik bahwa orang melakukan apa yang Anda anggap mereka lakukan? - AnoE


Untuk menghormati jawaban dari ewwhite, beberapa sysadmin melakukan pemesanan dalam batch. Saya tidak akan pernah, sendiri, memesan drive secara individual, tetapi ops standar di tempat terakhir saya bekerja dalam kapasitas seperti itu untuk memesan drive secara batch. Untuk dua belas mesin penggerak, SOP menyatakan bahwa hard disk dibagi menjadi tiga kelompok, memberikan mesin profil tier tiga tingkat.

Namun, pakaian kecil lainnya yang saya telah berkonsultasi telah mengikuti protokol yang berbeda, beberapa tidak peduli dengan batch, dan lain-lain membagi batch menjadi dua atau empat array. Jawaban singkatnya adalah lakukan apa yang dianggap sesuai untuk tingkat layanan yang Anda butuhkan untuk mencapainya.

Catatan sampingan: Tempat terakhir yang saya kerjakan tentu melakukan hal yang benar. Mesin penyimpanan aplikasi memutuskan untuk gagal pada seluruh batch drive, dan kami menemukan bahwa batch khusus ini memiliki kesalahan yang sama. Jika kita tidak mengikuti protokol batch, kita akan menderita kehilangan data yang sangat besar.


43
2017-08-23 17:44



Saya akan mempertimbangkan membuat catatan samping di depan! - Oddthinking


Jawaban jujur ​​dari seseorang yang menghabiskan banyak waktu berurusan dengan sekumpulan serangan yang sekarat dan hard drive: Jangan memiliki semua drive Anda dari batch yang sama jika Anda dapat menghindarinya.

Pengalaman saya hanya berlaku untuk disk yang berputar, SSD memiliki masalah dan manfaat tersendiri untuk dipertimbangkan saat pemesanan massal.

Cara terbaik untuk menangani hal-hal tergantung pada seberapa besar array yang Anda gunakan, jika Anda bekerja dengan sesuatu seperti 6 drive array dengan 2 drive redundansi Anda mungkin dapat dengan aman membeli drive yang serupa dari 3 produsen dan membagi array seperti itu.

Jika Anda menggunakan drive aneh atau Anda bekerja dengan array yang tidak dapat dengan mudah dipartisi seperti itu Anda dapat mencoba pendekatan lain seperti membeli drive yang sama dari vendor yang berbeda, atau jika Anda membeli dalam jumlah besar Anda dapat melihat melalui dan coba pisahkan drive berdasarkan kemungkinan dibuat bersama.

Jika Anda menjalankan array yang cukup kecil dengan teknologi dasar yang tepat, mungkin akan bernilai waktu Anda untuk membangunnya secara bertahap dari persediaan disk yang heterogen. Mulailah dengan jumlah drive minimum yang bisa Anda dapatkan dan beli pasokan berikutnya satu atau dua bulan kemudian, atau ketika Anda mengisi sistem. Itu juga memungkinkan Anda merasakan masalah apa pun yang mungkin ada pada model tertentu yang Anda pilih.

Alasan di balik saran ini adalah kombinasi dari dua quirks drive.

  1. MTBF sangat rusak ketika Anda memiliki banyak drive dengan asal yang sama. Dalam statistik kami menyebutnya sebagai bias sampling, karena kesamaan dalam sampel Anda, efek rata-rata akan cenderung kurang bermanfaat. Jika ada kesalahan dengan bets atau bahkan dengan desain itu sendiri, dan itu terjadi lebih sering daripada yang Anda kira, maka drive dari batch yang akan gagal lebih cepat dari MTBF akan menyarankan.

    Jika drive tersebar, Anda mungkin mendapatkan [50%, 90%, 120%, 200%] MTBF, tetapi jika semua drive berasal dari batch 50% itu, Anda mendapatkan kekacauan di tangan Anda.

  2. Raid array reassembly membunuh disk. Tidak benar-benar. Jika Anda mendapatkan kegagalan drive dan array membangun kembali, itu akan menempatkan beban tambahan pada drive lain saat memindai data dari mereka. Jika Anda memiliki drive yang dekat dengan kegagalan, pembangunan ulang mungkin akan mengeluarkannya, atau mungkin sudah ada lokasi kegagalan yang tidak Anda sadari karena bagian itu belum dibaca baru-baru ini.

    Jika Anda memiliki banyak drive dari batch yang sama, kemungkinan terjadinya kegagalan kaskade ini jauh lebih tinggi daripada kemungkinan jika mereka berbeda. Anda dapat mengurangi ini dengan melakukan pemindaian patrol rutin, scrub, resilvering, apa pun praktik yang disarankan untuk jenis larik yang Anda gunakan, tetapi sisi negatifnya adalah itu akan memengaruhi kinerja dan dapat membutuhkan waktu berjam-jam untuk diselesaikan.

Untuk beberapa konteks tentang seberapa liar umur panjang drive bervariasi, Backblaze melakukan laporan status kegagalan drive biasa ... Saya tidak berafiliasi dengan perusahaan dengan cara apa pun tetapi mereka harus tahu apa yang mereka bicarakan tentang masalah keandalan drive . Contohnya adalah https://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/ ... kumpulan sampel Anda kemungkinan akan lebih kecil, sehingga data dari luar dapat mengacaukan pengalaman Anda sendiri, itu masih merupakan referensi yang bagus.


37
2017-08-23 20:52



ini harus menjadi jawaban acceoted. menyerbu dengan yang serupa (berasal dari firmware / batch yang sama, atau dibeli bersama dan salah penanganan di beberapa titik) disk memiliki risiko kegagalan bencana yang jauh lebih tinggi - Olivier Dulac
@OlivierDulac dan jika disk memiliki kegagalan desain yang fatal, hidup Anda menjadi sangat menyakitkan. Hard disk seri 300GB / 600GB / 900GB 2,5 "WD Raptor memiliki / memiliki tingkat kegagalan yang harus dialami untuk dipercayai. - Kaithar
Referensi Backblaze ... bagus sekali. - O. Jones


Saya harus mempertimbangkan masalah ini untuk pelanggan beberapa tahun yang lalu. Saya memiliki kombinasi pengalaman praktis dan penelitian untuk mendukung rekomendasi ke multisource.

Sisihkan pro dan kontra Anda untuk saat ini, juga jawaban luar biasa ewwhite, kehati-hatian menunjukkan bahwa jika Anda membeli drive sendiri, Anda melakukan multisumber mereka. Pandangan sekilas pada diskusi Wikipedia tentang kelemahan RAID menunjuk ke dua referensi yang menarik.

Referensi pertama adalah kertas ACM RAID: Penyimpanan Sekunder Berperforma Tinggi dan Andal (Chen, Lee, Gibson, Katz dan Patterson. ACM Computing Surveys. 26: 145-185). Pada bagian 3.4.4 penulis menunjukkan bahwa kegagalan perangkat keras tidak selalu merupakan peristiwa yang secara statistik independen, dan memberikan alasan mengapa. Pada saat saya menulis jawaban ini, makalah ini tersedia online; pp 19-22 mendiskusikan keandalan (http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889).

Referensi kedua adalah Kegagalan disk di dunia nyata: Apa arti dari MTTF 1.000.000 jam bagi Anda? (Schroeder, Gibson. Konferensi USENIX ke-5 tentang Teknologi File dan Penyimpanan.) Para penulis menyajikan data statistik untuk mendukung pernyataan bahwa kegagalan drive dapat dikelompokkan dalam waktu pada tingkat yang lebih tinggi daripada yang diperkirakan untuk peristiwa independen. Pada saat saya menulis jawaban ini, makalah ini juga tersedia online (https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html).

Dell secara eksplisit merekomendasikan untuk melawan RAID 5 pada tahun 2012 karena kegagalan disk yang berkorelasi dalam lingkungan disk yang besar; RAID 6 diprediksi menjadi tidak dapat diandalkan karena alasan serupa sekitar 2019 (artikel A ZDNet berjudul "why-raid-6-stops-working-in-2019": http://www.zdnet.com/article/why-raid-6-stops-working-in-2019/). Sementara elemen kunci dari keduanya adalah ukuran disk dan waktu rekondisi, ukuran drive yang lebih kecil dan multisourcing telah direkomendasikan sebagai mitigator untuk masalah RAID 5.

Jadi ya, multisource drive jika Anda bisa; jika Anda membeli dari vendor perusahaan seperti yang dijelaskan di jawaban ewwhite ini mungkin terjadi untuk Anda secara transparan. Namun ... pelanggan saya membeli 16 drive 2TB dari vendor perusahaan. Mereka kebetulan berasal dari pabrik yang sama dan muncul untuk diproduksi pada saat yang sama. Dua dari drive gagal dalam waktu dua minggu setelah mengkonfigurasi array RAID01. Jadi periksa drive ketika Anda mendapatkannya. (Kamu sudah mengeceknya, kan?)


9
2017-08-25 20:29



Saya benar-benar tidak mengerti argumen mereka untuk RAID6 pergi karena peningkatan kapasitas penyimpanan. Array RAID apa pun bergantung pada pemeliharaan yang baik agar berfungsi dengan benar. Kami memiliki array yang sangat besar yang menjalankan RAID6 dan belum pernah menemui URE selama proses rekonstruksi yang menyebabkan kehilangan data. Lakukan saja pemeriksaan volume terjadwal, seperti setiap rekomendasi MFG dan Anda akan baik-baik saja. - Brian D.


Kerugian lain yang potensial untuk memesan drive secara individu adalah pengemasan dan penanganan.

Hard drive hampir tidak pernah disediakan dalam kemasan ritel. Jika Anda membelinya satu per satu, hampir pasti akan dipalsukan oleh penjual. Saya telah menemukan pengemasan ulang ini dengan sangat bervariasi. Kadang-kadang Anda mendapatkan kotak yang bagus dengan banyak padding tetapi kali lain Anda hampir tidak memiliki padding sama sekali.

Kotak yang lebih kecil juga lebih rentan dilemparkan oleh operator tanpa kerusakan luar yang jelas.


4
2017-08-23 20:44





Jika Anda mencoba untuk mengurangi skenario "bad batch", yang berarti setiap drive dalam batch pembelian tertentu dapat / akan gagal dalam waktu yang hampir bersamaan, penting juga untuk mempertimbangkan ukuran array, dan level RAID yang digunakan.

Jika Anda mempertimbangkan untuk melakukan beberapa pesanan, tidak ada standar yang ditetapkan berlaku di seluruh papan. Orang-orang yang merekomendasikan 2-4 tingkat pembelian harus bertanya pada diri sendiri, jika satu tingkat seluruh drive gagal, apakah larik tersebut masih bisa online? Jadi untuk tingkat RAID redundansi seperti 1/5/10/50 Anda harus membeli drive 1 pada suatu waktu. Untuk RAID6 Anda dapat membeli 2 sekaligus.

Saya akan merekomendasikan apa pun cara Anda membeli drive yang Anda cadangkan secara teratur dan membeli suku cadang panas / dingin yang memadai untuk ukuran larik dan jenis RAID Anda.


2
2017-08-28 19:01





Saya selalu membeli bekas / bulk. Pesanan yang saya lacak hampir selalu model perangkat yang sama, dan digunakan setidaknya meredakan kekhawatiran tentang "kelompok yang buruk". Ada begitu banyak perangkat keras penjualan apung yang beredar di web sehingga saya kesulitan membenarkan membeli drive baru (atau apa pun yang lain) kecuali untuk perangkat keras kritis misi (dan semua perangkat keras cadangan kami masih merupakan perbaikan!)

+ PRO: harga online kompetitif dan terus-menerus membanjiri perangkat keras dari perubahan lingkungan bisnis berarti hampir tidak ada usaha untuk mendapatkan diskon 50-80% untuk tarikan lingkungan kerja.

+ PRO: Harga harga rendah membebaskan anggaran untuk pembelian berlebih dan mempertahankan stok perangkat keras pengganti yang kuat.

+ PRO: Hubungan penjual Saya memiliki beberapa penjual online yang saya dapatkan diskon kecil dari diskon yang sudah cukup besar untuk refurb / perangkat keras yang digunakan. Biasanya tidak akan mendapatkannya dengan Monoprice kecuali Anda membeli dalam jumlah besar atau memiliki SLA dengan mereka. Juga, terutama dengan hard drive, pastikan Anda mengujinya langsung dari kotak. Saya tidak pernah punya masalah dengan penjual tidak mengembalikan uang atau mengganti perangkat keras DOA (kecuali itu scam saya gagal menangkap).

-MENIPU: Garansi, Masalah Legitimasi Garansi didasarkan pada tanggal pembuatan perangkat, Anda juga akan perlu terus mencari hukster online yang mencoba menjual merek, klon, dll.

-MENIPU: Pengujian Perlu faktor di atas pengujian. Apapun, Anda harus menguji perangkat keras baru juga jadi tidak yakin apakah ini berlaku.

-MENIPU: masa hidup sulit untuk dinilai; sedikit lebih rentan terhadap kegagalan disk.

catatan: jika itu adalah klien yang dibangun dan mereka tidak secara eksplisit meminta perbaikan / digunakan, selalu dengan mengkilap / baru!


2
2017-09-01 06:17



Sama sekali. Saya membeli banyak disk lepas-pasang dan remanufaktur HP karena: murah. Selain itu, jaminan server HP cenderung mencakup apa pun dalam sasis, jadi selama itu bagian yang valid, itu bagus. - ewwhite


Adalah mungkin untuk mendapatkan lebih banyak keandalan dengan menggunakan hard drive yang berasal dari batch yang berbeda dan produsen idealnya. Kalau tidak, mereka mungkin gagal terlalu dekat pada waktunya. Jawaban yang sangat bagus dari @Eliodorus menjelaskan ini cukup.

Tentu saja, tidak masalah siapa yang mengocok drive. Jika penyedia Anda mengonfirmasi hal itu sudah Anda lakukan, tidak perlu peduli. Namun tampaknya tidak masuk akal untuk melakukan beberapa forensik pada penyedia mungkin bahkan berbeda dan menyimpulkan seseorang melakukannya untuk Anda jika Anda tidak diberitahu secara langsung. Penyedia biasanya tidak malas untuk mengiklankan berbagai tindakan yang mereka ambil untuk meningkatkan keandalan drive mereka.


1
2017-08-28 14:18