Pertanyaan Bagaimana cara mem-backup 20 + TB data?


Kami memiliki server NAS di perusahaan tempat saya bekerja yang digunakan untuk menyimpan sesi fotografi. Setiap sesi sekitar 100gb. Selama beberapa tahun terakhir server ini telah mengumpulkan 10+ TB data, dan kami meningkatkan jumlah pemotretan secara eksponensial. Saya memperkirakan bahwa pada akhir tahun depan kita akan memiliki 20+ TB yang tersimpan di NAS ini. Saat ini kami mendukung server ini hingga merekam menggunakan kaset LTO-5 dengan Symantec BackupExec. Karena ukuran server ini telah bertambah, backup penuh server ini tidak selesai dalam semalam. Apakah ada yang punya saran tentang cara mem-backup jumlah data ini? Haruskah kita mendukungnya ke tape? Apakah ada opsi lain yang mungkin lebih baik?


81
2017-12-12 03:50




Mengapa Anda melakukan pencadangan penuh setiap malam? Mengapa tidak menjalankan cadangan penuh seminggu sekali dan menjalankan cadangan inkremental yang tersisa 6 hari seminggu? - joeqwerty
Itulah yang kami lakukan, maaf saya tidak menyebutkan bahwa ... yang penuh mingguan adalah yang tidak selesai. - Jesus Fidalgo
Apakah kebutuhan mingguan penuh untuk diselesaikan dalam semalam? Tidak jarang seminggu untuk mengambil lebih dari 24 jam untuk dataset yang cukup besar. - Stefan Lasiewski
Apa jenis NAS yang Anda gunakan? - ewwhite
Apakah Anda yakin peningkatan pemotretan adalah eksponensial? - gerrit


Jawaban:


Anda harus mundur selangkah dan berhenti berpikir "Saya punya 20TB di NAS saya, saya harus mencadangkan!" dan mengembangkan strategi penyimpanan yang memperhitungkan sifat data Anda:

  • Dari mana asalnya dan berapa banyak data baru yang Anda dapatkan? (Anda punya ini di pertanyaan Anda)
  • Bagaimana data yang digunakan setelah Anda memilikinya? Apakah orang mengedit gambar? Apakah Anda menyimpan dokumen asli dan menghasilkan versi yang diedit?
  • Berapa lama Anda perlu menyimpan semua data? Apakah orang-orang masih membuat perubahan pada gambar dari 2 tahun yang lalu?

Tergantung pada jawaban atas dua pertanyaan terakhir, Anda mungkin membutuhkan lebih dari satu Sistem Pengarsipan daripada sistem cadangan yang sangat berbeda.

Data yang statis (misalnya gambar berusia 2 tahun yang Anda simpan "berjaga-jaga") tidak perlu dicadangkan setiap malam, atau bahkan setiap minggu, perlu diarsipkan. Apa yang sebenarnya Anda lakukan mungkin lebih kompleks, tetapi secara konseptual, semua foto lama dapat ditulis ke tape (banyak salinan!) Dan tidak di-backup lagi.

Berdasarkan komentar Anda, beberapa pemikiran tambahan:

  • Karena Anda menyimpan dokumen asli setiap pemotretan tanpa disentuh dan mengerjakan salinannya, dan dengan asumsi bahwa setidaknya beberapa gambar asli adalah gambar, Anda mungkin dapat memotong jumlah data yang perlu dicadangkan menjadi dua.

  • Jika Anda masih tidak dapat menyelesaikan pencadangan lengkap dalam jangka waktu apa pun yang Anda miliki, cara umum untuk mempercepat adalah dengan melakukan pencadangan disk-ke-disk terlebih dahulu dan kemudian salin cadangan tersebut ke tape.


110
2017-12-12 04:19



Pemotretan asli disimpan tak tersentuh, lalu salinan pemotretan lain digunakan untuk mengedit. Data mungkin perlu disimpan sekitar 2 tahun. - Jesus Fidalgo
+1 Dikatakan dengan baik. Saya terkejut bagaimana perbedaan antara Backup dan Archive, secara umum, kurang dipahami. Saya melakukan backup penuh dan inkremental dari sistem saya dan data singkat seperti email & dokumen, tetapi arsipkan fotografi saya (1.2TB dan terus bertambah :-). Berharap saya bisa memberikan +1 lain untuk saran disk-ke-disk juga. - Ex Umbris
+1 Saya yakin 80% dari data pada NAS tidak pernah digunakan lebih dari sekali. - Stefan Lasiewski
+1 Opsi terbaik di sini adalah melakukan disk harian dan bahkan per jam ke transfer delta disk untuk menangkap perubahan dan kemudian mengirimkan cadangan penuh atau tambahan ke arsip atau lokasi / lokasi di luar lokasi pada basis mingguan atau semi-mingguan. Kami biasanya mengambil backup delta dari file SQL kami setiap 15 menit untuk mengurangi jumlah kehilangan data dalam skenario DR. - Brent Pabst


Anda memiliki dua opsi:

Pilihan 1:

  1. Beli NAS lain
  2. Berikan pengguna Anda akses RO ke new_NAS
  3. Pindahkan semua file yang lebih lama dari 2 tahun ke new_NAS
  4. Terus cadangkan kembali old_NAS seperti biasa
  5. Setiap 6 bulan memindahkan file yang lebih lama dari 2 tahun ke new_NAS

Pilihan 2:

  1. Beli NAS lain
  2. Menjalankan rsync setiap jam: old_NAS -> new_NAS

    atau, lebih baik gunakan sesuatu seperti rdiff-backup yang mana rsync + membuat delta dengan perubahan file (Anda dapat mengembalikan versi file yang lebih lama)

    rdiff-backup  user1@old_NAS::/source-dir    user2@new_NAS::/dest-dir
    
  3. Setiap 6 bulan membersihkan file lama yang menjalankan sesuatu seperti:

    rdiff-backup --remove-older-than 2Y    old_NAS::/dest-dir
    

12
2017-12-12 15:07





Mengapa cadangan Anda harus diselesaikan dalam semalam? Kinerja fileserver? Anda mungkin dapat membatasi bandwidth dari perangkat lunak cadangan Anda untuk membatasi dampak pada siang hari. Atau persembahkan antarmuka pada NAS Anda untuk berbicara dengan tape drive untuk membatasi dampak pada lalu lintas lainnya.

Bisakah Anda menjalankan dump penuh pada akhir pekan dan hanya melakukan penambahan selama seminggu? Jika masalahnya adalah mengubah kaset pada akhir pekan ketika tidak ada orang di sekitar, perpustakaan kaset murah / autochanger biaya jauh lebih sedikit daripada membayar seseorang untuk mengubah kaset.

Dapatkah Anda menyegmentasikan data Anda ke dalam beberapa grup yang cukup kecil untuk diselesaikan dalam jendela cadangan Anda?

Kami memiliki sekitar 50TB data pada NAS kami dan membutuhkan lebih dari seminggu untuk mendapatkan dump penuh dari seluruh hal menggunakan 2 tape drive (satu volume membutuhkan hampir seminggu itu sendiri karena mengandung banyak file kecil). Apa yang kami lakukan adalah mereplikasi data kami ke NAS kedua. NAS sekunder kami adalah di tempat (tetapi di pusat data yang berbeda dari yang utama), jadi kami masih mengumpankan data ke tape untuk cadangan off-site. Kami menjalankan backup dari NAS sekunder sehingga backup tidak memperlambat siapa pun.

Jika Anda dapat menempatkan NAS sekunder Anda cukup jauh, maka itu bisa menjadi cadangan Anda, tidak perlu kaset.


2
2017-12-12 18:47





Saya hanya ragu tentang ukuran setiap sesi pengambilan gambar, apakah benar-benar 100gb / sesi? Berapa banyak sesi yang dilakukan perusahaan Anda setiap bulan?

Karena Anda kebanyakan menyimpan sesi lama yang tidak akan sering digunakan, dll, dan mungkin tidak perlu memulihkan informasi yang sering, saya akan menyarankan Anda untuk menggunakan layanan dari beberapa perusahaan untuk mengurus tugas itu untuk Anda .

Sebagai contoh, menyimpan 20TB menggunakan layanan online seperti Amazon Glacier akan menghabiskan biaya lebih dari $ 200 / bulan. Jika Anda perlu mengambil arsip tersebut secara rutin, atau bahkan memulihkannya secara penuh, itu akan menekan batasan waktu / biaya. Jika Anda hanya menyimpan hal-hal "untuk memastikan mereka disimpan", mungkin menggunakan bagian ketiga dapat membuat hidup Anda lebih mudah (dan bahkan lebih murah daripada membeli NAS lain, kaset, dll)


1
2017-12-12 12:15



100 GB per sesi terdengar sedikit tinggi untuk saya, tetapi tidak masuk akal. Kami biasanya memiliki sesi 32+ GB tempat saya dulu bekerja, dan peralatan kami adalah tingkat menengah. - Tom Marthenal


full backups of this server are not completing overnight
Kemudian coba incremental backup? Satu cadangan penuh setiap xx hari, ditambah sisanya.

Hard disk murah, lebih cepat dari kaset dan dapat digunakan untuk cadangan.

Juga ada alternatif yang baik untuk backup cloud sekarang jadi tidak diperlukan untuk terus menambahkan kaset lebih banyak dan lebih cepat.
Sebagai contoh:


1
2017-12-12 13:47



Lihatlah komentar - itu adalah full mingguan yang tidak selesai. Selain itu, backup cloud untuk 20TB data ... bukan ide yang bagus. Opsi "murah" dari Amazon Glacier akan berharga ~ 2500 / tahun, dan mengambil semua data itu akan berharga ~ $ 36.000. - HopelessN00b
Itu sebenarnya tidak banyak. - Sirex
Saya kira itu masalah pendapat jika $ 2400 / tahun adalah banyak untuk penyimpanan yang aman dan bebas pemeliharaan sepenuhnya 20TB. Tidak ada konsumsi daya, tidak ada pendinginan, tidak ada perangkat keras yang gagal, tidak ada SLA, tidak mengambil ruang rak. Dan seperti kebanyakan sistem, Anda harus mengharapkan sekitar 0 operasi pemulihan penuh. Dan jika Anda membutuhkan pemulihan, harganya lebih seperti $ 1800 dari $ 36000 (tidak yakin dari mana Anda mendapatkan nomor itu). - Tedd Hansen
Untuk gletser, $ 36K cukup dekat. Saya kira-kira menghitungnya sebagai $ 42K untuk biaya pengambilan pada 20TB. Ini masih belum banyak. Bandwidth lebih merupakan masalah. - Sirex


Saya pikir solusi terbaik untuk ini adalah apa yang kami lakukan dengan data penggajian kami, yang harus membutuhkan sedikit usaha untuk Anda terapkan.

  • Awalnya, itu disimpan dengan sisa data server yang didukung setiap hari. Periode retensi kami pada cadangan tersebut adalah 13 bulan.

  • Setelah kami tidak lagi berharap bahwa data akan perlu dimodifikasi, (dua periode pembayaran kemudian, IIRC), data tersebut (melalui skrip) disimpan ke volume arsip yang dikecualikan dari cadangan reguler.

  • Volume arsip didukung ke tape tahunan, dan kaset dikirim ke Cintas untuk penyimpanan tak terbatas.

Hal ini memungkinkan kita untuk memiliki akses online yang mudah ke data yang tidak berubah (jadi kita tidak perlu memanggil tape kapanpun seorang akuntan ingin melihat sesuatu), sambil mempertahankan arsip data off-site yang tidak terbatas yang mungkin kita perlukan untuk selamanya , dan tanpa menghancurkan sistem cadangan kami. Kedengarannya seperti jenis pengaturan yang sama dapat bekerja untuk Anda, meskipun Anda mungkin ingin menyesuaikan jumlah data yang Anda simpan online, tergantung pada kebutuhan Anda untuk mengakses data ini secara tepat waktu - 20TB penyimpanan kelas perusahaan jauh lebih mahal daripada mengarsipkannya ke dua atau tiga set kaset LTO5 yang Anda simpan di kubah di luar situs.


1
2017-12-12 16:58





Mungkin Anda bisa membangun sendiri Pod Backblaze: 135 TB untuk $ 7384
Klik disini untuk informasi lebih lanjut: Informasi bangunan Pod Backblaze

Anda dapat membeli potongan yang dibutuhkan dan membangunnya sendiri.

Mungkin Anda dapat membangun 3 dari mereka, dan menyimpan 2 onsite, dan 1 offsite. Kemudian Anda dapat menggunakan satu pod sebagai "data online", pod kedua di lokasi sebagai cadangan pod pertama, dan pod offsite ketiga sebagai cadangan offsite darurat.

Dengan 135Tb penyimpanan untuk setiap pod Anda bahkan dapat berpikir tentang menyimpan beberapa riwayat perubahan ...
135Tb / 20Tb = 19 salinan cadangan lengkap.
Sebagai alternatif, Anda dapat menyimpan 10 cadangan lengkap plus jumlah cadangan diferensial yang konyol.

Tentu saja, jika Anda menginginkan cadangan di luar kantor, Anda memerlukan beberapa jenis bandwidth besar ... :-)


0
2017-12-18 08:28



Jika data dan pekerjaan Anda penting bagi Anda, Anda tidak perlu mencoba membangun pod backblaze Anda sendiri dari nol. Sepertinya ide yang bagus, sampai Anda menyadari bahwa Anda meletakkan semua telur Anda dalam satu keranjang yang sangat besar. Parahnya lagi, keranjang itu belum diuji sebagai keseluruhan yang terintegrasi secara menyeluruh. Saus rahasia backblaze adalah replikasi perangkat lunak di banyak pod, yang memungkinkan seluruh pod gagal sempurna. Saya malah merekomendasikan server penyimpanan supermicro, centos, xfs dan rdiff-backup. - bugaboo


Rekan kerja saya membeli NAS Synology 8-disk. Ini menjalankan RAID hibrida. Dia membeli delapan 3TB Seagate Barracuda dari NewEgg beberapa minggu yang lalu seharga $ 89 masing-masing. Anda dapat rsync mirror dari NAS produksi ke NAS baru ini melalui GigaBit. Karena Anda hanya mentransfer perbedaan, transfer akan membutuhkan waktu yang lebih singkat. Kemudian Anda dapat menggunakan NAS cadangan untuk melakukan penuh atau inkremental. Biaya untuk Anda akan di bawah $ 2000 keluar dari pintu untuk NAS cadangan.


-1
2017-12-12 16:38