گزارش مشکلات بستر شبکه ایران

Wednesday, December 23, 2015

 

من پویان سلطان پور هستم، مدیر تیم پشتیبانی فنی میزبان پایتخت
 
همواره کلیه درخواست های پشتیبانی شما از طریق کارتابل شخصی من برای بررسی دقیق مدیریت می شود و به صورت شما ارسال می گردد.

 

 

متاسفانه همان طور که در جریان هستید چند روز گذشته مرکز داده آسیاتک به دلیل بی دقتی مسئول سیستم برق این مرکز داده مشکلات فراوانی برای میزبان پایتخت و در نهایت شما ایجاد نموده بود. متاسفانه مرکز داده آسیاتک در چند سال آخر
دارای مشکل برقی می باشد که در مرکز داده اتصالی وجود داشته است که میزبان پایتخت نیز چندین بار به دلیل همکاری تجاری و صمیمی که با تیم های آلبالو کامپیوتر و تیام شبکه داشت اقدام به معرفی و رفع این مشکل نمود اما متاسفانه به دلیل زیرساخت اشتباه مرکز داده هیچ کدام از آن ها موفق به رفع مشکل مربوطه نشدند.

 

 

در نهایت به دلیل همین مشکل و سعی تیم فنی مرکز داده برای رفع مشکل مربوطه اقدام به رفع مورد نمودند که متاسفانه با اتصالی شدید در Rack های داخل مرکز داده موضوع خاتمه پیدا کرد. در این حین 2 عدد SAN Disk و 5 عدد سرور Cluster میزبان پایتخت از بین رفتند. طبق گزارشی که در ساعت 13:17 دقیقه از سوی سیستم مانیتورینگ دریافت نمودیم اقدام به بررسی موضوع و پیگیری آن نمودیم و حدودا 11 دقیقه بعد اطلاعات و سیستم مربوطه از طریق سیستم های Cluster دیگر مجددا فعال شدند.

 

 

در این حین 290 سرور مجازی و سرویس میزبانی وب میزبان پایتخت حدودا 13 بعد مجددا فعال شدند و ادامه فعالیت خود را آغاز نمودند و 11 سرور مجازی به دلیل تداخل ایجاد شده از دسترس خارج بودند.
در حدود 40 دقیقه بعد همکاران پشتیبانی در مرکز داده آسیاتک برای بررسی موضوع حاضر شدند و با سفارش 1 عدد SAN جایگزین از اصفهان موضوع ادامه یافت تا نیمه شب SAN مربوطه در مرکز داده حاضر گردید و 9 سرور مجازی دیگر که مشکل FileSystem
برای فعالسازی داشتند نیز فعال شدند و اما فعالیت دادند.
متاسفانه 2 سرور مجازی در همان روز امکان فعالسازی نداشتند و در روز بعد پس از برطرف شدند مشکلات آن ها مجددا فعال شدند.

 

در شرایط فعلی پس از گذشت چند روز 3 عدد سرور از 5 سرور مربوطه جایگزین شده اند و در سیستم Cluster میزبان پایتخت قرار گرفته اند که در آینده نزدیک مجددا 2 عدد دیگر نیز جایگزین خواهند شد و توان سیستم به حالت قبلی باز خواهد گشت.

 

میزبان پایتخت از سیستم Ceph که سیستم مدرن محافظت از اطلاعات است برای سیستم های خود استفاده می کند و بستر OpenStack این شرکت این امکان را فراهم نمود تا پیشتاز مجموعه های دیگر در بازگردانی اطلاعات باشیم.
متاسفانه طبق گزارش هایی که از دوستان دیگر در مرکز داده دریافت نموده اید برخی از شرکت ها که تنها به Raid بسنده کرده بودند یا سیستم Cluster نداشته اند همچنان با قطعی و بازگردانی اطلاعات دست و پنجه نرم می کنند.

 

 

پوزش میزبان پایتخت را پذیرا باشید و امیدوار هستیم که دیگر این مشکلات از سوی مرکز داده برای این مجموعه و مجموعه ای دیگر رخ ندهد.
در نهایت در این شرایط قطعی به دلیل استفاده از سیستم Ceph هیچ یک از اطلاعات سیستم های میزبان پایتخت از دست نرفته اند.
 
شاید برای شما کارکرد بستر میزبان پایتخت جالب باشد:
سیستم میزبان پایتخت بر پایه تکنیک های منحصر بفرد و خاص زیر پایه ریزی شده است.

 

 

Ceph ( آینده سیستم های ذخیره سازی ) چیست ؟
Ceph یک سیستم متحد، سیستم ذخیره سازی توزیعی طراحی شده برای عملکرد عالی، اطمینان از موجودیت اطلاعات و مقیاس پذیری می باشد.
هدف اصلی Ceph ایجاد یک فایل سیستم توزیع شده برروی تعداد زیادی سرور در مقیاس بالا است. اطلاعات در Ceph به صورت خودکار کپی می شود و در صورت بروز خطا، از کپی، اطلاعات جایگزین می شود. این سیستم طوری طراحی شده است که به صورت خودکار ترمیم و مدیریت می کند.

 

 

 
NMVe (نهایت عملکرد سیستم ذخیره سازی) چیست ؟
NVMe نسل آینده کنترلر برای دسترسی به حافظه های SSD از طریق PCI Express (PCIe) می باشد. NVM به منظور افزایش کارآیی و کاهش وقفه زمان و موازی سازی دسترسی به حافظه ای SSD برای استفاده از نهایت سرعت و عملکرد هاردهای SSD طراحی شده است.

 

 

OpenStack (دنیای آتی سیستم های ابری) چیست ؟
OpenStack بزرگترین و کارآمدترین سیستم متن باز ایجاد ابری اختصاصی و عمومی می باشد.
سیستم نرم افزاری OpenStack اقدام به کنترل پهنه عظیمی از منابع Compute, Storage و Networking در یک داشبورد مدیریتی می کند.
صدها برند مطرح دنیا روزانه برروی این سیستم راه اندازی می شوند تا هزینه های خودشان را بکاهند و عملکرد سریع تر و بهبود یافته ای داشته باشند.
جامعه عظیم OpenStack شامل 30 هزار نفر، 500 شرکت پشتیبان، 170 کشور و 20 میلیون خط کد می باشد.

 

 

Bare-Metal چیست ؟
سخن گفتن با کامپیوتر بدون استفاده از سیستم عامل با استفاده از Bare-Metal قابل انجام است ، پیش از توسعه کامپیوتر های قابل برنامه ریزی ( که نیازی به تغییرات فیزیکی برای اجرا برنامه های مختلف در آن ها نیست) برنامه ها با همان زبان ماشین به کامپیوتر داده می شد که به آن Bare-Machine گفته می شد و برنامه نویسی بدون هیچگونه ساپورت سیستم عامل بود. پس از توسعه یافتن سیستم عامل ها برنامه های روزانه توسط یک سیستم Runtime در سیستم عامل اجرا می شد که با توجه به شکل این لایه ارتباطی که بین نرم افزار و سخت افزار است را حذف کرده و مستقیم با سخت افزار امکان ارتباط فراهم شده است. این عملیات حذف لایه Host OS را Bare-Metal میگوییم. در واقع به عملیات حذف رابط برای صحبت با سخت افزار و کم کردن پروسه ، Bare-Metal گفته می شود.
توسط سرور ابری Bare-Metal شرکت میزبان پایتخت، شما می توانید توان کامل یک سرور اختصاصی که در فرم ماشین مجازی است را در اختیار بگیرید. این موضوع این امکان را برای شما فراهم می کند سرعت بسیار بالاتری داشته باشید و انعطاف پذیری بالایی برای ارتقا یا کاهش سیستم شما می دهد تا هر لحظه بتوانید سیستم خودتان را تغییر دهید.

 

 

سیستم HA (High Availability) چگونه کار می کند ؟
HA Clusters یا Failover Clusters گروه هایی از کامپیوترها هستند که از نرم افزارهای سرور پشتیبانی می کنند که بدین منظور ایجاد شده اند که حداقل دانتایم را داشته باشند. عملیات استفاده شده در نرم افزار های “دسترسی بالا” برای مهار کردن کامپیوترهای مفرط در گروه ها یا cluster می باشد که اقدام به ادامه سرویس در زمانیکه یکی از اجزا سیستم دچار مشکل می شود می باشد. بدون سیستم cluster ، اگر یک سرور که نرم افزار خاصی را اجرا می کند دچار مشکل شود، تا زمانیکه مشکل نرم افزاری و سیستم حل شود، سرور از دسترس خارج خواهد بود. HA Cluster اقدام به حل این مشکل با شناسایی مشکلات سخت افزار/ نرم افزار می کند و بلافاصله اقدام به بارگزاری مجدد سیستم برروی سیستم دیگری بدون کمک گرفتن از مدیریت می کند، این پردازش نیز به عنوان failover شناخته می شود. در قسمتی از پردازش، نرم افزار cluster اقدام به تنظیم نمودن سیستم قبل از اجرا نرم افزار برروی آن می کند، به طور مثال فایل های سیستمی می بایست در سیستم عامل mount شوند ، تنظیمات شبکه برروی سیستم جدید می بایست انجام گیرد یا اجرا نرم افزار وابسته به نرم افزارهای دیگر باشد.
کلیه این عملیات توسط سیستم HA Cluster به صورت خودکار انجام می گیرد.
 
 
مجددا پورش ما را پذیرا باشید.
با تشکر

« برگشت