راهکارهای پردازش موازی (Big Data)

   

امروزه رشد فزاینده اطلاعات موجب شده است تا نیاز به ذخیره اطلاعات و پیرو آن مدیریت و محافظت از این اطلاعات بیش از هر زمانی دیگر احساس گردد و چیزی که این امر را دشوارتر می نماید،  نیاز به دسترسی آنی، 24 ساعته و بدون وقفه به این اطلاعات می باشد. بنابراین برای پیاده سازی راهکارهای جامع که بتواند سطح گسترده ای از نیازهای فعلی و آتی را تامین نماید، اولین و مهمترین گام ایجاد بستر ذخیره سازی ایمن، کارآمد و پیشرفته می باشد.

به وجود آمدن نیازهای نوظهور در سازمان ها و ارگان های بزرگ موجب گردیده تا از سیستم ذخیره سازی به عنوان یک سرویس دهنده واسط جهت حذف هر نوع خاموشی از جمله خاموشی های ناگهانی و خاموشی هایی از پیش تعیین شده (اجباری) در سیستم های کامپیوتری استفاده گردد تا ضریب امنیت بالایی را تامین کرده و دسترسی به داده ها را در هر لحظه تضمین نماید. برآوردن چنین خواسته ای بی شک نیازمند تجهیزاتی با سرعت عمل بالا در لایه سرویس بوده که در عین حال قادر باشند تا در صورت لزوم بدون اختلال و قطعی سیستم، توسعه یابند.

 

داده های بزرگ (Big Data) 

داده های بزرگ به مجموعه داده هایی اطلاق می شود که مدیریت، کنترل و پردازش آنها فراتر از توانایی ابزارهای نرم افزاری در یک زمان پذیرفتنی و مورد انتظار است. چالش های اصلی در رابطه با داده های بزرگ، شامل استخراج، ذخیره سازی، جستجو، بازیابی، اشتراک، انتقال و آنالیز می شود. مقیاس داده های بزرگ، به طور مداوم در حال رشد از محدوده دهها ترابایت تا چندین پتابایت، در یک مجموعه داده واحد است. نمونه‌هایی از داده‌های بزرگ شامل گزارش های وبی، شبکه‌های حسگر، شبکه‌های اجتماعی، متون و اسناد اینترنتی، نمایه‌های جستجوهای اینترنتی، نجوم، مدارک پزشکی، آرشیو عکس، آرشیو ویدیو، پژوهش‌های زمین‌شناسی و تجارت در مقیاس بزرگ می شوند.

Big data اصطلاحی است که دسترسی به داده های بزرگ اعم از داده های همگون و ناهمگون در حال رشد با ضریب فزاینده را توصیف می نماید. داده های بزرگ می تواند به اندازه اینترنت، برای کسب و کار و جامعه مهم باشد. چراکه داده های بیشتر به تحلیل های دقیق تر می انجامد، تحلیل های دقیق تر نیز منجر به تصمیم گیری های مطمئن تر شده و در پایان تصمیمات بهتر، می تواند به معنای کارایی بیشتر عملیات و کاهش هزینه ها و ریسک ها باشد.

در سال 1002، (داگ لنی) تحلیلگر صنعت، Big Data را به صورت 3v تعریف کرد:

  • حجم     Volume
  • سرعت  Velocity
  • تنوع       Variety

 

حجم: فاکتورهای بسیاری به افزایش حجم داده ها کمک می کنند؛ داده های ایجاد شده در اثر تراکنش های ذخیره شده در طول سالیان، داده های غیرساختارمند حاصل از رسانه های اجتماعی و داده های جمع آوری شده از ماشین ها و سنسورها که به شدت در حال افزایش هستند، همگی باعث افزایش شدید حجم داده ها می گردند. در گذشته، مساله اصلی در رابطه با حجم انبوه داده، ذخیره کردن آنها بود. اما با کاهش هزینه های ذخیره سازی، مسائل دیگری سر بر می آورند؛ مسائلی همچون: چگونگی تعیین ارتباطات میان این حجم عظیم از داده ها و نیز تعیین روش استفاده از علم تجزیه و تحلیل به منظور ایجاد ارزش از داده های مرتبط.

 

سرعت: داده ها به سرعت به سمت سازمان گسیل می شوند و باید در زمانی متناسب در مورد آن ها اقدامی موثر صورت پذیرد. تگ های RFID، سنسورها و اندازه گیری هوشمند، ضرورت اقدام سریع نسبت به داده ها را روشن می کنند. هم اکنون نیز، نشان دادن واکنشی سریع و به موقع نسبت به این داده ها، تبدیل به یکی از چالش های اصلی پیش روی سازمان های امروزی شده است.

 

تنوع: داده ها به اشکال و اقسام گوناگونی وارد می شوند، که از آن جمله می توان به مواردی همچون:

داده های عددی ساختاریافته در پایگاه های داده سنتی، اطلاعات ایجاد شده از برنامه های کاربردی کسب وکار، اسناد متنی غیرساختاریافته، ایمیل، صوت و تراکنش های مالی، اشاره کرد. مدیریت، ادغام و تسلط بر این حجم وسیع و متنوع از داده، مساله ای است که بسیاری از سازمان ها هنوز با آن درگیرند.

کار با Big Data با استفاده از سیستم های مدیریت database و پیشخوان های گزارش گیر (به وسیله نمودارهای بصری)، مقدور می شود، که به نوبه خود عملیاتی دشوار بوده و نیازمند استفاده همزمان و موازی از نرم افزار های بسیاری است که بر روی ده ها، صدها و یا حتی هزاران سرور، در حال کار هستند. آنچه که Big Data شناخته می شود، بنا بر قابلیت های سازمان استفاده کننده و نیز قابلیت های برنامه هایی که به طور سنتی داده ها را در آن زمینه، پردازش و تحلیل می کنند، متفاوت است. برای برخی سازمان ها، رویارویی با صدها گیگابایت داده، ممکن است نیاز به بازبینی آپشن های مدیریت داده را الزام نماید، در حالی که برای برخی دیگر، ممکن است داده هایی به اندازه دهها ترابایت نیز موضوعی قابل توجه به نظر نیاید. ازمهمترین سرویس های و زیرساخت های پردازش موازی میتوان به موارد زیر اشاره نمود:

  • Hadoop
  • Splunk
  • NoSQL Databases

 

شرکت نگاره با بهره گیری از راهکارهای یکپارچه ، امکان طراحی، پیاده سازی و پشتیبانی از سرویس های مبتنی بر پردازش سریع را خواهد داشت. ویژگی های خاص راهکار  امکان شروع پروژه با تعداد نودهای پایین و گسترش آن به سطحی بالاتر را میسر می نماید. همچنین جهت بهینه سازی طرح و صرفه جویی در هزینه ها با توجه به شرایط در خواستی استفاده از دیسک های NL-SAS برای ذخیره سازی Data-Nodeها و دیسک های SAS برای مدیریت و ذخیره سازی کلی محیط مجازی سازی لحاظ خواهد شد. شایان ذکر است، امروزه در طرح های پردازش سریع استفاده از دیسک های پرسرعت مانند SAS و SSD برای Data-Node به دو دلیل هزینه های بالا و حجم نسبی کمتر نسبت به دیسک NL-SAS رایج نمی باشد. بعلاوه با توجه به پراکندگی داده ها بر روی Data-Node و پردازش موازی در صورت نیاز به توان دیسکی بالاتر و بالا بردن حجم ذخیره سازی پیشنهاد می گردد تا به تعداد Data-Nodeها به جای استفاده از دیسک های پرسرعت افزوده گردد. در واقع در سرویس های مبتنی بر پردازش سریع پهنای باند حاصله از مجموع دیسک ها و تعداد Data-Node ها در یک ساختار از نوع دیسک مهمتر است. هر چقدر تعداد Data-Node ها و دیسک های آنها بیشتر باشد بازدهی بیشتری را در کل مجموعه این سرویس به همراه خواهد داشت. باید اضافه کرد ساختار ذخیره سازی پردازش سریع و نگهداری داده بصورت پراکنده در قالب فایل سیستم HDSF انعطاف پذیری و امینت اطلاعات را بسیار بهینه سازی نموده است. به همین دلیل ارائه دهندگان سرویس به دلیل وجود سه نسخه از داده ها (Replication Counts) در این فایل سیستم بصورت پیش فرض استفاده از Raid Level 0 را لحاظ می نمایند. استفاده از این نوع Raid Level منجر به کاهش پروسه های سربار خواهد شد اما در عین حال حجم ذخیره سازی را به 3 برابر افرایش می دهد. شرکت با استفاده از Raid اختصاصی خود با نام DP که یکی از سریعترین نوع Raid با بازدهی نوشتن برابر Raid 10 می باشد و همچین کمترین تاثیر بر بازدهی در صورت بروز خرابی دیسک کاهش تعداد Replication Count به 2 عدد را پیشنهاد می دهد که منجر به صرف جویی قابل توجهی می گردد.