مقاله فناوري داده‌هاي فشرده براي محاسبات كلود cloud

nx دارای 54 صفحه می باشد و دارای تنظیمات در microsoft word می باشد و آماده پرینت یا چاپ است فایل ورد nx کاملا فرمت بندی و تنظیم شده در استاندارد دانشگاه و مراکز دولتی می باشد. این پروژه توسط مرکز nx2 آماده و تنظیم شده است توجه : در صورت مشاهده بهم ريختگي احتمالي در متون زير ،دليل ان کپي کردن اين مطالب از داخل فایل ورد مي باشد و در فايل اصلي nx،به هيچ وجه بهم ريختگي وجود ندارد بخشی از متن nx : 1-5- مقدمهبه عنوان یك نتیجه از انفجار اطلاعات مداوم با بسیاری از سازمان‌ها غرق در داده‌ها شدند و در نتیجه شكاف داده یا ناتوانی برای پردازش این اطلاعات و استفاده از آن به طور موثر با یك سرعت مهیج در حال افزایش است. محاسبه داده متمركز یك مثال محاسباتی جدید را معرفی می‌نماید (كوزس، اندرسون، البرت، گورتون، گراسیو 2009) كه می‌توان شكاف داده‌ها را با استفاده از پردازش موازی قابل مقایسه مورد خطاب قرار دهد و به دولت و سازمان‌های تجاری و محیط‌های تحقیق اجازه دهد تا مقادیر عظیمی از داده‌ها را پیش ببرد و نظرات قبلی كاربردهای اجرایی غیر عملی و اجرا نشدنی است. محاسبات كلود فرصتی برای سازماندهی كردن با منابع درونی محدود شده ارائه می‌دهد تا كاربردها محاسباتی داده‌ها فشرده مقیاس بالا در یك حالت اثربخش اجرا شود. درگیری‌های اساسی از محاسبات داده فشرده در حال مدیریت و پیش برد حجم داده ها در حال رشد به طور تشریحی هستند، به طور چشم‌گیر چرخه‌ها تحلیلی داده های وابسته در حال كاهش هستند كه كاربردهای به موقع و عملی را و الگوریتم‌های جدید در حال توسعه را پشتیبانی نمایند كه می‌توانند مقیاس‌گذاری كند تا مقدار عظیمی از داده‌ها را جست‌و جو و پیش ببرد.محققین در Lexis Nexis معقتند كه جواب به این درگیر‌ها مهاری نرم‌افزار و سخت افزار سیستم‌ها كامپیوتری جامع است كه برای پردازش موازی از كاربردها محاسباتی داده‌ها فشرده طراحی شده است. این فصل درگیری‌هایی از محاسبات داده‌های فشرده را كاوش می‌كند و یك مقایسه جامع از معماری‌های سیستم موجود از نظر تجاری ارائه می‌دهد كه شامل: ابر كامپیوتر تحلیلی داده های Lexis Nexis(DAS) می‌شود كه به گروه محاسباتی كارایی بالای Lexis Nexis(HPCC) و Hadoop، یك منشأ باز انجام براساس معماری میكریدیوس گوگل برمی‌گردد. محاسبات كلود بر توانایی تأكید می‌كند تا منابع محاسباتی را چنان ید بدون یك سرمایه‌گذاری صادقانه جامع در پیدایش نیاز است و هزینه های عملكرد مداوم همراه شده مقیاس گذاری نماید. (ناپر و بینیتنسی و 2009، ریس 2009، ولت والنسن پتر، 2009) خدمات محاسباتی كلود به طور معمولی به 3 مدل طبقه‌بندی می‌شود: (1) پیدایش (زیر سازه) به عنوان یك خدمت (Iaas) خدمت شامل تهیه‌ی نرم افزار و سخت افزار برای پردازش،‌ذخیره سازی داده ها، شبكه‌ها و هر زیر ساخت مورد نیاز برای پیشرفت سیستم‌های در حال اجرا می‌شود و كاربردهایی كه به طور معمول در یك مركز داده توسط كاربر مدیریت می‌شود نیازمند است. (2) پایگاهی به عنوان یك سرویس (Paas).سرویس شامل: زبانها و ابزار برنامه‌ریزی فشرده می‌شود و یك پایگاه تحول كاربردی كه توسط ارائه دهنده سرویس گروه بندی شده تا پیشرفت و تحویل كاربردی كه توسط ارائه دهنده سرویس گروه‌بندی شده تا پیشرفت و تحویل كاربردهای كار بر نهایی را پشتیبانی نماید و (3) نرم‌‌افزاری به عنوان یك سرویس (Saas). كاربردهای نرم افزاری گروه‌بندی شده توسط ارائه‌دهنده سرویس برای جایگزینی كار به نهایی ارائه و مدیریت می‌شود تا این كاربردها را با كاربردهای براساس وب به كار اندازد (لنك، كلیفر، نیمیس، تای و سندهولم 2009، مل و گرانس، 2009، واكیورو، رودرو، سرینفر، كاكرس و لیندنر، 2009، ویگا، 2009) كاربردهای محاسباتی داده های فشرده با استفاده از مدل aas (اجرای شوند و به تهیه گروه‌های قابل مقایسه از پرداززش گره، برای محاسبات موازی داده‌ها اجازه‌ دهد تا از معماری نرم افزاری متنوع استفاده ماید یا مدل Paas یك پردازش كامل را ارائه دهد و محیط پیشرفت كاربردی شامل هر دو جزء پایگاه و زیر ساخت‌هایی از قبیل برنامه ریزی زبانها و افزارهای گسترش كاربردها می شود. محاسبات داده‌های فشرده می‌تواند یك كلود عمومی اجرا شود پایگاه و زیر ساخت كلود به طور علوم از یك ارائه دهنده سرویس كلود موجود است از قبیل كلود محاسباتی الاستیك آمازون (EC2) و ریدیوس مپ الاستیك یا به عنوان كلود خصوصی (پایگاه و زیر ساخت كلود منحصراً برای یك سازمان خاص اجرا می‌شود و ممكن است به طور درونی یا ظاهری برای سازمان وجود داشته باشد) (مل و گرانس، 2009). اجراهای aas و Paas برای محاسبات فشرده‌ی داده‌ها می‌تواند به طور دینامیك در محیط‌ها پردازش مجازی شده براساس زمان بندی كاربرد و نیاز‌مندیها پردازش داده ما تهیه شوند یا می‌توانند به عنوان پیكر بندی دسترسی پذیری بالای پایدار اجرا شود. یك پیكربندی پایدار مزیت اجرایی دارد از آنجا كه آن از زیر ساخت ما اختصاصی به جای سیرورهای مجازی شده مشترك با دیگر كاربردها استفاده می‌كنند. 1-1-5- كاربردهای محاسباتی فشرده‌ی داده ها: روش‌های پردازش موازی می‌تواند به طور كلی به عنوان یا محاسباتی فشرده یا داده‌های فشرده طبقه بندی شوند (اسكلیكرن و تالیا 1998 و گورتن و گرینفیلد، اسزالای و ویلیامز 2008، جان استون، 1998) محاسبات فشرده قبلاً استفاده شد تا برنامه‌های كاربردی را كه كران محاسباتی هستند توصیف نماید چنین كاربردهایی بسیاری از زمان اجرایشان را برای نیازها محاسباتی در مقابل IO وقف می‌نمایند و به طور معمول به حجم‌هایی كوچكی از داده‌ها نیاز دارند. پردازش موازی از كاربردهای محاسبات فشرده و به طور معمول شامل الگوریتم‌ها اختصاصی در حال موازی شدن با یك فرایند كاربردی و تجزیه فرآیندی كاربرد جامع درون كارها، جدا می‌شود كه می‌تواند پس بر روی پایگاه محاسباتی مناسب به طور موازی اجرا شود تا كارایی بالاتر جامعه را نسبت به پردازش سیری اجرا نماید. در كابردهای محاسباتی فشرده عملكرد ما چند گانه به طور همزمان با هر آدرس دهی عملیات یك مسقت خاص از مشكل انجام می‌شود. این اغلب به عنوان تطابق نقشی یا تطابق كنترل به كار می‌رود. (Abbas,2004). 5- تكنولوژی‌های داده فشرده برای محاسبات كلودداده‌های فشرده استفاده می شود تا كاربردهایی را كه گروه IO یا با یك نیاز برای پردازش حجم‌های بزرگ از داده هستند را توصیف نماید (گورتون و همكاران 2008، ژان استون 1998، گوخاله و كوهن و یو و سیلر، 2008). چنین كاربردهایی بسیاری از زمان پردازش را به IO و حركت داده‌ها اختصاص می‌دهد. پردازش موازی از كاربردهای داده فشرده به طور معمول شامل قسمت بندی كردن یا بخش پذیری كردن داده ها درون بخش‌های چندگانه می‌شود كه می‌تواند به طور مستقل با استفاده از همان برنامه كاربردی قابل اجرا و موازی بروی یك پایگاه محاسباتی مناسب پرداش شود و پس دوباره نتایج تولید شده از داده‌های خروجی كامل شده از برانمه اصلی به زبمان سمبلیك تبدیل می‌كند. (نیلند، پرنیس، گلوبرگ، میلس، 2000). توزیع انبوه بزرگتر از داده، بسیار مفید در پرازش موازی از داده‌ها وجود دارد. گورتون و همكاران (2008) بیان كردند كه پردازش داده انبوه به طور معمول بر مقیاس خطی بر طبق سایز داده نیازمند است و بسیار متمایل به موازی شدن مستقیم هستند. درگیری‌های اساسی برای محاسبه داده‌های فشرده بر طبق گورتون و همكاران (2008) در حال مدیریت و پیشبرد حجم داده های در حال رشد به طور تشریحی هستند و به طور چشم‌گیر چرخه‌های تحلیلی داده های وابسته را كاهش می‌دهند تا كاربردهای به موقع و عملی را و نیز الگوریتم‌های جدید در حال توسعه را پشتیبانی نماید كه می‌تواند مقیاس گذاری نماید تا مقادیر عظیمی از داده‌ها را جستجو و پیش ببرد. محاسبات كلود می‌تواند این درگیری‌ها را با این قابلیت مورد خطاب قرار دهد كه منابع محاسباتی جدید را تهیه و یا منابع موجود را گسترش می‌هند تا قابلیت‌های محاسباتی موازی را ارائه دهد كه مقیاس حجم‌های داده در حال رشد را هماهنگ می نماید.(گروس من، 2009). 12-5- تطابق داده‌هامعماران سیستم كامپیوتر می‌توانند كاربردهای موازی داده‌ها را پشتیبانی نمایند كه یك راه‌حل ذاتی برای مقیاس ترابایت و پتابایت نیازهای پرازش هستند (نیلند و همكاران 2000، راوی چاندران، پانتل و هووی 2004) بر طبق آگیچتین و گانتی (2004) موازی كردن یك تناوب جذاب برای پردازش می‌باشد كه به شدت مجموعه‌های برگی از داده‌ها از قبیل بیلیون‌ها اسناد بر روی وب را بررسی می‌كند (آگیچتین 2004). نیلند و همكاران تطابق داده‌ها را به عنوان یك محاسبه به كار گرفته شده به طور مستقل برای هر آیتم داده از یك مجموعه داده معنی می‌كند كه اجازه درجه‌ایی از تطابق را می‌دهد كه با حجمی از داده‌ها مقیاس گذاری می‌شود. با توجه به عقیده نیلند و همكاران (2000) دلیل بسیار مهم برای گسترش كاربردهای موازی داده‌ها پتانسیلی برای اجرای قابل مقایسه است و ممكن است در چندین ترتیب از مقدار بهود اجرا ناشی شود. مسئله كلیدی با كاربردهای در حال توسعه و استفاده از تطابق داده ها انتخاب الگوریتم و استراتژی برای تجزیه داده‌ها،‌تراز بار بروی گره‌های پردازش، ارتباطات گذرنده بین گروه‌ها و دقت جامع از نتایج هستند. (نیلند و همكاران، 2000، رنكوزوگولاری و دواركاداس، 2001). نیلند و همكاران (2000) نیز متوجه شدند كه گسترش كاربر و موازی داده می‌تواند شامل پیچیدگی برنامه نویسی اساسی شود تا مشكل را در زمینه ابزارهای برنامه نویسی موجود معنی كند و محدودیت‌هایی از معماری هدف را مورد خطاب قرار دهد. استخراج اطلاعات از و فهرست سازی از اسناد وب به طور معمول از پردازش داده‌های فشرده است كه می‌تواند منافع كارایی مهم را از اجراهای داده‌های موازی مشتق كند از آنجائیكه وب و دیگر انواع مجموعه‌های اسناد می‌تواند به طور معمول به طور موازی پردازش شود (آگیچتین) 3-1-5- شكاف داده‌هارشد سریع از اینترنت و شبكه وسیع جهانی منتهی به مقادیر وسیع از اطلاعات موجود به صورت آنلاین می‌شود. به علاوه سازمان‌های دولتی و بازرگانی مقادیر زیادی از هر دو اطلاعات ساخته یافته و غیر ساخت یافته ایجاد می‌نماید كه نیاز دارد پردازش، تحلیل و به هم مرتبط شود. ونیتون سرف (Vinton cerf) از گوگل این را به عنوان یك نزول ناگهانی اطلاعات توصیف می‌كند و بیان می‌دارد كه ما باید انرژی اینترنت را در حضور اطلاعات با كابل‌های مجزا به كامپیوتر وصل كنیمكه آن اطلاعات ذخیره شده ما را رها نسازد (كرف، 2007)یك گزارش هیئت دولت به ضمانت EMC مقدار اطلاعات كه به طور رایج به شكل دیجیتال در سال2007 در 281 بیلیون‌ها بایت ذخیره شده و نیز رشد مركب كل در 57% تا اطلاعاتی در سازمان‌های در حال رشد در یك سطح و سرعت سریعتر برآورد می‌كند (گانتر و همكاران 2007). در مطالعه دیگری از انفجار اطلاعات آن برآورد شده بود كه 95% از همه اطلاعات جاری در شكل بدون ساخت با نیازهای پردازش داده افزایش یافته وجود دارد كه با اطلاعات ساخت یافته مقایسه می‌شود (لیمن و واریان2003). ذخیره سازی، مدیریت، دسترسی و پردازش از این مقدار وسیع از داده‌ها یك نیاز اساسی را معرفی می‌نماید و یك درگیری پهناور به منظور اینكه نیاها برای تحقیق، تحلیل، استخراج و تجسم كردن این داده ها به عنوان اطلاعات رضایت بخش نماید. (برمن 2008). در سال 2003 لیكیس نیكسیس این مسئله را به عنوان «شكاف داده» معین می‌كند توانایی جمع كردن اطلاعات دور از گنجایش سازماندهی پیش پا افتاده است تا از آن به طور موثر استفاده نماید. سازمان‌ها كاربردهایی را بنا كردند تا ذخیره سازی كه آنها در دسترس دارند پر نماید و ذخیره سازی بسازد كه مناسب كاربردها و داده‌هایی است كه آنها دارند. اما آیا سازمان‌ها می‌توانند چیزهای مفیدی با اطلاعاتی انجام دهند كه آنها مجبورند استفاده كامل و نو از منابع داده بدون بهره‌برداری آنها داشته باشند بدست آورند؟ چنانچه داده های سازمانی رشد كند چگونه آیا شكاف داده مورد خطاب قرار می‌گیرد؟ محقیق در لیكسیز تكسیز معتقدند كه جواب معماری نرم افزاری و سخت افزاری سیستم‌های كامپیوتری قابل مقیاس گذاری است كه برای كاربردهای محاسباتی داده‌های فشرده طراحی شده كه بتواند بیلیون‌ها پردازش از ثبت‌ها را در هر ثانیه مقیاس گذاری كند. (BORPS) .توجه: اصلاح BORPS توسط seisint در سال 2002 معرفی شد. سیسینت توسط Lexis Nexis پیدا شده بود). چه چیزی مشخصه‌هایی از سیستم‌های محاسباتی داده‌های فشرده و چه معماری‌هایی از زسیستم برای سازمان‌ها در دسترسند تا خطر و سرمایه گذاری صادقانه را در زیر ساخت كاهش داد و به مدل توجه فوری اجازه داد؟ این فصل این مسائل را كاوش می‌كند و یك مقایسه از معماری‌های سیستم موجود از نظر تجاری ارائه می‌دهد. 2-5- مشخه‌هایی از سیستم‌های محاسباتی داده‌های فشردهبنیاد علوم علمی معتقد است كه محاسبات داده‌های فشرده نیاز به یك مجموعه متفاوت بنیادی از اصول‌ها نسبت به روش‌های محاسباتی جاری دارد (NSF 2009). از طریق یك برنامه تأمین وجه در حوزه علم اطلاعات و كامپیوتر و مهندسی، NSF در حال جستجو افزایش فهم قابلیت‌ها و محدودیت‌هایی از محاسبات داده‌های فشرده است حوزه‌های كلیدی از كانون شامل: روش‌های برنامه نویسی موازی برای مورد خطاب قرار دادن پردازش موازی از داده بر روی سیستم‌های داده‌های فشرده چكیده‌های برنامه نویسی شامل مدل‌ها، زبان‌ها و الگوریتم‌ها كه اجازه یك بیان بدیهی از پرازش موازی داده می‌دهد. طرحی از پایگاه‌های محاسباتی داده‌های فشرده كه سطح بالا از قابلیت اطمینان، راندمان، دسترس پذیری، مقیاس پذیری را ارائه می‌دهد. تشخیص كاربردهایی كه می‌تواند این مثال محاسباتی را بهره‌برداری كند و تعیین نماید كه چگونه آن باید استنتاج شود تا كاربردهای داده‌های فشرده پدیدار شده را حمایت نماید.پروژه‌های ملی شمال غرب اقیانوس آرام محاسبات داده‌های فشرده را به عنوان جمع آوری داده، مدیریت، تحلیل و فهم داده ها در حجم‌ها و سرعت‌هایی كه مرزهایی از تكنولوژی‌های جاری را به جلو هل می‌دهد (كوزس و همكاران 2009، پنل 2008). آنها معتقدند كه حجم‌های داده در حال رشد به طور سریع را مورد خطاب قرار دهد و پیچیدگی نیاز به پیشرفت‌های مهم در نرم افزار و سخت افزار و گسترش الگوریتم دارد كه بتواند به سهولت با سایز داده مقیاس گذاری شود و تحلیل‌های به موقع و قابل اجرا و نتایج پردازش را ارائه دهد. معماری HP cc توسط Lexis Nexis توسعه یافته تا چنین پیشروی در قابلیت‌ها را معرفی نماید. 1-2-5- روش پردازشپایگاه‌های محاسباتی داده‌های فشرده جاری از یك روش پردازش موازی «تقسیم و غلبه كردن» استفاده می‌كند كه در حال تركیب پردازشگرهای چند گانه و دیسك‌ها در گروه‌های محاسباتی بزرگ متصل شده با استفاده از شبكه ها و تعویض‌های ارتباطات سرعت بالا هستند كه به داده‌ها اجازه می‌دهد در میان منابع محاسباتی موجود جزءبندی شده باشد و به طور مستقل پیش رود تا كارائی و مقیاس پذیری را براساس مقدار داده‌ها انجام دهند (شكل 1-5). بویا، یئو، ونوگوپال، بروبرگ و براندیك (2009) گروهها را به عنوان یك نوع سیستم موازی شده و توزیع شده معین می‌نماید كه شامل یك مجموعه كامپیوترها می‌شود كه به تنهایی متصل شدند و با یكدیگر به عنوان یك منبع محاسباتی جامع تنها كار می‌كند. این روش برای پردازش موازی اغلب به عنوان یك روش «صفر به اشتراك گذاشته شده» برمی‌گردد از آنجائیكه هر گروه شامل پردازشگر، حافظه محلی و منابع دیسك صفر به اشتراك گذاشته با دیگر گره‌ها در گروه می‌شود. در محاسبه موازی این روش به طور مناسب برای مشكلات پردازش داده‌ها بررسی می‌شود كه به طور ناهماهنگ موازی هستند، به طور مثال جائیكه آن نسبتاً آسان است تا مشكل را درون یك تعدادكارهای موازی جدا می‌شود و هیچ وابستگی یا ارتباطی وجود ندارد كه بین كارها نسبت به مدیریت جامع از كارها نیاز باشد. این انواع از مشكلات پردازش داده به طور ذاتی مناسب با شكل‌های متنوع از محاسبات توزیع شده هستند كه شامل گروهها و رشته‌های داده و محاسبات كلود می‌شود.2-2-5- مشخصه‌های مشترك چندین مشخصه مشترك مهم از سیستم‌های محاسباتی داده های فشرده وجود دارد كه آنها را از دیگر شكل های محاسبه تشخیص می‌دهد. اولین اصول مجموعه از داده و برنامه‌ها یا الگوریتم‌ها است كه محاسبات را انجام می‌دهد. برای انجام كارایی بالا در محاسبات داده فشرده، آن مهم است كه حركت داده را به حداقل برساند (گری، 2008). در تباین مستقیم با دیگر انواع از محاسبات و ابر محاسبات از داده ذخیره شده در یك مخزن جدا استفاده می‌كند و یا به كار می‌برد و داده‌ها را برای سیستم پردازش برای محاسبات انتقال می‌دهد و محاسبات داده‌های فشرده از داده‌های توزیع شده و سیستم‌های فایل توزیع شده استفاده می‌كندكه در آن داده‌ها در مقابل یك گروه از گره‌های پردازش قرار داشت و به جای حركت داده برنامه یا الگوریتم به گره‌هایی یا داده انتقال یافته كه نیاز به پردازش داشته باشد. این اصل «حركت كد به داده» كه درون معماری پردازش موازی داده‌ها طراحی شده بود توسط Seasint در سال 2003 اجرا شد و به شدت قابل اجرا است از آنجائیكه سایز برنامه معمولاً در مقایسه با مجموعه داده‌های بزرگ پردازش شده توسط سیستم‌های داده‌های فشرده كوچك است و در بیشتر شبكه‌های كم ترافیك ناشی می‌شود از آنجائیكه داده‌ها می‌تواند به طور محلی به جای مقابل شبكه خوانده شود. این مشخصه اجازه پردازش الگوریتم‌ها را می‌دهد تا بروی گره‌ها اجرا شود آنجا كه اقامت داده‌ها در حال كاهش مازاد سیستم و افزایش اجرا هستند (گوركون و همكاران، 2008). مشخصه مهم دوم از سیستم‌های محاسبه فشرده درونی مدل برنامه نویسی به كار گرفته شده است. سیستم‌های محاسبه فشرده داده‌ها یك روش مستقل ماشینی به كار می‌برد كه در آن كاربردها برحسب عملیات سطح بالا بر روی داده‌ها بیان می‌شود و سیستم زمان اجرا به طور شفاف زمان بندی، اجرا، تراز بار، ارتباطات و حركت برنامه‌ها و داده‌ها را در مقابل گروه محاسبه توزیع شده كنترل می‌نماید (بریانت 2008). چیكده برنامه نویسی و ابزارهای زبان اجازه پردازش می‌دهد تا برحسب جریان‌های داده بیان می‌شود و تغییر شكل‌ها زبان‌های برنامه نویسی جریان داده جدید را هماهنگ می‌كند و كتابخانه‌های متصل به شبكه از الگوریتم‌های دستكاریداده‌های مشترك از قبیل مرتب نمودن را هماهنگ می‌:ند. ابر محاسبات قراردادی و سیستم‌های محاسبه توزیع شده به طورمعمول مدل‌های برنامه نویسی وابسته ماشینی را استفاده می‌كند كه می‌تواند نیازمند كنترل برنامه نویس سطح پایین از پردازش باشد و ارتباطات گره از زبان‌های برنامه نویسی موثر قراردادی استفاده می‌كند و نیز از پكیج‌های نرم افزاری اختصاص یافته استفاده می نماید كه پیچیدگی را به كار برنامه نویسی موازی اضافه نماید و بهره‌وری برنامه نویس را كاهش می‌دهد. یك مدل برنامه نویسی وابسته ماشینی نیز نیازمند میزان سازی مهم می‌باشد و تا حد زیادی به نقاط تنها از نقص، حساس می‌باشد. مشخصه سوم مهم از سیستم‌های محاسبات داده‌های فشرده تمركز بر روی قابلیت اطمینان و دسترس‌پذیری است. سیستم‌هایی در مقیاس بزرگ با صدها یا هزاران گره‌های پردازش به طور ذاتی نسبت به نقص‌های سخت افزار، خطاهای ارتباطات و ویروس‌های نرم افزاری حساس هستند. سیستم‌های محاسبات داده‌های فشرده طراحی شدند تا نشان دهنده نقص باشند. این شامل كپی‌های اضافی از تمامی فایل‌های داده‌ها بر روی دیسك و ذخیره سازی از نتایج پردازش میانجی بر روی دیسك، كشف اتوماتیكی از گره‌ها یا نقص‌های پردازشگر و محاسبات درباره‌ی انتخابی از نتایج می‌شود. یك گروه پردازش‌گر برای محاسبات فشرده درونی پیكربندی شده است و به طور معمول می‌تواندعملیات را با یك تعداد كاهش یافته از گره‌ها ادامه دهد. یك نقص گره با بازیافت ناپیدا و اتوماتیك از پردازش ناقص به دنبال می‌آید. مشخصه نهایی مهم از سیستم‌های محاسباتی فشرده درونی به طور ذاتی مقیاس پذیری از معماری نرم افزار و سخت افزار اساسی است. سیستم‌های محاسباتی فشرده درونی می‌تواند به طور معمول در یك روش خطی مدرج شود تا واقعاً هر مقدار از داده را اصلا حنماید یا با نیازهای كارایی زمان حساس توسط اضافه كردن گره‌های پردازش اضافی به یك پیكربندی سیستم برخورد نماید به منظور اینكه بیلیون‌ها ثبت در هر ثانیه از میزان پردازش انجام شود. تعدادگره‌ها و كارهای پردازش برای كاربرد خاص تعیین شده كه می‌تواند بسته به سخت افزار، نرم افزار، ارتباطات و معماری سیستم فایل توزیع شده متغیر باشد. این مقیاس پذیری اجازه بررسی را به مشكلات محاسبات می‌دهد تا به دلیل مقدار داده مورد نیاز یا مقدار زمان پردازش موردن یاز رام نشدنی باشد تا اكنون فرصت‌های پیش آمده برای پیشرفت‌های جدید درتحلیل داده‌ها و پردازش اطلاعات عملی و امكان پذیر باشد. 3-2-5- محاسبات شبكهیك مثال مشابه محاسبات به عنوان محاسبات شبكه شناخته شده كه به طور اولیه در محیط‌های تحقیق محبوبیت به دست آورده است (آباس، 2004). یك شبكه محاسبات به طور معمول در طبیعت نامتجانس است (گره‌ها می‌تواند پردازشگر متفاوت، حافظه و منابع دیسك داشته باشد) و شامل كامپیوترهای مختلف چندگانه در سراسر سازمان‌ها می‌شود و اغلب از نظر جغرافیایی از ارتباطات شبكه حوزه وسیع كه معمولاً با پهنای باند نسبتاً كم است استفاده می‌شود. شبكه‌ها به طور معمول استفاده می‌شوند تا مشكلات محاسبه‌ای پیچیده را حل نمایند كه محاسبات فشرده هستند و تنها به مقدار كوچكی از داده ها برای هر گره پردازش نیازمندند. تغییرات شناخته شده به عنوان شبكه‌های داده به مخزن‌های مشترك داده اجازه می‌دهد كه توسط یك شبكه در دسترس باشد و در پردازش كاربردی استفاده شود، هرچند پهنای باند كم از شبكه‌های داده تأثیر آنها را برای كاربردهای داده‌های فشرده مقیاس بزرگ محدود می‌كند. در مقابل سیستم‌های محاسبات داده‌های فشرده به طور معمول در طبیعت نامتجانس هستند (گره‌ها در گروه محاسبات پرداززشگر یكسان، حافظه و منابع دیسگ وارد) و از ارتباطات پهنای باند بالا بین گره‌ها از قبیل سویچ‌های اترنت گیگابایت استفاده می‌كند و در نزدیكی در یك مركز داده با استفاده از سخت افزار چگالی عالی از قبیل سرورهای تیغه‌ای كه به طور قفسه سوار شده بسته می‌شود. سیستم فایل منطقی به طو رمعمول شامل تمامی دیسك‌های موجود بر روی گره‌ها در گروه و فایل های داده‌ها می‌شود كه در سراسر گره‌ها در مقابل مخزن داده‌های مشترك جدا از قبیل یك شبكه حوزه مخزن توزیع می‌شود كه نیاز دارد داده‌ها برای پردازش به سمت گره‌ها حركت كنند. از نظر جغرافیایی سیستم‌های شبكه توزیع شده بسیار مشكلند كه مدیریت شوند و نسبت به سیستم‌های محاسبات داده‌های مشترك كمتر معتبر و كمتر این هستند كه به طور معمول در محیط‌های امن مركز داده ها قرار دارد.4-2-5- قابلیت اجرا محاسبات كلودمحاسبات كلود می‌تواند قالب‌های زیادی به كار گیرد. بسیار كلود را به عنوان اینترنت یا وب تصور می كنند كه اغلب در این حالت نمایش داده می‌شوند، اما یك تعریف بسیار كلی این است كه محاسبات كلود از محل منابع محاسبات تغییر می‌كند و زیر ساخت كاربردهای محاسبات را برای شبكه ارائه می‌دهد. (واكورو و همكاران، 2009). دسترس پذیری نرم افزار از طریق كلود یك سرویس می‌شود، پایگاههای استفاده و دسترس پذیری از طریق كلود گسترش می‌یابد و كاربردهای جدیدی را ارائه می‌دهد تا یك خدمت شود و سخت افزار و نرم افزار زیر ساخت و مركز داده‌های مجازی و محیط‌های قابل دسترس را ایجاد می‌نماید كه از طریق كلود یك خدمت می‌شود (ویس، 2007). دیگر مشخصه ها معمولاً با محاسبات كلود همراه است كه شامل كاهش در هزینه‌های همراه با مدیریت منابع سخت افزار و نرم افزار است (هایس 2008) توجه فوری دسترسی به كاربردهای نرم افزار و منابع محاسبات بنا به تقاضا می‌باشد (واكورو و همكاران، 2009) تأمین ذخیره دینامیك از زیرساخت و مقیاس پذیری از منابع سایز داده و نیازهای محاسبات را هماهنگ می‌كند كه به طور مستقیم برای مشخصه‌هایی از محاسبات داده‌های فشرده قابل اجرا است (گروس من وگو 2009). بویا و همكاران (2009) تعریف جامع از یك كلود را ارائه می‌دهد: یك كلود یك نوع از سیستم توزیع شده و موازی است كه شامل یك مجموعه از كامپیوترهای مجازی شده و اصتال شده درونی می‌باشد كه به طور دینامیك تهیه شده و به عنوان یك یا چند منابع محاسبات متحد شده براساس توافقات سطح سرویس را معرفی می نماید كه از طریق مذاكره بین ارائه دهنده سرویس و مصرف كننده ایجاد می‌شود. مدل محاسبات كلود به طور مستقیم برای مشخصه‌های محاسبات داده‌های فشرده قابل اجرا است كه زیر ساختی به عنوان یك خدمت (Iaas) و پایگاه به عنوان یك خدمت (paas) هستند.Iaas (زیر ساخت به عنوان یك خدمت) به طور معمول شامل یك مخزن بزرگی از منابع مجازی شده دارای توانایی پیكرسازی می‌شود كه می‌تواند شامل سخت افزار، سیستم عملكرد، میان افزار و پایگاه‌های پیشرفت یا دیگر خدمات نرم افزار می‌شود كه می‌تواند درجه دار باشد تا بارهای پردازش متنوع را تطبیق می‌كند (واكورو و همكاران، 2009). گروه‌های محاسبات به طور معمول برای پردازش داده‌های درونی استفاده می‌شود كه می‌تواند در این مدل ارائه شده باشد. محیط‌های پردازش از قبیل مپاردیوس هوپ و Hpcc لیكیس نكسنیر است كه شامل قابلیت‌های پایگاه پیشرفت اجرایی به علاوه اجرای زیر ساخت اساسی پایگاه به عنوان یك مدل خدمت (paas) می‌شود. كاربردها با یك درجه بالایی از تطابق داده‌ها و یك نیاز كه مجموعه داده‌های بسیار بزرگ را پیش می‌برد و می‌تواند مزیت محاسبات كلود و صدها استفاده Iass و paas از كامپیوترهای تهیه شده برای یك مدت كوتاه به جای یك یا چند تعداد كوچك از كامپیوترها برای مدت طولانی به كار گرفته شود. (آرمبراست و همكاران، 2009)برطبق آرمبرلست و همكاران در گزارش تحقیقاتی بر كلی دانشگاه كالیفرنیا (آرمبراست و همكاران، 2009) این مدل پردازش به طور ویژه به خوبی با تحلیل‌های داده و دیگر كاربردها مناسب شده كه می‌تواند از پردازش دسته‌ای موازی سود برد. هرچند تحلیل منافع و هزینه كاربر باید نیز شامل هزینه حركت مجموعه داده‌های بزرگ درون كلود به علاوه تسریع و هزینه پردازش كمتر ارائه شده توسط مدل‌های Iass و Paas می‌شود.3-5- معماری‌های سیستم داده‌های فشردهیك تنوعی از معماری‌های سیستم برای كاربردهای تحلیل داده‌ها در مقیاس بزرگ و داده‌های فشرده اجرا می شود شامل سیستم‌های مدیریتی پایگاه داده‌های رابطه‌ای توزیع شده و موازی می‌شود كه به طور مهم پیوسته گروههای بی ارزش مشترك از گره‌های پردازش برای بیش از دو دهه موجود می‌باشد (پاولو و همكاران، 2009). این‌ها شامل سیستم‌های پایگاه داده‌ها از ترادتیا، نتیزا، ورتیكا و اگزادیتار اوراسل و دیگران می‌شود كه پایگاه‌های داده‌های موازی كارایی عالی را ارائه می‌دهد. اگرچه این سیستم‌ها این توانایی را دارند تا كاربردهای موازی به كار گرفته شود و سوالات در زبان SQL بیان شود، آنها به طور معمول پایگاه‌های پردازش همه منظوره نیستند و معمولاً به عنوان یك برنامه كارهای زمینه‌ایی اجرا می شود تا یك سیستم پردازش كاربردی نرم افزار نهایی را جدا نماید. اگرچه این روش منافعی را ارائه می‌دهد هنگامیكه داده‌ها به كار گرفته می‌شود به طور اولیه در طبیعت ساخته می‌شود و به آسانی درون محدودیت‌هایی از یك پایگاه داده رابطه‌ایی آماده می‌شود و اغلب برای كاربردهای پردازش تراكنشها بهتر می‌باشد، بیشترین رشد داده‌ها با داده‌هایی به شكل غیر ساختار است (گانتز و همكاران 2007) و مثال‌های پردازش جدید یا مدل‌های داده‌های بسیار انعطاف پذیر مورد نیاز می‌باشد. شركت‌های اینترنتی از قبیل گوگل، یاهو، مایكروسافت، فیس بوك و دیگران به یك روش پردازش جدید نیاز دارند تا به طور كارآمد با مقدار عظیمی از داده‌های وب برای كاربردهایی از قبیل موتورهای جستجو و شبكه اجتماعی برخورد نماید. به علاوه بسیاری از سازمان‌های دولتی و تجاری با داده‌هایی غوطه ور شدند كه نمی‌تواند به طور موثر پردازش،‌پیوند یافته و با روش‌های محاسبه سنتی تحلیل یافته شود. چندین راه‌حل پدیدار شد كه شامل پیشگام شدن معماری Map Reduce توسط گوگل می‌شود و اكنون دسترسی به یك اجرای منشأ باز هادوپ نامیده می‌شود كه توسط یاهو، فیس بوك و دیگران استفاده می‌شود. Lexis Nexis، رهبر صنعت تصدیق شده در خدمات اطلاعاتی نیز یك پایگاه مقیاس پذیر را برای محاسبه داده‌های فشرده گسترش و اجرا كرد كه توسط لیكسیس نكسیس و دیگر سازمان‌های دولتی و تجاری استفاده می‌شود تا حجم‌های زیادی از داده‌های ساختار شده و غیر ساختار شده پیش ببرد. این روش‌ها توضیح داده خواهد شد و برجسب ساختار كلی‌شان، مدل برنامه‌نویسی، سیستم‌های فایل و قابلیت اجرا كه بتواند در بخش بعدی محاسبه شود مقایسه گردد. روش‌های مشابه با استفاده از گروه‌های محاسبات كالا شامل بخش/ حوزه (گرونس من و گو 2008، گروس من وگو، سابالاوژانگ 2009،گو، گروس من 2009) دامنه/ گیتی (چایكن و همكاران، 2008) دریاد لینك (یو، گوندا و ایسارد 2009) منیدر (لور و همكاران 2008) در دسته شبكه‌ایی (لیو و اوربان 2008) می‌شود كه اخیراً در ادبیات توصیف شده و نیز برای كاربردهای محاسبات كلود داده‌های فشرده مناسب است و تناوب‌های اضافی را معرفی می‌نماید.1-3-5- Map Reduce گوگلمعماری مپ ردیوس و مدل برنامه‌نویسی پیشگام شده توسط گوگل یك مثالی از معماری سیستم‌های پیشرفته است كه برای پردازش و تحلیل پایگاه داده های بزرگ طراحی شده و به طور موفقیت آمیز توسط گوگل در بسیاری از كاربردها استفاده می‌شود تا مقدار عظیمی از داده‌های خام وب را پردازش نماید (دین و گماوت 2004) معماری مپ ردیوس به برنامه نویس‌ها اجازه می‌دهد تا از یك سبك برناهم نویسی نقشی استفاده ننمایند تا یك كار نقشه را ایجاد نمایند كه جنت مقدار كلیدی همراه شده با داده‌های ورودی را پردازش می كند تا یك مجموعه از جفت مقدار كلیدی میانه با همان كلید میانه تولید نماید (دین و گماوت 2004) با توجه به دین و گماووت (2004) برنامه‌های مپ ردیوس می‌تواند استفاده شود تا داده‌های مشتق شده را از اسنادی از قبیل شاخص‌های وارونه استخراج نماید و پردازش به طور خودكار توسط سیستم موازی می‌شود كه بر روی گروههای زیادی از ماشین‌های نوع مواد اولیه اجرا می‌شود، كه تا حد زیادی با هزاران ماشین میزان پذیری است. از آنجائیكه سیستم به طور خودكار به جزئیات جزء‌بندی داده‌های ورودی زمان بندی و كارهای اجرایی در سراسر یك گروه پردازش توجه می‌كند و مدیریت ارتباطات بین گره‌ها، برنامه ‌نویس‌ها بدون تجربه در بنرامه نویسی موازی می‌تواند به آسانی از محیط پردازش توزیع شده استفاده نماید. ادامه خواندن

نوشته مقاله فناوري داده‌هاي فشرده براي محاسبات كلود cloud اولین بار در دانلود رایگان پدیدار شد.

Latest Images

Trending Articles

Latest Images