عنوان انواع داده سازمان ها :از داده ساختیافته تا داده غیرساختیافته
نوع منبع مقاله
گروه استراتژی داده
تاریخ انتشار ۰۸ / ۰۸ / ۱۳۹۴
خلاصه تنوع و تکثر انواع داده و ضرورت مدیریت صحیح و بهینه آنها یکی از چالش های جدی سازمان های مدرن امروزی است .هر نوع داده دارای ویژگی و خصایص ذاتی مختص به خود است . محصولات ، فروشندگان و برنامه ها هر یک متناسب با فضای فکری و عملیاتی مختص به خود با داده برخورد می کنند . این تمرکز بگونه ای است که در بسیاری موارد باعث می شود فراموش کنیم که چگونه این عناصر کنار هم قرار گرفته اند و در خوشبینانه ترین حالت صرفا بخشی از آن چیزی که درست است را مشاهده می کنیم. بهتر است با نگاهی دقیق تر و جامع تر به این تصویر بزرگ نگاهی داشته باشیم. تصویری که گرچه بر روی آن داده به تصویر کشیده شده است ولی در پس آن حقایق مختلف و متعددی نهفته است . آشنایی با این حقایق می تواند راهگشای مدیریت صحیح داده در یک سازمان گردد.

مدیریت صحیح داده و خلق ارزش همسو با اهداف کسب و کار ، مستلزم آشنایی مناسب با خصایص و ویژگی انواع مختلف داده است . اگر چیزی را ندانیم و یا با آن آشنا نباشیم و یا آشنایی ما در حد حداکثر یک پاراگراف! باشد ، نمی توانیم آن را اندازه گیری کنیم و چیزی را که نتوان اندازه گیری کرد قطعا نمی توان مدیریت کرد .اگر به دنبال مدیریت موثر داده در سازمان خود می باشیم ، در اولین گام می بایست با چیزی که قصد مدیریت آن را داریم آشنا شویم . اجرای پروژه هایی با محوریت داده بدون آَشنایی حداقلی با ماهیت و نحوه رفتار نوع های مختلف داده و ایجاد یک فونداسیون مستحکم ، قطعا با شکست مواجه خواهد شد و نه تنها ارزشی را نصیب سازمان نخواهد کرد بلکه بلایی می شود برای سازمان که رهایی از آن مستلزم از دست دادن سرمایه های ملموس وغیرملموس متعددی است .

انواع داده در یک سازمان
در شکل 1 ، کلیت داده یک سازمان  صرفنظر از نوع های مختلف آن نشان داده شده است . هر چیزی را که بتوان به عنوان داده در نظر گرفت ، می توان در این جایگاه قرار داد .

 کلیت داده در یک سازمان   
شکل 1 : داده یک سازمان

اگر بخواهیم یک تقسیم بندی از داده یک سازمان داشته باشیم ، می توان بر اساس معیارهای مختلف این کار را انجام داد . یکی از این روش ها ، تقسیم داده به داده ساختیافته و غیرساختیافته است . شکل 2، تقسیم بندی فوق و تفاوت هر گروه را نشان می دهد .
 
 کلیت داده در یک سازمان و تقسیم آن به داده ساختیافته و غیرساختیافته   
شکل 2 : کلیت داده در یک سازمان و تقسیم آن به داده ساختیافته و غیرساختیافته

در ادامه می توان این تقسیم بندی را ادامه داد و با تمرکز بر روی داده های غیرساختیافته آن را به دو گروه داده غیرساختیافته تکراری و داده غیرساختیافته غیرتکراری تقسیم کرد .شکل 3 ، این وضعیت را نشان می دهد .

 تقسیم داده غیرساختیافته به دو گروه تکراری وغیرتکراری   
شکل 3 : تقسیم داده غیرساختیافته به دو گروه تکراری وغیرتکراری

داده غیرساختیافته تکراری ، داده یی است که اغلب دارای ساختاری مشابه است و به دفعات زیاد و چندین مرتبه محقق می گردد . ساختار داده تکراری مشابه هم بوده و با رکورد قبلی مشابه است .در مقابل ، داده غیرساختیافته غیرتکراری ، داده یی است که در آن ساختار رکوردها با یکدیگر متفاوت است و هر رکورد نسبت به رکورد دیگر ساختاری کاملا متفاوت دارد .

نمونه هایی از انواع داده در یک سازمان
داده ساختیافته معمولا ماحصل تراکنش بر روی یک موجودیت نظیر محصول است . هر مرتبه که یک فروش انجام می شود ، از یک حساب بانکی مبلغی برداشت و یا به آن مبلغی  واریز می شود در واقع یک رکورد تراکنش ایجاد می گردد که نهایتا به یک رکورد ساختیافته منجر می شود .
داده غیرساختیافته تکراری کاملا متفاوت است . رکوردهایی نظیر ماحصل تعاملات ماشین (تایید آنالوگ محصول بر اساس یک فرآیند ساخت )  و یا اندازه گیری انرژی استفاده شده توسط یک مصرف کننده ، نمونه هایی از رکوردهای غیرساختیافته تکراری می باشند.اطلاعات غیرساختیافته غیرتکراری ،  نسبت به رکوردهای غیرساختیافته تکراری کاملا متفاوت می باشند . در رکوردهای غیرساختیافته غیرتکراری ، بین محتویات یک رکورد با رکورد بعدی تکرار بندرت و یا اصولا اتفاق نمی افتد . ایمیل و مکالمات مرکز تماس نمونه هایی در این زمینه می باشند .
شکل 4 ، نمونه هایی عینی  از داده موجود  منطبق بر تقسیم بندی ارایه شده را نشان می دهد .

نمونه هایی از داده موجود بر اساس تقسیم بندی ارایه شده    
شکل 4 : نمونه هایی از داده موجود بر اساس تقسیم بندی ارایه شده

میزان ارتباط داده با کسب و کار
داده غیرساختیافته تکراری و داده غیرساختیافته غیرتکراری دارای خصایص و ویژگی های  مختلفی می باشند که می توان با تمرکز بر روی آنها با ماهیت هر یک از داده های غیرساختیافته بیشتر آشنا گردید. به عنوان نمونه ، میزان موثر بودن و یا ارتباط آنها با کسب و کار یکی از حوزه های مهم و مورد علاقه در این زمینه است . در داده غیرساختیافته غیرتکراری نسبت به داده غیرساختیافته تکراری، می توان به میزان قابل توجهی داده مرتبط با کسب و کار را یافت ( رگه هایی از داده مرتبط با کسب و کار) .
تمامی داده موجود در یک سیستم  کنترلی تولید مورد علاقه کسب و کار نمی باشند و صرفا تعداد اندکی از رکوردها و معمولا در مواردی که پارامترهای مورد علاقه از حد مجاز عدول کرده باشند ، مورد توجه کسب و کار می باشند. برخی از رکوردهای غیرساختیافته تکراری دارای این ظرفیت و یا پتانسیل هستند که در آینده ( نه در حال حاضر ) مورد توجه کسب و کار قرار گیرند . در مجموع ، در داده غیرساختیافته غیرتکراری رکوردهای زیادی که مورد علاقه کسب و کار باشد ، وجود ندارد . در مقابل ، تقریبا تمامی داده غیرساختیافته غیرتکراری مورد علاقه کسب و کار است . 
شکل 5 وضعیت دو نوع داده غیرساختیافته تکراری و غیرساختیافته غیرتکرار و میزان ارتباط و یا علاقه کسب و کار به آنها را نشان می دهد .

 وضعیت دو نوع داده غیرساختیافته تکراری و غیرساختیافته غیرتکرار و میزان ارتباط و یا علاقه کسب و کار به آنها     
شکل 5 : وضعیت دو نوع داده غیرساختیافته تکراری و غیرساختیافته غیرتکرار و میزان ارتباط و یا علاقه کسب و کار به آنها

داده عظیم 
بد نیست به این موضوع مهم نیز اشاره گردد که داده های عظیم شامل داده غیرساختیافته تکراری و داده غیرساختیافته غیرتکراری یک سازمان می باشند . شکل  6 جایگاه داده های عظیم را در تقسیم بندی اشاره شده نشان می دهد . 

جایگاه داده های عظیم در داده ساختیافته و غیرساختیافته  
شکل 6 : جایگاه داده های عظیم در داده ساختیافته و غیرساختیافته

یک شکاف بزرگ بین داده غیرساختیافته تکراری و داده غیرساختیافته غیرتکراری  
در ابتدا این گونه بنظر می آید که تفاوت بین دو نوع داده غیرساختیافته یعنی غیرساختیافته تکراری و غیرساختیافته غیرتکراری بی اهمیت باشد . در صورتی که تفاوت بین این دو نوع داده بدیهی و قابل توجه است و یک شکاف بزرگ بین این دو نوع داده غیرساختیافته قرار می گیرد و آنها را از هم تفکیک می نماید که قطعا در نحوه مدیریت آنها تاثیرگذار خواهد بود. شکل 7 ، این شکاف بزرگ بین داده غیرساختیافته غیرتکراری و غیرساختیافته تکراری را نشان می دهد .

شکاف بزرگ بین داده غیرساختیافته غیرتکراری و غیرساختیافته تکراری  
شکل 7 : شکاف بزرگ بین داده غیرساختیافته غیرتکراری و غیرساختیافته تکراری

شکاف فوق نشان از این واقعیت دارد که نحوه مدیریت و برخورد با هر یک کاملا متفاوت است و می توان این گونه تصور کرد که داده موجود در هر سمت در یک سیاره مجزا زندگی می کند . به عنوان نمونه برای مدیریت داده غیرساختیافته تکراری می توان دست به دامن hadoop شد و از آن به عنوان یک مدیر داده قدرتمند جهت  دستیابی ، مانیتورینگ ، نمایش ، تجزیه و تحلیل و بصری سازی داده استفاده کرد.
تاکید داده غیرساختیافته غیرتکراری تقریبا تماما بر روی ابهام زدایی متن و روش های مختلف آن نظیر قالب دهی مجدد خروجی ، استاندارد سازی داده و مواردی از این قبیل است . ابهام زدایی متنی ( تمرکز داده غیرساختیافته غیرتکراری ) یک موضوع کاملا مجزا نسبت به دستیابی و تحلیل داده (تمرکز داده غیرساختیافته تکراری)  ذخیره شده در hadoop است . مدیریت hadoop و ابهام زدایی متنی نشان دهنده این تفاوت بزرگ است .
شکل 8 تفاوت مدیریت داده غیرساختیافته غیرتکراری با داده غیرساختیافته تکراری را نشان می دهد .

تفاوت مدیریت داده غیرساختیافته غیرتکراری با داده غیرساختیافته تکراری  
شکل 8 : تفاوت مدیریت داده غیرساختیافته غیرتکراری با داده غیرساختیافته تکراری

خلاصه
هر سازمان دارای نوع های مختلفی از داده است که تنها با شناخت ماهیت هر یک است که می توان آنها را به درستی مدیریت کرد . داده یک سازمان را می توان به دو گروه عمده ساختیافته و غیرساختیافته تقسیم کرد . داده های عظیم را می توان در حوزه داده های غیرساختیافته در نظر گرفت که خود حکایت جداگانه ای دارند.  در ادامه ، می توان  داده غیرساختیافته را به دو گروه تکراری و غیرتکراری تقسیم کنیم. در این  رابطه لازم است به دو نکته مهم اشاره گردد : اولا، شیوه مدیریت و نحوه برخورد با داده غیرساختیافته غیرتکراری و داده غیرساختیافته تکراری کاملا متفاوت است و نمی توان از یک راه حل مشابه برای برخورد با هر یک از آنها استفاده کرد . ثانیا ، میزان ارتباط نوع های مختلف داده با کسب و کار و تاثیری که می توانند بر فضای کسب و کار بگذارند کاملا متفاوت است و می بایست قبل از هر اقدامی این موضوع به دقت بررسی گردد .
شکل 9، خلاصه ای از آنچه در این مطلب به آن اشاره گردید را نشان می دهد .

کلیت داده یک سازمان به همراه چندین سطح تقسیم بندی  
شکل 9: کلیت داده یک سازمان به همراه چندین سطح تقسیم بندی