نویسنده: محسن فینی زاده
میتوان گفت یکی از اصطلاحاتی که در سالهای اخیر در زمینهی فناوری اطلاعات زیاد شنیده شده است، بیگ دیتا یا کلان داده است. بیگ دیتا (Big Data) فقط در حوزه فناوری اطلاعات مطرح نمیشود کاربردهای زیادی در پزشکی، اقتصاد، بانکداری و حسابداری و … دارد، دادههایی که هر روز از حسابهای بانکی، بورس، تراکنشهای بانکی، بیماران و آزمایشهای تجربی، اطلاعات بیمهشدگان و یا هر اطلاعات عظیم سازمانی حاصل می شود، همه و همه بیگ دیتا یا کلان داده هستند.
تعریف و ویژگیهای کلان داده
اما در دنیای فناوری اطلاعات ، دادهها از منابع گوناگونی تولید میشوند، این دادهها در قالبهای ساختار یافته (structured)، ساختار نیافته (unstructured) و نیمه ساختار یافته (semi-structured) در اندازه پتابایت (PB)، اگزابایت (EB)، زتابایت (ZB) و حتی بیشتر وجود دارند. کلانداده که آن را مِهداده نیز می نامند، را با چند کلمه که در انگلیسی با حرف «V» آغاز میشوند تعریف می کنند، که از اصلی ترین آنها می توان به حجم volume، سرعت velocity ، تنوع variety ارزش Value اشاره کرد.[۱]
حجم داده یا Volume: از سال ۲۰۱۲، تقریبا روزانه ۲٫۵ اگزابایت داده تولید میشود و این مقدار، هر ۴۰ماه، دوبرابر می شود. همچنین تخمین زده میشود که وال مارت[۲]، هر ساعت ۲٫۵ پتابایت داده از تراکنشهای مشتریانش، جمعآوری میکند. همچنین، موفقیت شبکههای اجتماعی، موجب تولید حجم عظیمی از محتوا شده است؛ برای نمونه، توییتر، روزانه به تنهایی ۱۲ترابایت داده تولید میکند.
تنوع داده یا Variety: منابع دادههای عظیم میتواند از چندین مبدا و در شکل های ناهمگون مانند، پیامها، بهنگام سازیها و تصاویر ارسال شده در شبکههای اجتماعی، سیگنالهای GPS از گوشیهای سلولی و غیره باشد. بعلاوه این دادهها فاقد شِما هستند.
سرعت رشد داده یا Velocity: در بسیاری از کاربردها، سرعت تولید دادهها، از حجم دادهها مهمتر است. اطلاعات بیدرنگ موجب میشود تا سرعت عمل، عامل سوددهی یک شرکت و سبقت از شرکت های رقیب باشد. ارزش داده یا Value: پیش از تصمیمگیری برای ذخیره دادههای عظیم، باید مشخص گردد که آیا این دادهها ارزشمند هستند و پردازش، تحلیل یا حتی فروش آن ها بصورت خام، موجب درآمدزایی برای شرکت میشود یا خیر.
گاهی از V پنجمی نام برده میشود؛ صحت داده یا Veracity: با رشد سریع دادهها از نظر حجم و تنوع، احتمال وجود داده های نادرست در آنها نیز افزایش مییابد. در نتیجه اگر ورودی قابل اعتماد نباشد، نمیتوان به اطلاعات استخراج شده از آن اعتماد کرد. در دنیای کسب و کار نیز، مدیران بطور کامل به اطلاعات استخراج شده از دادههای عظیم، اعتماد نمی کنند.
کلان داده شبکههای اجتماعی
اما در مورد کلان داده شبکههای اجتماعی باید این نکته را در نظر گرفت که اصلی ترین ویژگی آن رشد فزاینده حجم داده است، به عنوان مثال در حال حاضر بیش از دو میلیارد کاربر فیس بوک در جهان، بیش از یک میلیارد کاربر اینستاگرام ، چند صد میلیون کاربر توییتر و… به صورت لحظه در حال تولید داده، محتوا و کنش نسبت به محتواهای دیگر کاربران هستند، به صورتی که در سال ۲۰۱۹ در هر دقیقه بیش از چهل میلیون پیام در واتس اپ و چت فیس بوک تبادل شده است و در همین شصت ثانیه بیش از چهار ونیم میلیون ویدیو در یوتیوب دیده شده است و داده های زیادی توسط چند میلیارد کاربر در بستر های مختلف در قالب متن، فیلم و عکس در حال تولید است.
کلان داده شبکههای اجتماعی فارسی زبان
در مورد شبکههای اجتماعی فارسی زبان و فعالیت کاربران ایرانی با توجه به محدودیت های فیلترینگ و یا تحریم ها و… اعداد دقیقی از سوی شبکههای اجتماعی بین المللی در مورد ایران اعلام نمیشود اما از منابع مختلف میتوان در مورد حدود کابران و محتواهای تولید شد ایرانی در بستر شبکه اجتماعی اظهارنظر کرد، تعداد نصب نرم افزار، تعداد دنبال کنندههای کاربران ایرانی، شرکت های جمعآوری کننده دادههای عمومی، ارقام ارائه شده از بعضی سایت های و… از جمله این منابع هستند.
باتوجه به نظر کارشناسان برآورد میشود بیش از چهل میلیون اکانت تلگرام، بیش از سی و پنج میلیون اکانت اینستاگرام توسط ایرانیها فعال باشد، هرچند با فیلتر شدن تلگرام ممکن است بعضی این کاربران تمام یا بخشی از فعالیت و یا مصرف رسانه خود را به بعضی از پیام رسان های داخلی و یا خارجی منتقل کرده باشند.
برای درک بهتر حجم داده هایی که به صورت لحظه توسط کاربران فارسی زبان در شبکههای اجتماعی منتشر میشود ، میتوان به موضوعات کرونا که در چند ماه اخیر اتفاق افتاده اشاره کرد، فقط در موضوع کرونا در طول چهار ماه گذشته بیش از سی میلیون داده در شبکههای اجتماعی به صورت عمومی منتشر شده است و یا در انتخابات مجلس در بازه زمانی کوتاهی در یکی از بسترها در حدود دو میلیون محتوا منتشر شد و یا همزمان با شهادت سردار سلیمانی در بسترهای شبکههای اجتماعی بیش از شش میلیون پست توسط کاربران شبکههای اجتماعی فارسی زبان به اشتراک گذاشته شد.[۳]
حالا باید فکر کنید با این حجم عظیم از دادهها که به صورت عمومی به اشتراک گذاشته شده است و البته پردازش، تحلیل و دادهکاوی آنها و همچنین تبدیل شان به گزارههای قابل تصمیمسازی برای مدیران، میتوان چه کمکهای زیادی در اقتصاد، بورس، مطالعات علمی، بازاریابی و فروش، سیاست و حتی بهبود خدمات دولتی و سازمان ها و… کرد.
______________________________________________________________________
[۱] – با گذشت زمان برای تعریف کلان داده از V های بیشتری استفاده شده است که به بیش از ۴۲ واژه رسیده است.
[۲] – این شرکت، با دارا بودن بزرگترین شبکه خردهفروشی، یکی از با ارزشترین شرکتهای جهان محسوب میشود.
[۳] – این داده ها مربوط به پست هایی هستند که در کانال های تلگرام ، صفحات اینستاگرام و توییتر عمومی به صورت دسترسی آزاد منتشر شده است، و شامل صفحات پرایویت و خصوصی، گروه ها و… نمی شود.
شما می توانید متن منتشر شده در صبح نو در تاریخ ۱۰ تیر ۱۳۹۹ را در اینجا بخوانید