وب کاوی web mining

1397/10/19
کلمه mining یا کاویدن به معنی استخراج یک پدیده مفید و یا ارزشمند از یک ماده اولیه می باشد مانند استخراج طلا از زمین. وب کاوی یک تکنینک کاویدن داده می باشد که به دستیابی الگوهای اطلاعاتی از داده های موجود در وب کمک می کند. وب کاوی کمک میکند تا قدرت موتور های جستجوی وب بهتر شود. این کار از طریق شناساندن صفحات وب و طبقه بندی مستندات آنها قابل انجام است. وب کاوی برای فهمیدن رفتار مشتری، ارزیابی اثربخشی یک وبسایت خاص مفید است و کمک می کند تا میزان موفقیت یک کمپین بازاریابی بیشتر شود. همچنین وب کاوی برای سایت های e-commerce و e-services مناسب است. وب کاوی به ما اجازه می دهد که به دنبال الگوهایی از داده در متن، ساختار و حتی استفاده بگردیم. کاویدن محتوا برای بررسی داده های جمع آوری شده توسط موتورهای جستجو و spider های وب مورد استفاده قرار می گیرد. کاویدن ساختار برای بررسی داده های مربوط به ساختار یک وبسایت قابل استفاده است و کاویدن استفاده برای بررسی داده های مربوط به browser یک کاربر خاص همانند داده هایی که از فرم هایی که کاربر submit کرده، جمع شده است.
اطلاعات جمع شده از طریق وب کاوی، از طریق پارامترهای قدیمی داده کاوی نظیر clustering،   classification و بررسی الگو های متوالی ارزیابی می گردد. (گاهی این امکان به کمک ابزار های گرافیکی مانند Bliss ، CaGe، Cliquer، CGF، CPF و... امکان پذیر می شود)
در عکس زیر رابطه بین data mining و web mining قابل مشاهده می باشد.
data-mining-v-web-mining.png
مراحل پردازش در یک فرآیند وب کاوی در فلوچارت زیر قابل نمایش است:
process.png
 
وب کاوی به سه دسته تقسیم می شود:
  1. Web Content Mining
  2. Web Usage Mining
  3. Web Structure Mining
 
  1. Web Content Mining
  • می تواند برای کاویدن اطلاعات مفید از محتوای صفحات استفاده شود.
  • وب کاوی محتوا تمامی صفحات را اسکن می کند و با کاویدن متن، عکس و حتی گروهی از صفحات وب بر اساس ورودی دریافت شده، به موتور جتسجو کمک می کند تا لیستی از نتایج مرتبط را بازگرداند.
به عنوان مثال، اگر کاربر یک کتاب خاص را جستجو نماید، موتور جستجو لیست توصیه های مرتبط اعم از عکس، فیلم و صفحات وب را نشان می دهد.
  1. Web Usage Mining
  • برای کاویدن ریکورد های log یک وب سایت استفاده می شود.(دسترسی به اطلاعات صفحات وب) و کمک می کند تا الگوهای دسترسی به صفحات وب مشخص شود.
  • هر وب سرور یک web log entry به ازای هر صفحه وب رجیستر می کند.
  • تحلیل شباهت ریکورد های log یک وب سایت می تواند برای مشخص کردن پتانسیل مشتری ها برای سایت هایی که دارای e-commerce می باشند، مفید باشد.
بعضی از تکنیک هایی که برای تشخیص و تحلیل الگوی استفاده از صفحات وجود دارد عبارت است از:
  • Session and visitor analysis
  • تحلیل پیش پردازش داده در تحلیل سشن اتفاق می افتد، که شامل تعداد بازدیدکنندگان، روز بازدید و... می باشد. این اطلاعات برای تحلیل رفتار بازدیدکنندگان مفید است.
  • بعد از این تحلیل یک گزارش آماده می شود که شامل جزییات زیر است: فرکانس صفحات مشاهده شده، زمان معمول ورود به وب سایت، زمان معمول خروج از وبسایت
 
  • OLAP (Online Analytical Processing)
 
  • بستری برای تحلیل چندبعدی روی داده های پیچیده فراهم می کند.
  • می تواند روی بخش های مختلف داده های مربوط به log در یک بازه زمانی مشخص اجرا شود و خروجی را بازگرداند.
  • ابزارOLAP می توند برای به دست آوردن معیار های مهمی در هوش تجاری استفاده گردد.
 olap.png
  1. Web Structure Mining
 
  • کمک می کند تا اطلاعات مفید و یا الگو اطلاعات را از ساختار هایپر لینک ها به دست آوریم. همچنین می تواند برای تشخیص ساختار لینک در هایپرلینک ها استفاده شود.
  • می تواند برای مشخص شدن اینکه صفحات وب به وسیله اطلاعات به یکدیگر لینک شده اند یا توسط لینک مستقیم به ما کمک کند.
هدف از این نوع کاویدن، تولید یک خلاصه ساختار یافته از وبسایت و صفحات مشابه آن است. به طور مثال می تواند برای تمییز قرار دادن و همین طور تشخیص ارتباط دو وبسایت تجاری مورد استفاده قرار گیرد.
User Avatar
نویسنده : ملیکا مقدس
امتیاز شما :