مقاله تقسیم بندی صفحات وب

مقاله تقسیم بندی صفحات وب

دسته: رشته کامپیوتر

فرمت : word | حجم : 389kb | صفحات : 76

قیمت: 6000 تومان
1,709 views

عنوان :

مقاله تقسیم بندی صفحات وب

تعداد صفحات :۷۶

نوع فایل : ورد و قابل ویرایش

چکیده

این پروژه با تحقیق و بررسی فراوان در سه فصل گرد آوری شده و به توصیف و کشف قوانین مختلف تقسیم بندی و قیاس آنها با یکدیگر می پردازد و در نهایت به معرفی کاراترین روش و ارائه پیشنهادات و راهکارهای اصلاحی می پردازد.در نهایت مطالبی که در این پروژه ارائه می شود همگی بر پایه ی قوانین تقسیم بندی است .

در فصل اول به خلاصه ای از فصل دوم و سوم می پردازد.

در فصل دوم روش های متفاوت تقسیم بندی صفحات وب: ما به بررسی ساختار مطلقاً پیچیده‌ای که در صفحات وب جاسازی شده است می پردازیم و چگونگی استفاده از اطلاعات را در خلاصه سازی صفحات وب نشان می دهیم . در اینجا هدف ما استخراج کردن مفاهیم مربوطه‌ی بیشتر از صفحات وب و گذراندن آنها از یک الگوریتم تقسیم بندی متنی استاندارد می باشد .

بویژه ما به چهار شیوه‌ی متفاوت اجرای خلاصه سازی صفحات وب رسیدگی می نماییم روش اول مشابه تکنیک خلاصه سازی Luhn می باشد. روش دوم مشابه استفاده از تحلیل معنایی نهفته روی صفحات وب برای خلاصه سازی می باشد . روش سوم پیدا کردن مفاهیم مهم بدنه‌ ی اصلی متن و ترکیب اجزای آن به منظور خلاصه سازی می باشد و در آخر ، روش چهارم نگریستن به خلاصه سازی همانند یک امر یادگیری نظارت شده می باشد . ما نتایج هر چهار روش خلاصه سازی شده را با هم ترکیب کرده و در خلاصه سازی صفحات وب مورد استفاده قرار می دهیم .

در فصل سوم جستجوی وب با استفاده از طبقه بندی خودکار: ما با هدف افزایش دقت جستجوی وب به مطالعه‌ی طبقه بندی خودکار وب از میان دسته های از پیش تعیین شده می پردازیم . همچنین طبقه بندی پوشه ها به دسته‌های سطح بالایی یاهو! و یک معماری جستجوی ساده و پیاده سازی آن با استفاده از طبقه بندی را توضیح خواهیم داد . تحقیقات ما نشان می دهد که طبقه بندی وب و ابزارهای جستجو باید برای مهارت هایی نظیر تشخیص هرز نامه ی وب تنظیم شوند . دراین قسمت ما یک رابط جستجو را معرفی خواهیم کرد که جستجوی نحوی بدون متن را با جستجوی حساس به متن با هدایت تکنیک طبقه بندی ترکیب می کند و بصورت بالقوه می تواند اغلب صفحات وب را پوشش دهد .

در بخش اول یک شرح سطح بالا از اجزای معماری جستجویمان ارائه می دهیم . بخش دوم خصوصیات آزمایش با یاهو! را توضیح می دهد که به عنوان نمونه ی آزمایشی مورد استفاده قرار می گیرد و در بخش سوم نتایج اصلی وجود داشتن موتورهای جستجو وب را استنباط می نماییم .

واژه های کلیدی: صفحات وب، الگوریتم اجتماع مورچه ها، ساختار پوشه ای، طبقه بندی خودکار

فهرست مطالب

فصل اول: معرفی نامه
۱-۱- معرفی فصل دوم پایان نامه ۲
۱-۲- معرفی فصل سوم پایان نامه ۷

فصل دوم:روش های متفاوت تقسیم بندی صفحات وب
۲-۱- تقسیم بندی صفحات وب بطور مختصر   ۹
۲-۱-۱-۱- روش خلاصه سازی تعدیل شده Luhn   ۱۰
۲-۱-۱-۲ – روش تحلیل معنایی نهفته (LSA)   ۱۲
۲-۱-۱-۳- شناسایی مضمون بدنه اصلی توسط تجزیه و تحلیل لایه‌ای   ۱۳
۲-۱-۱-۴- خلاصه سازی نظارت شده   ۱۵
۲-۱-۱-۵- یک دسته بندی کلی از خلاصه سازی   ۱۷
۲-۱-۲- آزمایشات   ۱۸
۲-۱-۲-۱- مجموعه ی داده   ۱۸
۲-۱-۲-۲- دسته کننده ها   ۱۹
۲-۱-۲-۳- مقیاس ارزیابی   ۲۱
۲-۱-۲-۴- نتایج و تحلیل های تجربی   ۲۲
۲-۱-۲-۵ مورد پژوهش   ۲۹
۲-۱-۳- نتیجه گیری و عملکرد آینده   ۳۱
۲-۲- تقسیم بندی صفحات وب با استفاده از الگوریتم اجتماع مورچه ها   ۳۲
۲-۲-۱- پیش پردازش متنی وابسته   به زبان شناسی و استخراج وب   ۳۲
۲-۲-۲- الگوریتم Ant- Miner   ۳۶
۲-۲-۳- نتایج محاسباتی   ۳۹
۲-۲-۳-۱- تنظیم بصورت عملی   ۳۹
۲-۲-۳-۲- نتایج تأثیر تکنیک های پیش پردازش متنی وابسته به زبان شناسی   ۴۰
۲-۲-۴- بحث و تحقیقات آینده   ۴۳
۲-۳- تقسیم بندی صفحات وب براساس ساختار پوشه‌ای   ۴۴
۲-۳-۱ الگوریتم های تقسیم بندی صفحات وب   ۴۵
۲-۳-۲- روش مبتنی بر ساختار   ۴۷
۲-۳-۳- یک کاربرد خاص   ۴۷
۲-۳-۳-۱- استخراج مهمترین خصوصیات   ۴۸
۲-۳-۳-۲- عمل دسته بندی   ۵۰
۲-۳-۴ نتایج   ۵۱
۲-۳-۵- نتیجه گیری و عملکرد آینده   ۵۳

فصل سوم : جستجوی وب با استفاده از طبقه بندی خودکار
۳-۱- معماری    ۵۷
۳-۱-۱- دسته کننده‌ی خودکار    ۵۷
۳-۱-۲-واسط جستجو   ۵۸
۳-۲- آزمایش معتبر سازی   ۵۹
۳-۲-۲- برپایی آزمایش    ۶۰
۳-۲-۲- نتایج تجربی   ۶۱
۳-۳- فهرست لغات هر دسته   ۶۴
۳-۳-۱- تشخیص هرزنامۀ¹ وب   ۶۶
۳-۳-۲- تأثیرات تبعیضات   ۶۷
۳-۴- عملکردهای بعدی    ۶۸

۲-۱- تقسیم بندی صفحات وب بطور مختصر

در این فصل ما به بررسی ساختار مطلقاً پیچیده‌ای که در صفحات وب جاسازی شده است می پردازیم و چگونگی استفاده از اطلاعات را در خلاصه سازی صفحات وب نشان می دهیم . در اینجا هدف ما استخراج کردن مفاهیم مربوطه‌ی بیشتر از صفحات وب و گذراندن آنها از یک الگوریتم تقسیم بندی متنی استاندارد می باشد .

بویژه ما به چهار شیوه‌ی متفاوت اجرای خلاصه سازی صفحات وب رسیدگی می نماییم روش اول مشابه تکنیک خلاصه سازی [۱]Luhn می باشد،که در بخش ۲-۱-۱-۱- توضیح داده شده است . روش دوم مشابه استفاده از تحلیل معنایی نهفته روی صفحات وب برای خلاصه سازی می باشد . روش سوم پیدا کردن مفاهیم مهم بدنه‌ ی اصلی متن و ترکیب اجزای آن به منظور خلاصه سازی می باشد و در آخر ، روش چهارم نگریستن به خلاصه سازی همانند یک امر یادگیری نظارت شده می باشد .

ما نتایج هر چهار روش خلاصه سازی شده را با هم ترکیب کرده و در خلاصه سازی صفحات وب مورد استفاده قرار می دهیم .

۲-۱-۱-۱- روش خلاصه سازی تعدیل شده Luhn

ما روش Luhn که به منظور خلاصه سازی متون طراحی شده است را برای خلاصه سازی صفحات وب تغییر می دهیم . روش Luhn یک شیوه‌ی اصولی خلاصه سازی است که در آن هر جمله با یک عامل با معنی ارجاع داده شده است و جملات با بزرگ ترین عاملهای با معنی شان به منظور شکل دادن خلاصه انتخاب شده اند به منظور محاسبه ی عامل با معنی یک جمله نیازمند ساختن یک ” منبع لغات با معنی ” هستیم که کلماتی را که فرآوانی آنها بین بیشترین حد فرآوانی و کمترین حد فرآوانی می باشد را معین می کند . پس از انجام دادن این کار عامل با معنی یک جمله می تواند توسط روش Luhn همانند زیر محاسبه شود :

(۱) قرار دادن یک حد L برای فاصله بین هر دو کلمه‌ با معنی که از نظر معنی بهم مربوط مطرح شده‌اند.

(۲) پیدا کردن یک بخش از جمله که مساوی با کلمات با معنی نه بیشتر از L می باشد و از کلمات غیر معنی دار است.

(۳) شمارش تعداد کلمات معنی دار آن بخش و تقسیم عادلانه‌ی این تعداد توسط کل کلمات این بخش .

نتیجه عامل با معنی مربوط به S می باشد .

به منظور تغییر دادن این روال برای صفحات وب ما یک سری دستورات را برای الگوریتم Luhn می سازیم . در امر تقسیم بندی صفحات وب ، دسته اطلاعات هر صفحه قبلاً در داده‌های آموزشی معلوم شده است ، بنابراین کلمات با معنی انتخاب شده می تواند بین هر دسته از قبل تولید شده باشد .

در این روش ما برای هر دسته با انتخاب کردن کلمات با فرآوانی زیاد و پس از پاک کردن کلمات غیر قابل استفاده در آن بخش یک منبع لغات بامعنی ساختیم و سپس روش Luhn را به منظور محاسبه عامل با معنی به کار گرفتیم.

این تغییر دو مزیت دارد اول اینکه دانسته های قبلی بخش ها در خلاصه سازی مورد استفاده قرار می گیرد و دوم اینکه برخی از لغاتی نسبتاً بطور مکرر دریک صفحه‌ی مجزا تکرار می شوند از میان آمار پوشه‌های متعدد پاک خواهند شد .

در طول خلاصه سازی صفحات وب در دوره‌ی آموزشی شان با معنی در جمله با توجه به معنی لغات با معنی مطابق بر چسب آن بخش محاسبه خواهد شد .

برای تست صفحات وب اطلاعات آن بخش را در دست نداریم در اینجا ما عاملهای با معنی را برای هر جمله با توجه به منابع لغات با معنی متفاوت در سرتا سر بخش‌های مختلف محاسبه می نماییم .

نشان با معنی جمله‌ی نهایی میانگین همه‌ی بخش ها خواهد بود و به Luhn S منسوب است . خلاصه‌ی این صفحه با جملاتی که بالاترین نشان را دارند شکل خواهد گرفت .

۲-۱-۱-۲ – روش تحلیل معنایی نهفته (LSA[2])

تحلیل معنایی نهفته با موفقیت در بازیابی اطلاعات و بسیاری از قلمروهای مربوطه بکار رفته است و توانایی این روش در ارائه کردن واحدها و اجزای مربوط است که به یک “فضای خالی معنایی ” با ابعاد خیلی بزرگ اشاره می کند . در حوزه‌ی خلاصه سازی متنی،روش گنگ[۳] یکی از کارهایی است که در متن های محض به روش LSA جواب داده است . در این بخش ما چگونگی به کار بردن LSA را برای خلاصه سازی مرور خواهیم کرد .

روش تحلیل معنایی نهفته مبنی بر تجزیه‌ی ارزش منفرد (SVD)[4] می باشد .

SVD تکنیک تجزیه‌ی ماتریس ریاضی است که قابل اجرا بر روی متون توسط انسان های کار آزموده و با تجربه است . به عنوان مثال ماتریس داده شده است که هر بردار ستون نماینده‌ی بردار واحد فرآوانی دارای وزن جمله‌ی i در پوشه‌ی تحت ملاحظه می‌باشد ، روش SVD همانند زیر تعریف می‌شود :

در اینجا که یک ماتریس نرمال ستونی است که ستونهای آن بردارهای منفرد طرف چپ نامیده می شوند.
، یک ماتریس قطری n n است که عناصر قطری غیر منفی آن با ارزش منفرد ، با ترتیب نزولی ذخیره شده‌اند .
یک ماتریس نرمال n n است که ستونهای آن بردارهای منفرد طرف راست نامیده می‌شوند ، روش LSA در خلاصه سازی به دو علت کاربرد پذیر است:

ابتدا اینکه ، LSA قابل تعریف و مدلسازی در رابطه‌ی متقابل بین واحدهای طبقه بندی شده از نظر معنا وجملات می باشد . دوم اینکه ، LSA می تواند الگوی ترکیبی کلمات برجسته و تکرار شونده‌ی متن را در پوشه‌ای که یک موضوع خاص را توصیف می کند بدست آورد. در روش LSA ، مفاهیم توسط یکی از بردارهای منفردی که مقدار متناظرشان نمایانگر اهمیت درجه‌ی آن الگو در یک پوشه می باشد ، نشان داده می‌شود. هر جمله ای شامل این الگوی ترکیبی لغات در این بردار منفرد ارائه خواهد شد . هر جمله‌ای که این الگو را بهتر نمایش دهد ،بیشترین مقدار شاخص این بردار را خواهد داشت این شاخص را با نمایش می دهیم . و جملات با بالاترین شاخص را برای خلاصه سازی انتخاب می کنیم .

۲-۱-۱-۳- شناسایی مضمون بدنه اصلی توسط تجزیه و تحلیل لایه‌ای

کاراکترهای ساخت یافته‌ی صفحات وب ، خلاصه سازی صفحات وب را از خلاصه سازی متنی محض متفاوت می سازد . انجام این کار روی اجزاء بسیار زیاد یک صفحه وب مشکل است . همانند بلاک واسط کاربر، آگهی تبلیغاتی و اطلاعات حق چاپ.

به منظور استفاده از اطلاعات ساخت یافته‌ی صفحات وب ما یک نسخه ساده شده از تابع مدل شی‌‌ء[۵] را بکار می‌گیریم.

تابع مدل شیء تلاش می کند تا منظور یک برنامه نویس کامپیوتر را با مشخص کردن تابع شیء و دسته‌ی مربوط برساند . در تابع مدل شی ء اشیاء به دسته‌های شیء اصلی (BO) که شامل کوچکترین اطلاعاتی است که قابل تقسیم شدن نیستند یا شیء مرکب ( CO) که یک مجموعه از اشیایی هستند که چندین تابع را با یکدیگر اجرا می‌نماید .

فایل ( pegj) یک مثال از شیء اصلی می‌باشد . هیچ گونه برچسب دیگری درون محتوای شیء اصلی نمی باشد با توجه به این معیار پیدا کردن تمامی شیء های اصلی درون یک صفحه وب آسان است .

همچنان اشیاء مرکب می توانند توسط تحلیل لایه‌ای صفحات وب نمایان شوند . پس از یافتن تمامی اشیاء اصلی و اشیاء مرکب در یک صفحه وب ما می توانیم طبقه‌ی هر شیء را با توجه به برخی قوانین اکتشافی تعیین کنیم . در اینجا ما یک نظر اجمالی بر مضامین طبقات اشیاء می اندازیم .

۱- شیء اطلاعاتی : این شیء اطلاعات مضامین را نمایش می دهد .

۲- شیء واسط کاربر: این شیء راهنمایی‌های واسط کاربر را در اختیار قرار می دهد .

۳- شیء عکس العمل : این شیء عکس العمل جانب کاربر را مهیا می نماید .

۴- شیء تزئینی : این شیء برای اهداف تزئینی بکار می رود .

۵- شیء تابع خاص : این شیء توابع خاص را اجرا می کند .

به منظور استفاده از این اشیاء از انواع اشیاء بالا ما بدنه اصلی مضمون[۶] (CB) یک صفحه‌ی وب را توضیح می دهیم که شامل اشیاء اصلی مربوط به متن آن صفحه می باشد. این ها اشیایی هستند که اطلاعات اصلی در مورد آن صفحه را حمل می‌کنند. الگوریتم نمایش (CB) همانند زیر است :

۱- رسیدگی کردن به هر شیء انتخابی همانند یک پوشه‌ی منفرد .

۲- محاسبه شباهت بین هر دو شیء .

۳- در یک گراف شیء هسته با بیشترین درجه مشخص شده است.

۴- استخراج کردن (CB) با ترکیب تمام اشیایی که یالی به شیء هسته دارد .

در آخر ما یک امتیاز را به هر جمله اختصاص می دهیم . اگر ۱= جمله شامل بدنه‌ی اصلی مضمون می باشد و در غیر این صورت ۰= ، در انتها همه‌ی جملات با ۱= در خلاصه سازی صفحه‌ی وب به کار گرفته می‌شود .

۲-۱-۱-۴- خلاصه سازی نظارت شده

در این بخش ما یک رویکرد نظارت شده را برای خلاصه سازی بکار می گیریم که بطور کامل از داده‌های آموزشی بر چسب دار استفاده می کند و سپس یک الگوریتم یادگیری به منظور آموزش تلخیص کننده بکار گرفته می‌شود تا تلخیص کننده بتواند شناسایی کند که آیا یک جمله باید برای خلاصه‌اش انتخاب شود یا خیر . در مجموع هشت خصوصیت مورد استفاده در این الگوریتم موجود می باشد که پنج تای آنها خصوصیات متداول برای پوشه های متنی و صفحات وب می‌باشند و سه تای باقیمانده مختص طراحی صفحات می‌باشند .

برخی از علامت گذاری‌هادر زیر توضیح داده شده اند :

PN: تعداد پاراگراف های یک پوشه

SN: تعداد جملات یک پوشه

: تعداد جملات یک پاراگراف خاص K

Para(i): پاراگراف مربوط به جمله ی i

: تعداد وقوع کلمه‌ی w در یک صفحه‌ی وب مشخص

: تعداد جملات شامل کلمه‌ی W در b صفحه

به عنوان مثال اگر مجموعه جملات در یک صفحه داده شده باشداین هشت خصوصیت مانندزیر است :

(۱) = موقعیت یک جمله در یک پاراگراف خاص

(۲)= طول یک جمله که تعداد کلمات آن جمله را نشان می دهد .

(۳) این خصوصیت به منظور استفاده و حذف کلمات محلی تکرار شونده بکار می رود .

(۴)= شباهت بین جمله‌ی و عنوان می‌باشد .

(۵)= شباهت بین جمله و تمامی متن آن صفحه می باشد.

(۶)= شباهت بین جمله و داده‌های یک صفحه وب می باشد .

(۷)= تعداد وقوع کلمه‌ای از جمله‌ی در مجموعه لغات خاص .

با جمع آوری لغات مایل ، پررنگ و زیر خط دار واقع در صفحه‌ی وب مجموعه لغات خاص ساخته می‌شود.

(۸)= میانگین سایز فونت لغات در جمله است . بطور کل سایز فونت بزرگتر در یک صفحه‌ی وب نشاندهنده‌ی اهمیت بیشتر می باشد .

پس از اقتباس این ۸ خصوصیت از یک صفحه‌ی وب ما از یک روش طبقه بندی برای آموزش دادن به یک تلخیص کننده استفاده می نماییم :

در اینجا P(s/S) بر نرخ فشرده سازی و اختصار تلخیص کننده دلالت می کند که می تواند برای کاربردهای خاص از پیش تعیین شده باشد و احتمال هر خصوصیت I می باشد و احتمال شرطی هر خصوصیت i است به هر جمله‌ای یک امتیازی می تواند تعلق گیرد که با نمایش داده می‌شود.

۲-۱-۱-۵- یک دسته بندی کلی از خلاصه سازی

با ترکیب کردن چهار روش ارائه شده در بخش های قبل ما یک صفحه‌ی وب پیوندی به دست می آوریم . بدین ترتیب با در اختیار داشتن یک صفحه وب مقدار امتیازات هر جمله را با چهار الگوریتم خلاصه سازی به طور جداگانه محاسبه می نماییم . امتیاز نهایی یک جمله مجموع این چهار امتیاز می باشد :

جملات با بالاترین S برای خلاصه ی صفحات وب انتخاب خواهند شد .

۲-۱-۲- آزمایشات

به منظور تست خلاصه سازی برای طبقه بندی صفحات وب چندین آزمایش انجام شده است . ابتدا ما طبقه بندی صفحات وب را بر روی خلاصه‌ی تولید شده توسط انسان تست می کنیم تا متوجه شویم که آیا خلاصه سازی می تواند به طبقه بندی صفحات وب کمک کند یا خیر ما ” تلخیص کننده ی شناسایی بدنه‌ی مضمون ” پیشنهاد شده‌ی خود را با دو الگوریتم سنتی مقایسه می‌کنیم:

الگوریتم تعدیل شده‌ی Luhn وروش های مبتنی بر LSA . در انتها، یک دسته بندی کلی از خلاصه سازی ارزیابی شده است . ما در آزمایشاتمان همچنین تغییرات تنظیمات پارامترهای متفاوت را برای حروف چینی بهترین خلاصه مطالعه می نماییم .

۲-۱-۲-۱- مجموعه ی داده

[۱].روشی که برای خلاصه سازی متون طراحی شده است.

[۲] . LSA Latent semantic Analysis

[۳] . Gong

[۴] . SVD singular Value De composition

[۵] . FOM : funcation object Model

[۶] . CB: Content Body

جهت دریافت و خرید متن کامل مقاله و تحقیق و پایان نامه مربوطه بر روی گزینه خرید انتهای هر تحقیق و پروژه کلیک نمائید و پس از وارد نمودن مشخصات خود به درگاه بانک متصل شده که از طریق کلیه کارت های عضو شتاب قادر به پرداخت می باشید و بلافاصله بعد از پرداخت آنلاین به صورت خودکار لینک دنلود مقاله و پایان نامه مربوطه فعال گردیده که قادر به دنلود فایل کامل آن می باشد .

مطالب پیشنهادی:

پروژه طراحی صفحات وب

مقاله طراحی و پیاده سازی سایت با زبانهای برنامه سازی تحت وب