عنوان :
تعداد صفحات :۷۶
نوع فایل : ورد و قابل ویرایش
این پروژه با تحقیق و بررسی فراوان در سه فصل گرد آوری شده و به توصیف و کشف قوانین مختلف تقسیم بندی و قیاس آنها با یکدیگر می پردازد و در نهایت به معرفی کاراترین روش و ارائه پیشنهادات و راهکارهای اصلاحی می پردازد.در نهایت مطالبی که در این پروژه ارائه می شود همگی بر پایه ی قوانین تقسیم بندی است .
در فصل اول به خلاصه ای از فصل دوم و سوم می پردازد.
در فصل دوم روش های متفاوت تقسیم بندی صفحات وب: ما به بررسی ساختار مطلقاً پیچیدهای که در صفحات وب جاسازی شده است می پردازیم و چگونگی استفاده از اطلاعات را در خلاصه سازی صفحات وب نشان می دهیم . در اینجا هدف ما استخراج کردن مفاهیم مربوطهی بیشتر از صفحات وب و گذراندن آنها از یک الگوریتم تقسیم بندی متنی استاندارد می باشد .
بویژه ما به چهار شیوهی متفاوت اجرای خلاصه سازی صفحات وب رسیدگی می نماییم روش اول مشابه تکنیک خلاصه سازی Luhn می باشد. روش دوم مشابه استفاده از تحلیل معنایی نهفته روی صفحات وب برای خلاصه سازی می باشد . روش سوم پیدا کردن مفاهیم مهم بدنه ی اصلی متن و ترکیب اجزای آن به منظور خلاصه سازی می باشد و در آخر ، روش چهارم نگریستن به خلاصه سازی همانند یک امر یادگیری نظارت شده می باشد . ما نتایج هر چهار روش خلاصه سازی شده را با هم ترکیب کرده و در خلاصه سازی صفحات وب مورد استفاده قرار می دهیم .
در فصل سوم جستجوی وب با استفاده از طبقه بندی خودکار: ما با هدف افزایش دقت جستجوی وب به مطالعهی طبقه بندی خودکار وب از میان دسته های از پیش تعیین شده می پردازیم . همچنین طبقه بندی پوشه ها به دستههای سطح بالایی یاهو! و یک معماری جستجوی ساده و پیاده سازی آن با استفاده از طبقه بندی را توضیح خواهیم داد . تحقیقات ما نشان می دهد که طبقه بندی وب و ابزارهای جستجو باید برای مهارت هایی نظیر تشخیص هرز نامه ی وب تنظیم شوند . دراین قسمت ما یک رابط جستجو را معرفی خواهیم کرد که جستجوی نحوی بدون متن را با جستجوی حساس به متن با هدایت تکنیک طبقه بندی ترکیب می کند و بصورت بالقوه می تواند اغلب صفحات وب را پوشش دهد .
در بخش اول یک شرح سطح بالا از اجزای معماری جستجویمان ارائه می دهیم . بخش دوم خصوصیات آزمایش با یاهو! را توضیح می دهد که به عنوان نمونه ی آزمایشی مورد استفاده قرار می گیرد و در بخش سوم نتایج اصلی وجود داشتن موتورهای جستجو وب را استنباط می نماییم .
واژه های کلیدی: صفحات وب، الگوریتم اجتماع مورچه ها، ساختار پوشه ای، طبقه بندی خودکار
فصل اول: معرفی نامه
۱-۱- معرفی فصل دوم پایان نامه ۲
۱-۲- معرفی فصل سوم پایان نامه ۷
فصل دوم:روش های متفاوت تقسیم بندی صفحات وب
۲-۱- تقسیم بندی صفحات وب بطور مختصر ۹
۲-۱-۱-۱- روش خلاصه سازی تعدیل شده Luhn ۱۰
۲-۱-۱-۲ – روش تحلیل معنایی نهفته (LSA) ۱۲
۲-۱-۱-۳- شناسایی مضمون بدنه اصلی توسط تجزیه و تحلیل لایهای ۱۳
۲-۱-۱-۴- خلاصه سازی نظارت شده ۱۵
۲-۱-۱-۵- یک دسته بندی کلی از خلاصه سازی ۱۷
۲-۱-۲- آزمایشات ۱۸
۲-۱-۲-۱- مجموعه ی داده ۱۸
۲-۱-۲-۲- دسته کننده ها ۱۹
۲-۱-۲-۳- مقیاس ارزیابی ۲۱
۲-۱-۲-۴- نتایج و تحلیل های تجربی ۲۲
۲-۱-۲-۵ مورد پژوهش ۲۹
۲-۱-۳- نتیجه گیری و عملکرد آینده ۳۱
۲-۲- تقسیم بندی صفحات وب با استفاده از الگوریتم اجتماع مورچه ها ۳۲
۲-۲-۱- پیش پردازش متنی وابسته به زبان شناسی و استخراج وب ۳۲
۲-۲-۲- الگوریتم Ant- Miner ۳۶
۲-۲-۳- نتایج محاسباتی ۳۹
۲-۲-۳-۱- تنظیم بصورت عملی ۳۹
۲-۲-۳-۲- نتایج تأثیر تکنیک های پیش پردازش متنی وابسته به زبان شناسی ۴۰
۲-۲-۴- بحث و تحقیقات آینده ۴۳
۲-۳- تقسیم بندی صفحات وب براساس ساختار پوشهای ۴۴
۲-۳-۱ الگوریتم های تقسیم بندی صفحات وب ۴۵
۲-۳-۲- روش مبتنی بر ساختار ۴۷
۲-۳-۳- یک کاربرد خاص ۴۷
۲-۳-۳-۱- استخراج مهمترین خصوصیات ۴۸
۲-۳-۳-۲- عمل دسته بندی ۵۰
۲-۳-۴ نتایج ۵۱
۲-۳-۵- نتیجه گیری و عملکرد آینده ۵۳
فصل سوم : جستجوی وب با استفاده از طبقه بندی خودکار
۳-۱- معماری ۵۷
۳-۱-۱- دسته کنندهی خودکار ۵۷
۳-۱-۲-واسط جستجو ۵۸
۳-۲- آزمایش معتبر سازی ۵۹
۳-۲-۲- برپایی آزمایش ۶۰
۳-۲-۲- نتایج تجربی ۶۱
۳-۳- فهرست لغات هر دسته ۶۴
۳-۳-۱- تشخیص هرزنامۀ¹ وب ۶۶
۳-۳-۲- تأثیرات تبعیضات ۶۷
۳-۴- عملکردهای بعدی ۶۸
در این فصل ما به بررسی ساختار مطلقاً پیچیدهای که در صفحات وب جاسازی شده است می پردازیم و چگونگی استفاده از اطلاعات را در خلاصه سازی صفحات وب نشان می دهیم . در اینجا هدف ما استخراج کردن مفاهیم مربوطهی بیشتر از صفحات وب و گذراندن آنها از یک الگوریتم تقسیم بندی متنی استاندارد می باشد .
بویژه ما به چهار شیوهی متفاوت اجرای خلاصه سازی صفحات وب رسیدگی می نماییم روش اول مشابه تکنیک خلاصه سازی [۱]Luhn می باشد،که در بخش ۲-۱-۱-۱- توضیح داده شده است . روش دوم مشابه استفاده از تحلیل معنایی نهفته روی صفحات وب برای خلاصه سازی می باشد . روش سوم پیدا کردن مفاهیم مهم بدنه ی اصلی متن و ترکیب اجزای آن به منظور خلاصه سازی می باشد و در آخر ، روش چهارم نگریستن به خلاصه سازی همانند یک امر یادگیری نظارت شده می باشد .
ما نتایج هر چهار روش خلاصه سازی شده را با هم ترکیب کرده و در خلاصه سازی صفحات وب مورد استفاده قرار می دهیم .
ما روش Luhn که به منظور خلاصه سازی متون طراحی شده است را برای خلاصه سازی صفحات وب تغییر می دهیم . روش Luhn یک شیوهی اصولی خلاصه سازی است که در آن هر جمله با یک عامل با معنی ارجاع داده شده است و جملات با بزرگ ترین عاملهای با معنی شان به منظور شکل دادن خلاصه انتخاب شده اند به منظور محاسبه ی عامل با معنی یک جمله نیازمند ساختن یک ” منبع لغات با معنی ” هستیم که کلماتی را که فرآوانی آنها بین بیشترین حد فرآوانی و کمترین حد فرآوانی می باشد را معین می کند . پس از انجام دادن این کار عامل با معنی یک جمله می تواند توسط روش Luhn همانند زیر محاسبه شود :
(۱) قرار دادن یک حد L برای فاصله بین هر دو کلمه با معنی که از نظر معنی بهم مربوط مطرح شدهاند.
(۲) پیدا کردن یک بخش از جمله که مساوی با کلمات با معنی نه بیشتر از L می باشد و از کلمات غیر معنی دار است.
(۳) شمارش تعداد کلمات معنی دار آن بخش و تقسیم عادلانهی این تعداد توسط کل کلمات این بخش .
نتیجه عامل با معنی مربوط به S می باشد .
به منظور تغییر دادن این روال برای صفحات وب ما یک سری دستورات را برای الگوریتم Luhn می سازیم . در امر تقسیم بندی صفحات وب ، دسته اطلاعات هر صفحه قبلاً در دادههای آموزشی معلوم شده است ، بنابراین کلمات با معنی انتخاب شده می تواند بین هر دسته از قبل تولید شده باشد .
در این روش ما برای هر دسته با انتخاب کردن کلمات با فرآوانی زیاد و پس از پاک کردن کلمات غیر قابل استفاده در آن بخش یک منبع لغات بامعنی ساختیم و سپس روش Luhn را به منظور محاسبه عامل با معنی به کار گرفتیم.
این تغییر دو مزیت دارد اول اینکه دانسته های قبلی بخش ها در خلاصه سازی مورد استفاده قرار می گیرد و دوم اینکه برخی از لغاتی نسبتاً بطور مکرر دریک صفحهی مجزا تکرار می شوند از میان آمار پوشههای متعدد پاک خواهند شد .
در طول خلاصه سازی صفحات وب در دورهی آموزشی شان با معنی در جمله با توجه به معنی لغات با معنی مطابق بر چسب آن بخش محاسبه خواهد شد .
برای تست صفحات وب اطلاعات آن بخش را در دست نداریم در اینجا ما عاملهای با معنی را برای هر جمله با توجه به منابع لغات با معنی متفاوت در سرتا سر بخشهای مختلف محاسبه می نماییم .
نشان با معنی جملهی نهایی میانگین همهی بخش ها خواهد بود و به Luhn S منسوب است . خلاصهی این صفحه با جملاتی که بالاترین نشان را دارند شکل خواهد گرفت .
تحلیل معنایی نهفته با موفقیت در بازیابی اطلاعات و بسیاری از قلمروهای مربوطه بکار رفته است و توانایی این روش در ارائه کردن واحدها و اجزای مربوط است که به یک “فضای خالی معنایی ” با ابعاد خیلی بزرگ اشاره می کند . در حوزهی خلاصه سازی متنی،روش گنگ[۳] یکی از کارهایی است که در متن های محض به روش LSA جواب داده است . در این بخش ما چگونگی به کار بردن LSA را برای خلاصه سازی مرور خواهیم کرد .
روش تحلیل معنایی نهفته مبنی بر تجزیهی ارزش منفرد (SVD)[4] می باشد .
SVD تکنیک تجزیهی ماتریس ریاضی است که قابل اجرا بر روی متون توسط انسان های کار آزموده و با تجربه است . به عنوان مثال ماتریس داده شده است که هر بردار ستون نمایندهی بردار واحد فرآوانی دارای وزن جملهی i در پوشهی تحت ملاحظه میباشد ، روش SVD همانند زیر تعریف میشود :
در اینجا که یک ماتریس نرمال ستونی است که ستونهای آن بردارهای منفرد طرف چپ نامیده می شوند.
، یک ماتریس قطری n n است که عناصر قطری غیر منفی آن با ارزش منفرد ، با ترتیب نزولی ذخیره شدهاند .
یک ماتریس نرمال n n است که ستونهای آن بردارهای منفرد طرف راست نامیده میشوند ، روش LSA در خلاصه سازی به دو علت کاربرد پذیر است:
ابتدا اینکه ، LSA قابل تعریف و مدلسازی در رابطهی متقابل بین واحدهای طبقه بندی شده از نظر معنا وجملات می باشد . دوم اینکه ، LSA می تواند الگوی ترکیبی کلمات برجسته و تکرار شوندهی متن را در پوشهای که یک موضوع خاص را توصیف می کند بدست آورد. در روش LSA ، مفاهیم توسط یکی از بردارهای منفردی که مقدار متناظرشان نمایانگر اهمیت درجهی آن الگو در یک پوشه می باشد ، نشان داده میشود. هر جمله ای شامل این الگوی ترکیبی لغات در این بردار منفرد ارائه خواهد شد . هر جملهای که این الگو را بهتر نمایش دهد ،بیشترین مقدار شاخص این بردار را خواهد داشت این شاخص را با نمایش می دهیم . و جملات با بالاترین شاخص را برای خلاصه سازی انتخاب می کنیم .
کاراکترهای ساخت یافتهی صفحات وب ، خلاصه سازی صفحات وب را از خلاصه سازی متنی محض متفاوت می سازد . انجام این کار روی اجزاء بسیار زیاد یک صفحه وب مشکل است . همانند بلاک واسط کاربر، آگهی تبلیغاتی و اطلاعات حق چاپ.
به منظور استفاده از اطلاعات ساخت یافتهی صفحات وب ما یک نسخه ساده شده از تابع مدل شیء[۵] را بکار میگیریم.
تابع مدل شیء تلاش می کند تا منظور یک برنامه نویس کامپیوتر را با مشخص کردن تابع شیء و دستهی مربوط برساند . در تابع مدل شی ء اشیاء به دستههای شیء اصلی (BO) که شامل کوچکترین اطلاعاتی است که قابل تقسیم شدن نیستند یا شیء مرکب ( CO) که یک مجموعه از اشیایی هستند که چندین تابع را با یکدیگر اجرا مینماید .
فایل ( pegj) یک مثال از شیء اصلی میباشد . هیچ گونه برچسب دیگری درون محتوای شیء اصلی نمی باشد با توجه به این معیار پیدا کردن تمامی شیء های اصلی درون یک صفحه وب آسان است .
همچنان اشیاء مرکب می توانند توسط تحلیل لایهای صفحات وب نمایان شوند . پس از یافتن تمامی اشیاء اصلی و اشیاء مرکب در یک صفحه وب ما می توانیم طبقهی هر شیء را با توجه به برخی قوانین اکتشافی تعیین کنیم . در اینجا ما یک نظر اجمالی بر مضامین طبقات اشیاء می اندازیم .
۱- شیء اطلاعاتی : این شیء اطلاعات مضامین را نمایش می دهد .
۲- شیء واسط کاربر: این شیء راهنماییهای واسط کاربر را در اختیار قرار می دهد .
۳- شیء عکس العمل : این شیء عکس العمل جانب کاربر را مهیا می نماید .
۴- شیء تزئینی : این شیء برای اهداف تزئینی بکار می رود .
۵- شیء تابع خاص : این شیء توابع خاص را اجرا می کند .
به منظور استفاده از این اشیاء از انواع اشیاء بالا ما بدنه اصلی مضمون[۶] (CB) یک صفحهی وب را توضیح می دهیم که شامل اشیاء اصلی مربوط به متن آن صفحه می باشد. این ها اشیایی هستند که اطلاعات اصلی در مورد آن صفحه را حمل میکنند. الگوریتم نمایش (CB) همانند زیر است :
۱- رسیدگی کردن به هر شیء انتخابی همانند یک پوشهی منفرد .
۲- محاسبه شباهت بین هر دو شیء .
۳- در یک گراف شیء هسته با بیشترین درجه مشخص شده است.
۴- استخراج کردن (CB) با ترکیب تمام اشیایی که یالی به شیء هسته دارد .
در آخر ما یک امتیاز را به هر جمله اختصاص می دهیم . اگر ۱= جمله شامل بدنهی اصلی مضمون می باشد و در غیر این صورت ۰= ، در انتها همهی جملات با ۱= در خلاصه سازی صفحهی وب به کار گرفته میشود .
در این بخش ما یک رویکرد نظارت شده را برای خلاصه سازی بکار می گیریم که بطور کامل از دادههای آموزشی بر چسب دار استفاده می کند و سپس یک الگوریتم یادگیری به منظور آموزش تلخیص کننده بکار گرفته میشود تا تلخیص کننده بتواند شناسایی کند که آیا یک جمله باید برای خلاصهاش انتخاب شود یا خیر . در مجموع هشت خصوصیت مورد استفاده در این الگوریتم موجود می باشد که پنج تای آنها خصوصیات متداول برای پوشه های متنی و صفحات وب میباشند و سه تای باقیمانده مختص طراحی صفحات میباشند .
برخی از علامت گذاریهادر زیر توضیح داده شده اند :
PN: تعداد پاراگراف های یک پوشه
SN: تعداد جملات یک پوشه
: تعداد جملات یک پاراگراف خاص K
Para(i): پاراگراف مربوط به جمله ی i
: تعداد وقوع کلمهی w در یک صفحهی وب مشخص
: تعداد جملات شامل کلمهی W در b صفحه
به عنوان مثال اگر مجموعه جملات در یک صفحه داده شده باشداین هشت خصوصیت مانندزیر است :
(۱) = موقعیت یک جمله در یک پاراگراف خاص
(۲)= طول یک جمله که تعداد کلمات آن جمله را نشان می دهد .
(۳) این خصوصیت به منظور استفاده و حذف کلمات محلی تکرار شونده بکار می رود .
(۴)= شباهت بین جملهی و عنوان میباشد .
(۵)= شباهت بین جمله و تمامی متن آن صفحه می باشد.
(۶)= شباهت بین جمله و دادههای یک صفحه وب می باشد .
(۷)= تعداد وقوع کلمهای از جملهی در مجموعه لغات خاص .
با جمع آوری لغات مایل ، پررنگ و زیر خط دار واقع در صفحهی وب مجموعه لغات خاص ساخته میشود.
(۸)= میانگین سایز فونت لغات در جمله است . بطور کل سایز فونت بزرگتر در یک صفحهی وب نشاندهندهی اهمیت بیشتر می باشد .
پس از اقتباس این ۸ خصوصیت از یک صفحهی وب ما از یک روش طبقه بندی برای آموزش دادن به یک تلخیص کننده استفاده می نماییم :
در اینجا P(s/S) بر نرخ فشرده سازی و اختصار تلخیص کننده دلالت می کند که می تواند برای کاربردهای خاص از پیش تعیین شده باشد و احتمال هر خصوصیت I می باشد و احتمال شرطی هر خصوصیت i است به هر جملهای یک امتیازی می تواند تعلق گیرد که با نمایش داده میشود.
با ترکیب کردن چهار روش ارائه شده در بخش های قبل ما یک صفحهی وب پیوندی به دست می آوریم . بدین ترتیب با در اختیار داشتن یک صفحه وب مقدار امتیازات هر جمله را با چهار الگوریتم خلاصه سازی به طور جداگانه محاسبه می نماییم . امتیاز نهایی یک جمله مجموع این چهار امتیاز می باشد :
جملات با بالاترین S برای خلاصه ی صفحات وب انتخاب خواهند شد .
به منظور تست خلاصه سازی برای طبقه بندی صفحات وب چندین آزمایش انجام شده است . ابتدا ما طبقه بندی صفحات وب را بر روی خلاصهی تولید شده توسط انسان تست می کنیم تا متوجه شویم که آیا خلاصه سازی می تواند به طبقه بندی صفحات وب کمک کند یا خیر ما ” تلخیص کننده ی شناسایی بدنهی مضمون ” پیشنهاد شدهی خود را با دو الگوریتم سنتی مقایسه میکنیم:
الگوریتم تعدیل شدهی Luhn وروش های مبتنی بر LSA . در انتها، یک دسته بندی کلی از خلاصه سازی ارزیابی شده است . ما در آزمایشاتمان همچنین تغییرات تنظیمات پارامترهای متفاوت را برای حروف چینی بهترین خلاصه مطالعه می نماییم .
[۱].روشی که برای خلاصه سازی متون طراحی شده است.
[۲] . LSA Latent semantic Analysis
[۳] . Gong
[۴] . SVD singular Value De composition
[۵] . FOM : funcation object Model
[۶] . CB: Content Body
جهت دریافت و خرید متن کامل مقاله و تحقیق و پایان نامه مربوطه بر روی گزینه خرید انتهای هر تحقیق و پروژه کلیک نمائید و پس از وارد نمودن مشخصات خود به درگاه بانک متصل شده که از طریق کلیه کارت های عضو شتاب قادر به پرداخت می باشید و بلافاصله بعد از پرداخت آنلاین به صورت خودکار لینک دنلود مقاله و پایان نامه مربوطه فعال گردیده که قادر به دنلود فایل کامل آن می باشد .