عنوان :
تعداد صفحات :۳۹
نوع فایل : ورد و قابل ویرایش
مقاله حاضر درباره پردازش تصویر در ۶ فصل خلاصه می شود: فصل اول درباره آشنایی با OCR ، فصل دوم مراحل OCR، فصل سوم شبکه های عصبی، فصل چهارم شرح یک پروژه انجام شده، فصل پنجم ویژگی های متون فارسی، فصل ششم بررسی چند محصول OCR .
OCR یا Optical CharacterRecognition به معنای شناسایی حروف با کمک ابزار نوری است ویک شاخه از علم پردازش سیگنال را تشکیل می د هد OCR شامل تصویر برداری از روی کاغذ و استخراج کلمات از آن است.متن به صورت مستقیم در تصویر قابل دسترسی نیست زیراحروف در یک متن اسکن شده ازمجموعهای از نقاط تشکیل می شودکه در کنارهم قرار گرفتن این نقاط مطابق الگوهای معین، تصویرحروف مختلف را می سازد.
پردازش و آنالیز تصاویر می تواند به عنوان یک ساختار کاربردی و تکنیکی جهت تسخیرکردن، تصحیح کردن، زیاد کردن و تغییر شکل دادن تصاویری که مشاهده می شود تعریف کرد. در هنگام استفاده از تکنولوژی OCR، نرمافزار مربوطه تصویر را تجزیه وتحلیل می نماید و شکل حروف را بر اساس پراکندگی نقاط در تصویر، شناسایی می کند. متون می توانندحتی دارای عکس هم باشند که سیستم آنها را تشخیص داده، کنار می گذارد. یک سیستم OCR به ما این امکان را می دهد که یک کتاب و یا یک مقاله را مستقیما به یک فایل الکترونیکی تبدیل نماییم و آن را با کمک یک پرد ازشگر تغییر دهیم . استفاده از سیستم OCR یک راه کارآمد برای تبدیل متون به فایلهای داده است که ممکن است تایپ کردن آنها زمان زیادی به طول بیانجامد.این تکنولوژی مدتهاست که به وسیله کتابخانه ها و سازمان های دولتی برای دستیابی الکترونیکی سریع به مدارک حجیم به کار می رود و از لحاظ سرعت و هزینه روش مناسبی است. OCR از معدود زمینه های هوش مصنوعی است که میتوان در عمل به آن تکیه کرد . از متداولترین کاربردهای این تکنولوژی می توان جداکردن نامه ها در مراکز پست، دسته بندی چکها بانک، تبدیل متن به صدا برای استفاده نابینایان، امکان دسترسی سریع به بایگانیهای عظیم و تبدیل کتابهای قدیمی کتابخانه های به فرمتی مناسب برای ذخیره در کامییوتر را نام برد.
واژه های کلیدی: پردازش تصویر، OCR، شبکه های عصبی،
چکیده ۱
فصل اول: مقدمه
۱-۱:آشنایی با OCR 2
۲-۱: پردازش تصاویر ماهواره ۳
۳-۱: پردازش تصویر در صنعت و پزشکی: ۳
فصل دوم: مراحل OCR
۲-۱: سیستمهای بازشناسی حروف ۵
۲-۲: اسکن کردن صفحات ۷
۲-۳: استخراج نواحی شامل متن و تفکیک متن به حروف ۷
۲-۴: شناسایی حروف ۹
۲-۵: ارائه نتایج ۱۰
فصل سوم: شبکه های عصبی
۳-۱: شبکه های عصبی ۱۱
۳-۲ آشنایی با شبکه عصبی ۱۱
۳-۳ انواع شبکه های عصبی ۱۲
۳-۴ نرون ۱۳
۳-۵ شبکههای Multilayer Perceptron و الگوریتم Backpropagation 14
۳-۶Overlearning 15
فصل چهارم: شرح یک پروژه انجام شده
۴-۱: شرح پروژه ۱۸
۴-۲: تصاویر مورد استفاده ۱۸
۴-۳: تبدیل تصاویر به بردارهای ویژگی ۱۹
۴-۴: آموزش شبکه عصبی ۲۰
۴-۵: طراحی ابتدایی ۲۱
۴-۶: تغییرات و سادهسازیها ۲۲
فصل پنجم: ویژگیهای متون فارسی
۵-۱: خصوصیات متون فارسی ۲۴
فصل ششم: برسی چند محصول OCR
۶-۱: چند نمونه OCR 26
۶-۲: آموزش Readiris Pro 11 26
۶-۳: آموزش VajehShenas V 1 28
۶-۴ مقایسه VajehShenasبا Readiris 31
فصل هفتم: نتایج و پیشنهادات
۷-۱ نتیجهگیری ۳۲
مراجع ۳۴
فهرست شکلها
عنوان صفحه
شکل ۲-۱ نمونه فرم اسکن شده شکل ۸
شکل ۳-۱ یک نرون با تابع فعال ساز ۱۳
شکل ۳-۲چند تاج فعالسازی رایج ۱۴
شکل ۳-۳ Multilayer Perceptron 15
شکل ۳-۴ overfitting چند جملهای ۱۶
شکل ۳-۵ overlearning در شبکه عصبی ۱۷
شکل ۴-۱ یافتن Bounding Box و بریدن تصویر الف: تصویر اولیه ب: تصویر سیاه و سفید پس از بریده شدن ۱۹
شکل ۴-۲٫روشهای تغییر اندازه الف: تصویراولیه ب: بدون حفظ نسبت ج: با حفظ نسبت ۲۰
شکل۶-۱ ۲۷
شکل ۶-۲ ۲۷
شکل ۶-۳ ۲۸
شکل ۶-۴ ۲۹
شکل۶-۵ ۲۹
شکل ۶-۶ ۳۰
شکل۶-۷ ۳۰
]۱[ امید یگانه، مونا. ” جداسازی حروف تاییی مستقل از نوع فونت و اندازه “. پایان نامه کارشناسی ارشد، دانشکده مهندسی برق، دانشگاه صنعتی شریف، ۱۳۸۳٫
]۲[ اندیشه نرم افزار پایا، شرکت. “راهنمای بانک اطلاعاتی حدف۸۴″ ۱۳۸۴٫
]۳[ بهنام قادر، احسان.” تشخیص کاراکترهای پلاکهای خودرو” پایاننامه کارشناسی، دانشکده مهندسی برق، دانشگاه صنعتی شریف، ۱۳۸۳٫
[۴] J Beeman. Dave. “Mululti-layer perceptrons (Feed-forward Nets),Gradient Descent, and back Propagation.. University of Colorado,2001 .
http:/ece-www.colorado.edu/ecen4831/lectures/NNet3.html
[۵]J Burrow, Peter. “Arabic Handwriting Recognition”.Master of Science Thesis, school of informatics, University of Edinburgh, 2004′
[۶] Gonzalez, Rafael C”, Woods, Richard E. Digital lmage Processing”. Second Editicn, New Jersey: Prentice-Hall, 2012.
[۷]Johnston. Atexander. “Classifying Persian Characters with Artificial Neural Networks and inverted Complex Zernike Moments”. 2005.
http://www.doc.ic.ac.uk/teaching/proiects/Distiquished05/Alaxjohnston.pdf
[۸] Klassen, Tim. “Towards Neurat Network Recognition of Handwrritten Arabic Letters”. A’project Submitted to the Faculty of Computer Science in Partial Fulfillment of the Requirerments for the Degree of Master of Computer Scinece Dalhousie University, 2001.
[۹] Math works lnc. *MATLAB Help”. MATLAB Version 7.0 (R14) Decurnentation.
[۱۰] Sarlewarren S, ‘Archive of Neural Network FAQ’. 2002
ftp://ftp.sas.com/pub/neural/FAQ. htrnI
[۱۱]Dtat Soft Inc. “Neural Networks’. 20O3.
http ://www. statsaft. Com/textbook/stneunet html
[۱۲]. Philippides, Andy.”mullti-Layer Perceptron (MLP)”. Netral Networks Lectures,2003
پردازش و آنالیز تصاویر می تواند به عنوان یک ساختار کاربردی و تکنیکی جهت تسخیرکردن، تصحیح کردن، زیاد کردن و تغییر شکل دادن تصاویری که مشاهده می شود تعریف کرد. در هنگام استفاده از تکنولوژی OCR، نرمافزار مربوطه تصویر را تجزیه وتحلیل می نماید و شکل حروف را بر اساس پراکندگی نقاط در تصویر، شناسایی می کند. متون می توانندحتی دارای عکس هم باشند که سیستم آنها را تشخیص داده، کنار می گذارد. یک سیستم OCR به ما این امکان را می دهد که یک کتاب و یا یک مقاله را مستقیما به یک فایل الکترونیکی تبدیل نماییم و آن را با کمک یک پرد ازشگر تغییر دهیم . استفاده از سیستم OCR یک راه کارآمد برای تبدیل متون به فایلهای داده است که ممکن است تایپ کردن آنها زمان زیادی به طول بیانجامد.این تکنولوژی مدتهاست که به وسیله کتابخانه ها و سازمان های دولتی برای دستیابی الکترونیکی سریع به مدارک حجیم به کار می رود و از لحاظ سرعت و هزینه روش مناسبی است. OCR از معدود زمینه های هوش مصنوعی است که میتوان در عمل به آن تکیه کرد . از متداولترین کاربردهای این تکنولوژی می توان جداکردن نامه ها در مراکز پست، دسته بندی چکها بانک، تبدیل متن به صدا برای استفاده نابینایان، امکان دسترسی سریع به بایگانیهای عظیم و تبدیل کتابهای قدیمی کتابخانه های به فرمتی مناسب برای ذخیره در کامییوتر را نام برد. هدف از این عملیات زیاد کردن کیفیت نسبی اطلاعاتی است که بعداً استخراج خواهد شد . تغییر شکل در حقیقت عملیاتی است که بر روی تصاویر ورو دی انجام میگیرد تا خروجی به یک عدد که اطلاعاتی از تصویر است بدهد . تکنیکهای متفاوت تولید تصاویر در دسترس می باشد با وجود این تکنیکهای پردازش اطلاعات به عملیات گستردهای اطلاق میشود که می تواند بر روی اشکال و فرمتهای مختلف تصاویر عمل کند.
ابتدا تصاویر جهت از بین بردن اعوجاجی که در مرحله جمعآوری تصاویر ایجاد میشوند تشخیص میگردند و تصحیح سپس پردازش تصاویر یک عملیاتی است که یک سری کاربردها را ارجحیت میبخشد. تکنیکهای جدید یا پروسه های جدید که جهت حل مسائل مشخص وجود دارند از میان کاربردهای مختلف انتخاب می شوند. پردازش تصاویر در سطوح مختلف انجمن های مدرن انجام میگیرد. روشها و تکنیکها در همه این سطوح به یک شکل میباشد و روشهایی که در مقوله مراقبت سلامتی انجام می گیرند از سایر روشهای پردازش تصاویر که در علوم مختلف و صنعت انجام میگیرد اقتباس میشوند. جهت توضیح دادن عمومیت پردازش تصاویر، تعدادی ازکاربرهای پزشکی و غیر پزشکی در زیر آمده شده است.
تصاویر زمین و سایر سطوح جهانی توسط دوربینهایی که برروی سفینههای فضایی و ماهوارهها نصب شده گرفته می شود . هنگامی که از سیارات دیگر تصویر گرف ته می شود، هدف مطالعه سطوح آنها جهت بدست آوردن آگاهی درباره تاریخچه و مشخصات آن میباشد. شبیه سازی ماهواره ای زمین جهت کارهایی از قبیل کارهای فلاحتی- زراعتی، هواشناسی، محیط اطراف، پردازشهای نظامی در بین سایر موارد می باشد.
تصاویر بخشهایی از سطوح زمین جهت کاهش تصویر و کوچکترکردن، بازرسی و یا جهت نقشهکشی گرفته میشود.
· چاپ کردن و دست نوشته ها:
تشخیص کاراکترهای چاپ یا نوشته شده از کاربردهای جدید پردازش تصاویر است . در بین کاربردهای دیگر می توان به خواندن اتوماتیک کدهای پستی و کدهای بانکی اشاره کرد.
· بارکد:
مسئول وارسی در بیشتر سوپرمارکتها دارای وسایلی هستند که بارکد موجود بر روی کالاها را خوانده و تفسیر میکند . از استفاده های بارکد می توان به نمونه های مدارک، نمونه های بیوشیمیایی و نمونه بافت در بیمارستان اشاره کرد.
· رادیولوژی:
در مبحث پزشکی، رادیولوژی یکی از کاربردهای اصلی تکنیک پردازش تصاویر است. کاربردهای آن نه تنها در اشعه x می باشد بلکه کاربردهایی از قبیل مقطع بندی کامپیوتری PET,MRI,CT ultra sound تمام نتایج به صورت تصاویر هستند که باید بعداً,تفسیر شوند. در میان این کاربردها، بازسازی سه بعدی تصاویر یکی ازموضوعهای مورد علاقه است.
· مجموعه خصوصیات کروموزومی موجودات:
از آنجا که تصاویر کروموزومی یکی از ساختارهای ساده میباشد، جفت شدگی کروموزومی و بازسازی خودکار آنها یکی از جدیدترین کاربردهای پردازش تصویر در پزشکی است.
· سلول شناسی و بافت شناسی:
تفسیر اتوماتیک و کوانتیزۀ تصاویر میکروسکوپیک از کاربردهای دیگر پردازش تصاویر در پزشکی است.
در این فصل، پس از ذکر تاریخچهای از OCR، مراحل تبدیل تصویر به متن را شرح د اده و ورودی و خروجی هر مرحله را بیان میکنیم.
مبحث بازشناسی متون، همانند مبحث تشخیص صحبت از اوایل ظهور مبحث شناسایی الگو مطرح بود . در ابتدا شناسایی آنها آسان به نظر میرسید ولی در عمل بر خلاف انتظار بعد از یکسری پیشرفت کوچک، این مسأله با مشکلات بزرگی روبرو شد و توجه محققین به سمت سایر زمینههای شناخت الگو معطوف گشت . با پیدایش وسایل ارتباط جمعی الکترونیکی، نیاز شدیدی به سیستمهایی احساس شده است میشد که بتوانند با دقت و سرعت، اطلاعات نوشتاری موجود را خوانده و ذخیره نمایند. در سال۱۹۲۹ Taushech در آلمان و در سال ۱۹۳۳Handle در آمریکا ابداعاتی در زمینه OCR ثبت نمودند . اینها اولین ایدههای شناسایی حروف هستند . این روش، تطبیق الگو نام دارد و به این صورت کار میکند که به هر حرف، نور تابیده میشود و نور باز تابیده شده از حروف، از قالبهای مکانیکی عبور داده میشود . هرگاه که نوری از قالب عبور نکرد، حرف تشخیص داده میشود. در عمل تا زمان به عرصه آمدن کامپیوتر یعنی سال ۱۹۵۰ سیستم مطلوبی ساخته نشد. اولین کامپیوترتجاری ا UNIVAC درسال ۱۹۵۱ در آمریکا شروع به کار کرد در این زمان بود که ایده OCR به عنوان یک پدیده قابل پیاده ساز ی پذیرفته شد . از این زمان به بعد تحقیقات گستردهای بر رو ی این تکنولوژی انجام گرفته است و در نتیجه سیستمهای تجاری عرضه شدهاند که دارای قابلیتهای خوبی هستند. سیستمهای تجاری عرضه شده را می تواند به سه نسل تقسیمبندی نمود. سیستمهای نسل اول در اویل دهه ۱۹۶۰ به بازار آمدند که نتیجه تحقیقات دهه ۱۹۵۰ بودند. آنها فقط قابلیت تشخیص کاراکترهای خاص با اندازه و فونت مشخصی را داشتند . در آنها از روشهایی استفاده شده بود که نسبت به تغییر جای کاراکترها، اندازه و دوران آنها فوق العاده حساس بودند. شاخصترین سیستم این نسل، NCR 420 بود که میتوانست اعداد و پنج نماد دیگر را تشخیص دهد. سیستمهای نسل دوم در اواسط دهه ۱۹۶۰ به بازار آمدند و میتوانستند بعضی از کاراکترهای دستنویس مانند اعداد را تشخیص دهند. RETINA یکی از این سیستمها بود.
سیستمهای نسل سوم مربوط به اواخر دهه ۱۹۶۰ هستند که باهدف تشخیص کاراکترهایی باکیفیت چاپ پایین و همچنین متون دست نویس لاتین ساخته شدند . این نسل تا به امروزهم ادامه دارد و فعالیتهای گستردهای در این زمینه در حال انجام است. امروزه سیستمهای OCR قادر به تشخیص دقیق کاراکترهای تایپی لاتین با انواع فونتها و در اندازههای متفاوت هستند (تا۹۹%) ولی هنوز در مورد تشخیص متون دستنویس لاتین و یا فونتهایی که در آنها از خطوط خمیده استفاده می شود (مثل فارسی و عربی) مشکلات زیادی وجود دارد.
روشهای بسیاری تا به امروز برای شناسایی متون فارسی و عربی به کار رفتهاند . در سال ۱۳۵۹ به دنبال ابداع سیستمی برای شناسایی دست نوشتههای عربی موسوم به IRAC توجهات به این زمینه نوین در قلمرو بازشناسی الگو معطوف شد. به دنبال آن سیستم دیگری برای تشخیص کلمات تایپ شده عربی پیشنهاد شد که در آن ابتدا کلمات به حروف تفکیک شده و سپس توصیف کنندههای فوریه دوره خارجی حروف، مبنای شناسایی آنها قرار می گرفتند . به موازات آن دو روش ساختاری مطرح شدند.
· یکی مبتنی بر ایده دنبال کردن کانتور برای شناسایی حروف مجزای عربی و دیگری بر اساس استفاده از محلهای تقاطع و انشعاب پاره خطها برای شکستن کلمات به زیر حرفها و دسته بندی آنها به کمک ویژگیهای هندسی و توپولوژیکی.
در سال ۱۳۶۰ روشی برای شناسایی فونتهای بزرگ فارسی ابداع شد که از ویژگیهایی نظیر وجود حفره و دهنه برای شناسایی حروف بهره میجست . در سال ۱۳۷۲ دو سیستم جهت شناسایی حروف در متن فارسی تایپی ارائه گردید که یکی با روش شکلشناسی و دیگری بر اساس توصیفکنندههای فوریه عمل می نمود . امروزه با کمک شبکههای عصبی که قادرند ارتباط پیچیدهای بین ورودی و خروجی برقرار کنند، میتوان حروف فارسی را شناسایی نمود . مرجع {۷}
شامل پیوندهایی به چند پایان نامه انجام شده در زمینه OCRاست. مرجع {۸}نیز برخی پایاننامهها را بررسی و نتایج آنها را مقایسه نموده است. پس از ذکر این تاریخچه، به شرح مراحل مختلفOCR میپردازیم.
اسکن کردن، اولین مرحله کار یک سیستم OCR است. یک پرتو نور به صفحه مورد نظر تابیده میشود . با حرکت این پرتو روی صفحه و با تغییر مقدار سیاهی (و یا رنگ در اسکنرهای رنگی) شدت نور بازتابیده شده تغییر می کند . نور بازتابیده شده به آرایهای از سلولهای فتوالکتردیک برخورد کرده و به این ترتیب، یک فایل تصویری از صفحه اسکن شده بدست میآید. از آنجایی که با دیدن این تصاویر میتوانیم محتویات صفحه را دریابیم، ممکن است این سوال ییش آید که چرا باید زمان وهزینه تبدیل تصویر به متن را تقبل کنیم؟ در پاسخ باید گفت:
· حجم فایلهای تصویری بسیار بیشتر از فایلهای متن است، حتی اگر از روشهای فشردهسازی استفاده کنیم.
· تغییر در نحوه نمایش فایلهای تصویری مشکل و یا عملاً غیرممکن است، مثلاً تغییر فونت، در صورت امکان بسیار مشکل خواهد بود و یا ریز و درشت کردن تصویر میتواند به ناخوانا شدن حروف بیانجامد.
· تبدیل تصویر به اشکال دیگر ارائه، مثلاً خواند متن برای نابینایان، بسیار مشکل است.
· امکان جستجوی عبارتی خاص و یا مقایسه بخشهایی از متن تصویری با متون دیگر عملاً وجود ندارد.
مجموعه علتهای بالا باعث شده تا تلاشهای بسیاری برای تبدیل تصاویر به متن صورت گیرد . روشهای دیگری، از جمله استفاده از دوربین دیجیتال، نیز برای ایجاد فایلهای تصویری وجود دارد . این روشها معمولاً در زمینههای دیگر تشخیص الگو (مثل تشخیص چهره) بکار میروند.
در مورد تبدیل متون کتابها و سایر نوشتهها، اسکن کردن مناسب ترین روش است . البته در بعض ی کاربردها (مثل LPR) استفاده از این دوربینها ضروری است.
یک فایل تصویری اسکن شده، فقط شامل متن نیست بلکه ممکن است شامل تصویر اشخاص و مناظر، نمودار و سایر تصاویر غیر متنی نیز باشد. سیستم OCR باید بتواند نواحی شامل متن را شناسایی و استخراج کند.
الف) اگر چیدمان صفحه اسکن شده مشخص باشد(مثل چک بانکی، پلاک خودرو، فرم ثبت نام داوطلبین آزمونها) این کار با روشی ساده و با قابلیت اطمینان بالا امکانپذیر است . مثلاً در شکل(۱-۲) با استفاده از موقعیت مکانی مستطیلهای سیاه کوچک حروف مورد نظر به سادگی استخراج میشوند.
ب) اما اگر چیدمان صفحه مشخص نباشد (مثل صفحات کتاب) باید از روشهای پیچیدهتری بهره گرفت که بتوانند بر اساس تفاوتهای تصاویر متنی با تصاویر اشخاص و مناظر ، متن را استخراج کنند. بدیهی است که در این کار امکان خطا وجود دارد. یکی از روشهای مورد استفاده در این حالت، استفاده از هیستوگرام (histogram ) است. تصاویر متنی معمولاً هیستوگرام حول دو رنگ (نوشته و زمینه) مقدار بالا دارند ولی تصاویر غیرمتنی در بسیاری از رنگها، مؤلفه دارند . برای کسب اطلاعات بیشتر در مورد روشهای استخراج نواحی متنی میتوانید به (۱) مراجعه کنید.
تصاویر متن پس از استخراج، بر اساس یک آستانه که توسط روشهای آماری بدست میآید ({۱}،{۹}) به تصاویر سیاه و سفید (باینری) تبدیل شده و توسط فیلترهای مثل Median و LP نویزگیری میشوند{۶}.
اگر سیستم OCR بخواهد خروجی مشابه با ورودی بدهد (مثلاً در تبدیل کتابها که خروجی از لحاظ بصری شبیه صفحه اسکن شده است) باید چیدمان صفحه اسکن شده را ذخیره کند . درسیستمهای دیگر(مثل سیستمهایی که خروجی آنها صوتی است یا سیستمهای LPR) این کار لزومی ندارد. پس از انجام این مرحله، متون استخراج شده باید به تعداد محدودی واحد”قابل تشخیص اتوماتیک “تفکیک شوند . معمولاً این واحدها حروف تشکیل دهنده متن هستند، هرچند در برخی الگوریتمها از زیرواژهها (مثل”با”و”لا”در کلمه”بالا”)به عنوان واحد تشخیص استفاده میشود.
در برخی از کا ربردها مثل فرم آزمونها (شکل(۲-۱) دو مرحله استخراج نواحی و تفکیک به حروف، مستقیماً انجام می شود ولی در سایر کاربردها باید از الگوریتمها ی ویژهای استفاده کرد . این کار درمورد حروف چاپی لاتین نسبتاً ساده است زیرا حروف به صورت مجزا در کنارهم قرار میگیرند و بین آنها فاصله خالی وجود دارد . در مورد متون فارسی و سایر زبانهایی که به صورت”سرهم “نوشته میشوند باید کارهای پیچیدهتری صورت گیرد. (به عنوان یک مرجع خوب در این مورد به {۱} مراجعه کنید).
در صورت انجام موفق این مرحله، مجموعهای از تصاویر بدست می آید که هر تصویر شامل یک حرف است. این تصاو یر بعنوان ورودی به نرمافزار شناسایی کننده حروف داده می شوند . بسیار ی از الگوریتمها تصویر رنگی یا خاکستری را نیز برای استفاده درپردازشها ذخیره میکنند.
هدف از این مرحله عبارت است از تبدیل تصاویر”تک حرف “مرحله قبلی به کدهایی که نشانگر حروف مورد نظر است (مثل کد اسکی حرف متناظر).
به طور کلی روشهای شناسایی حروف بر دو نوع هستند:
· روشهای مبتنی بر تئوری تصمیمگیری
· روشهای ساختاری
در روشهای نوع یک، ویژگیهای خاصی از تصاویر ورودی به صورت کمی اندازهگیری و استخراج شده و به صورت درایههای یک بردار نرم افزار شناسایی کننده را تشکیل میدهند. به این کار Feature Extractiorمیگویند. این ویژگیها میتوانند شدت نقاط تصاویر خاکستری (یا مقدار نقاط تصویر باینری)، projection افقی یا عمودی تصویر، میانگین، واریانس و یا نتایج اجرای یک فرایند پیچیده روی تصویر باشند. نرمافزار با توجه به بردار ویژگی، به هر یک از کلاسهای تعیین شد، امتیازی نسبت میدهد . کلاسهایی که بیشترین امتیاز را کسب کند، خروجی نرم افزار است . مثلاً در تشخیص حروف لاتین، هر کدام از حروف A تاz وa تاz یک کلاس هستند و نرم افزارهربردار ورودی را به یکی از این کلاسها نسبت میدهد. یکی از مهمترین روشهای این نوع، شبکههای عصبی است که در فصل بعد، عملکرد آن را بیان خواهیم کرد.
در روشهای نوع دو، حروف با کمک ویژگیهای ساختاری (نقطه، سرکش، دسته، حلقه،… ) و نحوه قرارگیری این ویژگیها در کنارهم شناسایی میشوند. برای آشنایی بیشتر با انوع روشهای نوع یک و دو میتوانید به {۱} مراجعه نمایید . همچنین {۸}شامل بخشی در مورد بکارگیری بعضی از این روشها در کاربردهای عملی و مقایسه نتایج آنهاست. آنچه در این پایان نامه تأکید میشود روش شبکههای عصبی بدون استفاده از الگوریتمهای پیچیده استخراج ویژگی است. نشان خواهیم داد که شبکه های عصبی که حروف جایی را بدون بهرهگیری از ویژگیهای پیچیده، تا حد قابل قبولی شناسایی میکنند، نمیتوانند این کار را در مورد حروف دستنویس انجام دهند و باید ویژگیهای پیچیدهای استخراج شوند.
هدف از این مرحله که مرحله پایانی کار سیستم OCR است، ارائه کدهای تولید شده در مرحله قبل به فرمت مناسب است . مثلاً اگرهدف ازOCR، تبدیل کتاب و مجله باشد، سیستم باید با استفاده
از کدهای اسکی بدست آمده و اطلاعات چیدمانی که در مراحل قبل ذخیره شده، صفحه اسکن شده را شبیهسازی کند طوری که از نظر بیننده، تفاوتی بین صفحه کاغذ و فایل تصویر وجود نداشته باشد ولی از نظر رایانه، به جای تصویر حروف، کد آنها جایگزین شده باشد . به همین ترتیب اگرهدف، تبدیل تصویر به صوت است باید کدهای بدست آمده توسط الگوریتمهایی مثل Text to Speech API به اصوات شنیداری تبدیل شوند.
در صفحات پیشین شبکه عصبی را به عنوان یک روش متداول در شناسایی حروف معرفی کردیم . در این فصل ساختار و عملکرد شبکههای عصبی را بررسی کرده و در مورد ساختار و الگوریتم یادگیری یک نوع خاص شبکه عصبی (شبکه Perceptron Multilayer )که در این پایان نامه به کار رفته است، توضیح خواهیم داد.
شبکه عصبی سیستمی است متشکل از تعدادی واحد ساده به نام نرون که با اتصالات وزندار به هم متصل شدهاند . با تغییر دادن وزن این اتصالات در فرایندی به نام یادگیری ، شبکه می تواند توابع
پیچیدهای را پیادهسازی کند . به طور کلی برای استفاده از شبکه عصبی، ابتدا ساختار مناسب را انتخاب می کنند (بخش ۳-۲ را ببینید) سپس شبکه را آموزش میدهند تا وزن اتصالات (که در ابتدا دارای مقادیر پیش گزیده و یا تصادفی هستند) طوری تنظیم شوند که برای تعداد محدودی ورودی نتیجه مطلوب حاصل شود . سپس بقیه ورودیها را به شبکه آموزش دیده میدهند و نتایج حاصل را دریافت میکنند.
از ویژگیهای شبکههای عصبی می توان به موارد زیر اشاره کرد {۷}، {۱۱}:
· میتوانند توابع پیچیده و غیرخطی را مدلسازی کنند.
· میتوانند بر اساس نمونهها یاد بگیرند و احتیاجی به دانستن تابع درونی شبکه بصورت تحلیلی نیست.
· به دلیل فعالیت موازی نرونها، شبکههای عصبی پس از یادگیری، میتوانند با سرعت بالایی ورودیها را پردازش کرده و نتایج را بیرون دهند. تحملپذیری بالایی نسبت به نویز ورودی دارند . در صورت خرابی یک یا چند نرون بازهم تا حد خوبی میتوانند به کار خود ادامه دهند.
امروزه شبکههای عصبی در زمینههای مختلف پزشکی، دفاعی، صنعتی و … کاربرد دارند. {۹} در زمینههای گوناگون تشخیص الگو (مثل تشخیص صحبت، اثر انگشت، چهره و OCR) نیز شبکههای عصبی، بسیار به کار میروند. ایده اولیه این شبکهها، از شبکههای عصبی طبیعی گرفته شده است . در شبکهها ی طبیعی، همه فعالیتهای ذهنی و حرکتی، با اتصال سلولهای عصبی یا نرونها انجام میپذیرد . سرعت انتقال پیام الکتریکی در طول یک سلول و بین سلولهای عصبی، نسبت به سرعت
انتقال در سیستمهای الکترونیک بسیار کمتر است (حداکثر تا چند متر بر ثانیه) و قابلیت پردازش آنها با کامپیوترها قابل مقایسه نیست ولی موجودات زنده فعالیتهای بسیار پیچیدهای انجام میدهند که بسیاری از آنها قابل پیادهسازی با فنآوری فعلی نیست . این قابلیت را به تعداد زیاد این سلولها و فعالیت موازی آنها نسبت میدهند. شبکههای عصبی مصنوعی به منظور استفاده از این مزیتها ایجاد شدهاند . هرچند به دلایل گوناگون، شبکههای عصبی مصنوعی از نظر ساختار و عملکرد، از شبکههای طبیعی فاصله گرفتهاند {۷}.
شبکههای عصبی را از چند نظر میتوان تقسیمبندی کرد . از نظر ساختمان ، شبکهها به دو نوع تقسیم میشوند.
۱)Feedforward
۲)Recurrent یا Feed Back
در نوع اول، مسیر انتقال اطلاعات همواره رو به جلو است ولی در نوع دوم، حلقه وجود دارد . شبکههای نوع دوم ممکن است ناپایدار باشند و یادگیری در این شبکهها، بسیار کندتر است . این شبکهها در تحقیقات، توجه زیادی به خود جلب کردهاند .ولی در کاربردهای عملی، شبکههای Feedforward سودمندتر بودهاند.
از شبکههای نوع اول میتوان بهMultilayer Perceptron و Hopfield و از شبکههای نوع دوم به Boltzman و Hebbian اشاره کرد. از نظر نحوه یادگیری شبکهها به دو نوع Supervised و Unsupervised تقسیم میشوند. در شبکههای نوع اول، مجموعهای از ورودیها و خروجیهای متناظر آنها (خروجیهایی که انتظار داریم شبکه به ازا ورودیهای داده شده، آن خروجی را تولید کند) به شبکه داده میشود . آنگاه توسط الگوریتمهایی مثل گرادیان کاهشی ، وزن اتصالات طوری تنظیم میشود که تابع هزینه (معمولاً مجموع مجذورات تفاوت خروجی تولید شده توسط شبکه و خروجی مورد انتظار یا SSE) مینیموم شود.
در روشهای نوع دوم، اطلاعاتی از خارج به شبکه داده نمیشود و شبکه با استفاده از ویژگیهای مختلف ورودیها (مثل ویژگیهای آماری) خروجی میدهد . این روشها بر خلاف روشهای نوع اول معمولاً در کاربردهای تشخیص و طبقهبندی به کار نمیروند بلکه بیشتر برای فشرده سازی و حذف redundancy و یا یافتن الگوهای خاص بین دادههای ورودی استفاده میشوند . بحث در مورد انواع شبکههای عصبی بسیار گسترده است و ما به همین مقدار اکتفا میکنیم. برای کسب اطلاعات بیشتر در این مورد میتوانید به {۱۰}مراجعه کنید.
جهت دریافت و خرید متن کامل مقاله و تحقیق و پایان نامه مربوطه بر روی گزینه خرید انتهای هر تحقیق و پروژه کلیک نمائید و پس از وارد نمودن مشخصات خود به درگاه بانک متصل شده که از طریق کلیه کارت های عضو شتاب قادر به پرداخت می باشید و بلافاصله بعد از پرداخت آنلاین به صورت خودکار لینک دنلود مقاله و پایان نامه مربوطه فعال گردیده که قادر به دنلود فایل کامل آن می باشد .
ارسال نظر