مقاله پردازش تصویر

مقاله پردازش تصویر

دسته: رشته الکترونیک, رشته برق

فرمت : word | حجم : 1236KB | صفحات : 39

قیمت: 4000 تومان
3,301 views

عنوان :

مقاله پردازش تصویر

تعداد صفحات :۳۹

نوع فایل : ورد و قابل ویرایش

چکیده

مقاله حاضر درباره پردازش تصویر در ۶ فصل خلاصه می شود: فصل اول درباره آشنایی با OCR ، فصل دوم مراحل OCR، فصل سوم شبکه های عصبی، فصل چهارم شرح یک پروژه انجام شده، فصل پنجم ویژگی های متون فارسی، فصل ششم بررسی چند محصول OCR .
OCR یا Optical CharacterRecognition به معنای شناسایی حروف با کمک ابزار نوری است ویک شاخه از علم پردازش سیگنال را تشکیل می د هد OCR شامل تصویر برداری از روی کاغذ و استخراج کلمات از آن است.متن به صورت مستقیم در تصویر قابل دسترسی نیست زیراحروف در یک متن اسکن شده ازمجموعه‌ای از نقاط تشکیل می شودکه در کنارهم قرار گرفتن این نقاط مطابق الگوهای معین، تصویرحروف مختلف را می سازد.
پردازش و آنالیز تصاویر می تواند به عنوان یک ساختار کاربردی و تکنیکی جهت تسخیرکردن، تصحیح کردن، زیاد کردن و تغییر شکل دادن تصاویری که مشاهده می شود تعریف کرد. در هنگام استفاده از تکنولوژی OCR، نرم‌افزار مربوطه تصویر را تجزیه وتحلیل می نماید و شکل حروف را بر اساس پراکندگی نقاط در تصویر، شناسایی می کند. متون می توانندحتی دارای عکس هم باشند که سیستم آنها را تشخیص داده، کنار می گذارد. یک سیستم OCR به ما این امکان را می دهد که یک کتاب و یا یک مقاله را مستقیما به یک فایل الکترونیکی تبدیل نماییم و آن را با کمک یک پرد ازشگر تغییر دهیم . استفاده از سیستم OCR یک راه کارآمد برای تبدیل متون به فایلهای داده است که ممکن است تایپ کردن آنها زمان زیادی به طول بیانجامد.این تکنولوژی مدتهاست که به وسیله کتابخانه ها و سازمان های دولتی برای دستیابی الکترونیکی سریع به مدارک حجیم به کار می رود و از لحاظ سرعت و هزینه روش مناسبی است. OCR از معدود زمینه های هوش مصنوعی است که می‌توان در عمل به آن تکیه کرد . از متداول‌ترین کاربردهای این تکنولوژی می توان جداکردن نامه ها در مراکز پست، دسته بندی چکها بانک، تبدیل متن به صدا برای استفاده نابینایان، امکان دسترسی سریع به بایگانیهای عظیم و تبدیل کتابهای قدیمی کتابخانه های به فرمتی مناسب برای ذخیره در کامییوتر را نام برد.
واژه های کلیدی: پردازش تصویر، OCR، شبکه های عصبی،

فهرست مطالب

چکیده ۱
فصل اول: مقدمه
۱-۱:آشنایی با OCR 2
۲-۱: پردازش تصاویر ماهواره ۳
۳-۱: پردازش تصویر در صنعت و پزشکی: ۳
فصل دوم: مراحل OCR
۲-۱: سیستمهای بازشناسی حروف ۵
۲-۲: اسکن کردن صفحات ۷
۲-۳: استخراج نواحی شامل متن و تفکیک متن به حروف ۷
۲-۴: شناسایی حروف ۹
۲-۵: ارائه نتایج ۱۰
فصل سوم: شبکه های عصبی
۳-۱: شبکه های عصبی ۱۱
۳-۲ آشنایی با شبکه عصبی ۱۱
۳-۳ انواع شبکه های عصبی ۱۲
۳-۴ نرون ۱۳
۳-۵ شبکههای Multilayer Perceptron و الگوریتم Backpropagation 14
۳-۶Overlearning 15
فصل چهارم: شرح یک پروژه انجام شده
۴-۱: شرح پروژه ۱۸
۴-۲: تصاویر مورد استفاده ۱۸
۴-۳: تبدیل تصاویر به بردارهای ویژگی ۱۹
۴-۴: آموزش شبکه عصبی ۲۰
۴-۵: طراحی ابتدایی ۲۱
۴-۶: تغییرات و سادهسازیها ۲۲
فصل پنجم: ویژگیهای متون فارسی
۵-۱: خصوصیات متون فارسی ۲۴
فصل ششم: برسی چند محصول OCR
۶-۱: چند نمونه OCR 26
۶-۲: آموزش Readiris Pro 11 26
۶-۳: آموزش VajehShenas V 1 28
۶-۴ مقایسه VajehShenasبا Readiris 31
فصل هفتم: نتایج و پیشنهادات
۷-۱ نتیجه‌گیری ۳۲
مراجع ۳۴
فهرست شکل‌ها
عنوان صفحه
شکل ۲-۱ نمونه فرم اسکن شده شکل ۸
شکل ۳-۱ یک نرون با تابع فعال ساز ۱۳
شکل ۳-۲چند تاج فعالسازی رایج ۱۴
شکل ۳-۳ Multilayer Perceptron 15
شکل ۳-۴ overfitting چند جملهای ۱۶
شکل ۳-۵ overlearning در شبکه عصبی ۱۷
شکل ۴-۱ یافتن Bounding Box و بریدن تصویر الف: تصویر اولیه ب: تصویر سیاه و سفید پس از بریده شدن ۱۹
شکل ۴-۲٫روشهای تغییر اندازه الف: تصویراولیه ب: بدون حفظ نسبت ج: با حفظ نسبت ۲۰
شکل۶-۱ ۲۷
شکل ۶-۲ ۲۷
شکل ۶-۳ ۲۸
شکل ۶-۴ ۲۹
شکل۶-۵ ۲۹
شکل ۶-۶ ۳۰
شکل۶-۷ ۳۰

فهرست منابع

]۱[ امید یگانه، مونا. ” جداسازی حروف تاییی مستقل از نوع فونت و اندازه “. پایان نامه کارشناسی ارشد، دانشکده مهندسی برق، دانشگاه صنعتی شریف، ۱۳۸۳٫
]۲[ اندیشه نرم افزار پایا، شرکت. “راهنمای بانک اطلاعاتی حدف۸۴″ ۱۳۸۴٫
]۳[ بهنام قادر، احسان.” تشخیص کاراکترهای پلاکهای خودرو” پایان‌نامه کارشناسی، دانشکده مهندسی برق، دانشگاه صنعتی شریف، ۱۳۸۳٫

[۴] J Beeman. Dave. “Mululti-layer perceptrons (Feed-forward Nets),Gradient Descent, and back Propagation.. University of Colorado,2001 .
http:/ece-www.colorado.edu/ecen4831/lectures/NNet3.html
[۵]J Burrow, Peter. “Arabic Handwriting Recognition”.Master of Science Thesis, school of informatics, University of Edinburgh, 2004′
[۶] Gonzalez, Rafael C”, Woods, Richard E. Digital lmage Processing”. Second Editicn, New Jersey: Prentice-Hall, 2012.
[۷]Johnston. Atexander. “Classifying Persian Characters with Artificial Neural Networks and inverted Complex Zernike Moments”. 2005.
http://www.doc.ic.ac.uk/teaching/proiects/Distiquished05/Alaxjohnston.pdf
[۸] Klassen, Tim. “Towards Neurat Network Recognition of Handwrritten Arabic Letters”. A’project Submitted to the Faculty of Computer Science in Partial Fulfillment of the Requirerments for the Degree of Master of Computer Scinece Dalhousie University, 2001.
[۹] Math works lnc. *MATLAB Help”. MATLAB Version 7.0 (R14) Decurnentation.
[۱۰] Sarlewarren S, ‘Archive of Neural Network FAQ’. 2002
ftp://ftp.sas.com/pub/neural/FAQ. htrnI
[۱۱]Dtat Soft Inc. “Neural Networks’. 20O3.
http ://www. statsaft. Com/textbook/stneunet html
[۱۲]. Philippides, Andy.”mullti-Layer Perceptron (MLP)”. Netral Networks Lectures,2003

فصل اول:

مقدمه

۱-۱:آشنایی با OCR

پردازش و آنالیز تصاویر می تواند به عنوان یک ساختار کاربردی و تکنیکی جهت تسخیرکردن، تصحیح کردن، زیاد کردن و تغییر شکل دادن تصاویری که مشاهده می شود تعریف کرد. در هنگام استفاده از تکنولوژی OCR، نرم‌افزار مربوطه تصویر را تجزیه وتحلیل می نماید و شکل حروف را بر اساس پراکندگی نقاط در تصویر، شناسایی می کند. متون می توانندحتی دارای عکس هم باشند که سیستم آنها را تشخیص داده، کنار می گذارد. یک سیستم OCR به ما این امکان را می دهد که یک کتاب و یا یک مقاله را مستقیما به یک فایل الکترونیکی تبدیل نماییم و آن را با کمک یک پرد ازشگر تغییر دهیم . استفاده از سیستم OCR یک راه کارآمد برای تبدیل متون به فایلهای داده است که ممکن است تایپ کردن آنها زمان زیادی به طول بیانجامد.این تکنولوژی مدتهاست که به وسیله کتابخانه ها و سازمان های دولتی برای دستیابی الکترونیکی سریع به مدارک حجیم به کار می رود و از لحاظ سرعت و هزینه روش مناسبی است. OCR از معدود زمینه های هوش مصنوعی است که می‌توان در عمل به آن تکیه کرد . از متداول‌ترین کاربردهای این تکنولوژی می توان جداکردن نامه ها در مراکز پست، دسته بندی چکها بانک، تبدیل متن به صدا برای استفاده نابینایان، امکان دسترسی سریع به بایگانیهای عظیم و تبدیل کتابهای قدیمی کتابخانه های به فرمتی مناسب برای ذخیره در کامییوتر را نام برد. هدف از این عملیات زیاد کردن کیفیت نسبی اطلاعاتی است که بعداً استخراج خواهد شد . تغییر شکل در حقیقت عملیاتی است که بر روی تصاویر ورو دی انجام می‌گیرد تا خروجی به یک عدد که اطلاعاتی از تصویر است بدهد . تکنیکهای متفاوت تولید تصاویر در دسترس می باشد با وجود این تکنیکهای پردازش اطلاعات به عملیات گسترده‌ای اطلاق می‌شود که می تواند بر روی اشکال و فرمتهای مختلف تصاویر عمل کند.

ابتدا تصاویر جهت از بین بردن اعوجاجی که در مرحله جمع‌آوری تصاویر ایجاد می‌شوند تشخیص می‌گردند و تصحیح سپس پردازش تصاویر یک عملیاتی است که یک سری کاربردها را ارجحیت می‌بخشد. تکنیکهای جدید یا پروسه های جدید که جهت حل مسائل مشخص وجود دارند از میان کاربردهای مختلف انتخاب می شوند. پردازش تصاویر در سطوح مختلف انجمن های مدرن انجام می‌گیرد. روشها و تکنیکها در همه این سطوح به یک شکل می‌باشد و روشهایی که در مقوله مراقبت سلامتی انجام می گیرند از سایر روشهای پردازش تصاویر که در علوم مختلف و صنعت انجام می‌گیرد اقتباس می‌شوند. جهت توضیح دادن عمومیت پردازش تصاویر، تعدادی از‌کاربرهای پزشکی و غیر پزشکی در زیر آمده شده است.

۲-۱: پردازش تصاویر ماهواره

تصاویر زمین و سایر سطوح جهانی توسط دوربین‌هایی که برروی سفینه‌های فضایی و ماهواره‌ها نصب شده گرفته می شود . هنگامی که از سیارات دیگر تصویر گرف ته می شود، هدف مطالعه سطوح آنها جهت بدست آوردن آگاهی درباره تاریخچه و مشخصات آن می‌باشد. شبیه سازی ماهواره ای زمین جهت کارهایی از قبیل کارهای فلاحتی- زراعتی، هواشناسی، محیط اطراف، پردازشهای نظامی در بین سایر موارد می باشد.

۳-۱: پردازش تصویر در صنعت و پزشکی:

تصاویر بخشهایی از سطوح زمین جهت کاهش تصویر و کوچکترکردن، بازرسی و یا جهت نقشه‌کشی گرفته می‌شود.

· چاپ کردن و دست نوشته ها:

تشخیص کاراکترهای چاپ یا نوشته شده از کاربردهای جدید پردازش تصاویر است . در بین کاربردهای دیگر می توان به خواندن اتوماتیک کدهای پستی و کدهای بانکی اشاره کرد.

· بارکد:

مسئول وارسی در بیشتر سوپرمارکتها دارای وسایلی هستند که بارکد موجود بر روی کالاها را خوانده و تفسیر می‌کند . از استفاده های بارکد می توان به نمونه های مدارک، نمونه های بیوشیمیایی و نمونه بافت در بیمارستان اشاره کرد.

· رادیولوژی:

در مبحث پزشکی، رادیولوژی یکی از کاربردهای اصلی تکنیک پردازش تصاویر است. کاربردهای آن نه تنها در اشعه x می باشد بلکه کاربردهایی از قبیل مقطع بندی کامپیوتری PET,MRI,CT ultra sound تمام نتایج به صورت تصاویر هستند که باید بعداً,تفسیر شوند. در میان این کاربردها، بازسازی سه بعدی تصاویر یکی ازموضوعهای مورد علاقه است.

· مجموعه خصوصیات کروموزومی موجودات:

از آنجا که تصاویر کروموزومی یکی از ساختارهای ساده می‌باشد، جفت شدگی کروموزومی و بازسازی خودکار آنها یکی از جدیدترین کاربردهای پردازش تصویر در پزشکی است.

· سلول شناسی و بافت شناسی:

تفسیر اتوماتیک و کوانتیزۀ تصاویر میکروسکوپیک از کاربردهای دیگر پردازش تصاویر در پزشکی است.

فصل دوم:

مراحل OCR

۲-۱: سیستمهای بازشناسی حروف

در این فصل، پس از ذکر تاریخچه‌ای از OCR، مراحل تبدیل تصویر به متن را شرح د اده و ورودی و خروجی هر مرحله را بیان می‌کنیم.

تاریخچه OCR

مبحث بازشناسی متون، همانند مبحث تشخیص صحبت از اوایل ظهور مبحث شناسایی الگو مطرح بود . در ابتدا شناسایی آنها آسان به نظر می‌رسید ولی در عمل بر خلاف انتظار بعد از یکسری پیشرفت کوچک، این مسأله با مشکلات بزرگی روبرو شد و توجه محققین به سمت سایر زمینه‌های شناخت الگو معطوف گشت . با پیدایش وسایل ارتباط جمعی الکترونیکی، نیاز شدیدی به سیستمهایی احساس شده است می‌شد که بتوانند با دقت و سرعت، اطلاعات نوشتاری موجود را خوانده و ذخیره نمایند. در سال۱۹۲۹ Taushech در آلمان و در سال ۱۹۳۳Handle در آمریکا ابداعاتی در زمینه OCR ثبت نمودند . اینها اولین ایده‌های شناسایی حروف هستند . این روش، تطبیق الگو نام دارد و به این صورت کار می‌کند که به هر حرف، نور تابیده می‌شود و نور باز تابیده شده از حروف، از قالب‌های مکانیکی عبور داده می‌شود . هرگاه که نوری از قالب عبور نکرد، حرف تشخیص داده می‌شود. در عمل تا زمان به عرصه آمدن کامپیوتر یعنی سال ۱۹۵۰ سیستم مطلوبی ساخته نشد. اولین کامپیوترتجاری ا UNIVAC درسال ۱۹۵۱ در آمریکا شروع به کار کرد در این زمان بود که ایده OCR به عنوان یک پدیده قابل پیاده ساز ی پذیرفته شد . از این زمان به بعد تحقیقات گسترده‌ای بر رو ی این تکنولوژی انجام گرفته است و در نتیجه سیستمهای تجاری عرضه شده‌اند که دارای قابلیت‌های خوبی هستند. سیستمهای تجاری عرضه شده را می تواند به سه نسل تقسیم‌بندی نمود. سیستمهای نسل اول در اویل دهه ۱۹۶۰ به بازار آمدند که نتیجه تحقیقات دهه ۱۹۵۰ بودند. آنها فقط قابلیت تشخیص کاراکترهای خاص با اندازه و فونت مشخصی را داشتند . در آنها از روشهایی استفاده شده بود که نسبت به تغییر جای کاراکترها، اندازه و دوران آنها فوق العاده حساس بودند. شاخص‌ترین سیستم این نسل، NCR 420 بود که می‌توانست اعداد و پنج نماد دیگر را تشخیص دهد. سیستمهای نسل دوم در اواسط دهه ۱۹۶۰ به بازار آمدند و می‌توانستند بعضی از کاراکترهای دست‌نویس مانند اعداد را تشخیص دهند. RETINA یکی از این سیستمها بود.

سیستمهای نسل سوم مربوط به اواخر دهه ۱۹۶۰ هستند که باهدف تشخیص کاراکترهایی باکیفیت چاپ پایین و همچنین متون دست نویس لاتین ساخته شدند . این نسل تا به امروزهم ادامه دارد و فعالیتهای گسترده‌ای در این زمینه در حال انجام است. امروزه سیستمهای OCR قادر به تشخیص دقیق کاراکترهای تایپی لاتین با انواع فونتها و در اندازه‌های متفاوت هستند (تا۹۹%) ولی هنوز در مورد تشخیص متون دست‌نویس لاتین و یا فونتهایی که در آنها از خطوط خمیده استفاده می شود (مثل فارسی و عربی) مشکلات زیادی وجود دارد.

روشهای بسیاری تا به امروز برای شناسایی متون فارسی و عربی به کار رفته‌اند . در سال ۱۳۵۹ به دنبال ابداع سیستمی برای شناسایی دست نوشته‌های عربی موسوم به IRAC توجهات به این زمینه نوین در قلمرو بازشناسی الگو معطوف شد. به دنبال آن سیستم دیگری برای تشخیص کلمات تایپ شده عربی پیشنهاد شد که در آن ابتدا کلمات به حروف تفکیک شده و سپس توصیف کننده‌های فوریه دوره خارجی حروف، مبنای شناسایی آنها قرار می گرفتند . به موازات آن دو روش ساختاری مطرح شدند.

· یکی مبتنی بر ایده دنبال کردن کانتور برای شناسایی حروف مجزای عربی و دیگری بر اساس استفاده از محله‌ای تقاطع و انشعاب پاره خطها برای شکستن کلمات به زیر حرفها و دسته بندی آنها به کمک ویژگیهای هندسی و توپولوژیکی.

در سال ۱۳۶۰ روشی برای شناسایی فونتهای بزرگ فارسی ابداع شد که از ویژگیهایی نظیر وجود حفره و دهنه برای شناسایی حروف بهره می‌جست . در سال ۱۳۷۲ دو سیستم جهت شناسایی حروف در متن فارسی تایپی ارائه گردید که یکی با روش شکل‌شناسی و دیگری بر اساس توصیف‌کننده‌های فوریه عمل می نمود . امروزه با کمک شبکه‌های عصبی که قادرند ارتباط پیچیده‌ای بین ورودی و خروجی برقرار کنند، می‌توان حروف فارسی را شناسایی نمود . مرجع {۷}

شامل پیوندهایی به چند پایان نامه انجام شده در زمینه OCRاست. مرجع {۸}نیز برخی پایان‌نامه‌ها را بررسی و نتایج آنها را مقایسه نموده است. پس از ذکر این تاریخچه، به شرح مراحل مختلفOCR می‌پردازیم.

۲-۲: اسکن کردن صفحات

اسکن کردن، اولین مرحله کار یک سیستم OCR است. یک پرتو نور به صفحه مورد نظر تابیده می‌شود . با حرکت این پرتو روی صفحه و با تغییر مقدار سیاهی (و یا رنگ در اسکنرهای رنگی) شدت نور بازتابیده شده تغییر می کند . نور بازتابیده شده به آرایه‌ای از سلول‌های فتوالکتردیک برخورد کرده و به این ترتیب، یک فایل تصویری از صفحه اسکن شده بدست می‌آید. از آنجایی که با دیدن این تصاویر می‌توانیم محتویات صفحه را دریابیم، ممکن است این سوال ییش آید که چرا باید زمان وهزینه تبدیل تصویر به متن را تقبل کنیم؟ در پاسخ باید گفت:

· حجم فایل‌های تصویری بسیار بیشتر از فایلهای متن است، حتی اگر از روشهای فشرده‌سازی استفاده کنیم.
· تغییر در نحوه نمایش فایلهای تصویری مشکل و یا عملاً غیرممکن است، مثلاً تغییر فونت، در صورت امکان بسیار مشکل خواهد بود و یا ریز و درشت کردن تصویر می‌تواند به ناخوانا شدن حروف بیانجامد.
· تبدیل تصویر به اشکال دیگر ارائه، مثلاً خواند متن برای نابینایان، بسیار مشکل است.
· امکان جستجوی عبارتی خاص و یا مقایسه بخشهایی از متن تصویری با متون دیگر عملاً وجود ندارد.

مجموعه علتهای بالا باعث شده تا تلاشهای بسیاری برای تبدیل تصاویر به متن صورت گیرد . روشهای دیگری، از جمله استفاده از دوربین دیجیتال، نیز برای ایجاد فایلهای تصویری وجود دارد . این روشها معمولاً در زمینه‌های دیگر تشخیص الگو (مثل تشخیص چهره) بکار می‌روند.

در مورد تبدیل متون کتابها و سایر نوشته‌ها، اسکن کردن مناسب ترین روش است . البته در بعض ی کاربردها (مثل LPR) استفاده از این دوربینها ضروری است.

۲-۳: استخراج نواحی شامل متن و تفکیک متن به حروف

یک فایل تصویری اسکن شده، فقط شامل متن نیست بلکه ممکن است شامل تصویر اشخاص و مناظر، نمودار و سایر تصاویر غیر متنی نیز باشد. سیستم OCR باید بتواند نواحی شامل متن را شناسایی و استخراج کند.

الف) اگر چیدمان صفحه اسکن شده مشخص باشد(مثل چک بانکی، پلاک خودرو، فرم ثبت نام داوطلبین آزمونها) این کار با روشی ساده و با قابلیت اطمینان بالا امکان‌پذیر است . مثلاً در شکل(۱-۲) با استفاده از موقعیت مکانی مستطیل‌های سیاه کوچک حروف مورد نظر به سادگی استخراج می‌شوند.

ب) اما اگر چیدمان صفحه مشخص نباشد (مثل صفحات کتاب) باید از روشهای پیچیده‌تری بهره گرفت که بتوانند بر اساس تفاوتهای تصاویر متنی با تصاویر اشخاص و مناظر ، متن را استخراج کنند. بدیهی است که در این کار امکان خطا وجود دارد. یکی از روشهای مورد استفاده در این حالت، استفاده از هیستوگرام (histogram ) است. تصاویر متنی معمولاً هیستوگرام حول دو رنگ (نوشته و زمینه) مقدار بالا دارند ولی تصاویر غیرمتنی در بسیاری از رنگها، مؤلفه دارند . برای کسب اطلاعات بیشتر در مورد روشهای استخراج نواحی متنی می‌توانید به (۱) مراجعه کنید.

تصاویر متن پس از استخراج، بر اساس یک آستانه که توسط روشهای آماری بدست می‌آید ({۱}،{۹}) به تصاویر سیاه و سفید (باینری) تبدیل شده و توسط فیلترهای مثل Median و LP نویزگیری می‌شوند{۶}.

اگر سیستم OCR بخواهد خروجی مشابه با ورودی بدهد (مثلاً در تبدیل کتابها که خروجی از لحاظ بصری شبیه صفحه اسکن شده است) باید چیدمان صفحه اسکن شده را ذخیره کند . درسیستمهای دیگر(مثل سیستمهایی که خروجی آنها صوتی است یا سیستمهای LPR) این کار لزومی ندارد. پس از انجام این مرحله، متون استخراج شده باید به تعداد محدودی واحد”قابل تشخیص اتوماتیک “تفکیک شوند . معمولاً این واحدها حروف تشکیل دهنده متن هستند، هرچند در برخی الگوریتمها از زیرواژه‌ها (مثل”با”و”لا”در کلمه”بالا”)به عنوان واحد تشخیص استفاده می‌شود.

در برخی از کا ربردها مثل فرم آزمونها (شکل(۲-۱) دو مرحله استخراج نواحی و تفکیک به حروف، مستقیماً انجام می شود ولی در سایر کاربردها باید از الگوریتمها ی ویژه‌ای استفاده کرد . این کار درمورد حروف چاپی لاتین نسبتاً ساده است زیرا حروف به صورت مجزا در کنارهم قرار می‌گیرند و بین آنها فاصله خالی وجود دارد . در مورد متون فارسی و سایر زبانهایی که به صورت”سرهم “نوشته می‌شوند باید کارهای پیچیده‌تری صورت گیرد. (به عنوان یک مرجع خوب در این مورد به {۱} مراجعه کنید).

در صورت انجام موفق این مرحله، مجموعه‌ای از تصاویر بدست می آید که هر تصویر شامل یک حرف است. این تصاو یر بعنوان ورودی به نرم‌افزار شناسایی کننده حروف داده می شوند . بسیار ی از الگوریتمها تصویر رنگی یا خاکستری را نیز برای استفاده درپردازشها ذخیره می‌کنند.

۲-۴: شناسایی حروف

هدف از این مرحله عبارت است از تبدیل تصاویر”تک حرف “مرحله قبلی به کدهایی که نشانگر حروف مورد نظر است (مثل کد اسکی حرف متناظر).

به طور کلی روشهای شناسایی حروف بر دو نوع هستند:

· روشهای مبتنی بر تئوری تصمیم‌گیری
· روشهای ساختاری

در روشهای نوع یک، ویژگیهای خاصی از تصاویر ورودی به صورت کمی اندازه‌گیری و استخراج شده و به صورت درایه‌های یک بردار نرم افزار شناسایی کننده را تشکیل می‌دهند. به این کار Feature Extractiorمی‌گویند. این ویژگیها می‌توانند شدت نقاط تصاویر خاکستری (یا مقدار نقاط تصویر باینری)، projection افقی یا عمودی تصویر، میانگین، واریانس و یا نتایج اجرای یک فرایند پیچیده روی تصویر باشند. نرم‌افزار با توجه به بردار ویژگی، به هر یک از کلاسهای تعیین شد، امتیازی نسبت می‌دهد . کلاسهایی که بیشترین امتیاز را کسب کند، خروجی نرم افزار است . مثلاً در تشخیص حروف لاتین، هر کدام از حروف A تاz وa تاz یک کلاس هستند و نرم افزارهربردار ورودی را به یکی از این کلاسها نسبت می‌دهد. یکی از مهمترین روشهای این نوع، شبکه‌های عصبی است که در فصل بعد، عملکرد آن را بیان خواهیم کرد.

در روشهای نوع دو، حروف با کمک ویژگیهای ساختاری (نقطه، سرکش، دسته، حلقه،… ) و نحوه قرارگیری این ویژگیها در کنارهم شناسایی می‌شوند. برای آشنایی بیشتر با انوع روشهای نوع یک و دو می‌توانید به {۱} مراجعه نمایید . همچنین {۸}شامل بخشی در مورد بکارگیری بعضی از این روشها در کاربردهای عملی و مقایسه نتایج آنهاست. آنچه در این پایان نامه تأکید می‌شود روش شبکه‌های عصبی بدون استفاده از الگوریتمهای پیچیده استخراج ویژگی است. نشان خواهیم داد که شبکه های عصبی که حروف جایی را بدون بهره‌گیری از ویژگیهای پیچیده، تا حد قابل قبولی شناسایی می‌کنند، نمی‌توانند این کار را در مورد حروف دست‌نویس انجام دهند و باید ویژگیهای پیچیده‌ای استخراج شوند.

۲-۵: ارائه نتایج

هدف از این مرحله که مرحله پایانی کار سیستم OCR است، ارائه کدهای تولید شده در مرحله قبل به فرمت مناسب است . مثلاً اگرهدف ازOCR، تبدیل کتاب و مجله باشد، سیستم باید با استفاده

از کدهای اسکی بدست آمده و اطلاعات چیدمانی که در مراحل قبل ذخیره شده، صفحه اسکن شده را شبیه‌سازی کند طوری که از نظر بیننده، تفاوتی بین صفحه کاغذ و فایل تصویر وجود نداشته باشد ولی از نظر رایانه، به جای تصویر حروف، کد آنها جایگزین شده باشد . به همین ترتیب اگرهدف، تبدیل تصویر به صوت است باید کدهای بدست آمده توسط الگوریتمهایی مثل Text to Speech API به اصوات شنیداری تبدیل شوند.

فصل سوم:

شبکه های عصبی

۳-۱: شبکه های عصبی

در صفحات پیشین شبکه عصبی را به عنوان یک روش متداول در شناسایی حروف معرفی کردیم . در این فصل ساختار و عملکرد شبکه‌های عصبی را بررسی کرده و در مورد ساختار و الگوریتم یادگیری یک نوع خاص شبکه عصبی (شبکه Perceptron Multilayer )که در این پایان نامه به کار رفته است، توضیح خواهیم داد.

۳-۲ آشنایی با شبکه عصبی

شبکه عصبی سیستمی است متشکل از تعدادی واحد ساده به نام نرون که با اتصالات وزن‌دار به هم متصل شده‌اند . با تغییر دادن وزن این اتصالات در فرایندی به نام یادگیری ، شبکه می تواند توابع

پیچیده‌ای را پیاده‌سازی کند . به طور کلی برای استفاده از شبکه عصبی، ابتدا ساختار مناسب را انتخاب می کنند (بخش ۳-۲ را ببینید) سپس شبکه را آموزش می‌دهند تا وزن اتصالات (که در ابتدا دارای مقادیر پیش گزیده و یا تصادفی هستند) طوری تنظیم شوند که برای تعداد محدودی ورودی نتیجه مطلوب حاصل شود . سپس بقیه ورودیها را به شبکه آموزش دیده می‌دهند و نتایج حاصل را دریافت می‌کنند.

از ویژگیهای شبکه‌های عصبی می توان به موارد زیر اشاره کرد {۷}، {۱۱}:

· می‌توانند توابع پیچیده و غیرخطی را مدل‌سازی کنند.
· می‌توانند بر اساس نمونه‌ها یاد بگیرند و احتیاجی به دانستن تابع درونی شبکه بصورت تحلیلی نیست.
· به دلیل فعالیت موازی نرونها، شبکه‌های عصبی پس از یادگیری، می‌توانند با سرعت بالایی ورودیها را پردازش کرده و نتایج را بیرون دهند. تحمل‌پذیری بالایی نسبت به نویز ورودی دارند . در صورت خرابی یک یا چند نرون بازهم تا حد خوبی می‌توانند به کار خود ادامه دهند.

امروزه شبکه‌های عصبی در زمینه‌های مختلف پزشکی، دفاعی، صنعتی و … کاربرد دارند. {۹} در زمینه‌های گوناگون تشخیص الگو (مثل تشخیص صحبت، اثر انگشت، چهره و OCR) نیز شبکه‌های عصبی، بسیار به کار می‌روند. ایده اولیه این شبکه‌ها، از شبکه‌های عصبی طبیعی گرفته شده است . در شبکه‌ها ی طبیعی، همه فعالیتهای ذهنی و حرکتی، با اتصال سلولهای عصبی یا نرونها انجام می‌پذیرد . سرعت انتقال پیام الکتریکی در طول یک سلول و بین سلولهای عصبی، نسبت به سرعت

انتقال در سیستمهای الکترونیک بسیار کمتر است (حداکثر تا چند متر بر ثانیه) و قابلیت پردازش آنها با کامپیوترها قابل مقایسه نیست ولی موجودات زنده فعالیتهای بسیار پیچیده‌ای انجام می‌دهند که بسیاری از آنها قابل پیاده‌سازی با فن‌آوری فعلی نیست . این قابلیت را به تعداد زیاد این سلولها و فعالیت موازی آنها نسبت می‌دهند. شبکه‌های عصبی مصنوعی به منظور استفاده از این مزیتها ایجاد شده‌اند . هرچند به دلایل گوناگون، شبکه‌های عصبی مصنوعی از نظر ساختار و عملکرد، از شبکه‌های طبیعی فاصله گرفته‌اند {۷}.

۳-۳ انواع شبکه های عصبی

شبکه‌های عصبی را از چند نظر می‌توان تقسیم‌بندی کرد . از نظر ساختمان ، شبکه‌ها به دو نوع تقسیم می‌شوند.

۱)Feedforward

۲)Recurrent یا Feed Back

در نوع اول، مسیر انتقال اطلاعات همواره رو به جلو است ولی در نوع دوم، حلقه وجود دارد . شبکه‌های نوع دوم ممکن است ناپایدار باشند و یادگیری در این شبکه‌ها، بسیار کندتر است . این شبکه‌ها در تحقیقات، توجه زیادی به خود جلب کرده‌اند .ولی در کاربردهای عملی، شبکه‌های Feedforward سودمندتر بوده‌اند.

از شبکه‌های نوع اول می‌توان بهMultilayer Perceptron و Hopfield و از شبکه‌های نوع دوم به Boltzman و Hebbian اشاره کرد. از نظر نحوه یادگیری شبکه‌ها به دو نوع Supervised و Unsupervised تقسیم می‌شوند. در شبکه‌های نوع اول، مجموعه‌ای از ورودیها و خروجی‌های متناظر آنها (خروجی‌هایی که انتظار داریم شبکه به ازا ورودیهای داده شده، آن خروجی را تولید کند) به شبکه داده می‌شود . آنگاه توسط الگوریتم‌هایی مثل گرادیان کاهشی ، وزن اتصالات طوری تنظیم می‌شود که تابع هزینه (معمولاً مجموع مجذورات تفاوت خروجی تولید شده توسط شبکه و خروجی مورد انتظار یا SSE) مینیموم شود.

در روشهای نوع دوم، اطلاعاتی از خارج به شبکه داده نمی‌شود و شبکه با استفاده از ویژگیهای مختلف ورودیها (مثل ویژگیهای آماری) خروجی می‌دهد . این روشها بر خلاف روشهای نوع اول معمولاً در کاربردهای تشخیص و طبقه‌بندی به کار نمی‌روند بلکه بیشتر برای فشرده سازی و حذف redundancy و یا یافتن الگوهای خاص بین داده‌های ورودی استفاده می‌شوند . بحث در مورد انواع شبکه‌های عصبی بسیار گسترده است و ما به همین مقدار اکتفا می‌کنیم. برای کسب اطلاعات بیشتر در این مورد می‌توانید به {۱۰}مراجعه کنید.

۳-۴ نرون

جهت دریافت و خرید متن کامل مقاله و تحقیق و پایان نامه مربوطه بر روی گزینه خرید انتهای هر تحقیق و پروژه کلیک نمائید و پس از وارد نمودن مشخصات خود به درگاه بانک متصل شده که از طریق کلیه کارت های عضو شتاب قادر به پرداخت می باشید و بلافاصله بعد از پرداخت آنلاین به صورت خودکار لینک دنلود مقاله و پایان نامه مربوطه فعال گردیده که قادر به دنلود فایل کامل آن می باشد .

مطالب پیشنهادی:

برچسب ها : OCR, آموزش شبکه عصبی, پردازش تصاویر ماهواره, پردازش تصویر, پردازش تصویر در صنعت و پزشکی, دانلود تحقیق پردازش تصویر, دانلود مقاله پردازش تصویر, مراحل OCR

برای ثبت نظر خود کلیک کنید ...

مقاله پردازش تصویر

مقاله پردازش تصویر

چکیده

فهرست مطالب

فهرست منابع

فصل اول:

مقدمه

۱-۱:آشنایی با OCR

۲-۱: پردازش تصاویر ماهواره

۳-۱: پردازش تصویر در صنعت و پزشکی:

فصل دوم:

مراحل OCR

۲-۱: سیستمهای بازشناسی حروف

تاریخچه OCR

۲-۲: اسکن کردن صفحات

۲-۳: استخراج نواحی شامل متن و تفکیک متن به حروف

۲-۴: شناسایی حروف

۲-۵: ارائه نتایج

فصل سوم:

شبکه های عصبی

۳-۱: شبکه های عصبی

۳-۲ آشنایی با شبکه عصبی

۳-۳ انواع شبکه های عصبی

۳-۴ نرون

ارسال نظر

جستجو پیشرفته

نوشته‌های تازه

پیوندها

بایگانی

دسته‌ها

آخرین بروز رسانی