اين قسمت از عامل ، از يك پايگاه داده تشكيل شده است كه حاوي چندين كلمه معادل بعضي كلمات خاص كه در چالش ها ذكر گرديد ، مي باشد. اين تناظر ، مي تواند مربوط به معادل هاي رسم الخط ، معادل هاي مفهومي يا معادل هايي به زبان هاي غير فارسي باشد. بدين صورت كه با عبور دادن كلمات مورد كاوش از اين واسط و يا با رجوع به اين پايگاه داده ، عملا يك كاوش بر اساس يك كلمه كليدي خاص ، منجر به چند كاوش براي كلمات معادل آن كلمه كليدي خاص مي گردد. با اين ترفند ، صفحات حاوي كلمات معادل ، از دست نمي رود و پارامتر جامعيت را تقويت مي نمايد.
معماری وب کاوی
•ژوئن 9, 2008 • یک نظر بنویسیداين عامل هوشمند ، در خصوص هر يك از چالش هاي رسم الخط زبان فارسي رايانه اي ، رفتار متفاوتي از خود نشان مي دهد. اين رفتارها بقرار زير است :
الف) تنوع نحوه استفاده از “مي” ، “ها” ، پيشوند ها و پسوند ها :
همانطور كه قبلا توضيح داده شد ، موارد فوق بطور چسبيده يا جدا از كلمه بكار برده مي شود. لذا جهت رفع چنين مشكلي ، مي توان در واسط هوشمند ، با حذف كليه فواصل خالي(Blanks) موجود در عبارت مورد كاوش ، اقدام به جستجو بر اساس دنباله اي از حروف همان عبارت ، بدون هيچگونه فاصله خالي نمود.
ب) بكاربردن “حمزه” بصورت هاي مختلف :
جهت حل مشكل فوق ، در عمل هوشمند مورد بحث ، فرآيندي ايجاد مي گردد ، كه طي آن ، اگر عبارت مورد كاوش حاوي صور مختلف “حمزه” باشد ، عملا كاوش ، به چندين جستجو براي كلمات مشابه ، با حالت هاي مختلف “حمزه” تبديل مي شود. بعبارت ديگر كاوش كلمه “مسئله ” به كاوش براي كلمات “مسئله” و “مسأله” منجر مي شود. مي توان با جايگزيني “ي” بجاي “ء” نيز دامنه كاوش را وسيع تر نمود ، مثل “رئيس” و “رييس”.
ج) استفاده يا عدم استفاده از “ء” در تركيب هاي اضافي يا وصفي :
جهت رفع اين مشكل ، در صورت استفاده كاربر از “ء” در عبارت مورد كاوش خود ، واسط هوشمند اقدام به جستجو براي عبارتي فاقد “ء” مي نمايد. در اين صورت نتايج جستجو ، صفحاتي را كه در محتواي متن آنها از “ء” استفاده نشده است نيز شامل مي گردد.
د) استفاده از “ا” و “آ” :
در اين مورد ، واسط ، بمحض برخورد به كلمه مورد كاوش كه در آن “ا” بصورت چسبان يا غيرچسبان بكار رفته باشد يا شامل “آ” باشد ، جستجو را به كاوش براي كلمات جديدي كه با جايگزيني “ا” با “آ” ويا “آ” با “ا” ، ساخته شده اند ، بسط مي دهد. در نتيجه كاوش براي كلمه “فرايند” ، صفحات حاوي كلمه “فرآيند” ، از دست نمي رود.
ه) استفاده از اصطلاحنامه(Thesaurus) براي حل مشكل تنوع املايي كلمات :
اين معضل شامل تنوع استفاده از “ي” در كلمات عربي مختوم به “ا” ، تنوع املايي بعضي كلمات كه همه درست هستند ، استفاده از كلمات اروپايي بصورت ترجمه فارسي و استفاده يا عدم استفاده از جمع مكسر براي بعضي كلمات مي باشد كه حل مشكل كليه موارد ، در ايجاد يك پايگاه داده در سمت خدمت گذار ، مستتر است. اين پايگاه داده شامل نمايه اي از اين كلمات و كلمات مترادف مي باشد. براي مثال كلمه “موسي” ، به كلمه “موسا” و كلمه “كامپيوتر” به كلمه “رايانه” متناظر شده است. عامل هوشمند با مراجعه به اين پايگاه داده ، براي عبارت مورد كاوش كاربر ، عبارات مشابهي استخراج كرده ، كاوش را به جستجو براي اين عبارات ، علاوه بر عبارت اصلي ، بسط مي دهد.
ايجاد چنين پايگاه داده اي ، با مشاوره انجمن ها ، بزرگان و فرهنگستان ادب فارسي انجام مي پذيرد و بروزآوري آن نيز بصورت دوره اي و با دخالت صاحب نظران مذكور صورت مي گيرد.نمونه اي از محتويات اين پايگاه داده در جدول زير آمده است :
|
شناسه |
واژه اصلي |
واژه مترادف |
|
1 |
موسي |
موسا |
|
2 |
امپراتور |
امپراطور |
|
3 |
Ontology |
آنتولوژي |
|
3 |
آنتولوژي |
انتولوژي |
|
3 |
آنتولوژي |
انتالوژي |
|
3 |
آنتولوژي |
هستي شناسي |
|
4 |
كامپيوتر |
رايانه |
|
4 |
Computer |
كامپيوتر |
|
5 |
Source |
منبع |
|
5 |
Source |
سورس |
جدول (4) نمونه اي از محتويات پايگاه داده مترادف ها.
و) تبديل كلمات اروپايي به رسم الخط فارسي با همان تلفظ اصلي(Cross language Retrieval ) :
كاربري كه بدنبال اطلاعاتي در خصوص برنامه هاي “Open Source” در اينترنت مي باشد ، شايد براي هميشه از دسترسي به صفحاتي كه در آنها كلمه “سورس باز” بكار رفته است ، محروم بماند يا حداقل محكوم به اتلاف زمان زيادي تا رسيدن به چنين كلمه اي و به تبع ، نتايج مطلوب باشد. لذا در صورتي كه جستجو براي لغت “سورس” ، بنحوي همزمان با كاوش براي كلمه “Source” ، حتي بدون اطلاع كاربر ، انجام پذيرد ، مي توان گفت هم در سرعت و هم در جامعيت اطلاعات بدست آمده ، ارتقايي صورت گرفته است.
وظيفه واسط ما در اين خصوص اينست كه با مراجعه به پايگاه داده ، كاوش را به كلمه ساخته شده بر اساس تلفظ انگليسي متناظر نيز گسترش دهد. براي انجام فرآيند حل اين مشكل بصورت اتوماتيك و ضمنا استفاده از پايگاه داده معتبرتر و روزآمدتر بعنوان معيار عملكرد اين واسط ، مي توان روشي پيشنهاد نمود كه كلمه متناظر تلفظ انگليسي لغات كه با رسم الخط فارسي تهيه مي گردد ، با مراجعه به پايگاه هاي داده بين الملي حاوي معادل هاي سمبوليك تلفظ كلمات انگليسي (كه در كتاب هاي ديكشنري انگليسي به انگليسي آمده است) ، كلمه مذبور را تهيه نمود و سپس كاوش را براي آن انجام داد.

شكل (3) ساختار واسط كمك فارسي براي بهبود مانعيت

شكل (4) ساختار واسط كمك فارسي براي بهبود جامعيت
|
نام جزء |
پردازش مربوط |
نام جزء |
پردازش مربوط |
|
C1 |
حذف “ء” از عبارت |
C7 |
تبديل “آ” به “ا” |
|
C2 |
تبديل “ؤ” به “ئ” و بالعكس |
C8 |
تبديل “ا” به “آ” در ابتداي كلمات |
|
C3 |
تبديل “ئ” به “أ” و بالعكس |
C9 |
اضافه كردن “ء” به “ه” در تركيبات |
|
C4 |
تبديل “ؤ” به “أ” و بالعكس |
C10 |
حذف اعراب ها |
|
C5 |
تبديل “يي” به “ئي” و بالعكس |
C11 |
تبديل “ة” به “ه ء” يا به “ه” و بالعكس |
|
C6 |
تبديل “ي” به كاراكتر با يونيكد مشابه |
C12 |
مراجعه به پايگاه داده واژه هاي مترادف |
جدول (5) اجزاء وپردازش هاي مربوط به رفع اشكالات رسم الخط
نرمافزارهاي دادهكاوي
•می 20, 2008 • یک نظر بنویسید
طي سالهاي گذشته جريان سريعي از تمايل به دادهكاوي در بازارهاي نرمافزاري به وجود آمده است. بيشتر كاربران نرمافزارهاي دادهكاو با تفكر استفاده تجاري از اين نرمافزارها، خواهان استفاده از آن شدهاند. نرمافزارهاي دادهكاو معمولاً سه روش مختلف را براي استفاده از دادهكاوي به كار ميبرند. 1) اكتشاف 2) استفاده از مدلهاي پيشگويي 3) استفاده از آناليز بحث و جدل.
اكتشاف، فرآيند جستجو در دادههاست تا الگوهاي مخفي موجود در دادهها را بدون هيچ ايدة از پيش تعيين شدهاي مشخص نمايد. در نرمافزارهاي دادهكاوي مبتني بر مدلهاي پيشگويي، الگوهايي كه از يك بانك داده كشف ميشوند، براي پيشبيني آينده به كار ميروند. مدلهاي پيشبيني به كاربر اجازه ميدهند تا دادههاي نامشخص را به كار ببرد و اين مقادير نامشخص توسط نرمافزار كشف شود.
در مدلهاي جدلي نيز الگوهاي يافت شده از دادهها براي تعيين مقادير غيرعادي به كار ميرود. براي تعيين مقادير غير عادي، ابتدا ميبايست مقادير عادي شناخته شود تا بر اين اساس مقادير غيرعادي و منحرف شناخته شوند.
نرمافزارهاي دادهكاو در حال حاضر از فعاليت كمتري نسبت به ساير نرمافزارهاي هوشمند برخوردار هستند. با اين وجود فعاليت تجاري اين نرمافزار را ميتوان در شش بخش كلي، دستهبندي دادهها، برآورد مقادير نامشخص، پيشبيني مقادير نامشخص, گروهبندي تقريبي دادهها، خوشهبندي دادهها و تشريح روابط بين دادهها تقسيم كرد
مفهوم داده کاوی -
•می 20, 2008 • یک نظر بنویسیدعبارت داده کاوي مترادف با يکي از عبارت هاي استخراج دانش، برداشت اطلاعات، وارسي داده ها و حتي لايروبي کردن داده هاست که در حقيقت کشف دانش در پايگاه داده ها11 (KDD ) را توصيف مي کند. بنابراين ايده اي که مبناي داده کاوي است يک فرآيند با اهميت از شناخت الگوهاي بالقوه مفيد، تازه و درنهايت قابل درک در داده هاست. واژه کشف دانش در پايگاه داده ها در اوايل دهه 80 در مراجعه به مفهوم کلي، گسترده، سطح بالا و به دنبال جستجوي دانش در اطلاعات شکل گرفته است. داده كاوي كاربرد سطح بالاي فنون و ابزار بكار برده شده براي معرفي و تحليل داده ها ي تصميم گيرندگان است. اصطلاح داده کاوي را آمار شناسان، تحليل گران داده ها و انجمن سيستم هاي اطلاعات مديريت به کار برده اند در حالي که پژوهشگران يادگيري ماشين و هوش مصنوعي از KDD بيشتر استفاده مي کنند. در ادامه چند تعريف از داده کاوي ارائه مي شود.
«داده کاوي يا به تعبير ديگر کشف دانش در پايگاه داده ها، استخراج غير بديهي اطلاعات بالقوه مفيد از روي داده هايي است که قبلاً، ناشناخته مانده اند. اين مطلب برخي از روش هاي فني مانند خوشه بندي، خلاصه سازي داده ها، فراگيري قاعده هاي رده بندي، يافتن ارتباط شبکه ها، تحليل تغييرات و کشف بي قاعدگي را شامل مي شود » ( پياتتسکي شاپيرو، ماتئوس کريستوفر)
« داده کاوي در حقيقت کشف ساختارهاي جالب توجه، غير منتظره و با ارزش از داخل مجموعه وسيعي از داده ها مي باشد و فعاليتي است که اساساً با آمار و تحليل دقيق داده ها منطبق است» هند (1998)
« داده کاوي فرآيند کشف رابطه ها، الگوها و روندهاي جديد معني داري است که به بررسي حجم وسيعي از اطلاعات ذخيره شده در انبارهاي داده با فناوري هاي تشخيص الگو ( مانند رياضي و آمار ) مي پردازد». ( سايت12 http://www.spss.com)
کشف دانش در پايگاه داده ها در جهت کشف اطلاعات مفيد از مجموعه بزرگ داده هاست. دانش کشف شده مي تواند قاعده اي باشد تا ويژگي هاي داده ها، الگوهايي که به طور متناسب رخ مي دهند، خوشه بندي موضوع هاي درون پايگاه داده ها و غيره را توصيف مي کند.
يک کاربر سيستم KDD بايستي درک بالايي از قلمرو داده ها به منظور انتخاب زير مجموعه صحيحي از داده ها، رده مناسبي از الگوها و معيار خوبي براي الگوهاي جالب داشته باشد. بنابراين سيستم KDD بايد ابزارهايي با اثر تعاملي داشته باشد نه سيستم هاي تجزيه و تحليل خودکار. لذا کشف دانش از پايگاه داده ها بايد مثل يک فرآيند شامل گام هاي زير باشد:
درک قلمرو
آماده کردن مجموعه داده ها
کشف الگوها (داده کاوي)
پردازش بعد از کشف الگو
استفاده از نتايج .
سا بقه داده کاوی
•می 20, 2008 • یک نظر بنویسید
داده کاوي و کشف دانش در پايگاه داده ها از جمله موضوع هايي هستند که همزمان با ايجاد و استفاده از پايگاه داده ها در اوايل دهه 80 براي جستجوي دانش در داده ها شکل گرفت.
شايد بتوان لوول (1983) را اولين شخصي دانست که گزارشي در مورد داده کاوي تحت عنوان « شبيه سازي فعاليت داده کاوي » ارائه نمود. همزمان با او پژوهشگران و متخصصان علوم رايانه، آمار، هوش مصنوعي، يادگيري ماشين و . . . نيز به پژوهش در اين زمينه و زمينه هاي مرتبط با آن پرداخته اند.
پژوهش جدي روي موضوع داده کاوي از اوايل دهه 90 شروع شد. پژوهش ها و مطالعه هاي زيادي در اين زمينه صورت گرفته، همچنين سمينارها، دوره هاي آموزشي و کنفرانس هايي نيز برگزار شده است. نتايج پايه هاي نظري داده کاوي در تعدادي از مقاله هاي پژوهشي آورده شده است. مثلاً سال 1991 پياتتسکي و شاپيرو 2 « استقلال آماري قاعده ها در داده کاوي» را بررسي نموده اند. سال 1995 هافمن و نش استفاده از داده کاوي و داده انبار3 توسط بانک هاي آمريکا را بررسي نموده و بيان کردند که چگونه اين سيستم ها براي بانک هاي آمريکا قدرت رقابت بيشتري ايجاد مي کنند. چت فيلد مشکلات ايجاد شده توسط داده کاوي را بررسي نمود و همچنين مقاله اي تحت عنوان « مدل هاي خطي غير دقيق داده کاوي و استنباط آماري » ارايه نمود. هندري نيز ديدگاه اقتصاد سنجي روي داده کاوي را تهيه کرد. در اين سال انجمن داده کاوي همزمان با اولين کنفرانس بين المللي «کشف دانش و داده کاوي» شروع به کار کرد. اين کنفرانس توسعه يافته چهار دوره آموزشي بين المللي در پايگاه هاي داده درسال 1989 تا 1994 بود. انجمن مذكور، يک سازمان علمي به نام ACM- SIGKDD را ايجاد نمود. سال 1996 ايميلنسکي4 و منيلا5 ديدگاهي از داده کاوي به عنوان «پرس و جو کننده از پايگاه هاي استنتاجي6» را پيشنهاد کردند. فاياد، پياتتسکي – شاپيرو، اودوراُسامي پيشرفت هاي کشف دانش و داده کاوي را عنوان کردند. در سال 1997 منيلا خلاصه اي از مطالعه روي اساس داده کاوي ارايه نمود. باربارا و همکاران نيز ديدگاه کاهش داده ها روي داده کاوي را در گزارش کاهش داده هاي نيوجرسي ارايه نمودند. همچنين مي توان براي كاربرد داده کاوي
در مديريت مالي مي توان، تحليل داده هاي مالي و مدل سازي مالي بنينگاه و چاچ کز و هيگينز 7 را ملاحظه کرد فريدمن نيز مقاله اي در ارتباط با مفهوم آمار و داده کاوي ارايه نمود. سال 1998 هند 8 مقاله اي تحت عنوان « داده کاوي : آمار يا بيشتر؟ » ارائه نمود. کلينبرگ9 پائوديميتريو و راغان 10 ديدگاه اقتصاد سنجي روي داده کاوي و عملکرد داده کاوي به عنوان يک مسئله بهينه را ارايه نمودند. در اين سال نيز کنفرانس هاي ناحيه اي و بين المللي در مورد داده کاوي برگزار شد که از جمله مي توان به کنفرانس آسيا و اقيانوسيه درباره کشف دانش و داده کاوي اشاره کرد. سال 2000 هند و همکاران و اسميت بحث هاي مقايسه اي بين آمار و داده کاوي را ارايه کردند. سري و استاوا، کولي، رش پاند و تن استفاده از وب در کاوش داده ها و کاربردهاي آن را ارايه کردند. سال 2002 کلاديو کانورسانو و همکاران « مدل آميخته چندگانه جمع پذير تعميم يافته » براي داده کاوي را بررسي نمودند. پائلو و گيانلوکاپاسرون، « داده کاوي ساختارهاي پيوند براي مدل رفتار مصرف کننده » را ارايه نمودند
مشكلات ومحدوديت هاي وب كاوي در سايت هاي فارسي زبان
•آوریل 27, 2008 • یک نظر بنویسید
در دهه هاي اخير ، بيشترين اختلاف نظر در باب شيوه املاي كلمات فارسي بر سر موضوع جدانويسي يا پيوسته نويسي كلمات مركب بوده است.فرهنگستان زبان و ادب فارسي ، در اين باب راه ميانه را برگزيده و كوشيده است تا فقط مواردي را كه جدانوشتن و يا پيوسته نوشتن آنها الزامي است ، تحت قاعده و ضابطه درآورد و شيوه نگارش بقيه كلمات مركب را به ذوق و سليقه نويسندگان واگذار كند.]فرهنگستان،1382[
بعضي چالش هاي زبان فارسي در رايانه و بخصوص در اينترنت كه باعث تفاوت در نتيجه جستجو در وب يا وب كاوي مي شود از قرار زير است :
الف) تنوع نحوه استفاده از “مي” چسبان و غير چسبان ، مثل كلمات “مي تواند” و “ميتواند”.
ب) تنوع نحوه بكاربردن چسبان و غير چسبان “ها” ، مثل “آن ها” و “آنها”.
ج) بكار بردن بعضي پيشوند ها و پسوند ها ، مثل “همين كه” و “همينكه” ويا “هيچ يك” و “هيچيك” و يا “راه گشا” و “راهگشا”.
د) بكاربردن “حمزه” بصورت هاي مختلف ، مثل “مسؤول” و “مسئول” يا “مسأله” و “مسئله”.
ه) استفاده يا عدم استفاده از “ء” ، براي كلمات مختوم به هاي بيان حركت ، در حالت مضاف ، مثل “خانة مسكوني” و “خانه مسكوني”.
و) تنوع استفاده از “ي” در كلمات عربي مختوم به “ا” ، مثل “موسي” و “موسا”.
ز) تنوع املايي بعضي كلمات كه همه درست هستند ، مثل “اتاق” و “اطاق”.
ح) استفاده از كلمات اروپايي بصورت زبان اصلي يا ترجمه فارسي بخصوص در متون علمي ، مثل “Update” و “بروزآوري”.
ط) استفاده يا عدم استفاده از جمع مكسر براي بعضي كلمات.
ي) تبديل كلمات اروپايي به رسم الخط فارسي با همان تلفظ اصلي ، مثل “Source” و “سورس”.
ك) استفاده از “ا” و “آ” بجاي هم ، مثل “فرايند” و “فرآيند”.
ل) استفاده يا عدم استفاده از اعراب براي كلمات .
بعبارت ديگر ، يك كاربر ممكن است در جستجوي خود در وب ، كلمه كليدي خاصي را بكار برد ، ليكن در صفحات وب چنين كلمه اي بكار نرفته باشد و با توجه به مواردي كه در مورد تنوع كاربري كلمات ، بحث شد ،كلمه مشابهي ثبت شده باشد. بنابراين بسياري از صفحات وب مطلوب كاربر ، در مجموعه بازيابي شده ، وجود نداشته باشد.
خصوصيات وب هاي فارسي از نظر زبان
•آوریل 27, 2008 • یک نظر بنویسید
عدم وجود يك استاندارد و شناور بودن ويژگيهاي رسم الخط و مفاهيم در زبان فارسي ، موجب گرديده است تا تقريبا بتعداد صفحات وب فارسي ، سبك و سياق نگارش اين زبان بكار رفته باشد. ليكن خصوصيات مشترك اكثر وبهاي فارسي زبان را مي توان چنين ارزيابي نمود :
الف) نگارش برخي از وب هاي فارسي ، زبان غيررسمي يا محاورهاي است.
ب) در وبهاي فارسي ، بخصوص در متون علمي ، اغلب واژههاي بيگانه ، بكرات استفاده ميشود كه بعضي از آنها بارسم الخط زبان اصلي نوشته ميشوند.
ج) رسمالخط وب هاي فارسي ، اصولا غيراستاندارد و متغير است و اغلب در معرض نوآوري است.
ه) نوشتههاي وبهاي فارسي ، حاوي غلطهاي تايپي و نگارشي نسبتاً زيادي است، هرچند كه اغلب وبهاي فارسي مهم و پرخواننده، نگارش قابلقبولي دارند.
و) رسمالخط وبهاي فارسي، تابع محدوديتهاي محيط الكترونيكي و عدم تطبيق آن با الزامات خط فارسي است.]اشرف زاده،1383[ابزارهاي جستجو در وب هاي فارسي
در حال حاضر ابزارهاي كاوش مختلفي در ايران ظهور پيدا كرده اند.ليكن ابزارهاي جستجويي كه امكان جستجوي اطلاعات به زبان فارسي را در اختيار قرار مي دهند ، محدودند. از طرف ديگر ، امكانات و قابليتهاي آن ها براي بازيابي موثر و مناسب اطلاعات متغير هستند. برخي از ابزارهاي كاوش با امكانات جستجوي فارسي عبارتند از NPiran ، Iranhoo ، IranMehre ، Parseek ، Google و Parseek .بجز سايت NPIran ، ديگر سايتها داراي واسط جستجوي فارسي هستند و بجز Parseek ، هيچيك از ابزارهاي موجود كاوش فارسي ، چالش هاي زبان فارسي را با هدف بهينه سازي كاوش فارسي ، فراروي خود قرار نداده اند و Parseek نيز تنها مشكل كاراكترهاي فارسي با يونيكدهاي مختلف را حل نموده است.
|
رديف |
نام ابزار كاوش با واسط جستجوي فارسي |
نشاني دسترسي |
|
1 |
|
www.google.com/webhp?hl=fa |
|
2 |
IranClick |
www.iranclick.com |
|
3 |
Iranhoo |
www.iranhoo.com |
|
4 |
IranMehr |
www.iranmehr.com |
|
5 |
Open Directory |
http://dmoz.org/World/Farsi |
|
6 |
Parseek |
www.parseek.com |
جدول (1) شش ابزار كاوش برگزيده با واسط جستجوي فارسي همراه با نشاني آنها.
در بين ابزارهاي كاوش فوق ، تنها موتور كاوش Google داراي برنامه روبات به منظور شناسايي و نمايه سازي صفحات يا سايتهاي وب به زبان فارسي و نمايه سازي خودكار مي باشد و قادر است صفحات فارسي را در قالب Unicode شناسايي و در پايگاه خود نمايه كند و سايت Parseek نيز از پايگاه Google براي جستجو و بازيابي اطلاعات استفاده مي كند. به تعبير ديگر، 4 ابزار كاوش ديگر توسط نمايه سازي انساني اداره مي شوند و از اين لحاظ راهنماي موضوعي تلقي مي شوند. ابزارهاي كاوش ديگر ، راهنماي موضوعي به شمار مي آيند و انسان ، فرايند شناسايي، بررسي و نمايه سازي سايتها يا صفحات وب را بر عهده دارد.]كوشا،1381[
بنظر مي رسد جاي يك ابزار كاوش قوي ملي ، تحت نظارت سازمان هاي انفورماتيكي و انجن هاي زبان شناسي فارسي ، منطبق با نيازهاي اطلاعاتي كاربران اينترنت در ايران وبا در نظر گرفتن چالش هاي رسم الخط و مفهومي فارسي و مرتفع سازي مشكلات ناشي از آن ها خالي است.
محتوا کاوی وب
•آوریل 27, 2008 • یک نظر بنویسیدمحتواكاوي وب(Web Content Mining) ، يكي از سه شاخه وب كاوي است كه در واقع ، كشف اطلاعات مفيد از مستندات و داده هاي ساختيافته و نيمه ساختيافته و غير ساختيافته وب مي باشد. يك شاخه ديگر اين مقوله ، ساختاركاوي وب(Web Structure Mining) است كه به كشف مدل پشت زمينه حاكم بر ساختار فرا پيوند هاي وب مي پردازد و هدف آن ، ايجاد اطلاعاتي همچون تشابه يا ارتباط بين سايت هاي مختلف وب است. شاخه ديگر آن كاربرد كاوي وب مي باشد كه سعي مي كند از تعاملات كاربربا وب ، اطلاعاتي كسب كند و از آن ها بصورت سابقه اي در مراجعات بعدي كاربر سود ببرد.
در زمينه محتواكاوي وب نرم افزارهاي خزنده(Crawler) ، به گشت و گذار در اقيانوس وب پرداخته ، اقدام به نمايه سازي واژگان در پايگاه داده خود مي نمايند كه مورد استفاده موتورهاي كاوش ، در زمان جستجوهاي كاربر قرار مي گيرد. نمونه بارز اين روش ، موتور كاوشگر Google است. .[Chakrabarti,1999]
در همين راستا ابزارهايي همچون FASTUS:Finite-State Automaton Text Understanding System ، در خلال اين ماموريت به تجزيه و تحليل متون ، با هدف كشف گروه هاي مختلف واژگان مانند اسامي ، افعال ، تركيبات وصفي و اضافي ،… مي پردازند كه به كشف دانش از محتويات وب كمك مي كند. اين روش هم اكنون براي زبان هاي انگليسي و ژاپني پياده سازي شده است وبصورت بالقوه براي ديگر زبان ها قابل استفاده است. [Feiyu,2001]
از طرف ديگر استفاده از آنتولوژي(Ontology) در وب در بهينه سازي كاوش در وب پيشنهاد مي گردد. آنتولوژي ، يك فرهنگ واژگان مشترك بر اساس موضوع سايت براي استاندارد سازي ارائه مفاهيم آن جهت قابل تفسير شدن توسط ماشين ، تعريف مي كند. آنتولوژي ، يك جزء كليدي وب مفهومي(Semantic Web) است. [Heflin,2000]
شخصي كردن وب(Personalization) ، از ديگر روش هاست كه در امر كاوش وب مثمر ثمر است. نمونه اين روش در My Yahoo قابل مشاهده است.
يكي ديگر از راه هاي كاوش در مقدار زياد و غير ساختيافته اطلاعات وب ، استفاده از پايگاه داده چند لايه اي (MLDB) است. هر لايه از اين پايگاه داده ، تعميم بيشتري از لايه قبلي است. همه لايه ها بجز پايين ترين لايه (كه خود وب است) ، قابل كاوش توسط يك زبان پرس وجو مثل SQL است. [Osmar,2002]
در پياده سازي روش هاي ساختاركاوي وب ، از تئوري گراف وب بهره مند خواهيم شد كه به ايجاد ديد ارزشمند در الگوريتم هاي جستجو ، كشف ارتباطات ،… موثر است.
در خصوص روش هاي كاربرد كاوي وب ، ناوبري كاربر در وب توسط مدل هاي رياضي ماركو(Markov) ، براساس ميزان تجربه كاربر و دارا بودن يا عدم داشتن راهنماي سايت ، تجزيه و تحليل مي گردد. [Velasquez,2003]
جستجوی وب
•آوریل 27, 2008 • یک نظر بنویسیداز آنجاييکه واسط هاي پرس و جو مرسوم در مستندات ايندکس گذاري شده توسط کلماتي که در آن ها ظاهر مي شوند متمرکز مي کنند , پتانسيل بهره برداري اطلاعات شامل ابر پيوند هايي مي شوند که به صفحه اي که در ابتدا تشخيص داده شده اند اشاره مي کند .
متن هاي ارجاعي صفحات ماقبل پيش از اين توسط کرم وب جهاني , يکي از اولين موتورهاي جستجو و خزنده وب .
اسپرتاس يک طبقه بندي نوع هاي مختلف ابر پيوند ها را معرفي کرد که مي تواند در وب پيدا شود
چگونه پيوند ها مي توان از اطلاعات مختلف تکليف هاي وابسته در وب بهره برداري کرد
راه ميانبر اصلي ادراک بود که محبوبيت و بنابراين اهميت صفحه تا حدي با تعداد پيوندهاي وارده مرتبط مي شود , آن هم اين اطلاعات مي تواند به طور سودمند مرتب کردن نتايج پرس و جو موتور جستجو استفاده شود.
درجه وارده به تنهايي ,اگر چه , اندازه خيلي کم از اهميت است اما صفحات زيادي متناوباً اشاره مي شوند بدون اينکه به محتوي صفحه اشاره شده ارتباط برقرار شود.
لينبرگ پيشنهاد کرد که دو نوع از صفحات هستند که مي تواند براي يک پرس و جو مناسب باشد :
منبع هاي صحيح و موثق (authorities) صفحاتي هستند که شامل اطلاعات مفيد درباره عنوان پرس و جوها مي شود
در حالي که هاب ها شامل اشاره گرهايي به منابع اطلاعات خوب است .
هر دو نوع از صفحات به طور اختياري وصل مي شوند: هاب هاي خوب شامل شامل اشاره گرهايي به منبع هاي صحيح و موثق خيلي خوبي است , و منبع هاي صحيح و موثق خوب توسط هاب هاي خيلي خوبي اشاره مي شوند
کلينبرگ پيشنهاد استفاده آزمايشي کردن از اين ارتباط را توسط وابسته کردن هر صفحه x به يک منبع هاب H(x) و يک منبع صحيح و موثق A(x) کرد , که به طور تکرار کننده محاسبه مي شود
در اينجا (x,y) به معني اين است که يک پيوند از صفحه x به صفحه y وجود دارد. اين محاسبات به باصطلاح زيرگراف متمرکز شده وب هدايت مي شود , که توسط افزودن نتيجه جستجو پرس و جو هاي مرسوم با تمام صفحات ماقبل و مابعد فراهم مي شود
درجه هاي هاب و منبع هاي موثق وصحيح به طور يکسان با A0(x)=H0(x)=1.0 مقدار دهي اوليه و طبيعي مي شود بدين منظور آن ها قبل از هر تکرار با يک جمع مي شوند
گراف وب
•آوریل 27, 2008 • یک نظر بنویسیدوب ممکن است به عنوان يک گراف ( مستقيم) با مستندات به عنوان گره ها و ابرپيوند ها به عنوان لبه ها مشاهده شوند
درجه هاي وارده ( تعداد پيوندهاي ورودي ) و درجه هاي خارجه ( تعداد پيوند هاي خروجي ) از پخش قانون قدرت پيروي مي کنند .
مقدار 2.45 =inγ : درجه هاي وارده
مقدار= 2.1 outγ : درجه های خارجه
داده ها را از جستجو در آلتاويستا ( سايت جستجو) با 2003 ميليون URL و 1466 ميليون لينک , و ساختار گراف زيرين را در يک سرور اتصال ذخيره کردند , که يک مستند کارامد تکنيک ايندکس گذاري را پياده سازي مي کند
اجازه دسترسي سريع به ابر پيوند صادر شونده و هم وارد شونده يک صفحه را مي دهد.
گراف داخلي GB 9.5 از حافظه را پر کرد , و يک جستجوي سطح اول که به 100 ميليون گره رسيد در حدود 4 دقيقه طول کشيد.
نتيجه اصلي شان يک تحليل از ساختار گراف وب است که بر طبق آن ها , بند قوس بزرگ , با يک قطعه هسته وصل شده قوي (SCC) 56 ميليون صفحه در وسط , و دو قطعه با 44 ميليون صفحه در تمام کنارها, يکي شامل صفحاتي است که SCC مي تواند برسد ( بخش داخلي )
ديگري شامل صفحاتي است که از SCC مي تواند برسد( بخش خارجي
لوله هايي وجود دارد که رسيدن به بخش خارجي از بخش داخلي بدون پاس کردن از طريق SCC را اجازه مي دهد , و پيچک هاي بسياري , که به خارج از مجموعه داخلي يا داخل مجموعه خارجي بدون ارتباط با اجزاهاي ديگر هدايت مي کند.
چندين مجموعه هاي کوچکتر وجود دارد که نمي تواند از هر نقطه اي در اين ساختار رسيده شود.
کروکي يک نمودار از اين ساختار , که گاهي اوقات فريبنده است به خاطر اينکه نقش برجسته بخش داخلي , خارجي , و SCC فقط بر پايه اندازه پايه گذاري مي شود
ساختار هاي ديگري با يک شکل مشابه وجود دارد , اما قدري کوچکتر از اندازه هستند ( يعني , لوله ها ممکن است شامل اجزاء شديداَ متصل ديگر شوند که با SCC فقط در اندازه فرق دارند)
نتيجه اصلي اين است که چندين اجزاء گسسته وجود دارد. در حقيقت , يک منطقه ميان دو صفحه به طور تصادفي انتخاب شده وجود داشته باشد فقط حدود 0.24 است
احتمال اينکه يک صفحه توسط موتور جستجو A ايندکس گذاري شود مستقل است از احتمال اينکه همان صفحه توسط موتور جستجو B ايندکس گذاري شود
درصد صفحات در مجموعه نتيجه يک پرس و جو براي موتور جستجو B که همچنين توسط موتور جستجو A ايندکس گذاري مي شود مي تواند روي همرفته به عنوان يک تخمين براي ذرصد صفحات ايندکس گذاري شده توسط A استفاده شود.
