سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
جستجو
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. ولادت با سعادت پنجمین امام شیعیان، حضرت امام محمد باقر (علیه السلام)، این چشمه جوشان علم و معرفت، این معدن فضیلت و کرامت را به همه دوستداران اهل بیت (علیهم السلام) تبریک و تهنیت عرض می‌نماییم.
  2. سافت گذر لباس نو به تن کرده😍
  3. 🔰جایگزین مناسب Kaspersky خرید لایسنس نود 32
  4. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  5. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2118
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
Pluralsight - TypeScript Fundamentals

Pluralsight - TypeScript Fundamentals

فیلم آموزش اصول استفاده از تایپ‌اسکریپت

ABBYY Lingvo X6 Professional 16.2.2.133

ABBYY Lingvo X6 Professional 16.2.2.133

پیشرفته ترین فرهنگ لغت 19 زبانه با تکیه بر زبان روسی

The Age of Decadence + Update 1-2

The Age of Decadence + Update 1-2

عصر انحطاط

سخنرانی حجت الاسلام عزیزالله رزاقی با موضوع طول عمر امام زمان (عج) - 2 جلسه

سخنرانی حجت الاسلام عزیزالله رزاقی با موضوع طول عمر امام زمان (عج) - 2 جلسه

سخنرانی طول عمر امام زمان (عج) با عزیزالله رزاقی

طرح توجیهی چیست؟

طرح توجیهی چیست؟

ایده های موفق کسب و کار

مدفن امیرالمؤمنین(ع)

مدفن امیرالمؤمنین(ع)

فرحة الغری فی تعیین قبر امیر المؤمنین ترجمه علامه مجلسی

Pluralsight - SQL Server 2012 Querying (70-461) Part 1 / 2

Pluralsight - SQL Server 2012 Querying (70-461) Part 1 / 2

مجموعه‌ی 2 دوره آموزش تصویری مباحث اِس‌کیواِل سِـروِر 2012 کُـوِرینگ – آزمون 70-461 مایکروسافت

هویت ایرانیِ

هویت ایرانیِ

عصر هخامنشی

Pluralsight - Design Patterns in Java - Structural

Pluralsight - Design Patterns in Java - Structural

فیلم آموزش الگوهای طراحی ساختاری در جاوا

Infiniteskills - Learning AutoCAD Electrical 2014 Training DVD + Working Files

Infiniteskills - Learning AutoCAD Electrical 2014 Training DVD + Working Files

فیلم آموزش اتوکد الکتریکال 2014

آموزش جامع شیرپوینت

آموزش جامع شیرپوینت

Learning SharePoint

سخنرانی حجت الاسلام ناصر رفیعی با موضوع آداب زیارت

سخنرانی حجت الاسلام ناصر رفیعی با موضوع آداب زیارت

سخنرانی آداب زیارت از ولایت با ناصر رفیعی

Airport Mania First Flight

Airport Mania First Flight

مدیریت فرودگاه مانیا

Diamond Cut Audio Restoration Tools 11.02

Diamond Cut Audio Restoration Tools 11.02

ارتقای کیفیت صدای فایل های صوتی ضبط شده یا قدیمی

مداحی حاج سید مجید بنی فاطمه سال 97 در ماه صفر

مداحی حاج سید مجید بنی فاطمه سال 97 در ماه صفر

مداحی بنی فاطمه سال 97 صفر

Rayman Jungle Run 2.4.3 for Android +2.3

Rayman Jungle Run 2.4.3 for Android +2.3

ریمن: فرار در جنگل

ImgBurn 2.5.8.0

ImgBurn 2.5.8.0

نرم افزار ایمیج و رایت CD و DVD

آشنایی با معارف اسلامی

آشنایی با معارف اسلامی

کلیات علوم اسلامی 2

Java SE Runtime Environment (JRE) 8.0 Update 431 / 7.0 Update 80

Java SE Runtime Environment (JRE) 8.0 Update 431 / 7.0 Update 80

موتور اجرایی جاوا ران تایم

پیام های بهار از حجت الاسلام والمسلمین علی نظری منفرد

پیام های بهار از حجت الاسلام والمسلمین علی نظری منفرد

حاج آقا علی نظری منفرد با موضوع پیام های بهار

SolveigMM Video Editing SDK 4.2.1810.08 (x64)

SolveigMM Video Editing SDK 4.2.1810.08 (x64)

ساخت نرم‌افزار مخصوص ویرایش ویدئو و صوت

Print Artist Platinum 25.0.0.15

Print Artist Platinum 25.0.0.15

پرینت حرفه ای

Udemy - The Complete Python Bootcamp From Zero to Hero in Python

Udemy - The Complete Python Bootcamp From Zero to Hero in Python

دوره آموزش کامل پایتون

Spanish Lullaby - Montmartre Strings

Spanish Lullaby - Montmartre Strings

لالایی اسپانیایی

Plaxis Professional 8.6 / 3D Tunnel 1.2 / 3D Foundation 1.6 + Portable 8.5

Plaxis Professional 8.6 / 3D Tunnel 1.2 / 3D Foundation 1.6 + Portable 8.5

مهمترین نرم افزار های رشته مهندسی ژئوتکنیک (خاک و پی) جهت تحلیل دو بعدی، تغییر شکل و پایداری سنگ و خاک

راهنمای Apache Web Server

راهنمای Apache Web Server

آموزش آپاچی وب سرور

IrfanView 4.66 Commercial

IrfanView 4.66 Commercial

ویرایشگر عکس ساده

Black NotePad 2.3.0.26

Black NotePad 2.3.0.26

ویرایشگر متن با تم تیره برای ویندوز

File Commander 10.0.52134 for Android +7.0

File Commander 10.0.52134 for Android +7.0

فایل منیجر کامندر

Directory Opus 13.4 Build 8838

Directory Opus 13.4 Build 8838

مدیریت فایل

سخنرانی زیبای حجت ااسلام ناصر رفیعی

سخنرانی زیبای حجت ااسلام ناصر رفیعی

ماه مبارک رمضان

سخنرانی آیت الله جوادی آملی با موضوع الزامات و ارکان اقتصاد مقاومتی

سخنرانی آیت الله جوادی آملی با موضوع الزامات و ارکان اقتصاد مقاومتی

سخنرانی آیت الله جوادی آملی با موضوع الزامات و ارکان اقتصاد مقاومتی

مولودی حاج محمود کریمی برای ولادت حضرت معصومه

مولودی حاج محمود کریمی برای ولادت حضرت معصومه

مولودی محمود کریمی برای روز دختر

موسیقی بی‌کلام بسیار زیبای آیوانهو با کیفیت بسیار عالی

موسیقی بی‌کلام بسیار زیبای آیوانهو با کیفیت بسیار عالی

آهنگ بیکلام زیبا

.A.V

.A.V

A V

House Flipper - Pets v1.22298

House Flipper - Pets v1.22298

بازسازی خانه برای کامپیوتر

آموزش تصویری کار با Active Directory

آموزش تصویری کار با Active Directory

آموزش اکتیو دایرکتوری

آموزش CATIA

آموزش CATIA

آموزش کتیا

FotoJet Designer 1.3.0

FotoJet Designer 1.3.0

طراحی گرافیکی و تبلیغاتی

آموزش ساده سیستم عامل اوبونتو

آموزش ساده سیستم عامل اوبونتو

آموزش اوبونتو

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!