سافت گذر دانشنامه نرم افزار - دانلود رایگان نرم افزار

همه دسته بندی ها

منو
جستجو
اطلاعیه های مهم سایت اطلاعیه های مهم سایت
💐 میلاد زینت پدر حضرت زینب سلام الله علیها مبارک باد 💐
 
 
  1. جهت رفع مشکل باز شدن سایت به دلیل بلاک توسط  نود 32 این ویدیو یا این ویدیو(ورژن 9 به بالا) یا راهنمای تصویری را مشاهده کنید
  2. اکانت های بروزرسانی نود32 با قیمت های مناسب به صورت یک ، سه ، شش و دوازده ماهه از اینجا قابل خرید می باشد.

نرم افزار های پرکاربرد

ثبت نام | ورود

اخبار آموزشی

چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟

ویکی‌پدیا بزرگ‌ترین دانشنامه‌ی مردمی دنیا است که همگی با آن آشنا هستیم. در این مقاله، به آموزش ابزار Mixnode و نحوه‌ی استخراج و تحلیل مقالات ویکی‌پدیا می‌پردازیم.
چگونه اطلاعات ویکی پدیا را استخراج و تحلیل کنیم؟
غنای اطلاعات ویکی‌پدیا بر هیچ‌کس پوشیده نیست. از دریای اطلاعات این وبسایت می‌توان برای تحقیق‌های تجاری و غیرتجاری و تقریبا در هر زمینه‌ای بهره برد. شرکت‌ها، محققان، دانشمندان داده و حتی افراد صرفا کنجکاو، همه‌وهمه درزمره‌ی افرادی قرار می‌گیرند که سعی می‌کنند داده‌های ویکی‌پدیا را استخراج و تحلیل کنند.

ویکی‌پدیا به‌مثابه‌ی گنجینه‌ای است که از مجموعه‌ای از صدهامیلیون صفحه‌ی وب و میلیون‌ها مقاله‌ی وزین چندزبانه تشکیل شده‌ است. این امر ویکی‌پدیا را به بهشت خزندگان وب (Web Crawler) تبدیل کرده‌ است. با جست‌وجویی ساده در گیت‌هاب، متوجه می‌شوید بیش از سیصد خزنده‌ی وب و پروژه‌های مشابه برای استخراج داده از ویکی‌پدیا وجود دارد.

وب‌کراولینگ، تنها راه موجود برای استخراج و تحلیل داده‌های ویکی‌پدیا نیست. برای مثال، ویکی‌مدیا اجازه‌ی استخراج داده‌ها در فرمت‌های متنوعی را می‌دهد. همچنین، API ویکی‌مدیا نه‌تنها برای دریافت اطلاعات، بلکه برای ایجاد بات‌ها و تعامل با مقالات به‌طور برنامه‌نویسی‌شده استفاده می‌شود.

در آموزش زیر، روی ابزار Mixnode تمرکز می‌کنیم که استخراج و تحلیل داده‌ها از ویکی‌پدیا با استفاده از کوئری‌های SQL را فراهم می‌آورد. برای استفاده از این ابزار باید با SQL آشنا باشید.

Mixnode چگونه کار می‌کند؟
Mixnode اجازه می‌دهد با وب مانند پایگاه داده برخورد کنید. با استفاده از Mixnode می‌توانید کوئری بنویسید و آن را روی وب اجرا کنید. با اجرای کوئری مدنظر Mixnode به‌طور خودکار صفحات لازم برای پاسخ به کوئری را پیدا می‌کند.

مثال‌های زیر نحوه‌ی کارکرد Mixnode و استخراج و تحلیل داده‌‌ها را شفاف‌تر می‌کند.

مثال ۱: به‌دست‌آوردن آدرس تمامی صفحات ویکی‌پدیا
select 
    url
from 
    pages
where 
    url_domain = 'wikipedia.org' 
متغیر url نمایانگر آدرس صفحه است
pages جدولی است که هر ردیف آن مطابق با صفحه‌ی منحصربه‌فرد در وب است
با url_domain = 'wikipedia.org' مطمئن می‌شویم که فقط صفحات ویکی‌پدیا و ساب‌دامین‌های آن (مانند en.wikipedia.org) مدنظر قرار می‌گیرند. اگر بخواهید فقط در ویکی‌پدیای فارسی جست‌وجو کنید، کافی است عبارت fa.wikipedia.org را جایگزین کنید.
مثال ۲: به‌دست‌آوردن آدرس و عنوان تمامی مقالات ویکی‌پدیا
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
css_text_first(content, 'h1#firstHeading') عنوان مقاله‌ی ویکی‌پدیا را خروجی می‌دهد. با نگاهی به سورس HTML مقالات ویکی‌پدیا، پی می‌بریم h1#firstHeading مسیر CSS برای عنوان مقاله است. css_text_first نیز تابعی است که اجازه‌ی استخراج اولین مورد از انتخابگر CSS را می‌دهد. content در اینجا سورس کامل HTML صفحه است.

ازآنجایی‌که قصد داریم عناوین مقالات را به‌دست آوریم و می‌دانیم در آدرس مقالات ویکی‌پدیا از /wiki/ استفاده می‌شود، از url like '%/wiki/%' استفاده می‌کنیم تا مطمئن شویم نتایجمان فقط به مقالات مربوط‌ می‌شود.
مثال ۳: به‌دست‌آوردن عناوین تمامی مقالات شامل زیررشته‌ی Elon Musk
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains(content, 'Elon Musk')
contains() تابعی است که اجازه‌ی بررسی وجود یک زیررشته در یک رشته را می‌دهد. با استفاده از contains(content, 'elon musk') مطمئن می‌شویم که در نتایجمان عبارت Elon Musk موجود است.
مثال ۴: مرتب‌سازی مقالات ویکی‌پدیا براساس تعداد ارجاعات
select 
    url, 
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(css_text(content, 'ol.references li')) as reference_count
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by reference_count desc
بررسی کد منبع یک مقاله‌ی ویکی‌پدیا نشان می‌دهد تمامی ارجاعات و منابع با انتخابگر ol.references قابل‌دسترسی است. css_text(content, 'ol.references li') متن تمامی منابع مقاله را به ما می‌دهد و ازآنجایی‌که فقط به تعداد نیاز داریم، پس از تابع cardinality() استفاده می‌کنیم که اندازه‌ی یک آرایه را برمی‌گرداند. desc در خط آخر مقالات را به‌صورت نزولی برایمان مرتب می‌کند. برای مرتب‌سازی به‌صورت صعودی از asc استفاده کنید.
مثال ۵: مرتب‌سازی مقالات ویکی‌پدیا براساس طول مقاله
select
    url,
    css_text_first(content, 'h1#firstHeading') as title,
    cardinality(words(css_text_first(content, '#content'))) as article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
order by article_length desc
words() آرایه‌ای شامل تمامی کلمات یک متن را برمی‌گرداند. استفاده از cardinality(words(css_text_first(content, '#content'))) as article_length، تعداد کلمات یک مقاله را به ما می‌دهد.
مثال ۶: اندازه‌ی میانگین یک مقاله‌ی ویکی‌پدیا
select
    avg(cardinality(words(css_text_first(content, '#content')))) as average_article_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
تابع avg() میانگین داده‌های ورودی‌اش را برمی‌گرداند که در اینجا، تعداد کلمات تمامی مقالات ویکی‌پدیاست.
مثال ۷: مرتب‌سازی مقالات ویکی‌پدیا براساس بحث‌های آن
select
    url,
    remove_left(css_text_first(content, 'h1#firstHeading'), 'Talk:') as title,
    cardinality(words(css_text_first(content, '#content'))) as discussion_length
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/Talk:%'
order by discussion_length desc
مباحث درباره‌ی یک مطلب در آدرسی مشابه /wiki/Talk: قرار دارند؛ به‌همین‌دلیل از این عبارت استفاده می‌کنیم.
مثال ۸: پیداکردن تمامی مقالات ویکی‌پدیا که لینکی به zoomit.ir دارند
select
    url,
    css_text_first(content, 'h1#firstHeading') as title
from 
    pages
where 
    url_domain = 'wikipedia.org' 
    and
    url like '%/wiki/%'
    and
    contains_any(content, array['href="https://www.zoomit.ir', 'href="http://www.zoomit.ir', 'href="https://zoomit.ir', 'href="http://zoomit.ir'])

نظرتان را ثبت کنید کد خبر: 43666 گروه خبری: اخبار آموزشی منبع خبر: زومیت تاریخ خبر: 1397/09/19 تعداد مشاهده: 2187
اخبار مرتبط با این خبر
نظر های کاربران
سرور آپدیت نود 32
پیشنهاد سافت گذر
Pluralsight - C# Fundamentals with C# 5.0

Pluralsight - C# Fundamentals with C# 5.0

فیلم آموزش اصول بنیادی سی‌شارپ، با سی‌شارپ 5.0

Perfectly Clear Video 4.6.1.2701

Perfectly Clear Video 4.6.1.2701

بالا بردن کیفیت فیلم با هوش مصنوعی

Poppy Playtime (All 4 Chapters)

Poppy Playtime (All 4 Chapters)

پاپی پلی تایم

Autodesk AutoCAD Civil 3D 2016 SP1 x64

Autodesk AutoCAD Civil 3D 2016 SP1 x64

نرم افزار اتوکد ویژه عمران و شهر سازی

Acronis Backup & Recovery 11.0.17217 Advanced Server Virtual Edition with Universal Restore and Deduplication + BootCD 11.0.17440

Acronis Backup & Recovery 11.0.17217 Advanced Server Virtual Edition with Universal Restore and Deduplication + BootCD 11.0.17440

اکرونیس بکاپ ریکاوری

The Testament of Sherlock Holmes + Update 1.01

The Testament of Sherlock Holmes + Update 1.01

وصیت‌نامه‌ی شرلوک هلمز

نگاهی به تاریخ معاصر جهان یا بحران‌های عصر ما

نگاهی به تاریخ معاصر جهان یا بحران‌های عصر ما

نگاهی به تاریخ معاصر جهان اثر محمود حکیمی

Atlantis Word Processor 4.4.3.8

Atlantis Word Processor 4.4.3.8

پردازشگر متن

جدید ترین مولودی های ویژه ولادت حضرت علی اکبر

جدید ترین مولودی های ویژه ولادت حضرت علی اکبر

مولودی روز جوان

سیستم عامل لینوکس را خوب یاد بگیریم

سیستم عامل لینوکس را خوب یاد بگیریم

آموزش ابونتو

Template Monster Series 1-30000 / 33000-36000

Template Monster Series 1-30000 / 33000-36000

کاملترین مجموعه قالب های آماده سایت شرکت تمپلیت مانستر

روزنامه ملا جلال منجم

روزنامه ملا جلال منجم

وقایع دربار شاه عباس صفوی

MTX MotoTrax

MTX MotoTrax

انجام حرکات نمایشی و موتورسواری حرفه ای با موتورهای پرشی

SpeedFan 4.52 Final

SpeedFan 4.52 Final

نرم افزار کنترل و مشاهده سرعت فن و سخت افزار

تلگرام فارسی (غیر رسمی) نسخه 3.10.3 برای اندروید 2.3+

تلگرام فارسی (غیر رسمی) نسخه 3.10.3 برای اندروید 2.3+

تلگرام فارسی

Principles of Marketing - 15th Edition

Principles of Marketing - 15th Edition

اصول بازاریابی

Fall of the Titanic

Fall of the Titanic

کشتی تایتانیک

مجله تخصصی برای علاقه مندان به اسب سواری و سوارکاری

مجله تخصصی برای علاقه مندان به اسب سواری و سوارکاری

مجله Horse Illustrated می 2019

Jurassic World: Fallen Kingdom 2018

Jurassic World: Fallen Kingdom 2018

دنیای ژوراسیک سقوط پادشاهی

آموزش ویندوزفون

آموزش ویندوزفون

Windows Phone

توصیه حضرت رضا (ع) برای روزهای پایانی ماه شعبان و وداع با ماه شعبان

توصیه حضرت رضا (ع) برای روزهای پایانی ماه شعبان و وداع با ماه شعبان

دعاى شب آخر شعبان و شب اول رمضان

nLite 1.4.9.3

nLite 1.4.9.3

بهترین برنامه برای ساخت سی دی ویندوز سفارشی

BugsBunny and Taz TimeBusters

BugsBunny and Taz TimeBusters

بانی خرگوشه و تاز نسخه ی TimeBusters

Technical Analysis and Fundamental Analysis

Technical Analysis and Fundamental Analysis

تحلیل تکنیکال و تحلیل بنیادی

Astray

Astray

سرگردان

سخنرانی حجت الاسلام انصاریان با موضوع حقانیت امام علی(ع)

سخنرانی حجت الاسلام انصاریان با موضوع حقانیت امام علی(ع)

حاج آقا انصاریان با موضوع حقانیت امام علی(ع)

برندا شیفر مأمور اسرائیل برای تجزیه ایران کیست؟

برندا شیفر مأمور اسرائیل برای تجزیه ایران کیست؟

Brenda Shaffer

Aiseesoft 3D Converter 6.5.20

Aiseesoft 3D Converter 6.5.20

تبدیل فیلم دو بعدی به سه بعدی

Brink of Extinction

Brink of Extinction

اکشن استراتژیک

WRC 9 FIA World Rally Championship

WRC 9 FIA World Rally Championship

ماشین مسابقه‌ای برای کامپیوتر

Windows 8.1 Pro/Enterprise January 2023

Windows 8.1 Pro/Enterprise January 2023

ویندوز 8.1

Winxvideo AI 3.9.0 (x64)

Winxvideo AI 3.9.0 (x64)

ویرایش ویدئو

Mozilla Thunderbird 133.0 Win/Mac/Linux + Portable

Mozilla Thunderbird 133.0 Win/Mac/Linux + Portable

موزیلا تاندربرد مدیریت ایمیل

AMIDuOS 2 Lollipop Pro 2.0.8.8511 x86/x64

AMIDuOS 2 Lollipop Pro 2.0.8.8511 x86/x64

شبیه ساز اندروید امیدو او اس لالی پاپ

Risk of Rain v1.3.0

Risk of Rain v1.3.0

خطر بارش

تحریم های آمریکا و ورزش

تحریم های آمریکا و ورزش

آثار تحریم‌های آمریکا بر ورزش جمهوری اسلامی ایران

عزیز زهرا ( سرود و آهنگ برای امام زمان ) - بخش دوم

عزیز زهرا ( سرود و آهنگ برای امام زمان ) - بخش دوم

نواهایی برای امام زمان

Lynda - llustrator CC 2018 One-on-One - Fundamentals

Lynda - llustrator CC 2018 One-on-One - Fundamentals

آموزش ایلوستریتور

Take Off - The Flight Simulator

Take Off - The Flight Simulator

شبیه ساز هواپیما

Driver San Francisco + Update 1.04

Driver San Francisco + Update 1.04

درایور سانفرانسیسکو

خبرنامه

با عضویت در خبرنامه، زودتر از همه باخبر باش!