بهینه‌سازی آشفتگی اسامی نویسندگان مقالات فارسی با استفاده از روش جنگل تصادفی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 عضو هیات علمی مرکز منطقه ای

2 هیات علمی مرکز منطقه ای اطلاع رسانی

10.22070/rsci.2021.13393.1449

چکیده

هدف: ارائه چارچوبی جهت حل مشکل آشفتگی و پراکندگی اسامی نویسندگان در مقالات فارسی که منجر به گسیختگی و فقدان جامعیت در بازیابی اطلاعات شده است.
روش‌شناسی: پژوهش حاضر از نوع کاربردی علم‌سنجی است که به روش اسنادی انجام شده است. جامعه آماری را از 913 رکورد از نام نویسندگان مقالات فارسی برگرفته از پایگاه استنادی علوم جهان اسلام، طی بازه زمانی 1395 تا 1397 تشکیل می-دهد. چارچوب پیشنهادی از سه مرحله جستجو، تطابق و گروه‌بندی تشکیل شده است. در این راستا، بعد از پیش‌پردازش اولیه و استخراج ویژگی، عملیات جستجو با هدف یافتن رکوردهایی که بالقوه احتمال یکسان بودن آنها وجود دارد، انجام و سپس رکوردهای یکسان از طریق بررسی‌های بیشتر در مرحله تطابق که مبتنی بر جنگل تصادفی است، یافت می‌شود.
یافته‌ها: ویژگی‌های پست الکترونیک، نام خانوادگی و نام از مهمترین ویژگی‌ها برای بهینه‌سازی آشفتگی نگارش اسامی هستند. استفاده از جنگل تصادفی به عنوان طبقه‌بند در مرحله تطابق، با دقت بالای 99 درصد می‌تواند مشکل آشفتگی نگارش اسامی نویسندگان را برطرف نماید.
نتیجه‌گیری: نتایج نشان از کارایی بالای این روش در یکدست‌سازی اسامی با توجه به معیارهای دقت، بازیافت و مقدار اف نسبت به طبقه بندهای بردار پشتیبان، نزدیکترین همسایه و ژنتیک دارد.

کلیدواژه‌ها


عنوان مقاله [English]

Optimizing Confusion of Authors’ Names in Persian Articles Using Random Forest Algorithm

نویسندگان [English]

  • nilofar mozafari 1
  • narjes Vara 2
1 Faculty Member Ricest
2 Faculty Member RICeST
چکیده [English]

Provide a framework to solve the problem of confusion and dispersion of authors' names in Persian articles, which has led to rupture and lack of comprehensiveness in information retrieval.present Research is an applied scientometrics method that is carried out by documentary procedure and the required data is collected from the ISC. The initial statistical population is 913 record during the period 1395 to 1397. The proposed framework consists of three stages: search, matching and grouping. In this regard, after initial pre-processing and feature extraction, the search operation is performed with the aim of finding records that are potentially likely to be identical. The same records are then found through further investigation in the adaptation phase, which is based on random forest.
Finding: Email address, last name and first name are the most important features to optimize name writing confusion. Using a random forest as a classifier in matching phase, with an accuracy of over 99%, can solve the problem of confusion in writing the names of authors. Results show the high efficiency of this method in uniformity of names according to the criteria of accuracy, recall and F value compared to the support vector machine, the nearest neighbor and genetics.

کلیدواژه‌ها [English]

  • Name ambiguity
  • Article authors Persian articles
  • Random forest algorithm
  • Name Authority
  • soundex algorithm