چکیده:
یکی از مشکلات رایج شبکههای کامپیوتری حجم زیاد اطلاعات موجود در چنین شبکههایی است. در این بین، جستجو و اطلاع از محتوای اسناد متنی که گستردهترین نوع اطلاعات بر روی چنین شبکههایی هستند، بسیار مشکل و گاهی اوقات غیرممکن میباشد. هدف سیستمهای خلاصهسازی چند سندی متن، تولید کردن خلاصهای با طول ثابت از اسناد متنی ورودی ضمن پوشش حداکثری محتوای اسناد میباشد. مقالهی حاضر، روشی جدید برای خلاصهسازی اسناد متنی بر مبنای استفاده از روابط تفسیر و استلزام متنی و با فرمولهسازی مسأله در قالب یک مسألهی بهینهسازی ارائه کرده است. در این روش، جملههای درون اسناد ورودی ابتدا بر اساس رابطهی تفسیر متنی خوشهبندی شده سپس امتیاز استلزام متنی برای کسری از سرآیند خوشهها که دارای بیشترین امتیاز مرتبط با پرسوجوی کاربر هستند محاسبه شده و براساس آن امتیاز نهایی هر جمله به دست میآید. در نهایت، به کمک دو رویکرد حریصانه و برنامهریزی پویا مسألهی بهینهسازی حل شده و ضمن انتخاب بهترین جملهها، خلاصهی نهایی تولید میشود. نتایج اجرای سیستم پیشنهادی بر روی مجموعهدادههای استاندارد و انجام ارزایابی بر اساس سیستم ROUGE نشان میدهند که این سیستم کارایی بهترین سیستمهای خلاصهسازی استخراجی مبتنی بر پرسوجو را به صورت میانگین حداقل به میزان 5/2% بهبود داده است.
چکیده انگلیسی:
One of the most common problems with computer networks is the amount of information in these networks. Meanwhile searching and getting inform about content of textual document, as the most widespread forms of information on such networks, is difficult and sometimes impossible. The goal of multi-document textual summarization is to produce a pre-defined length summary from input textual documents while maximizing documents’ content coverage. This paper presents a new approach for textual document summarization based on paraphrasing and textual entailment relations and formulating the problem as an optimization problem. In this approach the sentences of input documents are clustered according to paraphrasing relation and then the entailment score and final score of a fraction of the header sentences of clusters which have the best score according to the user query is calculated. Finally, the optimization problem is solved via greedy and dynamic programming approaches and while selecting the best sentences, the final summary is generated. The results of implementing the proposed system on standard datasets and evaluation via ROUGE system show that the proposed system outperforms the state-of-the-art systems at least by 2.5% in average.
خبرنامه
برای ثبت نام در خبرنامه و دریافت خبرنامه ایمیل خود را وارد نمایید.