چکیده:
در پژوهش حاضر، اثر اندازه جمعیت مرجع و تعداد نشانگرهای چندشکلی تک نوکلئوتیدی (SNP) گمشده بر صحت مستندسازی (ایمپیوتیشن) مورد بررسی قرار گرفت. از نرمافزار QMSim برای ایجاد بانک اطلاعاتی مرجع به تعداد 1000 حیوان شبیهسازی شده استفاده شد. از دادههای مرجع دو دسته ایجاد شد: دسته اول (A) شامل ژنوتیپهای اصلی حاوی دادههای گمشده (تعداد 52 هزار نشانگر SNP) و دسته دوم (B) با خروج دادههای گمشده از مجموع دادهها (تعداد 37 هزار نشانگر SNP) ایجاد شد. در هر دو دسته، تعداد جمعیت مرجع با 100، 250، 500 و 750 حیوان شبیهسازی شد. تعداد نشانگرهای SNP حذف شده به طور تصادفی و با نسبتهای 15، 30، 55، 70 و 95 درصد در هر دو دسته شبیهسازی شد. بر اساس همبستگی بین ارزش نشانگرهای SNP اصلی قبل از حذف و ارزش آنها بعد از مستندسازی، صحت برآورد شد. نتایج مطالعه حاضر نشان داد که صحت مستندسازی تحت تأثیر اندازه جمعیت مرجع و تراکم نشانگرهای SNP گمشده قرار داشت. با افزایش اندازه جمعیت مرجع از 100 به 750 حیوان، متوسط صحت مستندسازی در هر دو دسته افزایش یافت. بیشترین میزان صحت برای جمعیت مرجع با 750 حیوان در دامنه 89/0 تا 98/0 برای دسته A و 90/0 تا 99/0 برای دسته B مشاهده شد. به طور کلی، نتایج نشان داد که اگر اندازه جمعیت مرجع به اندازه کافی باشد، علیرغم تعداد زیاد نشانگر SNP گمشده، صحت مستندسازی تغییر زیادی نخواهد کرد.
چکیده انگلیسی:
In this study, effect of the reference population size and the number of missing single nucleotide polymorphisms (SNPs) on imputation accuracy was assessed. The QMSim software was used to create a reference database of 1000 simulated animals. Two datasets were created from the database reference: The first dataset (A), included original genotypes, containing the missing SNPs (52,000 SNP markers), and the second one (B) included the same genotypes without the missing data (37,000 SNP markers). In both datasets, animals were simulated for a reference population with the size of 100, 250, 500 and 750. The deleted SNPs were simulated randomly in both datasets with the proportion of 15%, 30%, 55%, 70%, and 95%. The accuracy was determined based on the correlation between the original SNP values before deletion and its values after imputation. The results of this study showed that the accuracy of the imputation was influenced by the size of reference population and density of the deleted SNP markers. By increasing the reference population size from 100 to 750 animals in both datasets, the average accuracy of the imputation was increased. The highest accuracy in the reference population of 750 animals was from 0.89 to 0.98 in dataset A and 0.90 to 0.99 in dataset B. Generally, the results showed that if the size of the reference population is sufficient, the imputation accuracy does not much change, despite large number of missing SNPs.
خبرنامه
برای ثبت نام در خبرنامه و دریافت خبرنامه ایمیل خود را وارد نمایید.