چکیده:
نظریه اطلاعات، شاخهای از ریاضیات است که با مهندسی ارتباطات، زیستشناسی و پزشکی همپوشانی دارد. هدف از بررسی حاضر ارائه روشی جهت خوشهبندی تعدادی از ژنهای موثر روی تولید شیر در گاو شیری با استفاده از الگوریتمی متکی بر واگرایی کولبک - لیبلر بود. در این پژوهش بعد از استخراج توالی DNA ژن و اگزونهای موثر بر تولید شیر در گاو شیری، فراسنجه آنتروپی در مراتب یک تا چهار برای هر ژن و اگزونهای هر ژن محاسبه شد. جهت استخراج فاصله میان ژنها از یکدیگر، از واگرایی کولبک - لیبلر در سه روش مختلف استفاده شد. روشهای اول و دوم مبتنی بر همترازی ولی روش سوم غیر مبتنی بر همترازی و بر پایه آنتروپی نسبی ژنها بود. نتایج هر سه روش واگرایی کولبک - لیبلر روی توالی DNA ژنها و اگزونها با استفاده از هفت روش معمولSingle ،Complete ،Average ،Weighted ، Centroid، Medianو KMeansخوشهبندی شدند. تجمیع نتایج هر خوشهبندی که با الگوریتم AdaBoost انجام شد، و خود نوعی درخت ژنی را تداعی کرد، نشان داد که روش سوم، خوشهبندی معقولی را از نظر زیستی برای مجموعهای از ژنها حاصل نمود چرا که با نتایج حاشیهنویسی ژنومی ژنهای حاصل ازGeneMANIA مطابقت داشت. این اعتقاد وجود دارد که روش ارائه شده برای ایجاد درخت ژنی میتواند با سایر روشهای متکی بر توالی DNA ژنها جهت خوشهبندی مجموعهای از ژنها، رقابت نماید و لذا میتواند در گروهبندی ژنهای سایر گونهها نیز بکار رود.
چکیده انگلیسی:
Information theory is a branch of mathematics that overlaps with communications, biology. The aim of the current study was to provide a method for clustering a number of Milk Governing Genes in Dairy Cattle using an algorithm based on Kullback-Leibler divergence. In this study, after retrieving gene and exon DNA sequences affecting milk yield in dairy cattle, the entropy in orders one to four was calculated. In order to extract gene distances, Kullback-Leibler divergence over three different methods was calculated. The first and second methods were based on the genes alignment but the third method was based on non-alignment and the relative entropy of the genes. The results of each method of Kullback-Leibler divergence over DNA and exon sequences were entered as input into 7 general clustering algorithms: Single, Complete, Average, Weighted, Centroid, Median and K-Means. Integrated result of each clustering algorithm due to AdaBoost algorithm, which implied as gene tree, indicated that the third method was based on the relative entropy of the genes, biologically grouped set of genes as it was proved by their gene annotation using GeneMANIA. We believe that the proposed method might be used with other DNA based clustering competitive methods and therefore, it can be used to group set of genes in other species.
خبرنامه
برای ثبت نام در خبرنامه و دریافت خبرنامه ایمیل خود را وارد نمایید.