@article { author = {مشیری, مریم and قادری زفره ای, مصطفی and قانع گلمحمدی, فرزان}, title = {Comparison of machine learning algorithms on missing values estimation accuracy of microarray datasets}, journal = {Cellular and Molecular Research (Iranian Journal of Biology)}, volume = {28}, number = {4}, pages = {612-622}, year = {2016}, publisher = {Iraninan Biology Society}, issn = {2383-2738}, eissn = {2383-2746}, doi = {}, abstract = {Existence of missing values in DNA microarray data would decrease the accuracy of regulatory gene networks construction and may cause mistake in clustering and classifying gene expression for downstream analysis. Therefore, missing value imputation is a pivotal step in preprocessing of DNA microarray data. Selection a proper algorithm for achieving the most accurate conclusions in missing values imputation remains to be quite compelling. In this study, three microarray datasets were used to compare the performance of different machine learning algorithms in imputing DNA microarray missing values. In this way, after determining the dimensions of matrix of expression data and normalizing the data, different missing percentages were applied on each datasets. By running 11 machine learning algorithms on these datasets, the accuracy of each algorithm under different conditions were measured. Based on the results, the accuracy of different algorithms depended on missing value percentages and its distribution in the dataset. Also, the number of experimental samples in the datasets affected the accuracy of missing values imputation algorithms. The results showed a decreasing trend in accuracy by increasing the percentage of missing data in the dataset. In general, Least Square Adaptive and Local Least Square algorithms shown to be more robust in terms of accuracy when the level of missing values percentage increased in the dataset. Therefore, we would suggest these algorithms could be considered in working out sound missing values imputation in DNA microarray data.}, keywords = {Machine Learning Algorithms,Missing value estimation,DNA Microarray}, title_fa = {مقایسه الگوریتم‌های برپایه یادگیری ماشین بر دقت تخمین داده‌های گمشده حاصل از آزمایش‌های ریزآرایه}, abstract_fa = {وجود داده‌های گمشده در داده‌های ریزآرایه، سبب کاهش دقت رسم شبکه‌های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم‌بندی تخصصی ژن‌ها و سایر تحلیل‌ها می‌شود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش داده‌های ریزآرایه، محسوب می‌شود. عملکرد الگوریتم-های تخمین در مجموعه داده‌های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب‌ترین الگوریتم به منظور دستیابی به بیشترین دقت در محاسبات داده‌های گمشده از اهمیت خاصی برخوردار است. در این مطالعه از سه مجموعه داده آزمایش‌های ریزآرایه استفاده شد. پس از مشخص کردن ابعاد ماتریس بیانی و نرمال کردن داده‌ها، درصدهای مختلفی از گمشدگی، بر مجموعه داده‌های مورد مطالعه اعمال شد. سپس نتایج حاصل با استفاده از 11 الگوریتم بر پایه یادگیری ماشین، به منظور بررسی میزان دقت هر یک از الگوریتم‌ها در تعیین میزان درصد گمشدگی، مورد مقایسه قرار گرفت. بر اساس نتایج، دقت الگوریتم‌های مختلف به مجموعه داده به کار رفته، درصد گمشدگی و توزیع گمشدگی داده‌ها وابسته است. همچنین تعداد نمونه‌های آزمایشی موجود در مجموعه داده‌ها نیز می تواند بر دقت الگوریتم‌های تخمین داده‌های گمشده موثر باشد. نتایج بیانگر کاهش دقت تمامی الگوریتم‌ها با افزایش درصد داده‌های گمشده بود، اما الگوریتم‌های Least Square Adaptive و Local least square دقت بیشتری در مقابل افزایش درصد گمشدگی داده‌ها نسبت به سایر الگوریتم‌ها نشان دادند.}, keywords_fa = {الگوریتم‌های بر پایه یادگیری ماشین,تخمین داده‌های گمشده,ریزآرایه}, url = {https://cell.ijbio.ir/article_788.html}, eprint = {https://cell.ijbio.ir/article_788_5a068cc9df74474c3c20d515f2f5c835.pdf} }