نوع مقاله: مقاله پژوهشی

نویسندگان

1 دانش آموخته کارشناسی ارشد اصلاح نژاد دام، گروه علوم دامی، دانشکده کشاورزی، دانشگاه فردوسی مشهد، ایران

2 استادیار گروه علوم دامی، دانشکده کشاورزی، دانشگاه یاسوج، ایران

3 دانش آموخته کارشناسی ارشد بیوتکنولوژی کشاورزی، گروه زیست‌شناسی سیستم‌ها، پژوهشکده بیوتکنولوژی کشاورزی ایران، کرج، ایران

چکیده

وجود داده‌های گمشده در داده‌های ریزآرایه، سبب کاهش دقت رسم شبکه‌های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم‌بندی تخصصی ژن‌ها و سایر تحلیل‌ها می‌شود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش داده‌های ریزآرایه، محسوب می‌شود. عملکرد الگوریتم-های تخمین در مجموعه داده‌های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب‌ترین الگوریتم به منظور دستیابی به بیشترین دقت در محاسبات داده‌های گمشده از اهمیت خاصی برخوردار است. در این مطالعه از سه مجموعه داده آزمایش‌های ریزآرایه استفاده شد. پس از مشخص کردن ابعاد ماتریس بیانی و نرمال کردن داده‌ها، درصدهای مختلفی از گمشدگی، بر مجموعه داده‌های مورد مطالعه اعمال شد. سپس نتایج حاصل با استفاده از 11 الگوریتم بر پایه یادگیری ماشین، به منظور بررسی میزان دقت هر یک از الگوریتم‌ها در تعیین میزان درصد گمشدگی، مورد مقایسه قرار گرفت. بر اساس نتایج، دقت الگوریتم‌های مختلف به مجموعه داده به کار رفته، درصد گمشدگی و توزیع گمشدگی داده‌ها وابسته است. همچنین تعداد نمونه‌های آزمایشی موجود در مجموعه داده‌ها نیز می تواند بر دقت الگوریتم‌های تخمین داده‌های گمشده موثر باشد. نتایج بیانگر کاهش دقت تمامی الگوریتم‌ها با افزایش درصد داده‌های گمشده بود، اما الگوریتم‌های Least Square Adaptive و Local least square دقت بیشتری در مقابل افزایش درصد گمشدگی داده‌ها نسبت به سایر الگوریتم‌ها نشان دادند.

کلیدواژه‌ها

موضوعات

عنوان مقاله [English]

Comparison of machine learning algorithms on missing values estimation accuracy of microarray datasets

چکیده [English]

Existence of missing values in DNA microarray data would decrease the accuracy of regulatory gene networks construction and may cause mistake in clustering and classifying gene expression for downstream analysis. Therefore, missing value imputation is a pivotal step in preprocessing of DNA microarray data. Selection a proper algorithm for achieving the most accurate conclusions in missing values imputation remains to be quite compelling. In this study, three microarray datasets were used to compare the performance of different machine learning algorithms in imputing DNA microarray missing values. In this way, after determining the dimensions of matrix of expression data and normalizing the data, different missing percentages were applied on each datasets. By running 11 machine learning algorithms on these datasets, the accuracy of each algorithm under different conditions were measured. Based on the results, the accuracy of different algorithms depended on missing value percentages and its distribution in the dataset. Also, the number of experimental samples in the datasets affected the accuracy of missing values imputation algorithms. The results showed a decreasing trend in accuracy by increasing the percentage of missing data in the dataset. In general, Least Square Adaptive and Local Least Square algorithms shown to be more robust in terms of accuracy when the level of missing values percentage increased in the dataset. Therefore, we would suggest these algorithms could be considered in working out sound missing values imputation in DNA microarray data.

کلیدواژه‌ها [English]

  • Machine Learning Algorithms
  • Missing value estimation
  • DNA Microarray

مقایسه دقت الگوریتمهای یادگیری ماشین در تخمین داده­های گمشده حاصل از آزمایشهای ریزآرایه DNA

مریم مشیری1، مصطفی قادری زفره‌ایی2* و فرزان قانع گل­محمدی3

1 مشهد، دانشگاه فردوسی مشهد، دانشکده کشاورزی، گروه علوم دامی

2 یاسوج، دانشگاه یاسوج، دانشکده کشاورزی، گروه علوم دامی

3 کرج، پژوهشکده بیوتکنولوژی کشاورزی، گروه زیست شناسی سیستمها

تاریخ دریافت: 12/11/93              تاریخ پذیرش: 12/7/94

چکیده

وجود داده­های گمشده در داده­های ریزآرایه، سبب کاهش دقت رسم شبکه­های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم­بندی تخصصی ژنها و سایر تحلیلها می­شود. بنابراین تخمین داده­های گمشده مرحله مهمی در پیش پردازش داده‌های ریزآرایه، محسوب می­شود. عملکرد الگوریتمهای تخمین در مجموعه داده­های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب­ترین الگوریتم به منظور دستیابی به بیشترین دقت در محاسبات داده­های گمشده از اهمیت خاصی برخوردار است. در این مطالعه از سه مجموعه داده آزمایشهای ریزآرایه استفاده شد. پس از مشخص کردن ابعاد ماتریس بیانی و نرمال کردن داده­ها، درصدهای مختلفی از گمشدگی، بر مجموعه داده­های مورد مطالعه اعمال شد. سپس از 11 الگوریتم بر پایه یادگیری ماشین به منظور بررسی تخمین داده­های گمشده استفاده و میزان دقت هر یک از الگوریتمها، بر اساس نتایج حاصل مورد مقایسه قرار گرفت. بر اساس نتایج، دقت الگوریتمهای مختلف به مجموعه داده به کار رفته، درصد گمشدگی و توزیع گمشدگی داده­ها وابسته است. همچنین تعداد نمونه­های آزمایشی موجود در مجموعه داده­ها نیز می تواند بر دقت الگوریتمهای تخمین داده­های گمشده مؤثر باشد. نتایج بیانگر کاهش دقت تمامی الگوریتمها با افزایش درصد داده­های گمشده بود، اما الگوریتمهای Least Square Adaptive و Local least square دقت بیشتری در مقابل افزایش درصد گمشدگی داده­ها نسبت به سایر الگوریتمها نشان دادند.

واژه های کلیدی: الگوریتمهای بر پایه یادگیری ماشین، تخمین داده­های گمشده، ریزآرایه

* نویسنده مسئول، تلفن: 2224840-0741، پست الکترونیکی: mghaderi@yu.ac.ir

مقدمه

 

یکی از مشکلات جدی در مطالعات بیان ژن، به کارگیری داده­های زیستی در حجمهای بالاست. نیاز به تولید، تحلیل و ادغام مجموعه داده­های بزرگ و پیچیده زیستی منجر به پیشرفت روشهای پر توان (High Throughput) به منظور بررسی کل ژنوم مانند فناوری ریزآرایه شد. امروزه اهمیت استفاده از روشهای محاسباتی در دستیابی به نتایج دقیق­تر بر کسی پوشیده نیست. این رویکردها عمدتاً به منظور تسریع تبدیل داده­های مولکولی به اطلاعات معنی­دار زیستی مورد استفاده قرار می­گیرند (2 و 21). تجزیه و تحلیل داده­های حاصل از فناوریهای پر توان، مانند ریزآرایه، به همراه تحلیل داده­های آماری و بیوانفورماتیکی، برای کشف فرآیندهای پیچیده زیستی ضروری است (9 و 11). به طوری که این فناوری با استفاده از آشکارسازی نیمرخ بیان ژنها و طبقه­بندی نمونه­ها بر پایه الگوهای بیانی، توانایی پاسخگویی به بسیاری از سئوالات ژنتیکی را دارد (15).

داده­های گمشده در اطلاعات ریزآرایه­ها معمولاً طی آماده کردن اطلاعات به دلیل نقص در مراحل مختلف مانند دقت و تفکیک پذیری نامناسب، از بین رفتن تصویر، خراش یا گرد و خاک، وجود حباب بر روی اسلایدها و یا به صورت سیستماتیک در اثر روشهای ایجاد اسلایدها به وجود می­آیند. متأسفانه به دلایل آزمایشگاهی و اقتصادی انجام دوباره آزمایشها مقرون به صرفه نیست. در زمان وجود داده­های گمشده به طور معمول ساده­ترین روش حذف بردار نیمرخ بیانی دارای داده گمشده و یا جایگزین کردن صفر (الگوریتم ZERO) یا میانگین ردیفها به­جای داده­های گمشده است (24). طی سالهای گذشته الگوریتمهای مختلفی برای تخمین داده­های گمشده، توسعه داده شده است که در ادامه نگاهی کوتاه بر الگوریتمهای استفاده شده در این مطالعه خواهد داشت.

اولین گزارش کاربرد الگوریتمهایی بر پایه یادگیری ماشین در تخمین داده­های گمشده مربوط به الگوریتمهای K Nearest Neighbor (KNN)، Singular Value Decomposition (SVD) و Row Average (RAVG) است (24)، سپس در سال 2003 الگوریتم دیگری به نام Bayesian Principle Component Analysis (BPCA) بر اساس روشهای آماری بیزین معرفی شد (18 و 23). پارامتری به نام K در الگوریتمهای SVD، KNN و Local Least Square (LLS) نیز بر دقت نتایج مؤثر است که معادل تعداد ژنهای ویژه­ای (Eigengene) است که بیشترین شباهت را به ژن دارای داده گمشده دارند. انتخاب مقادیر K در BPCA و همچنین SVD به تعداد ژنهای اصلی بستگی دارد (10). در روش LLS علاوه بر استفاده از مراحل بهینه­سازی از طریق الگوریتم Local Square (LS) (الگوریتمی با خطای کم برای تخمین داده­های گمشده بیان ژن)، از شباهتهای ساختارهای محلی نیز استفاده می­شود (16). الگوریتم Expectation Maximization (EM) برای هر دو تخمین بر اساس ژن و براساس آرایه، مورد استفاده قرار می­گیرد (6 و 16). تخمین داده­های گمشده مخلوط (داده­هایی شامل گمشدگی کاملاً تصادفی Missing completely at Random (MCAR) و گمشدگی تصادفی Missing at Random (MAR)) از طریق الگوریتم MissForest اولین بار توسط روبین و همکاران (1978) ممکن شد (7). این الگوریتم نسبت به KNN بدون توجه به ترکیب نوع متغیرها، ابعاد داده­ها، منبع داده­ها و یا میزان گمشدگی عملکردی بهتری دارد (22). الگوریتم Sequential K-Nearest Neighbor (SKNN) از داده­های تخمین زده شده برای تخمین داده­های بعدی استفاده می­کند. در این روش، داده­های گمشده به صورت پشت سر هم از ژنهای دارای حداقل داده گمشده تخمین زده شده و برای محاسبات بعدی مورد استفاده قرار می­گیرند (17). روش Support Vector Regression (SVR) برای محاسبه چندین داده گمشده در هر ردیف نیمرخ بیانی از طرح ورودیهای مستقل (Orthogonal input coding scheme) استفاده می­کند (24). روش Least Square Adaptive (LSA) نیز از قانون حداقل مربعات استفاده می­کند که در مقایسه با سایر الگوریتمها، دقت مناسب تری دارد (6).

از آنجا که بسیاری از الگوریتمهای خوشه­بندی و تعدادی از روشهای تجزیه و تحلیل آماری به مجموعه داده­های کامل نیاز دارند، محاسبه داده­های گمشده برای کاربرد مؤثر اطلاعات ریزآرایه امری ضروری است (17). بنابراین برای به حداقل رساندن اثر مجموعه داده­های ناقص جهت افزایش دامنه قابل اطمینان و همچنین تجزیه و تحلیل داده­ها، از الگوریتمهای تخمین داده­های گمشده بر پایه یادگیری ماشین استفاده می­شود. هدف از این مطالعه مقایسه دقت الگوریتمهای تخمین داده­های گمشده با تعداد مختلف ژنها و با درصدهای مختلف گمشدگی داده­ها در سه مجموعه داده مختلف است.

مواد و روشها

سه مجموعه داده  از  سایت Gene Expression Omnibus

(GEO)  با پسوند .CEL دانلود شد (جدول 1).

 

 

جدول 1- مجموعه داده­های به کار رفته جهت انجام تحلیلهای مورد مطالعه

ردیف

تعداد ژن × تعداد نمونه­ها

چیپ به کار رفته برای آزمایش ریزآرایه

شماره دستیابی

1

265636 × 6

Affymetrix Porcine Genome Array

GSE32438

2

265628 × 6

Affymetrix Bovine Genome Array

GSE39796

3

265628 × 7

Affymetrix Bovine Genome Array

PMID: 20952064

 

الگوریتمهای به کار برده شده در این مطالعه به دو دسته الگوریتمهای Local imputation، الگوریتمهای Global imputation و الگوریتمهای دیگر SVR، EM و Missforset تقسیم شدند. الگوریتمهای Local imputation گروهی از ژنها با بیشترین ارتباط (فاصله اقلیدسی (24))، همبستگی پیرسون (6) و یا تخمین کوواریانس (20) را برای محاسبه داده گمشده ژن هدف  انتخاب می­کند. برای الگوریتمهای Local از روشهای KNN، SKNN، LSA، LLS، Row average و Zero imputation استفاده شد. همچنین برای الگوریتمهای Global  از روشهای SVD، BPCA استفاده شد (جدول 2). برای ایجاد ماتریس کامل داده، تمام ژنهای دارای گمشدگی حذف شدند.

به منظور افزایش سرعت اجرای الگوریتمهای مختلف و همچنین امکان بررسی جزئیات عملکرد الگوریتمها در هر یک از مجموعه داده­ها، از تعداد 200 و 800 ژن برای نمونه­های مختلف آزمایشی استفاده شد. سپس برای یکسان­سازی مقیاس اندازه­گیری، هر سه مجموعه داده با استفاده از نرم افزار متلب، نسخه 2011 (MATLAB, version 2011) نرمال شدند. همچنین از تابع تولید گمشدگی (Miss generator Function)، در نرم افزار متلب، برای ایجاد درصدهای متفاوتی از گمشدگی در هر یک از مجموعه داده­های نرمال شده و در نهایت بررسی اثر درصد داده­های گمشده بر دقت تخمین الگوریتمهای مختلف، استفاده شد.

میزان دقت و کارآیی هر یک از الگوریتمها با استفاده از پارامتر آماری تابع خطای مربع میانگین ریشه نرمال شده (Normalized Root Mean Square Error (NRMSE)) محاسبه شد (فرمول 1).

فرمول 1

 

NRMSE، معیاری برای تعیین تفاوت بین ارزشهای محاسبه شده و ارزش واقعی است که در آن yguess و yans به ترتیب مقدار تخمین زده شده و مقدار واقعی داده­ها هستند (19). مناسب­ترین الگوریتم تخمین، الگوریتمی است که کمترین میانگین، NRMSE را داشته باشد. به عبارت دیگر مقدار NRMSE بین صفر تا یک متغیر است که هرچه این مقدار به صفر نزدیک­تر باشد، دقت الگوریتم بیشتر است. سپس از 11 الگوریتم ZERO، RAVG، SVD، EM_gene، Missforset، BPCA، SKNN، SVR، KNN، LLS و LSA در هر سه مجموعه داده و با سه تکرار استفاده شد. به منظور نمایش دقت هر یک از الگوریتمها، تمام مقادیر تخمین زده شده داده­های گمشده و الگوریتمهای به کار رفته با 200 و 800 ژن در سطوح گمشدگی 5، 10، 15، 20، 25، 30، 45 و 60 درصد بر اساس NRMSE مقایسه شدند.


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


نتایج و بحث

امروزه دانشمندان برای بررسی بیان ژن از روشهای مختلفی (مانند فناوری ریزآرایه، RT-PCR نیمه کمی و غیره (1 و 4)، در تحقیقات مختلف و در موجودات متفاوت (مانند سرطان خون (4) و آدنوکارسینومای معده انسان (3)، گیاه ریحان (Ocimum basilicum L.) (1) و غیره) استفاده می­کنند. در این مطالعه، سه مجموعه داده ریزآرایه و 11 الگوریتم تخمین داده گمشده به کار گرفته شدند. دقت تمامی الگوریتمها با افزایش درصد گمشدگی، کاهش یافت (شکل 1).

 

 

 

 

شکل 1- مقایسه میانگین دقت روشهای تخمین داده­های گمشده با 5 درصد داده گمشده در سه مجموعه داده مورد مطالعه

 

همچنین عملکرد و دقت هر کدام از الگوریتمها به تعداد ژنها، نمونه­ها و خصوصیات مجموعه داده مورد مطالعه وابسته بود. بر این اساس دقت و عملکرد الگوریتمهای ZERO و RAVG، به درصد گمشدگی و توزیع گمشدگی داده­های گمشده بستگی دارد و کمترین میزان دقت تخمین داده­های گمشده از این دو الگوریتم به دست آمد.

روشهای جایگزینی داده­های گمشده با صفر و یا میانگین ردیفها (RAVG) از ساختار همبستگی داده­ها استفاده نمی­کنند. به طور پیش­فرض دقت روش تخمین جایگزینی صفر به جای داده گمشده، همیشه یک (یک برابر است با بیشترین مقدار NRMSE، به عبارت دیگر کمترین میزان دقت) است (24). به طوری که، پس از روش ZERO، دقت و عملکرد الگوریتم RAVG در تخمین داده­های گمشده موجود در تمامی مجموعه­داده­ها، برای 200 ژن (شکلهای 2 تا 4، سمت چپ) و 800 ژن (شکلهای 2 تا 4، سمت راست) کمترین میزان نسبت به سایر الگوریتمها بود.

الگوریتم MissForest در مجموعه داده­های یک، دو و سه، دقت مناسبی برای تخمین داده­های گمشده نداشت. با این وجود دقت تخمین آن از الگوریتمهای SVD، RAVG و EM_gene بهتر بود. همچنین با کاهش تعداد ژنهای مورد بررسی (از 800 ژن به 200 ژن) دقت تخمین این الگوریتم نیز کاهش یافت. البته دقت الگوریتم­های SDV و KNN بیشتر از روشهای جایگزینی صفر به جای داده گمشده و یا قرار دادن میانگین درایه­های مشابه به ژن دارای داده گمشده (RAVG)، است. در این روش بر اساس فرض شباهت بیان یک ژن در یک آزمایش با میانگین بیان ژنها در زمانهای مختلف انجام آزمایش استوار است، به همین دلیل دقت پایین این روش امری دور از انتظار نیست (24).

 

 

 

شکل 2- مقایسه الگوریتمهای مختلف با گمشدگیهای متفاوت در مجموعه داده 1 (سمت چپ: 200 ژن و سمت راست: 800 ژن)

 

 

شکل 3- مقایسه الگوریتمهای مختلف با گمشدگیهای متفاوت در مجموعه داده 2 (سمت چپ: 200 ژن و سمت راست: 800 ژن)

  

شکل 4- مقایسه الگوریتمهای مختلف با گمشدگیهای متفاوت در مجموعه داده 3 (سمت چپ: 200 ژن و سمت راست: 800 ژن)

 

در الگوریتم KNN با افزایش ژنها میزان NRMSE نیز بیشتر می­شود. این الگوریتم نسبت به افزایش درصد داده­های گمشده مقاوم و کاهش دقت آن در مقابل افزایش درصدهای گمشدگی کمتر از سایر الگوریتمها بود، به طوری که با 20 درصد داده گمشده، حداکثر 10 درصد کاهش دقت را نشان داد (24). همچنین الگوریتم KNN برای محاسبه داده­های گمشده برای ژنهایی که در خوشه­های کوچک بیان می شوند، دقیق تر است (24). بنابراین دقت این الگوریتم برای 200 ژن از 800 ژن در هر سه مجموعه داده مورد مطالعه بیشتر بود و میزان NRMSE کوچکتری به دست آمد (شکلهای 2 تا 4). در این الگوریتم با کاهش تعداد ژنها، دقت بیشتری برای تخمین داده­های گمشده به دست آمد. الگوریتم KNN  برای پروفایلهای بیانی با تعداد کم ژنها، نتایج دقیق­تری دارد، به علاوه رابطه کاهش دقت آن با افزایش درصد گمشدگی، معنی دار نیست (8 و 11).

نتایج حاصل از تخمین SVD نشان دادند که این الگوریتم دقت کمتری نسبت به سایر روشها دارد و با کاهش تعداد ژنها از 800 به 200 ژن، مقدار NRMSE به دست آمده از این روش نیز در هر سه مجموعه داده کاهش یافت (شکلهای 2 تا 4). بر اساس خصوصیات داده­ها، دقت تخمین الگوریتمهای MissForset و SVD تقریباً در دامنه 5/0 تا 63/0 بود. الگوریتم EM_gene نیز دقت پایینی (64/0) را نشان داد.

قدرت تخمین الگوریتم BPCA به تعداد نمونه­ها یا ژنهای مورد بررسی بستگی دارد. در این مطالعه در هر سه مجموعه داده به دلیل تعداد کم نمونه­های مورد بررسی (شش و هفت نمونه) دقت الگوریتم BPCA کمتر از KNN و حتی روش SKNN بود. Oba و همکارن (2003) نشان دادند که دقت الگوریتم BPCA با افزایش تعداد ژنها (حداقل 40 نمونه) رابطه مستقیم دارد (18). همچنین دقت الگوریتم BPCA نیز با افزایش درصد گمشدگی رابطه معکوس داشت که این امر توسط Celton و Malpertuy (2010) نیز گزارش شده است (8).

نتایج حاصل از مقایسه­ها در داده­هایی با 5 درصد گمشدگی نشان دادند که میزان NRMSE حاصل از الگوریتم LSA، 15 تا 20 درصد کوچکتر از نتایج حاصل از الگوریتم KNN است. با کاهش تعداد ژنها، دقت به دست آمده از الگوریتم LSA نیز به دلیل استفاده داده­ها و روابط همبستگی کمتر، کاهش یافت. ارزشهای NRMSE در الگوریتم SKNN بیشتر از BPCA است. همچنین دقت الگوریتم SKNN به خصوص با افزایش درصد گمشدگی، بیشتر از الگوریتم EM_gene است. بر اساس نتایج هر سه مجموعه داده افزایش تعداد ژنها سبب کاهش دقت الگوریتم SKNN شد.

تخمین LLS میزان NRMSE کمتری نسبت به KNN و BPCA  با 5 تا 60 درصد داده گمشده نشان داد. در این الگوریتم با کاهش ژنهای مورد مطالعه (از 800 ژن به 200 ژن)، خطای محاسباتی نیز بیشتر شد. دقت الگوریتم LLSدر تخمین داده­های گمشده بیشتر از الگوریتمهای KNN، BPCA و SVD گزارش شده است (12). همچنین الگوریتم SVR عملکرد ثابتی در درصدهای مختلف گمشدگی در هر سه مجموعه داده داشت. با افزایش مقدار گمشدگی، افزایش NRMSE حاصل از الگوریتم SVR اندکی بیشتر از مقدار این مقیاس برای الگوریتمهای LLS و BPCA و بسیار کمتر از الگوریتم KNN بود. هنگامی که درصد داده­های گمشده بسیار زیاد باشد، محاسبه SVR در مقایسه با BPCA و LLS به دلیل رویکرد­های شبکه­ای برای مجموعه پارامترها، عملکرد ضعیف­تری را نشان خواهد داد (25). الگوریتم SVR در مجموعه داده­هایی با همبستگی بالای ژنی، عملکرد بهتری از الگوریتمهای KNN و BPCA داشت. با کاهش تعداد ژنهای مورد استفاده برای تخمین در هر سه مجموعه داده، میزان NRMSE در الگوریتم SVR بیشتر شد و در نتیجه دقت کاهش یافت.

به طور کلی داده­های گمشده مشکلاتی را برای تجزیه و تحلیل مجموعه داده­های حاصل از آزمایشهای ریزآرایه به وجود می­آورند. بنابراین نیاز به برطرف کردن این مشکلات امری ضروری است (24). اولین راه حل ممکن، کم کردن حجم مجموعه داده­ها از طریق حذف ژنهای دارای داده گمشده است. این روش برطرف کردن داده­های گمشده هنوز در عمل توسط بسیاری از محققین مورد استفاده قرار می­گیرد (12 و 14). علی رقم وجود روشهای مختلفی برای تخمین داده­های گمشده، روشهای جدید توسعه یافته­تر هستند. البته روشهایی که از آنها به طور گسترده­ای در تحلیل داده­های ریزآرایه استفاده می­شود، اغلب سبب اریب شدن و به غلط انداختن محاسبه داده­های گمشده شوند. بر این اساس توافق عمومی برای چگونگی انتخاب روشهای مختلف وجود ندارد، چون به نظر می­رسد که عملکرد هر یک از آنها به مقدار زیادی به مجموعه داده مورد بررسی، درصد داده­های گمشده، توزیع گمشدگی داده­ها، وجود عوامل اضافی مانند نویز و غیره وابسته است (26). برای دستیابی به بهترین روش تحلیل داده گمشده و به دست آوردن ماتریس کامل بیان ژن، باید داده­های گمشده و مناسب­ترین الگوریتمهای تخمین داده­های گمشده در مجموعه داده­های مختلف با شرایط متفاوت، مورد بررسی و شناسایی قرار گیرند (13). به طور کلی نتایج حاصل از مقایسه الگوریتمهای مختلف در منابع متفاوت، حاکی از این حقیقت است که هیچ الگوریتم تخمین مطلوبی برای تمامی انواع داده­ای وجود ندارد. با این وجود و در این مطالعه در میان الگوریتمهای مورد بررسی در هر سه مجموعه داده، الگوریتم LSA بیشترین دقت و قدرت تخمین و همچنین کمترین NRMSE را در تمامی مجموعه داده­های مورد مطالعه به خود اختصاص داد (شکلهای 2 تا 4). این امر با ساختار همبستگی محلی (Local Correlation) داده­ها و شباهت ژنهای مورد مطالعه و همچنین عملکرد روش LSA مرتبط است. عملکرد روش LSA براساس قانون حداقل مربعات و استفاده همزمان از ارتباط بین ژنها و آرایه­ها تعریف می­شود. در این روش قانون حداقل مربعات براساس حداقل کردن مجموع خطاهای مربع مدل مورد بررسی است. علت استفاده از ارتباط ژنها به عنوان اساس تخمین، پدیده تنظیم همزمان ژنها طی فرآیندهای عملکردی سلول است، مانند نقش تنظیم کنندگی ژن ein2 در گیاه اطلسی بر مسیر انتقال پیام اتیلن (5). از طرف دیگر استفاده از پروفایلهای بیانی گرفته شده از آرایه­های مختلف نیز از اهمیت به سزایی برخوردار است چرا که هیبریداسیون­های آرایه­ای نمونه­های بیولوژیکی حاصل از بافتهای یکسان معمولاً با یکدیگر در ارتباط هستند، بر این اساس انتظار می­رود اندازه ستونهای مختلف آنها در ماتریس بیانی ژنها نیز یکسان باشد. اگرچه عکس این مطلب نیز صادق است (نمونه­های زیست­شناسی بسیار متفاوت، پایه و اساس ضعیفی برای تخمین ماتریس بیانی هستند). همان طور که پیش­تر نیز اشاره شد الگوریتم LSA مانند KNN از میانگین وزنی ژنهایی با همبستگی بیشتر به ژنهای دارای داده گمشده استفاده می­کند و سپس با استفاده از معادله حداقل مربع، داده گمشده را محاسبه می­کند. البته میانگین وزنی در الگوریتم LSA بر اساس روش وزنی سازگار (Adaptive Weighting Scheme) و با

در نظرگیری ساختار همبستگی داده­ها تعیین می­شود.

الگوریتمهای LLS و SVR نیز در درجه بعد، تخمین قوی­تری را نشان دادند و کمترین قدرت و دقت در الگوریتمهای RAVG و ZERO  به دست آمد.

  1. تحصیلی، ژ. شریفی، م. بهمنش، م. ضیایی، م. 1389. بیان ژن آنزیم اوژنول-O - متیل ترانسفراز و ارتباط آن با اجزاء اسانس در مراحل مختلف رشد ریحان ( Ocimum basilicum L.). مجله زیست­شناسی ایران. (1) 23. ص: 25-18.
  2. خلیلی، س. جهانگیری، الف. امانی، ج. سلمانیان، ع. ه. 1393. کاربرد بیوانفورماتیک در مطالعات ایمنی شناسی. مجله زیست­شناسی ایران. (2) 27. ص: 210- 192.
  3. رنجی، ن. پادگانه، الف. صادقی­زاده، د. صادقی­زاده، م. 1393. بررسی بیان ژنهای hTERT و Survivin در رده سلولی آدنوکارسینومای معده انسان (AGS) تحت تیمار با نانوکورکومین. مجله زیست­شناسی ایران. (2) 27. ص: 241-233.
  4. قلندری، م. بهمنش، م. اکبری، م. ت. 1391. بررسی بیان ژن SUZ12 به عنوان مارکری از تغییرات اپی ژنتیکی در بیماران مبتلا به سرطان خون (CML). مجله زیست­شناسی ایران. (2) 25. ص: 229- 220.
  5. میرشمسی کاخکی، الف. بهرامی، الف. ر. شهریاری احمدی، ف. گری، ج. 1392. بررسی بیان ژن ein2 در گیاه اطلسی (Petunia×hybrida) و مطالعه نقش تنظیم کنندگی آن در مسیر انتقال پیام اتیلن. مجله زیست­شناسی ایران. (4) 26. ص: 587-572.
    1. Bø, T.H., Dysvik, B. and Jonassen, I. 2004. LSimpute: accurate estimation of missing values in microarray data with least squares methods, Nucleic acids research, 32: e34-e34.
    2. Breiman, L. 2001. Random forests, Machine learning, 45: 5-32.
    3. Celton, M., Malpertuy, A., Lelandais, G. and De Brevern, A.G. 2010. Comparative analysis of missing value imputation methods to improve clustering and interpretation of microarray experiments, BMC genomics, 11: 15.
    4. Fellenberg, K., Busold, C.H., Witt, O., Bauer, A., Beckmann, B., Hauser, N.C., Frohme, M., Winter, S., Dippon, J. and Hoheisel, J.D. 2006. Systematic interpretation of microarray data using experiment annotations, BMC genomics, 7: 319.
    5. Golub, T.R., Slonim, D.K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J.P., Coller, H., Loh, M.L., Downing, J.R. and Caligiuri, M.A. 1999. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring, Science, 286: 531-537.
    6. Hoheisel, J.D. 2006. Microarray technology: beyond transcript profiling and genotype analysis, Nature reviews genetics, 7: 200-210.
    7. Horton, N.J. and Kleinman, K.P. 2007. Much ado about nothing, The American Statistician, 61.
    8. Hourani, M.A. and El Emary, I.M. 2009. Microarray missing values imputation methods: Critical analysis review, Computer Science and Information Systems/ComSIS, 6: 165-190.
    9. Kaiser, J. 2012. Algorithm for Missing Values Imputation in Categorical Data with Use of Association Rules, ACEEE International Journal on Recent Trends in Engineering & Technology.
    10. Kerr, M.K., Martin, M. and Churchill, G.A. 2000. Analysis of variance for gene expression microarray data, Journal of computational biology, 7: 819-837.
    11. Kim, H., Golub, G.H. and Park, H. 2005. Missing value estimation for DNA microarray gene expression data: local least squares imputation, Bioinformatics, 21: 187-198.
    12. Kim, K.-Y., Kim, B-J. and Yi, G.-S. 2004. Reuse of imputed data in microarray analysis increases imputation efficiency, BMC bioinformatics, 5: 160.
    13. Oba, S., Sato, M.-a., Takemasa, I., Monden, M., Matsubara, K.-i. and Ishii, S. 2003. A Bayesian missing value estimation method for gene expression profile data, Bioinformatics, 19: 2088-2096.
    14. Ouyang, M., Welsh, W.J. and Georgopoulos, P., 2004. Gaussian mixture clustering and imputation of microarray data, Bioinformatics, 20: 917-923.
    15. Sehgal, M.S.B., Gondal, I. and Dooley, L.S. 2005. Collateral missing value imputation: a new robust missing value estimation algorithm for microarray data, Bioinformatics, 21: 2417-2423
    16. Stekel, D. 2003. Microarray bioinformatics. Cambridge University Press.
    17. Stekhoven, D.J. and Bühlmann, P. 2012. MissForest—non-parametric missing value imputation for mixed-type data, Bioinformatics, 28: 112-118.
    18. Takemasa, I., Higuchi, H., Yamamoto, H., Sekimoto, M., Tomita, N., Nakamori, S., Matoba, R., Monden, M. and Matsubara, K. 2001. Construction of preferential cDNA microarray specialized for human colorectal carcinoma: Molecular sketch of colorectal cancer, Biochemical and biophysical research communications, 285: 1244-1249.
    19. Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., Tibshirani, R., Botstein, D. and Altman, R.B. 2001. Missing value estimation methods for DNA microarrays, Bioinformatics, 17: 520-525.
    20. Wang, X., Li, A., Jiang, Z. and Feng, H. 2006. Missing value estimation for DNA microarray gene expression data by Support Vector Regression imputation and orthogonal coding scheme, BMC bioinformatics: 7, 32.
    21. Yeung, K.Y., Medvedovic, M. and Bumgarner, R.E. 2003. Clustering gene-expression data with repeated measurements, Genome Biol, 4: R34.