مقایسه الگوریتم‌های برپایه یادگیری ماشین بر دقت تخمین داده‌های گمشده حاصل از آزمایش‌های ریزآرایه

مشیری, مریم; قادری زفره ای, مصطفی; قانع گلمحمدی, فرزان

مقایسه الگوریتم‌های برپایه یادگیری ماشین بر دقت تخمین داده‌های گمشده حاصل از آزمایش‌های ریزآرایه

نوع مقاله : مقاله پژوهشی

نویسندگان

¹ دانش آموخته کارشناسی ارشد اصلاح نژاد دام، گروه علوم دامی، دانشکده کشاورزی، دانشگاه فردوسی مشهد، ایران

² استادیار گروه علوم دامی، دانشکده کشاورزی، دانشگاه یاسوج، ایران

³ دانش آموخته کارشناسی ارشد بیوتکنولوژی کشاورزی، گروه زیست‌شناسی سیستم‌ها، پژوهشکده بیوتکنولوژی کشاورزی ایران، کرج، ایران

چکیده

وجود داده‌های گمشده در داده‌های ریزآرایه، سبب کاهش دقت رسم شبکه‌های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم‌بندی تخصصی ژن‌ها و سایر تحلیل‌ها می‌شود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش داده‌های ریزآرایه، محسوب می‌شود. عملکرد الگوریتم-های تخمین در مجموعه داده‌های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب‌ترین الگوریتم به منظور دستیابی به بیشترین دقت در محاسبات داده‌های گمشده از اهمیت خاصی برخوردار است. در این مطالعه از سه مجموعه داده آزمایش‌های ریزآرایه استفاده شد. پس از مشخص کردن ابعاد ماتریس بیانی و نرمال کردن داده‌ها، درصدهای مختلفی از گمشدگی، بر مجموعه داده‌های مورد مطالعه اعمال شد. سپس نتایج حاصل با استفاده از 11 الگوریتم بر پایه یادگیری ماشین، به منظور بررسی میزان دقت هر یک از الگوریتم‌ها در تعیین میزان درصد گمشدگی، مورد مقایسه قرار گرفت. بر اساس نتایج، دقت الگوریتم‌های مختلف به مجموعه داده به کار رفته، درصد گمشدگی و توزیع گمشدگی داده‌ها وابسته است. همچنین تعداد نمونه‌های آزمایشی موجود در مجموعه داده‌ها نیز می تواند بر دقت الگوریتم‌های تخمین داده‌های گمشده موثر باشد. نتایج بیانگر کاهش دقت تمامی الگوریتم‌ها با افزایش درصد داده‌های گمشده بود، اما الگوریتم‌های Least Square Adaptive و Local least square دقت بیشتری در مقابل افزایش درصد گمشدگی داده‌ها نسبت به سایر الگوریتم‌ها نشان دادند.

کلیدواژه‌ها

20.1001.1.23832738.1394.28.4.15.6

موضوعات

بیوانفورماتیک

عنوان مقاله [English]

Comparison of machine learning algorithms on missing values estimation accuracy of microarray datasets

چکیده [English]

Existence of missing values in DNA microarray data would decrease the accuracy of regulatory gene networks construction and may cause mistake in clustering and classifying gene expression for downstream analysis. Therefore, missing value imputation is a pivotal step in preprocessing of DNA microarray data. Selection a proper algorithm for achieving the most accurate conclusions in missing values imputation remains to be quite compelling. In this study, three microarray datasets were used to compare the performance of different machine learning algorithms in imputing DNA microarray missing values. In this way, after determining the dimensions of matrix of expression data and normalizing the data, different missing percentages were applied on each datasets. By running 11 machine learning algorithms on these datasets, the accuracy of each algorithm under different conditions were measured. Based on the results, the accuracy of different algorithms depended on missing value percentages and its distribution in the dataset. Also, the number of experimental samples in the datasets affected the accuracy of missing values imputation algorithms. The results showed a decreasing trend in accuracy by increasing the percentage of missing data in the dataset. In general, Least Square Adaptive and Local Least Square algorithms shown to be more robust in terms of accuracy when the level of missing values percentage increased in the dataset. Therefore, we would suggest these algorithms could be considered in working out sound missing values imputation in DNA microarray data.

کلیدواژه‌ها [English]

Machine Learning Algorithms
Missing value estimation
DNA Microarray

اصل مقاله

مقایسه دقت الگوریتمهای یادگیری ماشین در تخمین دادههای گمشده حاصل از آزمایشهای ریزآرایه DNA

مریم مشیری¹، مصطفی قادری زفره‌ایی^2* و فرزان قانع گلمحمدی³

¹ مشهد، دانشگاه فردوسی مشهد، دانشکده کشاورزی، گروه علوم دامی

² یاسوج، دانشگاه یاسوج، دانشکده کشاورزی، گروه علوم دامی

³ کرج، پژوهشکده بیوتکنولوژی کشاورزی، گروه زیست شناسی سیستمها

تاریخ دریافت: 12/11/93 تاریخ پذیرش: 12/7/94

چکیده

وجود دادههای گمشده در دادههای ریزآرایه، سبب کاهش دقت رسم شبکههای تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیمبندی تخصصی ژنها و سایر تحلیلها میشود. بنابراین تخمین دادههای گمشده مرحله مهمی در پیش پردازش داده‌های ریزآرایه، محسوب میشود. عملکرد الگوریتمهای تخمین در مجموعه دادههای مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسبترین الگوریتم به منظور دستیابی به بیشترین دقت در محاسبات دادههای گمشده از اهمیت خاصی برخوردار است. در این مطالعه از سه مجموعه داده آزمایشهای ریزآرایه استفاده شد. پس از مشخص کردن ابعاد ماتریس بیانی و نرمال کردن دادهها، درصدهای مختلفی از گمشدگی، بر مجموعه دادههای مورد مطالعه اعمال شد. سپس از 11 الگوریتم بر پایه یادگیری ماشین به منظور بررسی تخمین دادههای گمشده استفاده و میزان دقت هر یک از الگوریتمها، بر اساس نتایج حاصل مورد مقایسه قرار گرفت. بر اساس نتایج، دقت الگوریتمهای مختلف به مجموعه داده به کار رفته، درصد گمشدگی و توزیع گمشدگی دادهها وابسته است. همچنین تعداد نمونههای آزمایشی موجود در مجموعه دادهها نیز می تواند بر دقت الگوریتمهای تخمین دادههای گمشده مؤثر باشد. نتایج بیانگر کاهش دقت تمامی الگوریتمها با افزایش درصد دادههای گمشده بود، اما الگوریتمهای Least Square Adaptive و Local least square دقت بیشتری در مقابل افزایش درصد گمشدگی دادهها نسبت به سایر الگوریتمها نشان دادند.

واژه های کلیدی: الگوریتمهای بر پایه یادگیری ماشین، تخمین دادههای گمشده، ریزآرایه

*نویسنده مسئول، تلفن: 2224840-0741، پست الکترونیکی: mghaderi@yu.ac.ir

مقدمه

یکی از مشکلات جدی در مطالعات بیان ژن، به کارگیری دادههای زیستی در حجمهای بالاست. نیاز به تولید، تحلیل و ادغام مجموعه دادههای بزرگ و پیچیده زیستی منجر به پیشرفت روشهای پر توان (High Throughput) به منظور بررسی کل ژنوم مانند فناوری ریزآرایه شد. امروزه اهمیت استفاده از روشهای محاسباتی در دستیابی به نتایج دقیقتر بر کسی پوشیده نیست. این رویکردها عمدتاً به منظور تسریع تبدیل دادههای مولکولی به اطلاعات معنیدار زیستی مورد استفاده قرار میگیرند (2 و 21). تجزیه و تحلیل دادههای حاصل از فناوریهای پر توان، مانند ریزآرایه، به همراه تحلیل دادههای آماری و بیوانفورماتیکی، برای کشف فرآیندهای پیچیده زیستی ضروری است (9 و 11). به طوری که این فناوری با استفاده از آشکارسازی نیمرخ بیان ژنها و طبقهبندی نمونهها بر پایه الگوهای بیانی، توانایی پاسخگویی به بسیاری از سئوالات ژنتیکی را دارد (15).

دادههای گمشده در اطلاعات ریزآرایهها معمولاً طی آماده کردن اطلاعات به دلیل نقص در مراحل مختلف مانند دقت و تفکیک پذیری نامناسب، از بین رفتن تصویر، خراش یا گرد و خاک، وجود حباب بر روی اسلایدها و یا به صورت سیستماتیک در اثر روشهای ایجاد اسلایدها به وجود میآیند. متأسفانه به دلایل آزمایشگاهی و اقتصادی انجام دوباره آزمایشها مقرون به صرفه نیست. در زمان وجود دادههای گمشده به طور معمول سادهترین روش حذف بردار نیمرخ بیانی دارای داده گمشده و یا جایگزین کردن صفر (الگوریتم ZERO) یا میانگین ردیفها بهجای دادههای گمشده است (24). طی سالهای گذشته الگوریتمهای مختلفی برای تخمین دادههای گمشده، توسعه داده شده است که در ادامه نگاهی کوتاه بر الگوریتمهای استفاده شده در این مطالعه خواهد داشت.

اولین گزارش کاربرد الگوریتمهایی بر پایه یادگیری ماشین در تخمین دادههای گمشده مربوط به الگوریتمهای K Nearest Neighbor (KNN)، Singular Value Decomposition (SVD) و Row Average (RAVG) است (24)، سپس در سال 2003 الگوریتم دیگری به نام Bayesian Principle Component Analysis (BPCA) بر اساس روشهای آماری بیزین معرفی شد (18 و 23). پارامتری به نام K در الگوریتمهای SVD، KNN و Local Least Square (LLS) نیز بر دقت نتایج مؤثر است که معادل تعداد ژنهای ویژهای (Eigengene) است که بیشترین شباهت را به ژن دارای داده گمشده دارند. انتخاب مقادیر K در BPCA و همچنین SVD به تعداد ژنهای اصلی بستگی دارد (10). در روش LLS علاوه بر استفاده از مراحل بهینهسازی از طریق الگوریتم Local Square (LS) (الگوریتمی با خطای کم برای تخمین دادههای گمشده بیان ژن)، از شباهتهای ساختارهای محلی نیز استفاده میشود (16). الگوریتم Expectation Maximization (EM) برای هر دو تخمین بر اساس ژن و براساس آرایه، مورد استفاده قرار میگیرد (6 و 16). تخمین دادههای گمشده مخلوط (دادههایی شامل گمشدگی کاملاً تصادفی Missing completely at Random (MCAR) و گمشدگی تصادفی Missing at Random (MAR)) از طریق الگوریتم MissForest اولین بار توسط روبین و همکاران (1978) ممکن شد (7). این الگوریتم نسبت به KNN بدون توجه به ترکیب نوع متغیرها، ابعاد دادهها، منبع دادهها و یا میزان گمشدگی عملکردی بهتری دارد (22). الگوریتم Sequential K-Nearest Neighbor (SKNN) از دادههای تخمین زده شده برای تخمین دادههای بعدی استفاده میکند. در این روش، دادههای گمشده به صورت پشت سر هم از ژنهای دارای حداقل داده گمشده تخمین زده شده و برای محاسبات بعدی مورد استفاده قرار میگیرند (17). روش Support Vector Regression (SVR) برای محاسبه چندین داده گمشده در هر ردیف نیمرخ بیانی از طرح ورودیهای مستقل (Orthogonal input coding scheme) استفاده میکند (24). روش Least Square Adaptive (LSA) نیز از قانون حداقل مربعات استفاده میکند که در مقایسه با سایر الگوریتمها، دقت مناسب تری دارد (6).

از آنجا که بسیاری از الگوریتمهای خوشهبندی و تعدادی از روشهای تجزیه و تحلیل آماری به مجموعه دادههای کامل نیاز دارند، محاسبه دادههای گمشده برای کاربرد مؤثر اطلاعات ریزآرایه امری ضروری است (17). بنابراین برای به حداقل رساندن اثر مجموعه دادههای ناقص جهت افزایش دامنه قابل اطمینان و همچنین تجزیه و تحلیل دادهها، از الگوریتمهای تخمین دادههای گمشده بر پایه یادگیری ماشین استفاده میشود. هدف از این مطالعه مقایسه دقت الگوریتمهای تخمین دادههای گمشده با تعداد مختلف ژنها و با درصدهای مختلف گمشدگی دادهها در سه مجموعه داده مختلف است.

مواد و روشها

سه مجموعه داده از سایت Gene Expression Omnibus

(GEO) با پسوند .CEL دانلود شد (جدول 1).

جدول 1- مجموعه دادههای به کار رفته جهت انجام تحلیلهای مورد مطالعه

ردیف	تعداد ژن × تعداد نمونهها	چیپ به کار رفته برای آزمایش ریزآرایه	شماره دستیابی
1	265636 × 6	Affymetrix Porcine Genome Array	GSE32438
2	265628 × 6	Affymetrix Bovine Genome Array	GSE39796
3	265628 × 7	Affymetrix Bovine Genome Array	PMID: 20952064

الگوریتمهای به کار برده شده در این مطالعه به دو دسته الگوریتمهای Local imputation، الگوریتمهای Global imputation و الگوریتمهای دیگر SVR، EM و Missforset تقسیم شدند. الگوریتمهای Local imputation گروهی از ژنها با بیشترین ارتباط (فاصله اقلیدسی (24))، همبستگی پیرسون (6) و یا تخمین کوواریانس (20) را برای محاسبه داده گمشده ژن هدف انتخاب میکند. برای الگوریتمهای Local از روشهای KNN، SKNN، LSA، LLS، Row average و Zero imputation استفاده شد. همچنین برای الگوریتمهای Global از روشهای SVD، BPCA استفاده شد (جدول 2). برای ایجاد ماتریس کامل داده، تمام ژنهای دارای گمشدگی حذف شدند.

به منظور افزایش سرعت اجرای الگوریتمهای مختلف و همچنین امکان بررسی جزئیات عملکرد الگوریتمها در هر یک از مجموعه دادهها، از تعداد 200 و 800 ژن برای نمونههای مختلف آزمایشی استفاده شد. سپس برای یکسانسازی مقیاس اندازهگیری، هر سه مجموعه داده با استفاده از نرم افزار متلب، نسخه 2011 (MATLAB, version 2011) نرمال شدند. همچنین از تابع تولید گمشدگی (Miss generator Function)، در نرم افزار متلب، برای ایجاد درصدهای متفاوتی از گمشدگی در هر یک از مجموعه دادههای نرمال شده و در نهایت بررسی اثر درصد دادههای گمشده بر دقت تخمین الگوریتمهای مختلف، استفاده شد.

میزان دقت و کارآیی هر یک از الگوریتمها با استفاده از پارامتر آماری تابع خطای مربع میانگین ریشه نرمال شده (Normalized Root Mean Square Error (NRMSE)) محاسبه شد (فرمول 1).

فرمول 1

NRMSE، معیاری برای تعیین تفاوت بین ارزشهای محاسبه شده و ارزش واقعی است که در آن y_guess و y_ans به ترتیب مقدار تخمین زده شده و مقدار واقعی دادهها هستند (19). مناسبترین الگوریتم تخمین، الگوریتمی است که کمترین میانگین، NRMSE را داشته باشد. به عبارت دیگر مقدار NRMSE بین صفر تا یک متغیر است که هرچه این مقدار به صفر نزدیکتر باشد، دقت الگوریتم بیشتر است. سپس از 11 الگوریتم ZERO، RAVG، SVD، EM_gene، Missforset، BPCA، SKNN، SVR، KNN، LLS و LSA در هر سه مجموعه داده و با سه تکرار استفاده شد. به منظور نمایش دقت هر یک از الگوریتمها، تمام مقادیر تخمین زده شده دادههای گمشده و الگوریتمهای به کار رفته با 200 و 800 ژن در سطوح گمشدگی 5، 10، 15، 20، 25، 30، 45 و 60 درصد بر اساس NRMSE مقایسه شدند.

نتایج و بحث

امروزه دانشمندان برای بررسی بیان ژن از روشهای مختلفی (مانند فناوری ریزآرایه، RT-PCR نیمه کمی و غیره (1 و 4)، در تحقیقات مختلف و در موجودات متفاوت (مانند سرطان خون (4) و آدنوکارسینومای معده انسان (3)، گیاه ریحان (Ocimum basilicum L.) (1) و غیره) استفاده میکنند. در این مطالعه، سه مجموعه داده ریزآرایه و 11 الگوریتم تخمین داده گمشده به کار گرفته شدند. دقت تمامی الگوریتمها با افزایش درصد گمشدگی، کاهش یافت (شکل 1).

شکل 1- مقایسه میانگین دقت روشهای تخمین دادههای گمشده با 5 درصد داده گمشده در سه مجموعه داده مورد مطالعه

همچنین عملکرد و دقت هر کدام از الگوریتمها به تعداد ژنها، نمونهها و خصوصیات مجموعه داده مورد مطالعه وابسته بود. بر این اساس دقت و عملکرد الگوریتمهای ZERO و RAVG، به درصد گمشدگی و توزیع گمشدگی دادههای گمشده بستگی دارد و کمترین میزان دقت تخمین دادههای گمشده از این دو الگوریتم به دست آمد.

روشهای جایگزینی دادههای گمشده با صفر و یا میانگین ردیفها (RAVG) از ساختار همبستگی دادهها استفاده نمیکنند. به طور پیشفرض دقت روش تخمین جایگزینی صفر به جای داده گمشده، همیشه یک (یک برابر است با بیشترین مقدار NRMSE، به عبارت دیگر کمترین میزان دقت) است (24). به طوری که، پس از روش ZERO، دقت و عملکرد الگوریتم RAVG در تخمین دادههای گمشده موجود در تمامی مجموعهدادهها، برای 200 ژن (شکلهای 2 تا 4، سمت چپ) و 800 ژن (شکلهای 2 تا 4، سمت راست) کمترین میزان نسبت به سایر الگوریتمها بود.

الگوریتم MissForest در مجموعه دادههای یک، دو و سه، دقت مناسبی برای تخمین دادههای گمشده نداشت. با این وجود دقت تخمین آن از الگوریتمهای SVD، RAVG و EM_gene بهتر بود. همچنین با کاهش تعداد ژنهای مورد بررسی (از 800 ژن به 200 ژن) دقت تخمین این الگوریتم نیز کاهش یافت. البته دقت الگوریتمهای SDV و KNN بیشتر از روشهای جایگزینی صفر به جای داده گمشده و یا قرار دادن میانگین درایههای مشابه به ژن دارای داده گمشده (RAVG)، است. در این روش بر اساس فرض شباهت بیان یک ژن در یک آزمایش با میانگین بیان ژنها در زمانهای مختلف انجام آزمایش استوار است، به همین دلیل دقت پایین این روش امری دور از انتظار نیست (24).

شکل 2- مقایسه الگوریتمهای مختلف با گمشدگیهای متفاوت در مجموعه داده 1 (سمت چپ: 200 ژن و سمت راست: 800 ژن)

شکل 3- مقایسه الگوریتمهای مختلف با گمشدگیهای متفاوت در مجموعه داده 2 (سمت چپ: 200 ژن و سمت راست: 800 ژن)

شکل 4- مقایسه الگوریتمهای مختلف با گمشدگیهای متفاوت در مجموعه داده 3 (سمت چپ: 200 ژن و سمت راست: 800 ژن)

در الگوریتم KNN با افزایش ژنها میزان NRMSE نیز بیشتر میشود. این الگوریتم نسبت به افزایش درصد دادههای گمشده مقاوم و کاهش دقت آن در مقابل افزایش درصدهای گمشدگی کمتر از سایر الگوریتمها بود، به طوری که با 20 درصد داده گمشده، حداکثر 10 درصد کاهش دقت را نشان داد (24). همچنین الگوریتم KNN برای محاسبه دادههای گمشده برای ژنهایی که در خوشههای کوچک بیان می شوند، دقیق تر است (24). بنابراین دقت این الگوریتم برای 200 ژن از 800 ژن در هر سه مجموعه داده مورد مطالعه بیشتر بود و میزان NRMSE کوچکتری به دست آمد (شکلهای 2 تا 4). در این الگوریتم با کاهش تعداد ژنها، دقت بیشتری برای تخمین دادههای گمشده به دست آمد. الگوریتم KNN برای پروفایلهای بیانی با تعداد کم ژنها، نتایج دقیقتری دارد، به علاوه رابطه کاهش دقت آن با افزایش درصد گمشدگی، معنی دار نیست (8 و 11).

نتایج حاصل از تخمین SVD نشان دادند که این الگوریتم دقت کمتری نسبت به سایر روشها دارد و با کاهش تعداد ژنها از 800 به 200 ژن، مقدار NRMSE به دست آمده از این روش نیز در هر سه مجموعه داده کاهش یافت (شکلهای 2 تا 4). بر اساس خصوصیات دادهها، دقت تخمین الگوریتمهای MissForset و SVD تقریباً در دامنه 5/0 تا 63/0 بود. الگوریتم EM_gene نیز دقت پایینی (64/0) را نشان داد.

قدرت تخمین الگوریتم BPCA به تعداد نمونهها یا ژنهای مورد بررسی بستگی دارد. در این مطالعه در هر سه مجموعه داده به دلیل تعداد کم نمونههای مورد بررسی (شش و هفت نمونه) دقت الگوریتم BPCA کمتر از KNN و حتی روش SKNN بود. Oba و همکارن (2003) نشان دادند که دقت الگوریتم BPCA با افزایش تعداد ژنها (حداقل 40 نمونه) رابطه مستقیم دارد (18). همچنین دقت الگوریتم BPCA نیز با افزایش درصد گمشدگی رابطه معکوس داشت که این امر توسط Celton و Malpertuy (2010) نیز گزارش شده است (8).

نتایج حاصل از مقایسهها در دادههایی با 5 درصد گمشدگی نشان دادند که میزان NRMSE حاصل از الگوریتم LSA، 15 تا 20 درصد کوچکتر از نتایج حاصل از الگوریتم KNN است. با کاهش تعداد ژنها، دقت به دست آمده از الگوریتم LSA نیز به دلیل استفاده دادهها و روابط همبستگی کمتر، کاهش یافت. ارزشهای NRMSE در الگوریتم SKNN بیشتر از BPCA است. همچنین دقت الگوریتم SKNN به خصوص با افزایش درصد گمشدگی، بیشتر از الگوریتم EM_gene است. بر اساس نتایج هر سه مجموعه داده افزایش تعداد ژنها سبب کاهش دقت الگوریتم SKNN شد.

تخمین LLS میزان NRMSE کمتری نسبت به KNN و BPCA با 5 تا 60 درصد داده گمشده نشان داد. در این الگوریتم با کاهش ژنهای مورد مطالعه (از 800 ژن به 200 ژن)، خطای محاسباتی نیز بیشتر شد. دقت الگوریتم LLSدر تخمین دادههای گمشده بیشتر از الگوریتمهای KNN، BPCA و SVD گزارش شده است (12). همچنین الگوریتم SVR عملکرد ثابتی در درصدهای مختلف گمشدگی در هر سه مجموعه داده داشت. با افزایش مقدار گمشدگی، افزایش NRMSE حاصل از الگوریتم SVR اندکی بیشتر از مقدار این مقیاس برای الگوریتمهای LLS و BPCA و بسیار کمتر از الگوریتم KNN بود. هنگامی که درصد دادههای گمشده بسیار زیاد باشد، محاسبه SVR در مقایسه با BPCA و LLS به دلیل رویکردهای شبکهای برای مجموعه پارامترها، عملکرد ضعیفتری را نشان خواهد داد (25). الگوریتم SVR در مجموعه دادههایی با همبستگی بالای ژنی، عملکرد بهتری از الگوریتمهای KNN و BPCA داشت. با کاهش تعداد ژنهای مورد استفاده برای تخمین در هر سه مجموعه داده، میزان NRMSE در الگوریتم SVR بیشتر شد و در نتیجه دقت کاهش یافت.

به طور کلی دادههای گمشده مشکلاتی را برای تجزیه و تحلیل مجموعه دادههای حاصل از آزمایشهای ریزآرایه به وجود میآورند. بنابراین نیاز به برطرف کردن این مشکلات امری ضروری است (24). اولین راه حل ممکن، کم کردن حجم مجموعه دادهها از طریق حذف ژنهای دارای داده گمشده است. این روش برطرف کردن دادههای گمشده هنوز در عمل توسط بسیاری از محققین مورد استفاده قرار میگیرد (12 و 14). علی رقم وجود روشهای مختلفی برای تخمین دادههای گمشده، روشهای جدید توسعه یافتهتر هستند. البته روشهایی که از آنها به طور گستردهای در تحلیل دادههای ریزآرایه استفاده میشود، اغلب سبب اریب شدن و به غلط انداختن محاسبه دادههای گمشده شوند. بر این اساس توافق عمومی برای چگونگی انتخاب روشهای مختلف وجود ندارد، چون به نظر میرسد که عملکرد هر یک از آنها به مقدار زیادی به مجموعه داده مورد بررسی، درصد دادههای گمشده، توزیع گمشدگی دادهها، وجود عوامل اضافی مانند نویز و غیره وابسته است (26). برای دستیابی به بهترین روش تحلیل داده گمشده و به دست آوردن ماتریس کامل بیان ژن، باید دادههای گمشده و مناسبترین الگوریتمهای تخمین دادههای گمشده در مجموعه دادههای مختلف با شرایط متفاوت، مورد بررسی و شناسایی قرار گیرند (13). به طور کلی نتایج حاصل از مقایسه الگوریتمهای مختلف در منابع متفاوت، حاکی از این حقیقت است که هیچ الگوریتم تخمین مطلوبی برای تمامی انواع دادهای وجود ندارد. با این وجود و در این مطالعه در میان الگوریتمهای مورد بررسی در هر سه مجموعه داده، الگوریتم LSA بیشترین دقت و قدرت تخمین و همچنین کمترین NRMSE را در تمامی مجموعه دادههای مورد مطالعه به خود اختصاص داد (شکلهای 2 تا 4). این امر با ساختار همبستگی محلی (Local Correlation) دادهها و شباهت ژنهای مورد مطالعه و همچنین عملکرد روش LSA مرتبط است. عملکرد روش LSA براساس قانون حداقل مربعات و استفاده همزمان از ارتباط بین ژنها و آرایهها تعریف میشود. در این روش قانون حداقل مربعات براساس حداقل کردن مجموع خطاهای مربع مدل مورد بررسی است. علت استفاده از ارتباط ژنها به عنوان اساس تخمین، پدیده تنظیم همزمان ژنها طی فرآیندهای عملکردی سلول است، مانند نقش تنظیم کنندگی ژن ein2 در گیاه اطلسی بر مسیر انتقال پیام اتیلن (5). از طرف دیگر استفاده از پروفایلهای بیانی گرفته شده از آرایههای مختلف نیز از اهمیت به سزایی برخوردار است چرا که هیبریداسیونهای آرایهای نمونههای بیولوژیکی حاصل از بافتهای یکسان معمولاً با یکدیگر در ارتباط هستند، بر این اساس انتظار میرود اندازه ستونهای مختلف آنها در ماتریس بیانی ژنها نیز یکسان باشد. اگرچه عکس این مطلب نیز صادق است (نمونههای زیستشناسی بسیار متفاوت، پایه و اساس ضعیفی برای تخمین ماتریس بیانی هستند). همان طور که پیشتر نیز اشاره شد الگوریتم LSA مانند KNN از میانگین وزنی ژنهایی با همبستگی بیشتر به ژنهای دارای داده گمشده استفاده میکند و سپس با استفاده از معادله حداقل مربع، داده گمشده را محاسبه میکند. البته میانگین وزنی در الگوریتم LSA بر اساس روش وزنی سازگار (Adaptive Weighting Scheme) و با

در نظرگیری ساختار همبستگی دادهها تعیین میشود.

الگوریتمهای LLS و SVR نیز در درجه بعد، تخمین قویتری را نشان دادند و کمترین قدرت و دقت در الگوریتمهای RAVG و ZERO به دست آمد.

مراجع

تحصیلی، ژ. شریفی، م. بهمنش، م. ضیایی، م. 1389. بیان ژن آنزیم اوژنول-O - متیل ترانسفراز و ارتباط آن با اجزاء اسانس در مراحل مختلف رشد ریحان ( Ocimum basilicum L.). مجله زیستشناسی ایران. (1) 23. ص: 25-18.
خلیلی، س. جهانگیری، الف. امانی، ج. سلمانیان، ع. ه. 1393. کاربرد بیوانفورماتیک در مطالعات ایمنی شناسی. مجله زیستشناسی ایران. (2) 27. ص: 210- 192.
رنجی، ن. پادگانه، الف. صادقیزاده، د. صادقیزاده، م. 1393. بررسی بیان ژنهای hTERT و Survivin در رده سلولی آدنوکارسینومای معده انسان (AGS) تحت تیمار با نانوکورکومین. مجله زیستشناسی ایران. (2) 27. ص: 241-233.
قلندری، م. بهمنش، م. اکبری، م. ت. 1391. بررسی بیان ژن SUZ12 به عنوان مارکری از تغییرات اپی ژنتیکی در بیماران مبتلا به سرطان خون (CML). مجله زیستشناسی ایران. (2) 25. ص: 229- 220.
میرشمسی کاخکی، الف. بهرامی، الف. ر. شهریاری احمدی، ف. گری، ج. 1392. بررسی بیان ژن ein2 در گیاه اطلسی (Petunia×hybrida) و مطالعه نقش تنظیم کنندگی آن در مسیر انتقال پیام اتیلن. مجله زیستشناسی ایران. (4) 26. ص: 587-572.
1. Bø, T.H., Dysvik, B. and Jonassen, I. 2004. LSimpute: accurate estimation of missing values in microarray data with least squares methods, Nucleic acids research, 32: e34-e34.
2. Breiman, L. 2001. Random forests, Machine learning, 45: 5-32.
3. Celton, M., Malpertuy, A., Lelandais, G. and De Brevern, A.G. 2010. Comparative analysis of missing value imputation methods to improve clustering and interpretation of microarray experiments, BMC genomics, 11: 15.
4. Fellenberg, K., Busold, C.H., Witt, O., Bauer, A., Beckmann, B., Hauser, N.C., Frohme, M., Winter, S., Dippon, J. and Hoheisel, J.D. 2006. Systematic interpretation of microarray data using experiment annotations, BMC genomics, 7: 319.
5. Golub, T.R., Slonim, D.K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J.P., Coller, H., Loh, M.L., Downing, J.R. and Caligiuri, M.A. 1999. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring, Science, 286: 531-537.
6. Hoheisel, J.D. 2006. Microarray technology: beyond transcript profiling and genotype analysis, Nature reviews genetics, 7: 200-210.
7. Horton, N.J. and Kleinman, K.P. 2007. Much ado about nothing, The American Statistician, 61.
8. Hourani, M.A. and El Emary, I.M. 2009. Microarray missing values imputation methods: Critical analysis review, Computer Science and Information Systems/ComSIS, 6: 165-190.
9. Kaiser, J. 2012. Algorithm for Missing Values Imputation in Categorical Data with Use of Association Rules, ACEEE International Journal on Recent Trends in Engineering & Technology.
10. Kerr, M.K., Martin, M. and Churchill, G.A. 2000. Analysis of variance for gene expression microarray data, Journal of computational biology, 7: 819-837.
11. Kim, H., Golub, G.H. and Park, H. 2005. Missing value estimation for DNA microarray gene expression data: local least squares imputation, Bioinformatics, 21: 187-198.
12. Kim, K.-Y., Kim, B-J. and Yi, G.-S. 2004. Reuse of imputed data in microarray analysis increases imputation efficiency, BMC bioinformatics, 5: 160.
13. Oba, S., Sato, M.-a., Takemasa, I., Monden, M., Matsubara, K.-i. and Ishii, S. 2003. A Bayesian missing value estimation method for gene expression profile data, Bioinformatics, 19: 2088-2096.
14. Ouyang, M., Welsh, W.J. and Georgopoulos, P., 2004. Gaussian mixture clustering and imputation of microarray data, Bioinformatics, 20: 917-923.
15. Sehgal, M.S.B., Gondal, I. and Dooley, L.S. 2005. Collateral missing value imputation: a new robust missing value estimation algorithm for microarray data, Bioinformatics, 21: 2417-2423
16. Stekel, D. 2003. Microarray bioinformatics. Cambridge University Press.
17. Stekhoven, D.J. and Bühlmann, P. 2012. MissForest—non-parametric missing value imputation for mixed-type data, Bioinformatics, 28: 112-118.
18. Takemasa, I., Higuchi, H., Yamamoto, H., Sekimoto, M., Tomita, N., Nakamori, S., Matoba, R., Monden, M. and Matsubara, K. 2001. Construction of preferential cDNA microarray specialized for human colorectal carcinoma: Molecular sketch of colorectal cancer, Biochemical and biophysical research communications, 285: 1244-1249.
19. Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., Tibshirani, R., Botstein, D. and Altman, R.B. 2001. Missing value estimation methods for DNA microarrays, Bioinformatics, 17: 520-525.
20. Wang, X., Li, A., Jiang, Z. and Feng, H. 2006. Missing value estimation for DNA microarray gene expression data by Support Vector Regression imputation and orthogonal coding scheme, BMC bioinformatics: 7, 32.
21. Yeung, K.Y., Medvedovic, M. and Bumgarner, R.E. 2003. Clustering gene-expression data with repeated measurements, Genome Biol, 4: R34.

پژوهش‌های سلولی و مولکولی (مجله زیست شناسی ایران)

دوره 28، شماره 4 - شماره پیاپی 4
اسفند 1394
صفحه 612-622

فایل ها

سابقه مقاله

تاریخ دریافت: 12 بهمن 1393
تاریخ بازنگری: 12 مهر 1394
تاریخ پذیرش: 12 مهر 1394

هم رسانی

ارجاع به این مقاله

آمار

تعداد مشاهده مقاله: 3,758
تعداد دریافت فایل اصل مقاله: 2,333

پژوهش‌های سلولی و مولکولی (مجله زیست شناسی ایران)

مقایسه الگوریتم‌های برپایه یادگیری ماشین بر دقت تخمین داده‌های گمشده حاصل از آزمایش‌های ریزآرایه

دوره 28، شماره 4 - شماره پیاپی 4اسفند 1394صفحه 612-622

دوره 28، شماره 4 - شماره پیاپی 4
اسفند 1394
صفحه 612-622