پیشگویی دقیق ساختار دوم RNA مبتنی بر الگوریتم ژنتیک

منتصری, سهیلا; مقدم چرکری, نصرالله; زارع میرک آباد, فاطمه

doi:27311

پیشگویی دقیق ساختار دوم RNA مبتنی بر الگوریتم ژنتیک

نوع مقاله : مقاله پژوهشی

نویسندگان

¹ دانشگاه تربیت مدرس

² دانشگاه صنعتی امیرکبیر

27311

چکیده

مولکول RNA نقش مهم و اساسی در فرآیندهای زیستی ایفا می¬کند. در بیشتر مواقع، عملکرد RNAها توسط ساختار آنها مشخص می¬شود. با توجه به پیچیدگی و هزینه بر بودن روش¬های آزمایشگاهی برای پیشگویی ساختار RNAها، از روش¬های محاسباتی استفاده می¬گردد. الگوریتم¬های متنوعی جهت پیشگویی ساختار دوم مولکول RNA وجود دارد. در این مقاله، یک الگوریتم ژنتیک بنام RNAG جهت پیشگویی ساختار دوم مولکول RNA براساس حداقل انرژی آزاد ارائه می¬شود. در این الگوریتم، هر فرد از جمعیت شامل تعدادی ساقه می¬باشد. افراد براساس مقدار برازندگی حداقل انرژی آزاد شده از ساقه¬ها و حلقه¬ها به¬ترتیب صعودی رتبه¬بندی شده و در ادامه به¬ترتیب عملگرهای تقاطع و جهش روی آنها برای ایجاد نسل بعد اجرا می¬گردد. فرآیند تولید نسل تا زمان تولید یک فرد با حداقل انرژی آزاد مناسب ادامه می¬یابد. در پایان این فرد به¬عنوان ساختار دوم بهینه در نظر گرفته می¬شود. الگوریتم پیشنهادی روی تعدادی از RNAها در باکتری¬ها اجرا می¬گردد. نتایج حاصل از این تحقیق نشان می¬دهد که الگوریتم RNAG در مقایسه با سایر روش¬های مشابه دارای دقت بسیار بالا است.

کلیدواژه‌ها

20.1001.1.23832738.1393.27.3.11.3

عنوان مقاله [English]

A genetic approach to accurately predict RNA secondary structure

نویسندگان [English]

soheila montaseri ¹
Nasrollah Moghadam Charkari ¹
Fatemeh Zare Mirakabad ²

¹ Tarbiat Modares University

² Amirkabir University of Technology

چکیده [English]

RNA molecule plays important and fundamental roles in many biological processes. In the most times, activities of RNAs are determined by their structures. In notice to complexity and costly of laboratory methods to predict RNAs structure, computational approaches are used. There are variety of algorithms to predict RNA secondary structure. In this paper, a genetic algorithm called RNAG is presented to predict the RNA secondary structure based on minimum free energy (MFE). In this algorithm, each individual of population includes some stems. The individuals are increasingly ranked based on fitness value of MFE from stems and loops, and in the follow, crossover and mutation operations are done on individuals to make a new population, respectively. Process of population generation continues until an individual with proper MFE is produced. Finally, this individual is selected as an optimal RNA secondary structure. The proposed algorithm is performed on some RNAs in the bacteria. Results of the paper show that RNAG algorithm has a high accuracy in comparison with the other related methods.

کلیدواژه‌ها [English]

minimum free energy
stem
fitness value

اصل مقاله

پیشگویی دقیق ساختار دوم RNA مبتنی بر الگوریتم ژنتیک

سهیلا منتصری¹، نصرالله مقدم-چرکری^2* و فاطمه زارع میرک آباد³

¹ تهران، دانشگاه تربیت مدرس، دانشکده علوم ریاضی، گروه علوم کامپیوتر

² تهران، دانشگاه تربیت مدرس، دانشکده مهندسی برق و کامپیوتر، گروه مهندسی کامپیوتر

³ تهران، دانشگاه صنعتی امیرکبیر، دانشکده ریاضی و علوم کامپیوتر، گروه علوم کامپیوتر

تاریخ دریافت: 1/9/90 تاریخ پذیرش: 4/5/91

چکیده

مولکول RNA نقش مهم و اساسی در فرآیندهای زیستی ایفاء میکند. در بیشتر مواقع، عملکرد RNAها توسط ساختار آنها مشخص میشود. با توجه به پیچیدگی و هزینه بر بودن روشهای آزمایشگاهی برای پیشگویی ساختار RNAها، از روشهای محاسباتی استفاده میگردد. الگوریتمهای متنوعی جهت پیشگویی ساختار دوم مولکول RNA وجود دارد. در این مقاله، یک الگوریتم ژنتیک به نام RNAG جهت پیشگویی ساختار دوم مولکول RNA براساس حداقل انرژی آزاد ارائه میشود. در این الگوریتم، هر فرد از جمعیت شامل تعدادی ساقه میباشد. افراد براساس مقدار برازندگی حداقل انرژی آزاد شده از ساقهها و حلقهها بهترتیب صعودی رتبهبندی شده و در ادامه بهترتیب عملگرهای تقاطع و جهش روی آنها برای ایجاد نسل بعد اجرا می گردد. فرآیند تولید نسل تا زمان تولید یک فرد با حداقل انرژی آزاد مناسب ادامه مییابد. در پایان این فرد بهعنوان ساختار دوم بهینه در نظر گرفته میشود. الگوریتم پیشنهادی روی تعدادی از RNAها در باکتریها اجرا میگردد. نتایج حاصل از این تحقیق نشان میدهد که الگوریتم RNAG در مقایسه با سایر روشهای مشابه دارای دقت بسیار بالا است.

واژه های کلیدی: حداقل انرژی آزاد، ساقه، مقدار برازندگی.

* نویسنده مسئول، تلفن: 82883301، پست الکترونیکی: charkari@modares.ac.ir

مقدمه

مولکولهای RNA در تمام موجودات زنده دارای نقش حیاتی هستند. شناخت ساختار RNA در درک فعالیت آن اهمیت فراوانی دارد )8(. ساختار مولکولهای RNA در بیان ژن، پیرایش RNAهای پیک (Messenger RNA)، ساخت پروتئین و عملکردهای زیستی دیگر مؤثر است (1،2و11). بهعنوان مثال، خاتمه رونویسی (Transcription) بعضی از ژنها در باکتری، براساس ساختار سنجاقسری انتهایی RNA پیک انجام میشود )14(. از نکات مهم در پیشگویی ساختار دوم RNA میتوان به دنبالههایی اشاره کرد که هنوز ساختار آنها از راه آزمایش مشخص نشده و در نتیجه هیچ نظیری در پایگاه داده برای آنها نمیتوان یافت. از اهداف مهم پیشگویی ساختارها حل این مشکل است (16). موضوع دیگری که کاربرد مهمی جهت طراحی ساختارهای RNA دارد، برهمکنش دو مولکول RNA است )13(. پیشگویی ساختارهای RNA مقدمهای در تعیین ساختار برهمکنش دو RNA میباشد.

تلاشهایی جهت پیشگویی ساختار دوم مولکولهای RNA با بیشینه کردن تعداد جفتبازها (Base pairs)، با استفاده از برنامهنویسی پویا انجام شد که در آن بهترین ساختار برای هر زیردنباله محاسبه میگردد )10(. پس از آن الگوریتم مشابهی ارائه شد که در آن از مقادیر انرژی آزاد جفتبازها برای محاسبه ساختاری با کمترین انرژی آزاد (Minimum free energy) استفاده میشود (9 و 18). در یک روش دیگر برای پیشگویی ساختار دوم، توابع تسهیم (Partition function) مولکولهای RNA براساس برنامه نویسی پویا محاسبه میگردند )7(. ابزار MFold )19( توسط پارامترهای موجود برای محاسبه ساختار دوم RNA )15(، به پیشگویی ساختار دوم میپردازد. در تعدادی از رویکردها، انرژی آزاد با استفاده از مدل ترمودینامیکی نزدیکترین همسایه تعیین میشود. در این مدلها، انرژی آزاد ساختار بهعنوان مجموع انرژیهای آزاد شده از هر ساقه (Stem) و حلقه با استفاده از دادههای ترمودینامیکی محاسبه میگردد )6 و 17(. روشی براساس گرامرهای مستقل ازمتن ارائه شد که در آن از الگوریتمهای آماری برای ایجاد ساختار دوم استفاده میشود )12(. ابزار RNAFold )3( با استفاده از پارامترهای انرژی ایجاد شده )5( ساختار دوم RNA را پیشگویی میکند.

در این مقاله، یک الگوریتم ژنتیک به نام RNAG جهت پیشگویی دقیق ساختار دوم مولکول RNA ارائه میشود. در این الگوریتم، یک ماتریس نقطهای ایجاد میگردد که نشاندهنده تمام جفتبازهای ممکن در RNA است. هر زیرقطر در ماتریس نقطه ای را میتوان بهعنوان یک ساقه در نظر گرفت. سپس جمعیتی از ساقههایی که به طور تصادفی انتخاب میشوند، ایجاد شده و مقدار برازندگی (Fitness value) حداقل انرژی آزاد شده از ساقهها و حلقهها برای هر فرد موجود در جمعیت محاسبه میگردد. برای ایجاد نسل جدید، عملگرهای تقاطع (Crossover) و جهش (Mutation) بهترتیب روی تعدادی از افراد نسل جاری انجام میشود. فرآیند تولید نسل ادامه مییابد تا زمانی که انرژی آزاد فردی به حد مطلوب برسد. در نهایت، این فرد با حداقل انرژی آزاد جهت تشکیل ساختار دوم RNA انتخاب میشود. الگوریتم پیشنهادی روی تعدادی از دادهها شامل CopA، CopT، R1inv، R2inv، Tar، Tar*، DIS، IncRNA₅₄ و RepZ در باکتریها به کار رفته است. نتایج حاصل از این تحقیق نشان میدهد که الگوریتم RNAG در مقایسه با سایر روشهای مشابه دقت بالایی دارد.

مواد و روشها

پایگاه داده: RNAهای مورد بررسی در این مقاله شامل CopA، CopT، R1inv، R2inv، Tar، Tar*، DIS، IncRNA₅₄ و RepZ هستند (4).

تعاریف پایه: دنباله RNA از چهار نوع نوکلئوتید تشکیل میشود که شامل آدنین (A)، گوانین (G)، سیتوزین (C) و یوراسیل(U) است. هر RNA دارای دو انتهای مجزا است که بهعنوان ¢3 و ¢5 شناخته میشوند. یک دنباله RNA به نام R ، |R| = n در جهت ¢5 به ¢3 به صورت زیر تعریف میگردد:

R = r₁r₂... r_n : "i (1£i£n)r_i Î{A, C, G, U}.

معکوسR باr_n r_n-1... r₁. در جهت ¢3 به ¢5 مشخص می شود. بنابراین r_{i j}=r_ir_i+1... r_j زیردنبالهای از R است که از موقعیت i شروع شده و به موقعیت j ختم میگردد. دنباله RNA با تشکیل پیوند هیدروژنی بین بازهای آن تشکیل ساختار میدهد. بیشتر پیوندها بین بازهای مکمل واتسون-کریک روی میدهند که در آنها G با C و A با U جفت میشوند و برعکس. این پیوندها میتوانند ساختار دوم RNA را تشکیل دهند.

ساختار دوم RNA از ساقهها و نواحی منفرد (Single regions) تشکیل میشود. هر ساقه مجموعهای از جفتبازهای مجاور مانند (r_i,r_j) و (r_i_¢,r_j_¢) است به طوری که
j¢ i, i¢, j, توسط یکی از شرایط زیر ارضاء می گردند:

i < i¢ < j¢ < j

i¢ < i < j < j¢

به فرض اینکه r_{i j} و r_{k l} دو زیردنباله از RNA باشند که تشکیل ساقه میدهند. بنابراین زیردنباله r_{i j} به معکوس r_{k l} متصل میشود. بهعبارت دیگر، بین هریک از بازهای r_{i j} و معکوس r_{k l} بهترتیب پیوند هیدروژنی برقرار میگردد. برای نشان دادن ساقه در ساختار دوم RNA، هر باز در r_{i j} با ¢(¢ و هر باز در r_{k l} با ¢)¢ مشخص میشود. نواحی منفرد بهعنوان حلقه یا تکرشتهای شده (Single-stranded) در نظر گرفته میشوند. لازم به ذکر است که دو انتهای هر ناحیه حلقه به ساقهها متصل می گردند در حالی که تنها یک انتهای هر تکرشتهای شده به یک ساقه پیوند می خورد. هر باز در نواحی منفرد با ¢.¢ نشان داده میشود. بنابراین S = s₁ ... s_n ساختار دوم RNA را نشان میدهد که در آن برای هر باز i ، این فرمول 1£ i £ n ،
s_i Î{¢(¢,¢)¢,¢.¢} در نظر گرفته می شود.

الگوریتم ژنتیک روشی است که در حل مسائل بهینهسازی مورد استفاده قرار میگیرد و براساس فرآیندهای ژنتیکی موجودات زنده است. الگوریتم ژنتیک با جمعیتی از افراد بیان میشود که هر فرد نشاندهنده راهحلی برای مسئله است. مقدار برازندگی به هر فرد با توجه به میزان مناسب بودن آن بهعنوان یک راهحل، اختصاص داده میشود. افراد براساس مقدار برازندگی جفتگیری کرده و نسل جدید تشکیل میگردد. فرآیند تولید نسل تا زمانی ادامه مییابد که راهحل بهینه برای مسئله یافت شود.

روش پیشنهادی: در مسئله پیشگویی ساختار دوم RNA، یک RNA بهعنوان ورودی در نظر گرفته میشود و هدف یافتن ساختار دوم RNA است که دارای حداقل انرژی آزاد باشد. تعریف دقیقتر مسئله به شرح زیر است:

ورودی: یک RNA با دنباله R = r₁ r₂... r_n. در جهت ¢5 به ¢3.

خروجی: ساختار دوم که با دنبالهای از کاراکترهای ¢(¢، ¢)¢ و ‘.’ نشان داده میشود.

در این مقاله، روش پیشنهادی برای حل مسئله ساختار دوم RNA براساس یک الگوریتم ژنتیک به نام RNAG است که شامل مراحل ایجاد جمعیت اولیه، عملگرهای تقاطع و جهش و شرط خاتمه الگوریتم میباشد که در ادامه به توضیح آنها پرداخته می شود.

ایجاد جمعیت اولیه: چگونگی تولید جمعیت اولیه بهترتیب زیر انجام میشود:

3) ماتریس نقطهای برای دنباله R براساس بازهای مکمل واتسون-کریک ایجاد میگردد که مقدار آن در موقعیت به صورت زیر تعریف میشود:

M^R[i,j] =

به طوری که و بهترتیب نشاندهنده باز ام و ام در دنباله برای هر و ، ، هستند. (توجه کنید که در ایجاد این ماتریس جفتباز در نظر گرفته نمیشود چون دقت پیشگویی را کاهش میدهد.)

4) در ماتریس نقطهای ، تمام مقادیر مورب متوالی 1 که روی قطر اصلی یا موازی آن قرار داشته باشند بهعنوان یک زیرقطر در نظر گرفته میشوند. مجموعهای از زیرقطرهای به صورت زیر تعریف میگردد:

D^R = { < i, j, k, l > |1£ i £ k £ n & 1 £ j £ l £ n }

به طوری که و بهترتیب موقعیت شروع و پایان یک زیرقطر را مشخص میکنند. فرض کنید و است. این زیرقطر نشان دهنده این است که زیردنباله در به زیردنباله در معکوس متصل میشود. اگر و با شرایط ، و موجود باشند، آنگاه بایستی از مجموعه حذف و دو زیرقطر و به مجموعه مورد نظر اضافه شوند. زیرا در این حالت تعدادی از بازهای تشکیل دهنده زیرقطر دو مرتبه جهت تشکیل پیوند محاسبه میگردند.

5) جمعیت اولیه براساس به این صورت ساخته میشود که برای هر ، ، مراحل زیر انجام میپذیرد:

الف) ، به طور تصادفی از مجموعه ایجاد میگردد. به بیان دقیقتر، برای هر فرد (که ابتدا تهی است) در جمعیت، ابتدا یک زیرقطر تصادفی از انتخاب شده و در آن قرار میگیرد. زیرقطرهای بعدی نیز به طور تصادفی انتخاب شده و در صورتی در فرد قرار میگیرند که با هیچ یک از زیرقطرهای موجود در آن همپوشانی نداشته باشند. اگر همپوشانی وجود داشته باشد، قسمتهای همپوشان از زیرقطر جدا شده و زیرقطر حاصل به مجموعه زیرقطرهای قبلی اضافه میشود. فرض کنید که و . همپوشانی دو زیرقطر و به صورت زیر تعریف میگردد:

Overlap(d₁, d₂) =

ب) مقدار برازندگی فرد به صورت زیر محاسبه می شود:

Fitness (C[i]) =

به طوری که نشاندهنده یک زیرقطر در مجموعه است و حلقهای در مجموعه حلقههای هیرپین، بالج، داخلی و چندحلقهای در فرد را نشان میدهد. حداقل انرژی آزاد شده از به صورت زیر محاسبه میگردد:

MFE (d¢ ) =

که انرژی آزاد شده از دو جفتباز مجاور و میباشد و نشاندهنده مجموعهای از جفتبازها در زیرقطر است. حداقل انرژی آزاد شده از تمام دو جفتبازهای مجاور که تشکیل ساقه میدهند، در جدول1 نشان داده شده است. انرژی آزاد حلقههای هیرپین، بالج و داخلی مجموع دو مقدار زیر می باشد (20):

3) حداقل انرژی آزاد شده از این نوع حلقهها براساس اندازه حلقه در جدول2 مشخص شده است. برای حلقههای با طول بیشتر از 30، حداقل انرژی آزاد به صورت زیر محاسبه میشود:

MFE(l) = MFE(30) + 1.75*RT* ln (size/30)

به طوری که ثابت جهانی گاز، دمای خالص و اندازه حلقه است.

جدول 1 - حداقل انرژی آزاد شده از تمام دو جفتبازهای مجاور در ساقه.

5'->3'	AA	AC	AG	AU	CA	CC	CG	CU	GA	GC	GG	GU	UA	UC	UG	UU
AA	.	.	.	.	.	.	.	.	.	.	.	.	.	.	.	-0.9
AC	.	.	.	.	.	.	.	.	.	.	.	.	.	.	-2.2	.
AG	.	.	.	.	.	.	.	.	.	.	.	.	.	-2.1	.	-0.6
AU	.	.	.	.	.	.	.	.	.	.	.	.	-1.1	.	-1.4	.
CA	.	.	.	.	.	.	.	.	.	.	.	-2.1	.	.	.	.
CC	.	.	.	.	.	.	.	.	.	.	-3.3	.	.	.	.	.
CG	.	.	.	.	.	.	.	.	.	-2.4	.	-1.4	.	.	.	.
CU	.	.	.	.	.	.	.	.	-2.1	.	-2.1	.	.	.	.	.
GA	.	.	.	.	.	.	.	-2.4	.	.	.	.	.	.	.	-1.3
GC	.	.	.	.	.	.	-3.4	.	.	.	.	.	.	.	-2.5	.
GG	.	.	.	.	.	-3.3	.	-1.5	.	.	.	.	.	-2.1	.	-0.5
GU	.	.	.	.	-2.2	.	-2.5	.	.	.	.	.	-1.4	.	1.3	.
UA	.	.	.	-1.3	.	.	.	.	.	.	.	-1	.	.	.	.
UC	.	.	-2.4	.	.	.	.	.	.	.	-1.5	.	.	.	.	.
UG	.	-2.1	.	-1	.	.	.	.	.	-1.4	.	0.3	.	.	.	.
UU	-0.9	.	-1.3	.	.	.	.	.	-0.6	.	-0.5	.	.	.	.	.

جدول 2- حداقل انرژی آزاد شده از حلقههای داخلی، بالج و هیرپین براساس اندازه حلقه.

هیرپین	بالج	داخلی	اندازه
.	3.8	.	1
.	2.8	.	2
5.4	3.2	.	3
5.6	3.6	1.1	4
5.7	4	2.1	5
5.4	4.4	1.9	6
6	4.6	2	7
5.5	4.7	2.2	8
6.4	4.8	2.3	9
6.5	4.9	2.4	10
6.6	5	2.5	11
6.7	5.1	2.6	12
6.8	5.2	2.7	13
6.9	5.3	2.8	14
6.9	5.4	2.8	15
7	5.4	2.9	16
7.1	5.5	3	17
7.1	5.5	3	18
7.2	5.6	3.1	19
7.2	5.7	3.2	20
7.3	5.7	3.2	21
7.3	5.8	3.3	22
7.4	5.8	3.3	23
7.4	5.8	3.4	24
7.5	5.9	3.4	25
7.5	5.9	3.4	26
7.5	6	3.5	27
7.6	6	3.5	28
7.6	6	3.6	29
7.7	6.1	3.6	30

4) تعدادی از حلقهها انرژی مازادی براساس نوکلئوتیدهای حلقه دارند. این نوع حلقهها و انرژی مازاد آنها در جدول 3 نشان داده شده است.

توجه کنید که انرژی دیگری بین جفتباز انتهایی حلقهها و دو باز جفتنشده مجاور آن وجود دارد که در اینجا به آن پرداخته نشده است.

در انتها، افراد براساس مقدار برازندگی حداقل انرژی آزاد بهترتیب صعودی مرتب میشوند.

جدول 3- حداقل انرژی آزاد شده از حلقهها با توجه به نوکلئوتیدهای حلقه.

انرژی	دنباله	اندازه
6.8	CAACG	5
6.9	GUUAC	5
2.8	CUACGG	6
2.7	CUCCGG	6
3.7	CUUCGG	6
3.3	CCAAGG	6
3.4	CCCAGG	6
3.5	CCGAGG	6
3.7	CCUAGG	6
3.7	CCACGG	6
3.6	CCGCGG	6
2.5	CCUCGG	6
3.6	CUAAGG	6
3.7	CUCAGG	6
3.5	CUUAGG	6
2.8	CUGCGG	6
5.5	CAACGG	6
2.9	ACAGUGCU	8
3.6	ACAGUGAU	8
1.8	ACAGUUCU	8
2.8	ACAGUACU	8

عملگر تقاطع: عملگر تقاطع با نرخ 9/0 روی افراد انجام میگیرد، به این صورت که ابتدا 5 درصد از بهترین افراد و 5 درصد از افراد با برازندگی متوسط به نسل بعد منتقل میشوند. باقیمانده افراد، بهترتیب میزان برازندگی دو به دو برای جفتگیری انتخاب میگردند. به عبارت دیگر دو فرد و از جمعیت به عنوان والدین در نظر گرفته میشوند، سپس از یک موقعیت تصادفی جفتگیری میکنند و در پایان دو فرزند ایجاد میگردد. با توجه به اینکه طول هر فرد است، احتمال انتخاب هر موقعیت تصادفی میباشد. در این موقعیت، والدین به دو بخش تقسیم شده و فرزند اول و دوم بهترتیب زیرقطرهای موجود در طرف چپ والدین اول و دوم را به خود اختصاص می دهند. هریک از زیرقطرهای طرف راست والدین اول و دوم در صورتی بهترتیب در فرزندان دوم و اول قرار میگیرند که با هیچ یک از زیرقطرهای موجود در فرزند همپوشانی نداشته باشند. اگر همپوشانی وجود داشته باشد، در فرزند قرار داده نمیشود یا در صورت امکان بخشی که همپوشانی ندارد انتخاب شده و در فرزند قرار میگیرد. این فرآیند نسل بعد را با فرزندان جدید تشکیل میدهد.

عملگر جهش: با توجه به اینکه نرخ جهش 1/0 است، 10 درصد از ضعیفترین افراد جمعیت گزینش میگردند تا عملگر جهش روی آنها اجرا شود. برای این افراد، یک زیرقطر تصادفی از ماتریس نقطهای انتخاب شده و تنها در صورتی با یک زیرقطر تصادفی از فرد جایگزین میگردد که با هیچ یک از زیرقطرهای موجود در فرد (جز زیرقطر انتخابی از فرد) همپوشانی نداشته باشد. اگر همپوشانی وجود داشته باشد، انتخاب زیرقطر تصادفی از ماتریس نقطهای ادامه مییابد تا زمانی که همپوشانی موجود نباشد یا زمان خاتمه یابد.

خاتمه الگوریتم: فرآیند تولید نسل هنگامی متوقف میشود که شرط برقرار گردد. در انتها فردی جهت تشکیل ساختار دوم گزینش میشود که انرژی آزاد کمتری داشته باشد.

نتایج

الگوریتم پیشنهادی، RNAG، روی تعدادی از RNAها جهت پیشگویی ساختار دوم آنها اجرا شده است. مجموعه دادهها شامل CopA، CopT، R1inv، R2inv، Tar، Tar*، DIS، IncRNA₅₄ و RepZ است. بهعنوان مثال CopA را در نظر بگیرید. شکل1 ساختار دوم پیشگویی شده CopA را نشان میدهد که به ساختار واقعی بسیار نزدیک است. برای ارزیابی دقت پیشگویی RNAG از دو معیار حساسیت و برجستگی ویژه استفاده میشود که به صورت زیر محاسبه میگردند:

= (1)

= (2)

معیارF با در نظر گرفتن هر دو مقدار حساسیت و برجستگی ویژه به صورت زیر تعیین میشود:

معیارF = (3)

5’-GUGGGCCCCGGUAAUCUUUUCGUACUCGCCAAAGUUGAAGAAGAUUAUCGGGGUUU-3’

. . . . .((((((((((((( …………………. ))))))))))))). . .

ساختار دوم واقعی CopA

5’-GUGGGCCCCGGUAAUCUUUUCGUACUCGCCAAAGUUGAAGAAGAUUAUCGGGGUUU-3’

. . . . .(((((.((((((((………………….))))))).))))). . .

ساختار دوم پیشگویی شده CopA

شکل1

جدول 4 - دقت پیشگویی RNAG روی مجموعهای از RNAها.

RNA دنباله طول حساسیت (%) برجستگی ویژه (%) Fمعیار (%)

Tar 16 100.00 100.00 100.00

Tar* 16 100.00 100.00 100.00

R1inv 21 100.00 100.00 100.00

R2inv 19 100.00 100.00 100.00

DIS 35 100.00 100.00 100.00

CopA 56 92.30 100.00 96.00

CopT 57 100.00 100.00 100.00

IncRNA₅₄54 100.00 73.33 84.61

RepZ 61 68.18 78.95 73.17

Average 95.61 94.70 95.15

جدول 5 - مقایسه حساسیت RNAG با تعدادی از رویکردها.

RNA توالی RNAG RNAFold MFold

Tar 100.00 100.00 100.00

Tar* 100.00 100.00 100.00

R1inv 100.00 100.00 100.00

R2inv 100.00 100.00 100.00

DIS 100.00 100.00 100.00

CopA 92.30 100.00 100.00

CopT 100.00 100.00 100.00

IncRNA₅₄ 100. 00 100.00 100.00

RepZ 68.18 100.00 68.18

Average 95.61 100.00 96.46

جدول6- مقایسه برجستگی ویژه RNAG با تعدادی از رویکردها.

RNA توالی RNAG RNAFold MFold

Tar 100.00 100.00 83.33

Tar* 100.00 100.00 100.00

R1inv 100.00 77.78 77.78

R2inv 100.00 100.00 100.00

DIS 100.00 100.00 100.00

CopA 100.00 61.90 72.22

CopT 100.00 66.67 66.67

IncRNA₅₄ 73.33 64.70 57.89

RepZ 78.95 90.90 78.95

Average 94.70 84.66 81.87

جدول7- مقایسه معیارF روش RNAG با تعدادی از رویکردها.

RNA توالی RNAG RNAFold MFold

Tar 100.00 100.00 90.91

Tar* 100.00 100.00 100.00

R1inv 100.00 87.50 87.50

R2inv 100.00 100.00 100.00

DIS 100.00 100.00 100.00

CopA 96.00 76.47 83.87

CopT 100.00 80.00 80.00

IncRNA₅₄ 84.61 78.57 73.33

RepZ 73.17 95.23 73.17

Average 95.15 91.69 88.57

جدول 4 دقت پیشگویی RNAG را در حساسیت، برجستگی ویژه و معیارF روی دادههای آزمایشی نشان میدهد. برای RNAهای R1inv، Tar، Tar*، R2inv، DIS و CopT دقت پیشگویی 100 درصد در هر سه معیار مذکور حاصل شده است. دقت پیشگویی CopA در حساسیت، برجستگی ویژه و معیارF بهترتیب 92.3، 100 و 96 درصد است. برای IncRNA₅₄وRepZ معیارF بهترتیب 84.61 و 73.17 درصد حاصل شده است. همانطور که مشاهده می شود، دقت متوسط الگوریتم پیشنهادی روی مجموعه دادهها بهترتیب 95.61، 94.7 و 95.15 درصد در حساسیت، برجستگی ویژه و معیارF است.

بحث

در این مقاله، یک روش ژنتیک جهت پیشگویی ساختار دوم RNA معرفی شد. در این روش یک ماتریس نقطهای نشاندهنده تمام جفتبازهای ممکنRNA ایجاد میگردد و زیرقطرهای آن که بهعنوان مناطق ممکن برای تشکیل ساقه در نظر گرفته میشوند، استخراج میگردند. هر فرد در این الگوریتم شامل یک زیرمجموعه تصادفی از زیرقطرهای غیرهمپوشان است. در ادامه مقدار برازندگی حداقل انرژی آزاد برای هریک از افراد محاسبه شده و افراد بهترتیب صعودی مقدار برازندگی مرتب میگردند. عملگر تقاطع با نرخ 9/0 روی افراد انجام میشود. در این عمل، فرزندان از ترکیب والدین در یک موقعیت تصادفی ساخته میشوند. پس از آن جهش با نرخ 1/0 انجام میپذیرد و به این ترتیب نسل بعد ایجاد میگردد. اگر مقدار برازندگی فردی مناسب باشد، آن فرد برای تشکیل ساختار دوم گزینش میشود، در غیر این صورت نسل بعد تشکیل می گردد. الگوریتم پیشنهادی روی تعدادی از RNAها مانند CopA، CopT، R1inv، R2inv، Tar، Tar*، DIS، IncRNA₅₄ و RepZ اجرا شده است.

جدولهای 5، 6 و 7 بهترتیب میزان حساسیت، برجستگی ویژه و معیارF روشهای مختلف، RNAFold (3) و MFold (21)، را در مقایسه با RNAG نشان میدهند. همانطور که مشاهده میشود حساسیت روش پیشنهادی از روشهای RNAFold و MFold کمتر است اما مقدار برجستگی ویژه، و معیارF که بهعنوان میانگین همساز حساسیت و برجستگی ویژه در نظر گرفته میشود از روشهای مذکور بیشتر است. متوسط معیارF روشهای RNAG، RNAFold و MFold روی دادههای آزمایشی بهترتیب 95.15، 91.69 و 88.57 درصد حاصل شده است. بنابراین روش پیشنهادی به کارآیی روشهای دیگر در حساسیت، برجستگی ویژه و معیارF است.

تشکر و قدردانی

لازم است از جناب آقای دکتر محمد گنج تابش به دلیل ارائه جدول حداقل انرژی آزاد جفت بازهای مجاور (جدول1) تشکر و قدردانی شود.

مراجع

1) قربانی، ا.، چینی کار، ص.، و بهمنی، م.خ.، (1388)، بررسی مولکولی و تعیین توالی بخش RNA s ژنوم ویروس تب کریمه- کنگو (CCHF) در ایران، مجله زیست شناسی ایران، ج 22، ش 4، ص 704-710.

2) مرادی، ا.، شریفی، م.، و موسوی، ا.، (1390)، بررسی بیان ژن H6H و ایزوفرمهای PMT تحت تأثیر غلظتهای مختلف سالیسیلیک اسید در ریشه های مویی و اندامهای مختلف شابیزک، مجله زیست شناسی ایران، ج 24، ش 3، ص 366-372.

3) Hofacker, I.L., (2003), Vienna RNA secondary structure server, Nucleic Acids Research, 31(13): 3429–31.

4) Kato, Y., Akutsu, T., and Seki, H., (2009), A grammatical approach to RNA–RNA interaction prediction, Pattern recognition, 42: 531-538.

5) Mathews, D.H., and Turner, D.H., (2006), Prediction of RNA secondary structure by free energy minimization, Vol 16, 3: 270-278.

6) Mathews, D.H., Sabina, J., Zuker, M., and Turner D.H., (1999), Expanded sequence dependence of thermodynamic parameters improves prediction of RNA secondary structure, Journal of Molecular Biology, 288: 911-940.

7) McCaskill, J.S., (1990), The equilibrium partition function and base pair binding probabilities for RNA secondary structure, Biopolymers, 29: 1105-1119.

8) Meyer, I.M., (2008), Predicting novel RNA-RNA interactions, Current opinion in structural biology, 18: 387-393.

9) Nussinov, R. and Jacobson, A.B., (1980), Fast algorithm for predicting the secondary structure of single-stranded RNA, In Proceedings of the National Academy of Sciences of the United States of American, Vol 77: 6309-6313.

10)Nussinov, R., Pieczenik, G., Griggs, J.R., and Kleitman, D.J., (1978), Algorithms for loop matching, SIAM J.Appl.Math, 35: 68-82.

11)Puerta-Fernandez, E., Romero-Lpez, C., Barroso-delJesus A., and Berzal-Herranz, A., (2003), Ribozymes: recent advances in the development of RNA tools, FEMS Microbiology Reviews, 27: 75–97.

12)Sakakibara, Y., Brown, M., Hughey, R., Mian I.S., Sjolander K., Underwood R.C. and Hussler D., (1999), Stochastic context-free grammars for tRNA modeling, Nucleic Acids Res, 22: 5112-5120.

13)Salari, R., Backofen, R., and Sahinalp, S.C., (2010), Fast prediction of RNA-RNA interaction, Algorithms for molecular Biology, 5: 5-15.

14)Simons, R.W., and Grunberg-Manago, M., (1998), RNA structure and function, Cold Spring Harbor Laboratory Press.

15)Turner, D.H., Sugimoto, N., Jaeger, J.A., Longfellow, C.E., Freier, S.M., and Kierzek, R., (1987), Improved parameters for prediction of RNA structure, Cold Spring Harb. Symp. Quant. Biol., 52:123-133.

16)Zvelebil, M., and Baum, J.O., (2008), Understanding Bioinformatics, Garland Science. 461-514.

17)Zuker, M., Mathews, D.H., and Turner, D.H., (1999), Algorithms and thermodynamics for RNA secondary structure prediction: a practical guide, In RNA Biochemistry and Biotechnology.

18)Zuker, M., and Sankoff, M., (1984), RNA secondary structures and their prediction, Blletin of Mathematical of biology, Vol 46, 4: 591-621.

19)Zuker, M., (1994), Prediction of RNA secondary structure by energy minimization, Method in Molecular Biology, 25: 267–94.

20)Zuker, M. and Stiegler P., (1981), Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information, Nucleic Acids Res, 9(1): 133-48.

21)Zuker, M. ,(2003), Mfold web server for nucleic acid folding and hybridization prediction, Nucleic Acids Res. 31(13): 3406-3415.

پژوهش‌های سلولی و مولکولی (مجله زیست شناسی ایران)

دوره 27، شماره 3 - شماره پیاپی 3
آذر 1393
صفحه 428-437

فایل ها

سابقه مقاله

تاریخ دریافت: 01 آذر 1390
تاریخ بازنگری: 31 تیر 1391
تاریخ پذیرش: 04 مرداد 1391

هم رسانی

ارجاع به این مقاله

آمار

تعداد مشاهده مقاله: 4,813
تعداد دریافت فایل اصل مقاله: 1,513

پژوهش‌های سلولی و مولکولی (مجله زیست شناسی ایران)

پیشگویی دقیق ساختار دوم RNA مبتنی بر الگوریتم ژنتیک

ساختار دوم واقعی CopA

دوره 27، شماره 3 - شماره پیاپی 3آذر 1393صفحه 428-437

دوره 27، شماره 3 - شماره پیاپی 3
آذر 1393
صفحه 428-437