نوع مقاله: مقاله پژوهشی

نویسندگان

1 دانشگاه تربیت مدرس

2 دانشگاه صنعتی امیرکبیر

چکیده

مولکول RNA نقش مهم و اساسی در فرآیندهای زیستی ایفا می¬کند. در بیشتر مواقع، عملکرد RNAها توسط ساختار آنها مشخص می¬شود. با توجه به پیچیدگی و هزینه بر بودن روش¬های آزمایشگاهی برای پیشگویی ساختار RNAها، از روش¬های محاسباتی استفاده می¬گردد. الگوریتم¬های متنوعی جهت پیشگویی ساختار دوم مولکول RNA وجود دارد. در این مقاله، یک الگوریتم ژنتیک بنام RNAG جهت پیشگویی ساختار دوم مولکول RNA براساس حداقل انرژی آزاد ارائه می¬شود. در این الگوریتم، هر فرد از جمعیت شامل تعدادی ساقه می¬باشد. افراد براساس مقدار برازندگی حداقل انرژی آزاد شده از ساقه¬ها و حلقه¬ها به¬ترتیب صعودی رتبه¬بندی شده و در ادامه به¬ترتیب عملگرهای تقاطع و جهش روی آنها برای ایجاد نسل بعد اجرا می¬گردد. فرآیند تولید نسل تا زمان تولید یک فرد با حداقل انرژی آزاد مناسب ادامه می¬یابد. در پایان این فرد به¬عنوان ساختار دوم بهینه در نظر گرفته می¬شود. الگوریتم پیشنهادی روی تعدادی از RNAها در باکتری¬ها اجرا می¬گردد. نتایج حاصل از این تحقیق نشان می¬دهد که الگوریتم RNAG در مقایسه با سایر روش¬های مشابه دارای دقت بسیار بالا است.

کلیدواژه‌ها

عنوان مقاله [English]

A genetic approach to accurately predict RNA secondary structure

نویسندگان [English]

  • soheila montaseri 1
  • Nasrollah Moghadam Charkari 1
  • Fatemeh Zare Mirakabad 2

1 Tarbiat Modares University

2 Amirkabir University of Technology

چکیده [English]

RNA molecule plays important and fundamental roles in many biological processes. In the most times, activities of RNAs are determined by their structures. In notice to complexity and costly of laboratory methods to predict RNAs structure, computational approaches are used. There are variety of algorithms to predict RNA secondary structure. In this paper, a genetic algorithm called RNAG is presented to predict the RNA secondary structure based on minimum free energy (MFE). In this algorithm, each individual of population includes some stems. The individuals are increasingly ranked based on fitness value of MFE from stems and loops, and in the follow, crossover and mutation operations are done on individuals to make a new population, respectively. Process of population generation continues until an individual with proper MFE is produced. Finally, this individual is selected as an optimal RNA secondary structure. The proposed algorithm is performed on some RNAs in the bacteria. Results of the paper show that RNAG algorithm has a high accuracy in comparison with the other related methods.

کلیدواژه‌ها [English]

  • minimum free energy
  • stem
  • fitness value

پیشگویی دقیق ساختار دوم RNA مبتنی بر الگوریتم ژنتیک 

سهیلا منتصری1، نصرالله مقدم-چرکری2* و فاطمه زارع میرک آباد3

1 تهران، دانشگاه تربیت مدرس، دانشکده علوم ریاضی، گروه علوم کامپیوتر

2 تهران، دانشگاه تربیت مدرس، دانشکده مهندسی برق و کامپیوتر، گروه مهندسی کامپیوتر

3 تهران، دانشگاه صنعتی امیرکبیر، دانشکده ریاضی و علوم کامپیوتر، گروه علوم کامپیوتر

تاریخ دریافت: 1/9/90                 تاریخ پذیرش: 4/5/91

چکیده

مولکول RNA نقش مهم و اساسی در فرآیندهای زیستی ایفاء می­کند. در بیشتر مواقع، عملکرد RNAها توسط ساختار آنها مشخص می­شود. با توجه به پیچیدگی و هزینه بر بودن روشهای آزمایشگاهی برای پیشگویی ساختار RNAها، از روشهای محاسباتی استفاده می­گردد. الگوریتمهای متنوعی جهت پیشگویی ساختار دوم مولکول RNA وجود دارد. در این مقاله، یک الگوریتم  ژنتیک به نام RNAG جهت پیشگویی ساختار دوم مولکول RNA براساس حداقل انرژی آزاد ارائه می­شود. در این الگوریتم، هر فرد از جمعیت شامل تعدادی ساقه می­باشد. افراد براساس مقدار برازندگی حداقل انرژی آزاد شده از ساقه­ها و حلقه­ها به­ترتیب صعودی رتبه­بندی شده و در ادامه به­ترتیب عملگرهای تقاطع و جهش روی آنها برای ایجاد نسل بعد اجرا می گردد. فرآیند تولید نسل تا زمان تولید یک فرد با حداقل انرژی آزاد مناسب ادامه می­یابد. در پایان این فرد به­عنوان ساختار دوم بهینه در نظر گرفته می­شود. الگوریتم پیشنهادی روی تعدادی از RNAها در باکتریها اجرا می­گردد. نتایج حاصل از این تحقیق نشان می­دهد که الگوریتم RNAG در مقایسه با سایر روشهای مشابه دارای دقت بسیار بالا است.

واژه های کلیدی: حداقل انرژی آزاد، ساقه، مقدار برازندگی.

* نویسنده مسئول، تلفن: 82883301، پست الکترونیکی: charkari@modares.ac.ir

مقدمه

 

مولکولهای RNA در تمام موجودات زنده دارای نقش حیاتی هستند. شناخت ساختار RNA در درک فعالیت آن اهمیت فراوانی دارد )8(. ساختار مولکولهای RNA در بیان ژن، پیرایش RNAهای پیک (Messenger RNA)، ساخت پروتئین و عملکردهای زیستی دیگر مؤثر است (1،2و11). به­عنوان مثال، خاتمه رونویسی (Transcription) بعضی از ژنها در باکتری، براساس ساختار سنجاق­سری انتهایی RNA پیک انجام می­شود )14(. از نکات مهم در پیشگویی ساختار دوم RNA می­توان به دنباله­هایی اشاره کرد که هنوز ساختار آنها از راه آزمایش مشخص نشده و در نتیجه هیچ نظیری در پایگاه داده­ برای آنها نمی­توان یافت. از اهداف مهم پیشگویی ساختارها حل این مشکل است (16). موضوع دیگری که کاربرد مهمی جهت طراحی ساختارهای RNA دارد، برهمکنش دو مولکول RNA است )13(. پیشگویی ساختارهای RNA مقدمه­ای در تعیین ساختار برهمکنش دو RNA می­باشد.

تلاشهایی جهت پیشگویی ساختار دوم مولکولهای RNA با بیشینه کردن تعداد جفت­بازها (Base pairs)، با استفاده از برنامه­نویسی پویا انجام شد که در آن بهترین ساختار برای هر زیردنباله­ محاسبه می­گردد )10(. پس از آن الگوریتم مشابهی ارائه شد که در آن از مقادیر انرژی آزاد­ جفت­بازها برای محاسبه ساختاری با کمترین انرژی آزاد (Minimum free energy) استفاده می­شود (9 و 18). در یک روش دیگر برای پیشگویی ساختار دوم، توابع تسهیم (Partition function) مولکولهای RNA براساس برنامه نویسی پویا محاسبه­ می­گردند )7(. ابزار MFold )19( توسط پارامترهای موجود برای محاسبه ساختار دوم RNA )15(، به پیشگویی ساختار دوم می­پردازد. در تعدادی از رویکردها، انرژی آزاد با استفاده از مدل ترمودینامیکی نزدیکترین همسایه تعیین می­شود. در این مدلها، انرژی آزاد ساختار به­عنوان مجموع انرژیهای آزاد شده از هر ساقه (Stem) و حلقه با استفاده از داده­های ترمودینامیکی محاسبه می­گردد )6 و 17(. روشی براساس گرامرهای مستقل ازمتن ارائه شد که در آن از الگوریتمهای آماری برای ایجاد ساختار دوم استفاده می­شود )12(. ابزار RNAFold )3( با استفاده از پارامترهای انرژی ایجاد شده )5( ساختار دوم RNA را پیشگویی می­کند.

در این مقاله، یک الگوریتم ژنتیک به نام RNAG جهت پیشگویی دقیق ساختار دوم مولکول RNA ارائه می­شود. در این الگوریتم، یک ماتریس­ نقطه­ای ایجاد می­گردد که نشان­دهنده تمام جفت­بازهای ممکن در RNA است. هر زیرقطر در ماتریس نقطه ای را می­توان به­عنوان یک ساقه در نظر گرفت. سپس جمعیتی از ساقه­هایی که به طور تصادفی انتخاب می­شوند، ایجاد شده و مقدار برازندگی (Fitness value) حداقل انرژی آزاد شده از ساقه­ها و حلقه­ها برای هر فرد موجود در جمعیت محاسبه می­گردد. برای ایجاد نسل جدید، عملگرهای تقاطع (Crossover) و جهش (Mutation) به­ترتیب روی تعدادی از افراد نسل جاری انجام می­شود. فرآیند تولید نسل ادامه می­یابد تا زمانی که انرژی آزاد فردی به حد مطلوب برسد. در نهایت، این فرد با حداقل انرژی آزاد جهت تشکیل ساختار دوم RNA انتخاب می­شود. الگوریتم پیشنهادی روی تعدادی از داده­ها شامل CopA، CopT، R1inv، R2inv، Tar، TarDIS، IncRNA54 و RepZ در باکتریها به کار رفته است. نتایج حاصل از این تحقیق نشان می­دهد که الگوریتم RNAG در مقایسه با سایر روشهای مشابه دقت بالایی دارد.

مواد و روشها 

پایگاه داده: RNAهای مورد بررسی در این مقاله شامل CopA، CopT، R1inv، R2inv، Tar، Tar*، DIS، IncRNA54 و RepZ هستند (4).

تعاریف پایه: دنباله RNA از چهار نوع نوکلئوتید تشکیل می­شود که شامل آدنین (A)، گوانین (G)، سیتوزین (C) و یوراسیل(U)  است. هر RNA دارای دو انتهای مجزا است که به­عنوان ¢3 و ¢5 شناخته می­شوند. یک دنباله RNA به نام R ، |R| = n در جهت ¢5 به ¢3 به صورت زیر تعریف می­گردد:

R = r1r2 ... rn : "i (1£i£n)ri Î{A, C, G, U}. 

معکوسR  باrn rn-1... r1. در جهت ¢3 به ¢5 مشخص می شود. بنابراین ri j =ri ri+1... rj زیردنباله­ای از R است که از موقعیت i شروع شده و به موقعیت j ختم می­گردد. دنباله RNA با تشکیل پیوند هیدروژنی بین بازهای آن تشکیل ساختار می­دهد. بیشتر پیوندها بین بازهای مکمل واتسون-کریک روی می­دهند که در آنها G با C و A با U جفت می­شوند و برعکس. این پیوندها می­توانند ساختار دوم RNA را تشکیل دهند.

ساختار دوم RNA از ساقه­ها و نواحی­ منفرد (Single regions) تشکیل می­شود. هر ساقه مجموعه­ای از جفت­بازهای مجاور مانند (ri , rj) و (ri¢ , rj¢) است به طوری که
j¢ i, i¢, j, توسط یکی از شرایط زیر ارضاء می گردند:

i < i¢ < j¢ < j

i¢ < i < j < j¢

به فرض اینکه ri j و rk l دو زیردنباله از RNA باشند که تشکیل ساقه می­دهند. بنابراین زیردنباله ri j به معکوس rk l متصل می­شود. به­عبارت دیگر، بین هریک از بازهای ri j و معکوس rk l به­ترتیب پیوند هیدروژنی برقرار می­گردد. برای نشان دادن ساقه در ساختار دوم RNA، هر باز در ri j با ¢(¢ و هر باز در rk l با ¢)¢ مشخص می­شود. نواحی منفرد به­عنوان حلقه­ یا تک­رشته­ای شده (Single-stranded) در نظر گرفته می­شوند. لازم به ذکر است که دو انتهای هر ناحیه حلقه به ساقه­ها متصل می گردند در حالی که تنها یک انتهای هر تک­رشته­ای شده به یک ساقه پیوند می خورد. هر باز در نواحی منفرد با ¢.¢ نشان داده می­شود. بنابراین S = s1 ... sn ساختار دوم RNA را نشان می­دهد که در آن برای هر باز i ، این فرمول 1£ i £ n ،
si Î{¢(¢,¢)¢,¢.¢} در نظر گرفته می شود.

الگوریتم ژنتیک روشی ​​است که در حل مسائل بهینه­سازی مورد استفاده قرار می­گیرد و براساس فرآیندهای ژنتیکی موجودات زنده است. الگوریتم ژنتیک با جمعیتی از افراد بیان می­شود که هر فرد نشان­دهنده راه­حلی برای مسئله است. مقدار برازندگی به هر فرد با توجه به میزان مناسب بودن آن به­عنوان یک راه­حل، اختصاص داده می­شود. افراد براساس مقدار برازندگی جفت­گیری کرده و نسل جدید تشکیل می­گردد. فرآیند تولید نسل تا زمانی ادامه می­یابد که راه­حل بهینه برای مسئله یافت شود.

روش پیشنهادی: در مسئله پیشگویی ساختار دوم RNA، یک RNA به­عنوان ورودی در نظر گرفته می­شود و هدف یافتن ساختار دوم RNA است که دارای حداقل انرژی آزاد باشد. تعریف دقیق­تر مسئله به شرح زیر است:

ورودی: یک RNA با دنباله R = r1 r2... rn. در جهت ¢5 به ¢3.

خروجی: ساختار دوم  که با دنباله­ای از کاراکترهای  ¢(¢،  ¢)¢ و . نشان داده می­شود.

در این مقاله، روش پیشنهادی برای حل مسئله ساختار دوم RNA براساس یک الگوریتم ژنتیک به نام RNAG است که شامل مراحل ایجاد جمعیت اولیه، عملگرهای تقاطع و جهش و شرط خاتمه الگوریتم می­باشد که در ادامه به توضیح آنها پرداخته می شود.

ایجاد جمعیت اولیه: چگونگی تولید جمعیت اولیه به­ترتیب زیر انجام می­شود:

3)   ماتریس نقطه­ای   برای دنباله R براساس بازهای مکمل واتسون-کریک ایجاد می­گردد که مقدار آن در موقعیت  به صورت زیر تعریف می­شود:

MR[i,j] =  

به طوری که   و  به­ترتیب نشان­دهنده باز  ام و  ام در دنباله  برای هر  و ، ، هستند. (توجه کنید که در ایجاد این ماتریس جفت­­باز  در نظر گرفته نمی­شود چون دقت پیشگویی را کاهش می­دهد.)

4)   در ماتریس نقطه­ای ، تمام مقادیر مورب متوالی 1 که روی قطر اصلی یا موازی آن قرار داشته باشند به­عنوان یک زیرقطر در نظر گرفته می­شوند. مجموعه­ای از زیرقطرهای   به صورت زیر تعریف می­گردد:

DR = { < i, j, k, l > |1£ i £ k £ n & 1 £ j £ l £ n }

به طوری که  و  به­ترتیب موقعیت­ شروع و پایان یک زیرقطر را مشخص می­کنند. فرض کنید  و  است. این زیرقطر نشان دهنده این است که زیردنباله  در  به زیردنباله  در معکوس  متصل می­شود. اگر  و  با شرایط  ،   و   موجود باشند، آنگاه  بایستی از مجموعه  حذف و دو زیرقطر   و   به مجموعه مورد نظر اضافه شوند. زیرا در این حالت تعدادی از بازهای تشکیل دهنده زیرقطر  دو مرتبه جهت تشکیل پیوند محاسبه می­گردند.

5)   جمعیت اولیه  براساس  به این صورت ساخته می­شود که برای هر ، ، مراحل زیر انجام می­پذیرد:

الف) ،  به طور تصادفی از مجموعه  ایجاد می­گردد. به بیان دقیق­تر، برای هر فرد (که ابتدا تهی است) در جمعیت، ابتدا یک زیرقطر تصادفی از  انتخاب شده و در آن قرار می­گیرد. زیرقطرهای بعدی نیز به طور تصادفی انتخاب شده و در صورتی در فرد قرار می­گیرند که با هیچ یک از زیرقطرهای موجود در آن همپوشانی نداشته باشند. اگر همپوشانی وجود داشته باشد، قسمتهای همپوشان از زیرقطر جدا شده و زیرقطر حاصل به مجموعه زیرقطرهای قبلی اضافه می­شود. فرض کنید  که  و . همپوشانی دو زیرقطر  و   به صورت زیر تعریف می­گردد:

Overlap(d1, d2) =  

ب) مقدار برازندگی فرد   به صورت زیر محاسبه می شود:

Fitness (C[i]) =

به طوری که   نشان­دهنده یک زیرقطر در مجموعه  است و  حلقه­ای در مجموعه­ حلقه­های هیرپین، بالج، داخلی و چندحلقه­ای در فرد را نشان می­دهد. حداقل انرژی آزاد شده از  به صورت زیر محاسبه می­گردد:

MFE (d¢ ) =

که  انرژی آزاد شده از دو جفت­باز مجاور  و  می­باشد و  نشان­دهنده مجموعه­ا­ی از جفت­بازها در زیرقطر است. حداقل انرژی آزاد شده از تمام دو جفت­بازهای مجاور که تشکیل ساقه می­دهند، در جدول1 نشان داده شده است. انرژی آزاد حلقه­های هیرپین، بالج و داخلی مجموع دو مقدار زیر می باشد (20):

3)   حداقل انرژی آزاد شده از این نوع حلقه­ها براساس اندازه حلقه در جدول2 مشخص شده است. برای حلقه­های با طول بیشتر از 30، حداقل انرژی آزاد به صورت زیر محاسبه می­شود:

MFE(l) = MFE(30) + 1.75*RT* ln (size/30)

به طوری که  ثابت جهانی گاز،  دمای خالص و  اندازه حلقه است.

 

 

جدول 1 - حداقل انرژی آزاد شده از تمام دو جفت­بازهای مجاور در ساقه.

5'->3'

AA

AC

AG

AU

CA

CC

CG

CU

GA

GC

GG

GU

UA

UC

UG

UU

AA

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

-0.9

AC

.

.

.

.

.

.

.

.

.

.

.

.

.

.

-2.2

.

AG

.

.

.

.

.

.

.

.

.

.

.

.

.

-2.1

.

-0.6

AU

.

.

.

.

.

.

.

.

.

.

.

.

-1.1

.

-1.4

.

CA

.

.

.

.

.

.

.

.

.

.

.

-2.1

.

.

.

.

CC

.

.

.

.

.

.

.

.

.

.

-3.3

.

.

.

.

.

CG

.

.

.

.

.

.

.

.

.

-2.4

.

-1.4

.

.

.

.

CU

.

.

.

.

.

.

.

.

-2.1

.

-2.1

.

.

.

.

.

GA

.

.

.

.

.

.

.

-2.4

.

.

.

.

.

.

.

-1.3

GC

.

.

.

.

.

.

-3.4

.

.

.

.

.

.

.

-2.5

.

GG

.

.

.

.

.

-3.3

.

-1.5

.

.

.

.

.

-2.1

.

-0.5

GU

.

.

.

.

-2.2

.

-2.5

.

.

.

.

.

-1.4

.

1.3

.

UA

.

.

.

-1.3

.

.

.

.

.

.

.

-1

.

.

.

.

UC

.

.

-2.4

.

.

.

.

.

.

.

-1.5

.

.

.

.

.

UG

.

-2.1

.

-1

.

.

.

.

.

-1.4

.

0.3

.

.

.

.

UU

-0.9

.

-1.3

.

.

.

.

.

-0.6

.

-0.5

.

.

.

.

.

 

جدول 2- حداقل انرژی آزاد شده از حلقه­های داخلی، بالج و هیرپین براساس اندازه حلقه.

هیرپین

بالج

داخلی

اندازه

.

3.8

.

1

.

2.8

.

2

5.4

3.2

.

3

5.6

3.6

1.1

4

5.7

4

2.1

5

5.4

4.4

1.9

6

6

4.6

2

7

5.5

4.7

2.2

8

6.4

4.8

2.3

9

6.5

4.9

2.4

10

6.6

5

2.5

11

6.7

5.1

2.6

12

6.8

5.2

2.7

13

6.9

5.3

2.8

14

6.9

5.4

2.8

15

7

5.4

2.9

16

7.1

5.5

3

17

7.1

5.5

3

18

7.2

5.6

3.1

19

7.2

5.7

3.2

20

7.3

5.7

3.2

21

7.3

5.8

3.3

22

7.4

5.8

3.3

23

7.4

5.8

3.4

24

7.5

5.9

3.4

25

7.5

5.9

3.4

26

7.5

6

3.5

27

7.6

6

3.5

28

7.6

6

3.6

29

7.7

6.1

3.6

30

 

4)   تعدادی از حلقه­ها انرژی مازادی براساس نوکلئوتیدهای حلقه دارند. این نوع حلقه­ها و انرژی مازاد آنها در جدول 3 نشان داده شده است.

توجه کنید که انرژی دیگری بین جفت­باز انتهایی حلقه­ها و دو باز جفت­نشده مجاور آن وجود دارد که در اینجا به آن پرداخته نشده است.

در انتها، افراد براساس مقدار برازندگی حداقل انرژی آزاد به­ترتیب صعودی مرتب می­شوند.

جدول 3- حداقل انرژی آزاد شده از حلقه­ها با توجه به نوکلئوتیدهای حلقه.

انرژی

دنباله

اندازه

6.8

CAACG

5

6.9

GUUAC

5

2.8

CUACGG

6

2.7

CUCCGG

6

3.7

CUUCGG

6

3.3

CCAAGG

6

3.4

CCCAGG

6

3.5

CCGAGG

6

3.7

CCUAGG

6

3.7

CCACGG

6

3.6

CCGCGG

6

2.5

CCUCGG

6

3.6

CUAAGG

6

3.7

CUCAGG

6

3.5

CUUAGG

6

2.8

CUGCGG

6

5.5

CAACGG

6

2.9

ACAGUGCU

8

3.6

ACAGUGAU

8

1.8

ACAGUUCU

8

2.8

ACAGUACU

8

 

عملگر تقاطع: عملگر تقاطع با نرخ 9/0  روی  افراد  انجام می­گیرد، به این صورت که ابتدا 5 درصد از بهترین افراد و 5 درصد از افراد با برازندگی متوسط به نسل بعد منتقل می­شوند. باقی­مانده افراد، به­ترتیب میزان برازندگی دو به دو برای جفت­گیری انتخاب می­گردند. به عبارت دیگر دو فرد  و  از جمعیت به عنوان والدین در نظر گرفته می­شوند، سپس از یک موقعیت تصادفی جفت­گیری می­کنند و در پایان دو فرزند ایجاد می­گردد. با توجه به اینکه طول هر فرد  است، احتمال انتخاب هر موقعیت تصادفی  می­باشد. در این موقعیت، والدین به دو بخش تقسیم شده و فرزند اول و دوم به­ترتیب زیرقطرهای موجود در طرف چپ والدین اول و دوم را به خود اختصاص می دهند. هریک از زیرقطرهای طرف راست والدین اول و دوم در صورتی به­ترتیب در فرزندان دوم و اول قرار می­گیرند که با هیچ یک از زیرقطرهای موجود در فرزند همپوشانی نداشته باشند. اگر همپوشانی وجود داشته باشد، در فرزند قرار داده نمی­شود یا در صورت امکان بخشی که همپوشانی ندارد انتخاب شده و در فرزند قرار می­گیرد. این فرآیند نسل بعد را با فرزندان جدید تشکیل می­دهد.

عملگر جهش: با توجه به اینکه نرخ جهش 1/0 است، 10 درصد از ضعیف­ترین افراد جمعیت گزینش می­گردند تا عملگر جهش روی آنها اجرا شود. برای این افراد، یک زیرقطر تصادفی از ماتریس ­نقطه­ای انتخاب شده و تنها در صورتی با یک زیرقطر تصادفی از فرد جایگزین می­گردد که با هیچ یک از زیرقطرهای موجود در فرد (جز زیرقطر انتخابی از فرد) همپوشانی نداشته باشد. اگر همپوشانی وجود داشته باشد، انتخاب زیرقطر تصادفی از ماتریس ­نقطه­ای ادامه می­یابد تا زمانی که همپوشانی موجود نباشد یا زمان خاتمه یابد.

خاتمه الگوریتم: فرآیند تولید نسل هنگامی متوقف می­شود که شرط  برقرار گردد. در انتها فردی جهت تشکیل ساختار دوم گزینش می­شود که انرژی آزاد کمتری داشته باشد.

نتایج

الگوریتم پیشنهادی، RNAG، روی تعدادی از RNAها جهت پیشگویی ساختار دوم آنها اجرا شده است. مجموعه داده­ها شامل CopA، CopT، R1inv، R2inv، Tar، TarDIS، IncRNA54 و RepZ است. به­عنوان مثال CopA را در نظر بگیرید. شکل1 ساختار دوم پیشگویی شده CopA را نشان می­دهد که به ساختار واقعی بسیار نزدیک است. برای ارزیابی دقت پیشگویی RNAG از دو معیار حساسیت و برجستگی ویژه استفاده می­شود که به صورت زیر محاسبه می­گردند:

=        (1)

=   (2)

معیارF با در نظر گرفتن هر دو مقدار حساسیت و برجستگی ویژه به صورت زیر تعیین می­شود:

معیارF =      (3)

 

 

 

 

5’-GUGGGCCCCGGUAAUCUUUUCGUACUCGCCAAAGUUGAAGAAGAUUAUCGGGGUUU-3’

                . . . . .((((((((((((( …………………. ))))))))))))). . .

ساختار دوم واقعی CopA

5’-GUGGGCCCCGGUAAUCUUUUCGUACUCGCCAAAGUUGAAGAAGAUUAUCGGGGUUU-3’

                . . . . .(((((.((((((((………………….))))))).))))). . .    

ساختار دوم پیشگویی شده CopA

شکل1

جدول 4 - دقت پیشگویی RNAG روی مجموعه­ای از RNAها.

RNA دنباله             طول                حساسیت (%)           برجستگی ویژه (%)           Fمعیار  (%)           

Tar                       16                    100.00                    100.00                     100.00                

Tar*                      16                    100.00                     100.00                     100.00                

R1inv                   21                    100.00                    100.00                     100.00                

R2inv                   19                    100.00                     100.00                          100.00           

DIS                        35                    100.00                     100.00                     100.00                

CopA                    56                   92.30                      100.00                      96.00                

CopT                    57                   100.00                     100.00                     100.00      

IncRNA54                    54                   100.00                      73.33                           84.61                 

RepZ                     61                   68.18                         78.95                       73.17

Average                                                      95.61                        94.70                       95.15            

 

جدول 5 - مقایسه حساسیت RNAG با تعدادی از رویکردها.

RNA توالی                  RNAG                      RNAFold                    MFold

Tar                             100.00                         100.00                        100.00                

Tar*                            100.00                         100.00                         100.00                

R1inv                         100.00                         100.00                        100.00                

R2inv                         100.00                         100.00                         100.00          

DIS                              100.00                         100.00                         100.00               

CopA                          92.30                          100.00                        100.00                

CopT                          100.00                         100.00                         100.00 

IncRNA54                         100. 00                           100.00                          100.00            

RepZ                            68.18                           100.00                           68.18

Average                                     95.61                           100.00                       96.46            

 

جدول6- مقایسه برجستگی ویژه RNAG با تعدادی از رویکردها.

RNA توالی                  RNAG                      RNAFold                    MFold

Tar                            100.00                         100.00                          83.33                

Tar*                           100.00                         100.00                          100.00                

R1inv                        100.00                         77.78                              77.78                

R2inv                        100.00                         100.00                          100.00          

DIS                             100.00                         100.00                          100.00               

CopA                        100.00                         61.90                            72.22                

CopT                         100.00                         66.67                              66.67  

IncRNA54                         73.33                           64.70                                57.89            

RepZ                           78.95                           90.90                              78.95

Average                                    94.70                           84.66                             81.87

جدول7- مقایسه معیارF روش RNAG با تعدادی از رویکردها.

RNA توالی                  RNAG                      RNAFold                    MFold

Tar                            100.00                         100.00                          90.91                

Tar*                           100.00                         100.00                          100.00                

R1inv                        100.00                         87.50                              87.50                

R2inv                        100.00                         100.00                          100.00          

DIS                             100.00                         100.00                          100.00               

CopA                         96.00                          76.47                            83.87                

CopT                         100.00                          80.00                             80.00  

IncRNA54                         84.61                           78.57                                73.33            

RepZ                          73.17                                    95.23                      73.17

Average                                    95.15                            91.69                            88.57

 

 

جدول 4 دقت پیشگویی RNAG را در حساسیت، برجستگی ویژه و معیار­F روی داده­های آزمایشی نشان می­دهد. برای RNAهای R1inv، Tar، TarR2inv، DIS و CopT دقت پیشگویی 100 درصد در هر سه معیار مذکور حاصل شده است. دقت پیشگویی CopA در حساسیت، برجستگی ویژه و معیارF به­ترتیب 92.3، 100 و 96 درصد است. برای IncRNA54 و RepZ معیارF به­ترتیب 84.61 و 73.17 درصد حاصل شده­ است. همان­طور که مشاهده می شود، دقت متوسط الگوریتم پیشنهادی روی مجموعه داده­ها به­ترتیب 95.61، 94.7 و 95.15 درصد در حساسیت، برجستگی ویژه و معیارF است. 

بحث

در این مقاله، یک روش ژنتیک جهت پیشگویی ساختار دوم RNA معرفی شد. در این روش یک ماتریس ­نقطه­ای نشان­دهنده­ تمام جفت­بازهای ممکنRNA  ایجاد می­گردد و زیرقطرهای آن که به­عنوان مناطق ممکن برای تشکیل ساقه در نظر گرفته می­شوند، استخراج می­گردند. هر فرد در این الگوریتم شامل یک زیرمجموعه تصادفی از زیرقطرهای غیرهمپوشان است. در ادامه مقدار برازندگی حداقل انرژی آزاد برای هریک از افراد محاسبه شده و افراد به­ترتیب صعودی مقدار برازندگی مرتب می­گردند. عملگر تقاطع با نرخ 9/0 روی افراد انجام می­شود. در این عمل، فرزندان از ترکیب والدین در یک موقعیت تصادفی ساخته می­شوند. پس از آن جهش با نرخ 1/0 انجام می­پذیرد و به این ترتیب نسل بعد ایجاد می­گردد. اگر مقدار برازندگی فردی مناسب باشد، آن فرد برای تشکیل ساختار دوم گزینش می­شود، در غیر این صورت نسل بعد تشکیل می گردد. الگوریتم پیشنهادی روی تعدادی از RNAها مانند CopA، CopT، R1inv، R2inv، Tar، Tar*، DIS، IncRNA54 و RepZ اجرا شده است.

جدولهای 5، 6 و 7 به­ترتیب میزان حساسیت، برجستگی ویژه و معیارF روشهای مختلف، RNAFold (3) و MFold (21)، را در مقایسه با RNAG نشان می­دهند. همان­طور که مشاهده می­شود حساسیت روش پیشنهادی از روشهای RNAFold و MFold کمتر است اما مقدار برجستگی ویژه، و معیارF که به­عنوان میانگین همساز حساسیت و برجستگی ویژه در نظر گرفته می­شود از روشهای مذکور بیشتر است. متوسط معیارF روشهای RNAG، RNAFold و MFold روی داده­های آزمایشی به­ترتیب 95.15، 91.69 و 88.57 درصد حاصل شده ­است. بنابراین روش پیشنهادی به کارآیی روشهای دیگر در حساسیت، برجستگی ویژه و معیارF است.

تشکر و قدردانی

لازم است از جناب آقای دکتر محمد  گنج  تابش  به  دلیل ارائه جدول حداقل انرژی آزاد جفت بازهای مجاور (جدول1) تشکر و قدردانی ­شود.

1)   قربانی، ا.، چینی کار، ص.، و بهمنی، م.خ.، (1388)، بررسی مولکولی و تعیین توالی بخش  RNA s ژنوم ویروس تب کریمه- کنگو (CCHF) در ایران، مجله زیست شناسی ایران، ج 22، ش 4، ص 704-710.

2)   مرادی، ا.، شریفی، م.، و موسوی، ا.، (1390)، بررسی بیان ژن H6H و ایزوفرمهای PMT تحت تأثیر غلظتهای مختلف سالیسیلیک اسید در ریشه های مویی و اندامهای مختلف شابیزک، مجله زیست شناسی ایران، ج 24، ش 3، ص 366-372.

 

3)   Hofacker, I.L., (2003), Vienna RNA secondary structure server, Nucleic Acids Research, 31(13): 3429–31.

4)   Kato, Y., Akutsu, T., and Seki, H., (2009), A grammatical approach to RNA–RNA interaction prediction, Pattern recognition, 42: 531-538.

5)   Mathews, D.H., and Turner, D.H., (2006), Prediction of RNA secondary structure by free energy minimization, Vol 16, 3: 270-278.

6)   Mathews, D.H., Sabina, J., Zuker, M., and Turner D.H., (1999), Expanded sequence dependence of thermodynamic parameters improves prediction of RNA secondary structure, Journal of Molecular Biology, 288: 911-940.

7)   McCaskill, J.S., (1990), The equilibrium partition function and base pair binding probabilities for RNA secondary structure, Biopolymers, 29: 1105-1119.

8)   Meyer, I.M., (2008), Predicting novel RNA-RNA interactions, Current opinion in structural biology, 18: 387-393.

9)   Nussinov, R. and Jacobson, A.B., (1980), Fast algorithm for predicting the secondary structure of single-stranded RNA, In Proceedings of the National Academy of Sciences of the United States of American, Vol 77: 6309-6313.

10)Nussinov, R., Pieczenik, G., Griggs, J.R., and Kleitman, D.J., (1978), Algorithms for loop matching, SIAM J.Appl.Math, 35: 68-82.

11)Puerta-Fernandez, E., Romero-Lpez, C., Barroso-delJesus A., and Berzal-Herranz, A., (2003), Ribozymes: recent advances in the development of RNA tools, FEMS Microbiology Reviews, 27: 75–97.

12)Sakakibara, Y., Brown, M., Hughey, R., Mian I.S., Sjolander K., Underwood R.C. and Hussler D., (1999), Stochastic context-free grammars for tRNA modeling, Nucleic Acids Res, 22: 5112-5120.

13)Salari, R., Backofen, R., and Sahinalp, S.C., (2010), Fast prediction of RNA-RNA interaction, Algorithms for molecular Biology, 5: 5-15.

14)Simons, R.W., and Grunberg-Manago, M., (1998), RNA structure and function, Cold Spring Harbor Laboratory Press.

15)Turner, D.H., Sugimoto, N., Jaeger, J.A., Longfellow, C.E., Freier, S.M., and Kierzek, R., (1987), Improved parameters for prediction of RNA structure, Cold Spring Harb. Symp. Quant. Biol., 52:123-133.

16)Zvelebil, M., and Baum, J.O., (2008), Understanding Bioinformatics, Garland Science. 461-514.

17)Zuker, M., Mathews, D.H., and Turner, D.H., (1999), Algorithms and thermodynamics for RNA secondary structure prediction: a practical guide, In RNA Biochemistry and Biotechnology.

18)Zuker, M., and Sankoff, M., (1984), RNA secondary structures and their prediction, Blletin of Mathematical of biology, Vol 46, 4: 591-621. 

19)Zuker, M., (1994), Prediction of RNA secondary structure by energy minimization, Method in Molecular Biology, 25: 267–94.

20)Zuker, M. and Stiegler P., (1981), Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information, Nucleic Acids Res, 9(1): 133-48.

21)Zuker, M. ,(2003), Mfold web server for nucleic acid folding and hybridization prediction, Nucleic Acids Res. 31(13): 3406-3415.