Document Type : Research Paper
Keywords
Subjects
پیشبینی تعاملات بین RNA و پروتئین با استفاده از ترنسفورمرها و شبکههای عصبی دوقلو ناهمسان
نیکتا گوهری صدر، آرمین بهجتی و فاطمه زارع میرک آباد*
ایران، تهران، دانشگاه صنعتی امیرکبیر، دانشکده ریاضی و علوم کامپیوتر
تاریخ دریافت: 02/11/1400 تاریخ پذیرش: 12/07/1401
چکیده
تعاملات RNA و پروتئین نقش مهمی در فرآیندهای سلولی بنیادی موثر در بیماریهای انسان، حیوانات، گیاهان و همچنین تنظیمات بیان ژن دارند. با این حال، الگو و نحوه انتخاب این تعاملات به خوبی درک نشدهاند. همچنین به دلیل هزینهبر و زمانبر بودن روشهای آزمایشگاهی، نیاز به توسعه روشهای محاسباتی معتبر وجود دارد. پیشبینی این تعاملات، نیازمند بررسی اطلاعات ساختاری مولکولها میباشد، در حالی که این اطلاعات همیشه در دسترس نیست. از طرفی، نتیجه تحقیقات روی مدلهای ترنسفورمر نشان میدهد که آنها میتوانند به خوبی از توالیهای RNA و پروتئین اطلاعات بیوشیمیایی، بیوفیزیکی و ساختاری مهمی را استخراج کنند. در این تحقیق، از دو ترنسفورمر ProtAlbert و DNABERT استفاده شده تا نمایش مناسبی از ویژگی توالیهای RNA و پروتئین ساخته شود. بردارهای ویژگی استخراج شده به یک مدل یادگیری عمیق دوقلو ناهمسان داده شد تا تعاملات بین این دو مولکول را پیشگویی کند. نتایج بدست آمده نشان داد که روش پیشنهادی این تحقیق با داشتن میانگین دقت 92.3 درصد و میانگین مساحت زیر منحنی 96.6 درصد در مقایسه با روشهای موجود بهتر عمل میکند.
واژههای کلیدی: DNABERT، یادگیری عمیق، ProtAlbert
* نویسنده مسئول، تلفن: ۰۲۱۶۶۴۶۰۹۴۸، پست الکترونیکی: f.zare@aut.ac.ir
مقدمه
تعاملات بین پروتئینها و RNAها تاثیر مستقیم بر فعالیتهای ابتدایی موجودات زنده دارند ]15[. این تعاملات میتوانند در فرآیندهای بنیادی سلولی مانند همانندسازی کروموزوم، انتقال مواد، رونویسی و ترجمه نقش داشته باشند [2]. در ضمن بصورت خاص دیده شده که تعامل RNA و پروتئین باعث ایجاد مقاومت گیاهان به تنشهای محیطی مانند شوری یا سرما میشود [1]. بنابراین پیشگویی و درک این تعاملات میتوانند تاثیر زیادی بر تحقیقات آسیبشناسی و طراحی دارو داشته باشند. روشهای آزمایشگاهی به دلیل وقتگیر و هزینهبر بودن نتوانستهاند بررسی همه جانبهای در این زمینه داشته باشند. به همین دلیل محققان به روشهای محاسباتی برای پیشبینی تعامل بین پروتئین و RNA علاقهمند شدهاند. از جمله این روشهای محاسباتی که امروزه بیشتر مورد استفاده قرار میگیرد میتوان به الگوریتمهای یادگیری ماشین و یادگیری عمیق اشاره نمود. این روشها را بطور کلی میتوان به دو دسته مبتنی بر توالی [4، 6، 12، 13، 20] و مبتنی بر ترکیب توالی و ساختار [9، 14، 19] تقسیم کرد.
از روشهای مبتنی بر توالی میتوان به مدل RPISeq که در سال 2011 پیشنهاد گردید، اشاره نمود [12]. در این روش از طبقهبندهای RF (Random forest) و SVM (Support vector machine) برای انجام پیشبینی تعامل بین RNA و پروتئین استفاده میشود. در سال 2016، پروژه IPMiner با استفاده از روش فراوانی 3تایی و 4تایی (3-mer and 4-mer frequency) توالیها را رمزگذاری کرده و در نهایت یک مدل تعمیم پشتهای (Stacked ensemble) میسازد [13]. پس از آن در سال 2019، الگوریتم CFPR معرفی گردید که با استفاده از انتقال غیرخطی بر روی فراوانی kتاییها میتواند ویژگیهای پیچیدهتری از توالی استخراج کند. در نهایت، با استفاده از طبقهبند RF ابعاد این ویژگیها کاهش مییابد تا بهعنوان خروجی، تعاملات پیشبینی گردد [6]. چنگ و همکارانش نیز در سال 2019 با فراوانی 3تایی و 4تایی بردار ویژگی از توالیهای پروتئین و RNA میسازند و تعامل بین آن دو را با SVM، RF و CNN (Convolutional neural network) پیشبینی میکنند ]4[. در سال 2020 وانگ و همکارانش برای استخراج ویژگیها از شبکه عصبی CNN استفاده کرده و سپس به یک شبکه یادگیری ماشین شدید (Extreme learning machine) میدهد ]20[. گرچه این روشها فقط به توالی مولکولها برای پیشگویی تعامل نیاز دارند و به سادگی قابل اجرا هستند ولی در تشخیص روابط بین نوکلئوتیدها و اسیدآمینهها که نشاندهنده مفاهیم ساختاری مولکول هستند، ضعیف عمل میکنند. این ضعف تاثیر جدی در کاهش صحت پیشگویی دارد زیرا پیشبینی اینکه یک جفت RNA و پروتئین با یکدیگر تعامل دارند یا خیر وابسته به داشتن ساختار مولکولها میباشد.
از روشهای مبتنی بر توالی و ساختار میتوان به RPITER در سال 2019 اشاره کرد [14]. این تحقیق، یک معماری سلسله مراتبی یادگیری عمیق طراحی کرده که توالی و ساختار را بعنوان ورودی گرفته و روش CTFE (Conjoint triad feature encoding) را اعمال میکند. همچنین فن و همکارانش در سال 2019 ترکیب شبه نوکلئوتید و اسید آمینه را در نظر گرفته و از رگرسیون خطی برای پیشبینی تعاملات بین این دو مولکول استفاده میکند ]9[. در سال 2021، الگوریتم دیگری به نام EDLMFC معرفی گردید که اطلاعات توالی، ساختار دوم و سوم RNA و پروتئین را دریافت کرده و سپس تعامل بین RNA و پروتئین توسط شبکههای CNN و BLSTM (Bidirectional long short-term memory)، پیشبینی میگردد [19]. هرچند این روشها دقت بالاتری در پیشگویی تعامل بین RNA و پروتئین دارند ولی چالش جدی آنها در دسترس نبودن همیشگی اطلاعات ساختارهای دوم یا سوم مولکول است.
همانطور که در بالا اشاره شد، روشهای مبتنی بر توالی توانمند هستند که تعامل بین دو مولکول را تنها با در دسترس بودن توالی پیشگویی نمایند. هرچند با در نظر نگرفتن اطلاعات ساختاری، این روشها بطور معمول عملکرد ضعیفی دارند. مزیت روشهای مبتنی بر توالی و ساختار این است که دقت بالایی در پیشگویی تعاملات دارند ولی با این چالش مواجه هستند که در صورت در دسترس نبودن ساختار مولکولها قابل استفاده نیستند. هدف این تحقیق ارائه روشی است که بتواند تنها از توالی دو مولکول برای پیشبینی تعامل استفاده نماید و در ضمن ویژگیهای مورد نیاز ساختاری برای پیشگویی را بدون دریافت مستقیم از ورودی استخراج کند. همچنین در این تحقیق به کم شدن زمان آموزش مدل و عدم نیاز به سختافزاری با هزینه بالا نیز توجه شده است. بنابراین، ارائه مدلی با این مشخصات به استفاده از مزیت هر دو روشهای مبتنی بر توالی و مبتنی بر ترکیب توالی و ساختار در حل مسئله تعامل دو مولکول RNA و پروتئین کمک میکند.
برای رسیدن به این هدف، الگوریتمی به نام TIRP (Transformers for interaction prediction between RNA and protein) (شکل 1) ارائه شده که اگرچه مبتنی بر توالی است اما میتواند ویژگیهای ساختاری را نیز استخراج کند و از آن اطلاعات در پیشگویی تعامل دو مولکول استفاده نماید. برای انجام این هدف، در الگوریتم TIRP از ترنسفورمرها که در پردازش زبانهای طبیعی بعنوان ابزارهای قوی برای درک ساختار متن شناخته شده، استفاده گردیده است تا برداری از توالیها تولید شود. این بردارها ویژگیهای ساختاری مولکول را بصورت نهفته در خود دارند که در ادامه به طبقهبندی به نام شبکه عصبی دو قلوی ناهمسان (Asymmetric Siamese Neural Network) جهت پیشگویی تعاملات داده میشوند. با توجه به این که در این تحقیق از ترنسفورمرهای پیشآموزش داده شده استفاده میشود، برای آموزش دادن الگوریتم TIRP نیاز به سخت افزاری پیچیدهای نیست.
در پروژهی ProtTrans چندین مدل مبتنی بر ترنسفورمر بر روی توالیهای پروتئین منتشر شده که شامل دو مدل خود همبسته (Auto-regressive) به نامهای XLNet و Transofrmer-XL و چهار مدل خود رمزگذار (Autoencoder) به نامهای BERT (Bidirectional encoder representations from transformers)، Albert، Electra و T5 میشوند ]8[. با توجه به ماهیت این تحقیق، مدلهای خود همبسته کمکی به ما نمیکنند و در میان مدلهای خود رمزگذار، به علت بهینه بودن و عدم نیاز به سخت افزار پیچیده و در عین حال نتایج مشابه با سایر مدلها، ترنسفورمر Albert انتخاب شد ]11[. بنابراین، در الگوریتمTIRP، ابتدا برای تبدیل یک توالی پروتئین به بردار عددی از ترنسفورمر ProtAlbert [8] استفاده شده است. این ترنسفورمر مبتنی بر BERT [7] بوده و بعنوان یکی از بهترین ترنسفورمرهای پیشآموزش (Pre-train) داده شده روی توالیهای پروتئین، شناخته میشود. در سال۲۰۲۰ ویگ و همکارانش [18] نشان دادند که ترنسفورمرهای بر پایه BERT میتوانند زبان توالیهای مولکولی را درک کنند و اطلاعات ساختاری و دیگر ویژگیهای زیستی موثر را به خوبی استخراج نمایند. بنابراین بدون در دسترس داشتن ساختار، میتوان یک نمایش عددی از ویژگیهای بیوشیمایی، بیوفیزیکی و ساختاری پروتئین تولید نمود. در گام بعدی، برای تبدیل یک توالی RNA به بردار عددی از ترنسفورمر DNABERT [10] استفاده شده است. جی و همکارانش [10] در سال ۲۰۲۱ نشان دادند که این ترنسفورمر به خوبی ویژگیهای زیستی مولکول RNA را میتواند از توالی استخراج کند. در نهایت برای پیشبینی تعاملات بین RNA و پروتئین، خروجی این دو ترنسفورمر به یک معماری از نوع شبکه عصبی دوقلو داده شده است. این شبکه عصبی دو بردار که شامل ویژگیهای نهفته زیستی است را از دو فضای متفاوت به یک فضا منتقل میکند. سپس در صورت وجود تعامل بین دو مولکول، بردار ویژگیها در فضای انتقال داده شده به هم نزدیک و در صورت عدم تعامل در فضا از یکدیگر دور میشوند.
الگوریتم TIRP روی سه پایگاه دادههای RPI488 [13]، NPInter v2.0 [21] و RPI1807 [16] اجرا شده است. ارزیابی این الگوریتم در دو مرحله انجام شد. در مرحله اول بررسی گردید که طبقهبند شبکه عصبی دوقلوی ناهمسان در ساختار TIRP از طبقهبندهای کلاسیک مانند RF، SVM،NN (Neural network) برای پیشگویی تعامل بین دو مولکول مناسبتر است. برای انجام این تحلیل بردارهای استخراج شده از ترنسفورمرها به مدلهای کلاسیک داده شد. مقایسه نتایج آنها با TIRP نشان داد که شبکه عصبی دوقلوی ناهمسان بهتر از طبقهبندهای دیگر در پیشگویی تعامل بین دو مولکول عمل میکند. سپس الگوریتم TIRP با تعدادی از مدلهای مبتنی بر توالی و مبتنی بر ترکیب توالی و ساختار مقایسه شد. نتایج مقایسهی دقت الگوریتمها، نشان داد که اگرچه معماری TIRP ساده است و نیاز به سخت افزار پرهزینهای برای اجرا ندارد، میزان دقت بالاتری نسبت به روشهای مبتنی بر توالی دارد و در ضمن قابل رقابت با روشهای مبتنی بر ترکیب توالی و ساختار است.
شکل 1- نمای کلی از الگوریتم TIRP
مواد و روشها
در این بخش ابتدا مسئله تعامل RNA و پروتئین (RPI= RNA Protein Interaction) و تعاریف اولیه مورد نیاز ارائه میگردد، سپس روش پیشنهادی (TIRP) برای حل مسئله RPI و جزئیات آن شرح داده میشود. با توجه به این که در بخش نتایج روش پیشنهادی با مدلهای کلاسیک مانند RF، SVM و NN مقایسه میگردد، در این بخش توضیح مختصری هم درباره طبقهبندهای کلاسیک داده میشود. در ادامه پایگاه دادهای مورد نیاز و معیاریهای ارزیابی معرفی میگردد.
مسئله تعامل RNA و پروتئین: هر توالی RNA مانند R با طول m بصورت
نمایش داده میشود بطوری که مجموعه N نشاندهنده چهار نوع نوکلئوتید است.
هر توالی پروتئین Pبه طول n بصورت
نمایش داده میشود بطوری که مجموعه A نشاندهنده بیست نوع اسید آمینه است.
براساس دو توالی داده شد RNA و پروتئین، مسئله RPI بصورت زیر تعریف میگردد:
ترنسفورمرها: ترنسفورمرها نوعی از مدلهای یادگیری عمیقی با معماری رمزگذار(Encoder) و رمزگشا (Decoder) هستند که با مکانیزم توجه (Attention mechanism) میتوانند وابستگیهای متنی را به خوبی تشخیص دهند. یکی از بهترین این ترنسفورمرها برای شناسایی روابط اجزایی متن، معماری BERT [7] میباشد که الگوریتمی دوطرفه (Bidirectional) و بدون ناظر است. یکی از بزرگترین مزیتهای معماری BERT توانایی درک جملاتی با طول های مختلف و به خاطر سپردن جملات بسیار طولانی میباشد. با اینکه توالیهای زیستی نیز میتوانند بعنوان زبان دیده شوند اما استفاده مستقیم BERT برای حل مسائل زیستی، منجر به نتایجی خوبی نخواهد شد. در نتیجه، مدلهای پیشآموزش داده شدهای از این معماری مانند دو ترنسفورمر DNABERT [10] و ProtAlbert [8] ساخته شدهاند که بترتیب توالی مولکولهای نوکلئوتیدی و پروتئینی را بعنوان ورودی دریافت کرده و از آنها ویژگی استخراج میکنند.
ترنسفورمر DNABERT: ترنسفورمر DNABERT[10] روی ژنوم انسان و براساس معماری BERT پیشآموزش داده شده است که دارای 12 لایه (Layer) با 768 نورون پنهان و 12 هد توجه (Attention head) در هر لایه میباشد. این ترنسفورمر روی توالیهای DNA آموزش داده شده است. با تبدیل باز یورسیل (Uracil) به تیمین (Thymine) در RNA، میتوان از این ترنسفورمر بمنظور استخراج ویژگی برای توالیهای RNA استفاده نمود [10]. این ترنسفورمر توالیهای با طول حداکثر 512 دریافت کرده و برداری به طول 768 را بعنوان خروجی میسازد.
ترنسفورمر ProtAlbert: این ترنسفورمر از معماری Albert که نسخه توسعه یافته BERT است، استفاده میکند. ترنسفورمر Albert با کاهش حجم محاسبات و توانایی اجرا روی توالیهای بلندتر قابل رقابت با ترنسفورمر BERT است. بنابراین ما در این تحقیق برای کد کردن پروتئین از نسخه ProtAlbert [8] که پیشآموزش داده شده Albert روی 216 میلیون توالی پروتئین پایگاه داده Uniref100 [17] است، استفاده میکنیم. معماری این نسخه شامل 12 لایه و 64 هد توجه است. در ضمن بهجتی و همکارانش [3] نشان دادند که این نسخه از ترنسفورمر میتواند پنج ویژگی پروتئین شامل نزدیکترین تعامل با همسایه، نوع اسیدآمینه، اطلاعات بیوشیمی و بیوفیزیکی اسیدآمینهها و اطلاعات ساختار دوم و سوم را تنها براساس توالی پروتئین تشخیص دهد که شناسایی این ویژگیها میتواند تاثیر زیادی در پیشبینی تعاملات بین RNA و پروتئین داشته باشد. این ترنسفورمر به ازای هر توالی پروتئین برداری به طول 4096 بعنوان خروجی تولید میکند.
شبکه عصبی دوقلو ناهمسان: در مسئلههای زیستی روشهای متفاوت خطی مانند فاصله اقلیدسی برای محاسبه فاصله بردارها استفاده میشود. اخیرا روشهای جدیدی در شبکه های عصبی به نام شبکههای عصبی دوقلو معرفی شده که میتوانند از یک شبکه عصبی با وزن مشترک برای مقایسه دو بردار استفاده نمایند. اگر دو ورودی متعلق به یک گونه باشند، ابعاد بردارها را در فضا بصورتی تغییر میدهد که اختلاف آنها کم و نزدیک به صفر و در غیر این صورت اختلاف دو ورودی نزدیک به یک شود. این شبکه همچنین توانایی یادگیری بهتر با تعداد داده کم را دارد. شبکه عصبی دوقلوی ناهمسان از دو شبکه عصبی با معماری متفاوت تشکیل شده است که اطلاعات پنهان در دو بردار ورودی را تشخیص دهد. هر دو شبکه عصبی پیشخور (Feedforward) بوده و از پس انتشار خطا (Backpropagation) در طول یادگیری استفاده میکنند تا فاصله بین دو بردار محاسبه نماید [5].
در این تحقیق از معماری شبکههای عصبی دوقلو ناهمسان استفاده شده تا بتوان میزان شباهت دو بردار عددی پروتئین و RNA که از ترنسفورمرها استخراج شده و شامل ویژگیهای پنهان زیستی درتوالیها است را محاسبه نمود. این مدل هر دو بردار را به فضای یکسانی منتقل میکند بطوری که در صورت عدم تعامل دو مولکول، فاصله آنها در این فضایی جدید زیاد و در صورت وجود تعامل فاصله آنها در این فضا کم شود. معماری این شبکه در شکل 2 قابل مشاهده است.
شکل2- معماری شبکه
مدل پیشنهادی برای حل مسئله RPI: در این تحقیق، روشی مبتنی بر ترکیب ترنسفورمر و شبکههای عصبی دوقلوی ناهمسان به نام TIRP ارائه گردیده است. مراحل کلی آن بشرح زیر است (شکل 1):
جدول 1- جزئیات پیاده سازی شبکه FC1.
|
نام لایهها |
|
|
۷۶۸ |
تعداد نورونها |
|
Relu |
تابع فعال ساز |
|
Adam (نرخ یادگیری = 0.0001) |
بهینه ساز (Optimizer) |
|
K1 divergence |
تابع زیان (Loss function) |
جدول 2- جزئیات پیاده سازی شبکه FC2
|
نام لایهها |
|||
|
۷۶۸ |
۱۰۲۴ |
۲۰۴۸ |
تعداد نورونها |
|
Relu |
Relu |
Relu |
تابع فعال ساز |
|
ـــــــ |
۰.۲ |
۰.۲ |
دراپ اوت |
|
Adam (نرخ یادگیری = 0.0001) |
بهینه ساز |
||
|
K1 divergence |
تابع زیان |
||
جدول 3- جزئیات پیاده سازی شبکه FC3.
|
Output |
نام لایهها |
|||||
|
1 |
۱۶ |
۳۲ |
۳۲ |
۶۴ |
۱۲۸ |
تعداد نورونها |
|
Sigmoid |
Relu |
Relu |
Relu |
Relu |
Relu |
تابع فعال ساز |
|
|
۰.۲ |
۰.۲ |
۰.۲ |
۰.۲ |
۰.۲ |
دراپ اوت |
|
Adam (نرخ یادگیری = 0.0001) |
بهینه ساز |
|||||
|
Binary Cross Entropy |
تابع زیان |
|||||
با توجه به اینکه در ادامه میخواهیم طبقهبند شبکه عصبی دوقلوی ناهمسان در الگوریتم TIRP را با طبقهبندهای کلاسیک مقایسه نماییم، در این زیر بخش سه نسخه از الگوریتم TIRP تعریف میکنیم که شامل طبقهبندهای کلاسیک RF، SVM و NN برای پیشگویی تعامل RNA است. این نسخهها براساس نوع طبقهبند ، و بترتیب نامگذاری شدهاند. به هر سه نسخه بردار الحاق شده و که استخراج شده از ترنسفورمرها است، بعنوان ورودی داده شد. برای هریک از مدلها پارامترهای متفاوتی بررسی گردید و سپس بهترین آنها برای مقایسه با TIRP با طبقهبند شبکه عصبی دوقلو ناهمسان انتخاب شد. در الگوریتم RF تعداد درختهای 50، 100، 200 و 300 مورد بررسی قرار گرفت. در مدل SVM توابع کرنل خطی، چندجملهای از درجه 4 و 8، سیگموید و RBF (Radial Basis Function) ارزیابی شدند. مدل NN از یک لایه تا ۶ لایه همراه با دراپ اوت ۰.۲، تابع فعال ساز Relu در لایههای مخفی و تابع سیگموید در لایه خروجی برای پیشگویی تعامل RNA و پروتئین مورد تحلیل قرار گرفت.
پایگاه داده: برای آموزش و ارزیابی این تحقیق از پایگاه دادههای RPI488 [13]، NPInter v2.0 [21] و RPI1807 [16] استفاده شده است. پایگاه داده RPI1807، دادههای خود را از PRIDB (Nucleic acid database) و NDB (Protein-RNA interface database) استخراج کرده که شامل 1078 توالی RNA و 3131 پروتئین میباشد. این پایگاه داده در مجموع دارای 1807 جفت تعامل (مثبت) و 1436 جفت عدم تعامل (منفی) است. مجموعه داده NPInter v2.0 از پایگاه داده NPInter گرفته شده که شامل تعاملات فیزیکی بین RNA و پروتئین میباشد. این پایگاه داده از 4636 نوع RNA، 449 نوع پروتئین و در مجموع 10412 جفت مثبت تشکیل شده است. مجموعه داده RPI488 نیز با داشتن 25 نوع RNA، 247 نوع پروتئین شامل 243 جفت مثبت و 245 جفت منفی میباشد. باتوجه به اینکه پایگاه داده NPInter فاقد داده عدم تعامل است، ما دادههای خود را از مقاله [۱۹] (https://github.com/JingjingWang-87/EDLMFC) استخراج کردیم که برای این پایگاه داده نیز داده منفی تولید کرده است. در این تحقیق، بدلیل محدودیت ترنسفورمر DNABERT، RNA های با طول حداکثر 512 و بدلیل محدودیتهای سخت افزاری، پروتئینهای با طول حداکثر 1000 برای آموزش و ارزیابی مدل استفاده شده است. تعداد جفتهایی که باهم در تعامل هستند (جفتهای مثبت) و جفتهایی که در تعامل نیستند (جفتهای منفی) در جدول ۴ نشان داده شده است.
|
جدول۴- تعداد جفتهای مثبت و منفی. |
||
|
جفتهای منفی |
جفتهای مثبت |
پایگاه داده |
|
۲۸۶ |
۵۵۴ |
RPI1807 |
|
۱۶۸۵ |
۱۷۹۳ |
NPInter v2.0 |
|
۲۳۸ |
۲۱۰ |
RPI488 |
معیارهای ارزیابی: در این تحقیق، 7 معیار ارزیابی که در مقالهها [6، 13، 14، 19] عموما برای بررسی عملکرد مدل در پیشگویی تعامل RNA و پروتئین استفاده میشود، معرفی میگردد. این معیارها شامل دقت (ACC= Accuracy) ، حساسیت (TPR= True positive rate)، تشخیص (TNR= True negative rate)، (PPV= Positive predictive value)، (F1 score F1=)، (MCC= Matthews correlation coefficient) و مساحت زیر منحنی (AUC= Area under curve) میباشد. رابطه هرکدام از معیارها در ادامه شرح داده میشود.
در این رابطه، TP (True positive) به معنی تعداد جفتهای RNA و پروتئینی است که باهم در تعامل بوده و بدرستی پیشبینی میشوند. مقدار TN (True negative) نشاندهنده تعداد جفتهایی است که باهم در تعامل نیستند و بدرستی پیشگویی میگردند. تعداد جفتهایی که باهم درتعامل نبوده اما مدل آنها را اشتباه پیشبینی مینماید با FP (False positive) نمایش داده میشود. درنهایت، FN (False negative) تعداد جفتهایی که باهم در تعامل بوده و توسط مدل به اشتباه پیشبینی شده اند را نشان میدهد.
نتایج و بحث
در این بخش، ما به ارزیابی الگوریتم TIRP در دو گام میپردازیم. ابتدا نشان داده میشود که انتخاب طبقهبند شبکه عصبی دوقلوی ناهمسان در TIRP مناسبتر از طبقهبندهای کلاسیک مانند RF، SVM و NN است. سپس عملکرد الگوریتم پیشنهادی با روشهای موجود که برای پیشگویی تعامل RNA و پروتئین اخیرا ارائه شده، مقایسه میگردد.
مقایسه با روشهای کلاسیک طبقهبندی: در این زیربخش نسخه اصلی TIRP که دارای طبقهبند شبکه دوقلوی ناهمسان است برای ارزیابی با سه نسخه ، و که مبتنی بر طبقهبندهای کلاسیک RF ، SVM و NN هستند، مقایسه میگردد. ابتدا هر یک از نسخهها براساس پارامترهای متفاوت اموزش داده شده و به روش اعتبارسنجی متقابل 5 تایی (5-fold cross validation) تست شدهاند. سپس مقدار میانگین AUC به ازای هر مدل با پارامترهای متفاوت محاسبه گردیده و بهترین پارامترها برای هر طبقهبند در جدول ۵ مشخص شده است. مقایسه نتایج مقدار AUC در نسخههای TIRP به ازای طبقهبندهای متفاوت در جدول ۶ قابل مشاهده است. این جدول نشان میدهد که طبقهبند شبکه عصبی دوقلوی ناهمسان از دو طبقهبند RF و SVM بطور محسوسی بهتر عمل میکند. در طبقهبند NN نیز با وجود اینکه عمق لایهها مطابق با شبکه دوقلو ناهمسان در نظر گرفته شده، اما همچنان TIRP میزان AUC بیشتری را نشان میدهد.
جدول۵- بهترین پارامترها برای مدلهای کلاسیک طبقهبندها.
|
مقدار پارامتر |
نوع پارامتر |
طبقهبند |
|
۵۰ |
تعداد درخت |
RF |
|
خطی |
تابع کرنل |
SVM |
|
۶ |
تعداد لایه |
NN |
|
جدول ۶- مقایسه الگوریتم TIRP با روشهای کلاسیک طبقهبندی براساس معیار AUC. |
|||
|
RPI488 |
NPInter v2.0 |
RPI1807 |
روشها |
|
۰.۹۹ |
۰.۹۳ |
۰.۹۸ |
TIRP |
|
۰.۹۵ |
۰.۸۵ |
۰.۹۰ |
|
|
۰.۹۱ |
۰.۷۷ |
۰.۹۰ |
|
|
۰.۹۸ |
۰.۹۲ |
۰.۹۸ |
|
مقایسه الگوریتم TIRP با روشهای نوین موجود: برای بررسی بهتر عملکرد TIRP، این الگوریتم را با روشهای نوین موجود مانند EDLMFC [19]، RPITER [14]، IPMiner [13] و CFRP [6] مقایسه نمودیم (نمودارهای 1و2). دو روش EDLMFC و RPITER مبتنی بر ترکیب توالی و ساختار هستند و دو روش IPMiner و CFRP مبتنی بر توالی میباشند. مقادیر معیارهای ارزیابی این روشهایی که در نمودارهای 1 و 2 و جدول ۷ نشان دادهشده، از مقاله [19] استخراج شده است. الگوریتم TIRP نیز از پایگاه داده مقاله [19] استفاده کرده و مشابه روشهای دیگر با روش اعتبارسنجی متقابل 5 تایی تست شده است.
نمودار1- مقایسه روشهای نوین موجود با TIRP براساس معیار ACC.
نمودار2- مقایسه روشهای نوین موجود با TIRP براساس معیار AUC.
نمودار ۱ میزان دقت (ACC) هر یک از الگوریتمهای TIRP، EDLMFC ، RPITER، IPMiner و CFRP را روی سه پایگاه داده نشان میدهد. تقریبا همه الگوریتمها روی پایگاه داده RPI1807 در حدود ۹۳ درصد دقت دارند. در پایگاه داده NPInter v.20، روش TIRPاز نظر دقت قابل رقابت با EDLMFC و RPITER است. برتری روش TIRP به این دو روش در این است که بدون اطلاعات ساختاری به دقت آنها نزدیک است. دقت روش TIRP برروی پایگاه داده RPI488 بیشتر از همه روشها است. می توان ادعا کرد دلیل این موضوع به علت عملکرد مناسب شبکههای دوقلو روی دادهای کم است زیرا مجموعه دادهای این پایگاه داده کمتر از بقیه پایگاه دادهها است.
نمودار ۲ مقدار AUC هر یک الگوریتمها را روی سه پایگاه داده نشان میدهد. به ازای این معیار روی پایگاه داده RPI1807، تقریبا سه روش TIRP،EDLMFC ، RPITER مشابه عمل میکنند که نشان میدهد گرچه به مدل پیشنهادی در این تحقیق اطلاعات ساختاری مولکولها داده نشده ولی ترنسفورمرها بصورت قابل قبولی اطلاعات ساختاری را استخراج میکنند. مقدار AUC روی پایگاه داده NPInter v.20 بر روی این نکته تایید میکند که مدل ما قابل رقابت با مدلهای مبتنی بر توالی و ساختار است. در ضمن برروی پایگاه داده RPI488، روش TIRP بصورت چشمگیری مقدارAUC را افزایش میدهد که این نیز تایید بر وجود طبقهبند مناسب یعنی شبکههای دوقلو ناهمسان است که خیلی کارا روی دادههای با حجم کم هستند.
در جدول ۷ میتوان نتایج معیارهای TPR، TNR، PPV، F1 و MCC را روی پایگاه دادههای متفاوت به ازای الگوریتمهای گوناگون مقایسه نمود. افزایش یا کاهش میزان معیارهای TPR نشان میدهد که مدل میزان پیشگویی در تعامل بودن را خوب یا بد تشخیص داده است. اصولا افزایش یا کاهش این پارامتر رابطه معکوس با TNR دارد. این پارامتر نشان دهنده میزان پیشگویی عدم تعامل است. در الگوریتم TIRP، تفاضل این دو معیار تقریبا در همه پایگاه دادهها ۴ درصد است. این نشان میدهد این روش برخلاف روشهای دیگر فقط روی یکی از حالتهای کلاس تشخیص تعامل یا عدم تعامل بایاس نمیشود. همچنین با توجه به اینکه معیارهای F1 و MCC جفتهای در تعامل یا عدم تعامل پیشگویی شده را بصورت همزمان بررسی میکند، میتوانیم ادعا کنیم که در این معیارها، الگوریتم TIRP با روشهای موجود مقایسه شده، قابل رقابت است.
|
جدول 7- مقایسه براساس دیگر معیارهای ارزیابی |
||||||
|
MCC |
F1 |
PPV |
TNR |
TPR |
روش |
پایگاه داده |
|
۰.۸۷ |
۰.۹۷ |
۰.۹۷ |
۰.۹۰ |
۰.۹۶ |
TIRP |
RPI1807 |
|
۰.۸۳ |
۰.۹۵ |
۰.۹۴ |
۰.۸۴ |
۰.۹۶ |
EDLMFC |
|
|
۰.۸۲ |
۰.۹۵ |
۰.۹۴ |
۰.۸۲ |
۰.۹۷ |
RPITER |
|
|
۰.۸۲ |
۰.۹۵ |
۰.۹۲ |
۰.۷۶ |
۰.۹۹ |
IPMiner |
|
|
۰.۷۹ |
۰.۹۵ |
۰.۹۲ |
۰.۷۷ |
۰.۹۷ |
CFRP |
|
|
۰.۷۹ |
۰.۸۹ |
۰.۸۸ |
۰.۸۷ |
۰.۹۱ |
TIRP |
NPInter v2.0 |
|
۰.۷۹ |
۰.۸۹ |
۰.۸۸ |
۰.۸۷ |
۰.۹۱ |
EDLMFC |
|
|
۰.۷۸ |
۰.۸۹ |
۰.۸۷ |
۰.۸۶ |
۰.۹۱ |
RPITER |
|
|
۰.۶۵ |
۰.۸۳ |
۰.۸۱ |
۰.۸۱ |
۰.۸۴ |
IPMiner |
|
|
۰.۶۴ |
۰.۸۱ |
۰.۸۵ |
۰.۸۶ |
۰.۷۷ |
CFRP |
|
|
۰.۸۵ |
0.92 |
۰.۸۵ |
۰.۸۵ |
۱ |
TIRP |
RPI488 |
|
۰.۷۴ |
۰.۸۲ |
۰.۹۶ |
۰.۹۶ |
۰.۷۴ |
EDLMC |
|
|
۰.۷۴ |
۰.۸۲ |
۰.۹۵ |
۰.۹۵ |
۰.۷۵ |
RPITER |
|
|
۰.۶۳ |
۰.۷۹ |
۰.۷۹ |
۰.۷۸ |
۰.۸۴ |
IPMiner |
|
|
۰.۶۰ |
۰.۷۷ |
۰.۸۲ |
۰.۸۵ |
۰.۷۵ |
CFRP |
|
نتیجهگیری
در این مقاله، روش جدیدی برای پیشبینی تعاملات بین RNA و پروتئین پیشنهاد شده است. این روش ابتدا از توالیهای RNA توسط ترنسفورمرهای ProtAlbet و DNABERT ویژگی استخراج کرده و سپس تعامل داشتن یا نداشتن آن دو را با شبکه عصبی دوقلوی ناهمسان پیشگویی میکند. ارزیابیها نشان داد که این مدل با داشتن میانگین دقت 92.3 درصد و میانگین مساحت زیر منحنی 96.6 درصد دقت از روشهای نوین موجود عملکرد بهتری دارد. در آینده، این روش را میتوان با تنظیم دقیق (Fine tuning) ترنسفورمر DNABERT، روی توالیهای RNA بهبود بخشید. در ضمن نوع ویژگی از تعاملات در لایههای ترنسفورمرها را میتوان بررسی کرد.
1- اقدسی، م. 1392. بررسی پروتئومیکی گیاهان تراریخت شده با RBP2-GR در مقایسه با گیاهان وحشی. مجله پژوهشهای سلولی و مولکولی (مجله زیست شناسی ایران)، جلد 26 ،شماره .163-154ص، 2
2- پورشیخعلی اصغری، م. و عبدالمالکی، پ. 2015. پیشگویی عملکرد اتّصال پروتئینها به ریبونوکلئیک اسید بر اساس خواص فیزیکوشیمیایی آنها به کمک روش لوژستیک رگرسیون. مجله پژوهشهای سلولی و مولکولی (مجله زیست شناسی ایران)، جلد 28، شماره 45-53 ص، 1
| Article View | 1,878 |
| PDF Download | 511 |