نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانشگاه امیرکبیر - دانشکده ریاضی و علوم کامپیوتر
2 دانشگاه امیرکبیر- دانشکده ریاضی و علوم کامپیوتر
3 هیئت علمی دانشگاه صنعتی امیرکبیر (پلی تکنیک تهران)
چکیده
تعاملات RNA و پروتئین نقش مهمی در فرآیندهای بنیادی سلول که موثر در بیماریهای انسان، حیوانات، گیاهان و همچنین تنظیمات بیان ژن هستند، دارند. با این حال، الگو و نحوه انتخاب این تعاملات به خوبی درک نشدهاند. همچنین به دلیل هزینهبر و زمانبر بودن روشهای آزمایشگاهی، نیاز به توسعه روشهای محاسباتی معتبر وجود دارد. پیشبینی این تعاملات، نیازمند بررسی اطلاعات ساختاری مولکولها میباشد، در حالی که این اطلاعات همیشه در دسترس نیست. از طرفی نتیجه تحقیقات روی مدلهای ترنسفورمر نشان میدهد که آنها میتوانند به خوبی از توالیهای RNA و پروتئین اطلاعات بیوشیمیایی، بیوفیزیکی و ساختاری مهمی را استخراج کنند. در این تحقیق، از دو ترنسفورمر ProtAlbert و DNABERT استفاده شده تا نمایش مناسبی از ویژگی توالیهای RNA و پروتئین ساخته شود. بردارهای ویژگی استخراج شده به یک مدل یادگیری عمیق دوقلو ناهمسان داده شد تا تعاملات بین این دو مولکول را پیشگویی کند. نتایج بدست آمده نشان داد که روش پیشنهادی این تحقیق با داشتن میانگین دقت 92/3 درصد و میانگین مساحت زیر منحنی 96/6 درصد در مقایسه با روشهای موجود بهتر عمل میکند.
کلیدواژهها
موضوعات
عنوان مقاله [English]
RNA-Protein interaction prediction using transformers and asymmetric Siamese neural network
نویسندگان [English]
1 Department of mathematics and computer science, Amirkabir University of technology
2 Department of mathematics and computer science, Amirkabir university of technology
3 Department of mathematics and computer science, Amirkabir University of technology
چکیده [English]
RNA-protein interactions play essential roles in many biological processes, such as gene regulation and fundamental cellular processes related to human, animal, and plant diseases. However, the patterns of these interactions are not fully understood. The experimental methods to solve this problem are expensive and time-consuming. Therefore, there is a compelling need for developing reliable computational methods. Predicting these interactions requires structural information about RNA and protein, which is not always available. On the other hand, results of the research on transformers show that they can efficiently extract biochemical, biophysical, and structural features from molecule sequences. In this experiment, we use ProtAlbert and DNABERT transformers to provide a good representation for RNA and protein sequences. Then we feed the feature vectors to an asymmetric Siamese network to predict whether they interact with each other or not. The experimental results indicate that our method achieves superior performance with an average accuracy of 92.3% and an average area under the curve of 96.6%.
کلیدواژهها [English]