Document Type : Research Paper
Authors
1 PhD student of Nanobiotechnology, Tarbiat modares University
2 Scientific board, Faculty of Paramedical Sciences, Shahid Beheshti University of Medical Sciences
3 Scientific board, Department of Biophysics, Faculty of Biological Sciences, Tarbiat Modares University
4 National Institute of Genetic Engineering and Biotechnology
Abstract
The knowledge-based force function is a new type of the scoring functions that has been used in the field of protein fold recognition with a noticeable success. In this study we compared the performance of a knowledge-based potential function and its corresponding force function in discrimination of the correct protein-protein complexes from the incorrect ones. The total force imposed by one component (receptor/ligand) upon another was used as a measure of complex stability. This force is expected to be the lowest in the native structure. To test the performance of each method, two decoy sets were used; one generated by soft body docking and the other by rigid body docking algorithms. The results of this comparison show that, for both decoy sets, the success rates in native and near native selections of the energy model are higher than that of the force model. It seems, the dependence of amount of the force on shape of the interface region introduces errors in the later model and therefore makes it inappropriate for the scoring of docked complexes.
Keywords
مقایسه کارآیی یک تابع انرژی دانشپایه و یک تابع نیروی دانشپایه در نمرهدهی کمپلکسهای پروتئین- پروتئین
رحیم جعفری1، مهدی میرزایی2،4، مجید عرفانی مقدم3، مهدی صادقی5*
1 تهران، دانشگاه تربیت مدرس، دانشکده علوم زیستی، گروه نانوبیوتکنولوژی
2 تهران، دانشگاه علوم پزشکی شهید بهشتی، دانشکده پیراپزشکی
3تهران، دانشگاه تربیت مدرس، دانشکده علوم زیستی، گروه بیوفیزیک
4 تهران، پژوهشگاه دانشهای بنیادی، پژوهشکده علوم کامپیوتر، گروه بیوانفورماتیک
5 تهران، پژوهشگاه ملی مهندسی ژنتیک و زیست فناوری
تاریخ دریافت: 19/6/91 تاریخ پذیرش: 21/12/91
چکیده
تابع نیروی دانشپایه نوعی از توابع نمرهدهی میباشد که از آن در زمینه تشخیص فولد پروتئینها با موفقیت قابل توجهی استفاده شده است. در این مطالعه کارآیی نوعی تابع انرژی دانشپایه و تابع نیروی هم ارز آن در تشخیص کمپلکسهای درست پروتئین-پروتئین از کمپلکسهای نادرست، با یکدیگر مقایسه شده است. مقدار نیروی کل که از یک جزء کمپلکس (گیرنده/لیگاند) بر جزء دیگر وارد میشود به عنوان معیار پایداری کمپلکس، مورد استفاده قرار گرفت. چنین انتظار میرود که این نیرو در ساختار طبیعی کمترین مقدار را داشته باشد. جهت ارزیابی کارآیی هر روش، دو مجموعه مورد استفاده قرار گرفت که یکی از آنها با الگوریتم داکینگ جسم نرم و دیگری با الگوریتم داکینگ جسم سخت ایجاد شده بودند. نتایج حاصل از این مقایسه نشان میدهد نرخ موفقیت مدل انرژی در انتخاب ساختارهای طبیعی و نزدیک به طبیعی بالاتر از روش نیرو میباشد. ظاهراً وابستگی مقدار نیرو به شکل ناحیه اتصال کمپلکسها باعث ایجاد خطاهایی در مدل نیرو شده که سبب نامناسب گردیدن آن در نمرهدهی کمپلکسهای داک شده میشود.
واژه های کلیدی: انرژی دانشپایه، نیرو، تابع نمرهدهی، داکینگ پروتئین-پروتئین
* نویسنده مسئول، تلفن:44787373، پست الکترونیکی: sadeghi@nigeb.ac.ir
مقدمه
پروتئینها تقریباً در تمام فرآیندهای زیستی نقش محوری دارند و در بسیاری از موارد، تنها در صورتی قادر به انجام عمل اختصاصی خود هستند که با برخی پروتئینهای دیگر برهمکنش داشته باشند. جهت بررسی دقیق برهمکنش پروتئینها در مقیاس اتمی، لازم است از ساختارهایی که با روشهای تجربی به دست آمدهاند استفاده شود ولی متاسفانه ساختار کمپلکس بسیاری از پروتئینها تا کنون تعیین نگردیده، زیرا طبیعت ناپایدار و گذرای برهمکنش پروتئینها سبب ایجاد اختلال در فرآیند ساخت کریستال از آنها میشود. از این رو با توجه به اهمیت موضوع، نیاز به ابزارهای کمکی جهت مطالعه برهمکنش پروتئینها بدون استفاده از ساختارهایی که با روشهای تجربی به دست آمدهاند، احساس میشود.
داکینگ، یک روش محاسباتی میباشد که در آن سعی میشود با استفاده از ساختارهای اجزای سازنده (گیرنده و لیگاند)، شکل نهایی کمپلکس مورد نظر پیشگویی شود. الگوریتمهای داکینگ از دو بخش اصلی تشکیل شدهاند که عبارتند از الگوریتمهای جستجو و توابع نمرهدهی. الگوریتم جستجو باید بتواند حالتهای مختلف برهمکنش دو مولکول را در یک بازه زمانی قابل قبول به وجود آورد و از توابع نمرهدهی جهت ارزیابی کیفیت ساختارهای ایجاد شده به منظور تشخیص ساختار درست (طبیعی) یا "نزدیک به درست" از ساختارهای غلط استفاده میشود. لازم به ذکر است، توابع نمرهدهی هم در زمان جستجو و هم در زمان پس از آن مورد استفاده قرار میگیرند (10).
توابع نمرهدهی را بر اساس ماهیت و نحوه ساخت، معمولاً در سه گروه مختلف طبقهبندی میکنند. در توابع نمرهدهی فیزیکی، از روابط مربوط به مکانیک مولکولی جهت محاسبه انرژی ساختارها استفاده میشود (4 و 13). توابع نمرهدهی تجربی، ترکیبی خطی از انواع ویژگیهای مرتبط به انرژی مثل پیوند هیدروژنی، الکترواستاتیک، واندروالس و غیره هستند که وزن یا ضرائب آنها متناسب با نوع کاربرد تنظیم میشود (5، 8، 11 و 18). دسته سوم، توابع دانشپایه هستند که در ساخت آنها از خصوصیات ساختاری و فیزیکوشیمیایی تعداد نسبتاً زیادی پروتئین با ساختار مشخص، استفاده میشود.
توابع پتانسیل آماری نوعی از توابع دانشپایه هستند که در آنها فراوانی خصوصیتهای ذکر شده با استفاده از عکس رابطه بولتزمن به یک سری تابع انرژی موثر تبدیل می شوند (2، 3، 6، 12 و 21). در بسیاری از موارد، از خصوصیاتی مثل برهمکنش بین اتمها یا زنجیرههای جانبی اسیدهای آمینه در ساخت این نوع توابع استفاده میشود و شکل کلی آن به صورت زیر است:
در این رابطه انرژی بین اتمهای از نوع i و j با فاصله r از دو مولکول مختلف، ثابت بولتزمن، T دمای محیط بر حسب کلوین، و احتمال جفت اتمهای i و j در فاصله r که به ترتیب در ساختارهای واقعی و "وضعیت مرجع" محاسبه شدهاند. وضعیت مرجع یک وضعیت فرضی است که در آن برهمکنش اتمها بر حسب تصادف و نه بر حسب تمایل واقعی آنها به یکدیگر انجام میگیرد.
توابع نمرهدهی آماری در ابتدا به منظور تشخیص فولد طبیعی در پروتئینهای تک زیرواحدی ابداع شدند و در طول سالها تلاشهای زیادی جهت بهبود آنها صورت گرفته است (19). یکی از تغییرات بنیادی در چنین توابعی، تبدیل آنها از فرم انرژی به فرم نیرو بوده که توسط میرزایی و همکاران صورت گرفته است (17). آنها نشان دادند، با ایجاد این تغییر و همچنین به کارگیری یک الگوریتم مناسب در مقایسه نیروهای وارد بر هر اتم در ساختارهای مختلف، میتوان قدرت تشخیص ساختار طبیعی را از ساختارهای غیرطبیعی افزایش داد.
در بررسی حاضر سعی شده توانایی مدل انرژی و مدل نیرو در تشخیص کمپلکسهای طبیعی و نزدیک به طبیعی از کمپلکسهای غیرطبیعی با یکدیگر مقایسه شود. با فرض اینکه ساختار طبیعی در وضعیت تعادل قرار دارد، انتظار می رفت نیروهایی که دو مولکول بر یکدیگر وارد میکنند در کمترین حد ممکن یعنی نزدیک به صفر بوده و ساختارهای نادرست متناسب با میزان انحراف آنها از ساختار طبیعی نیروی بیشتری بر یکدیگر وارد کنند. بنابراین روش نمرهدهی در این بررسی، محاسبه برآیند تمام نیروهای وارد بر اتمهای گیرنده/ لیگاند در ناحیه اتصال و مقایسه آنها با یکدیگر است.
مواد و روشها
مجموعه آموزش: جهت آموزش از مجموعهای که توسط Huang و Zou ساخته شده بود استفاده گردید (6). این مجموعه دارای 850 کمپلکس پروتئین-پروتئین میباشد که تفکیکپذیری ساختاری آنها حداکثر 5/2 آنگستروم است. زیرواحدهای هر کمپلکس حداقل 10 اسید آمینه داشته و حداقل 30 برهمکنش اسید آمینه-اسید آمینه در ناحیه برهمکنش آنها وجود دارد. توالی هر جفت مولکول گیرنده-گیرنده یا لیگاند-لیگاند از دو کمپلکس مختلف، حداکثر 70 درصد یکسان هستند.
مجموعههای تست: معمولا به منظور ارزیابی دقت توابع نمرهدهی از مجموعههایی به نام "مجموعه دکوی" (Decoy set) استفاده میشود. این مجموعهها شامل چندین پروتئین تست هستند که به ازای هر یک از آنها تعداد زیادی ساختار غلط یا دکوی و تعداد بسیار کمی ساختار "نزدیک به درست" وجود دارد و توابع نمرهدهی باید بتوانند این ساختارها را از ساختارهای غلط تشخیص دهند. در این مطالعه از دو مجموعه دکوی استفاده گردید که با روشهای داکینگ جسم سخت و داکینگ جسم نرم تولید شدهاند. در داکینگ جسم سخت، پیکربندی اجزای سازنده کمپلکس در طول فرآیند داکینگ ثابت باقی میماند ولی در داکینگ جسم نرم سعی میشود علاوه بر تغییر موقعیت دو مولکول نسبت به یکدیگر، تغییرات پیکربندی ناشی از برهمکنش آنها نیز شبیهسازی شود.
مجموعه داکینگ جسم نرم (soft body docking): مجموعه دکوی مورد استفاده با استفاده از نرم افزار RosettaDock تولید شده است. این مجموعه شامل 54 کمپلکس میباشد که به ازای هر یک از آنها حدود 1000 ساختار وجود دارد (5)
مجموعه داکینگ جسم سخت (rigid body docking): مجموعههای تست (Benchmark) شماره 2 و 3 ساخته شده توسط Weng و همکاران (7 و 16) شامل 124 کمپلکس میباشد. مولکولهای گیرنده و لیگاند در این مجموعه هر دو به صورت جداگانه تعیین ساختار شدهاند. این کمپلکسها بر اساس مشکل بودن داکینگ به سه گروه تقسیم میشوند: آسان، متوسط و سخت. اجرای داکینگ جسم سخت به وسیله zdock بر روی کمپلکسهایی که جزء گروه سخت هستند نمیتواند ساختار نزدیک به طبیعی تولید کند. از آنجایی که تعداد دکویهای 124 کمپلکس نسبتاً زیاد است، برای افزایش سرعت محاسبه انرژی و نیرو، یک مجموعه کوچکتر ساخته شد که اعضای آن به صورت کاملاً تصادفی انتخاب شده بودند. از این زیر مجموعه، کمپلکسهایی که جزء گروه سخت بودند و همچنین آنهایی که توالیشان بیشتر از 65 درصد با توالی پروتئینهای مجموعه آموزش یکسان بودند، حذف گردیدند. در نتیجه با اعمال فیلتر های ذکر شده در نهایت 46 کمپلکس باقی ماند.
در مرحله بعد با استفاده از نرم افزار zdock-3.0.1 (15)، عمل داکینگ جسم سخت بر روی هر یک از 46 جفت انجام گرفته و به ازای هر یک از آنها تعداد 3600 کمپلکس تولید شد. در بین ساختارهای مربوط به 42 کمپلکس تست، حداقل یک ساختار نزدیک به طبیعی وجود داشت. 4 مورد دیگر که فاقد ساختار نزدیک به طبیعی بودند از مجموعه حذف شدند. معیار به کار رفته در تعریف ساختارهای نزدیک به طبیعی در بخش نتایج توضیح داده شده است.
تعریف انواع اتم (Atom types): با وجود آنکه نوع اتمهای سازنده پروتئینها مشخص و محدود میباشند، به دلیل نوع اتصالات و محیط پیرامونی اتمها، تنوع آنها به لحاظ خصوصیات فیزیکوشیمیایی زیاد است. بر این اساس تعداد "انواع اتمی" در 20 اسید آمینه طبیعی 167 نوع میباشد. مسلماً در ساخت توابع، هر اندازه اتمهای مورد استفاده متنوعتر باشند، تابع نهایی بهتر خواهد بود. اما تفکیک اتمها به انواع مختلف سبب میشود فراوانی آنها در ساختارهای مجموعه آموزش بسیار کمتر از حدی بشود که بتوان از آنها در ساخت تابع پتانسیل استفاده کرد زیرا اساس این نوع توابع، مشاهده آماری میباشد. در چنین شرایطی لازم است با دستهبندی اتمهای دارای خصوصیات فیزیکوشیمیایی مشابه در انواع اتمی کمتر، تا اندازه ای از بروز چنین مشکلی شود. در این مطالعه 167 نوع اتم در 16 گروه قرار داده شد (جدول 1) که دو به دو مجموعاً 136 "جفت تیپ اتمی" را تشکیل میدهند.
جدول 1- لیست 16 تیپ اتمی متعلق به 20 اسید آمینه استاندارد که در ساخت توابع انرژی استفاده شدهاند.
شماره نوع اتم |
توضیح |
مثال |
1 |
اکسیژنهای گروه کربونیل در زنجیره اصلی |
GLY-O, PHE-O, … |
2 |
اکسیژنهای گروه کربونیل در زنجیره جانبی |
GLN-OE1, ASN-OD1 |
3 |
اکسیژنهای گروه هیدروکسیل |
SER-OG, TER-OG1, TYR-OH |
4 |
اکسیژنهای گروه کربوکسیل |
ASP-OD1, ASP-OD2, GLU-OE1, GLU-OE2 |
5 |
نیتروژنهای زنجیره اصلی |
GLY-N, PHE-N, … |
6 |
نیتروژنهای باردار زنجیره جانبی |
ARG-NH1, ARG-NH2, LYS-NZ, HIS-ND1, HIS-NE2 |
7 |
نیتروژنهای خنثی زنجیره جانبی (با یک هیدروژن آزاد) |
TRP-NE1, ARG-NE |
8 |
نیتروژنهای خنثی زنجیره جانبی (با دو هیدروژن آزاد) |
ASN-ND2, GLN-NE2 |
9 |
گوگردها |
MET-SD, CYS-SG |
10 |
کربنهای گروه کربونیل در زنجیره اصلی |
GLY-C, PHE-C, … |
11 |
کربنهای گروه کربونیل در زنجیره جانبی |
ASN-CG, GLN-CD |
12 |
کربنهای گروه کربوکسیل در زنجیره جانبی |
ASP-CG, GLU-CD |
13 |
کربنگروه های آروماتیک |
PHE-CE1, TYR-CG, TRP-CZ2, HIS-CE1, … |
14 |
کربنهای آلفا (زنجیره اصلی) |
GLY-CA, PHE-CA, … |
15 |
کربنی که به نیتروژن با بار مثبت متصل شده |
ARG-CZ |
16 |
بقیه کربنهای زنجیره جانبی (کربن گروههای آلیفاتیک) |
VAL-CG1, PRO-CD, ILE-CD2, ARG-CB, HIS-CB, … |
محاسبه توابع انرژی: در ساخت توابع انرژی با کاربرد داکینگ، معمولاً از اطلاعات موجود در ناحیه اتصال کمپلکسها استفاده میشود. دو اسید آمینه از دو زیرواحد مختلف، متعلق به ناحیه اتصال خواهند بود اگر فاصله حداقل یک جفت از اتمهای سنگین آنها (اتمهایی به جز هیدروژن) 5/4 آنگستروم و یا کمتر باشد.
در ابتدا فراوانی جفت اتمهای ناحیه اتصال در محدودههای مشخصی از فاصلهها (مثلا 1-25/1 آنگستروم، 25/1-5/1 آنگستروم و ...) حساب میشود. در مطالعه حاضر از 34 "محدوده فاصله"، هر یک با پهنای 25/0 آنگستروم استفاده گردید و از جفت اتمهایی که فاصله آنها بیش از 5/8 آنگستروم بود صرف نظر شد.
انرژی بین جفت اتمهایی از نوع i وj در فاصله r، که یکی از آنها متعلق به گیرنده و دیگری متعلق به لیگاند باشد، از رابطه زیر محاسبه گردید که بر گرفته از کار Sippl میباشد (20).
وزنی است که به هر مشاهده داده میشود و مقدار آن 02/0 انتخاب گردید.
در این رابطه، تعداد کل جفت اتمهای ij است.
تعداد جفت اتمهای ij در فاصله r میباشد (فراوانی مطلق)
فراوانی نسبی جفت اتمهای ij در فاصله r است که برابر است با:
فراوانی نسبی همه جفت اتمها در فاصله r است که برابر میباشد با:
°K 293 T = و در نتیجه مقدار RT، برابر است با kcal/mol 582/0
انرژی کل یک کمپلکس، مجموع انرژی جفت اتمهای گیرنده-لیگاند در ناحیه اتصال است.
محاسبه توابع نیرو: نیرو در حقیقت تغییرات انرژی به ازای تغییرات فاصله است ( ). برای محاسبه مقدار نیرو در نقطه مورد نظر از روش مشتق عددی استفاده شد.
در این رابطه مقدار نیرو برای "محدوده فاصله" شماره i، و به ترتیب مقدار انرژی در محدودههای بعدی و قبلی و و به ترتیب فاصله تا مرکز محدودههای بعدی و قبلی هستند.
محاسبه نیروی وارد بر اتمها: برای محاسبه نیرویی که از اتم گیرنده با مختصات به اتم لیگاند با مختصات وارد میشود، در ابتدا لازم است بردار یکّه به حساب شود.
بردار نیرو بین اتمهای i و j و در فاصله dبرابر خواهد بود با:
که در آن مقدار عددی نیرو در فاصله d میباشد که قبلاً از طریق مشتق عددی محاسبه شده بود. نیروی کل ( ) که از سمت اتمهای گیرنده بر اتمهای لیگاند وارد میشود جمع برداری تمام نیروهای حاصل از جفت اتمهای گیرنده-لیگاند است. بدیهی است، نیروی کل گیرنده بر لیگاند دقیقاً برابر ولی برخلاف جهت نیرویی است که از لیگاند بر گیرنده وارد میشود. بنابراین محاسبه یکی از آنها کافی است.
در نهایت برای مقایسه کمپلکسها با یکدیگر لازم است اندازه بردار نیروی کل که همان نمره هر ساختار میباشد حساب گردد:
، و مؤلفههای بردار F هستند.
نتایج
پس از نمرهدهی با روش مربوطه و سپس مرتب کردن ساختارها بر اساس نمرهشان، انتظار میرود ساختارهای با کیفیت بهتر در رتبه های بالاتر قرار گیرند. اگر در مورد یک پروتئین تست، حداقل یک ساختار با کیفیت مورد نظر در چندتای اول (مثلا در 10 تای اول) مشاهده شود در این صورت روش مورد نظر در مورد آن موفق بوده است. درصد مواردی که در آنها موفق به یافتن حداقل یک ساختار مطلوب که حداکثر دارای رتبه مورد نظر باشد، نشان دهنده میزان توانایی روش مورد مطالعه به ازای آن رتبه خاص (top n) میباشد. به عنوان مثال اگر 50 عدد پروتئین تست وجود داشته باشد که هر یک دارای چندین کمپلکس باشند و مثلاً اگر در 5 مورد از آنها بتوان حداقل یک کمپلکس با ساختار مناسب در بین مثلاً 3 ساختاری که بیشترین نمره را دارند یافت، در این صورت درصد موفقیت به ازای top3 معادل 10 درصد خواهد بود. به این ترتیب با تغییر top n و محاسبه مجدد درصد موفقیت، میتوان منحنی "نرخ موفقیت" را به دست آورد.
یافتن ساختار طبیعی: از آنجا که محاسبه ساختاری، دقیقاً شبیه به آنچه که با روشهای تجربی تعیین میشود، عملاً از طریق داکینگ غیر ممکن است، معمولاً هدف مورد جستجو نه ساختار طبیعی بلکه ساختارهای نزدیک به طبیعی هستند. اگر ساختار طبیعی در بین ساختارهای دیگر موجود باشد، در این صورت یافتن آن بسته به نوع مجموعه، در بسیاری از موارد نسبتاً راحت است. با این وجود از آنجایی که هدف از انجام این پژوهش مقایسه روشها میباشد، نتیجه چنین آزمونی جهت قضاوت نهایی مفید خواهد بود.
مجموعههای مورد استفاده در ابتدا فاقد ساختارهای کمپلکس طبیعی (تعیین شده با روش تجربی) بودند به همین دلیل فایل pdb آنها به صورت دستی اضافه شد. بعد از نمرهدهی با دو روش انرژی و نیرو، "نرخ موفقیت" برای هر کدام از مجموعهها محاسبه گردید (شکل 1). در مجموعهای که با استفاده از داکینگ جسم سخت ساخته شده، هر دو روش توانستهاند ساختارهای طبیعی را تا حد زیادی از ساختارهای غیرطبیعی جدا کنند، به طوری که درصد موفقیت در top 10 برای هر دو بیش از 75 درصد است. اما در مجموع، دقت روش انرژی بهتر از روش نیرو است زیرا درصد موفقیت انرژی برای رتبه اول (top 1) بالاتر بوده و همچنین زودتر به درصد موفقیت 100 می رسد.
در مجموعه دوم که با روش داکینگ جسم نرم ساخته شده، نرخ موفقیت هر دو روش در مقایسه با مجموعه قبل کاهش زیادی مییابد. در این مجموعه نیز روش انرژی بهتر از نیرو عمل میکند. همانطور که در شکل ملاحظه میشود روش نیرو در هیچ یک از top n ها قادر به یافتن ساختار طبیعی نیست.
شکل 1) نرخ موفقیت در یافتن ساختار طبیعی. A ) مجموعه تولید شده با روش داکینگ جسم سخت. B ) مجموعه تولید شده با روش داکینگ جسم نرم (منحنی نیرو با محور افقی نمودار مماس شده و به سختی دیده میشود).
یافتن ساختار نزدیک به طبیعی: تعریف ساختار نزدیک به طبیعی بر اساس شاخصهای مختلفی انجام میگیرد که یکی از آنها اصطلاحاً "کیفیت ساختار" است. بر اساس معیار های CAPRI، کیفیت ساختار تلفیقی از سه پارامتر ، و میباشد (9 و 14) . عبارت است از تعداد تماسهای اسیدآمینه-اسیدآمینه طبیعی در ساختار پیشگویی شده، تقسیم بر تعداد تماسهای اسیدآمینه-اسیدآمینه در ساختار طبیعی (ساختار کریستاله). اسید آمینههای گیرنده و لیگاندی که در فاصله کمتر از 5 آنگستروم باشند، در تماس با هم فرض می شوند. عبارت است از rmsd بین لیگاند در ساختار پیشگویی شده و لیگاند در حالت طبیعی، بعد از آنکه گیرندههای آنها با استفاده از اتمهای زنجیره اصلی (ستون فقرات پروتئین) به طور بهینه بر روی یکدیگر قرار گیرند. برای محاسبه ، ابتدا اسیدهای آمینه موجود در محل اتصال کمپلکس طبیعی را مشخص کرده و سپس rmsd بین این اسیدهای آمینه و معادل آنها در کمپلکس پیشگویی شده را بعد از انطباق آنها با استفاده از اتمهای زنجیره اصلی حساب میکنند. لازم به ذکر است که در این مورد برای تعیین ناحیه اتصال در ساختار طبیعی از cut off معادل 10 آنگستروم استفاده میشود. در نهایت کیفیت کمپلکسها با توجه به مقادیر این سه ویژگی بیان میگردد (جدول 2).
جدول2- کیفیت ساختارهای پیش بینی شده بر اساس ترکیب سه پارامتر ، و (9 و 14)
کیفیت |
ترکیب سه ویژگی |
بالا |
|
متوسط |
|
قابل قبول |
|
غلط |
|
نتایج ارائه شده در این قسمت بر مبنای توانایی روشها در یافتن ساختارهایی است که بر اساس جدول فوق، کیفیت آنها در حد "قابل قبول" و یا بهتر باشد. در این آزمون ساختارهای طبیعی از مجموعههای تست خارج شدند زیرا بر اساس معیار ذکر شده کیفیت آنها "بالا" است که نباید با ساختارهای نزدیک به طبیعی که چنین کیفیتی دارند مخلوط شوند.
همانطور که در شکل 2 مشاهده میشود، در مجموعه ساخته شده با روش داکینگ جسم سخت، به ازای top n های ابتدایی، توانایی روش نیرو کمی بیشتر از روش انرژی میباشد، اما این مقدار به قدری ناچیز است که بر اساس آن نمیتوان قضاوت قابل اطمینانی داشت. در مجموع، قدرت تمایز روش انرژی در این مجموعه نیز بهتر از روش نیرو است.
در مجموعه دوم که با روش داکینگ جسم نرم ساخته شده، توانایی روش نیرو در یافتن ساختارهای نزدیک به طبیعی بهتر از ساختار طبیعی میباشد که دلیل آن بیشتر بودن تعداد آنها است. با این حال در این مجموعه نیز مجدداً روش انرژی عملکرد بهتری نسبت به روش نیرو دارد.
شکل 2- نرخ موفقیت در یافتن ساختار نزدیک به طبیعی. A ) مجموعه تولید شده با روش داکینگ جسم سخت. B ) مجموعه تولید شده با روش داکینگ جسم نرم
بحث
در بسیاری از کاربرد ها، انرژی یک شاخص پذیرفته شده در اندازهگیری و مقایسه میزان پایداری سیستمها میباشد. با این فرض که شکل طبیعی مولکولهای زیستی اغلب در حداقل انرژی یا نزدیک به آن قرار دارد، در کاربردهای بیوانفورماتیکی نیز جهت مقایسه میزان طبیعی بودن ساختارها، از انرژی چه به صورت مستقیم (از طریق توابع فیزیکی) و چه به صورت ضمنی (در غالب توابع انرژی دانشپایه)، به طور وسیعی استفاده میشود. اما به کارگیری نیرو به جای انرژی با چنین هدفی سابقه و عمومیت چندانی نداشته و تنها موردی که از آن به طور موفقیتآمیز توسط میرزایی و همکاران استفاده شده، تمایز ساختارهای غیرطبیعی از ساختار طبیعی در پروتئینها بوده است (17). با در نظر گرفتن موفقیت نسبتاً خوب روش نیرو در کاربرد ذکر شده و همچنین نبود هیچ گزارشی در مورد استفاده از آن در مسئله داکینگ، در این مطالعه سعی شد کارآیی روش انرژی و نیرو در مسئله نمرهدهی کمپلکسهای پروتئین-پروتئین با یکدیگر مقایسه شود.
بر خلاف روش معمول که نمره یک ساختار بر اساس مجموع انرژی برهمکنش جفت اتمهای گیرنده-لیگاند محاسبه میشود، روش به کار رفته در این مطالعه، محاسبه نیروی کلی است که از سمت یک مولکول بر دیگری وارد میشود. با این فرض که کمپلکس طبیعی در یک وضعیت تعادل قرار دارد انتظار میرود نیرویی که از سمت گیرنده بر لیگاند و برعکس وارد میشود در کمترین حد ممکن باشد. جهت مقایسه این دو روش، از دو آزمون مختلف یعنی یافتن ساختار طبیعی و یافتن ساختارهای نزدیک به طبیعی در بین مجموعهای از ساختارهای غلط استفاده شد. مجموعههای مورد استفاده با دو روش داکینگ جسم سخت و نرم ساخته شده بودند.
نتیجه آزمون یافتن ساختار طبیعی در مجموعه داکینگ جسم سخت نشان میدهد، روش نیرو توانسته ساختارهای طبیعی را برای حدود سه چهارم از کمپلکسهای تست در 10 تای اول رتبهبندی قرار دهد. چنین نتیجهای، بیانگر آن است که فرضیه به کار رفته در روش نیرو تا حدودی درست بوده است. با این وجود عملکرد روش انرژی در مقایسه با روش نیرو، در یافتن ساختار طبیعی در این مجموعه و نیز مجموعه دوم که با روش داکینگ جسم نرم ایجاد شده بود، بهتر است.
بر اساس این نتیجه و همچنین نتایج به دست آمده در آزمون یافتن ساختارهای "نزدیک به طبیعی" در هر دو مجموعه، میتوان چنین جمع بندی نمود که روش انرژی در نمرهدهی و جداسازی کمپلکسهای پروتئین-پروتئین با ساختار درست از کمپلکسهای غیرطبیعی، توانایی بالاتری در مقایسه با روش نیرو دارد.
این نتیجهگیری بر خلاف یافته قبلی میباشد که در آن روش نیرو به شکل موفقیتآمیزی در زمینه تشخیص فولد استفاده شده است. در فولد شدن پروتئینها و همچنین اتصال آنها به یکدیگر، برهمکنشهای فیزیکی مشابهی بین اسیدهای آمینه و مولکولهای آب وجود دارد. با توجه به این شباهت بعید به نظر میرسد که دلیل این اختلاف در یافتهها، ناشی از وجود یک تفاوت بنیادین در ماهیت فیزیکی این دو پدیده زیستی باشد.
ظاهرا دلیل این تفاوت، نحوه به کار گیری نیرو در این دو مسئله بوده است. در مسئله تشخیص فولد، نمره هر ساختار نه به صورت مستقل بلکه از طریق مقایسه با سایر ساختارها تعیین میشود. به این معنی که مقدار نیروی وارد بر هر اتم در تمام ساختارها با یکدیگر مقایسه شده و ساختاری که تعداد اتمهای دارای حداقل نیرو در آن بیش از بقیه باشد امتیاز بیشتری کسب کرده و به عنوان ساختار طبیعی انتخاب میگردد (جهت مطالعه جزئیات روش، به تحقیق حاضر مراجعه شود). متاسفانه استفاده از چنین روشی در مسئله داکینگ، عملا غیر ممکن است زیرا کمپلکسهای یک مجموعه از نواحی متفاوت به هم متصل بوده و به همین دلیل، یک اتم در یک ناحیه اتصال مشخص، ممکن است در ناحیه اتصال بسیاری از کمپلکسهای دیگر وجود نداشته و در نتیجه عمل مقایسه نیروی این اتم در تمام ساختارها امکانپذیر نباشد.
از این رو به جای محاسبه نمره کمپلکسها به روش مقایسهای، در مطالعه حاضر نمره هر ساختار به صورت مستقل و بدون در نظر گرفتن وضعیت نیروها در سایر ساختارها محاسبه شد. همانگونه که گفته شد این نمره، برآیند همه نیروهایی است که از سمت گیرنده بر لیگاند و یا برعکس وارد میشود.
به دلیل آنکه نیرو یک ویژگی برداری است، علاوه بر نوع و فاصله اتمها، نحوه پراکندگی آنها نسبت به هم نیز در مقدار نیروی برآیند تأثیر میگذارد. نحوه پراکندگی و موقعیت فضایی اتمها نسبت به یکدیگر، متأثر از شکل ناحیه اتصال دو پروتئین است که در کمپلکسهای مختلف متفاوت میباشد. در یک مجموعه دکوی، شکل ناحیه اتصال در برخی از ساختارها ممکن است مسطح و در برخی دیگر غیر مسطح (مقعر/محدب یا تابدار) باشد (شکل 3). نواحی اتصالی که شکل غیر مسطح دارند بردارهای نیرو در آنها پراکنده تر از نواحی اتصال با شکل مسطح میباشد. واضح است جمع بردارهای پراکنده منجر به ایجاد برداری با طول کمتر نسبت به جمع بردارهای موازی خواهد شد.
شکل 3- وابستگی پراکندگی بردارهای نیرو به شکل ناحیه اتصال
این وابستگی نیروی برآیند به شکل ساختار موجب میشود، در صورت شبیه بودن سایر عوامل، کمپلکسهایی که ناحیه اتصال آنها اعوجاج و انحنای بیشتری دارد، در مقایسه با آنهایی که شکل ناحیه اتصالشان مسطحتر است، رتبه بهتری را در نمرهدهی با روش نیرو کسب کنند. این میتواند یک عامل ایجاد خطا باشد زیرا بررسیهای قبلی نشان داده، به جز برخی استثناها، ناحیه اتصال در بیشتر کمپلکسهای پروتئین-پروتئین کم و بیش مسطح است (1).
به دلیل آنکه برآیند نیروها مستقل از شکل ساختار نیست، استفاده از روش نیرو به صورت ذکر شده با پیچیدگی بسیار زیادی روبرو میباشد. اما در روش انرژی چنین پیچیدگی وجود نداشته و صرفاً نوع جفت اتمها و فاصله آنها از یکدیگر در مقدار انرژی کل مؤثر میباشد.
10. Lee K, Lee JW. (2008), Computational Approaches to Protein-Protein Docking. Current Proteomics, 5:10-19
11. Liang S, Liu S, Zhang C, Zhou Y. (2007), A simple reference state makes a significant improvement in near-native selections from structurally refined docking decoys. Proteins, 69:244-53
12. Liu S, Vakser IA. (2011), DECK Distance and environment-dependent, coarse-grained, knowledge-based potentials for protein-protein docking. BMC Bioinformatics, 12:280
13. Mandell JG, Roberts VA, Pique ME, Kotlovyi V, Mitchell JC, Nelson E, Tsigelny I, Ten Eyck LF. (2001), Protein docking using continuum electrostatics and geometric fit. Protein Eng, 14:105-113
14. Méndez R, Leplae R, Lensink MF, Wodak SJ. (2005), Assessment of CAPRI predictions in rounds 3-5 shows progress in docking procedures. Proteins, 60:150-169
15. Mintseris J, Wiehe K, Pierce B, Anderson R, Chen R, Janin J, Weng Z. (2005), Protein-Protein Docking Benchmark 2.0: an update. Proteins, 60:214-216
16. Mintseris, J., Pierce, B., Wiehe, K., Anderson, R., Chen, R. and Weng, Z. (2007), Integrating statistical pair potentials into protein complex prediction. Proteins, 69: 511–520
17. Mirzaie M, Eslahchi C, Pezeshk H, Sadeghi M. (2009), A distance-dependent atomic knowledge-based potential and force for discrimination of native structures from decoys. Proteins, 77:454-463
18. Pierce B, Weng Z. (2007), ZRANK: Reranking protein docking predictions with an optimized energy function. Proteins, 67: 1078–1086
19. Shen MY, Sali A. (2006), Statistical potential for assessment and prediction of protein structures. Protein Sci, 15:2507-2524.
20. Sippl MJ. (1990), Calculation of conformational ensembles from potentials of mean force. An approach to the knowledge-based prediction of local structures in globular proteins. J Mol Biol, 213:859-883
21. Zhang C, Liu S, Zhou H, Zhou Y. (2004), An accurate residue-level pair potential of mean force for folding and binding based on the distance- scaled ideal-gas reference state. Protein Sci, 13:400-411