Document Type : Research Paper
Authors
Abstract
Histone acetylation is one of the most important epigenetic processes that regulate gene expression. In other words, chromatin exposes DNA to transcription factors and gene regulators by histone tail acetylation in nucleosomes. There are some studies to show the relation between gene regulation and histone acetylation.
In this paper, our main goal is to propose a computational method for transcription factor binding site prediction based on a pattern of 18 types of histone acetylations. In this regard, we analyze 18 types of histone acetylations near SP1 binding sites on Chromosome 1 in human CD4+T cells. The results show that 12 out of 18 marks are strongly correlated with transcription factor binding sites. Then, we implement a multilayer perceptron neural network with supervised training. This network is trained using binding sites of various transcription factors of SP1 in chromosome 1 and 18 types of histone acetylations near them. Finally, this network is applied for predicting binding sites of various transcription factors on chromosomes 1 and 2.
Keywords
Main Subjects
کشف رابطه میان تنظیم بیان ژنها و تغییراتهیستون استیلاسیون با استفاده از شبکه عصبی
نفیسه بنیرضی مطلقو فاطمه زارع میرکآباد*
ایران، تهران، دانشگاه صنعتی امیرکبیر، دانشکده ریاضی و علوم کامپیوتر
تاریخ دریافت: 7/2/95 تاریخ پذیرش: 25/6/96
چکیده
استیلاسیون پروتئینهای هیستونی یکی از مهمترین فرآیندهای اپیژنتیکی است که به منظور تنظیم بیان ژنها رخ میدهد. کروماتین به واسطه اتصال گروه استیل به دنباله هیستونی نوکلئوزومهایش، رشته DNA را در دسترس فاکتورهای رونویسی و دیگر پروتئینهای تنظیمکننده بیان ژن قرار میدهد. مطالعات نشان داده که نوع استیلاسیون نوکلئوزومها میتواند در شناسایی جایگاه پیوند فاکتورهای رونویسی یک سیگنال مهم باشد. در این تحقیق هدف یافتن یک روش محاسباتی برای پیشگویی جایگاه فاکتورهای رونویسی براساس الگوی نوع پراکندگی 18 هیستون استیلاسیون است. در این راستا، الگوی پراکندگی 18 هیستون استیلاسیون در سلول CD4+T انسان که اطراف فاکتور رونویسی SP1 قرار گرفتهاند مورد تحلیل قرار گرفت. نتایج نشان داد که از 18 هیستون استیلاسیون 12 نوع از آنها در شناسایی جایگاه فاکتور رونویسی SP1 موثرند. سپس به وسیله تکنیک یادگیری با نظارت، یک شبکه چند لایه پرسپترون براساس جایگاههای پیوند فاکتور رونویسی SP1 (استخراج شده از کروموزوم 1 انسانی ) و الگوی پراکندگی 12 هیستون در اطراف آنها، آموزش داده شد. در نهایت از این شبکه برای پیشگویی جایگاههای فاکتور رونویسی SP1 بر روی کروموزوم 2 انسانی و جایگاههای 12 فاکتور رونویسی دیگر بر روی کروموزومهای 1 و 2 استفاده گردید.
واژه های کلیدی: جایگاه پیوند فاکتور رونویسی، هیستون استیلاسیون، شبکه چند لایه پرسپترون، الگوریتم انتشار به عقب.
* نویسنده مسئول، تلفن: 02166460948 ، پست الکترونیکی: f.zare@aut.ac.ir
مقدمه
یکی از مسائلی که دانشمندان علم ژنتیک در سالهای اخیر در پی شناخت آن بودهاند، مکانیسمهای گوناگون درون سلولی است که با همکاری یکدیگر، بیان ژنها را تنظیم میکنند. فاکتورهای رونویسی یکی از مهمترین عوامل دخیل در تنظیم بیان ژنی هستند. این پروتئینها در آغاز رونویسی به محل پروموتر ژن متصل میشوند و عمل رونویسی را فعال یا سرکوب میکنند (3). بنابراین مطالعه جایگاههای اتصال فاکتورهای رونویسی به DNA میتواند نقش عمدهای در شناخت فرآیندهای تنظیم بیان ژنها داشته باشد. پژوهشگران در سه دهه اخیر روشهای متنوعی برای کشف این جایگاهها ارائه دادهاند؛ اگرچه اکثر آنها دقت کافی برای پیشگویی ندارند (14). مطالعات اخیر نشان میدهند که ساختار کروموزوم میتواند به تعیین جایگاه پیوند فاکتور رونویسی کمک کند. به عبارت دیگر، کروموزومها برای اجرای عملکردهای مختلف سلول از قبیل همانندسازی، ترمیم، نوترکیبی و رونویسی DNA، متحمل تغییرات فراوانی میشوند. در هر لحظه قسمتی از ژنوم که نیاز به رونویسی دارد، در دسترس فاکتورهای رونویسی قرار میگیرد؛ در حالی که بقیه ژنوم به دقت محافظت میشود. این عملکرد در صورتی امکانپذیر است که ساختار کروماتین در شرایط گوناگون و در پاسخ به سیگنالهایی که دریافت میکند، به درستی تغییر نماید. از عوامل تغییر کروماتین در فرآیند تنظیم بیان ژنها میتوان به تغییرات متیلاسیون و استیلاسیون دم هیستونی اشاره نمود که با جا به جایی بار الکتریکی نوکلئوزوم، سبب کاهش نیروی جاذبه میان نوکلئوزوم و DNA پیچیده شده در اطراف آن میشود (1 و 11).
در زمینه تغییرات هیستونی متیلاسیون، طالبزاده در سال 2013 نشان داد که میتوان با رگرسیون لجستیک از نواحی متیله شده کروماتین، به عنوان مارکری برای شناسایی جایگاه پیوند فاکتورهای رونویسی در انسان بهره برد (14). هچنین طی مطالعهای در سال 2014، مشخص شد که متیلاسیون در نواحی پروموتری ژنهای سرکوبگر سرطان، منجر به بروز سرطان میشود (2). در ضمن، ارتباط هیستون استیلاسیونها و تنظیم رونویسی در ژنوم مخمر مورد بررسی قرار گرفت که منجر به طرح دو فرضیه زیر گشت:
1- فاکتورهای رونویسی به کروموزوم متصل میشوند و سپس استیلترانسفرازها و دِاستیلترانسفرازها را به کار میگیرند تا هیستونها را دچار تغییر استیلاسیونی کنند (8).
2- وقوع هر فاکتور رونویسی خاص وابسته به الگوی منحصر به فردی از تغییرات هیستونی است که رونویسی ژن را ممکن میسازد (4، 5 و 13). این فرضیه با نام فرضیه "کد هیستونی" شناخته میشود.
نخستین بار، در سال ۲۰۰6 ارتباط میان هیستون استیلاسیونها و فاکتورهای رونویسی مخمر به وسیله روش خوشهبندی مورد مطالعه قرار گرفت (6). دو سال بعد براساس اولین فرضیه ، یک شبکه تنظیم بیان ژنی براساس رگرسیون خطی برای مخمر ساخته شد (11). ژیبین ونگدر سال 2008 الگوی تغییرات هیستونی در اطراف پروموتر ژنهای یوکاریوتی را بررسی نمود و نشان داد الگوهای ترکیبی هیستون استیلاسیونها باعث تنظیم بیان ژنهای خاصی در ژنوم انسان میگردد (15). نتایج بیانگر این بود که میزان بالای یک تغییر خاص در اطراف برخی ژنها و از طرفی میزان بسیار کم آن در برخی دیگر، نشان دهنده تفاوت در الگوهای تغییرات هیستونی در اطراف ژنهای متفاوت است. به عبارت دیگر، برای بیان همه ژنها ترکیب یکسانی از تغییرات هیستونی نیاز نیست، بلکه هر ژن الگوی خاصی از این نوع تغییرات را برای بیان نیاز دارد (7). رمسی در سال 2013، اثرگذاری هیستون استیلاسیونها را در تشخیص جایگاه پیوند فاکتورهای رونویسی بر روی ژنوم انسان آنالیز نمود (12).
هدف در این مقاله ارائه یک روش محاسباتی برای پیشگویی مکان پیوند فاکتورهای رونویسی براساس الگوی تغییرات هیستون استیلاسیونهاست. برای دستیابی به این منظور، در مرحله اول به بررسی اثر هریک از 18 نوع هیستون استیلاسیون موجود در ژنوم انسان، برای شناسایی جایگاه عوامل الگوبرداری پرداخته شد. آنالیز دادهها نشان میدهد که 12 نوع از 18 نوع هیستون استیلاسیون در شناسایی جایگاههای پیوند اثر چشمگیری دارد. سپس با استفاده از یک مدل "دستهبندی (Classification)"، جایگاههای پیوند فاکتورهای رونویسی براساس الگوی 12 نوع هیستون استیلاسیون، پیشگویی میگردید. در این راستا، سه روش "رگرسیون لجستیک (Logistic regression)" (LR)، "ماشین بردار پشتیبان (Support Vector Machine)" (SVM) و "شبکه پرسپترون چند لایه (Multilayer Perceptron)" (MLP) مورد مطالعه قرار گرفت. در این میان اگرچه LR از مزیت سادگی پیادهسازی برخوردار است، اما دو روش دیگر در حل مسائل با تعداد ویژگیهای متعدد و روابط پیچیده غیرخطی بین آنها موفقتر هستند (9). نتایج حاصل از مطالعاتی که بر کارآیی هر یک از روشهای SVM و MLP صورت گرفته است، نشان میدهد SVM در مسائلی با دادههای کلان از سرعت بالای یادگیری و توانایی حصول تقریب محلی (Local approximation) برخوردار است. از سوی دیگر، گرچه MLP به زمان بیشتری برای آموزش نیاز دارد، اما میتواند به تقریب کلی (Global approximation) بهتری برسد؛ و در نتیجه برای این مسئله مناسبتر است (10). این تحقیق یک شبکه MLP(Multilayer Perceptron) (پرسپترون چندلایه) را بر اساس موقعیت هیستون استیلاسیونهای اطراف فاکتورهای رونویسی SP1 کروموزوم 1 سلول CD4+T آموزش می داد. سپس از این شبکه برای پیشگویی جایگاههای پیوند فاکتور رونویسی SP1 بر روی کروموزوم 1 و 12 نوع فاکتور رونویسی دیگر بر روی هر دو کروموزوم 1 و 2 سلول انسانی استفاده گردید. نتایج مشابه در پیشگویی دیگر فاکتورهای رونویسی نشان میدهد که تغییرات هیستون استیلاسیون در اطراف این فاکتورهای رونویسی از الگوی یکسانی برخوردار است.
مواد و روشها
در این تحقیق مکان نوکلئوزومهای حاوی 18 نوع هیستون استیلاسیون H2AK5ac، H2AK9ac، H2BK5ac، H2BK12ac، H2BK20ac، H2BK120ac، H3K4ac، H3K9ac، H3K14ac، H3K18ac، H3K23ac، H3K27ac، H3K36ac، H4K5ac، H4K8ac، H4K12ac، H4K16ac و H4K91ac برروی کروموزومهای 1 و 2 انسانی، مورد بررسی قرار میگیرد. این دادهها توسط ژیبین ونگ (15) از سلول CD4+T که نقشی اساسی در سیستم ایمنی بدن انسان دارد، به وسیله تکنیک ChIP-Seq استخراج شده است. همچنین جایگاه پیوند فاکتورهای رونویسی در کروموزومها از پایگاه داده فانتوم بهدست آمده است (16).
تعیین هیستون استیلاسیونهای مؤثر در پیوند فاکتور رونویسی SP1: به منظور بررسی تأثیر هیستون استیلاسیونها در پیشگویی، نزدیکترین نوکلئوزوم به جایگاه پیوند فاکتور رونویسی SP1 که دچار تغییرات استیلاسیونی شده است، برای هر نوع استیلاسیون نشانه گذاری شد. سپس فاصله این نوکلئوزومها را بر حسب جفت نوکلئوتید (Base Pair) با هریک از فاکتورهای رونویسی SP1 متناظر گردید.
علت انتخاب فاکتور رونویسی SP1 برای بررسی اثر هیستون استیلاسیونها این است که این فاکتور رونویسی یک فاکتور عمومی است که در اکثر پروموترها رخ میدهد. مطالعات نشان میدهد که در بیشتر موارد در فاصله کمتر از 10 جفت نوکلئوتیدی اطراف SP1، هیستونها دچار تغییرات استیلاسیونی میشوند. نمودار 1 فرکانس رخ داد هر نوع هیستون استیلاسیون در فاصله 10 جفت نوکلئوتیدی جایگاه پیوند فاکتور رونویسی SP1 را نشان میدهد. 12 عدد از هیستون استیلاسیونها که تعداد جایگاههای پیوند SP1 در فاصله 10 جفت نوکلئوتیدی از آنها بیشتر از 400 است، برای پیشگویی محل پیوند فاکتور رونویسی SP1 مورد استفاده قرار میگیرد (جدول 1).
نمودار 1- نمودار فرکانس وقوع 18 هیستون استیلاسیون در فاصله کمتر یا مساوی 10 جفت نوکلئوتید از جایگاه پیوند فاکتور رونویسی SP1 برروی کروموزوم یک انسانی
جدول 1- دوازده نوع هیستون استیلاسیون با فرکانس رخداد بالا (بیش از 400) در فاصله 10 جفت نوکلئوتیدی از جایگاههای پیوند فاکتور رونویسی SP1
400 < Frequency |
||
H2BK5ac |
H3K9ac |
H4K5ac |
H2BK20ac |
H3K27ac |
H4K8ac |
H2BK120ac |
H3K18ac |
H4K16ac |
H3K4ac |
H3K36ac |
H4K91ac |
شبکهMLP برای تشخیص جایگاه پیوند فاکتور رونویسی: همانطور که نتیجه تحلیلها در بخش قبل نشان میدهد، در میان 18 نوع هیستون استیلاسیون، 12 نوع از آنها در ایجاد تمایز میان جایگاه پیوند فاکتورهای رونویسی از دیگر جایگاهها بیشتر حائز اهمیت است. در این بخش هدف این مطالعه ارائه یک شبکه MLP با معماری 4 لایه است که بتواند جایگاه پیوند فاکتورهای رونویسی را براساس فاصله نزدیکترین هیستون استیلاسیون از آنها پیشگویی کند. در ادامه معماری این شبکه توضیح داده میشود.
لایه ورودی شبکه، یک بردار 12 نورونی است که به ازای موقعیتj اُم از ژنوم به صورت زیر ساخته میشود:
به طوری که نشان دهنده تعداد جفت نوکلئوتیدهای بین نزدیکترین هیستون استیلاسیون iاُم به موقعیت jاُم از ژنوم است. آخرین لایه شبکه دربردارنده یک نورون به نام y است و مقدار خروجی آن 0 یا 1 میباشد. برای یادگیری شبکه دو مجموعه مثبت و منفی به صورت زیر تعریف میگردد:
1- با فرض اینکه جایگاه پیوند فاکتور رونویسی x در موقعیت j از ژنوم رخ داده باشد، بردار را ساخته می شود. سپس براساس n جایگاه پیوند فاکتور رونویسی x در ژنوم مجموعه داده مثبت حاصل میگردد.
2- بردار ، با فرض اینکه موقعیت از ژنوم، جایگاه پیوند هیچیک از فاکتورهای رونویسی نیست، ساخته می شود. سپس براساس n موقعیت از ژنوم که دارای این شرایط است، مجموعه داده منفی تولید میگردد.
همچنین بردار ، متناظر با اجتماع دو مجموعه مثبت و منفی، به صورت زیر تعریف می شود:
شبکه MLP با استفاده از روش یادگیری "با نظارت (Supervised)"، تمایز بین نواحی جایگاه پیوند فاکتور رونویسی (مجموعه مثبت) و نواحی غیر پیوندی (مجموعه منفی) را آموزش میبیند. در هنگام آموزش، برای انتقال ورودی هر نورون از یک لایه به نورونی در لایه بعدی، از تابع سیگموئید استفاده میشود (9):
به طوری که s تعداد ورودیهای نورون لایه بعدی، بردار ورودی، بردار وزن و ضرب خارجی این دو بردار است. در نخستین مرحله از آموزش، مقادیر اولیه بردار W به طور تصادفی انتخاب میشود؛ و مقدار هزینه شبکه براساس رابطه زیر محاسبه میگردد (12):
به طوری که خروجی تولید شده توسط شبکه میباشد. به منظور کاهش هزینه از روش "انتشار به عقب (Backpropagation)" استفاده میگردد.
پس از انجام فرآیند یادگیری، اگر یک محل مشخص از دنباله DNA به عنوان ورودی به این MLP اضافه گردد، انتظار می رود که با در نظر گرفتن موقعیت 12 هیستون استیلاسیون منتخب، تشخیص دهد که آیا آن ناحیه، جایگاه پیوند فاکتور رونویسی هست یا خیر.
نتایج
نتایج پیشگویی جایگاه پیوند فاکتور رونویسی SP1: برای یادگیری شبکه، 1903 جایگاه پیوند فاکتور رونویسی SP1 را از کروموزوم 1 انسانی استخراج نموده و مجموعه داده مثبت(P) طبق تعریف آن در بخش 4، ساخته می شود. برای ساخت مجموعه داده منفی (N) نیز 1903 موقعیت که تا فاصله 45 جفت بازی از آنها هیچ پیوندی با انواع فاکتورهای رونویسی رخ نداده باشد، در نظر گرفته می شود.
نتایج حاصل از آموزش و آزمایش این شبکه برای تشخیص مکان پیوند SP1 برای هر دو کروموزوم 1 و 2 انسانی در جدول 2 قابل رؤیت است. در جدول 3 نیز صحت پیشگویی با معیارهای گوناگون در مجموعه دادههای آموزشی و آزمایشی قابل مشاهده میباشد. مقایسه ستونهای اول و دوم جدول (از راست به چپ) نشان میدهد که خطای پیش بینی براساس داده های آموزشی و آزمایشی مشابه است.
جدول 2- پیشگویی دادههای آموزشی و آزمایشی. (الف) نتیجه پیشگویی دادههای آموزشی واقع بر روی کروموزوم 1.
(ب) نتیجه پیشگویی دادههای آزمایشی واقع بر روی کروموزوم 2.
الف |
Positive Set |
Negative Set |
True Prediction |
1661 |
1363 |
False Prediction |
242 |
540 |
ب |
Positive Set |
Negative Set |
True Prediction |
851 |
915 |
False Prediction |
240 |
394 |
جدول 3- روش محاسبه معیارهای متفاوت نرخ صحت پیشگویی و مقدار آنها در تشخیص جایگاه پیوند SP1 در کروموزومهای 1 و2
Chromosome 1 |
Chromosome 2 |
||
TPR |
0.87 |
0.78 |
|
TNR |
0.71 |
0.69 |
|
PPV |
0.75 |
0.68 |
|
F1 |
0.8 |
0.72 |
|
ACC |
0.79 |
0.73 |
پیشگویی دیگر فاکتورهای رونویسی: در این بخش، هدف ارزیابی روش پیشگویی فاکتور رونویسی SP1، برای تشخیص دیگر فاکتورهای رونویسی است. به این منظور موقعیت هیستون استیلاسیونها در اطراف 12 نوع فاکتور رونویسی موجود در کروموزومهای 1 و 2 به عنوان ورودی به شبکه عصبی داده شد و میزان TPR محاسبه گردید. جدول 4 نتایج این پیشگویی را نشان میدهد. همانطور که قابل ملاحظه است میزان TPR فقط در مورد فاکتورهای رونویسی TFAP2A و ELF1 بر روی کروموزوم 2 پایینتر از 7/0 است؛ در حالی که این مقدار برای همه فاکتورهای رونویسی دیگر بیشتر از 7/0 میباشد.
نتیجهگیری
در این مقاله، تأثیر هیستون استیلاسیونها در تنظیم بیان ژنها مورد بررسی قرار گرفت. بر اساس نتایج به دست آمده، از میان 18 هیستون استیلاسیون موجود در سلول انسان، 12 نوع از آنها در وقوع پیوند فاکتور رونویسی SP1 مؤثرند. بر اساس این 12 نوع هیستون استیلاسیون، محل پیوند فاکتور SP1 با TPR 79 درصد و محل پیوند 12 فاکتور رونویسی دیگر با میانگین TPR 76 درصد در کروموزومهای 1 و 2 قابل پیشگویی است.
جدول 4- نرح صحت پیشگویی دیگر فاکتورهای رونویسی
TF |
TPR in Chromosome 1 |
TPR |
TPR in Chromosome 2 |
TPR |
POL011 |
0.84 |
0.72 |
||
NFYA |
0.84 |
0.77 |
||
TFDP1 |
0.84 |
0.83 |
||
ZNF278 |
0.82 |
0.85 |
||
MAZ |
0.81 |
0.78 |
||
POL013 |
0.81 |
0.74 |
||
NRF1 |
0.79 |
0.82 |
||
TFAP2A |
0.76 |
0.69 |
||
TFAP2B |
0.76 |
0.72 |
||
GTF2I |
0.76 |
0.76 |
||
bHLH |
0.73 |
0.73 |
||
ELF1 |
0.72 |
0.68 |
معیار پیشگویی در این تحقیق، فاصله نزدیکترین هیستون استیلاسیون در بالادست یا پاییندست فاکتور رونویسی در نظر گرفته شد؛ پیشنهاد این تحقیق در جهت بهبود نتایج در تحقیقات آتی این است که فاصله نزدیکترین هیستون استیلاسیون در پروموتر، ملاک ارزیابی قرار داده شود. علاوه بر این، در این مقاله فقط رخداد یا عدم رخداد پیوند فاکتورهای رونویسی با ژنوم تشخیص داده شد. در حالی که میتوان اطلاعات مربوط به نوع فاکتور رونویسی را نیز در فرآیند پیشگویی دخیل کرد.