معلومة

ما هو معروف عن تسلسل ترميز العامل H في الجينوم البشري؟

ما هو معروف عن تسلسل ترميز العامل H في الجينوم البشري؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

العامل H هو بروتين مشفر في 20 مجالًا.

سؤالي هو ما إذا كانت هذه المجالات تشكل نوعًا ما كرر الكتلة في الجينوم البشري. في الأساس ، أنا مهتم بتسلسل الترميز من وجهة نظر التجميع: هل منطقة التشفير تم حلها بالكامل؟ من الواضح أنه لا يوجد سوى نسخة واحدة من الجين لكل نمط فرداني ، ولكن هل نطاقات الترميز قد تكون متشابهة مع بعضها البعض أو متكررة في حد ذاتها؟


كما هو مذكور بوضوح في مقالة WP:

يتكون الجزيء من 20 وحدة بروتين تحكم مكمل (CCP) (يشار إليها أيضًا باسم تكرارات التوافق القصير أو مجالات السوشي) متصلة ببعضها البعض بواسطة روابط قصيرة (من بين ثلاثة إلى ثمانية بقايا من الأحماض الأمينية) ومرتبة في رأس ممتد إلى أزياء الذيل.

إذن في المصطلحات الخاصة بك ، نعم ، إنه ملف كرر الكتلة. سيكون كل مجال من هذه المجالات العشرين مشابهًا للآخرين ، وإن لم يكن متطابقًا.


يُظهر إدخال المجموعة ، الذي كان من السهل الوصول إليه من صفحة Wikipeda ، أن البروتين هو جين واحد يحتوي على 20 مجالًا

http://uswest.ensembl.org/Homo_sapiens/Transcript/ProteinSummary؟db=core؛g=ENSG00000000971؛r=1:196651878-196747504؛t=ENST00000367429


فهم الجينوم البشري: ENCODE في BioMed Central

كان الانتهاء من مشروع الجينوم البشري في عام 2003 علامة فارقة في غاية الأهمية ، ولكن (مثل كتاب مكتوب بالشفرة) ترك العديد من علماء الأحياء يتساءلون عما قد يعنيه التسلسل في الواقع. وبالتالي ، بدأ تركيز علم الجينوم البشري في ذلك العام في الانتقال من توليد التسلسل - إلى شرح العناصر الوظيفية ، المخفية داخل الجينوم البشري البالغ 3.2 مليار As و Cs و Gs و Ts. مع وضع هذا الهدف في الاعتبار ، تم تشكيل اتحاد ENCODE (موسوعة عناصر الحمض النووي).

قد تشكل بعض توليفات هذه النيوكليوتيدات معًا الإكسونات والإنترونات التي تشكل الجينات ، بينما قد يشكل بعضها عناصر تنظيمية. تم تعيين ENCODE لتوضيح هذه العناصر بشكل شامل بأكبر قدر ممكن من التفاصيل الوظيفية والتي يمكن العثور عليها الآن في مستكشف ENCODE ، وهو موقع صغير جديد يسمح بالتنقل السلس بين المقالات.

بعد ما يقرب من عشر سنوات من توليد البيانات ، تم الآن نشر نتائج المشروع كسلسلة من أكثر من 30 مقالة في تعاون رائد متعدد الناشرين ، بين BioMed Central ، طبيعة سجية و أبحاث الجينوم.

بيولوجيا الجينوم، واحدة من المجلات الرئيسية في BioMed Central ، وقد نشرت ستة مقالات من هذا المشروع. تم نشر مقال آخر في علم الوراثة BMC. تتناول هذه المقالات أسئلة مهمة تتعلق بالعناصر التنظيمية ، وتحديدًا كيفية تعريفها وكيفية ارتباطها بالتعبير الجيني. على وجه الخصوص ، يعد مورد الجين الزائف GENCODE أحد موارد بيولوجيا الجينوم أوراق ، تصف الجينات التي عانت من عدد مميت من الطفرات. ولكن لا تزال آثارها "الأحفورية" ظاهرة في الجينوم. توضح المقالة أن بعض هذه الجينات الكاذبة قد لا تزال تعمل ، وفي بعض الحالات تكون قد تم إحياؤها جزئيًا من الموت الجيني.

أوضح البروفيسور مارك جيرستين ، المؤلف الرئيسي لاثنين من هذه المقالات ، "من بين الشذوذ التي أظهرها مشروع ENCODE الجينات الخادعة - امتدادات الحمض النووي الأحفوري ، والآثار التطورية للماضي البيولوجي. علاوة على ذلك ، أظهرت بيانات المشروع أن قد يكون عدد الجينات الكاذبة نشطة ، ليس كجينات مشفرة للبروتين ولكن كجينات ncRNA ".

تنشر BioMed Central مجلات مفتوحة المصدر راجعها الزملاء منذ 12 عامًا ولديها الآن مجموعة من 270 مجلة في العلوم والطب. ستكون جميع مقالات ENCODE الثلاثين مفتوحة الوصول - مما يعني أن هذه المقالات ستكون متاحة مجانًا للجميع عبر الإنترنت وستكون متاحة كمجموعة على موقع ENCODE explorer الذي تستضيفه Nature وأيضًا من خلال تطبيق iPad.

صرح البروفيسور إيوان بيرني ، رئيس اتحاد ENCODE قائلاً: "كان اتحاد ENCODE متحمسًا جدًا للعمل مع بيولوجيا الجينوم, علم الوراثة BMC و BioMed Central لإتاحة تفاصيل عملنا على نطاق واسع. من خلال تنسيق هذه المنشورات وإنشاء مسارات واضحة للبيانات الأصلية ، ومن خلال ضمان أن تكون جميعها مفتوحة للوصول ، فقد جعلنا موارد الترميز واسعة النطاق هذه شفافة حقًا ويمكن الوصول إليها من قبل المجتمع العلمي. "


مقدمة

يلعب النوم دورًا حيويًا في بقاء الحيوانات [1-3] ، وخاصة الفقاريات وحتى بعض اللافقاريات [4]. إنه ضروري للحفاظ على الصحة الجسدية والعقلية ، خاصة عند البشر حيث يرتبط الحرمان من النوم بمرض السكري وارتفاع ضغط الدم والسمنة وانخفاض وظائف المناعة [5،6،7]. يختلف توقيت ومدة النوم بشكل كبير بين الثدييات [8] ويتم تنظيمها من خلال عدد كبير من الآليات المعقدة بما في ذلك العديد من جينات الساعة البيولوجية [9].

من بين الجينات المسؤولة عن تنظيم الساعة البيولوجية في الثدييات عضو عائلة الحلزون الحلزوني الأساسي E41 [5 ، 10 ، 11] ، المعروف أيضًا باسم "المعبر عنه تفاضليًا في بروتين الخلايا الغضروفية 2" (ديسمبر 2). إنه بروتين الساعة الأساسي الذي يعمل كعامل نسخ يحافظ على حلقة التغذية الراجعة السلبية في الساعة البيولوجية عن طريق قمع النسخ بوساطة صندوق E [5]. على وجه التحديد ، من خلال الارتباط بمنطقة المروج في بريبرو-أوركسين الجين BHLHE41 يعمل كمثبط لتعبير الأوركسين في الثدييات. علاوة على ذلك ، يؤدي تعطيل الأوركسين إلى التغفيق في الثدييات ، مما يؤكد أن الأوركسين يلعب دورًا حيويًا في تنظيم النوم [5].

BHLHE41 لديها العديد من المجالات الوظيفية المحفوظة بما في ذلك منطقة bHLH والمجال "البرتقالي". كعضو في عائلة bHLH ، BHLHE41 يحتوي على

60 مجالًا محفوظًا من الأحماض الأمينية bHLH الذي يعزز التباين وربط الحمض النووي [10]. على وجه التحديد ، يتكون مجال bHLH من منطقة ربط الحمض النووي ، موقع خصوصية E-box / N-box ، وواجهة ثنائية للربط متعدد الببتيد. تتبع منطقة ربط الحمض النووي اثنين من حلزونات ألفا تحيط بمنطقة حلقة متغيرة. كعضو في عائلة المجموعة E bHLH ، يرتبط هذا البروتين على وجه التحديد بتسلسل N-box (CACGCG أو CACGAG) بناءً على BHLHE41 موقع الأحماض الأمينية 53 (غلوتامات) [12]. المجال الآخر المحفوظ المدروس جيدًا في BHLHE41 هو المجال البرتقالي الذي يوفر خصوصية كمثبط للنسخ [13]. يتم حفظ هذه المجالات بين البشر وسمك الزرد في كل من تكوين الأحماض الأمينية ووظيفتها [14]. لسوء الحظ ، لا توجد بنية ثلاثية الأبعاد موصوفة للثدييات BHLHE41 في بنك بيانات البروتين Genbank [15] لتحديد التأثيرات المكانية لمتغيرات الأحماض الأمينية.

بسبب وظيفتها الأساسية في تنظيم النوم ، يمكن أن تؤدي الشذوذ في جينات الساعة إلى أنماط غير طبيعية من النوم يمكن أن تظهر في مجموعة متنوعة من الطرق ، بدءًا من الأرق إلى النوم الزائد [1]. طفرة نقطة نادرة في BHLHE41 جين الانسان العاقل (P384R في NM_030762 ، يشار إليه أيضًا باسم P385R كما في [10]) يمنح "نمطًا ظاهريًا قصير النوم". تتضمن الطفرة التحويل من C إلى G في تسلسل الحمض النووي لـ BHLHE41، مما يؤدي إلى استبدال غير مرادف من البرولين إلى الأرجينين في موضع الأحماض الأمينية 385 من BHLHE41 بروتين. نظرًا لأن البرولين (غير قطبي) والأرجينين (مشحون كهربائيًا ، أساسي) لهما هياكل غير متشابهة كيميائيًا ، وبما أن استبدال هذه الأحماض الأمينية نادر نسبيًا (قيمة BLOSUM62 تساوي -2) ، فليس من المستغرب أن يكون لهذه الطفرة تأثير مظهري كبير. الأشخاص الذين يعانون من هذا الأليل أفادوا بأنماط نوم يومية أقصر من أولئك الذين لديهم أليل من النوع البري ، دون الإبلاغ عن أي آثار ضارة أخرى [10]. وظيفة BHLHE41 في التحكم في النوم والساعات اليومية يتم حفظها بين البشر والفئران ، ولكنها غير مختبرة في معظم الثدييات الأخرى [10]. في الزرد ، فإن BHLHE41 له بنية مماثلة (خمسة إكسونات مفصولة بأربعة إنترونات) وتشابه تسلسل عالي مع متماثل بشري [14] ، ولكن لا يوجد اختلاف في هذه البقايا. في ذبابة الفاكهة سوداء البطن، الجين الأكثر تشابهًا لـ BHLHE41 يكون سي جي 17100 (البرتقالة البرتقالية) ، ولكنها متشابهة بشكل ضعيف (& lt11٪ هوية الأحماض الأمينية [16]). ومع ذلك ، يتم إدخال أليل قصير النوم P385R وراثيًا إلى ذبابة الفاكهة لا يزال يؤدي إلى النمط الظاهري للنوم قصير [10] مما يشير إلى وجود شبكة تنظيمية مماثلة. استبدال آخر غير مرادف في BHLHE41 الذي يرتبط بتغيير سلوك النوم لدى البشر هو Y362H [17]. قللت هذه الطفرة من قدرة BHLHE41 يقمع الساعة / BMAL1 و NPAS2 / BMAL1 المعاملات في المختبر [17].

يمكن أن توفر هذه المتغيرات قصيرة النوم وظائف تكيفية في الثدييات الأخرى. في مثل هذه الحالة ، قد نكتشف توقيع الاختيار الإيجابي على تلك الكودونات. ومع ذلك ، فإن الجينات مثل BHLHE41 ضرورية للبقاء والتكاثر وبالتالي غالبًا ما يتم الحفاظ عليها بدرجة عالية ومن المرجح أن تظهر أنماطًا لتنقية الانتقاء. يمكن أن يتجلى الانتقاء المنقي في صورة معدلات أعلى للبدائل المترادفة مقارنة بمعدلات الاستبدالات غير المترادفة (dN-dS) [18]. تشير قيم dN-dS السلبية الكلية إلى تنقية الاختيار وغالبًا ما تكون دليلًا على أن الجين متورط في بعض الوظائف الأساسية (مثل الساعة البيولوجية) ، ومع ذلك يمكن لتحليل dN / dS كودون تلو الآخر أن يكشف عن علامات الاختيار الإيجابي (ه.زو. التكيف على المستوى الجزيئي) على أكواد معينة. حتى الآن ، لم يفحص أحد أنماط الاختيار في BHLHE41.

في الواقع ، تم إجراء عدد قليل جدًا من مقارنات النيوكليوتيدات والأحماض الأمينية في الثدييات بخلاف الإنسان مقابل الفئران. مع التراكم السريع لتسلسلات جينوم الثدييات ، من المحتمل وجود عدد كبير من التسلسلات المتجانسة (انظر [12] لتحليل النشوء والتطور لجميع خلايا BHLH ، ولكنها تتضمن فقط اثنين من الثدييات - الإنسان والفأر انظر [14] للمقارنة بين أسماك الزرد والإنسان الذي يستدعي لمزيد من أخذ عينات من الثدييات). علاوة على ذلك ، فإن سلالة الثدييات التي تم حلها جيدًا [19 ، 20] توفر أساسًا قويًا لاختبار التماثل وتأكيد علم تقويم العظام. بالنسبة لمعظم أنواع الثدييات غير النموذجية ذات تسلسل الجينوم الكامل ، يتم توقع الجينات باستخدام الخوارزميات التي تحدد موقع إطارات القراءة المفتوحة .ز. ، [21]) ، ولكن نادرًا ما يتم التحقق من صحة الجينات المتوقعة تجريبيًا [22 ، 23]. تقارن بعض الخوارزميات إطارات القراءة المفتوحة المفترضة بأنواع النماذج لتأكيد الطول وتغير التسلسل المتوقع. يمكن أن يمثل حساب أي اختلافات في طول تسلسل التشفير تحديًا ، نظرًا لوجود الأشكال الإسوية البديلة للـ mRNA وزيادة وقت الاختلاف [24]. يمكن أن يساعد النهج المقارن عبر مجموعة متنوعة من الأنساب في توضيح أي أنماط غير عادية لتغير التسلسل.

من أجل مزيد من استكشاف وظيفة BHLHE41 الجين ، قمنا بتحليل العلاقات التطورية بين BHLHE41 تسلسل الترميز في البشر والثدييات الأخرى. هناك هدفان واضحان لهذه الدراسة: (1) الاستفادة من البيانات الموجودة مسبقًا في Genbank لتحديد ما إذا كانت أي ثدييات بخلاف البشر لديها أليل "قصير النوم" أو تظهر تباينًا في مواقع الأحماض الأمينية P385R و Y362H ، و (2) ) لتقييم درجة التغيرات البيوكيميائية في جميع بدائل الأحماض الأمينية والبحث عن آثار أقدام الاختيار (dN-dS). لمعالجة هذه الأهداف ، قمنا بالمقارنة BHLHE41 متواليات من 27 نوعًا من الثدييات ومجموعة خارجية من الزواحف جاءت من تسلسل cDNA ومشاريع تسلسل الجينوم الكامل. بعد إنشاء محاذاة تسلسل متعددة ، استخدمنا تحليلات Bayesian وأقصى احتمالية للتحقيق في العلاقات التطورية الكامنة وراء هذا الجين بين الثدييات لتأكيد تقويم العظام. أخيرًا ، استخدمنا محاذاة التسلسل المتعدد لاختبار التنقية والاختيار الإيجابي عبر الكودونات.


نتائج

يرتبط شغل الجينوم في Myc و Max بـ Pol II

باستخدام مستعرض الجينوم UCSC [31] ومجموعات بيانات ChIP-Seq التي تم إنشاؤها من خلايا هيلا [32] مع الأجسام المضادة التي تم التحقق من صحتها بشكل صارم من خلال مشروع ENCODE [33] ، ترتبط إشغالات Myc و Max بصريًا مع Pol II بشكل أفضل من عنصر E-box كاكجتج. على سبيل المثال ، تُظهر نظرة عامة على 10 جينات عبر منطقة 200 كيلو بايت أنماطًا متطابقة تقريبًا لـ Myc و Max ومستوى عالٍ من الارتباط البصري مع المروج القريب المتوقف مؤقتًا على كل من الجينات (الشكل & # x000a0 1 أ). تعرض العديد من الجينات نسخًا متشعبًا كما هو موضح بواسطة GRO-Seq [34] والذي يمكن أن يؤدي إلى إيقاف Pol II مؤقتًا في كلا الاتجاهين. توضح النظرة الأقرب لأحد هذه الجينات أن Myc و Max يقيمان في موضع بين قمتي Pol II (الشكل & # x000a0 1 B). من المهم أن نتذكر أن موضع العامل المناعي لا يُشار إليه من خلال غلاف أجزاء الحمض النووي المعينة ، ولكن بالأحرى من خلال ذروة ذلك الغلاف. التحليل المرئي للجينات المعبر عنها بشدة ، متمثلة في MYC، يوفر دليلًا إضافيًا على أن إشغال Myc و Max مرتبط بـ Pol II ، بما في ذلك البوليمرات داخل المناطق التي تم نسخها وفي اتجاه موقع إضافة Poly (A) (الشكل & # x000a0 1 C). بالنسبة للمناطق الثلاث الموضحة ، لا يوجد ارتباط تقريبًا بين Myc أو Max مع CACGTG E-box المتعارف عليه (الشكل & # x000a0 1). بالمقارنة ، توزيعات CTCF [35] وعدد من عوامل النسخ المرتبطة بالحمض النووي الأخرى (ملف إضافي 1: الشكل S1) تختلف عن Myc و Max و Pol II. عندما تم تحليل مجموعات البيانات بأكملها ، أظهرت المناطق الجينومية التي تشغلها Myc تداخلًا أكثر أهمية مع قمم Pol II ChIP-Seq مقارنةً بعنصر E-box CACGTG (الاختبار الدقيق لـ Fisher & # x02019s: ص القيمة & # x0003c 10-300 مقابل 4.5 & # x000d7 10-7).

أمثلة على إشغال Pol II و Myc و Max. تُظهر مسارات مستعرض الجينوم الإشغال الذي تم تحديده بواسطة ChIP-Seq لـ Pol II و Myc و Max و CTCF على مناطق الجينات المشار إليها في خلايا هيلا. يشار إلى مواقف صناديق CACGTG الإلكترونية المتعارف عليها. المناطق حولها (أ) كروموسوم 19 يحتوي على 10 جينات ، (ب) PSMB2، و (ج) MYC موضحة. بيانات GRO-Seq هي لخلايا IMR90 من <"type": "entrez-geo" ، "attrs": <"text": "GSE13518" ، "term_id": "13518" >> GSE13518 [34].

تم استخدام العديد من أدوات المعلومات الحيوية المباشرة للحصول على رؤية عالمية للارتباط بين Myc و Max مقارنةً بـ Pol II و CTCF. تم حساب وتخطيط متوسط ​​الإشغال حول TSS البالغ 20886 جينًا في خلايا هيلا. المروج القريب المتوقف مؤقتًا Pol II بلغ ذروته بمتوسط ​​83 نقطة أساس في اتجاه مجرى TSS. بلغت ذروتها Myc و Max في المتوسط ​​من TSS عند -20 و -35 ، على التوالي (الشكل & # x000a0 2 أ). أظهر Myc و Max أيضًا انتقالًا منحدرًا عند حوالي +300 والذي تمت ملاحظته سابقًا لـ Pol II ، والوحدة الفرعية Med1 للوسيط ، وعوامل النسخ الأخرى [36،37]. تم إنشاء خرائط حرارة عالية الدقة لتقييم توحيد هذه التوزيعات في منطقة 4 كيلو بايت تتمحور حول TSS عبر نفس مجموعة الجينات (الشكل & # x000a0 2 B). تم تصنيف الجينات حسب كمية Pol II في جميع خرائط الحرارة الأربعة. تتطابق أنماط إشغال Myc و Max بشكل أساسي وتتطابق بشكل وثيق مع نمط الإشغال لـ Pol II ، ولكن ليس CTCF. تشير هذه النتائج إلى أن Myc و Max تم العثور عليهما حوالي 100 نقطة أساس في المنبع من المحفز القريب المتوقف مؤقتًا Pol II على معظم الجينات التي يشغلها Pol II. بالإضافة إلى ذلك ، تم وضع Myc و Max أيضًا بشكل وثيق جدًا مع Pol II في مناطق المحسن (ملف إضافي 1: الشكل S1C).

الارتباط بين Myc و Max و Pol II. (أ) يوضح تحليل Metagene متوسط ​​20886 جينًا. (ب) خرائط حرارة عالية الدقة لنفس الجينات مرتبة حسب إشغال Pol II. المنطقة المعروضة هي من -2 كيلو بايت إلى +2 كيلو بايت حول TSS. (ج) ارتباط شغل البروتينات المشار إليها. (د) تحليلات Metagene لمجموعات بيانات Myc و Max و Pol II ChIP-Seq من ثمانية خطوط خلايا مختلفة (HeLa و GM12878 و K562 و H128 و H2171 و MM1S و P493 و U87). (هـ) تحليل Metagene لمجموعات بيانات Myc و Max و Med1 و Pol II ChIP-Seq من أربعة خطوط خلايا مختلفة (H2171 و MM1S و P493 و U87). يتم عرض متوسط ​​إشغال المناطق من -1000 إلى +1000 نقطة أساس حول TSS.

تمت أيضًا مقارنة مجموعات بيانات ChIP-Seq هذه باستخدام خوارزمية تقيس تشابه مواضع الذروة والارتفاعات في أي مجموعتي بيانات (الشكل & # x000a0 2 C). تعني القيمة 0 عدم وجود تداخل للإشارات في أي موضع وتشير القيمة 1 إلى أن مجموعات البيانات متطابقة. Myc و Max أكثر ارتباطًا ببعضهما البعض ، كما هو متوقع. الأهم من ذلك ، أن ثاني أعلى ارتباط على مستوى الجينوم لكل من Myc و Max كان Pol II. لا يُتوقع أن يكون ارتباط Myc مع Pol II مرتفعًا مثل ارتباطه بـ Max بسبب إزاحة 100 نقطة أساس تقريبًا لـ Myc (و Max) من قمم المحفز القريب المتوقف مؤقتًا Pol II. كما هو متوقع ، كان CTCF الأقل ارتباطًا جيدًا بجميع مجموعات البيانات لأنه مرتبط بعنصره المحتوي على CTC بشكل رئيسي في المناطق داخل الجين [35]. تم تمديد تحليل الارتباط ليشمل Fos و Jun و E2F1 ولم يرتبط أي من هذه العوامل أيضًا بـ Pol II مثل Myc و Max (ملف إضافي 1: الشكل S2).

قمنا بتوسيع تحليلاتنا إلى ثمانية خطوط من الخلايا البشرية باستخدام مجموعات بيانات Myc و Max و Pol II ChIP-Seq. تم دمج جميع مجموعات البيانات الثمانية في تحليل ميتاجين متعدد الجينوم ، وأشارت النتائج بوضوح إلى أنه في المتوسط ​​، كما تم العثور عليه في خلايا هيلا ، كان Myc و Max حوالي 100 نقطة أساس من المروج القريب المتوقف مؤقتًا Pol II ويتم نقل Myc المصب من Max (الشكل & # x000a0 2 D). كانت مجموعات البيانات للوحدة الفرعية Med1 من Mediator متاحة لأربعة من خطوط الخلايا هذه ، وعرض التحليل متعدد الجينوم توزيعًا مشابهًا لـ Myc و Med1 بما في ذلك انتفاخ المصب فوق المروج القريب المتوقف مؤقتًا Pol II (الشكل & # x000a0 2 E). تشير هذه التحليلات بشدة إلى أنه قد يتم تجنيد Myc لهذه المواقع الجينومية بواسطة آلية النسخ ، مع Mediator كمرشح معقول.

في ظل ظروف القياس المتكافئ مع تركيزات عالية من البروتينات والحمض النووي ، تعرض أجهزة القياس المتغايرة Myc-Max خصوصية تسلسل مريحة

بسبب الارتباط المنخفض بين إشغال جينوم Myc-Max وتسلسلات CACGTG ، قمنا بإعادة فحص خصائص ربط الحمض النووي لبروتينات Myc و Max. تم التعبير عن إصدارات كاملة الطول من Myc واثنين من الأشكال الإسوية من Max و Max S و Max L ، في بكتريا قولونية وتنقيته حتى التجانس (الشكل & # x000a0 3 أ). تم أيضًا خلط الشكلين الإسفيني Max بشكل فردي مع Myc في ظل ظروف تغيير طبيعة ، وتم السماح لهما بإعادة الطي باستخدام بروتوكول غسيل الكلى التدريجي ، ثم تمت تنقيتهما للحصول على مقاييس غير متجانسة أصلية من Myc-Max S و Myc-Max L (الشكل & # x000a0 3 أ). تم إجراء فحوصات نقل الحركة الكهربي باستخدام ثلاثة 26 & # x000a0bp dsDNA oligos التي كانت متطابقة باستثناء المركز 6 & # x000a0bps الذي يحتوي على CACGTG E-box أو GTGGTG أو تسلسل غير مرتبط تمامًا ATCTAG (الشكل & # x000a0 3 ب). كانت المواد الهلامية الأصلية ملطخة بالفضة لدراسة التحول في موضع 200 & # x000a0ng من البروتين. كما هو متوقع ، كل من الأشكال الإسوية المتجانسة المتطابقة مرتبطة بشكل متكافئ مع CACGTG التي تحتوي على مسبار ينتج البروتين / مجمعات الحمض النووي التي هاجرت أبعد من البروتينات الحرة. عرض Max S ارتباطًا ضعيفًا وعابرًا للمسبارين الآخرين بينما قلل Max L ، ولكن تقاربًا كبيرًا لـ GTGGTG وتقارب منخفض لمسبار ATCTAG (الشكل & # x000a0 3 ب). أنتج كلا مجمعي Myc-Max ، بغض النظر عن Max isoform ، مركب DNA بروتيني منفصل باستخدام مسبار CACGTG. من المثير للدهشة أن كلا المغيرين مرتبطين بطريقة متكافئة بالمسبارين الآخرين غير الصندوقين (الشكل & # x000a0 3 ب). أسفرت دراستان فرديتان فحصتا ارتباط الحمض النووي بنفس البروتينات كاملة الطول عن أنماط تحول متطابقة [5،38]. كانت الاختلافات في المستويات النسبية لتلوين الأشكال المجانية والمرتبطة بالحمض النووي لـ Max مقابل Myc-Max بسبب الاختلافات في التلوين (وقت التطوير) للمواد الهلامية التمثيلية الأربعة الموضحة. عندما تم تحليل Max L و Myc-Max L على نفس الهلام ، أظهروا مستويات تلطيخ مماثلة وزيادات مماثلة في تلطيخ عندما يرتبط بالحمض النووي (الشكل & # x000a0 3 C). من المهم أن نفهم أن EMSAs هذه (الشكل & # x000a0 3 B و C) تم إجراؤها في ظل ظروف متكافئة مع تركيزات عالية من البروتينات والحمض النووي. لا تسمح هذه الشروط بتحديد ثوابت التفكك ، وخاصة بالنسبة لـ Myc-Max ، لا تعرض الاختلافات المحددة في التسلسل في الارتباط المعروف وجوده. بدلاً من ذلك ، أظهروا أن Myc-Max يمكن أن يرتبط بأي تسلسل DNA على مستوى عالٍ ، ولكن ليس تركيزًا غير معقول تم اختباره (125 نانومتر). أظهرت مجمعات Myc-Max-DNA تغيرًا بسيطًا فقط في التنقل مقارنة بالبروتينات الحرة. قد يكون هذا بسبب تغيير في شكل Myc-Max الذي يؤدي إلى انخفاض في الحركة مثل تلك التي شوهدت لـ HEXIM1 المرتبط بـ 7SK RNA [39].

التحليل البيوكيميائي لـ Myc و Max. (أ) SDS-PAGE للبروتينات المؤتلفة المشار إليها والتي تم التعبير عنها في بكتريا قولونية وتنقيته كما هو موضح في الطرق. (ب) EMSA باستخدام الرحلان الكهربائي للهلام بولي أكريلاميد الأصلي مع 200 نانوغرام من البروتينات المشار إليها (250 نانومتر كحد أقصى و 125 نانومتر Myc-Max) مع 0 ، 0.1 ، 0.3 ، 1 ، أو 3 أضعاف من dsDNA المشار إليه. كانت المواد الهلامية ملطخة بالفضة لإظهار حركة البروتينات. تشير الأسهم إلى مجمعات البروتين والحمض النووي. (ج) EMSA مع تلطيخ متزامن لـ Max L و Myc-Max L. إجمالي 2.5 ميكرومتر من كل بروتين (125 نانومتر) لكل حارة مع مستويين من تحقيقات الحمض النووي المشار إليها. يشار إلى المجمعات التي تحتوي على البروتينات المشار إليها بأسهم. لاحظ أنه في إعداد Myc-Max ، حدث بعض تفكك Max مما أدى إلى انخفاض مستوى أنواع Max و Max-DNA. (D و E و F و G و H) EMSAs باستخدام 0.01 نانومتر من المسبار المشار إليه إشعاعيًا (أزرق) مع التركيز المشار إليه للبروتينات والحمض النووي المنافس.

تم تحديد ثوابت تفكك معقدات البروتين والحمض النووي في ظل الظروف غير المتكافئة المطلوبة باستخدام مسبار ذو علامة إشعاعية 0.01 نانومتر. أظهر Max L و Myc-Max L ارتباطًا محكمًا بـ CACGTG (K.دق من 0.4 نانومتر و 0.1 نانومتر ، على التوالي) (الشكل & # x000a0 3 د). لم يشكل Max L معقدًا منفصلاً باستخدام مسبار ATCTAG بتركيزات البروتين المختبرة (K.د & # x0003e1 & # x003bcM) ، ولكن بدلاً من ذلك أعطت فقط نطاقًا ملطخًا أسفل موضع مجمع مرتبط بإحكام (السهم) (الشكل & # x000a0 3 E). هذا بسبب الارتباط الأولي متبوعًا بإطلاق المسبار أثناء تشغيل الجل. أظهر Myc-Max L تقاربًا كبيرًا لمسبار ATCTAG (K.د = 20 نانومتر) (الشكل & # x000a0 3 F). أظهرت فحوصات ربط المنافسة في ظل هذه الظروف غير المتكافئة أن CACGTG المحتوي على الحمض النووي كان قادرًا على التنافس مع ربط Max L و Myc-Max L بمسبار CACGTG (الشكل & # x000a0 3 G و H). بتركيز أعلى 1000 مرة ، كان ATCTAG المحتوي على DNA قادرًا أيضًا على التنافس على ربط كل من Max و Myc-Max بمسبار CACGTG (الشكل & # x000a0 3 G و H). تشير هذه النتائج إلى أن كلا من Max و Myc-Max يفضلان الارتباط بالمسبار الذي يحتوي على CACGTG كما هو متوقع. في المقايسة المتكافئة الموصوفة أعلاه ، شكلت 125 نانومتر Myc-Max ولكن ليس 250 نانومتر كحد أقصى ديمر مجمعات منفصلة مع ATCTAG DNA. في الاختبار غير المتكافئ ، أظهر Myc-Max تقاربًا أعلى بكثير لمسبار ATCTAG من Max وشوهد هذا الاختلاف عند بروتين 10 و 100 نانومتر (الشكل & # x000a0 3 F). في اختبار المنافسة (1 نانومتر بروتين) ، لم يظهر الفرق بين Myc-Max و Max. يمكن أن يرتبط التغيير المعتمد على التركيز في الارتباط النسبي لـ Myc-Max و Max بالحمض النووي غير النوعي الذي لاحظناه بمعدلات التشغيل والإيقاف المختلفة للبروتينين [40]. من كل من في المختبر أظهرت دراسات الربط الموضحة حتى الآن أن Myc-Max يوضح تفضيل التسلسل ، ولكن لديه أيضًا تقاربًا كبيرًا مع الحمض النووي الذي يفتقر إلى صندوق إلكتروني أساسي.

تحديد تفضيل التسلسل الكامل لـ Myc-Max والمقارنة مع الإشغال في الخلايا

في محاولاتنا الأولى لمحاولة مقارنة في الجسم الحي شغل Myc و Max في موقع E-box ، واجهنا صعوبة بسبب وجود عدد كبير من الصناديق الإلكترونية غير المتعارف عليها المبلغ عنها. بدون تقدير التقارب النسبي لـ Myc-Max لجميع هذه المواقع ، كان من الصعب ربطها في الجسم الحي الإشغال. لهذا السبب ، تم استخدام مقايسات ميكروأري (PBM) المرتبطة بالبروتين باستخدام & # x02018 جميع تصميمات المصفوفات العالمية 10-mer & # x02019 [41،42] لتحديد الإشغال النسبي لـ Myc-Max L heterodimer و Max L homodimer عبر الكل 8 سلاسل بي بي الممكنة (أي 8 أمتار). بعد التطبيع ، أظهر الإشغال النسبي Myc-Max لكل من 32896 8-m نطاقًا 56 ضعفًا ، من 0.018 إلى 1 (الشكل & # x000a0 4 A ، أقحم). على الرغم من أن الطريقة مختلفة تمامًا عن مقايسة EMSA الموصوفة أعلاه ، إلا أن نتائج PBM تعكس أيضًا تفضيلات التسلسل المريح لـ Myc-Max. كانت معظم التسلسلات التي تحتوي على CACGTG عالية الإشغال ، لكن القواعد المرافقة كان لها تأثير كبير (الشكل & # x000a0 4 أ). بالإضافة إلى ذلك ، وجدنا العديد من المتغيرات E-box وغيرها من 6-mers الأساسية مع إشغال Myc-Max مرتفع نسبيًا. يظهر أفضل 12 نواة 6-mers وتأثير القواعد المرافقة في الشكل & # x000a0 4 أ. مثل قلب CACGTG الأساسي ، تأثر إشغال Myc-Max للنواة الستة الأساسية الأخرى بشكل كبير بالقواعد المرافقة.

ربط Myc لجميع 8-mers الممكنة والمقارنة مع الإشغال الجيني. (أ) إشارة الفلورسنت التي تم إنشاؤها بواسطة Myc في المختبر تم تطبيع الربط مع مصفوفة تحتوي على كل 8 أمتار ممكنة. اثنا عشر تسلسلًا أساسيًا من 6 مير مع أعلى في المختبر يتم عرض الإشغال. يظهر التقارب النسبي لكل 8 مير لكل 6 مير (10 نقاط إذا كانت 6 مير متناظرة أو 16 إذا لم تكن كذلك). يظهر الشكل الداخلي الفرز في المختبر إشارة ملزمة لجميع 8 مير ممكن. (ب) عرض مستعرض الجينوم لمنطقة على الكروموسوم 19 يقارن إشغال Myc و Max و Pol II مع توزيع أفضل 12 6 mers (من A). ارتفاع كل قمة 6 مير يساوي نسبيها في المختبر الإشغال (كما هو موضح في المائة). (ج ، د) تكبير وجهات النظر لمنطقتين موضحتين في (ب) والتي توضح عدم وجود ارتباط بين Myc و Max الإشغال مع التقارب الجوهري للحمض النووي الأساسي المحدد في المختبر.

تم حل مشكلة عدم معرفة التقارب النسبي لـ Myc-Max للصناديق الإلكترونية غير الكنسية المقترحة سابقًا بواسطة فحوصات PBM لذلك استخدمنا هذه المعلومات لفحص الدور الذي يلعبه تقارب الحمض النووي الجوهري في شغل المغير المتغاير في الخلايا. مسار متصفح الجينوم يشتمل على الموقع والقريب في المختبر تم إنشاء الإشغال (النسبة المئوية لموقع الربط الأعلى) لكل من الـ 12 6 سنوات الأولى التي تعرض بيانياً نطاق الصلات الجوهرية عبر الجينوم (الشكل & # x000a0 4 ب). يعد هذا تحسينًا مقارنة بمجرد تعليم الصناديق الإلكترونية الكنسي وغير المتعارف عليه بغض النظر عن الصلات النسبية للمواقع المختلفة. لا تقدم المقارنة المرئية لشغل Myc و Max و Pol II في خلايا هيلا بالتوزيع الدقيق للصلات الجوهرية دليلًا على وجود علاقة قوية بين التقارب الجوهري والشغل في الخلايا (الشكل & # x000a0 4 ب). كشف الفحص الدقيق عن أن مواقع الربط القوية لم تكن مشغولة وتم العثور على Myc و Max في المناطق التي لم يكن بها أي من أفضل 12 موقع 6-mer (الشكل & # x000a0 4 C و D).

تم إجراء العديد من التحليلات لحساب الارتباط بين تفضيلات تسلسل 8-mer التي يحددها PBM والشغل الجيني الفعلي لـ Myc ، كما تم قياسه بواسطة ChIP-Seq. تم استخدام خوارزمية ChIP-Seq Peak [36] لتحديد الموقع الجينومي لكل من أعلى 30000 قمة Myc في خلايا هيلا. تم مسح فاصل زمني 100 نقطة أساس المحيطة بكل قمة للعثور على 8 مير بأعلى مستوى ممكن في المختبر تم تعيين الإشغال وهذه النتيجة لكل ذروة ChIP-Seq. هؤلاء في المختبر تم تطبيع درجات الإشغال إلى 1 ، مرتبة مرتبة من أعلى إلى أدنى القيم ، ثم تم رسمها لجميع القمم البالغ عددها 30000 (الشكل & # x000a0 5 أ ، قطعة الأرض الزرقاء). ارتبط أربعة وسبعون بالمائة من قمم Myc هذه بتقارب منخفض مع 8 mers في المختبر إشغال أقل من 0.2. لتحديد ما إذا كان توزيع 8-mers حول مواقع إشغال Myc مختلفًا عما يحدث بالصدفة ، تم إجراء نفس التحليل على 30.000 منطقة 100 bp تم اختيارها عشوائيًا من الحمض النووي الذي يمكن الوصول إليه (المناطق الحساسة DNase I [43]) (الشكل & # x000a0 5 أ ، مؤامرة سوداء). إن اختيار المناطق الحساسة لـ DNase I كتسلسل تحكم لهذا التحليل مبرر بحقيقة أن 95٪ من قمم Myc تقع داخل هذه المناطق. أشارت مقارنة المقطعين إلى أنه ، كما هو متوقع ، تحتوي المواقع الجينية التي تشغلها Myc على مواقع أكثر عالية في المختبر إشغال Myc مقارنة بمناطق الحمض النووي التي يمكن الوصول إليها بشكل عشوائي (اختبار تصنيف ويلكوكسون: ص القيمة & # x0003c 2.2 & # x000d7 10-16). يظهر هذا الإثراء أيضًا عن طريق منحنى خاصية تشغيل المستقبل (ROC) (الشكل & # x000a0 5 A ، داخلي). تُستخدم ROCs بشكل شائع في التحليلات الجينومية لتقييم ما إذا كانت هناك ميزة كمية محددة (هنا ، في المختبر يمكن التمييز بين فئتين من التسلسلات (هنا ، قمم ChIP-Seq مقابل المناطق العشوائية التي يمكن الوصول إليها). على الرغم من أن المنطقة الواقعة تحت منحنى ROC أفضل من المتوقع بالصدفة (0.637 مقابل 0.5) ، يوضح تحليل ROC أن في المختبر لا يمكن استخدام وظائف 8-mer للتنبؤ بدقة بما إذا كانت المنطقة الجينومية التي يمكن الوصول إليها ستكون مرتبطة بـ Myc في الخلايا. هنا ، يوضح مخطط ROC أنه عند المعدل الإيجابي الخاطئ 0.1 ، فإن المعدل الإيجابي الحقيقي هو 0.25 فقط. لعمل تنبؤات إيجابية كاذبة بنسبة 10٪ فقط لـ Myc في الجسم الحي ملزم باستخدام في المختبر 8-mer ، سنكون قادرين فقط على التقاط 25٪ من قمم Myc ChIP-Seq الحقيقية. هذا يعني أن الغالبية العظمى من المواقع التي تشغلها Myc مرتبطة بانخفاض درجات 8 أمتار ، كما هو موضح بيانياً في الشكل & # x000a0 5 أ.

مقارنة إشغال Myc ChIP-Seq مع في المختبر تقاربات ملزمة. (أ) تم ترتيب أفضل 30،000 موقعًا احتلها Myc (باللون الأزرق) وتم تسجيلها بواسطة في المختبر شغل أفضل 8 مير في نافذة 100 نقطة أساس (المحور ص). تكرر هذا في 30000 موقع عشوائي لحساسية DNase I (أسود) وتمت مقارنة النتائج مباشرة بتحليل ROC (داخلي). (ب) تم ترتيب أفضل 30،000 موقع تشغلها Myc بواسطة إشارة ChIP-Seq وسجلت لوغاريتميًا إما عن طريق إشارة ChIP-Seq الطبيعية (الخط الأزرق) أو في المختبر إشغال أفضل 8 مير في نافذة 100 نقطة أساس (النقاط السوداء). (ج) البيانات الموجودة في (ب) يتم تقديمها باستخدام مخطط مربع افتراضي R (المربع: الربع الأول إلى الربع الثالث ، الخط: متوسط ​​، الشعيرات: 1.5 & # x000d7 النطاق الرباعي خارج الصندوق ، القيم المتطرفة مكدسة) مع إشارة ChIP-Seq باللون الأزرق و في المختبر 8 مير باللون الرمادي.

لمزيد من تقييم ما إذا كانت خصوصية الربط الجوهري لـ Myc-Max تحدد مستوى الإشغال الجيني في الخلية ، تم ترتيب مواقع Myc نفسها من خلال إشغال ChIP-Seq ومقارنتها بإشارة أفضل 8 مير ضمن 100 bp حول كل قمة. تختلف إشارة Myc ChIP-Seq لأعلى 30000 قمة بمقدار 30 ضعفًا (الشكل & # x000a0 5 B ، الخط الأزرق يظهر تناقص الإشغال من اليسار إلى اليمين). باستخدام نفس المحور السيني ، تم إنشاء مخطط ثانٍ يعرض التقارب النسبي لأفضل 8 مير المرتبطة بكل من قمم Myc هذه (الشكل & # x000a0 5 B ، النقاط السوداء). يظهر التفضيل البسيط للقرص 8-mers عالي التقارب على قمة 5000 Myc ، لكن الاستنتاج الساحق هو أن 8 mers مع مجموعة واسعة من في المختبر تم العثور على الإشغال حول قمم Myc بغض النظر عن مستوى في الجسم الحي الإشغال (الشكل & # x000a0 5 ب). بينما يمكن ملاحظة وجود علاقة ذات دلالة إحصائية بين شغل Myc ChIP-Seq و في المختبر قوة الربط 8-mer ، هذه العلاقة ضعيفة (معامل ارتباط سبيرمان: & # x003c1 = 0.22 ، ص القيمة & # x0003c 2.2 & # x000d7 10-16). لو كان الإشغال الخلوي مرتبطًا جيدًا بمدى تقارب تسلسل الحمض النووي الأساسي ، لكان هناك سحابة من النقاط السوداء متجمعة حول المنحنى الأزرق في الشكل & # x000a0 5 B وكان معامل ارتباط سبيرمان قريبًا من 1. قطعة من the same data after ChIP-Seq peaks were grouped into log-scaled bins provides a more detailed view of the high occupancy sites in cells that might be expected to correlate better with intrinsic DNA affinities. However, the huge range of في المختبر occupancy scores is clearly found even for the highest occupancy sites (Figure  5 C). All these analyses suggest that Myc occupancy is driven only to a small extent by its intrinsic sequence preference, and additional mechanisms are required to recruit Myc to its genomic binding locations in the cell.

Genomic sites with higher relative levels of Max

Apart from associating with Myc, Max can form Max-Max homodimers or bind with Mad proteins to form Mad-Max heterodimers [44] and these can also bind E-box DNA sites [45]. We reasoned that such sites might have more Max than Myc. To identify these sites the HeLa Myc and Max datasets were normalized and a new track was generated in which the ChIP-Seq signal for Myc was subtracted from the signal for Max. Several thousand peaks with significant levels of extra Max were found. A representative region of chromosome 17, covering about 1 million bps that contains more than a dozen genes occupied by Pol II, Myc, and Max, is shown in Figure  6 . The region contains about 20 peaks of Myc and Max and two of these sites have significant levels of extra Max. Both peaks of extra Max are on top of high scoring CACGTG sites (Figure  6 B and C). Interestingly, the top 5,000 sites with extra Max (difference values greater than 0.5) were more tightly associated with high scoring 8-mers than were Myc sites (Additional file 1: Figure S3A) and had a more significant overlap with CACGTG than the Myc sites (Fisher’s exact test: ص value 㰐 -300 for extra Max sites vs. 4.5 × 10 -7 for Myc sites). The top 1,487 peaks of extra Max (difference values greater than 1.0) were selected for further analysis (Additional file 2: Table S1). These sites were always close to peaks of Myc, Max, and Pol II, but only 417 of these peaks were within 250 bp of an annotated TSS. Gene Ontology (GO) analysis was performed on the associated genes, but no significant enrichment in any type of gene was uncovered. To determine if sites of extra Max might affect gene expression, the mRNA levels of those genes were compared to the mRNA levels of the top 12,000 expressed genes as determined by RNA-Seq. The RNA levels of 351 (of the 417) genes that were identifiable in the RNA-Seq dataset were distributed uniformly across the entire range of top 12,000 expressed genes covering more than three orders of magnitude in RNA levels (Additional file 1: Figure S3B). Thus, the sites with extra Max do not seem to be associated with any particular set of genes and do not correlate with the expression level of the genes they are associated with. Overall, sites with extra Max showed a stronger preference for E-box elements compared to Myc.

Examples of sites with more Max than Myc. Genome browser views of normalized Myc, Max, and ‘Max minus Myc’ occupancy and peaks generated by ChIP-Seq Peak. The distribution of the top 12 6-mers with their relative في المختبر occupancies is also displayed. (أ) A large region from chromosome 17. (B, C) Close-ups of the two regions with extra Max showing alignment with high scoring 6-mers.


New Study Reveals 1 Million Human Genome Sequence Errors Across Two NGS Platforms

April 1, 2011 | “What does it mean to have a ‘healthy’ genome?” That was the question that University of Utah geneticist Mark Yandell and colleagues set out to address in an important recent paper in the journal علم الوراثة في الطب .* Among the key conclusions: there are 1.1 million discrepancies when the identical human genome sample is sequenced using two popular next-generation sequencing (NGS) platforms.

As Yandell and coworkers point out in the paper’s introduction, neither J. Craig Venter’s nor James Watson’s genomes were found to contain any strongly deleterious gene variants likely to cause or strongly predispose them to genetic illness, prompting some commentators to express skepticism regarding the prognostic value of personal genome sequences.

“To date,” the authors write, “the standard reply to the skeptic has been that healthy adults have healthy genomes. Although reasonable, this rebuttal presumes that we know what a healthy genome is. No doubt, a clean bill of genomic health will be the most common clinical scenario in genomic medicine. However just what does a healthy genome look like? What is the impact of sequencing technology on prognostic accuracy? What role will ethnicity play in prognosis? Finally, how useful will existing resources, such as OMIM, be for categorizing personal genome variants as deleterious? The answers to these questions are of immediate importance for the future of genomic medicine.”

Yandell recently spoke to Bio-IT World about his team’s results, including the release of the 10Gen set of personal genome variant data. While his own group works on tools for genome annotation and functional genomics, he is increasingly interested in developing tools for personal genome analysis. Late last year, in collaboration with Martin Reese and colleagues at San Francisco-based software firm Omicia, Karen Eilbeck (University of Utah), Gabor Marth (Boston College), Paul Flicek (EBI) and Lincoln Stein (Ontario Institute for Cancer Research), the consortium published a paper in بيولوجيا الجينوم describing a standardized file format called GVF (Genome Variation Format) for exchanging and comparing personal genome sequences .

In the new paper, the collaboration presents an analysis of the first ten publicly-available human genome sequences, including the genomes of Watson, Venter, Steve Quake, two Asian and four HapMap individuals, one of which has been sequenced on two platforms. A major goal is to explore ways to interpret personal genome sequences for clinical diagnostic purposes, says Yandell, rather than from a population genetics viewpoint.

Although Yandell’s team looked at the first ten human genomes sequenced and publically released using six different platforms (Sanger, Illumina, Life Tech, Complete, Roche/454, Helicos), and found that the platform differences were not sufficient to obscure the ethnic relationships between the genomes, there was a striking result from the side-by-side comparison of two published sequence datasets on the same HapMap sample. This subject was an anonymous African subject (NA18507) that was sequenced independently both by David Bentley’s team at Illumina (published in طبيعة سجية in 2008) and Kevin McKernan’s group at Life Technologies on the SOLiD platform (published in Genome Research in 2009).

Although the two sequences shared some 77% of the total variants, Yandell and colleagues found that they differ at more than 1.1 million positions. (The Life Technologies and Illumina versions of the NA18507 genome had 575,099 and 526,836 unique positions, respectively.)

“Most people are quite shocked,” says Yandell. “But is it glass half full or half empty? From the standpoint of whole genomes consisting of 3 billion bases, there is actually very good congruence. If you’re trying to do population genetics, it’s pretty good to do platform cross comparisons.”

The view is less rosy from a diagnostics point of view, however. “Congruence is better within the coding regions of genes but it’s still a long way from perfect. We find 99% congruence within coding regions, but even then, if you’re trying to do diagnostics, taking into effect platform considerations is something that has to be done.”

Yandell stresses that sequence discrepancies are not simply a matter of which NGS platform is selected. “It’s also the variant calling procedures,” he says. “Depending upon which tool you use, you can see pretty big differences between even the same genome called with different tools—nearly as big as the two Life Tech/Illumina genomes.”

It also depends on the parameters used with the software tools, an issue that is not as broadly recognized in the NGS community as it should be, says Yandell. “There’s still a bit of black art in variant calling. It’s not so much the accuracy of the sequencing platforms, it’s also how you’re post-processing the data and calling the variants. Right now, there’s no right answer, but a lot of smart people are working very hard on this.”

On average, each personal genome contains between 20,000-25,000 single nucleotide variants in protein-coding genes compared to the reference genome. In the collaboration with the Omicia group, Yandell also found that focusing on the OMIM (Online Mendelian Inheritance in Man) collection of disease genes provides the same result as whole genome sequences in defining ethnicity with 80% certainty. “The magnitude of that signal struck us as interesting,” says Yandell. “There’s a long-term bias towards disease studies in particular ethnic groups.”

Another result was that the African genomes are typically homozygous for many more OMIM variants than the Caucasian genomes. “That’s probably due to what we might call background effects,” says Yandell. “You’ve got alleles that do you no harm as an African or African-American, but in a Caucasian or Asian background, they are legitimately disease predisposing.”

“That has implications for diagnostic medicine,” Yandell continues. “It can’t be ethnically blind. The right decision will depend upon the ethnicity of the individual. That’s a touchy subject in the field, because people get concerned when you mention ethnicity. There are already [some areas of medicine] that takes ethnicity into account. We will likely have to do that in the diagnostics domain as well.”

Following the development of a standardized file format called GVF for personal genome sequences, Yandell needed a trial set of personal genomes to use for software development, both for his own group and the broader community—the 10Gen set. (Those data are available from the Sequence Ontology website .)

Yandell’s next goal is to establish methods to automatically analyze newly resequenced genomes. A priority is to provide what he calls “clinical decision support”—relating individual DNA variants to known disease-causing variants. The goal here—primarily the Omicia side of the collaboration—is to mine a personal genome sequence, identify all known alleles associated with ill health, and then relate that to known variants in an easy manner for rapid reports.

Another focus is developing an ontology to classify disease genes for even broader clinical decision support. “The idea is you’re not just asking if someone has a nasty allele in the cystic fibrosis (CF) أو BRCA1 gene, but looking at sets of genes, e.g. all genes in cardiovascular health or cancer. Does this individual have an especially unlucky combination of slightly deleterious alleles spread among several genes all involved in the same disease, which might give them a red light for cardiovascular health, even though there’s no one bad allele for that disease?”

The flip side for this clinical decision support is what to do with ‘private’ variants, novel variants that look potentially problematic? “What does it mean when you sequence someone and they have a stop codon smack in the middle of a growth factor receptor?” says Yandell “What do you do then? How do you know if you have a problem?”

That aspect of analyzing novel variants—of which every individual has hundreds—has prompted the Yandell lab in collaboration with Omicia to develop software called VAAST (Variant Annotation and Selection Tool). “It’s a tool to automatically identify damaged genes and disease-causing variants, even if they’re completely novel and never been seen before,” says Yandell, who thinks it could have a big impact. (A manuscript describing the software has been submitted, and the software will be made publicly available for academic use—and commercially through Omicia—once that paper is published.)

But Yandell has already demonstrated the potential of the VAAST tool, testing it on the same dataset used in a 2010 study identifying the Mendelian gene mutation for Miller syndrome. An earlier analysis of the genomes of the two affected siblings and their parents using a popular tool called SIFT, which predicts the phenotypic severity of amino acid changes, resulted in hundreds of variants flagged as highly deleterious, which then had to be sorted through by hand. VAAST, by comparison, identifies the disease causing alleles automatically.

The Yandell group set out to come up with a probabilistic tool that not only considers the severity of the DNA variant but also frequency information. “If everyone in the case dataset is homozygous for a stop codon in some particular gene, but 75% humans are homozygous for that allele, you can say this is unlikely to be deleterious,” says Yandell. “Those probabilistic arguments are what things like SIFT don’t do… We wanted to develop a tool that would deal with all those frequencies in a truly probabilistic fashion, so you could identify disease-causing genes with greater accuracy.”

Importantly, says Yandell, it’s fast. “You can process the genome in just a few minutes, which really cuts down on the cost of analysis,” he says. Yandell says he also has unpublished data in which VAAST identified a mystery X-linked gene mutation in a large Utah family in a matter of 15 minutes.

“I think this is huge,” says Yandell. “I was skeptical at first. I wasn’t like a member of ‘the personal genomes cult,’ if you will. I just started playing with these data, and wow: there really are prognostic and diagnostic answers to be found in them. Now I’m truly a believer.”


The HBBP1 Pseudogene Is Functional

Not only did Moleirinho et al. (2013) determine that the HBBP1 pseudogene was markedly non-variable and likely functional, they verified the hypothesis of inferred functionality with data from the ENCODE project (Dunham et al. 2012). Moleirinho et al. detected significant interactions between a segment of the β-globin cluster comprising both HBD and HBBP1, and different regions upstream of the lead gene HBE, which overlap the locus control region (LCR). As mentioned earlier, the LCR is the main control region approximately 6,000 to 18,000 bases from the β-globin cluster that engages in long range interactions via complex chromatin loops with the globin genes in the cluster (Dean 2011 Xu et al. 2010 Xu et al. 2012). Moleirinho et al. also elaborated that

A variety of previous papers have documented complex transcriptional control combined with long range chromatin interactions in the β-globin locus (Deng et al. 2012 Dostie et al. 2006 Xu et al. 2010).

These observations by Moleirinho et al. are further validated and augmented by yet another recent report by Sheffield et al. (2013) in which the HBBP1 pseudogene was shown to have at least eight network correlations within a wide variety of open and active transcriptional control sites across the β-globin locus. This is more than any other gene in the β-globin cluster. These data were derived from hematopoietic (blood) stem cells. The integrated data was based on the analysis of open and active chromatin determined by DNase1 sensitivity—a highly accurate regulatory indicator of functional chromatin (Thurman et al. 2012). The DNase results were also correlated with large-scale gene expression data.

Additional proof of gene function is the identification and characterization of a transcriptional product(s). In the case of the HBBP1 pseudogene, its multiple gene products are regulatory RNAs. In the UCSC genome browser ENCODE version 14 comprehensive gene annotation set for the HBBP1 pseudogene, annotation tracks are shown for the localization of 14 spliced expressed sequences (chr11: 5263100-5265425) that align within the HBBP1 locus as shown in Fig. 2. Many of these represent processed transcripts and/or the products of alternative splicing/transcription. The Ensembl database lists two main consensus (reference) transcripts (ENST00000433329, ENST00000454892) of 439 and 455 bases in length. One consensus version contains two exons while the other has three, and there are alternatively spliced variants of these as shown in the Vega Genome Browser (ensembl.org) for the manually curated “Havana” annotations for HBBP1. The Ensembl gene variation data set for HBBP1 lists 16 different exon variant transcripts and 42 different intron variant transcripts (useast.ensembl.org/Homo_sapiens/Gene/Variation_Gene/Table?g=ENSG00000229988r=11: 5263184-5264767). This diversity of transcript variation is partially facilitated by six different sets of exon start/end sites within the HBBP1 gene as described at the GeneLoc database at the Weizmann Institute (genecards.weizmann.ac.il/geneloc). These expressed sequence regions in the HBBP1 gene overlap and correspond with annotation tracks for transcriptionally active chromatin and transcription factor binding discussed in more detail below (see fig. 2).

Fig. 2. UCSC genome browser data showing selected gene annotation and ENCODE-related tracks for the HBBP1 locus. Analysis image accessed at genome.ucsc.edu on May 7, 2013. View larger image.

A breakdown of the transcriptional profiles for a wide variety of human pseudogenes is also located at the pseudoMap database (Chan et al. 2013a pseudomap.mbc.nctu.edu.tw). The current entry for the HBBP1 pseudogene lists the two ENSEMBL consensus IDs and indicates that the target gene regulated by the two HBBP1 transcripts is HBE1, the assumed parent (via hypothetical gene duplication) and the first gene in the β-globin cluster. However, the recent data published by Sheffield et al. (2013) clearly shows that the regulatory activity of the HBBP1 pseudogene associates across a wide variety of functional chromatin sites in the β-globin cluster.


مراجع:

(1) Chimpanzee Sequencing and Analysis Consortium. Initial Sequence of the Chimpanzee Genome and Comparison with the Human Genome. طبيعة سجية 2005, 437 (7055), 69–87. doi: 10.1038/nature04072.

(2) International Human Genome Sequencing Consortium. Initial Sequencing and Analysis of the Human Genome. طبيعة سجية 2001, 409 (6822), 860–921. doi: 10.1038/35057062.

(3) Pollard, K. S. Salama, S. R. King, B. Kern, A. D. Dreszer, T. Katzman, S. Siepel, A. Pedersen, J. S. Bejerano, G. Baertsch, R. Rosenbloom, K. R. Kent, J. Haussler, D. Forces Shaping the Fastest Evolving Regions in the Human Genome. PLoS Genet 2006, 2 (10), e168. doi: 10.1371/journal.pgen.0020168.

(4) Kostka, D. Hubisz, M. J. Siepel, A. Pollard, K. S. The Role of GC-Biased Gene Conversion in Shaping the Fastest Evolving Regions of the Human Genome. علم الأحياء الجزيئي والتطور 2012, 29 (3), 1047–1057. doi: 10.1093/molbev/msr279.

(5) Levchenko, A. Kanapin, A. Samsonova, A. Gainetdinov, R. R. Human Accelerated Regions and Other Human-Specific Sequence Variations in the Context of Evolution and Their Relevance for Brain Development. بيولوجيا الجينوم والتطور 2018, 10 (1), 166–188. doi: 10.1093/gbe/evx240.

(6) Green, R. E. Krause, J. Briggs, A. W. Maricic, T. Stenzel, U. Kircher, M. Patterson, N. Li, H. Zhai, W. Fritz, M. H. Y. Hansen, N. F. Durand, E. Y. Malaspinas, A. S. Jensen, J. D. Marques-Bonet, T. Alkan, C. Prufer, K. Meyer, M. Burbano, H. A. Good, J. M. Schultz, R. Aximu-Petri, A. Butthof, A. Hober, B. Hoffner, B. Siegemund, M. Weihmann, A. Nusbaum, C. Lander, E. S. Russ, C. Novod, N. Affourtit, J. Egholm, M. Verna, C. Rudan, P. Brajkovic, D. Kucan, Z. Gusic, I. Doronichev, V. B. Golovanova, L. V. Lalueza-Fox, C. de la Rasilla, M. Fortea, J. Rosas, A. Schmitz, R. W. Johnson, P. L. F. Eichler, E. E. Falush, D. Birney, E. Mullikin, J. C. Slatkin, M. Nielsen, R. Kelso, J. Lachmann, M. Reich, D. Paabo, S. A Draft Sequence of the Neandertal Genome. علم 2010, 328 (5979), 710–722. doi: 10.1126/science.1188021.

(7) Hubisz, M. J. Pollard, K. S. Exploring the Genesis and Functions of Human Accelerated Regions Sheds Light on Their Role in Human Evolution. الرأي الحالي في علم الوراثة والتنمية 2014, 29, 15–21. doi: 10.1016/j.gde.2014.07.005.

(8) Krause, J. Pääbo, S. Genetic Time Travel. علم الوراثة 2016, 203 (1), 9–12. doi: 10.1534/genetics.116.187856.

(9) Xu, K. Schadt, E. E. Pollard, K. S. Roussos, P. Dudley, J. T. Genomic and Network Patterns of Schizophrenia Genetic Variation in Human Evolutionary Accelerated Regions. علم الأحياء الجزيئي والتطور 2015, 32 (5), 1148–1160. doi: 10.1093/molbev/msv031.

(10) Doan, R. N. Bae, B.-I. Cubelos, B. Chang, C. Hossain, A. A. Al-Saad, S. Mukaddes, N. M. Oner, O. Al-Saffar, M. Balkhy, S. Gascon, G. G. Homozygosity Mapping Consortium for Autism Nieto, M. Walsh, C. A. Mutations in Human Accelerated Regions Disrupt Cognition and Social Behavior. زنزانة 2016, 167 (2), 341-354.e12. doi: 10.1016/j.cell.2016.08.071.

(11) Gallego Romero, I. Pavlovic, B. J. Hernando-Herraez, I. Zhou, X. Ward, M. C. Banovich, N. E. Kagan, C. L. Burnett, J. E. Huang, C. H. Mitrano, A. Chavarria, C. I. Friedrich Ben-Nun, I. Li, Y. Sabatini, K. Leonardo, T. R. Parast, M. Marques-Bonet, T. Laurent, L. C. Loring, J. F. Gilad, Y. A Panel of Induced Pluripotent Stem Cells from Chimpanzees: A Resource for Comparative Functional Genomics. eLife 2015, 4, e07103. doi: 10.7554/eLife.07103.


The Dangers of Hyperadaptationism

The overreliance on adaptationist “just-so stories” in the field of evolutionary biology has been openly criticized since the 1970s. Famously, Gould and Lewontin (1979) compared such thinking to the ideology espoused by Pangloss, the fictional professor from Voltaire’s novel Candide who used just-so stories to prove that we lived in the best of all possible worlds. Unfortunately hyperadaptionalism, or the belief that the vast majority of traits found in an organism (including its DNA) are present due to some selective force, has plagued much of molecular biology as well (Sarkar, 2014). The proclamation that a biochemical activity is equivalent to function (ENCODE Project Consortium et al., 2012) is just another example of this ideology. Using this logic we would state that any transcribed DNA is functional, but would this mean that the transcript (or transcriptional process) is functional by virtue of its mere existence? To resolve this paradox, we would either have to state that (1) although the DNA is functional, its output, the RNA (or the act of transcription) is not or (2) that all RNAs are بحكم الواقع functional. Obviously both of these nonsensical conclusions have their roots in hyperadaptionalist thinking and an abuse of the concept of biological function. To resolve this, we need to install a more rigorous definition of function. However, this can only be accomplished if we properly define the null hypothesis.


New limits to functional portion of human genome reported

An evolutionary biologist at the University of Houston has published new calculations that indicate no more than 25 percent of the human genome is functional. That is in stark contrast to suggestions by scientists with the ENCODE project that as much as 80 percent of the genome is functional.

In work published online in بيولوجيا الجينوم والتطور, Dan Graur reports the functional portion of the human genome probably falls between 10 percent and 15 percent, with an upper limit of 25 percent. The rest is so-called junk DNA, or useless but harmless DNA.

Graur, John and Rebecca Moores Professor of Biology and Biochemistry at UH, took a deceptively simple approach to determining how much of the genome is functional, using the deleterious mutation rate - that is, the rate at which harmful mutations occur - and the replacement fertility rate.

Both genome size and the rate of deleterious mutations in functional parts of the genome have previously been determined, and historical data documents human population levels. With that information, Graur developed a model to calculate the decrease in reproductive success induced by harmful mutations, known as the "mutational load," in relation to the portion of the genome that is functional.

The functional portion of the genome is described as that which has a selected-effect function, that is, a function that arose through and is maintained by natural selection. Protein-coding genes, RNA-specifying genes and DNA receptors are examples of selected-effect functions. In his model, only functional portions of the genome can be damaged by deleterious mutations mutations in nonfunctional portions are neutral since functionless parts can be neither damaged nor improved.

Because of deleterious mutations, each couple in each generation must produce slightly more children than two to maintain a constant population size. Over the past 200,000 years, replacement-level fertility rates have ranged from 2.1 to 3.0 children per couple, he said, noting that global population remained remarkably stable until the beginning of the 19th century, when decreased mortality in newborns resulted in fertility rates exceeding replacement levels.

If 80 percent of the genome were functional, unrealistically high birth rates would be required to sustain the population even if the deleterious mutation rate were at the low end of estimates, Graur found.

"For 80 percent of the human genome to be functional, each couple in the world would have to beget on average 15 children and all but two would have to die or fail to reproduce," he wrote. "If we use the upper bound for the deleterious mutation rate (2 × 10?8 mutations per nucleotide per generation), then . the number of children that each couple would have to have to maintain a constant population size would exceed the number of stars in the visible universe by ten orders of magnitude."

In 2012, the Encyclopedia of DNA Elements (ENCODE) announced that 80 percent of the genome had a biochemical function. Graur said this new study not only puts these claims to rest but hopefully will help to refocus the science of human genomics.

"We need to know the functional fraction of the human genome in order to focus biomedical research on the parts that can be used to prevent and cure disease," he said. "There is no need to sequence everything under the sun. We need only to sequence the sections we know are functional."


الملخص

The ENCyclopedia Of DNA Elements (ENCODE) project is an international research consortium that aims to identify all functional elements in the human genome sequence. The second phase of the project comprised 1640 datasets from 147 different cell types, yielding a set of 30 publications across several journals. These data revealed that 80.4% of the human genome displays some functionality in at least one cell type. Many of these regulatory elements are physically associated with one another and further form a network or three-dimensional conformation to affect gene expression. These elements are also related to sequence variants associated with diseases or traits. All these findings provide us new insights into the organization and regulation of genes and genome, and serve as an expansive resource for understanding human health and disease.


شاهد الفيديو: رحلة مع الجينوم البشري: ما يشكلنا (يونيو 2022).


تعليقات:

  1. Healum

    أنا محدود ، أعتذر ، لكنه لا يقترب مني تمامًا.

  2. Malataxe

    أنا آسف لأنني لا أستطيع المشاركة في المناقشة الآن. القليل جدا من المعلومات. لكن هذا الموضوع يهمني كثيرا.

  3. Leng

    لماذا هناك؟



اكتب رسالة