معلومة

كيف نصنف التسلسلات غير المشفرة في الجينوم؟

كيف نصنف التسلسلات غير المشفرة في الجينوم؟



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أحاول أن أحيط رأسي حول تنوع الوظائف في الجينوم. من الواضح أن لديك مناطق ترميز وغير ترميز. لكن داخل المناطق "غير المشفرة" ، يبدو لي أنه "غرب متوحش". العناصر القابلة للتحويل ، SINEs ، LINEs ، الينقولات ، الينقولات العكسية ، الإنترونات ، المحفزات ، إلخ. هل قمنا بشرح الجينومات بما يكفي للحصول على قائمة شاملة لأنواع التسلسلات غير المشفرة؟

سيكون من المفيد حقًا أن يكون لدي قائمة بأنواع التسلسلات غير المشفرة والفئات الفرعية (حيثما كان ذلك مناسبًا). يبدو أن ويكيبيديا تفصل قائمة لكن الرقم الموجود على نفس الصفحة للجينوم البشري غير متطابق. هل يمكن لأي شخص أن يقدم مرجعًا جيدًا لكيفية تصنيف التسلسلات غير المشفرة؟


هذا هو التصنيف المحتمل بشكل مفرط وغير مكتمل الذي يمكنني التوصل إليه. من فضلك ، لمن هم أكثر اطلاعا ، يرجى تعديل!

يمكن تقسيم التسلسلات غير المشفرة إلى الفئات التالية:

1. جينات الحمض النووي الريبي (الجينات التي تنتج الحمض النووي الريبي ، الرنا الريباسي ، الجزيئات الدقيقة ، إلخ) 2. الإنترونات والمناطق غير المترجمة (UTRs) 3. عناصر رابطة الدول المستقلة وعبر التنظيم 3.1. العناصر التنظيمية لرابطة الدول المستقلة 3.1.1. المروجين 3.1.2. معززات 3.1.3. كاتمات الصوت 3.2. العناصر العابرة للتنظيم (الجينات لعوامل النسخ) 4. العناصر المتكررة (التسلسلات المتكررة ، التكرارات) 4.1. التكرارات الطرفية الطويلة (LTRs) 4.2. العدد المتغير المتكرر الترادفي (VNTRs ، التكرار الترادفي) 4.2.1. الأقمار الصناعية 4.2.2. الأقمار الصناعية الصغيرة 4.2.3. السواتل المكروية (تكرارات ترادفية قصيرة ، تكرار تسلسل بسيط) 4.3 العناصر القابلة للتحويل (TEs ، الينقولات) 4.3.1. الينقولات العكسية (الفئة الأولى TEs) 4.3.1.1. العناصر النووية المختلطة قصيرة (SINEs) 4.3.1.2. العناصر النووية الطويلة المتناثرة (LINEs) 4.3.2. ترانسبوزونات الحمض النووي (الفئة الثانية TEs) 4.4. التيلوميرات 5. الجينات الزائفة

DNA غير مشفر

في علم الوراثة ، DNA غير مشفر يصف مكونات تسلسل الحمض النووي للكائن الذي لا يشفر لتسلسل البروتين. في العديد من حقيقيات النوى ، نسبة كبيرة من إجمالي حجم الجينوم للكائن هي DNA غير مشفر ، على الرغم من أن كمية الحمض النووي غير المشفر ، ونسبة الحمض النووي المشفر مقابل الحمض النووي غير المشفر تختلف اختلافًا كبيرًا بين الأنواع.

الكثير من هذا الحمض النووي ليس له وظيفة بيولوجية معروفة وفي وقت ما كان يشار إليه أحيانًا باسم "الحمض النووي غير المرغوب فيه". ومع ذلك ، فإن أنواعًا عديدة من تسلسلات الحمض النووي غير المشفرة لها وظائف بيولوجية معروفة ، بما في ذلك التنظيم النسخي والترجمة لتسلسلات ترميز البروتين. وللتسلسلات الأخرى غير المشفرة وظائف محتملة ، ولكنها غير محددة حتى الآن (يُستدل على ذلك من مستويات عالية من التماثل والحفظ الذي شوهد في التسلسلات التي لا تشفر البروتينات ولكن ، مع ذلك ، يبدو أنها تخضع لضغط انتقائي شديد).


1 المقدمة

السمة الأساسية لجينوم الكائن الحي هي تركيبته الأساسية النوكليوتيدية ، وعادة ما تقاس بجزء من أزواج القواعد التي تكون GC مقابل AT. هذا متغير بدرجة كبيرة بين أجزاء مختلفة من جينومات حقيقية النواة. على وجه الخصوص ، تميل إلى الانخفاض في مناطق الجينوم ذات المستويات المنخفضة من إعادة التركيب ، مثل تلك الموجودة حول السنتروميرات (D & # x000edaz-Castillo & # x00026 Golic 2007). تم اقتراح فرضيتين رئيسيتين لشرح هذا الاختلاف في محتوى GC. الأول يتضمن اختلافات في أنماط التحيز الطفري. بالنسبة للتسلسلات المحايدة بشكل انتقائي ، يتم تحديد الجزء المتوقع من GC مقابل AT في منطقة معينة من الجينوم من خلال نسبة معدل الطفرة لـ GC & # x02192AT إلى تلك الخاصة بـ AT & # x02192GC هذه النسبة هي معلمة التحيز الطفري & # x003ba، (Sueoka 1962 Li 1987 Bulmer 1991). يمكن أن تكون الاختلافات في محتوى GC بسبب الاختلافات في & # x003ba، والتي يمكن تقديرها من أنماط بدائل النوكليوتيدات (Singh وآخرون. 2005) ، وعادة ما يكون أكبر من 1.

بدلاً من ذلك ، يمكن تفضيل GC على AT ، إما بسبب الانتقاء الطبيعي ، كما هو الحال مع مواقع تسلسل التشفير المترادفة (Akashi 1995) ، أو التحويل الجيني المتحيز (BGC). يحدث BGC عندما ينتج متغاير الزيجوت لمتغيرات GC و AT في موقع نيوكليوتيدات أكثر من 50 ٪ من متغير GC في أمشاجها ، نتيجة للإصلاح المتحيز لتعدد مضاعفات الحمض النووي (Marais 2003). تسبب BGC تغييرًا متوقعًا في تواتر متغيرات GC مقابل AT في موقع مشابه لذلك الذي يسببه الاختيار (Gutz & # x00026 Leslie 1976). كلما زادت شدة الانتقاء أو BGC لصالح GC ، مقارنة بالطفرة والانحراف الجيني ، زاد محتوى توازن GC للتسلسل (Li 1987 Bulmer 1991).

تسمح البيانات الخاصة بكل من الاختلاف بين الأنواع وتعدد الأشكال داخل الأنواع باكتشاف الانتقاء / BGC ، نظرًا لأن هذه القوى أقل فعالية في منع المتغيرات غير المرغوب فيها (AT في هذه الحالة) من دخول السكان كمتغيرات متعددة الأشكال بدلاً من منعها من أن تصبح ثابتة (Akashi 1995) . إذا كانت هذه القوى تعمل ، فيجب أن نرى المزيد من GC & # x02192AT بالنسبة لمتغيرات AT & # x02192GC بين الأشكال المتعددة ، مقارنة بالبدائل بين الأنواع. يشير التوازن لتكوين القاعدة إلى عدد متساوٍ من بدائل GC & # x02192AT و AT & # x02192GC على طول النسب ، بغض النظر عن إجراء التحديد أو BGC. فائض GC & # x02192AT على AT & # x02192GC لتعدد الأشكال ثم يشير إلى عمل الاختيار / BGC (Akashi 1995).

يسمح هذا بتقدير كثافة الانتقاء أو BGC لكل موقع (مضروبًا في أربعة أضعاف حجم السكان الفعال ، نه) من نسبة تعدد الأشكال GC & # x02192AT بين GC & # x02192AT و AT & # x02192GC تعدد الأشكال (Maside وآخرون. 2004). يتم الإشارة إلى هذا التقدير المقياس للاختيار / BGC بواسطة & # x003b3. طرق أخرى للتقدير & # x003b3 استخدام المعلومات المتعلقة بتوزيع تواتر المتغيرات في السكان (Akashi 1999 Galtier وآخرون. 2006). تكمن الصعوبة في أن افتراض التوازن غالبًا ما يتم انتهاكه ومن المعروف أن هذا هو الحال ، على سبيل المثال ، لكليهما ذبابة الفاكهة سوداء البطن (اكاشي وآخرون. 2006) والبشر (Duret وآخرون. 2006).

نقدم هنا تحليلًا لمجموعة بيانات حول تعدد الأشكال في التسلسلات غير المشفرة في عينة من سيمولانس ذبابة الفاكهة من مدغشقر ، جنبًا إلى جنب مع تقديرات الاختلاف عن نظرائهم في ذبابة الفاكهة سوداء البطن و ذبابة الفاكهة ياكوبا. نكتشف توقيع التحديد / BGC ، خاصة بالنسبة للتسلسلات ذات المحتوى العالي من GC.


الملخص

تسلسل الجينوم للكائن الحي هو مصدر معلومات لا يشبه أي من علماء الأحياء الذين سبق لهم الوصول إليه. لكن قيمة الجينوم جيدة فقط مثل شرحه التوضيحي. إنه التعليق التوضيحي الذي يسد الفجوة من التسلسل إلى بيولوجيا الكائن الحي. الهدف من التعليقات التوضيحية عالية الجودة هو تحديد السمات الرئيسية للجينوم - على وجه الخصوص ، الجينات ومنتجاتها. تتطور أدوات وموارد الشرح بسرعة ، وأصبح المجتمع العلمي يعتمد بشكل متزايد على هذه المعلومات لجميع جوانب البحث البيولوجي.


الملخص

يحمل المرضى المصابون بالسرطان متغيرات التسلسل الجسدي في ورمهم بالإضافة إلى متغيرات السلالة الجرثومية في جينومهم الموروث. على الرغم من أن المتغيرات في مناطق ترميز البروتين قد حظيت بأكبر قدر من الاهتمام ، فقد أشارت العديد من الدراسات إلى أهمية المتغيرات غير المشفرة في السرطان. علاوة على ذلك ، فإن الغالبية العظمى من المتغيرات ، سواء الجسدية أو الجرثومية ، تحدث في الأجزاء غير المشفرة من الجينوم. نقوم بمراجعة الفهم الحالي للمتغيرات غير المشفرة في السرطان ، بما في ذلك التنوع الكبير لأنواع الطفرات - من متغيرات النيوكليوتيدات المفردة إلى عمليات إعادة الترتيب الجينومية الكبيرة - ومجموعة واسعة من الآليات التي تؤثر من خلالها على التعبير الجيني لتعزيز تكون الأورام ، مثل تعطيل مواقع ربط عامل النسخ أو وظائف RNAs غير المشفرة. نسلط الضوء على دراسات حالة محددة للمتغيرات الجسدية والخط الجرثومية ، ونناقش كيف يمكن تفسير المتغيرات غير المشفرة على نطاق واسع من خلال الأساليب الحسابية والتجريبية.


من المحتمل أن تؤدي جميع أجهزة CNS بعض الوظائف من أجل فرض قيود على تطورها ، ولكن يمكن تمييزها بناءً على مكان وجودها في الجينوم وكيف وصلت إلى هناك.

تحرير إنترونس

الإنترونات عبارة عن امتدادات من التسلسل توجد في الغالب في الكائنات حقيقية النواة التي تقطع مناطق ترميز الجينات ، مع أطوال قاعدية متفاوتة عبر ثلاث درجات من حيث الحجم. يمكن حفظ تسلسلات Intron ، غالبًا لأنها تحتوي على عناصر تنظيمية للتعبير تضع قيودًا وظيفية على تطورها. [4] تم استخدام أنماط الإنترونات المحفوظة بين أنواع الممالك المختلفة لعمل استنتاجات حول كثافة الإنترون في نقاط مختلفة في التاريخ التطوري. هذا يجعلها موردا هاما لفهم ديناميات مكاسب وخسارة intron في حقيقيات النوى (1،28). [4] [5]

تحرير المناطق غير المترجمة

تم العثور على بعض المناطق غير المشفرة الأكثر حفظًا في المناطق غير المترجمة (UTRs) في نهاية 3 'من نصوص الحمض النووي الريبي الناضجة ، بدلاً من الإنترونات. يشير هذا إلى وظيفة مهمة تعمل على مستوى ما بعد النسخ. إذا كانت هذه المناطق تؤدي وظيفة تنظيمية مهمة ، فإن الزيادة في طول 3'-UTR على مدار الوقت التطوري تشير إلى أن UTRs المحفوظة تساهم في تعقيد الكائن الحي. يمكن استخدام الأشكال التنظيمية في UTRs المحفوظة غالبًا في الجينات التي تنتمي إلى نفس العائلة الأيضية لتطوير أدوية محددة للغاية تستهدف نسخ RNA. [4]

تعديل العناصر القابلة للتحويل

يمكن أن تتراكم العناصر المتكررة في جينوم الكائن الحي كنتيجة لعدد قليل من عمليات التحويل المختلفة. يختلف مدى حدوث ذلك أثناء تطور حقيقيات النوى اختلافًا كبيرًا: يمثل الحمض النووي المتكرر 3٪ فقط من جينوم الذبابة ، ولكنه يمثل 50٪ من الجينوم البشري. [4]

هناك نظريات مختلفة تشرح الحفاظ على العناصر القابلة للنقل. يرى المرء أنها ، مثل الجينات الخادعة ، توفر مصدرًا لمواد وراثية جديدة ، مما يسمح بالتكيف بشكل أسرع مع التغيرات في البيئة. البديل الأبسط هو أنه نظرًا لأن الجينومات حقيقية النواة قد لا تملك وسيلة لمنع تكاثر العناصر القابلة للنقل ، فهي حرة في التراكم طالما لم يتم إدخالها في الجين أو بالقرب منه بطريقة تؤدي إلى تعطيل الوظائف الأساسية. [6] أظهرت دراسة حديثة أن الينقولات تساهم بنسبة 16٪ على الأقل من الجهاز العصبي المركزي النوعي ، مما يجعلها "قوة إبداعية رئيسية" في تطور التنظيم الجيني في الثدييات. [7] هناك ثلاث فئات رئيسية من العناصر القابلة للنقل ، وتتميز بالآليات التي تتكاثر بها. [6]

تحرير الفئات

تقوم ترانسبوزونات الدنا بتشفير بروتين ترانسبوزيز محاط بتسلسلات متكررة مقلوبة. يزيل الـ transposase التسلسل ويعيد دمجه في مكان آخر في الجينوم. من خلال استئصال النسخ المتماثل للحمض النووي فورًا وإدخاله في المواقع المستهدفة التي لم يتم تكرارها بعد ، يمكن أن يزداد عدد الينقولات في الجينوم. [6]

تستخدم Retrotransposons النسخ العكسي لتوليد cDNA من نسخة TE. وتنقسم هذه أيضًا إلى ترانسبوزونات طويلة متكررة (LTR) وعناصر نووية طويلة متناثرة (LINEs) وعناصر نووية قصيرة متناثرة (SINEs). في LTR retrotransposons ، بعد تدهور قالب الحمض النووي الريبي ، يعيد خيط DNA مكمل لـ cDNA المنسوخ العكسي العنصر إلى حالة مزدوجة الشريطة. Integrase ، وهو إنزيم مشفر بواسطة LTR retrotransposon ، ثم يعيد دمج العنصر في موقع هدف جديد. هذه العناصر محاطة بتكرارات نهائية طويلة (300-500 نقطة أساس) والتي تتوسط في عملية التحويل. [6]

تستخدم LINEs طريقة أبسط يتم فيها تصنيع cDNA في الموقع المستهدف بعد الانقسام بواسطة نوكلياز داخلي مشفر LINE. إن إنزيم النسخ العكسي LINE المشفر ليس خاصًا بالتسلسل بدرجة عالية. يؤدي التضمين بواسطة آلية LINE لنصوص الحمض النووي الريبي غير ذات الصلة إلى ظهور جينات خادعة معالجة غير وظيفية. إذا تم تضمين محفز الجين الصغير في الجزء المنسوخ من الجين ، فيمكن تكرار النسخة المستقرة وإعادة إدخالها في الجينوم عدة مرات. تسمى العناصر التي تنتجها هذه العملية SINEs. [6]

العناصر التنظيمية المحفوظة القابلة للنقل تحرير

عندما تكون العناصر التنظيمية القابلة للنقل المحفوظة نشطة في الجينوم ، يمكنها إدخال مناطق محفز جديدة ، وتعطيل المواقع التنظيمية الحالية ، أو تغيير أنماط التضفير إذا تم إدراجها في مناطق منسوخة. سيتم اختيار عنصر تم تبديل موضعه بشكل إيجابي إذا كان التعبير المعدل الذي ينتج عنه يمنح ميزة تكيفية. وقد أدى ذلك إلى وجود بعض المناطق المحفوظة في البشر. ما يقرب من 25 ٪ من المحفزات المميزة في البشر تحتوي على عناصر منقولة. [8] هذا ذو أهمية خاصة في ضوء حقيقة أن معظم العناصر القابلة للتحويل في البشر لم تعد نشطة. [6]

تحرير الجينات الكاذبة

الجينات الكاذبة هي بقايا جينات كانت وظيفية مرة واحدة يتم تعطيلها عن طريق عمليات الحذف المتسلسلة أو الإدخالات أو الطفرات. الدليل الأساسي لهذه العملية هو وجود أخصائي تقويم يعمل بكامل طاقته لهذه التسلسلات المعطلة في الجينومات الأخرى ذات الصلة. [4] تظهر الجينات الكاذبة عادة بعد تكرار الجينات أو حدث تعدد الصبغيات. مع نسختين وظيفيتين من الجين ، لا يوجد ضغط انتقائي للحفاظ على قابلية التعبير عن كليهما ، مما يترك أحدهما حرًا لتراكم الطفرات كجينة زائفة غير وظيفية. هذه هي الحالة النموذجية ، حيث يسمح الانتقاء المحايد للجينات الخادعة بتراكم الطفرات ، لتكون بمثابة "مستودعات" للمواد الجينية الجديدة ، مع إمكانية إعادة دمجها في الجينوم. ومع ذلك ، فقد وجد أن بعض الجينات الكاذبة محفوظة في الثدييات. [9] أبسط تفسير لذلك هو أن هذه المناطق غير المشفرة قد تؤدي بعض الوظائف البيولوجية ، وقد وجد أن هذا هو الحال بالنسبة للعديد من الجينات الخادعة المحفوظة. تم العثور على Makorin1 mRNA ، على سبيل المثال ، على الاستقرار من خلال الجين الكاذب المقابل ، Makorin1-p1 ، والذي يتم حفظه في العديد من أنواع الفئران. كما تم العثور على جينات خادعة أخرى محفوظة بين البشر والفئران وبين البشر والشمبانزي ، والتي نشأت من أحداث الازدواجية قبل تباعد الأنواع. تدعم الأدلة على نسخ هذه الجينات الكاذبة أيضًا الفرضية القائلة بأن لها وظيفة بيولوجية. [10] تخلق نتائج الجينات الخادعة التي يحتمل أن تؤدي وظيفتها صعوبة في تعريفها ، لأن المصطلح كان مخصصًا في الأصل للتسلسلات المتدهورة التي ليس لها وظيفة بيولوجية. [11]

مثال على الجين الكاذب هو جين L-gulonolactone oxidase ، وهو إنزيم كبدي ضروري للتخليق الحيوي لحمض L-ascorbic (فيتامين C) في معظم الطيور والثدييات ، ولكنه يتحور في فرعي haplorrhini من الرئيسيات ، بما في ذلك البشر الذين يحتاجون إلى حمض الأسكوربيك أو أسكوربات من الطعام. لا تزال بقايا هذا الجين غير الوظيفي مع العديد من الطفرات موجودة في جينومات خنازير غينيا والبشر. [12]

المناطق فائقة الحفظ (UCRs) هي مناطق يزيد طولها عن 200 نقطة أساس مع هوية 100 ٪ عبر الأنواع. توجد هذه التسلسلات الفريدة في الغالب في المناطق غير المشفرة. لا يزال من غير المفهوم تمامًا سبب كون الضغط الانتقائي السلبي على هذه المناطق أقوى بكثير من الانتقاء في مناطق ترميز البروتين. [13] [14] على الرغم من أنه يمكن اعتبار هذه المناطق فريدة من نوعها ، إلا أن التمييز بين المناطق التي تتمتع بدرجة عالية من الحفظ المتسلسل وتلك التي تتمتع بحفظ متسلسل مثالي ليس بالضرورة ذا أهمية بيولوجية. وجدت إحدى الدراسات في مجلة Science أن جميع التسلسلات غير المشفرة المحفوظة للغاية لها وظائف تنظيمية مهمة بغض النظر عما إذا كان الحفظ مثاليًا ، مما يجعل التمييز بين الحفظ الفائق يبدو عشوائيًا إلى حد ما. [14]

يوفر الحفاظ على كل من المناطق غير المشفرة الوظيفية وغير الوظيفية أداة مهمة لعلم الجينوم المقارن ، على الرغم من أن الحفاظ على العناصر التنظيمية لرابطة الدول المستقلة قد أثبت أنه مفيد بشكل خاص. [4] قد يرجع وجود الجهاز العصبي المركزي في بعض الحالات إلى نقص وقت الاختلاف ، [15] على الرغم من أن التفكير الأكثر شيوعًا هو أنها تؤدي وظائف تضع درجات متفاوتة من القيود على تطورها. تمشيا مع هذه النظرية ، توجد العناصر التنظيمية لرابطة الدول المستقلة بشكل شائع في المناطق المحمية غير المشفرة. وبالتالي ، غالبًا ما يتم استخدام تشابه التسلسل كمعامل للحد من مساحة البحث عند محاولة تحديد العناصر التنظيمية المحفوظة عبر الأنواع ، على الرغم من أن هذا مفيد للغاية في تحليل الكائنات الحية ذات الصلة البعيدة ، نظرًا لأن الأقارب الأقرب لديهم الحفظ التسلسلي بين العناصر غير الوظيفية أيضًا. [4] [16] [17]

قد لا يشترك أخصائيو تقويم العظام مع تشابه التسلسل العالي في نفس العناصر التنظيمية. [18] قد تفسر هذه الاختلافات أنماط التعبير المختلفة عبر الأنواع. [19] يعد الحفاظ على التسلسل غير المشفر مهمًا لتحليل المتماثلات داخل نوع واحد أيضًا. CNSs المشتركة من قبل مجموعات Paralogous من جينات Hox هي مرشحة للتعبير عن المناطق المنظمة ، وربما تنسيق أنماط التعبير المماثلة لهذه الجينات. [16]

يمكن للدراسات الجينومية المقارنة للمناطق المحفزة للجينات المتعامدة أن تكشف أيضًا عن الاختلافات في التواجد والموضع النسبي لمواقع ربط عامل النسخ في مناطق المروج. [20] قد لا يشترك أخصائيو تقويم العظام مع التشابه في التسلسل العالي في نفس العناصر التنظيمية. [18] قد تفسر هذه الاختلافات أنماط التعبير المختلفة عبر الأنواع. [19]

يُعتقد أن الوظائف التنظيمية المرتبطة بشكل شائع بالمناطق غير المشفرة المحفوظة تلعب دورًا في تطور تعقيد حقيقيات النواة. في المتوسط ​​، تحتوي النباتات على عدد أقل من CNS لكل جين مقارنة بالثدييات. يُعتقد أن هذا مرتبط بتعرضهم لمزيد من تعدد الصبغيات ، أو أحداث تكرار الجينوم. أثناء التشغيل الفرعي الذي يترتب على تكرار الجينات ، هناك احتمال لمعدل أكبر لفقدان الجهاز العصبي المركزي لكل جين. وبالتالي ، قد تفسر أحداث تكرار الجينوم حقيقة أن النباتات لديها جينات أكثر ، كل منها يحتوي على عدد أقل من CNS. بافتراض أن عدد CNS هو وكيل للتعقيد التنظيمي ، فقد يفسر هذا التباين في التعقيد بين النباتات والثدييات. [21]

نظرًا لأنه يُعتقد أن التغييرات في تنظيم الجينات مسؤولة عن معظم الاختلافات بين البشر والشمبانزي ، فقد بحث الباحثون في الجهاز العصبي المركزي لمحاولة إظهار ذلك. يحتوي جزء من الجهاز العصبي المركزي بين البشر والرئيسيات الأخرى على إثراء لتعدد أشكال النوكليوتيدات المفردة الخاصة بالإنسان ، مما يشير إلى الاختيار الإيجابي لهذه النيوكلوتايد والتطور المتسارع لتلك CNS. ترتبط العديد من أشكال SNPs أيضًا بالتغيرات في التعبير الجيني ، مما يشير إلى أن هذه الأجهزة العصبية المركزية لعبت دورًا مهمًا في التطور البشري. [22]


اتجاهات حديثة

من خلال دمج أجهزة CNS بين الفقاريات المنتشرة بين قواعد البيانات ومقالات المجلات ، أنشأنا قاعدة بيانات جديدة تسمى dbCNS (تم الوصول إلى http://yamasati.nig.ac.jp/dbcns آخر مرة في 30 نوفمبر 2020). يسمح dbCNS للمستخدمين ليس فقط باستخراج CNSs المنشورة كمرشحين تنظيميين مهمين ولكن أيضًا للبحث عن CNS في الجينومات التي يختارها المستخدم. لهذا الغرض ، تحتوي dbCNS أيضًا على بعض جينومات اللافقاريات. ينتج dbCNS تلقائيًا الإحداثيات والمحاذاة المتعددة وأشجار النشوء والتطور. باستخدام هذه المخرجات ، يمكن للمستخدمين تقييم التسلسلات المستخرجة مثل CNSs داخل مناطق الاهتمام ويمكنهم اكتشاف CNSs المحتملة بمعدلات إحلال متسارعة. يمكن للمستخدمين أيضًا حساب أجهزة CNS متطابقة في جينوم في dbCNS ، وهو شيء لم تتمكن أي قاعدة بيانات أخرى من القيام به ، بسبب اعتمادهم على محاذاة الجينوم لتحديد الأجهزة العصبية المركزية.


التطور الجزيئي لتسلسل فيروسي غير مشفر تحت الضغط الانتقائي لإسكات amiRNA بوساطة

توجه الجزيئات الدقيقة النباتية (ميرنا) انقسام الرنا المرسال المستهدف بواسطة البروتينات الشبيهة بـ DICER ، مما يقلل من وفرة الرنا المرسال. يمكن إعادة تصميم السلائف miRNAs لاستهداف RNAs ذات الأهمية ، وأحد تطبيقات تكنولوجيا microRNA الاصطناعي (amiRNA) هو توليد نباتات مقاومة للفيروسات المسببة للأمراض. نباتات نبات الأرابيدوبسيس المعدلة وراثيا التي تعبر عن amiRNAs المصممة لاستهداف جينوم اثنين من الفيروسات غير المرتبطة كانت مقاومة ، بطريقة محددة للغاية ، للفيروس المناسب. هنا ، سعينا وراء هدفين مختلفين. أولاً ، أكدنا أن الموقع المستهدف 21 nt من الحمض النووي الريبي الفيروسي ضروري وكافٍ للمقاومة. ثانيًا ، درسنا الاستقرار التطوري للمقاومة التي تتم بوساطة amiRNA ضد فيروس RNA البلاستيكي وراثيًا ، TuMV. لفصل الضغوط الانتقائية التي تعمل على وظيفة البروتين عن تلك التي تعمل على مستوى الحمض النووي الريبي ، قمنا ببناء TuMV خيالي يؤوي موقعًا مستهدفًا بأحمر amiRNA بحجم 21 نانومتر في منطقة غير أساسية. في المجموعة الأولى من التجارب المصممة لتقييم احتمالية انهيار المقاومة ، استكشفنا تأثير طفرة النوكليوتيدات الفردية ضمن الهدف 21-nt على قدرة الفيروسات الطافرة على إصابة النباتات التي تعبر عن amiRNA بنجاح. وجدنا عدم تكافؤ النيوكليوتيدات المستهدفة ، والتي يمكن تقسيمها إلى ثلاث فئات حسب تأثيرها في إمراضية الفيروس. في المجموعة الثانية من التجارب ، قمنا بالتحقيق في تطور طفرات الفيروس في النباتات التي تعبر عن amiRNA. كانت النتيجة الأكثر شيوعًا هي حذف الهدف. ومع ذلك ، عندما تم الاحتفاظ بالهدف 21-nt ، جمعت الفيروسات بدائل إضافية عليه ، مما قلل من قدرة الارتباط / الانقسام في amiRNA. سيطر على نمط الاستبدالات داخل الهدف الفيروسي إلى حد كبير انتقالات G إلى A و C إلى U.

بيان تضارب المصالح

وقد أعلن الباحثون إلى أن لا المصالح المتنافسة موجودة.

الأرقام

الشكل 1. تمثيلات تخطيطية للحيوانات المستنسخة المعدية ...

الشكل 1. تمثيلات تخطيطية للحيوانات المستنسخة الخيمرية المعدية فيروس فسيفساء اللفت (TuMV).

الشكل 2. تسلسل 21-nt مستهدف بواسطة ...

الشكل 2. تسلسل 21-nt الذي يستهدفه amiRNA ضروري وكافٍ لمنح الفيروس ...

الشكل 3. المعدلة وراثيا بنثاميانا نباتات معبرة ...

الشكل 3. المعدلة وراثيا بنثاميانا النباتات التي تعبر عن amiR 159 -P69 مقاومة للعدوى عن طريق ...

الشكل 4. مسح الطفرات للأمير ...

الشكل 4. مسح الطفرات للموقع المستهدف amiR 159 -P69 على فيروس TuMV-GP69 الخيمري.

الشكل 5. تحليل تسلسل TuMV الوهمي ...

الشكل 5. تحليل تسلسل فيروسات TuMV الوهمية المسترجعة من حساسة للأمير 159 -P69 المعدلة وراثيا ...

الشكل 6. نموذج عمل لشرح ...

الشكل 6. نموذج عملي لشرح انهيار المقاومة بوساطة amiRNA بواسطة طفرة الفيروس.


نتائج

تحديد التسلسلات غير المشفرة المحفوظة بدرجة عالية في جينومات الفقاريات

لتحديد موقع التسلسلات المحفوظة غير المشفرة ، قمنا بإخفاء غالبية محتوى الترميز و tRNA في فوجو تجميع الجينوم [7] ومقارنة المناطق المتبقية باستخدام MegaBLAST [40] مع تسلسل الجينوم البشري الوارد في إصدار Ensembl v18.34.1 [41]. من هذا التحليل ، حددنا 19،744 تسلسلًا متشابهًا بين الجينومين. من خلال تضمين محاذاة لا يقل طولها عن 100 نقطة أساس ، تم تقليل عدد التسلسلات إلى 4400 نقطة أساس. ثم أزلنا التسلسلات التي تشبه التيلومير والترانسبوزونات ، واستبعدنا أي تسلسل معروف لتشفير البروتين أو أنواع الحمض النووي الريبي غير المشفرة التي قد تكون مفقودة (انظر المواد والطرق). خمسة وستون تسلسلًا بشريًا فريدًا لها تطابق مع موقعين مستقلين في فوجو الجينوم. ويرجع ذلك إلى ازدواجية الجين أو الجينوم الإضافي في السلالة البعيدة [42] ، حيث تم الاحتفاظ بالعناصر التنظيمية جنبًا إلى جنب مع نسختي جين السمكة [43]. لتجنب التكرار في المجموعة البشرية ، تم الاحتفاظ بأطول تسلسل مطابق وإزالة التكرار. أخيرًا ، من بين 1،373 تسلسلًا بقي ، حددنا ما إذا كان أي جزء مكون من مناطق غير مترجمة (UTRs) من جزيئات الرنا المرسال. توجد ثمانون تسلسلًا (حوالي 6٪) في 5 ′ أو 3 UTRs من جزيئات الرنا المرسال المعروفة. بالإضافة إلى ذلك ، يتطابق رقم مشابه مع تسلسل واحد أو أكثر من سلاسل EST ، على الرغم من أن معظمها يبدو أنها تلوث جينومي غير مقسم داخل مكتبات EST أو ما قبل الرنا المرسال المقسم بشكل غير كامل. لم نقم بإزالة هذه التسلسلات التي يُحتمل نسخها لأنها ، على عكس UTRs الفقارية بشكل عام ، تُظهر درجة ملحوظة من الحفظ ، وليس من الواضح ما إذا كانت تعمل على المستوى الجيني أو على مستوى النسخ. الباقي ليس لديه تطابق مع أي تسلسل معبر عنه في أي قاعدة بيانات. تشكل هذه المجموعة الأساسية المكونة من 1،373 عنصرًا غير مشفر عالي الحفظ (CNEs) أساس هذه الدراسة.

تشتمل مجموعة CNE على إجمالي 273 كيلو بايت من التسلسل ، بحد أقصى 736 نقطة أساس (متوسط ​​= 199 نقطة أساس) وهوية تتراوح من 74٪ إلى 98٪ (المتوسط ​​= 84.3٪). هذا أعلى بكثير من مستوى الهوية الملحوظ بين مناطق الترميز في هذين الكائنين. مما لا يثير الدهشة ، أن جميع CNE تقريبًا محفوظة في جينومات القوارض والدجاج ، بالإضافة إلى معظمها في جينوم الزرد. من بين 1،373 CNE ، تم حفظ 1365 في الفئران ، و 1،316 في الفئران ، و 1،310 في الدجاج ، بما يتماشى مع التسلسل البشري بمتوسط ​​هويات 97 ٪ للفأر والجرذان و 96 ٪ للدجاج ، تم العثور أيضًا على 1،093 محفوظة في جينوم الزرد ، محاذاة بمتوسط ​​هوية 87.6 ٪ إلى فوجو تسلسل. تكون جينومات أسماك الزرد والدجاج والفأر والجرذان في مراحل مختلفة من الاكتمال ، وبالتالي قد تكون معلومات التسلسل المفقودة مسؤولة عن CNEs المفقودة (بالإضافة إلى هوية النسبة المئوية المنخفضة في أسماك الزرد) ، على الرغم من أنها قد تعكس أيضًا الاختلافات التنظيمية بين السلالات .

على الرغم من وجود CNEs في جميع أنحاء الجينوم البشري في جميع الكروموسومات باستثناء 21 و Y ، إلا أن توزيعها ليس موحدًا في الواقع ، فهي تبدو متجمعة بشكل كبير. لفحص توزيعها بمزيد من التفصيل ، قمنا برسم موضع كل CNE على الكروموسوم الخاص به في الجينوم البشري (الشكل 1 أ). ثم قمنا بحساب النسبة المئوية من CNEs التي كانت تقع على مقربة من أخرى. وجدنا أن 90٪ من CNEs أقل من 1 ميغا بايت على حدة ، و 85٪ من CNE لديها مجاورة CNE ضمن 370 كيلو بايت ، و 75٪ تقع ضمن 158 كيلو بايت من CNE آخر. احتمالية أن يكون أكثر من 85٪ من CNE ضمن 370 كيلو بايت من أخرى في توزيع عشوائي أقل من 10 -76 (الشكل 1 ب). من خلال الفحص الدقيق لتوزيع CNE عبر الجينوم ، أنشأنا ما مجموعه 165 مجموعة ، بما في ذلك 19 مجموعة مفردة (الجدول S1). يقع أكثر من 85 ٪ من CNE (1،172 / 1،373) في مجموعات تحتوي على خمسة أو أكثر من CNE. تحتوي كل مجموعة من أكبر 20 مجموعة على 20 أو أكثر من CNEs ، والتي تضم 43 ٪ (594 / 1،373) من إجمالي عدد العناصر.

(أ) يتم رسم كل CNE بالنسبة إلى موقعه على طول كل من الكروموسومات البشرية من 1 إلى 9 (بيانات الكروموسومات الأخرى غير معروضة). يمثل المحور الصادي الطول على طول الكروموسوم (في قواعد الميغابايس).

(ب) توزيع أجزاء CNE التي تقع ضمن مسافات معينة من بعضها البعض ، على سبيل المثال ، 85٪ من المسافات بين CNEs أقل من أو تساوي 370 كيلو بايت. تم إجراء اختبارين من خلال مقارنة أحجام العنقود المرصودة مع تلك التي تم إنشاؤها عشوائيًا لكل كروموسوم (انظر المواد والطرق).

ثم نظرنا إلى نوع الجينات المرتبطة بـ CNEs في الجينوم البشري. بالنسبة لكل CNE ، قمنا باستخراج أقرب جين من Ensembl وقدمنا ​​مجموعة الجينات الناتجة إلى GOstat [44] من أجل تحديد مصطلحات علم الوجود الجيني (GO) الأكثر تمثيلًا إحصائيًا [45]. بشكل حاسم ، 12 من أكثر 13 مصطلحًا تمثيلاً (ص & lt 0.001) تتعلق بتنظيم النسخ وتطويرها (الجدول S2).

قمنا بفحص كل مجموعة على التوالي لمعرفة عدد الجينات الموجودة بالقرب من الجينات المتورطة في تنظيم النسخ أو تطويرها (لقد أطلقنا عليها اسم هذه عبر ديف الجينات). أكثر من 93٪ من العناقيد (154/165) لها أ عبر ديف يقع الجين ضمن 500 كيلو بايت من واحد أو أكثر من CNEs (الشكل 2 ، جدول المواد والطرق S1). من بين المجموعات الإحدى عشرة المتبقية ، خمسة هي الأقرب إلى الجينات ذات مجالات أصابع الزنك كما حددتها InterPro [46] ، وواحدة في صحراء الجينات ، وواحدة خرائط لمنطقة الجين AUTS2 [47] ، وأربعة تقع بجوار جينات غير مميزة.

مواقع الكروموسومات عبر ديف الجينات التي تقع في نطاق 500 كيلو بايت من مجموعات CNE في الجينوم البشري (يتم تمثيل كل مجموعة برأس سهم أخضر). توجد الجينات المكتوبة بخط عريض بجوار مجموعات من عشرة أو أكثر من CNEs. أسماء الجينات مأخوذة من Ensembl v23.34e.1. يوضح الرسم البياني الداخلي توزيع أحجام مجموعات CNE في الجينوم البشري.

في حين أن معظم المجموعات يمكن أن ترتبط بواحد عبر ديف الجين ، هناك 15 مجموعة تقع فيها CNE بالقرب من اثنين أو أكثر عبر ديف الجينات. في تسع من هذه الحالات ، ترتبط CNE بمجموعة من الجينات المماثلة ، بما في ذلك مجموعات HOX و IRX و Nkx2-2 / 2-4 و DLX ، على الرغم من وجود ثلاث حالات حيث يوجد زوج من الجينات غير ذات الصلة عبر ديف توجد الجينات بجوار مجموعة CNE (SHH و HLXB9 و PBX3 و LMX1B و PAX1 و FOXA2). أخيرًا ، هناك ثلاث مجموعات مرتبطة بجينين أو أكثر من جينات إصبع الزنك.

عبر ديف تميل الجينات المرتبطة بمجموعات CNE إلى التواجد في مناطق ذات كثافة جينية منخفضة. قمنا بإحصاء عدد الجينات الموجودة في حدود 500 كيلو بايت في المنبع والمصب من a عبر ديف الجين ، ومقارنتها بالمتوسط ​​لجميع الجينات البشرية. في حين أن متوسط ​​جميع الجينات البشرية هو 17 ، فهو ستة فقط لجينات عبر ديف الجينات. هذا مشابه لظاهرة "صحراء الجينات" الموصوفة حول جين DACH [31]. ومن المثير للاهتمام أن CNEs نفسها تقع عمومًا على مسافات كبيرة من أقرب جين لها. متوسط ​​المسافة بين CNE والنهاية 5 لأقرب جين بشري هو 182 كيلو بايت (الوسيط = 120 كيلو بايت) ، مع 93 CNE أكثر من 500 كيلو بايت ، و 12 CNE أكثر من 1 ميجا بايت ، من أي جين معروف.

عدد من عبر ديف الجينات التي حددناها سبق أن ثبت أنها محفوظة بدرجة عالية رابطة الدول المستقلة- العناصر التنظيمية المرتبطة بها ، بما في ذلك مجموعات Hox [24،33] ، PAX6 [48] ، PAX9 [32] ، SOX9 [28] ، OTX2 [34] ، SHH [30] ، جينات DLX [29] ، و DACH [31]. لا يبدو أن خمسة CNEs تتجمع مع أي جينات معروفة في الإنسان أو فوجو الجينومات وتقع في صحراء جينية كبيرة على الكروموسوم البشري 22. وبالنظر إلى أن شرح الجين والتسلسل الجيني لأجزاء من الجينوم البشري لم يكتمل بعد بشكل كامل ، فقد يشير اكتشاف CNE هنا إلى وجود عنصر هام في هذه المنطقة الجين التنظيمي النسبي أو التنموي المرتبط بهما. في الواقع ، وجدنا أكبر عدد من CNEs (48) متجمعة حول جين غير مميز نسبيًا مع نطاقات إصبع الزنك ، ZNF503 على كروموسوم بشري 10 ، تم وصف تقويم الفئران مؤخرًا بأنه منظم نسخ محتمل في نمو الدماغ [49].

تمت مقارنة جميع CNE مع بعضها البعض للبحث عن أوجه التشابه المحلية. يُظهر ثلاثة وأربعون عنصرًا تشابهًا كبيرًا مع CNE واحد آخر على الأقل ، وفي كل حالة يتم وضعهم بالقرب من الجينات ذات العلاقات شبه المتوازنة الواضحة ، على سبيل المثال ، مجموعات HOX و IRX. يبدو أن بقية التسلسلات فريدة في الجينوم البشري.

من أجل تحديد تسلسلات محفوظة إضافية حول جينات محددة لمزيد من الفحص الوظيفي ، أجريت مقارنات متعددة المحاذاة باستخدام مجموعة أدوات محاذاة LAGAN (MLAGAN) المتعددة [50]. توفر مجموعة الأدوات هذه الفرصة لإدخال التسلسل الجيني من الأنواع الإضافية ، في هذه الحالة الماوس والفأر ، مما يعزز بشكل كبير نسبة الإشارة إلى الضوضاء. لمجموعة فرعية عشوائية من 25 من عبر ديف الجينات المرتبطة بمجموعات CNE ، محاذاة الجينوم الكامل الصارمة تقع 408 CNE ، في حين حدد MLAGAN أكثر من ضعف عدد المناطق المحفوظة (871) بطول 100 نقطة أساس على الأقل. كان تحليل الجينوم بأكمله أكثر صرامة من حيث أننا استخدمنا حدًا أدنى لمطابقة الكلمات الدقيقة بمقدار 20 نقطة أساس ، بينما يستخدم MLAGAN كلمات قصيرة غير دقيقة لإنشاء نقاط ارتساء يتم من خلالها إجراء محاذاة أكثر حساسية (Needleman - Wunsch). It is important to note that similar alignments on genes that are not implicated in developmental regulation do not identify conserved non-coding sequence (e.g., [22,51]).

The alignment of a known transcription factor, SOX21, identifies a large number of conserved non-coding sequence elements in addition to the CNEs found in the whole-genome analysis. We have called these “regionally defined CNEs” (rCNEs) (Figure 3A). In mammalian genomes, the distance between the first and last element around SOX21 is over 450 kb. As is the case for a number of the larger CNEs throughout the genome, some of the CNEs around the SOX21 gene are more highly conserved than the gene's coding exon. For example, in multiple alignments of mouse, rat, human, and Fugu sequence, one CNE (SOX21_19) has 90% identity over 558 bp whilst another (SOX21_1) contains a 112-bp region of 100% identity (Figure 3B), demonstrating an extraordinary level of conservation for genomes separated by 900 million years of divergent evolution.

SOX21 genomic regions for mouse, human, and rat were extracted from Ensembl to include all flanking DNA up to the nearest neighbouring genes (ABCC4 and NM_180989 in the human genome and their orthologues in the rodent genomes). The region covering Fugu SOX21 (138–178 kb of Fugu Scaffold_293 [M000293]) was extracted from the Fugu Genome Server at http://fugu.rfcgr.mrc.ac.uk/fugu-bin/clonesearch.

(A) MLAGAN alignment of the SOX21 gene using Fugu DNA as the base sequence compared with mouse, rat, and human genomic DNA. Coloured peaks represent regions of sequence conservation above 60% over at least 40 bp. The SOX21 coding region (SOX21 is a single exon gene) is annotated, and sequence identity is shaded in blue. Non-coding regions of sequence identity are shaded in pink. The eight elements that have been functionally assayed are labelled. Six of these are identified in the global analysis as seven CNEs (SOX21_8–10 covers two CNEs). SOX21_7 and SOX21_18 are rCNEs.

(B) Multiple DNA sequence alignments of CNE SOX21_1 and CNE SOX21_19 between mouse, rat, human, and Fugu.

Finally we searched invertebrate sequence databases, including the whole-genome sequences of Ciona intestinalis, Drosophila melanogaster, و Caenorhabitis elegans, to see whether we could identify any of these highly conserved vertebrate sequences within the invertebrate lineage. Although many of the genes identified in our analysis have clear homologues within these genomes, we found no significant matches to any CNEs. More sensitive alignment using MLAGAN also failed to identify any conserved non-coding sequence similarity between vertebrates and non-vertebrates (including C. elegans , D. melanogaster and A. gambiae ), whilst in each case the coding sequences were identified. This is surprising, given that the degree of identity between CNEs in vertebrates is higher than that of the coding regions for these genes. Thus, it is unlikely that the same set of sequences that appear to regulate important vertebrate trans-dev genes are found in invertebrates.

Functional Assay

We have assayed the ability of conserved non-coding sequences identified both from the whole-genome MegaBLAST analysis (CNEs) and from regional MLAGAN alignments (rCNEs) to up-regulate green fluorescent protein (GFP) reporter expression in zebrafish embryos (see Materials and Methods). We chose four cluster regions that contain different types of developmental genes: SOX21, PAX6, HLXB9, and SHH. Elements are co-injected with a minimal promoter–GFP reporter construct into early zebrafish embryos. This co-injection strategy [37,38] is an efficient, yet simple and rapid method for identifying enhancer activity indeed enhancer activity of elements is more striking when tested in a co-injection assay than when ligated directly to a promoter–reporter construct [37].

A total of 25 conserved non-coding regions were selected (Figures 3, 4, and S1), of which ten were CNEs and 15 were rCNEs (Table 1). GFP expression was analysed in live embryos on the second day of development and recorded both schematically and in tabular form. A mean of 188 embryos were screened for each element, compared with a mean of just over 200 embryos per control (Table 1).

PAX6 (A), HLXB9 (B), and SHH (C). In each panel, human (top), mouse (middle), and rat (bottom) genomic DNA from Ensembl is aligned with Fugu genomic DNA from orthologous regions. Alignment parameters are the same as in Figure 2. Seventeen elements that have been functionally assayed from these regions have been labelled. The following were identified as CNEs: PAX6_6, PAX6_9–10, KIAA0010_1, and KIAA0010_3.

Controls in which no element was injected (GFP reporter construct injected alone), in which non-conserved, non-coding genomic DNA from the PAX6 or SOX21 regions was co-injected with the GFP reporter, or in which conserved, coding DNA from PAX6, SOX21, or SHH exons was co-injected with the GFP reporter produce essentially no up-regulation of GFP expression (Table 1 Figure S1). When conserved non-coding sequences were injected, up-regulation of GFP expression was observed with all but two of the elements tested, with between 4% and 44% of embryos screened being positive (Table 1). Furthermore, GFP expression was generally observed in consistent patterns, specific to the element injected (Figure 5).

Cumulative GFP expression data, from SOX21-associated elements (A), PAX6-associated elements (B), HLXB9-associated elements (C), and SHH-associated elements (D). Cumulative data pooled from multiple embryos per element on day 2 of development (approximately 26–33 hpf) are displayed schematically overlayed on camera lucida drawings of a 31-hpf zebrafish embryo. Categories of cell type are colour-coded: key is at bottom of figure. Bar graphs encompass the same dataset as the schematics and use the same colour code for tissue types. Bar graphs display the percentage of GFP-expressing embryos that show expression in each tissue category for a given element. The total number of expressing embryos analysed per element is displayed in the top left corner of each graph. Legend for the bar graph columns accompanies the bottom graph in each panel “blood+” refers to circulating blood cells plus blood island region, “heart+” refers to heart and pericardial region (Please note: Some cells categorised as heart/pericardial region may be circulating blood cells), and “skin” refers to cells of the epidermis or EVL. س. cord, spinal cord.

In order to build up a comprehensive picture of the GFP expression pattern induced by each of the elements, the expression profiles from multiple embryos positive for a given element were overlaid onto a schematic diagram, so providing a composite overview for each element (Figure 5). This also provided a convenient format for data storage and comparison between elements.

SOX21-associated elements.

Of the eight SOX21-associated elements tested in our functional assay, seven enhance GFP expression (Table 1). Three of these enhancing elements direct reporter gene expression most prominently to the central nervous system (CNS) (SOX21_4 and SOX21_19 [Figures 5A, 6A, and 6B] and SOX21_7). SOX21_19 strongly directs remarkably widespread GFP expression throughout the brain and rostral spinal cord (88% of expressing embryos show GFP-positive cells in the CNS Figures 5A and 6B). SOX21, a member of the SRY-related HMG-box (SOX) gene family of DNA-binding proteins, acts as a transcriptional repressor during early development [52], and is expressed in a complex, dynamic pattern in the developing vertebrate CNS [53,54,55].

GFP expression is shown in fixed tissue following wholemount anti-GFP immunostaining, bright-field views (A–D, F, J, K, and N), or in live embryos as GFP fluorescence, merged bright-field and fluorescent views (E, G–I, L, M, and O). Lateral views, anterior to the left, dorsal to the top (A, B, and D–O) or dorsal view, anterior to the top (C). Embryos approximately 28–33 hpf (A, D–I, L, and O), approximately 48 hpf (B, C, J, K, and N), or approximately 26 hpf (M). The identity of the element co-injected with the GFP reporter construct is shown at the bottom of each panel. Black arrows indicate the approximate position of the midbrain–hindbrain boundary black and white arrowheads indicate GFP-expressing cells.

Scale bars approximately 100 μm (A–E, G–I, and L–O) and 50 μm (F, J, and K).

b, blood island d, diencephalon e, eye f, fin fold hb, hindbrain l, lens n, notochord ov, otic vesicle r, retina s, somite sc, spinal cord t, telencephalon te, tectum y, yolk.

(A) SOX21_4. Head region (eyes removed): neurons in the telencephalon and diencephalon are GFP-positive (arrowheads).

(B) SOX21_19. Head region: numerous GFP-expressing neurons are visible in the forebrain, midbrain, and hindbrain. Retinal expression is also apparent.

(C) SOX21_5–6. Hindbrain region: white arrowheads indicate GFP expression by several cells in the epithelium of the right developing ear (ov). GFP-expressing cells in left deveoping ear are in slightly different focal plane.

(D) SOX21_1. Trunk region: two individual notochord cells express GFP (arrowheads).

(E) PAX6_6. Head region of live embryo: GFP is expressed in several retinal cells.

(F) PAX6_9–10. Anterior trunk region (at the level of somites 1–3): three spinal cord neurons with ventrally projecting axons express GFP (arrowheads).

(G) PAX6_1. Tail region of live embryo: arrowhead indicates GFP expression in the developing median fin fold.

(H) KIAA0010_1. Trunk region, three notochord cells express GFP (arrowheads).

(I) KIAA0010_2. Anterior end of embryo: arrowheads point to circulating blood cells expressing GFP.

(J) HLXB9_3. Trunk region: GFP-expressing muscle fibres in somite 5 (arrowheads) lie immediately dorsal and ventral to the horizontal myoseptum.

(K) HLXB9_3. Trunk region (at the level of somites 13–15): arrowheads mark GFP expression in six cells forming the epidermis or EVL.

(L) SHH_6. Whole live embryo: numerous GFP-expressing muscle fibres can be seen in the trunk.

(M) SHH_1. Tail region of live embryo: GFP is expressed in a single bipolar neuron near the caudal end of the spinal cord (arrowhead marks cell body).

(N) SHH_4. Head region (dorsolateral view): cells labelled with anti-GFP include midbrain and hindbrain neurons and cells in the retina (slightly out of focal plane). Arrowheads indicate cell bodies of hindbrain neurons, from which axons can be seen projecting ventrally.

(O) SHH_2. Trunk region of live embryo: GFP-positive cells in the region of the blood islands (caudal to the urogenital opening arrowheads) show a slightly elongated morphology, suggesting they may be blood vessel precursors rather than blood cells.

Three elements strongly enhance GFP expression in the sense organs: SOX21_4 and SOX21_19 direct GFP expression to the developing eye (in 52% and 27% of expressing embryos, respectively Figures 5A and 6B), and SOX21_5–6 strongly enhances reporter expression in the developing ear (75% of expressing embryos Figures 5A and 6C). These observations draw parallels with prominent regions of endogenous SOX21 expression in the sense organs: i.e., the nasal epithelium, the lens and retina of the eye, and the sensory epithelia of the developing inner ear [55]. SOX21_1 strongly enhances expression in the notochord (62% of expressing embryos Figures 5A and 6D), a domain not normally associated with SOX21 expression.

PAX6-associated elements.

Six out of seven PAX6-associated elements tested in our functional assay enhance GFP expression (Table 1). Four of these six functional elements direct GFP expression most frequently to the developing eye (PAX6_6, 90% of expressing embryos PAX6_19, 59% of expressing embryos [Figures 5B and 6E] PAX6_2, 92% of expressing embryos and PAX6_4, 100% of expressing embryos). A fifth element, PAX6_9–10, also directs reporter gene expression to the eye in a significant proportion (25%) of expressing embryos (Figure 5B) as well as to neurons most frequently in the hindbrain and spinal cord (Figures 5B and 6F).

Significantly, PAX6 is a paired-box-containing transcription factor, expressed in and playing essential roles in the developing eye it is also expressed in the forebrain, hindbrain, and spinal cord (data from the Zebrafish Information Network http://zfin.org). PAX6 is associated with the loss-of-function disorder aniridia. Some aniridia cases show chromosomal rearrangements downstream of an intact PAX6 gene, indicating that رابطة الدول المستقلة-acting elements can influence PAX6 gene expression in the eye at a significant distance from the coding region [56]. Indeed, PAX6 expression is known to be influenced by رابطة الدول المستقلة-acting elements in upstream, intronic, and downstream positions. For example, 5′ elements drive expression in the lens, pancreas, and parts of the neural tube [27], intronic elements drive expression in the retina, forebrain, and hindbrain [27,57], and several 3′ regions direct expression to the developing pretectum, neural retina, and olfactory region [58].

In addition to the eye and CNS, other tissues to which GFP expression is directed by our PAX6-associated elements include the blood islands (PAX6_9–10, 36% of expressing embryos PAX6_1, 16% of expressing embryos [Figure 5B]) and the median fin fold (PAX6_1, 55% of expressing embryos Figures 5B and 6G) these tissues have not been associated with endogenous expression of PAX6.

HLXB9-associated elements.

We assayed six elements associated with a genomic region containing the HLXB9 and KIAA0010 genes (Table 1). Each of these elements induces GFP expression in a variety of tissues (data from four elements are shown in Figure 5C). Most notably, KIAA0010_1 directs GFP expression to the notochord in more than 87% of expressing embryos (Figures 5C and 6H), KIAA0010_2 directs expression to the blood (38% of expressing embryos Figures 5C and 6I) and the pericardial region (36% of expressing embryos Figure 5C), HLXB9_1 directs expression to the skin/enveloping layer (EVL 52% of expressing embryos) and skeletal muscle (40% of expressing embryos Figure 5C), HLXB9_3 directs expression to skeletal muscle (48% of expressing embryos Figures 5C and 6J) and to skin/EVL (33% of expressing embryos Figures 5C and 6K), and HLXB9_2 directs expression to the spinal cord (87% of expressing embryos).

HLXB9 is a Mnx-class homeobox gene associated with autosomal dominant caudal defects [59]. The zebrafish orthologue, hb9, is expressed in the notochord, hypochord, tail mesoderm, and tailbud [60], paralleling some of the domains of GFP expression induced by HLXB9/KIAA0010-associated elements.

SHH-associated elements.

Two of the four SHH-associated elements tested in this study (Table 1) direct GFP expression most frequently to muscle cells (SHH_1, 46% of expressing embryos SHH_6, 83% of expressing embryos [Figures 5D and 6L]). All four elements also prominently direct GFP expression to the CNS (SHH_1, 64% of expressing embryos SHH_2, 42% SHH_4, 57% and SHH_6, 48% [Figures 5D, 6M, and 6N]).

The SHH signalling molecule is crucial for a number of developmental processes, and is extensively implicated in disease (reviewed in [61]). In zebrafish, shh and its co-orthologue twhh are both expressed predominantly in midline structures, i.e., floorplate and notochord. Later expression domains include the branchial arches, pectoral fin buds, and the retina [62,63]. GFP expression directed by SHH-associated elements and shh/twhh expression overlap in the floorplate however, most of the other domains of GFP expression (e.g., muscle and blood islands Figure 6O) are not reflected by endogenous expression of hedgehog genes.


New functions for 'junk' DNA?

DNA is the molecule that encodes the genetic instructions enabling a cell to produce the thousands of proteins it typically needs. The linear sequence of the A, T, C, and G bases in what is called coding DNA determines the particular protein that a short segment of DNA, known as a gene, will encode. But in many organisms, there is much more DNA in a cell than is needed to code for all the necessary proteins. This non-coding DNA was often referred to as "junk" DNA because it seemed unnecessary. But in retrospect, we did not yet understand the function of these seemingly unnecessary DNA sequences.

We now know that non-coding DNA can have important functions other than encoding proteins. Many non-coding sequences produce RNA molecules that regulate gene expression by turning them on and off. Others contain enhancer or inhibitory elements. Recent work by the international ENCODE (Encyclopedia of DNA Elements) Project suggested that a large percentage of non-coding DNA, which makes up an estimated 95% of the human genome, has a function in gene regulation. Thus, it is premature to say that "junk" DNA does not have a function -- we just need to find out what it is!

To help understand the importance of this large amount of non-coding DNA in plants, Diane Burgess and Michael Freeling at the University of California, Berkeley have identified numerous conserved non-coding sequences (CNSs) of DNA that are found in a wide variety of plant species, including rice, banana, and cacao. DNA sequences that are highly conserved, meaning that they are identical or nearly so in a variety of organisms, are likely to have important functions in basic biological processes. For example, the gene encoding ribosomal RNA, an essential part of the protein-synthesizing machinery needed by cells of all organisms, is highly conserved. Changes in the sequence of this key molecule are poorly tolerated, so ribosomal RNA sequences have changed relatively little over millions of years of evolution.

To identify the most highly conserved plant CNSs, Burgess and Freeling compared the genome (one copy of all the DNA in an organism) of the model plant أرابيدوبسيس, a member of the mustard family, with the genome of columbine, a distantly related plant of the buttercup family. The phylogenetic tree (see figure) shows the evolutionary relationships among the dicot (yellow) and monocot (blue) species they studied. Branch points represent points of divergence of two species from a common ancestor. Sequences in common between these two plants, which diverged over 130 million years ago, are likely to have important functions or they would have been lost due to random mutations or insertions or deletions.

They found over 200 CNSs in common between these distantly related species. In addition, 59 of these CNSs were also found in monocots, which are even more distant evolutionarily, and these were termed deep CNSs. Finally, they showed that 51 of these appear to be found in all flowering plants, based on their occurrence in Amborella, a flowering plant that diverged from all of the above plants even before the monocot-dicot split (see figure).

So what could be the function of these deep CNSs? We can get clues by analyzing the types of genes with which these CNSs are associated. The researchers found that nearly all of the deep CNSs are associated with genes involved in basic and universal biological processes in flowering plants -- processes such as development, response to hormones, and regulation of gene expression. They found that the majority of these CNSs are associated with genes involved in tissue and organ development, post-embryonic differentiation, flowering, and production of reproductive structures. Others are associated with hormone- and salt-responsive genes or with genes encoding transcription factors, which are regulatory proteins that control gene expression by turning other genes on and off.

In addition, they showed that these CNSs are enriched for binding sites for transcription factors, and propose that the function of some of this non-coding DNA is to act as a scaffold for organization of the gene expression machinery. The binding sites they found are known sequences implicated in other plants as necessary for response to biotic and abiotic stress, light, and hormones. Furthermore, they discovered that a number of the CNSs could produce RNAs that have extensive double-stranded regions. These double-stranded regions have been shown to be involved in RNA stability, degradation, and in regulation of gene expression. Twelve of the most 59 highly conserved CNSs are associated with genes whose protein products interact with RNA. Clearly, these DNA sequences are not merely "junk!"

Now that Burgess and Freeling have identified the most highly conserved non-coding DNA sequences in flowering plants, future scientists have a better idea of which regions of the genome to focus on for functional studies. Do the predicted transcription factor-binding sites actually bind known or novel transcription factors? Do CNSs organize or regulate the gene expression machinery? Do CNSs encode RNAs that regulate fundamental processes in plants? The answers to these and many related questions will be easier to answer now that we have this set of deep CNSs that are likely to play important roles in basic cellular processes in plants.


شاهد الفيديو: WACE Biology: Coding and Non-Coding DNA (أغسطس 2022).