معلومة

HapMap 3 النمط الفرداني المرحلي

HapMap 3 النمط الفرداني المرحلي



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أحتاج إلى الحصول على بيانات النمط الفرداني المرحلي HapMap 3. اين ممكن ان اجده؟

في الواقع أنا بحاجة إلى هذه البيانات لمجموعات سكانية محددة وجين معين. ما هي أسهل طريقة للعثور على البيانات؟

آمل أن أجد إجابة. شكرا لك!


هذا هو عنوان FTP. ستجد في الداخل مجلد stage_3. للأسئلة الأخرى ، تحقق من هذه الصفحة (الرابط إلى مكتب المساعدة في أسفل الصفحة).


مشروع HapMap الدولي

جعل توضيح الجينوم البشري بأكمله من الممكن جهودنا الحالية لتطوير خريطة النمط الفرداني للجينوم البشري. خريطة النمط الفرداني ، أو "HapMap" ، هي أداة تسمح للباحثين بالعثور على الجينات والتغيرات الجينية التي تؤثر على الصحة والمرض.

تسلسل الحمض النووي لأي شخصين متطابق بنسبة 99.5 بالمائة. ومع ذلك ، قد تؤثر الاختلافات بشكل كبير على مخاطر إصابة الفرد بالأمراض. تسمى المواقع في تسلسل الحمض النووي حيث يختلف الأفراد في قاعدة DNA واحدة بتعدد أشكال النوكليوتيدات المفردة (SNPs). يتم توريث مجموعات من SNPs القريبة على نفس الكروموسوم في كتل. هذا النمط من SNPs على كتلة هو النمط الفرداني. قد تحتوي الكتل على عدد كبير من SNPs ، لكن عددًا قليلاً من SNPs يكفي لتحديد الأنماط الفردانية في الكتلة بشكل فريد. HapMap هي خريطة لكتل ​​النمط الفرداني وتسمى SNPs المحددة التي تحدد الأنماط الفردانية علامة SNPs.

تعد HapMap ذات قيمة من خلال تقليل عدد SNPs المطلوبة لفحص الجينوم بأكمله للارتباط بنمط ظاهري من 10 مليون SNPs الموجودة إلى ما يقرب من 500000 علامة SNPs. هذا يجعل طرق مسح الجينوم لإيجاد مناطق بها جينات تؤثر على الأمراض أكثر كفاءة وشمولية ، حيث لا يضيع الجهد في كتابة المزيد من SNPs أكثر من اللازم ويمكن تضمين جميع مناطق الجينوم.

بالإضافة إلى استخدامه في دراسة الارتباطات الجينية مع المرض ، فإن HapMap هو مورد قوي لدراسة العوامل الوراثية التي تساهم في التباين في الاستجابة للعوامل البيئية ، وفي القابلية للإصابة ، وفي فعالية الأدوية واللقاحات والاستجابات العكسية لها. تستند جميع هذه الدراسات إلى توقع وجود ترددات أعلى للمكونات الجينية المساهمة في مجموعة من الأشخاص المصابين بمرض أو استجابة معينة لعقار أو لقاح أو مُمْرِض أو عامل بيئي مقارنة بمجموعة من الأشخاص المتشابهين غير المصابين بالمرض. أو الرد. باستخدام علامة SNPs فقط ، يمكن للباحثين العثور على مناطق الكروموسوم التي لها توزيعات نمط فرداني مختلفة في مجموعتي الأشخاص ، أولئك الذين يعانون من مرض أو استجابة والذين لا يعانون. يتم بعد ذلك دراسة كل منطقة بمزيد من التفصيل لاكتشاف المتغيرات التي تساهم فيها الجينات في المنطقة في المرض أو الاستجابة ، مما يؤدي إلى تدخلات أكثر فعالية. يسمح هذا أيضًا بتطوير الاختبارات للتنبؤ بالعقاقير أو اللقاحات التي ستكون أكثر فاعلية لدى الأفراد الذين لديهم أنماط وراثية معينة للجينات التي تؤثر على استقلاب الدواء.

معلومات HapMap الدولية ، أحداث وتقارير المشروع

معلومات HapMap
    [hapmap.ncbi.nlm.nih.gov]
    موقع الويب الخاص بشراكة مشروع HapMap للعلماء ووكالات التمويل من كندا والصين واليابان ونيجيريا والمملكة المتحدة والولايات المتحدة
    [hapmap.ncbi.nlm.nih.gov]

  • بيان صحفي لمشروع HapMap: الاتحاد الدولي يطلق مشروع رسم خرائط التنوع الجيني في 29 أكتوبر 2002
الأحداث

    البث الشبكي للدورة التعليمية في 27 أكتوبر 2005: كيفية استخدام بيانات HapMap.
      [hapmap.ncbi.nlm.nih.gov]
      مواد الدعم للدورة التعليمية لمدة ساعتين حول الاستخدام الفعال لـ HapMap. يتضمن مقدمة إلى HapMap ، واستخدام HapMap لدراسات الارتباط ، واختيار علامة SNP ، وتحسين التحليلات باستخدام الرقائق مع SNPs المحددة مسبقًا ودليل إلى صفحات الويب HapMap.
    تقارير الاجتماع

    أوراق مشروع HapMap الدولي

    كونسورتيوم HapMap الدولي. خريطة النمط الفرداني البشري من الجيل الثاني لأكثر من 3.1 مليون تعدد الأشكال. طبيعة سجية، 449: 851-862. 2007. [نص كامل]

    كونسورتيوم HapMap الدولي. معلومات تكميلية عن: خريطة النمط الفرداني البشري من الجيل الثاني لأكثر من 3.1 مليون تعدد الأشكال. طبيعة سجية، 449: 1-38. 2007. [نص كامل]

    الكشف على نطاق الجينوم وتوصيف الاختيار الإيجابي في التجمعات البشرية. طبيعة سجية، 449: 913-919. 2007. [نص كامل]

    اتحاد HapMap الدولي. خريطة النمط الفرداني من الجينوم البشري. طبيعة سجية، 437: 1229-1320. 2005. [نص كامل]

    اتحاد HapMap الدولي. مشروع HapMap الدولي. طبيعة سجية، 426: 789-796. 2003. [نص كامل]

    اتحاد HapMap الدولي. دمج الأخلاق والعلوم في مشروع HapMap الدولي. علم الوراثة الطبيعي، 5: ​​467-475. 2004. [نص كامل]

    Thorisson ، GA ، Smith A.V. ، Krishnan L. ، and Stein ، L.D. موقع ويب مشروع HapMap الدولي. أبحاث الجينوم، 15: 1592-1593. 2005. [PubMed] [بحث الجينوم]

    الأوراق الدولية المتعلقة بمشروع HapMap

    كلارك ، إيه جي ، هوبيز ، إم جي ، بوستامانتي سي دي ، ويليامسون ، إس إتش ، ونيلسن ، آر. أبحاث الجينوم15: 1496-1502. 2005. [PubMed]

    غولدشتاين ، دي بي ، وكافاليري ، جي إل جينوميكس: فهم التنوع البشري. طبيعة سجية، 437: 1241-1242. 2005. [نص كامل] [nature.com]

    Hinds ، D.A. ، Stuve ، L.L. ، Nilsen ، GB ، Halperin ، E. ، Eskin ، E. ، Ballinger ، D.G. ، Frazer ، K.A. ، and Cox ، D.R. أنماط الجينوم الكاملة لتنوع الحمض النووي المشترك في ثلاثة مجموعات بشرية. علم، 307: 1072-1079. 2005. [PubMed]

    Myers، S.، Bottolo، L.، Freeman، C.، McVean، G.، and Donnelly، P. خريطة دقيقة لمعدلات إعادة التركيب والنقاط الساخنة عبر الجينوم البشري. علم، 310: 321-324. 2005. [PubMed]


    معهد واسع

    هذا هو مشروع الإصدار 1 للتنميط الجيني SNP على مستوى الجينوم والتسلسل المستهدف في عينات الحمض النووي من مجموعة متنوعة من السكان (يشار إليها أحيانًا باسم عينات "HapMap 3").

    يحتوي هذا الإصدار على البيانات التالية:

    • بيانات التركيب الجيني SNP التي تم إنشاؤها من 1115 عينة ، تم جمعها باستخدام نظامين أساسيين: Illumina Human1M (بواسطة معهد Wellcome Trust Sanger) و Affymetrix SNP 6.0 (بواسطة معهد Broad). تم دمج البيانات من النظامين الأساسيين لهذا الإصدار.
    • بيانات إعادة التسلسل المستندة إلى تفاعل البوليميراز المتسلسل (بواسطة مركز تسلسل الجينوم البشري بكلية بايلور للطب) عبر عشر مناطق سعة 100 كيلو بايت (يشار إليها مجتمعة باسم "ENCODE 3") في 712 عينة.

    نظرًا لأن هذا إصدار مسودة ، نطلب منك التحقق من هذا الموقع بانتظام للحصول على التحديثات والإصدارات الجديدة.

    مؤسسات إنتاج البيانات

    وكالات التمويل

    عينات HapMap 3

    تتألف مجموعة عينات HapMap 3 من 1301 عينة (بما في ذلك 270 عينة أصلية مستخدمة في المرحلتين الأولى والثانية من مشروع HapMap الدولي) من 11 مجموعة ، مدرجة أدناه أبجديًا من خلال ملصقاتهم المكونة من 3 أحرف. لمزيد من المعلومات حول هذه العينات ، انقر هنا.

    ضع الكلمة المناسبة عينة السكان عدد العينات
    ASW أصل أفريقي في جنوب غرب الولايات المتحدة الأمريكية 90
    CEU سكان يوتا من أصول أوروبية شمالية وغربية من مجموعة CEPH 180
    CHB هان الصينية في بكين ، الصين 90
    CHD صيني في متروبوليتان دنفر ، كولورادو 100
    GIH هنود الغوجاراتية في هيوستن ، تكساس 100
    JPT ياباني في طوكيو ، اليابان 91
    LWK Luhya في Webuye ، كينيا 100
    المكسيك أصل مكسيكي في لوس أنجلوس ، كاليفورنيا 90
    MKK الماساي في كينياوا ، كينيا 180
    TSI توسكانس في إيطاليا 100
    YRI اليوروبا في إبادان ، نيجيريا 180

    تشفير 3 مناطق

    تتداخل خمس من مناطق ENCODE 3 العشر مع مناطق HapMap-ENCODE ، أما الخمس الأخرى فهي مناطق محددة عشوائيًا من مناطق ENCODE المستهدفة (باستثناء مناطق HapMap-ENCODE العشر). يبلغ حجم جميع مناطق ENCODE 3 100 كيلو بايت ، وتتمركز في كل منطقة ENCODE خاصة بها. اقرأ المزيد عن مشروع ENCODE هنا.

    منطقة كروموسوم إحداثيات (NCBI build 36) الحالة
    ENm010 7 27,124,046-27,224,045 HapMap- ترميز
    ENr321 8 119,082,221-119,182,220 HapMap- ترميز
    ENr232 9 130,925,123-131,025,122 HapMap- ترميز
    ENr123 12 38,826,477-38,926,476 HapMap- ترميز
    ENr213 18 23,919,232-24,019,231 HapMap- ترميز
    ENr331 2 220,185,590-220,285,589 جديد
    ENr221 5 56,071,007-56,171,006 جديد
    ENr233 15 41,720,089-41,820,088 جديد
    ENr313 16 61,033,950-61,133,949 جديد
    ENr133 21 39,444,467-39,544,466 جديد

    محتوى البيانات لهذا الإصدار

    ضع الكلمة المناسبة عدد العينات عدد QC + SNPs عدد تعدد الأشكال QC + SNPs
    ASW 71 1632186 1536247
    CEU 162 1634020 1403896
    CHB 82 1637672 1311113
    CHD 70 1619203 1270600
    GIH 83 1631060 1391578
    JPT 82 1637610 1272736
    LWK 83 1631688 1507520
    المكسيك 71 1614892 1430334
    MKK 171 1621427 1525239
    TSI 77 1629957 1393925
    YRI 163 1634666 1484416
    إجماع 1115 1525445 1490422

    ضع الكلمة المناسبة عدد العينات
    ASW 55
    CEU 119
    CHB 90
    CHD 30
    GIH 60
    JPT 91
    LWK 60
    المكسيك 27
    MKK 0
    TSI 60
    YRI 120
    المجموع 712

    مراقبة الجودة لهذا الإصدار

    كان توافق التنميط الجيني بين النظامين 0.9931 (تم حسابه على 249889 تداخل SNPs). تم دمج البيانات من النظامين الأساسيين باستخدام PLINK (- وضع الدمج 1) ، مع الاحتفاظ باستدعاءات النمط الجيني فقط إذا كان هناك إجماع بين استدعاءات النمط الجيني غير المفقودة (أي ، تم ضبط النمط الجيني المدمج على مفقود إذا كان النظامان يقدمان مختلفًا ، غير - المكالمات الفائتة).

    تم إجراء مراقبة الجودة على المستوى الفردي بشكل منفصل من قبل الموقعين. تم الاحتفاظ فقط بالأفراد الذين لديهم بيانات النمط الجيني على كلا النظامين الأساسيين في هذا الإصدار. تم استخدام المعايير التالية للحفاظ على SNPs في مجموعات بيانات QC +:

    • Hardy-Weinberg p & gt0.000001 (لكل نسمة)
    • المفقود & lt0.05 (لكل تعداد)
    • & lt3 أخطاء مندل (لكل مجموعة تنطبق فقط على YRI و CEU و ASW و MEX و MKK)
    • يجب أن يحتوي SNP على rsID وخريطة لموقع جينومي فريد

    تحتوي مجموعة بيانات "الإجماع" على بيانات لـ 1115 فردًا (558 ذكرًا و 557 أنثى 924 مؤسسًا و 191 من غير المؤسسين) ، مع الاحتفاظ فقط بأشكال SNP التي اجتازت مراقبة الجودة في جميع المجموعات السكانية (معدل الاتصال الإجمالي هو 0.998). تمت إزالة مجموعة بيانات "الإجماع | متعدد الأشكال" 35023 تعدد الأشكال أحادي الشكل (عبر مجموعة البيانات بأكملها).

    في جميع ملفات النمط الجيني ، يتم التعبير عن الأليلات على أنها موجودة على الخيط (+ / fwd) من NCBI build 36.

    تم إنشاء المكالمات المتغيرة القائمة على التسلسل عن طريق التبليط باستخدام مجموعات PCR التمهيدية المتباعدة بحوالي 800 قاعدة عبر مناطق ENCODE 3. بعد ترشيح قراءات منخفضة الجودة ، تم تحليل البيانات باستخدام SNP Detector الإصدار 3 ، لاكتشاف الموقع متعدد الأشكال واستدعاء النمط الجيني الفردي. ثم تم تطبيق مرشحات مراقبة الجودة المختلفة. على وجه التحديد ، قمنا بتصفية أمبليكونات PCR مع عدد كبير جدًا من SNPs ، و SNPs مع مكالمات أليل متنافرة في أمبليكونات متعددة. قمنا أيضًا بتصفية SNPs مع اكتمال منخفض في العينات ، أو مع وجود عدد كبير جدًا من مكالمات النمط الجيني المتضاربة في شريطين مختلفين.

    في مجموعة بيانات QC + ، قمنا بتصفية العينات مع اكتمال منخفض ، وقمنا بتصفية SNPs مع معدل استدعاء منخفض في كل مجموعة (& lt80٪) وليس في HWE (p & lt0.001). في مجموعة بيانات QC + ، المعدل الإجمالي الإيجابي الكاذب هو

    3.2٪ ، بناءً على عدد محدود من فحوصات التحقق من الصحة.

    المحاذير في هذا الإصدار

    • مفقود من هذا الإصدار هو Illumina SNPs التي هي A / T أو C / G بسبب مشاكل تقطعت بهم السبل.
    • مفقود من هذا الإصدار هو Illumina SNPs التي هي ميتوكوندريا (لأنها لا تحتوي على rsIDs).
    • قد يكون هناك عدد قليل من SNPs (Illumina) المتبقية في هذا الإصدار والتي لا تزال على حبلا (- / rev) من NCBI build 36 ، لكنها ليست A / T أو C / G SNPs ، لذلك من السهل التعرف عليها في اتجاه مجرى النهر.

    لم يتم التحقق من صحة جميع المكالمات المتغيرة حتى الآن: نحن نقدر أن هناك حاليًا معدل إيجابي خاطئ يبلغ

    12٪ بين جميع المكالمات ، بمعدل أعلى قليلاً (

    14٪) إذا أخذنا بعين الاعتبار العزاب فقط. التحقق الإضافي جاري. تسلسل PCR لعينات إضافية (MKK) مستمر أيضًا.

    كيفية تنزيل هذا الإصدار

      - تار لبيانات النمط الوراثي متعدد الأشكال QC لكل مجموعة ، منسقة كملفات PLINK PED و MAP [833 ميجابايت] - ملف PED لبيانات النمط الجيني QC + متعدد الأشكال (إجماع) [738 ميجابايت] - ملف MAP لبيانات النمط الجيني QC + متعدد الأشكال (إجماع) [11 ميجابايت ] - علاقات الأسرة (النسب) والتسميات السكانية لـ 1301 عينة HapMap 3 [37 كيلوبايت] - قائمة 270 عينة مستخدمة في المرحلتين الأولى والثانية من مشروع HapMap الدولي [2 كيلوبايت]

    للوصول إلى بيانات إعادة تسلسل ENCODE III PCR ، يرجى زيارة موقع بروتوكول نقل الملفات العام BCM-HGSC على ftp://ftp.hgsc.bcm.tmc.edu/pub/data/Encode أو التنزيل هنا:

      - ملف README [3 كيلوبايت] - قائمة بـ 712 عينة غير مرتبطة متسلسلة [61 كيلوبايت] - أنماط وراثية لـ 10،076 موقع SNP بواسطة 712 عينة [641 كيلوبايت] - QC + الأنماط الجينية لـ 6223 موقعًا من مواقع SNP بواسطة 692 عينة [9 ميغابايت]

    خطط التحليل

    المدرجة أدناه هي خطط التحليل التي نتابعها حاليًا:

    • تقدير تردد أليل SNP
    • التمايز السكاني
    • تحليل اختلال التوازن
    • علامات SNP
    • كفاءة البتر
    • المواقع الجينومية للتنوعات السكانية البشرية
    • الأنماط الجينية لـ CNVs
    • الخصائص الجينية السكانية لـ CNVs (ترددات الأليل ، التمايز السكاني ، إلخ)
    • معدل الطفرة (تردد دي نوفو CNV) وآليات الطفرات المحتملة
    • خصائص اختلال التوازن في CNVs
    • وضع علامات وإسناد CNVs
    • إشارات الاختيار حول CNVs
    • رابطة SNPs و CNVs مع أنماط التعبير

    سياسة تحرير البيانات

    كان إطلاق بيانات ما قبل النشر من المشاريع العلمية الكبيرة المولدة للموارد موضوع اجتماع عقد في يناير 2003 ، اجتماع "فورت لودرديل". يوجد بيان سياسة المؤسسة الوطنية لحقوق الإنسان المستند إلى نتائج الاجتماع على موقع الويب الخاص بالمؤسسة الوطنية لحقوق الإنسان (http://www.genome.gov/10506537).

    تتناول توصيات اجتماع Fort Lauderdale أدوار ومسؤوليات منتجي البيانات ومستخدمي البيانات وممولي "مشاريع موارد المجتمع" ، بهدف إنشاء والحفاظ على توازن مناسب بين مصالح مستخدمي البيانات في الوصول السريع إلى البيانات و احتياجات منتجي البيانات لتلقي الاعتراف بعملهم. كان استنتاج الحضور في الاجتماع أن الاستخدام المسؤول للبيانات ضروري لضمان استمرار منتجي البيانات من الدرجة الأولى في المشاركة في مثل هذه المشاريع وإنتاج مجموعات بيانات قيّمة واسعة النطاق وإصدارها بسرعة. تم تعريف "الاستخدام المسؤول" على أنه السماح لمنتجي البيانات بإتاحة الفرصة لنشر التحليلات العالمية الأولية للبيانات ، على النحو المبين في بداية المشروع. سيضمن القيام بذلك أيضًا أن البيانات التي تم إنشاؤها موصوفة بالكامل.


    البحث عن منطقة الاهتمام والتصفح إليها

    يوفر متصفح الجينوم في موقع HapMap الإلكتروني الوصول إلى مناطق صغيرة إلى متوسطة الحجم من الجينوم لهذا النوع من الاستكشاف التفاعلي. يصف هذا البروتوكول الأساسي كيفية بدء استخدام متصفح الجينوم.

    1. باستخدام أي متصفح ويب حديث ، انتقل إلى www.hapmap.org.

    2. انقر فوق الارتباط "تصفح بيانات المشروع" ضمن قسم "بيانات المشروع" في الصفحة الرئيسية لـ hapmap.org.

    سينقلك هذا إلى متصفح الجينوم بناءً على حزمة GBrowse (رسم بياني 1).

    تظهر الصفحة الأولية عند البدء في استخدام متصفح الجينوم HapMap لأول مرة. بناءً على إعدادات لغة الكمبيوتر لديك ، يمكن أن تظهر هذه الصفحة بإحدى اللغات المتعددة ، على الرغم من أن هذا القسم يفترض اللغة الإنجليزية. يمكن الوصول إلى الصفحة مباشرة على http://www.hapmap.org/cgi-perl/gbrowse/.

    3. حدد موقع مربع البحث "معلم أو منطقة" ، وأدخل مصطلح البحث.

    سيعمل أي نوع من أنواع مصطلحات البحث التالية:

    اسم كروموسوم (على سبيل المثال ، "Chr19")

    موضع كروموسومي في الشكل الكروموسوم: ابدأ .. توقف (على سبيل المثال ، "Chr10: 25000..300000")

    اسم SNP باستخدام اسم dbSNP "rs" (على سبيل المثال ، "rs6870660")

    جين يستخدم رقم انضمام NCBI RefSeq (على سبيل المثال ، "NM 153254")

    جين يستخدم اسمه الشائع (على سبيل المثال ، "BRCA2")

    نطاق كروموسومي (على سبيل المثال ، "5q31")

    4. بعد إدخال أحد هذه المعالم ، اضغط على زر "بحث" (أو اضغط على "أدخل").

    سيؤدي هذا إلى إرجاع صفحة توضح المنطقة المحيطة بالميزة المطلوبة (الصورة 2). في حالة تطابق العديد من الميزات ، ستعرض الصفحة ملخصًا رسوميًا ، بما في ذلك الموقع الجيني ، لجميع الميزات الممكنة وتطالبك باختيار واحد.

    يعرض مستعرض الجينوم HapMap الميزة المطلوبة.

    في الجزء العلوي من الصفحة التي يتم إرجاعها يوجد قسم "نظرة عامة" يعرض الخريطة الوراثية الخلوية للكروموسوم المحدد. يشير المربع الأحمر إلى قسم الكروموسوم المعروض.

    يوجد أدناه نظرة عامة على المنطقة ، تعرض 2 ميغا بايت حول المنطقة محل الاهتمام. مرة أخرى ، يشير المربع الأحمر إلى قسم الكروموسوم.

    يوجد أسفل هذا قسم "التفاصيل" الذي يحتوي على مسارات أفقية تعرض أنواعًا مختلفة من البيانات. بشكل افتراضي ، يتم عرض عدد قليل فقط من المسارات الجينومية في البداية للمنطقة. المساران الأكثر فائدة هما مسار "تعدد الأشكال الجيني SNPs" الذي يوفر معلومات عن الموضع ، والأليلات ، وترددات الأليل لكل SNP يتميز بمشروع HapMap ، ومسار جينات Entrez ، والذي يعرض مواقع وهياكل ترميز البروتين البشري الجينات.

    يتوفر عدد من مسارات المعلومات الإضافية ، والتي يمكن أن تساعد بشكل خاص في فهم وتصميم دراسات الارتباط. يتوفر عدد من التحليلات المستمدة من بيانات HapMap ، وكذلك مصادر البيانات الخارجية (الجدول 1). وتجدر الإشارة بشكل خاص إلى عدد من المسارات المتعلقة بالتنوع الهيكلي في الجينوم ، بالإضافة إلى روابط إلى قاعدة بيانات Reactome (http://www.reactome.org فاستريك وآخرون 2007) ، وهو مورد منسق للمسارات الأساسية وردود الفعل في علم الأحياء البشري.

    بشكل افتراضي ، ينتقل متصفح الجينوم إلى أحدث إصدار من بيانات HapMap. تتوفر الإصدارات السابقة عبر هذه الواجهة ، ويمكن تحديد الإصدارات المختلفة ضمن قائمة "مصدر البيانات".

    5. استخدم عناصر التحكم الموجودة أعلى الصفحة للتمرير إلى اليسار أو اليمين أو لتغيير تكبير المنطقة. انقر في أي مكان على "نظرة عامة" أو "المنطقة" أو المقياس الموجود أعلى قسم "التفاصيل" لتوسيط العرض على هذا الموضع.

    يغير مسار SNP ذي النمط الجيني مظهره بطريقة تتناسب مع حجم الصورة:

    عند التكبير المنخفض ، تظهر الأشكال المتعددة الأشكال الجينية كمثلثات متساوية الأضلاع. يمكن تخصيص هذه الألوان عن طريق تحديد عنصر "تمييز خصائص SNP" في قائمة "التقارير والتحليل".

    في حالات التكبير الأعلى ، تتغير SNPs الموروثة لعرض الأليلات المرتبطة بـ SNP. الأليل الموضح باللون الأزرق هو الأليل الموجود في التسلسل الجينومي المرجعي في ذلك الموقع ، والأليل الأحمر هو الأليل الآخر الموجود في SNP.

    عند التكبير بشكل أكبر ، يتغير مسار SNPs الموروث جينياً لإظهار مخططات دائرية تمثل تردد الأليل لكل مجموعة سكانية وراثية. يشير الوتد الأزرق في المخطط الدائري إلى تكرار الأليل الذي يظهر في تسلسل الجينوم المرجعي. الوتد الأحمر هو تردد الأليل البديل. يوفر عرض المخطط الدائري للباحث القدرة على التمييز بسهولة بين تعدد الأشكال المتعددة الأشكال في جميع مجموعات HapMap الأربعة ، وبالتالي ، من المرجح أن تكون متعددة الأشكال في مجموعات سكانية أخرى أيضًا. بدلاً من ذلك ، يمكن للباحث تحديد تعدد الأشكال أكثر في مجموعة سكانية واحدة وبالتالي فهي مناسبة كعلامات في الشاشات الجينية الخاصة بالسكان.

    6. انقر على الصورة الرمزية للحصول على SNP فردي لرؤية صفحة نصية تحتوي على تفاصيل التركيب الوراثي وتعداد الأليل ومعلومات الفحص.

    يوفر هذا للباحث المعلومات اللازمة لإنشاء مقايسة لـ SNP ، بما في ذلك التسلسلات المرافقة اليمنى واليسرى اللازمة لإنشاء بادئات PCR.

    أنا. انقر فوق ارتباط النص التشعبي لـ dbSNP (http://www.ncbi.nlm.nih.gov/SNP Wheeler et al.2007) لمزيد من المعلومات حول كيفية اكتشاف SNP لأول مرة وأي معلومات وراثية سكانية أخرى قد تكون موجودة خارج مشروع HapMap.

    ثانيا. انقر فوق الارتباط المؤدي إلى Ensembl (http://www.ensembl.org Hubbard et al. 2007) للوصول إلى موقع يمكن فيه فحص التأثير الهيكلي لـ SNP على تسلسل الترميز ومواقع لصق والميزات الأخرى للجينات المجاورة.

    عرض مدى اختلال التوازن (LD)

    عندما يصمم الباحث دراسة لاكتشاف الارتباط بين التباين الأليلي الشائع للجين والمرض محل الاهتمام ، فإن معرفة مدى صعوبة التعلم في المنطقة أمر ضروري لتقليل عدد تعدد الأشكال التي تحتاج إلى التنميط الجيني عبر المنطقة. إذا كان هناك LD مرتفع في المنطقة ، فحينئذٍ يحتاج عدد قليل فقط من تعدد الأشكال الجيني إلى التنميط الجيني لأن ارتباطها مع أشكال تعدد الأشكال الأخرى في المنطقة سيكون بمثابة وكلاء للأنماط الجينية للنيوكلوتايد متعدد الكلور غير المميز. في المقابل ، فإن المنطقة ذات صعوبة التعلم المنخفضة سوف تحتاج إلى أخذ عينات بشكل أكثر كثافة لأن الحالة الأليلية للنيوكلوتايد متعدد الأشكال الجيني ستكون مؤشراً ضعيفاً لحالة تعدد الأشكال غير النمطي. إن تحديد أنماط صعوبة التعلم في المجموعات السكانية التي تتميز بمشروع HapMap كان أحد الأهداف الرئيسية لهذا المشروع. يحتوي مشروع HapMap الدولي على أنماط محسوبة مسبقًا لصعوبة التعلم بين الأشكال الجينية متعددة الأشكال. يمكن تنزيل البيانات بكميات كبيرة من موقع HapMap الإلكتروني أو تصفحها بشكل تفاعلي باستخدام متصفح الجينوم HapMap. تسمح الطريقة الأخيرة للباحثين برؤية أنماط صعوبة التعلم في سياق توزيع الجينات ذات الأهمية.

    7. لعرض بيانات LD المتاحة المحسوبة مسبقًا من الأنماط الجينية HapMap ، تصفح منطقة الاهتمام (انظر الخطوات 1-4).

    8. حدد المكون الإضافي "Annotate LD plot" من قائمة "التقارير والتحليل".

    9. انقر فوق الزر "تكوين" لإحضار صفحة تكوين تسمح لك بضبط خصائص العرض حسب رغبتك.

    المعلمات الرئيسية في هذه الصفحة هي مجموعات HapMap المراد عرضها ، والتي تقيس LD المراد استخدامه (اختيار D ′ ، r 2 ، أو سجل الاحتمالات [LOD]) ، ما إذا كان يجب توجيه مخطط المثلث بحيث يشير الرأس إلى الأعلى أو لأسفل ، ونظام الألوان ، وما إذا كان حجم الصندوق في الرسم يجب أن يتناسب مع المسافة الجينومية بين العلامات أو بحجم موحد (انظر تين. 3).

    تسمح صفحة التكوين الخاصة بمتصفح الجينوم HapMap للمستخدم بتخصيص العديد من ميزات نمط عرض البيانات.

    تعكس مقاييس D ′ و r 2 التقليدية درجة LD الزوجي بين اثنين من SNPs ، ولكنها تختلف في حساسيتها وخصوصياتها عبر مقاييس الأحجام المختلفة. انظر Mueller (2004) لمناقشة التطبيق العملي لهذه القياسات. تم وصف مقياس LOD المستخدم في عرض موقع HapMap في Daly et al. (2001).

    10. انقر فوق الزر "تكوين" للعودة إلى الشاشة الرئيسية ، والتي ستعرض الآن مخطط مثلث واحد لكل مجموعة سكانية محددة (انظر الشكل 4).

    يعرض مستعرض الجينوم HapMap مخططًا مثلثًا لقيم LD لعدة مجموعات سكانية. منطقة نموذجية لصعوبة التعلم توضح "بقع" من صعوبة التعلم العالية مفصولة بحدود محددة جيدًا نسبيًا لصعوبة التعلم المنخفضة. تم إنشاء مخطط المثلث عن طريق توصيل كل زوج من SNPs على طول خطوط عند 45 درجة بخط المسار الأفقي. يشير لون الماس في الموضع الذي يتقاطع فيه اثنان من SNPs إلى كمية LD الأكثر كثافة من الألوان التي تشير إلى LD أعلى. يشير المعين الرمادي إلى أن البيانات مفقودة.

    في المناطق التي تحتوي على العديد من تعدد الأشكال الجينية ، يضيف المكون الإضافي LD بشكل كبير إلى الوقت الذي يستغرقه تحميل صفحة الويب. يمكنك إيقاف تشغيل عرض LD في أي وقت عن طريق إلغاء تحديد مربع الاختيار المناسب في قسم "المسارات" في المتصفح. يتم تخزين إعدادات المكون الإضافي LD في ملف تعريف ارتباط المتصفح ، لذلك ليست هناك حاجة لزيارة صفحة التكوين في كل مرة يتم فيها تشغيل المكون الإضافي.

    انتقاء وعرض علامة SNPs

    علامة- SNPs هي مجموعة مختصرة من تعدد الأشكال التي تلتقط الكثير من صعوبة التعلم في المناطق التي يمكن استخدامها في دراسات الارتباط لتقليل عدد تعدد الأشكال اللازمة لاكتشاف الارتباط القائم على LD بين سمة مهمة ومنطقة من الجينوم. بالنسبة للمناطق الصغيرة ، من الممكن تحديد علامات SNPs يدويًا باستخدام العروض الرسومية والرقمية لصحة التعلم التي تم إنشاؤها أعلاه ، ولكن للحصول على أفضل النتائج ، يوصى بأن يستخدم الباحث خوارزمية تختار علامات تعدد الأشكال عن طريق تعظيم عدد تم التقاط SNPs المرتبطة بواسطة مجموعة العلامات. لا توجد مجموعة واحدة من علامات النيوكلوتايد التي تفي بالمتطلبات المتنوعة لكل تصميم دراسة ارتباط. قد يرغب الباحثون في اختيار تعدد الأشكال التي تعمل بشكل جيد مع نظام تنميط جيني معين (على سبيل المثال ، تلك التي تم تضمينها في "شريحة SNP" معينة) وقد يكونوا على استعداد لقبول مقايضات مختلفة بين تكلفة التنميط الجيني لمجتمع الدراسة وقوة الارتباط الذي يمكنهم اكتشافه. لهذا السبب ، لا يقدم موقع HapMap على الويب مجموعة ثابتة من علامات SNP المختارة مسبقًا ، ولكنه بدلاً من ذلك يوفر للباحثين أداة للاختيار التفاعلي للعلامات SNPs بناءً على المعايير التي يوفرها المستخدم. يتم إنشاء قوائم علامات SNP من الخوارزميات في برنامج Tagger (http://www.broad.mit.edu/mpg/tagger/ دي باكر وآخرون. 2005).

    11. انتقل إلى منطقة اهتمام (انظر الخطوات 1-4).

    12. ضمن قائمة "التقارير والتحليل" ، حدد خيار "علامة تعليق توضيحي SNP Picker".

    13. اضغط على "تكوين" لتحديد الخيارات المطلوبة لاختيار علامة SNP (انظر الشكل 5).

    يعرض مستعرض الجينوم HapMap بشكل بياني علامات SNPs ، بالإضافة إلى الأنماط الفردية المرحلية.

    اختيار السكان والخوارزمية

    تحميل قائمة معرفات SNP لتضمينها في مجموعة علامات SNPs

    تحميل قائمة بمعرفات SNP المراد استبعادها من مجموعة علامات SNPs

    تحميل قائمة درجات التصميم (الأولويات) لكل SNP

    تحديد عمليات القطع لقيمة LD المقبولة الدنيا وتردد الأليل لتضمين SNPs في المجموعة

    14. انقر فوق الزر "تكوين" لتشغيل التحليل والعودة إلى الشاشة الرئيسية.

    يتم عرض النتائج على مسار ميزة جديدة (انظر الشكل 5).

    كما هو الحال مع عرض LD أعلاه (الخطوة 10) ، يتم تخزين الإعدادات في ملف تعريف ارتباط المتصفح ، ويمكن إيقاف تشغيل مسار المكون الإضافي عند عدم الحاجة إليه.

    عرض الأنماط المفردة على مراحل

    قد يرغب الباحث في ربط مجموعة علامات SNP المحددة بواسطة خوارزمية منتقي العلامات SNP بهيكل النمط الفرداني الأساسي للمنطقة. تتمثل إحدى طرق القيام بذلك في تشغيل كل من مسارات LD و tag-SNP الزوجية في وقت واحد (الخطوات من 7 إلى 10 و 11 إلى 14 على التوالي). ومع ذلك ، فإن البديل هو تنشيط المسار الذي يعرض الأنماط الفردانية المرحلية نفسها. تم إنشاء بيانات النمط الفرداني المرحلي الموضحة في هذا القسم من قبل اتحاد مشروع HapMap الدولي باستخدام برنامج PHASE الإصدار 2.1 (Stephens and Donnelly 2003). أثناء التقسيم التدريجي ، يتم تعيين كل أليل في النمط الجيني لكروموسوم أبوي واحد أو آخر ، باستخدام خوارزمية احتمالية قصوى تستخدم معلومات ثلاثية (النسب) في مجموعات السكان HapMap ، أو ، إذا كانت المعلومات الثلاثية غير متوفرة ، عن طريق ملاءمة البيانات إلى نموذج يقلل من عدد عمليات الانتقال التاريخية الضمنية في السكان. يتم عرض الأنماط الفردانية المرحلية على شكل رسم بياني يتم فيه تمثيل كل كروموسوم للأفراد الذين تم أخذ عينات منهم بواسطة المشروع كخط بارتفاع بكسل واحد ، ويتم تلوين كل أليل SNP بشكل عشوائي باللون الأزرق أو الأصفر. ستظهر المنطقة ذات LD المرتفع كمنطقة توجد بها مجموعات طويلة من SNPs التي تشترك في الأليلات عبر كروموسومات متعددة ، مما يشير إلى وجود القليل من إعادة التركيب فيما بينها. ستظهر منطقة منخفضة LD كمنطقة حيث تكون المسارات أقصر وأكثر تجزئة.

    15. انتقل إلى منطقة اهتمام (انظر الخطوات 1-4).

    16. حدد "عرض Haplotype مرحلي علق" من قائمة "التقارير والتحليل".

    17. اضغط على "تكوين" لتعيين خيارات عرض Haplotype.

    تمنحك الخيارات القدرة على تحديد السكان المراد عرض معلومات النمط الفرداني لهم.

    18. بعد تحديد السكان المطلوبين ، انقر فوق الزر "تكوين" للعودة إلى الشاشة الرئيسية. سيظهر مسار ميزة جديدة لكل مجموعة مختارة. يُظهر كل مسار الأنماط الفردانية لتلك المجموعة السكانية باستخدام مخطط اللونين الموصوف أعلاه (انظر الشكل 5).

    يتم تحديد ترتيب الكروموسومات من خلال منهجية التجميع الهرمي السريع ، والتي تضع الكروموسومات التي تشترك في أنماط فردانية متشابهة معًا.

    ميزة هذه الشاشة على "عرض المثلث" LD هي أنها أكثر إحكاما وبالتالي فهي مناسبة بشكل أفضل لعرض المناطق الكبيرة. هذا يجعل من السهل ربط موضع الأنماط الفردانية الشائعة الطويلة مع SNPs التي اختارها منتقي العلامات SNP. عيب هذا العرض هو أنه يخفي الكثير من البنية الدقيقة لصعوبة التعلم في المنطقة على وجه الخصوص ، صعوبة التعلم القوية بين تعدد الأشكال غير المتجاورة.

    19. لاسترداد الأنماط الجينية المرحلية التفصيلية ، انقر فوق مسار السكان المطلوب.

    سينقلك هذا إلى صفحة توفر معلومات النمط الفرداني في شكل جدول. كل صف في الجدول عبارة عن كروموسوم فردي ، وكل عمود عبارة عن SNP فردي. يتم تعيين خلفية كل إدخال في الجدول على لون مطابق لتلك التي تظهر في المسار الرسومي.


    نتائج

    قياس المسافة الجينية في MHC بمستوى SNP F.شارع

    بين 25 ميغا بايت و 35 ميغا بايت على الكروموسوم 6 ، كان هناك ما مجموعه 1،607 SNPs في بياناتنا التي تضم ثمانية مجموعات يابانية ومجموعات HapMap و SGVP الأربعة. تم قياس المسافة الجينية بين كل زوج من هذه المجموعات الـ 12 بواسطة متوسط ​​SNP-level F.شارع القيم عبر 1،607 تعدد الأشكال. بين السكان اليابانيين الثمانية ، برزت أوكيناوا باعتبارها أكثر السكان تميزًا ، حيث تظهر الحد الأدنى من Fشارع 0.6٪ مع Ehime و F كحد أقصىشارع 1.0٪ مع فوكوكا وشيماني وطوكيو (الجدول التكميلي 1). كانت المجموعات السكانية اليابانية السبعة المتبقية أكثر تجانسًا نسبيًا ، حيث كانت المسافات الوراثية في حدود 0.1٪ إلى 0.3٪ وقد لوحظ الرقم الأخير في مقارنة أزواج السكان التي تضم معظمها Ehime. تم استخدام المسافات الجينية المحسوبة من نفس الـ1607 SNP بين شمال وجنوب الصين (CHB ، CHS) وبين الهنود الشمالية والجنوبية (GIH ، INS) لقياس المسافات التي شوهدت في السكان اليابانيين. كانت المسافة بين CHB و CHS 0.4 ٪ ، بينما كانت المسافة بين GIH و INS 0.5 ٪ ، مما يشير إلى أن سكان اليابانيين في البر الرئيسي كانوا أكثر تجانسًا من سكان الصين الهان من شمال وجنوب الصين في منطقة MHC ، في حين كانت Okinawa أكثر تميزًا عن بقية السكان اليابانيين في البر الرئيسي من حالة الاختلافات الجينية بين الغوجاراتية والتاميل الهنود.

    تحليلات المكون الرئيسي للبنية السكانية

    في PCA تمهيدي من 1،833 عينة مع بيانات الجينوم عبر 240،332 تعدد الأشكال الشائعة في المجموعات السكانية اليابانية الثمانية والأربعة ، كان من الواضح أن مجموعتي جنوب آسيا (GIH ، INS) كانتا مختلفة بشكل كبير عن سكان شرق آسيا (CHB ، CHS ، JPT ، سبعة مجموعات يابانية) ، على الرغم من أنه كان من الواضح أيضًا أن هناك ثلاث مجموعات فرعية وراثية تتوافق مع عينات أوكيناوا ، الهان الصينية واليابانية على التوالي (الشكل 2 أ). تم تمييز عينات أوكيناوا بوضوح عن عينات الهان الصينية واليابانية بطريقة لا تشير إلى اختلاط عينات أوكيناوا بين اليابانيين اليابانيين وصينيين الهان (الشكل 2 أ ، ب) ، حيث تم العثور على عينات أوكيناوا في الطيف المعاكس للصينيين الهان في المكونات الرئيسية ذات الصلة. هذا يتفق جيدًا مع عدد من النتائج في تاريخ السكان في الأرخبيل الياباني ، أي نموذج هيكل مزدوج على سكان الأرخبيل الياباني 40. في PCA لـ 1285 يابانيًا من البر الرئيسي ، ومع ذلك ، لم يكن هناك دليل على أي هياكل فرعية يمكن ملاحظتها بين المجموعات السكانية السبعة في تحليل البيانات على مستوى الجينوم (الشكل 2C).

    يحلل المكون الرئيسي على مستوى الموضوع مع بيانات SNP على مستوى الجينوم.

    يتم عرض Biplots لأول محورين للاختلافات من ثلاثة تحليلات مختلفة للمكونات الرئيسية (PCAs) لـ 240،332 SNPs الموجودة عبر الجينوم في المجموعات السكانية اليابانية الثمانية ومجموعات القياس الأربعة من شرق وجنوب آسيا. تم إجراء ثلاثة PCA مختلفة على (أ) جميع السكان الـ 12 (ب) فقط ثمانية اليابانيين واثنين من السكان الصينيين الهان و (ج) فقط السكان السبعة من البر الرئيسي لليابان. تمثل كل دائرة فردًا من مجموعة سكانية معينة ويتم تخصيص لون فريد لتلك المجموعة التي يتم تمثيلها في وسيلة الإيضاح على اللوحة اليمنى السفلية.

    أجرينا أيضًا سلسلة من PCAs على مستوى السكان باستخدام ك × ك مصفوفات المسافة (ك يمثل عدد السكان) التي تم إنشاؤها من 1،607 SNPs في منطقة 10 ميجا بايت على الكروموسوم 6 (انظر المواد والأساليب للتفاصيل). هذا يمثل بشكل فعال المسافة الجينية باستخدام F.شارع متري لتحديد مدى اختلافات تردد الأليل بين أزواج السكان. تميزت هذه التحليلات بالمثل بين جنوب آسيا والصينيين الهان من العينات اليابانية (الشكل 3 أ ، ب) ، وكذلك عينات أوكيناوا من عينات البر الرئيسي الياباني (الشكل 3 ب) ، ولكن يبدو أنها توفر دقة أكبر للاختلافات الجينية داخلها. السكان اليابانيون السبعة في البر الرئيسي حيث بدا أن إهيمه وشيماني أكثر تميزًا عن المجموعات الخمس المتبقية (الشكل 3 ج). كانت هذه الملاحظات متوافقة بشكل ملحوظ مع ما رأيناه في البيانات على مستوى الجينوم ، خاصةً عندما قمنا بتلخيص الملاحظات في الشكل 2 عن طريق حساب متوسط ​​إحداثيات المكون الرئيسي على مستوى العينة في كل مجموعة للحصول على إحداثيات واحدة على مستوى السكان لتلك المجموعة (الشكل التكميلي 1). 1). لمزيد من التحقيق في التمييز الملحوظ بين Ehime و Shimane والسكان اليابانيين المتبقين في البر الرئيسي ، قمنا بتجميع Fشارع القيم المحسوبة لـ 1،607 تعدد الأشكال عبر جميع الأزواج الممكنة من السكان اليابانيين السبعة لإنتاج F إجماليشارع توزيع. من خلال تحديد Fشارع القيم في أعلى 1٪ ، لاحظنا أن هناك تمثيلًا زائدًا بشكل كبير من أزواج السكان التي تتضمن Ehime (صذات الحدين = 0.0011) وشيمان (صذات الحدين = 1.38 × 10 15). ولوحظ أيضًا التمييز بين Ehime و Shimane وبقية العينات اليابانية من البر الرئيسي في PCA المستندة إلى النمط الفرداني في جينات HLA الستة (الشكل التكميلي 2). وتجدر الإشارة إلى أن الاختلافات الجينية بين السكان اليابانيين السبعة كانت أكثر وضوحًا في مناطق الجينات من الفئة الثانية (HLA-DR و -DQ و –DP) مقارنة بمناطق الجينات من الفئة الأولى (HLA-A و -B و -C) (تكميلي) الشكل 2).

    يحلل المكون الرئيسي على مستوى السكان مع SNPs في MHC.

    يتم عرض Biplots لأول محورين من الاختلافات من تحلل eigen لمصفوفات المسافة التي تم حسابها من متوسط ​​Fشارع القيم بين أزواج السكان عبر 1،607 تعدد الأشكال الموجودة في الفاصل الزمني بين 25 ميغا بايت و 35 ميغا بايت من الكروموسوم 6 في المجموعات السكانية اليابانية الثمانية ومجموعات القياس الأربعة من شرق وجنوب آسيا. تم إجراء ثلاثة تحليلات مختلفة ، تشمل (أ) جميع السكان الـ 12 (ب) فقط ثمانية اليابانيين واثنين من السكان الصينيين الهان و (ج) فقط السكان السبعة من البر الرئيسي لليابان. تمثل كل دائرة مجموعة سكانية معينة ويتم تلوينها بنفس اللون الفريد لتلك المجموعة كما هو موضح في وسيلة الإيضاح في الشكل 2.

    الفروق بين السكان

    تم الحصول على الأنماط الفردية لـ 1،607 تعدد الأشكال عن طريق وضع بيانات النمط الجيني على مراحل لـ 12 مجموعة مع BEAGLE. سمح لنا ذلك بفحص توزيع الأنماط الفردانية الرئيسية في كل من جينات HLA الستة في كل من هذه المجموعات السكانية (الجدول 1). تعريف الأنماط الفردانية الرئيسية تعسفي تمامًا. في دراستنا ، ل HLA-A ، HLA-B ، HLA-C ، HLA-DR، قمنا بتعريف النمط الفرداني الرئيسي على أنه يمتلك تواترًا سكانيًا لا يقل عن 10 ٪ في أي من المجموعات السكانية الاثني عشر. أما بالنسبة لل HLA-DQ و HLA-DP، قمنا بتعريف النمط الفرداني الرئيسي على أنه يمتلك تواترًا سكانيًا لا يقل عن 6 ٪ في أي من المجموعات السكانية الاثني عشر. هذا يرجع إلى العدد الكبير من الأنماط الفردانية الموجودة عبر مجموعة أكبر من SNPs في HLA-DQ و HLA-DP.

    مما لا يثير الدهشة ، أنه كانت هناك أنماط فردانية خاصة بالأسلاف تم العثور عليها فقط في جنوب آسيا أو في شرق آسيا ، وكانت غالبية الأنماط الفردية الرئيسية في اليابان مشتركة عبر مجموعات سكانية يابانية مختلفة باستثناء أن ترددات النمط الفرداني اختلفت بين السكان إلى حد ما (الشكل. 4 ، الأشكال التكميلية 3-7). على سبيل المثال ، في حالة HLA-B، على الرغم من وجود 373 نمطًا فردانيًا متميزًا من 74 تعدد الأشكال في هذا المكان ، لم يكن هناك سوى ثمانية أنماط فردية رئيسية في المجموعات السكانية الـ 12. خمسة من ثمانية أنماط الفردانية الرئيسية كانت غائبة في سكان جنوب آسيا (H1 ، H2 ، H3 ، H4 ، H7) ، بينما لم يتم العثور على H8 في أي من السكان اليابانيين الثمانية (الشكل 4 أ). يبدو أن أحد أنماط الفردانية (H3) فريد من نوعه بالنسبة للسكان اليابانيين وقد لاحظنا أن تواتر H4 يختلف من 1.7٪ في أوكيناوا إلى 14.2٪ في كل من فوكوكا وشيماني (الشكل 4 ب). ومع ذلك ، تجدر الإشارة إلى أن غالبية الأنماط الفردانية الرئيسية الموجودة في جينات HLA كانت موجودة في جميع السكان اليابانيين وكانت مشتركة مع مجموعات شرق و / أو جنوب آسيا الأخرى المستخدمة في القياس (الشكل 5).

    توزيع أنماط الفردوس الرئيسية في HLA-B.

    توزيع الأنماط الفردانية الرئيسية الموجودة عبر ثمانية مجموعات سكانية يابانية وأربعة مجموعات مرجعية من شرق وجنوب آسيا في HLA-Bحيث يتم توضيح الترددات (أ) في مخططات بيانية حسب المواقع الجغرافية المتوقعة ، والتي تتوافق مع أسلاف السكان المعنيين (ب) في المخططات الشريطية للإشارة إلى النسب المئوية لكل من الأنماط الفردانية الرئيسية في المجموعات السكانية الاثني عشر. وقد لوحظت ثمانية أنماط فردانية رئيسية في HLA-B ، من 373 نمط فرداني فريد يتكون من 74 تعدد الأشكال. لا يشير توزيع الأنماط الفردانية الرئيسية في كل مخطط تجزيئي إلى المجموع الكلي لتكرار الأنماط الفردانية ، حيث لم يتم تضمين التسمية "أخرى". تم إنشاء الخريطة الشكلية باستخدام "خرائط" الحزمة R 50 و "mapdata" 51 في برنامج R 52.

    توزيع الأنماط الفردانية الرئيسية عبر مجموعات السلالة الرئيسية الثلاث.

    تم تصنيف السكان اليابانيين الثمانية ومجموعات المقارنة الأربعة من شرق وجنوب آسيا إلى ثلاث مجموعات سلالة رئيسية ، تقابل اليابانيين وهنود جنوب آسيا والصينيين من شرق آسيا. تم تمثيل الأنماط الفردانية الرئيسية التي لوحظت عبر جينات HLA الستة في مخطط Venn لتوضيح ما إذا كانت موجودة في كل مجموعة سلالة ، والتي تم تعريفها على أنها تعرض ترددًا غير صفري في واحد على الأقل من السكان في مجموعة النسب.

    نظرًا لأن تحليلنا لتنوع النمط الفرداني يعتبر أنماطًا فردية متميزة بشكل متبادل توجد داخل منطقة جينومية في كل مجموعة ، فمن المفيد قياس مدى اختلاف هذه الأنماط الفردية المتميزة.من خلال حساب النسبة المئوية لمواقع SNP التي اختلفت بين أي نمطين فرديين في مكان ما ، لاحظنا أن غالبية الأنماط الفردانية الرئيسية الموجودة في مواقع HLA كانت مختلفة اختلافًا كبيرًا عن بعضها البعض على مستوى SNPs التي تشكل أنماطًا فردية فردية باستثناء في HLA-A حيث كان هناك أربعة أنماط فردية رئيسية تختلف عن طريق SNP واحد فقط (الجدول 2). أداء البتر في منطقة معقد التوافق النسيجي الكبير مع لوحات مرجعية مختلفة.

    النتيجة المباشرة لاختلافات النمط الفرداني بين مجموعات سكانية يابانية مختلفة هي التأثير على دقة التضمين. لقد قمنا بالتحقيق في ذلك بطريقتين: أولاً ، ما إذا كانت الدقة قد تغيرت عند استخدام لوحات مختلفة من مجموعة سكانية فردية لحساب بيانات SNP لكل مجموعة سكانية يابانية وثانيًا ، ما إذا كان استخدام لوحة شرق آسيوية مدمجة ، والتي تتكون من الصينية واليابانية والماليزية من قواعد البيانات العامة مثل HapMap و SGVP ، ستؤدي إلى أداء أفضل. تم اختيار اللوحات المرجعية المختلفة باستثناء اللوحة المدمجة لتكون ذات أحجام قابلة للمقارنة لتجنب أي إرباك بسبب حجم العينة ، للسماح بالتحقيق في تأثير تنوع النمط الفرداني. أيضًا ، لتجنب الإفراط في التركيب ، تم استخدام 19 عينة إضافية من كل من السكان اليابانيين (باستثناء HapMap JPT) كبيانات مستهدفة للتضمين.

    لاحظنا أن استخدام إما لوحة HapMap JPT أو لوحة شرق آسيا المشتركة أسفر عن معدلات تعارض أعلى بشكل هامشي ، عند مقارنته باستخدام معظم اللوحات الفردية (الشكل 6 ، الجدول التكميلي 2). كانت النتيجة الأخيرة مفاجئة لأن لوحة شرق آسيا المدمجة كانت تقريبًا ضعف حجم الألواح الفردية. عند احتسابها على لوحات أحادية السكان ، أسفرت عينات Ehime و Okinawa عن أدنى معدلات عدم التوافق إلا عند استخدام اللوحات المرجعية الخاصة بالسكان المعنيين (الجدول التكميلي 2) ، مما يوفر خطًا آخر من الأدلة لدعم أن هذين المجموعتين كانا أكثر تميزًا عن السكان اليابانيون الآخرون.

    أداء البتر عبر مجتمع الدراسة.

    تم قياس أداء عينات الاحتساب داخل كل مجموعة من مجموعات الدراسة الـ 12 بمعدل الاختلاف ، المحدد على أنه 1 - ص 2 ، أين ص 2 يتوافق مع العلاقة بين النمط الجيني المرصود وجرعة الأليل المحسوبة عند 400 SNPs التي تم حجبها من 1607 SNPs في MHC. لكل من المجموعات السكانية اليابانية السبعة (باستثناء JPT) ، تم إجراء الاحتساب على 19 عينة إضافية لم تكن جزءًا من الدراسة الرئيسية وتم استخدامها لإنشاء لوحة مرجعية خاصة بالسكان. من ناحية أخرى ، تم إجراء التضمين في CHB و CHS و GIH و JPT على 19 عينة من نفس بيانات السكان ، والتي تم استخدامها لإنشاء اللوحة المرجعية وبالتالي كانت عرضة للتركيب الزائد. التعليقات التوضيحية للوحات المرجعية المستخدمة هي كما يلي: JPTPanel = JPT HAP_SGVPPanel = لوحة مدمجة باستخدام عينات CHB و CHS و JPT FukuokaPanel = Fukuoka EhimePanel = Ehime ShimanePanel = Shimane AmaPanel = Amagasaki Kita-NagoyaPanel = TokyoPanagoya = طوكيو Okinawa CHBPanel = CHB CHSPanel = CHS.

    أنتجت ثلاثة مجموعات يابانية أخرى (شيمان ، أماغاساكي ، كيتا ناغويا) بالمثل أقل معدلات عدم التوافق عند استخدام اللوحات المرجعية الخاصة بالسكان ، على الرغم من أن هذا لم يكن فريدًا بالنسبة للوحات المرجعية الخاصة بالسكان ، كان هناك واحد على الأقل واحد آخر- لوحة السكان التي أسفرت عن مستوى مكافئ من معدلات الاختلاف. على سبيل المثال ، شوهد أقل معدل تعارض بنسبة 2٪ في Shimane عند استخدام لوحة Shimane أو لوحة Amagasaki كمرجع. كان من الواضح أيضًا أن استخدام اللوحات المرجعية التي تم إنشاؤها من الهان الصينيين أو الهنود أسفر عن أداء احتساب ضعيف نسبيًا للعينات اليابانية.


    وضع LD في سياق جينومي

    بينما توفر الأدوات الموجودة على موقع HapMap وصولاً حديثًا إلى بيانات وتحليلات HapMap ، إلا أنها لا تقدم سوى معلومات محدودة عن السياق الجيني الأوسع للمنطقة. لفهم التداعيات البيولوجية والوظيفية للتنوع البشري بشكل كامل ، من المهم وضع معلومات صعوبة التعلم والنمط الفرداني في سياق جينومي كامل. يعد مستعرض الجينوم البشري UCSC [40] و Ensembl [41] أداتين رئيسيتين متاحتين لتحقيق ذلك وقد قام كلاهما الآن بدمج بيانات HapMap LD للتصور جنبًا إلى جنب مع معلومات الجينوم الأخرى.

    على الرغم من وجود العديد من أوجه التشابه بين كلتا الأداتين ، إلا أن كلٍّ منهما يحتوي على معلومات مميزة وتفسير للبيانات ، ومن ثم فإنه من المفيد عادةً استشارة كلا العارضين ، إذا كان ذلك للحصول على رأي ثانٍ فقط (كلا المشاهدان يوفران روابط متبادلة). يتمتع مستعرض جينوم UCSC بميزة واحدة رائعة على كل من مستعرض الجينوم HapMap و Ensembl لأنه يسمح بتصور LD عبر مناطق أكبر من 1 ميجا بايت أو حتى كروموسومات كاملة. هذا التصور القوي لـ LD يجعل متصفح UCSC أداة استثنائية لتصور LD / الجينوم المتكامل [42]. يوضح الشكل 3 منطقة 1.5 ميجا بايت تحتوي على جين اللاكتاز (LCT). يُظهر هذا اختلافات واضحة في LD بين مجموعات CEU و YRI و JPT-CHB ، كما يعرض أيضًا معدلات إعادة التركيب المحسوبة من بيانات HapMap (التي ترتبط جيدًا بحدود كتلة LD) ودليل على الاختيار الإيجابي في المجموعات العرقية المختلفة بناءً على حساب Tajima's D من بيانات التركيب الجيني SNP (انظر النص التالي للحصول على التفاصيل). يتم أيضًا وضع معلومات LD والنمط الفرداني في سياق الجينات المعروفة وحفظ جينوم الفقاريات. يمكن الوصول إلى المعلومات الوصفية لكل مجموعة بيانات UCSC بالضغط على الزر الرمادي الموجود على يسار كل مسار. يتوفر قدر كبير من المعلومات الإضافية القابلة للتكوين أيضًا ولكن لم يتم عرضها هنا للإيجاز.

    يعد متصفح UCSC فعالًا جدًا أيضًا في التحليل التفصيلي للسياق الجيني لبيانات صعوبة التعلم. من غير المحتمل أن يتم اختبار SNP السببي مباشرة في مسح الجينوم ، ولكن قد يكون في LD مع علامات تم اختبارها. باستخدام ناتج استعلام HapMart ، من السهل نسبيًا (على سبيل المثال استخدام Microsoft Excel) إنشاء مسار بيانات مخصص لـ UCSC (انظر وثائق UCSC للحصول على التفاصيل) استنادًا إلى SNPs التي تظهر دليل LD (ص 2 & gt 0.5) مع SNP مرتبط. يوضح الشكل 4 مثالاً على مثل هذا التحليل. من خلال تحميل موقع SNP المرتبط ومواقع SNPs التي تظهر أدلة على LD كمسارات مخصصة ، فإن المحاذاة مع الميزات الجينية أسهل بكثير من استخدام عرض كتلة LD. يمكن محاذاة الميزات الجينومية و SNPs مباشرة لتقييم التداخل. يمكن أيضًا تصدير تسلسل الحمض النووي بالكامل بمسارات مختلفة مشروحة في التسلسل باستخدام رابط "DNA" في الجزء العلوي من المتصفح. بالإضافة إلى الفحص البصري ، فإن المسارات المخصصة التي تم إنشاؤها لمتصفح UCSC لها أيضًا تطبيق قوي آخر - يمكن الاستعلام عنها باستخدام مستعرض جدول UCSC [43 **]. يعد متصفح الجدول ، الذي يتم الوصول إليه عن طريق رابط "الجداول" في المتصفح الرئيسي ، أداة ممتازة تتيح للمستخدم إجراء استعلامات معقدة بين مجموعات البيانات ، بما في ذلك المسارات المخصصة التي تم تحميلها بواسطة المستخدم. باستخدام مرشح التقاطع ، على سبيل المثال ، من الممكن تحديد جميع SNPs التي تم تحديدها مسبقًا بواسطة LD (المسار المخصص الخاص بك) التي تتداخل مع مواقع ربط عامل النسخ المحفوظة أو عناصر المروج المعروفة أو المواقع المستهدفة للـ RNA الصغير ، إلخ. هذه الوظيفة المرنة للغاية تجعل يعد متصفح UCSC Table أداة قوية بشكل فريد ينصح بها القارئ بشدة.

    استخدام المسارات المخصصة للحصول على عرض تفصيلي للسياق الجيني في متصفح الجينوم UCSC. الموقع الجيني لـ SNP المرتبط بالقرب من جين CARD4. تُظهر المسارات المخصصة في مستعرض الجينوم UCSC موقع تعدد أشكال النوكليوتيدات (SNPs) التي تعرض LD بامتداد ص 2 & gt 0.5 في سياق شرح الجينوم. تصف المسارات الإضافية الجينات المعروفة ، وعلامات التسلسل المعبر عنها بشريًا (ESTs) ، و ESTs غير الموصولة ، والإمكانات التنظيمية المتوقعة ومواقع ربط عامل النسخ المحفوظة. معلومات HapMap LD الواردة أدناه مخصصة لأفراد CEU وتشير إلى وجود مجموعتين من مجموعات النمط الفرداني المحفوظة في هذه المنطقة. يتم تقسيم هذه المجموعات بواسطة نقطة فعالة لإعادة التركيب تم تحديدها بشكل مستقل في مجموعات بيانات HapMap و Perlegen.

    استخدام المسارات المخصصة للحصول على عرض تفصيلي للسياق الجيني في متصفح الجينوم UCSC. الموقع الجيني لـ SNP المرتبط بالقرب من جين CARD4. تُظهر المسارات المخصصة في مستعرض الجينوم UCSC موقع تعدد الأشكال التي تعرض تعدد الأشكال LD بامتداد ص 2 & gt 0.5 في سياق شرح الجينوم. تصف المسارات الإضافية الجينات المعروفة ، وعلامات التسلسل المعبر عنها بشريًا (ESTs) ، و ESTs غير الموصولة ، والإمكانات التنظيمية المتوقعة ومواقع ربط عامل النسخ المحفوظة. معلومات HapMap LD الواردة أدناه مخصصة لأفراد CEU وتقترح وجود مجموعتين من مجموعات النمط الفرداني المحفوظة في هذه المنطقة. يتم تقسيم هذه المجموعات بواسطة نقطة فعالة لإعادة التركيب تم تحديدها بشكل مستقل في مجموعات بيانات HapMap و Perlegen.


    الملخص

    يعد تحديد الأنماط الفردية الأساسية للجينوم البشري الفردي خطوة أساسية ، ولكنها صعبة حاليًا ، نحو الفهم الكامل لوظيفة الجينوم. يسمح تسلسل الجيل التالي المستند إلى تجمع Fosmid بتوليد على نطاق الجينوم من مقاطع DNA أحادية الصيغة الصبغية سعة 40 كيلو بايت ، والتي يمكن تقسيمها إلى أنماط فردية جزيئية متجاورة حسابيًا عن طريق التنميط الفردي الفردي الفردي (SIH). تم اقتراح العديد من خوارزميات SIH ، ولكن كان من الصعب تقييم دقة هذه الأساليب بسبب عدم وجود بيانات مرجعية حقيقية. لمعالجة هذه المشكلة ، قمنا بإنشاء بيانات تسلسل فوسميد كامل للجينوم من طفل ثلاثي HapMap ، NA12878 ، والذي تم بالفعل إنتاج أنماط فردانية موثوقة من أجله. قمنا بتجميع أنماط الفرد باستخدام ثماني خوارزميات لـ SIH وأجرينا مقارنات مباشرة لدقتها واكتمالها وكفاءتها. تشير مقارناتنا إلى أن التنميط الفرداني المستند إلى fosmid يمكن أن يقدم نتائج دقيقة للغاية حتى في التغطية المنخفضة وأن خوارزمية SIH الخاصة بنا ، ReFHap ، قادرة على إنتاج أنماط فردية عالية الجودة بكفاءة. لقد قمنا بتوسيع الأنماط الفردانية لـ NA12878 من خلال الجمع بين الأنماط الفردانية الحالية وأنماط الفردانية المستندة إلى fosmid ، مما أدى إلى إنتاج أنماط فردية جديدة شبه كاملة بمعيار ذهبي تحتوي على ما يقرب من 98 ٪ من تعدد الأشكال متغايرة الزيجوت. يتضمن هذا التحسين أجزاء ملحوظة من النيوكلوتايد SNPs المرتبطة بالأمراض و GWA. مدمجة مع مجموعات البيانات البيولوجية الجزيئية الأخرى ، ستعمل معلومات المرحلة هذه على تطوير المجال الناشئ لعلم الجينوم ثنائي الصبغة.


    الاستنتاجات

    قمنا بتطوير ParaHaplo 3.0 ، مجموعة من برامج الكمبيوتر ، للحساب المتوازي لتقدير النمط الفرداني وقيم P الدقيقة في GWASs القائمة على النمط الفرداني. تم تصميم ParaHaplo للاستخدام في مجموعات محطات العمل باستخدام Intel MPI. باستخدام ParaHaplo ، أجرينا تقدير النمط الفرداني لبيانات النمط الجيني JPT و CHB المأخوذة من مجموعة بيانات HapMap 3.0 [12].

    تشير هذه النتائج إلى أنه عندما يكون عدد المعالجات كافياً ، فإن قدرات الحوسبة المتوازية في ParaHaplo تكون أسرع 20 مرة من تلك الموجودة في البرامج غير المتوازية. تم الحصول على تراكيب وراثية دقيقة وكاملة لأكثر من مليون تعدد الأشكال [15] ، ويتم الآن إجراء التنميط الجيني للأفراد البالغ عددهم 10000 فرد [21]. ستصبح الحاجة إلى تقدير النمط الفرداني السريع باستخدام الحوسبة المتوازية ذات أهمية متزايدة مع استمرار زيادة أحجام بيانات المشروع.


    تنسيقات ملف الإدخال

    تقبل Haploview حاليًا بيانات الإدخال في خمسة تنسيقات ، تنسيق ارتباط قياسي ، أنماط فردانية مرحلية كليًا أو جزئيًا ، تفريغ بيانات مشروع HapMap ، تنسيق PHASE ، ومخرجات PLINK. يمكن للبرنامج أيضًا جلب بيانات HapMap المرحلية تلقائيًا من موقع HapMap على الويب. يأخذ أيضًا ملفًا منفصلاً يحتوي على معلومات موضع العلامة ، بالإضافة إلى العديد من ملفات الإدخال الإضافية الموضحة أدناه. يتم شرح الأشكال الأربعة بالتفصيل أدناه.

    تنسيق الارتباط

    يجب أن تكون بيانات الارتباط بتنسيق نسب الارتباط (مسبقة الصنع) ، مع أعمدة الأسرة ، والفرد ، والأب ، والأم ، والجنس ، والحالة المتأثرة والأنماط الجينية. يجب ألا يحتوي الملف على سطر رأس (أي يجب أن يكون السطر الأول للفرد الأول ، وليس أسماء الأعمدة). يرجى ملاحظة أن Haploview يمكنه فقط تفسير العلامات biallelic التي تحتوي على أكبر من أليلين (مثل السواتل المكروية) لن تعمل بشكل صحيح. قد يبدو نموذج سطر من هذا الملف مشابهًا لما يلي:

    معرّف أبجدي رقمي فريد لعائلة هذا الفرد. يجب ألا يشارك الأفراد غير المرتبطين باسم النسب.

    معرّف أبجدي رقمي لهذا الفرد. يجب أن يكون فريدًا داخل عائلته (انظر أعلاه).

    المعرّف المطابق لبطاقة هوية الأب الفردية أو "0" إذا كان الأب غير معروف. ملحوظة
    أنه في حالة تحديد هوية الأب ، يجب أن يظهر الأب أيضًا في الملف.

    المعرف المطابق لمعرف الأم الفردي أو "0" إذا كانت الأم غير معروفة لاحظ أنه إذا تم تحديد معرف الأم ، فيجب أن تظهر الأم أيضًا في الملف.

    جنس الفرد (1 = ذكر ، 2 = أنثى).

    حالة المودة لاستخدامها في اختبارات الارتباط (0 = غير معروف ، 1 = غير متأثر ، 2 = متأثر).

    يتم تمثيل كل علامة بعمودين (واحد لكل أليل ، مفصولة بمسافة) ومشفرة إما ACGT أو 1-4 حيث: 1 = A ، 2 = C ، 3 = G ، T = 4. يشير الرقم 0 في أي موضع النمط الجيني للعلامة (كما في الأنماط الجينية للعلامة الثالثة أعلاه) إلى البيانات المفقودة.

    تجدر الإشارة أيضًا إلى أنه يمكن استخدام هذا التنسيق مع البيانات غير المستندة إلى الأسرة. ما عليك سوى استخدام قيمة وهمية لاسم النسب (1 ، 2 ، 3.) وملء الأصفار لمعرف الأب والأم. من المهم أن تكون القيمة "الوهمية" لاسم Ped فريدة لكل فرد. يمكن استخدام حالة المودة لتعيين الحالات مقابل عناصر التحكم (2 و 1 ، على التوالي).

    يجب أن تتبع الملفات أيضًا الإرشادات التالية:

    • يجب إدراج العائلات على التوالي في الملف (أي يجب أن تكون جميع الأسطر التي لها نفس معرف النسب متجاورة)
    • إذا كان لدى الفرد والد غير صفري ، فيجب تضمين الوالد في الملف في السطر الخاص به.

    الأنماط المفردة على مراحل

    يجب تنسيق بيانات Haplotype لإدخال Haploview في أعمدة العائلة والفرد والأنماط الجينية. يجب أن يكون هناك سطرين (كروموسومات) لكل فرد. هذا هو التنسيق القياسي لإخراج TDT الخاص بـ Genehunter. انظر النموذج أدناه:

    يستخدم تنسيق البيانات الأرقام من 1 إلى 4 لتمثيل الأنماط الجينية ، والرقم صفر لتمثيل البيانات المفقودة ، والحرف "h" لتمثيل أليل متغاير الزيجوت. أي ، إذا كان الفرد متغاير الزيجوت في موضع معين ، فينبغي أن يكون كلا الأليلين "h" إذا كان الطور (الذي يقع عليه أي من الكروموسوم) غير مؤكد.

    مقالب بيانات مشروع HapMap

    يمكن تفريغ البيانات من مشروع HapMap حسب المنطقة باستخدام واجهة GBrowse. ملف البيانات المحفوظ في تنسيق علامة لكل سطر ويمكن تحميله في Haploview.

    يقوم GBrowse بتفريغ ملف واحد فقط ، والذي يحتوي على علامة واحدة لكل سطر ويتضمن العلاقات العائلية بين عينات HapMap بالإضافة إلى معلومات موضع العلامة. يحتوي تنسيق الملف على عدة سطور رأسية (تبدأ بـ "#") والتي يوزعها Haploview. افتح الملف عن طريق تحديد خيار "تصفح بيانات HapMap" واختيار الملف الذي تم تنزيله.

    إذا كنت ترغب في تحميل البيانات من مصدر آخر بتنسيق نمط HapMap ، فستحتاج إلى تحديد معلومات النسب في رأس الملف الذي قمت بإنشائه. يمكن القيام بذلك عن طريق إنشاء أسطر بالتنسيق التالي أعلى الملف الخاص بك:

    هذه البيانات هي نفس تنسيق ملف الأطفال الذي تمت مناقشته أعلاه. الحقول هي الأسرة ، الفرد ، الأب ، الأم ، الجنس ، الحالة المتأثرة. يمكنك بعد ذلك استبدال معرفات NAXXXX في صف الرأس لملف HapMap بالمعرفات الخاصة بك ، والتي تخضع لقيدين مهمين: يجب أن تكون فريدة عبر مجموعة البيانات بأكملها ، وليس فقط داخل العائلة ويجب أن تبدأ بالأحرف NA.

    تنسيق HapMap PHASE

    البيانات الموجودة في مرحلة HapMap يمكن تحميل التنسيق إلى Haploview باستخدام ثلاثة ملفات منفصلة. الأول هو ملف البيانات الذي يحتوي على معلومات الأليل الثنائي. والثاني عبارة عن ملف نموذج يحتوي على عمود واحد للمعرفات الفردية المستخدمة في مجموعة البيانات. الثالث هو ملف وسيلة إيضاح يحتوي على أربعة أعمدة: علامة ، وموضع ، و 0 ، و 1. فقط ملف وسيلة الإيضاح يتطلب رأسًا ويستخدم لفك تشفير المعلومات في ملف البيانات. يمكن تحميل هذه الملفات كملفات GZIP مضغوطة باستخدام مربع الاختيار "الملفات مضغوطة بواسطة GZIP" في شاشة التحميل الأولية. لمزيد من المعلومات حول تنسيق HapMap PHASE ، يرجى الاطلاع على الملف التمهيدي HapMap PHASE.

    تنزيل HapMap

    البيانات الموجودة في مرحلة HapMap يمكن أيضًا تنزيل التنسيق تلقائيًا إلى Haploview باستخدام علامة التبويب "تنزيل HapMap" في شاشة التحميل عن طريق تحديد إصدار HapMap والكروموسوم ولوحة التحليل ومواضع البداية والنهاية (بالكيلو بايت). يمكن أيضًا ملء هذه الخيارات تلقائيًا عن طريق الاستعلام عن قاعدة بيانات GeneCruiser باستخدام الجين أو معرف SNP. يمكن العثور على مزيد من المعلومات حول قاعدة بيانات GeneCruiser على موقع GeneCruiser.

    ملف معلومات العلامة

    يتكون ملف معلومات العلامة من عمودين ، اسم العلامة والموضع. يمكن أن تكون المواضع إما إحداثيات كروموسومية مطلقة أو مواضع نسبية. قد يبدو مثل هذا:

    يمكن تضمين عمود ثالث اختياري في ملف المعلومات لعمل ملاحظات إضافية لأشكال تعدد الأشكال المحددة. يتم تمييز SNPs مع معلومات إضافية باللون الأخضر على شاشة LD. على سبيل المثال ، يمكنك ملاحظة أن SNP الأول هو متغير ترميز على النحو التالي:

    تنسيق PLINK

    ملفات الإخراج من طقطقة يمكن تحميلها في Haploview باستخدام علامة التبويب PLINK في شاشة التحميل الأولية. يجب أن تحتوي ملفات PLINK على رأس ويجب أن يكون عنوان عمود واحد على الأقل بعنوان "SNP" وأن يحتوي على معرفات العلامة للنتائج في الملف. يتطلب تحميل PLINK أيضًا خريطة PLINK قياسية أو ملف خريطة ثنائي مطابق للعلامات الموجودة في ملف الإخراج. يمكن أن يكون ملف الخريطة إما ثلاثة أو أربعة أعمدة بدون رأس (عمود مسافة Morgan اختياري). يمكن أيضًا تضمين ملف الخريطة في ملف النتائج كأعمدة قليلة من الملف باستخدام مربع الاختيار "معلومات الخريطة المتكاملة". يمكنك أيضًا تحميل ملفات لا تستند إلى SNP عن طريق تحديد مربع "Non-SNP". لا تتطلب هذه الملفات ملف خريطة. يمكنك اختيار تحميل كروموسوم واحد فقط من ملف النتائج الخاص بك باستخدام مربع الاختيار "تحميل النتائج من الكروموسوم فقط" واختيار كروموسوم من القائمة المنسدلة. يمكنك أيضًا تحديد الأعمدة المراد تحميلها من ملف النتائج عن طريق تحديد مربع الاختيار "تحديد الأعمدة". لمزيد من المعلومات حول مخرجات PLINK ، يرجى الاطلاع على موقع PLINK الخاص بشون بورسيل.

    تحميل ملف دفعة

    تسمح لك علامة "-batch" في سطر الأوامر بتشغيل Haploview تلقائيًا (في وضع nogui) على عدة ملفات. يجب أن تحتوي ملفات الإدخال الدفعية على ملف وراثي واحد لكل سطر ، جنبًا إلى جنب مع ملف معلومات (إذا رغبت في ذلك) مفصولة بمسافة. يجب أن تتوافق أسماء الملفات مع القواعد التالية:

    • يجب أن تنتهي أسماء ملفات الأطفال بـ ".ped"
    • يجب أن تنتهي أسماء ملفات النمط الفرداني المرحلي بـ ". ربما"
    • يجب أن تنتهي أسماء ملفات HapMap بـ ".hmp"
    • يجب أن تنتهي أسماء ملفات المعلومات بـ ".info"

    يوضح المثال التالي ملفين (مع ملفات معلومات) وملف hapmap:


    المواد والأساليب

    يوضح الشكل 1 مخطط تدفق العمليات المكونة من سبع خطوات التي يستخدمها HaploShare في اكتشاف وتقييم مشاركة النمط الفرداني IBD.

    الخطوة 1. بناء كتالوج للأنماط الفردانية للسكان

    ينقسم الجينوم الكامل لكل عنصر تحكم إلى مناطق كتل LD ونقاط ساخنة لإعادة التركيب استنادًا إلى LD بين SNPs في عناصر تحكم صحية ، باستخدام تعديل من طريقة سابقة [23]. يعتبر زوج من SNPs لديه LD قوي أو ضعيف إذا كان حد الثقة العلوي أحادي الجانب بنسبة 95٪ لـ D 'هو & gt0.98 أو & lt0.90. لا يتم اعتبار الأزواج بين هذه القيم. إذا (أزواج LD القوية) / (أزواج LD القوية + أزواج LD الضعيفة) و GT0.95 في منطقة ما ، فإنها تعتبر كتلة LD. وبخلاف ذلك ، يتم التعامل معها على أنها نقطة ساخنة لإعادة التركيب وسيتم اعتبار هذه النيوكلوتايد بشكل فردي. يبدأ تقييم كتل LD والنقاط الفعالة من أكثر 5 ′ SNP في الكروموسوم. بمجرد تحديد الزوج الأول من SNPs المجاور مع LD القوي ، تتم إضافة SNPs المصب إلى الكتلة عن طريق تقييم LD لكل إضافة مع جميع SNPs في المنطقة ، حتى يتم استيفاء تعريف كتلة LD أو يتم استيفاء اثنين من SNPs المتجاورتين مفصولة بـ & gt50 كيلو بايت. ثم يتم استخدام برنامج PHASE [24،25] لإنشاء كتالوج للأنماط الفردانية لكل كتلة LD محددة مسبقًا مع ترددات السكان الخاصة بهم.

    في حالة عدم توفر بيانات تحكم ، يتم تحديد كتل LD والنقاط الفعالة لإعادة التركيب من مسافات وراثية بين علامات SNP التي تم الحصول عليها من HapMap. المسافة الجينية الأصغر من 0.001 سنتي مورغان (سم) بين اثنين من تعدد الأشكال المتجاورة في غضون 10 كيلو بايت تمدد كتلة LD. عادةً ما تولد الطريقتان نتائج مماثلة لكتل ​​LD ونقاط إعادة التركيب (ملف إضافي 1: الشكل S1). سيتم استخدام البيانات المرحلية من السكان المطابقين في HapMap لإنشاء كتالوج للأنماط الفردانية في هذه الحالة.

    الخطوة الثانية: التدرج التدريجي للأنماط الجينية في الحالات بناءً على كتالوج النمط الفرداني للسكان

    يتم تقسيم الأنماط الجينية في الحالات في كل كتلة LD إلى أنماط فردانية بناءً على كتالوج النمط الفرداني للسكان. قد يتم تطبيق عدة سيناريوهات. (أ) زوج واحد فقط من الأنماط الفردانية في الكتالوج يمكنه تفسير الأنماط الجينية في الكتلة. (ب) إذا كان أكثر من زوج واحد من الأنماط الفردانية متسقًا مع الأنماط الجينية في كتلة ، فسيتم تسجيل جميع الأزواج الممكنة من الأنماط الفردانية واستخدامها في خطوات لاحقة في تحديد مشاركة النمط الفرداني. (ج) لا يمكن تفسير النمط الجيني إلا من خلال النمط الفرداني المعروف جنبًا إلى جنب مع النمط الفرداني غير الموجود في الفهرس. تردد منخفض للسكان ، والذي يقدر بـ

    يفترض للنمط الفرداني غير المكتشف. هنا م هو حجم العينة لعناصر التحكم المستخدمة في إنشاء كتالوج النمط الفرداني ويفترض وجود احتمال 95٪ لعدم وجود النمط الفرداني في عناصر التحكم. (د) لا تتوافق الأنماط الجينية مع أي من الأنماط الفردانية المعروفة في الكتالوج. في هذه الحالة ، يتم افتراض أخطاء التنميط الجيني ولن يتم استخدام كتلة LD للكشف الأولي عن مشاركة النمط الفرداني. ومع ذلك ، لن يمنع امتداد النمط الفرداني المشترك الذي يحتوي عليه.

    الخطوة 3. الكشف عن مشاركة النمط الفرداني الزوجي في الحالات

    بعد الحصول على نتائج مرحلية لجميع الحالات ، يتم فحص أزواج الأفراد ومقارنتها لمشاركة النمط الفرداني المحتمل عبر كل كروموسوم. يتم استخدام الأنماط الفردانية المشتركة في كتلة LD (وليس SNPs في النقاط الفعالة لإعادة التركيب) لبدء المطابقة. يتم تمديد المنطقة المشتركة في كلا الاتجاهين بينما يتم دعمها بواسطة أنماط الفرد في كتل LD أو تعدد الأشكال في النقاط الساخنة ، مما يسمح بأخطاء التنميط الجيني المحتملة. يتم التسامح مع أخطاء التنميط الجيني إذا كانت نسبة 1٪ أو أقل من تعدد الأشكال في النمط الفرداني الممتد لا تمتثل لمشاركة النمط الفرداني. لا يُسمح بعدم التوافق في أول وأخر 20 تعددًا متعدد الكلور (SNP) من النمط الفرداني المشترك الممتد لتجنب الامتدادات الخاطئة. يتم اختيار النماذج الفردية الممتدة المشتركة بين الزوجين لفترة أطول من المسافة الجينية المحددة مسبقًا (مثل 0.5 أو 1 سم كما هو مستخدم في عمليات المحاكاة الموضحة في هذه الدراسة) وتقييمها للمشاركة بين أفراد متعددين.

    الخطوة 4. الكشف عن مشاركة النمط الفرداني بواسطة عينات متعددة

    تتم مقارنة أنماط Haplotypes المشتركة بين أزواج مع بعضها البعض لتحديد تلك التي تشترك على الأقل في جزء من النمط الفرداني الممتد. يتم دمجها عندما تتداخل أزواج مختلفة جزئيًا على الأقل فوق المنطقة المشتركة على نفس الأليل. يتم تعريف النمط الفرداني الممتد الذي يشاركه عدة أفراد على أنه النمط الفرداني الذي يتم مشاركته من قبل شخصين على الأقل في أي نقطة معينة ويحتوي على النمط الفرداني الأساسي الذي يجب أن يغطي كتلة LD واحدة على الأقل ويتم مشاركتها من قبل جميع الأفراد. يوضح الشكل 4. مثالاً على ذلك. قد تفقد الطريقة الأفراد الذين يشاركون جزءًا من النمط الفرداني الممتد لكنهم لم يستوفوا حد الاختيار للمشاركة الزوجية مع أي عينات أخرى في هذه المجموعة. لتضمين هذه في مزيد من التحليل ، يتم مسح العينات المتبقية لتلك التي تشترك في النمط الفرداني الأساسي بأكمله ولديها إجمالي طول النمط الفرداني المشترك الذي لا يقل عن نصف العتبة المستخدمة في البداية (انظر الخطوة 3 أعلاه).

    الكشف عن الأنماط الفردانية التي تحمل طفرة RET تمتد منطقة طفرة RET على مسافة 7 ميجا بايت في المسافة المادية ولكن فقط 1 سم في المسافة الجينية ، والتي تحتوي على 17 كتلة LD. تشترك جميع الحالات الـ 14 في النمط الفرداني الأساسي المكون من الكتل 8 إلى 11 ويتم مشاركة بقية المنطقة من خلال حالتين على الأقل في أي نقطة معينة. يختلف تواتر الأنماط الفردانية المشتركة في الكتل المختلفة من أقل من 1 ٪ إلى 60 ٪ بين سكان هونغ كونغ الصينيين.

    الخطوة 5. تقدير نسبة الاحتمالية للنمط الفرداني المشترك بواسطة IBD مقابل المشاركة عن طريق الصدفة

    معظم الأنماط الفردانية المشتركة من عامة السكان قصيرة وشائعة ، على الرغم من أن الطول المادي يمكن أن يكون مؤشرًا ضعيفًا [26]. ومع ذلك ، من المتوقع أن تكون أنماط الفردانية المؤسس الحديثة الحقيقية أطول وقد تحتوي على أنماط فردانية متعددة الحكمة من التردد المنخفض في السكان. نقدم هنا تقديرًا لاحتمالات المشاركة بسبب مرض التهاب الأمعاء أو عن طريق الصدفة ونستخدم لوغاريتم نسبتهم لتقييم أحداث مشاركة النمط الفرداني.

    إذا كانت المشاركة بسبب الصدفة العشوائية ، فإن وراثة الأنماط الفردانية من الكتل المختلفة يجب أن تكون أحداثًا مستقلة ، مع تجاهل صعوبة التعلم الضعيفة بين الكتل. وبالتالي ، يمكن تقدير احتماله على أنه نتاج احتمالية وراثة أنماط الفرد في كتل صعوبة التعلم المختلفة. احتمال مشاركة النمط الفرداني أنا في كتلة LD ي عن طريق الصدفة العشوائية ك ي تم تعيين الأفراد على أنهم ص ي، والتي ، بناءً على تواتر السكان للنمط الفرداني المشترك وعدد الأفراد الذين يتشاركون في النمط الفرداني ، يمكن تقديرها على النحو التالي:

    تواتر السكان من النمط الفرداني أنا في كتلة ي يكون ح جي. هنا ك هو عدد الأفراد الذين يتشاركون في النمط الفرداني الممتد ، و ك ي هو عدد الأفراد في ك التي تشترك في النمط الفرداني أنا في كتلة ي و ك يك. ( اليسار ( ابدأ hfill 2k hfill <> hfill k hfill end right) ) لتقف على عدد التوليفات الممكنة من ك الكروموسومات من إجمالي 2 ك الكروموسومات ، و (< يسار ( يبدأ hfill 2 hfill <> hfill 1 hfill end يمين)> ^ ) يشير إلى أن أحد هذين النوعين الفرداني تمت مشاركته بواسطة كل من ك ي فرادى. احتمال مشاركة النمط الفرداني الممتد بالصدفة العشوائية هو:

    أين س هو العدد الإجمالي للأفراد المعتبرين (على سبيل المثال ، حجم عينة الحالات) ، و م هو العدد الإجمالي لمجموعات LD ضمن هذا النمط الفرداني المشترك الممتد. هكذا L (H ا ) يمثل احتمال ك الأفراد الذين يتشاركون في النمط الفرداني الممتد عن طريق الصدفة العشوائية ، والنمط الفرداني الممتد لديه م كتل LD مع ترددات النمط الفرداني الخاصة بها ح جي. يتم النظر فقط في أنماط الفردانية الكتلية لتقدير الاحتمالية.

    إذا كانت المنطقة مشتركة بسبب الميراث من سلف مشترك حديث ، فيمكن تقدير الاحتمالية كدالة للعمر المقدر ، n ، للنمط الفرداني المشترك (الأجيال) بناءً على الطول الجيني للمنطقة و k ، عدد الأفراد الذين يشاركون النمط الفرداني الممتد:

    وبالتالي ن × ك يمثل العدد الإجمالي للانقسام الاختزالي في تشكيل النمط الفرداني الممتد المشترك و 0.5 هو فرصة أن يتم توريث النمط الفرداني في كل انقسام. نظرًا لأن الأفراد المختلفين قد يتشاركون أطوالًا مختلفة من النمط الفرداني الممتد ، ن تقدر من خلال متوسط ​​المسافة الجينية د ز (سم) من النمط الفرداني المشترك لكل من ك فرادى:

    يشير النمط الفرداني الموروث من 2 سم في المتوسط ​​إلى أن ما يقرب من 50 انقسامًا قد حدث في المنطقة المحيطة ، مما يشير إلى مشاركة سلف مشترك منذ حوالي 50 جيلًا. ثم يتم تقدير لوغاريتم نسبة احتمالية المشاركة بواسطة IBD والمشاركة عن طريق الصدفة على النحو التالي:

    الخطوة 6. تقدير التوزيع الفارغ التجريبي باستخدام الضوابط

    قد يتم تضخيم نسبة الاحتمالية بسبب ضعف LD بين كتل النمط الفرداني. الاختلافات في التغطية على الجينوم ، وخاصة في المتغيرات الجينية النادرة قد تؤدي إلى عدم الدقة. وبالتالي ، فإن التصحيح على مستوى الجينوم ضروري لجعل نسبة الاحتمالية قابلة للمقارنة عبر مناطق مختلفة. تُستخدم عملية محاكاة مونت كارلو لمسح توزيع الأنماط الفردانية المشتركة في الضوابط الصحية.

    إذا كانت المنطقة مشتركة بواسطة ك من بين ما مجموعه س الحالات ، إذن س يتم اختيار العينات بشكل عشوائي من إجمالي مجموعة عناصر التحكم. بالنسبة لهؤلاء الأفراد ، يتم الكشف عن مشاركة النمط الفرداني ويتم حساب نسب احتمالية المشاركة بواسطة IBD والمشاركة عن طريق الصدفة كما هو موضح أعلاه. في كل محاكاة ، أكبر نسبة احتمالية من جميع الأنماط الفردانية الممتدة في الجينوم بأكمله المشترك ك أو يتم تسجيل عدد أقل من الأفراد. يعد سبب استخدام أكبر نسبة احتمال من كل تكرار لحساب التوزيع الصفري في مجموعة سكانية بدلاً من استخدام تلك من جميع الأنماط الفردانية الممتدة التي تم تقييمها هو انعكاس لصعوبة تقدير التوزيع الفارغ لنسبة الاحتمالية أثناء أخذ مسألة الاختبار المتعدد بعين الاعتبار. نظرًا لأنه من الصعب جدًا نمذجة التأثير على نسب الاحتمالية حسب عمر النمط الفرداني الممتد وعدد الأفراد الذين يشاركونه ، فإن هذا القيد يضمن اكتشاف الأنماط الفردية الممتدة في الحالات الأحدث في التاريخ. تتكرر هذه العملية 1000 مرة على الأقل عن طريق اختيار مجموعة مختلفة من العينات من الضوابط بشكل عشوائي. إذا كانت العينات المتاحة في الضوابط أصغر من 2 س، يتم إنشاء العينات الافتراضية وفقًا لأليل SNP وترددات النمط الفرداني للعينات الموجودة ، كما هو مفصل أدناه. تستخدم كل جولة محاكاة عينة التحكم بأكملها باستثناء الأنماط الفردانية الممتدة التي تم اختيارها وتسجيلها بالفعل ، لتجنب تكرار الاختيار لنفس الأنماط الفردانية بين عمليات المحاكاة. هذا نهج يعالج مشكلة أن عينات التحكم غالبًا ليست كبيرة بما يكفي للسماح بالمحاكاة المتكررة دون اختيار نفس المجموعة الفرعية من الأفراد بين جولات مختلفة.

    ينتج عن هذا مجموعة من القيم القصوى لنسب الاحتمالية على مشاركة النمط الفرداني من عناصر التحكم ، والتي تتبع توزيع Gumbel ، مع جودة الملاءمة التي تصل دائمًا إلى 0.99 أو أعلى بموجب اختبار Anderson-Darling الذي تم إجراؤه في Matlab (ص & gt0.01 ، قبول H.0, مما يدل على أن البيانات تناسب التوزيع). لذلك ، يتم التعامل مع هذا التوزيع على أنه التوزيع الفارغ التجريبي على مستوى الجينوم لنسب الاحتمالية لمشاركة النمط الفرداني في السكان محل الاهتمام (يظهر كمنحنيات متقطعة في الشكل 2 والملف الإضافي 1: الشكل S2) ، والذي منه خطأ النوع الأول يمكن تقديرها وتحديد العتبات بناءً على المنطقة الواقعة أسفل المنحنى على الذيل الأيمن.

    إذا كانت عينات التحكم غير متوفرة أو كانت أصغر من ضعف تلك الحالات ، فإن HaploShare تنشئ مجموعة بيانات تحكم افتراضية بناءً على الأنماط الفردانية وترددات السكان بناءً على بيانات HapMap أو عناصر التحكم المتوفرة. باختصار ، بالنسبة للأنماط الجينية في الكتل ، يتم اختيار نمطين فرديين بشكل عشوائي مع احتمال يتناسب مع تواتر تعدادهم. بالنسبة للأنماط الجينية في النقاط الساخنة لإعادة التركيب ، يتم اختيار أليلات SNP بواسطة نموذج ماركوف مع فرصة اختيار تتناسب مع ضعفها LD إلى 5 ′ SNP ، كما هو موضح سابقًا [26]. يضمن هذا الإجراء أن ترددات النمط الفرداني الكتلي و LD من أجل إعادة تركيب النقاط الفعالة للنقطة الفعالة SNPs تظل مماثلة لتلك الموجودة في عينات HapMap الأصلية أو عناصر التحكم المحدودة المتوفرة.

    الخطوة 7. تقييم أهمية نسب احتمالية التسجيل

    ص يتم تعريف القيم على أنها احتمالية تجاوز الإحصاء المرصود في ظل فرضية العدم. كما هو مذكور أعلاه ، لم تستند الفرضية الصفرية التي تم إنشاؤها في هذه الطريقة (الخطوة 6) إلى جميع الأنماط الفردانية الممتدة التي تم تقييمها ، ولكن أفضلها من التكرارات. لذلك ، لتجنب الالتباس ، استخدمنا مصطلح "شبه ص قيمة "بدلاً من"ص قيمة في هذه الطريقة. "شبه ص القيمة "لا تعكس بشكل مباشر المعدل الإيجابي الخاطئ للطريقة ، ولكنها فقط تقيم أهمية مشاركة كل نمط فرداني. تم تطبيق التوزيع الذي تم إنشاؤه في الخطوة 6 للعثور على "شبه ص قيم "مشاركات النمط الفرداني المحددة بين الحالات. الملف الإضافي 1: أوضح الجدول S10 طريقة حساب المعدلات الإيجابية الخاطئة من شبه معينة ص القيم.

    الخطوة 8. إزالة الأنماط الفردانية الممتدة المشتركة بين كل من الحالات والضوابط دون اختلافات كبيرة في التردد

    من أجل تقليل النتائج الإيجابية الخاطئة بشكل أكبر ، يتم بعد ذلك مقارنة الأنماط الفردانية المشتركة بشكل كبير في الحالات بتلك المشتركة في عناصر التحكم للعثور على الأنواع المتداخلة في كل من الموقع والأليل ، وبدون اختلافات كبيرة في عدد الأفراد الذين يشاركون النمط الفرداني. لكل نمط فرداني مشترك وجد أنه مهم في الحالات ، تفحص HaploShare العينات في جميع عناصر التحكم التي تحمل نفس النمط الفرداني من خلال المعايير التالية: (1) يوجد تداخل كامل في النمط الفرداني الأساسي بين المشاركة في الحالات وعناصر التحكم (2) تشارك العينات الموجودة في عناصر التحكم أيضًا أكثر من 50٪ من النمط الفرداني الممتد بأكمله المشترك في الحالات و (3) لا يوجد فرق كبير في تكرار النمط الفرداني المشترك بين الحالات وعناصر التحكم بناءً على اختبار Chi square (ص & GT0.05). تعتبر الأنماط الفردانية المشتركة في الحالات وكذلك في الضوابط المحددة على هذا النحو بدون دليل على ارتباطها بالمرض الأساسي وتتم إزالتها من النتائج.

    إنشاء مجموعات بيانات لتقييم HaploShare وبرامج أخرى

    تم استخدام مجموعة بيانات حقيقية لعينات صينية من هونغ كونغ تم تنميطها وراثيًا باستخدام Illumina 610-Quad Beadchips لتقييم هذه المنهجية (& gt2،800 فرد ، انظر ملف إضافي للحصول على تفاصيل البيانات). تم استخدام البيانات لأول مرة لتقييم طريقة التدريج التي تم تقديمها في HaploShare. تم استخدام الأنماط الجينية من مجموعة واحدة من 1000 فرد لإنشاء كتالوج النمط الفرداني للسكان ، وتم اختيار مجموعة أخرى من 1000 فرد بشكل عشوائي لاختبار عملية التدرج. تم العثور على حوالي 91 ٪ من العلامات موجودة في كتل LD والباقي في النقاط الفعالة لإعادة التركيب. يمكن تفسير سبعة وتسعين في المائة من الأنماط الجينية الكتلية من خلال زوج فريد من الأنماط الفردانية.تم تفسير 2.7 ٪ من خلال أكثر من زوج واحد من الأنماط الفردانية و 0.2 ٪ من الأنماط الجينية الكتلية يمكن تفسيرها فقط من خلال نمط فرداني واحد معروف وغير معروف النمط الفرداني. نادرًا ما كانت الأنماط الجينية الكتلة (& lt0.01٪) غير متوافقة مع أي نمط فرداني معروف في مجموعة البيانات هذه ، على الرغم من أن هذا سيعتمد على حجم عينة التحكم المستخدمة ومعدل الخطأ لمنصة التنميط الجيني.

    لإنشاء أنماط فردانية حديثة للمؤسس ، تمت محاكاة عملية الانقسام الاختزالي كما هو موضح سابقًا [27]. في كل محاكاة ، تم اختيار عينة واحدة كـ "سلف" والعديد من العينات على أنها الجيل الأخير "أحفاد". تم تقسيم الأنماط الجينية للعينات المحددة داخل كتل LD وفقًا لكتالوج النمط الفرداني الذي تم تقديمه أعلاه (أو باستخدام الأنماط الجينية من أفراد الأسرة على مراحل بواسطة BEAGLE ، انظر أدناه). تم تصميم LD بين اثنين من SNPs المتجاورتين في النقاط الساخنة لإعادة التركيب أو بين كتل LD كما هو موضح أعلاه. لذلك ، تم أخذ صعوبة التعلم داخل وبين الكتل في الاعتبار في عملية التدريج.

    بعد التقسيم التدريجي ، تم اختيار "سلف" SNP واحد بشكل عشوائي على أنه "الطفرة المؤسس". في عملية الانقسام الاختزالي المحاكاة ، تم تقصير النمط الفرداني الممتد الذي يحمل الطفرة من خلال كل حدث إعادة تركيب محاكى [27]. بمجرد تحديد نطاق النمط الفرداني الذي يحمل "الطفرة المؤسس" ، تم استبدال أحد الأليلات في موقعه في كل من "أحفاد" الجيل الأخير بالنمط الفرداني المؤسس الحامل للطفرات لتوليد الأنماط الجينية التي تحمل هذا النمط الفرداني السلفي. تم خلط "الأحفاد المتأثرين" الذين تم إنشاؤهم بهذه الطريقة مع أفراد آخرين تم اختيارهم عشوائيًا في مجموعة "الحالة" لاختبار HaploShare وبرامج أخرى. ملف إضافي 1: يوضح الشكل S3 ارتباط المسافة الجينية والعمر (الأجيال) للأنماط الفردانية المؤسس التي تمت محاكاتها في هذه الدراسة.

    تم أيضًا استخدام طريقة بديلة لتوليد أنماط الفردانية المؤسس الأقل تشابهًا مع الخوارزمية المستخدمة بواسطة HaploShare في هذه الدراسة. واستخدمت بيانات من 192 زوجًا من أزواج الأشقاء تم التنميط الجيني لها باستخدام Illumina 610-Quad Beadchip. تم تعريف المناطق التي يُحتمل مشاركتها بين الأشقاء على أنها أي منطقة تزيد مساحتها عن 10 سم في المسافة الجينية وتحتوي على أقل من 0.1 ٪ من العلامات مع عدم تطابق كامل في النمط الجيني (أنماط وراثية متماثلة اللواقح). لكل زوج أشقاء ، تم اختيار 960 منطقة محتملة من مناطق IBD بأطوال مختلفة (1 ، 2 ، 3 ، 4 ، 5 سم في المسافة الجينية) بشكل عشوائي. تم إجراء مراحل مناطق الـ IBD باستخدام BEAGLE [16]. تم استخدام الأنماط الفردانية التي تمت مشاركتها بين الأشقاء على أنها "أنماط فردانية مؤسسية" في عملية المحاكاة الموضحة أعلاه وتمت مقارنة حساسية HaploShare في اكتشاف الأنماط الفردية للمؤسس الناتجة عن الطريقتين المختلفتين.

    تم تقييم المعدل الإيجابي الخاطئ ورتبة الأنماط الفردانية المؤسس المحاكاة من بين جميع الأنماط الفردانية الممتدة الهامة المشتركة في الجينوم بأكمله. تم اختيار ألف فرد بشكل عشوائي من مجموعة البيانات الحقيقية لعينات هونغ كونغ الصينية كبيانات اختبار في كل محاكاة. في 100 تكرار لكل منهما ، تم إدخال اثنين أو خمسة أو 10 من 1000 فرد بنمط فرداني مؤسس حديثًا من 10 إلى 50 جيلًا في العمر. جميع الأنماط الفردانية الممتدة المشتركة (المحاكاة وغير المحاكاة) التي تم تحديدها بواسطة HaploShare عند مستوى أهمية شبه ص & lt0.05 تم عدهم وترتيبهم من خلال شبههم ص القيم. تم استخدام متوسط ​​عدد الأنماط الفردانية المشتركة التي تم تحديدها وترتيب أنماط الفردانية المؤسس المحاكاة لتقييم الاكتشاف الإيجابي الكاذب. نظرًا لقيود التصميم الخاصة به ، يمكن لـ BEAGLE fastIBD فقط استخدام المشاركة المحاكاة الزوجية للأنماط الفردانية المشتقة من هذه المحاكاة كاختبار للإيجابيات الخاطئة.

    توافر البيانات

    يتوفر البرنامج والبيانات المستخدمة لاختبار البرامج من المواقع التالية:


    شاهد الفيديو: 1000 Genomes Project: Defining Genetic Variation in People (أغسطس 2022).