अनुक्रमित जीवों के जीनोम - डेटाबेस त्रुटियां

अनुक्रमित जीवों के जीनोम वाले सबसे प्रसिद्ध आधार - NCBI में बड़ी संख्या में व्यवस्थित त्रुटियां हैं। इस वजह से, इन आंकड़ों का उपयोग करना व्यावहारिक रूप से असंभव है, और इससे भी अधिक, उत्परिवर्तन के तंत्र का अध्ययन करना असंभव है (और, फलस्वरूप, विकास), क्योंकि इस मामले में अनुक्रमण के दौरान मानव त्रुटियों का अध्ययन किया जाता है, और प्राकृतिक उत्परिवर्तन नहीं। इसलिए, इस डेटा का उपयोग करने से पहले, इस डेटाबेस को परिष्कृत करना आवश्यक है।

और यह एक श्रमसाध्य कार्य है, एक एकल जीव के लिए हल करना असंभव है। इसलिए, मैं उन लोगों को ढूंढना चाहूंगा जो NCBI के समान ही अपना रूसी-भाषा स्रोत बनाना चाहते हैं, लेकिन अद्यतन जानकारी के साथ।

लेख से पता चलता है कि एनसीबीआई में स्थित जीनोम की त्रुटियां कितनी व्यापक हैं और वे अपने लिए कैसे देखेंगे, और उन्हें ठीक करने के कुछ तरीके।



जीनोम कहाँ स्थित हैं?

यहाँ ftp ftp.ncbi.nih.gov/genomes/ पर सभी अनुक्रमित जीनोम हैं। और यहाँ ftp.ncbi.nih.gov/genomes/Bacteria/ बैक्टीरियल जीनोम - यह उनके साथ शुरू होने लायक है।

हमें फ़ाइल all.fna.tar.gz की आवश्यकता है - इसमें लगभग 2000 बैक्टीरिया के जीनोम होते हैं। एक जीनोम क्या है? यह डीएनए की एक श्रृंखला है - अक्षर ए, टी, सी, जी डाउनलोड, अनपैक - हमें लैटिन में प्रजातियों के नाम के साथ निर्देशिकाओं का एक गुच्छा मिलता है। अंदर, एक नियम के रूप में, कई NC फाइलें _ ###### - प्रत्येक फाइल में एक अलग तथाकथित है। लोकस - एक डीएनए स्ट्रैंड (गुणसूत्र या प्लास्मिड)।

सादगी के लिए, हम आरएनए से निपटेंगे, क्योंकि प्रोटीन के साथ यह प्रक्रिया करना थोड़ा कठिन है। ऐसा करने के लिए, हमें दो और फ़ाइलों की आवश्यकता है:
1. all.rnt.tar.gz - एक विशिष्ट परिसर में सभी आरएनए की सूची और स्थान (शुरुआत, अंत, दिशा) समाहित करता है
2. all.frn.tar.gz - वास्तव में DNA से RNA के कटे हुए टुकड़ों की एक सूची है (इस RNA के होते हुए भी आश्चर्यचकित न हों - U के लिए T का कोई विकल्प नहीं होगा - क्योंकि यह DNA कोड है जिसके द्वारा ZNA बनाया जाएगा)

प्री-प्रोसेस कैसे करें

ये फाइलें प्रसंस्करण के लिए बहुत सुविधाजनक नहीं हैं। .Fna फ़ाइलों में पहली पंक्ति में एक टिप्पणी होती है, और फिर 70 वर्णों की प्रत्येक पंक्ति में एक डीएनए कोड, फिर एक पंक्ति विराम होता है। स्वाभाविक रूप से, यह एक खोज के लिए अच्छा नहीं है, और आपको इसे हाइफ़नेशन के बिना एक पंक्ति में गोंद करना होगा, और टिप्पणी को बाहर करना होगा। इस तरह से संसाधित फ़ाइल को एक्सटेंशन .fna.txt दिया जाएगा

इसके अलावा, एक और अति सूक्ष्म अंतर है: आरएनए को डीएनए से दाएं से बाएं, और इसके विपरीत से स्थानांतरित किया जा सकता है, और चूंकि डीएनए एक डबल हेलिक्स है, दाएं से बाएं इसका मतलब है कि एक डीएनए स्ट्रैंड से प्रतिलेखन, और बाएं से दाएं दूसरे पूरक के साथ। ।

इसका मतलब है कि खोजने के लिए, उदाहरण के लिए, RNA जिसके लिए एक नकारात्मक दिशा फ़ाइल all.rnt.tar.gz में इंगित की गई है - हमें प्राप्त .fna.txt फ़ाइल में नहीं खोजना होगा - इसलिए हमें कुछ भी नहीं मिलेगा। हमें एक रिवर्स फ़ाइल बनाने की आवश्यकता है (चलो इसे एक्सटेंशन .fna_.txt दें)। लब्बोलुआब यह है कि हम .fna.txt फ़ाइल लेते हैं - हम इसे अंत से पत्र द्वारा पढ़ते हैं और पूरक प्रतिस्थापन करते हैं:

टी = ए; जी = सी; ए = टी; सी = जी; एम = के; R, Y है; डब्ल्यू = डब्ल्यू; एस = एस; य = आर; के = एम; वी = बी; एच = डी; डी = एच; बी = वी

पहले 4 समझ में आते हैं और अच्छी तरह से जाना जाता है। बाकी काफी अप्रत्याशित हैं :), हालांकि वे दुर्लभ हैं, लेकिन वे हैं। उनमें से सार ऐसा है कि यदि अनुक्रमण के दौरान ए से जी को भेद करना असंभव है, तो आर सेट किया जाता है, आदि।

त्रुटियों या क्रॉस-विश्लेषण का पता लगाएं

मैंने इस प्रक्रिया को क्रॉस-विश्लेषण का नाम दिया। ब्याज की .frn फ़ाइल से इसका सार एक आरएनए का कोड ले रहा है। और हम .fna.txt और .fna_.txt फ़ाइलों के पूरे सेट पर एक मैच की तलाश कर रहे हैं।

आपको कितना लगता है कि आपको मैच मिलेंगे? बहुत हो। और यह पता लगा सकता है कि संबंधित रिकॉर्ड .rnt फ़ाइल में प्रकट नहीं हो सकता है। और सबसे अधिक बार यह पता चलता है कि फ़ाइल में शुरुआत और अंत ऐसा नहीं होगा, लेकिन 1 या 3 पदों द्वारा स्थानांतरित किया गया। यहां तक ​​कि एक अलग दिशा भी हो सकती है। मुझे अधिक महत्वपूर्ण त्रुटियों के साथ मिला जब यह संकेत दिया जाता है कि यह इले आरएनए है, लेकिन वास्तव में यह मेट आरएनए है।

इन त्रुटियों की संख्या से, लगभग 50%। मैं इस तरह के गलत डेटा के साथ कैसे काम कर सकता हूं, मुझे नहीं पता। NCBI के लोग इस तरह का सरल विश्लेषण क्यों नहीं करते - मुझे भी नहीं पता।

लेकिन अनुमान है कि कितने गलत निष्कर्ष जीवविज्ञानी तो इस डेटा पर भरोसा कर रहे हैं?

उसी समय, जब त्रुटियों को ठीक किया जाता है - एक ही विधि आपको यहां वर्णित प्रकार का एक प्रयोग करने की अनुमति देती है। प्रोकैरियोट्स या "बहु-प्रजाति उत्पत्ति" के विकासवादी तंत्र पर दिलचस्प परिणाम , हम अलग से ध्यान देते हैं कि यह एक प्राथमिक विधि कितनी है, लेकिन सटीक तथ्य देने वाले सटीक तथ्य दे सकते हैं। बहुत सी बातें।

एक सरल उदाहरण

क्लैमाइडोफिला न्यूमोनिया TW-183 के अनुक्रमित जीव की खोज करें। हम "CpBt08" टैग के लिए खोज करते हैं, यह पूरक (266485..266557) को इंगित करता है - यह क्रमशः शुरुआत और अंत है। जेनिड का एक लिंक भी है : 3284349 । इसके अलावा एक लिंक FASTA है - अनुक्रम वहां इंगित किया गया है

CGGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCC

यह सच नहीं है - वास्तव में यह होना चाहिए

GGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCCA

(और यह वास्तव में पूर्ण डीएनए अनुक्रमण में है, यह केवल गलत तरीके से पहचाना गया है)

उन्हें आगे रखो

 CGGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCC
   GGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCCA


हम देखते हैं कि अंतर पारी में है।

क्यों?

अब हम एक अन्य जीव क्लैमाइडोफिला न्यूमोनिया CWL029 पर जाते हैं , टैग की तलाश करें: CPnt08 और इसी तरह हम जीन को खोजते हैं

GGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCCA

क्या आपको लगता है कि यह सिर्फ एक अलग अनुक्रम है? एक, नहीं - यह वही है लेकिन स्थानांतरित कर दिया गया है। बेशक, सवाल यह है कि कौन सा सही है। और यहां सबसे खराब हिस्सा यह है कि इसे हल करना मुश्किल है। एक को आरएनए अनुक्रमों की त्रुटि दर और कुछ ज्ञान के आधार पर निर्णय लेना होगा। हालांकि, tRNA के लिए 34-36 स्थान पर एंटीकोडॉन के पत्राचार की जांच करने के लिए एक अधिक विशिष्ट मानदंड है और CCA के अंत की उपस्थिति (जो सभी tRNA होनी चाहिए)।

PS जो त्रुटियों की तलाश करने, सही या यहां तक ​​कि मेरे समान एक प्रयोग करने में रुचि रखता है, लेकिन अन्य डेटा पर - कृपया एक व्यक्तिगत संदेश के साथ संपर्क करें।

Source: https://habr.com/ru/post/In146814/


All Articles