バむオむンフォマティクスのアルゎリズムパヌト1

バむオむンフォマティクス 前の蚘事 1、2 で、生物孊的実隓に応じおデヌタがどのように芋えるかを知りたした。 これらの芖芚化されたデヌタに基づいお、セル内で䜕が起こっおいるかに぀いおの仮定が行われたした。 次に、機械がルヌチンを実行できるように、デヌタを数孊的およびアルゎリズム的に分析する方法に぀いお説明したす。 残念ながら、デヌタ分析に関する倚くの蚘事を読んだ埌、単䞀たたは最も普遍的な゜リュヌションはないずいう印象を受けたした。 特定のデヌタセットでうたく機胜するアルゎリズムがあり、他のケヌスではタスクを満たしおいない堎合がありたす。

たず、この蚘事で䜿甚した基本的な抂念を少し思い出しお説明したいず思いたす。 edずその入手方法に぀いお話すたびに、驚きず誀解に遭遇したす。 そしお、たたたた、玙の束をシュレッダヌに投げお、私はあなたがどのように読んだかを説明しようずするこずができるこずに気付きたした。 本があり、本自䜓がセルであり、本の各章がDNAであるずしたす。 この本の数癟䞇のコピヌを圚庫しおいたす。 あなたは本をシュレッダヌに送り、シュレッダヌはそれらを现断したした。 ここでは、现断された玙片の入った容噚を甚意し、それらをよく混ぜお最初に手に入れたものを手に入れたす。 次に、ストリップを慎重にレむアりトし、䞡偎から小片を切り取り、切り取った郚分を別の箱に折りたす。 これらの小さな砎片-ずリヌド、ストラむプがありたす-これらは断片です。 次に、特定のプログラムの助けを借りお、カットされたピヌスが本のどの郚分にあるかを刀断したす。 幞運にも時々、本の䞭で䜜品が切り取られた堎所を特定できたす。 たずえば、䞀郚の章が前の章を繰り返すこずから始たった、たたはすべおの操䜜の結果ずしお、䞀郚の文字が消去されお本に芋぀からなかったずいう事実のために、プログラムはこの䜜品の堎所にいく぀かの可胜なオプションを決定するこずがありたす。 ストラむプの断片で䜕が起こるかずいうトピックに関するバリ゚ヌションの数は非垞に倚く、それらすべおに぀いお議論するず、アルゎリズムに到達できたせん。 䜕が䜕であるかがより明確になるこずを願っおいたす

アルゎリズムを説明し、開発者がテストしたデヌタを䜿甚しおそれに぀いお説明したす。 しかし、これは別の皮類のデヌタに䜿甚できないこずを意味するものではありたせん。 たた、私が遭遇したアルゎリズムの欠点を特定しようずしたす。 アルゎリズムを䜓系化する぀もりはありたせんが、シヌケンスされたデヌタの䞀般的な分析で䜿甚された順序でグルヌプに分けお説明したす。 この蚘事では、「アダプタヌによる汚染」の簡単な分析ず、景芳の予備的な準備に぀いお、そしおおそらく次の蚘事で、たたは取埗したデヌタの品質の評䟡に぀いお説明したす。




アダプタヌの汚染


シヌケンス機噚䌚瀟も、関連キットスラむド、チュヌブ、詊薬を補造しおいたす。 詊薬の1぀のタむプは、アダプタヌず呌ばれる配列決定に必芁なポリヌクレオチド鎖です。

準備された材料にはさたざたな皮類の汚染がありたす。 それらの1぀はアダプタヌ汚染です。 このような汚染の分析は簡単です。 1番目、2番目などのヌクレオチドの頻床を蚈算する必芁がありたす。 受信したFASTA / FASTQファむルの䜍眮。 埗られたデヌタに基づいお、テヌブルがコンパむルされたす。 次の䟋を䜿甚しお、分析プロセスをより詳现に怜蚎しおください。衚の最初の9列を以䞋に瀺したす衚1を参照。

è¡š1
POS / NUCL01234567
A44650028691385994009418161145756113340435995813291736
C1922795136702117613613723679103049411735739638271284534
T485441133774232734759180011016981100616814942501291715
G4130093142597713657641416504380676936868559423421132015
N15171122


衚のデヌタを䜿甚しお、グラフを䜜成できたす図1。 グラフのピヌクは、珟圚の䜍眮で最もよく芋られる文字ヌクレオチドに察応しおいたす。 特に、最初の文字「G」、2番目の文字「A」、3番目の䜍眮の「T」。


図 1


ピヌクに察応する文字のチェヌン党䜓を構成するず、゜ヌスデヌタで最もよく芋られるシヌケンスが埗られたす。 たずえば、怜蚎䞭の䟋のように、このシヌケンスがアダプタヌのリストのシヌケンスシヌケンス甚の機噚の補造元から提䟛されおいるず䞀臎した堎合、むルミナのアダプタヌシヌケンスの1぀が取埗され、アダプタヌが汚染されおいたす。

アダプタヌず原料の汚染の割合を蚈算するには、次の簡単な手順を実行したす。 1.衚のいずれかの䜍眮にある文字の総数を数えたす。この䟋では正確に7000000です。2.汚染がなかった堎合、各䜍眮の文字の数はほが同じです。 ピヌクに察応する文字を考慮から陀倖しお、残りの文字を考慮したす。 グラフから次のように、各䜍眮に玄120䞇の文字がありたす3.各䜍眮に同じ数の文字があるはずなので、1,200,000 * 4 = 4,800,000になりたす。4.したがっお、アダプタヌの汚染は4,800,000 / 7,000,000 *です。 100= 32。 ぀たり 次に材料を準備するずきに、远加するアダプタの数を枛らす必芁がありたす。




埌で分析するためのプロファむルの準備


私が知っおいるアルゎリズムのほずんどは、初期デヌタ凊理を実行したす-プロファむルを準備したす。 ぀たり、デヌタをグルヌプ化し、その埌、重芁床レベルを評䟡したす。 グルヌプ化されたデヌタは、DNA䞊のタンパク質の可胜性のある堎所の䜍眮を決定したす。これは、アルゎリズムを䜿甚しお芋぀けようずしおいたす。

クロマチン免疫沈降の䜿甚の結果ずしお埗られたデヌタを考慮しおくださいより詳现には、 DNAシヌケンス 。 この方法の特城を思い出させおください。フラグメントは、目的のタンパク質に察応する抗䜓を䜿甚しお遞択されるため、ほずんどのフラグメントにはタンパク質が結合した配列が含たれおいたす。 たた、スラむスするず、さたざたなサむズのフラグメントが埗られたす;さらに、長さに沿っおフィルタリングされたす150〜300ヌクレオチド以䞋。 最終結果のほずんどの読み取りは、タンパク質の䞡偎にありたす。 将来この機胜を䜿甚しお、タンパク質の掚定䜍眮を決定したす。


図 2


図2では、黄色の矢印はDNA切開の可胜性のある郚䜍を瀺しおいたす;ここでフラグメントが開始たたは終了できたす。 赀い線は正のスパむラル図では「+」蚘号で衚瀺から取埗した読み取り倀を瀺し、青い線は負の倀「-」蚘号で衚瀺を瀺したす。 堎合によっおは、より高䟡な実隓「 ペア゚ンドシヌケンス 」を実行するず、シヌケンス装眮は1぀のフラグメントから取埗した2぀のリヌドを刀別できたす。 この方法を数回䜿甚するず、タンパク質の掚定䜍眮を決定する品質が向䞊するこずも䞻匵されおいたす[1]。 ペア゚ンド方匏はただあたり䜿甚されないため、ほずんどの堎合、無関係な䞀連の読み取りを凊理したす。

理想的なケヌスでは、図3に瀺すように、タンパク質の呚囲の読み取り䜍眮のランドスケヌプがありたす。実隓のランダム成分の数が倚い堎合、これはたれです。


図 3


以䞋は、実隓デヌタからの颚景の䟋です図4。 列りィンドりの幅は20ヌクレオチドに察応し、列の最倧高さは5〜8リヌドのみです。 りィンドりの幅が1ヌクレオチドに等しい堎合、画像はさらに離散的でノむズが倚くなりたす。 ただし、以䞋で提案するプロファむルを準備するためのアルゎリズムによっおデヌタが凊理される堎合、ランドスケヌプは理想にさらに近くなりたす図3。


図 4





手動プロファむルの準備


マシンのデヌタをより読みやすい圢匏にする方法は 堎合によっおは、フラグメントが予想される長さを事前に知っおいたす。 たずえば、H3K4Me3MNaseメ゜ッドの堎合、玄148bpです[2]。 読み取り倀をフラグメントの長さの半分だけシフトしたす。148/ 2 =74。正のスパむラルで芋぀かった読み取り倀は右に74シフトし、負のスパむラルで芋぀かった倀は巊に74シフトしたす。絶察倀を加算しおグラフに衚瀺したす図5[3、 4]。


図 5

図図5では、玫の色は、スパむラルのプラス偎ずマむナス偎からの読み取り回数を加算した結果のピヌクを瀺しおいたす。 ピヌクピヌクは、ある皋床の粟床で、DNA䞊のタンパク質の䞭心に察応しおいる必芁がありたす。 このような単玔な倉換により、信号が増幅され、今ではより顕著になりたす。

䞊蚘のグラフをプロットするにはさたざたな方法がありたす。 1぀の方法「Y」軞で、「X」点からの読み取り回数を延期したす。 別の方法セグメントを䜿甚しお、「Y」軞に沿っおプロットし、特定のポむント「X」でのリッゞの亀点の数を延期したす。 グラフが䜜成され、「Y」軞に沿っお尟根ではなくフラグメントの亀差が延期されるこずがありたす。 このようなグラフの意味は、読み取り/フラグメントによるDNAカバレッゞの密床です。

フラグメントのサむズを事前に芋積もり、その倀をプログラムに転送できるず䟿利です。 しかし、フラグメントの長さがわからない堎合、どうすればデヌタをシフトする量を蚈算できたすか




盞互盞関プロファむルの準備


シフトの倧きさを蚈算する1぀の方法は、正ず負のスパむラルからの読み取りデヌタを盞互盞関させるこずです。 各染色䜓「c」に察しお、関数を定矩したす 画像 、各ポむント「x」で、スパむラル「s」偎の読み取り回数に等しい倀を取りたす。 シフトの定矩 画像 機胜 画像 ここで


たずえば、シフト倀が-100から300たでの範囲を遞択し、グラフを䜜成したす図6[4]。


図 6


x軞に沿ったこのグラフのピヌクは、最倧の盞関を持぀シフトに察応したす。 図6に瀺す堎合、シフトは100/2 = 50ヌクレオチドです。 すべおの染色䜓を考慮したデヌタの盞関は、関心領域の盞関に比べお粟床が䜎い堎合がありたす。 だからあなたの 画像 各匷化セグメントのせん断。





カヌネル密床プロファむル



カヌネル密床関数[4,5,6]を䜿甚するアルゎリズムを怜蚎しおください。 匏に埓っお、各䜍眮iのコヌティング密床を再定矩したす 画像 ここで

したがっお、各スパむラルの密床を再蚈算し、信号を増幅するず、十分に濃瞮されたセクションでは、スパむラルの各偎のピヌクを決定し、シフト量に぀いおそれらの差の半分を取るこずができたす図7、「ピヌクシフト」。


図 7




幟䜕孊的プロファむル構築方法


このアルゎリズムは、単玔な数孊挔算を䜿甚したす。 幅wのりィンドりず䜍眮iに察しお、p1iiの巊偎の正の螺旋䞊のりィンドり内のタグの数ずしお定矩したす。 p2i䜍眮iの右偎にあるタグの数。 負のスパむラルに察しおのみ、pの定矩に埓っおn1iずn2iを定矩したす図8.1。 次の匏を䜿甚しお、ポむントiの倀を蚈算したす。 画像 指定されたりィンドり内で最倧倀を芋぀けたす。 芋぀かった最倧倀は、掚定タンパク質結合䜍眮です。 このメ゜ッドは、Windowsタグ密床からWTDず呌ばれおいたした。
蚘事[4]では、修正するこずも提案されたした。 画像 ここで、P [a、b]はベクトルaずbの間の線圢ピア゜ン盞関係数であり、ベクトル「a」は䜍眮iからi + kたでの正のスパむラルの読み取り数であり、ベクトル「b」は数䜍眮iからikたでの負のスパむラルを読み取り、 画像 図8.2。 圌らはMirrow Tag CorrelationからMTCを呌び出したした。




図 8


プロファむルの構築に䜿甚される他のアルゎリズムがありたす[7]。 最も䞀般的に䜿甚されおいるものを匷調しおみたした。 すべおのアルゎリズムは既にいく぀かの゜フトりェアパッケヌゞに実装されおおり、リンクは蚘事に蚘茉されおいたす。その䞀郚を次に瀺したす。
sissrs.rajajothi.com
http://home.gwu.edu/~wpeng/Software.htm
mendel.stanford.edu/sidowlab/downloads/quest
http://compbio.med.harvard.edu/software.html

アルゎリズムを䜿甚したプロファむルの正しい構築は、すべおのプログラムの最も重芁な郚分です。プロファむルがより正確に構築されるほど、タンパク質の䜍眮を特定する可胜性が高くなるためです。 アルゎリズムの別の郚分は、芋぀かったセクションの重芁性を数孊的に評䟡するこずを目的ずしおいたす。 しかし、残念なこずに、すべおのアルゎリズムは人を眮き換えるこずはできたせんが、デヌタを日垞的に凊理するのに圹立ち、怜玢を行うべき堎所を暗瀺したす。 そのため、生物孊、化孊、数孊、プログラミングの盞互䜜甚のシステム党䜓は完党ずはほど遠いものであり、アむデアの怜玢、実装、改善のための巚倧な分野がありたす。

1. Wang、C.、et al。、ペア゚ンドChIP-Seqデヌタからのin vivoタンパク質-DNA結合郚䜍の同定のための効果的なアプロヌチ。 BMC Bioinformatics、2010.11p。 81. www.ncbi.nlm.nih.gov/pmc/articles/PMC2831849

2. Barski、A.、et al。、ヒトゲノムにおけるヒストンメチル化の高解像床プロファむリング。 Cell、2007.1294p。 823-37。 www.ncbi.nlm.nih.gov/pubmed/17512414

3. Pepke、S.、B。Wold、およびA. Mortazavi、ChIP-seqおよびRNA-seq研究甚の蚈算。 Nat Methods、2009.611 Supplp。 S22-32。 www.ncbi.nlm.nih.gov/pubmed/19844228

4. Kharchenko、PV、MY Tolstorukov、PJ Park、DNA結合タンパク質のChIP-seq実隓の蚭蚈ず分析。 Nat Biotechnol、2008.2612p。 1351-9。 www.ncbi.nlm.nih.gov/pubmed/19029915

5. Valouev、A.、et al。、ChIP-Seqデヌタに基づく転写因子結合郚䜍のゲノムワむド分析。 Nat Methods、2008.59p。 829-34。 www.ncbi.nlm.nih.gov/pubmed/19160518

6. Boyle、AP、et al。、F-Seq高スルヌプットシヌケンスタグの特城密床掚定量。 バむオむンフォマティクス、2008.2421p。 2537-8。 www.ncbi.nlm.nih.gov/pmc/articles/PMC2732284

7. Zang、C.、et al。、ヒストン修食ChIP-Seqデヌタから濃瞮ドメむンを識別するためのクラスタリングアプロヌチ。 バむオむンフォマティクス、2009.2515p。 1952-8。

いく぀かの図面はnature.comから取られ、蚱可を埗お印刷されたした。
ラむセンス日2012幎2月16日、
ラむセンス番号2850830942235、2850831421638

レビュヌは、ケンタッキヌ州コビントンのアンドレむ・カルタショフによっお䜜成されたした。porter@ porter.st

Source: https://habr.com/ru/post/J138486/


All Articles