バイオインフォマティクス

生命科学と情報科学の融合分野

: bioinformaticsDNARNA(in silico )
X


概要

編集
 
遺伝子やゲノム配列はバイオインフォマティクス分野で頻繁に利用される。コンピューターを使用することで、手動よりも簡単確実に管理できる。

使使SNP [1]

() 調DNA[2]RNA[2][3][4] [5][6][7][8]

歴史

編集

Paulien HogewegBen Hesper1970[9][10][11][9]使

1950()(Margaret Belle Oakley Dayhoff)[12][13] 1[14]1970A(Elvin A. Kabat) Tai Te Wu19801991[15]

バイオインフォマティクスの目標

編集

[16]


関連分野との関係性

編集

(biological computation)使使DNARNA

配列解析

編集

 DNABLASTGenBank1600260,000(2008)[17]DNA

DNAシーケンサーからの出力データの解析

編集

DNAシーケンサーから出力される生データには多量のノイズや弱信号が含まれており、下流の解析に悪影響を与える可能性がある。さまざまな実験プロトコルや環境におけるDNAシーケンシングデータからの塩基決定(ベースコール)を行うアルゴリズムが開発されている。

アセンブリ

編集

DNAInstitute for Genomic Research TIGRHaemophilus influenzae使[18]35900()3GbCPU

アノテーション

編集

DNA

Haemophilus influenzaeThe Institute for Genomic Research1995[18]Owen WhitetRNArRNA[18] Haemophilus influenzae使GeneMarkDNA

2003ENCODE

計算進化生物学

編集







[19]


比較ゲノム解析

編集

(2 [20][21]

メタゲノム解析

編集

DNA[22]

パンゲノム解析

編集

パンゲノム解析(Pac Genomics)は2005年にTettelinとMediniによって導入された概念であり、特定の分類群において保持されている遺伝子の網羅的な遺伝子レパートリーを表す。最初は種レベルの近縁系統に適用されましたが、属や門といったより大きな分類群にも適用できる。パンゲノムはコアゲノムとフレキシブルゲノムの2つの群から構成されている。コアゲノムは全ゲノムに共通した遺伝子セットを指し、多くの場合、これらの遺伝子は生存に不可欠なハウスキーピング遺伝子である。一方でフレキシブルゲノム(Dispensable / Flexible Genome)は、1つ以上のゲノムにおいて存在しない一連の遺伝子を指す。例えばバイオインフォマティクスツールであるBPGAを使用して、細菌種のパンゲノムを特徴付けることができる[23]

遺伝的疾患

編集

[24] [25][26]GWAS[27]DNA[28]使使[29]

癌細胞の変異解析

編集

()()  ()()22[30]

[31]

遺伝子とタンパク質の発現

編集

遺伝子発現解析

編集

cDNAexpressed cDNA sequence tag; ESTserial analysis of gene expression; SAGE massively parallel signature sequencing; MPSSRNA-SeqWhole Transcriptome Shotgun Sequencing; WTSSin-situmRNA[32]使

タンパク質発現解析

編集

タンパク質マイクロアレイとハイスループット(HT)質量分析mass spectrometry; MS)は、生体サンプルに存在するタンパク質のスナップショットを提供する。得られるタンパク質マイクロアレイとHTMSデータの解析には、バイオインフォマティクスは重要である。前者のアプローチはmRNAをターゲットとするマイクロアレイと同様の問題に直面し、後者は大量の質量データをタンパク質配列データベースからの予測質量と照合し、不完全なペプチドを除くための複雑な統計分析が必要になる。組織における細胞タンパク質の空間局在は、免疫染色や組織マイクロアレイに基づいたアフィニティプロテオミクスによって解析することができる[33]

転写調節解析

編集

調1調  調DNA mRNA3調(Hi-C)

調 調調k SOM

細胞組織の解析

編集

細胞内のオルガネラや遺伝子、タンパク質、およびその他のコンポーネントの位置を分析するために、様々なアプローチが開発されている。これらのコンポーネントの位置は細胞内のイベントに影響を与えるため、その分布や局在を調べることは生物系の挙動を予測するのに役立つ。

オルガネライメージング

編集

顕微鏡写真から、オルガネラや分子を検出することができる。

タンパク質の局在

編集

調[34][35]

染色体における核酸立体構造

編集

Hi-CChIA-PETDNA3 TAD[36]

構造生物学

編集
 
3次元タンパク質構造の例。タンパク質立体構造の解析は、バイオインフォマティクス分析の一般的なテーマの一つである。

(234)()123綿 

1ABBA使使[37]

ネットワークとシステムバイオロジー

編集
 
タンパク質間の相互作用は、ネットワークによる解析と視覚化が行われる場合が多い。 このネットワークは、梅毒やその他の疾患の原因物質であるトレポネーマパリダムからのタンパク質間相互作用で構成されている。

ネットワーク分析

編集

ネットワーク分析は、代謝ネットワークやタンパク質間相互作用ネットワークなどの生物学的ネットワークの関係を理解することを目的としている。生物学的ネットワークは単一のタイプの分子またはエンティティ(遺伝子など)から構築される。

システム生物学

編集

システム生物学では、細胞内における複雑なプロセスの関係性を分析し視覚化するために、代謝プロセスを担う代謝産物や酵素のネットワークやシグナル伝達経路、遺伝子調節ネットワークといった細胞システムをコンピューターシミュレーションを用いて解析する研究が進められている。

分子相互作用ネットワーク

編集

2020年現在、数万を超えるタンパク質について、X線結晶学およびタンパク質核磁気共鳴分光法(タンパク質NMR)によって3次元構造が決定されている。

テキスト解析

編集

計算言語学による文献分析では、計算と統計に基づく言語学的解析を通じて、増大するテキストリソースからマイニングすることを目的としている。

画像・動画解析

編集


  • ハイスループットで高精度な細胞内局在の定量化(ハイコンテンツスクリーニング、細胞組織病理学、バイオイメージ情報学)
  • 形態計測学
  • 臨床画像の分析と視覚化
  • 生きている動物が呼吸する際、肺のリアルタイムの気流パターンを決定する
  • 実験動物の拡張ビデオ録画から行動観察を行う
  • 代謝活性測定のための赤外線測定
  • DNAマッピングにおけるクローンの重複の推測(たとえばSulstonスコア)

バイオインフォマティクスとコンピュータ

編集

プログラミング言語

編集

使

C++ - C

Java - BioJava 

Perl - BioPerl 

Python - BioPython 

Ruby - JavaBioRuby 

R - FDACRANBioconductor 

データベース

編集

DNA (PDB) (DAG; directed acyclic graph) 

ソフトウェア

編集

Software tools for bioinformaticsWebWeb

オープンソースのバイオインフォマティクスソフトウェア

編集

1980[38]in silico

BioconductorBioPerlBiopythonBioJavaBioJSBioRubyBioclipseEMBOSS.NET BioOrangeApache TavernaUGENEGenoCADOpen Bioinformatics Foundation[38] 2000Bioinformatics Open Source ConferenceBOSC[39]

WikiOpenerMediaWiki使[40]

バイオインフォマティクスのWebサービス

編集

SOAPREST

EBI3(SSS)(MSA)(BSA[41] WebWeb(bioinformatics workflow management systems)

バイオインフォマティクスワークフロー管理システム

編集

GalaxyKeplerTavernaUGENEAndurilHIVE
  • 個々のアプリケーションサイエンティスト自身が独自のワークフローを作成するための、使いやすい環境を提供する。
  • 科学者がワークフローを実行して結果をリアルタイムで表示できるようにする、インタラクティブなツールを科学者に提供する
  • 科学者間のワークフローの共有と再利用のプロセスを簡素化する
  • 科学者がワークフロー実行結果の出所とワークフロー作成ステップを追跡できるようにする。

BioCompute

編集

2014[42]3BioCompute[43]FDANIHHuman Variome ProjectEuropean Medical Federation for Medical InformaticsStanfordNew York Genome CenterGeorge Washington University

BioCompute

2016NIHBioComputeBioCompute 'standard trial use'bioRxivBioCompute使JSON[44][45]

教育プラットフォーム

編集

 ROSALIND  4273π 4273pi[46]  Raspberry Pi使[47][48]4273πRaspberry Pi4273π使[49][50]

学会・国際会議

編集

International Society for Computational Biology

Intelligent Systems for Molecular Biology (ISMB)European Conference on Computational Biology (ECCB)Research in Computational Molecular Biology (RECOMB)International Conference on Genome Informatics (GIW)

学習参考書

編集
  • A.ポランスキ, 後藤 修 (訳):「バイオインフォマティクス」、丸善出版、ISBN 978-4621062517、(2012年7月17日)。

脚注

編集

出典

編集


(一)^ Lesk (2013726). Bioinformatics. Encyclopaedia Britannica. 2017417

(二)^ abSim, A. Y. L.; Minary, P.; Levitt, M. (2012). Modeling nucleic acids. Current Opinion in Structural Biology 22(3): 273-78. doi:10.1016/j.sbi.2012.03.012. PMC 4028509. PMID 22538125. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4028509/. 

(三)^ Dawson, W. K.; Maciejczyk, M.; Jankowska, E. J.; Bujnicki, J. M. (2016). Coarse-grained modeling of RNA 3D structure. Methods 103: 138-56. doi:10.1016/j.ymeth.2016.04.026. PMID 27125734. 

(四)^ Kmiecik, S.; Gront, D.; Kolinski, M.; Wieteska, L.; Dawid, A. E.; Kolinski, A. (2016). Coarse-Grained Protein Models and Their Applications. Chemical Reviews 116 (14): 7898-936. doi:10.1021/acs.chemrev.6b00163. PMID 27333362. 

(五)^ Wong, K. C. (2016). Computational Biology and Bioinformatics: Gene Regulation. CRC Press/Taylor & Francis Group. ISBN 9781498724975 

(六)^ Joyce, A. P.; Zhang, C.; Bradley, P.; Havranek, J. J. (2015). Structure-based modeling of protein: DNA specificity. Briefings in Functional Genomics 14(1): 39-49. doi:10.1093/bfgp/elu044. PMC 4366589. PMID 25414269. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4366589/. 

(七)^ Spiga, E.; Degiacomi, M. T.; Dal Peraro, M. (2014). New Strategies for Integrative Dynamic Modeling of Macromolecular Assembly. In Karabencheva-Christova, T.. Biomolecular Modelling and Simulations. Advances in Protein Chemistry and Structural Biology. 96. Academic Press. pp. 77-111. doi:10.1016/bs.apcsb.2014.06.008. ISBN 9780128000137. PMID 25443955 

(八)^ Ciemny, Maciej; Kurcinski, Mateusz; Kamel, Karol; Kolinski, Andrzej; Alam, Nawsad; Schueler-Furman, Ora; Kmiecik, Sebastian (2018-05-04). Protein-peptide docking: opportunities and challenges (). Drug Discovery Today 23(8): 1530-37. doi:10.1016/j.drudis.2018.05.006. ISSN 1359-6446. PMID 29733895. 

(九)^ abHogeweg P (2011). The Roots of Bioinformatics in Theoretical Biology. PLOS Computational Biology 7(3): e1002021. Bibcode: 2011PLSCB...7E2021H. doi:10.1371/journal.pcbi.1002021. PMC 3068925. PMID 21483479. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3068925/. 

(十)^ Bioinformatica: een werkconcept. 1. Kameleon. (1970). pp. 28-29. 

(11)^ Hogeweg P (1978). Simulating the growth of cellular forms. Simulation 31(3): 90-96. doi:10.1177/003754977803100305. 

(12)^ Moody, Glyn (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN 978-0-471-32788-2. https://archive.org/details/digitalcodeoflif0000mood 

(13)^ Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp.

(14)^ Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences. Science 152 (3720): 363-366. (1966). Bibcode: 1966Sci...152..363E. doi:10.1126/science.152.3720.363. PMID 17775169. 

(15)^ Kabat Database and its applications: 30 years after the first variability plot. Nucleic Acids Res 28(1): 214-218. (January 2000). doi:10.1093/nar/28.1.214. PMC 102431. PMID 10592229. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC102431/. 

(16)^ Xiong, Jin (2006). Essential Bioinformatics. Cambridge, United Kingdom: Cambridge University Press. pp. 4. ISBN 978-0-511-16815-4 

(17)^ GenBank. Nucleic Acids Res. 36(Database issue): D25-30. (January 2008). doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2238942/. 

(18)^ abcWhole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science 269 (5223): 496-512. (July 1995). Bibcode: 1995Sci...269..496F. doi:10.1126/science.7542800. PMID 7542800. 

(19)^ Carvajal-Rodriguez A (2012). Simulation of Genes and Genomes Forward in Time. Current Genomics 11(1): 58-61. doi:10.2174/138920210790218007. PMC 2851118. PMID 20808525. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2851118/. 

(20)^ Brown, TA (2002). Mutation, Repair and Recombination. Genomes (2nd ed.). Manchester (UK): Oxford 

(21)^ Carter, N. P.; Fiegler, H.; Piper, J. (2002). Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust. Cytometry Part A 49(2): 43-48. doi:10.1002/cyto.10153. PMID 12357458. 

(22)^ Hiraoka, Satoshi; Yang, Ching-chia; Iwasaki, Wataru (2016). Metagenomics and Bioinformatics in Microbial Ecology: Current Status and Beyond (). Microbes and environments 31(3): 204-212. doi:10.1264/jsme2.ME16024. ISSN 1342-6311. PMC 5017796. PMID 27383682. https://doi.org/10.1264/jsme2.ME16024. 

(23)^ Chaudhari Narendrakumar M., Kumar Gupta Vinod, Dutta Chitra (2016). BPGA-an ultra-fast pan-genome analysis pipeline. Scientific Reports 6: 24373. Bibcode: 2016NatSR...624373C. doi:10.1038/srep24373. PMC 4829868. PMID 27071527. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4829868/. 

(24)^ Aston KI (2014). Genetic susceptibility to male infertility: News from genome-wide association studies. Andrology 2(3): 315-21. doi:10.1111/j.2047-2927.2014.00188.x. PMID 24574159. 

(25)^ Genome-wide association studies and the clinic: A focus on breast cancer. Biomarkers in Medicine 8(2): 287-96. (2014). doi:10.2217/bmm.13.121. PMID 24521025. 

(26)^ Genome-wide association studies in Alzheimer's disease: A review. Current Neurology and Neuroscience Reports 13(10): 381. (2013). doi:10.1007/s11910-013-0381-0. PMC 3809844. PMID 23954969. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3809844/. 

(27)^ Use of Linkage Analysis, Genome-Wide Association Studies, and Next-Generation Sequencing in the Identification of Disease-Causing Mutations. Methods in Molecular Biology. 1015. (2013). 127-46. doi:10.1007/978-1-62703-435-7_8. ISBN 978-1-62703-434-0. PMID 23824853 

(28)^ Hindorff, L.A. (2009). Potential etiologic and functional implications of genome-wide association loci for human diseases and traits. Proc. Natl. Acad. Sci. USA 106 (23): 9362-9367. Bibcode: 2009PNAS..106.9362H. doi:10.1073/pnas.0903103106. PMC 2687147. PMID 19474294. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2687147/. 

(29)^ Hall, L.O. (2010). Finding the right genes for disease and prognosis prediction. 1-2. doi:10.1109/ICSSE.2010.5551766. ISBN 978-1-4244-6472-2 

(30)^ Vazquez, Miguel; Torre, Victor de la; Valencia, Alfonso (2012-12-27). Chapter 14: Cancer Genome Analysis (). PLOS Computational Biology 8(12): e1002824. Bibcode: 2012PLSCB...8E2824V. doi:10.1371/journal.pcbi.1002824. ISSN 1553-7358. PMC 3531315. PMID 23300415. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3531315/. 

(31)^ Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M (2014). Second-Generation Sequencing for Cancer Genome Analysis. In Dellaire, Graham; Berman, Jason N.; Arceci, Robert J.. Cancer Genomics. Boston (US): Academic Press. pp. 13-30. doi:10.1016/B978-0-12-396967-5.00002-5. ISBN 9780123969675 

(32)^ Grau, J.; Ben-Gal, I.; Posch, S.; Grosse, I. (1 July 2006). VOMBAT: prediction of transcription factor binding sites using variable order Bayesian trees. Nucleic Acids Research 34(Web Server): W529-W533. doi:10.1093/nar/gkl212. PMC 1538886. PMID 16845064. http://www.eng.tau.ac.il/~bengal/VOMBAT.pdf. 

(33)^ The Human Protein Atlas. www.proteinatlas.org. 2017102

(34)^ The human cell. www.proteinatlas.org. 2017102

(35)^ Thul, Peter J.; Åkesson, Lovisa; Wiking, Mikaela; Mahdessian, Diana; Geladaki, Aikaterini; Blal, Hammou Ait; Alm, Tove; Asplund, Anna et al. (2017-05-26). A subcellular map of the human proteome. Science 356 (6340): eaal3321. doi:10.1126/science.aal3321. PMID 28495876. 

(36)^ Ay, Ferhat; Noble, William S. (2 September 2015). Analysis methods for studying the 3D architecture of the genome. Genome Biology 16(1): 183. doi:10.1186/s13059-015-0745-7. PMC 4556012. PMID 26328929. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4556012/. 

(37)^ Hoy, JA; Robinson, H; Trent JT, 3rd; Kakar, S; Smagghe, BJ; Hargrove, MS (3 August 2007). Plant hemoglobins: a molecular fossil record for the evolution of oxygen transport. Journal of Molecular Biology 371 (1): 168-79. doi:10.1016/j.jmb.2007.05.029. PMID 17560601. 

(38)^ abOpen Bioinformatics Foundation: About us. Official website. Open Bioinformatics Foundation. 2011510

(39)^ Open Bioinformatics Foundation: BOSC. Official website. Open Bioinformatics Foundation. 2011510

(40)^ Brohée, Sylvain; Barriot, Roland; Moreau, Yves (2010). Biological knowledge bases using Wikis: combining the flexibility of Wikis with the structure of databases. Bioinformatics 26(17): 2210-2211. doi:10.1093/bioinformatics/btq348. PMID 20591906. http://bioinformatics.oxfordjournals.org/content/26/17/2210.full 201555. 

(41)^ Nisbet, Robert (2009). Bioinformatics. Handbook of Statistical Analysis and Data Mining Applications. John Elder IV, Gary Miner. Academic Press. p. 328. ISBN 978-0080912035. https://books.google.com/?id=U5np34a5fmQC&pg=PA328&q=bioinformatics%20service%20categories%20EBI 201459 

(42)^ Commissioner. Advancing Regulatory Science - Sept. 24-25, 2014 Public Workshop: Next Generation Sequencing Standards (). www.fda.gov. 20171130

(43)^ Simonyan, Vahan; Goecks, Jeremy; Mazumder, Raja (2017). Biocompute Objects ? A Step towards Evaluation and Validation of Biomedical Scientific Computations. PDA Journal of Pharmaceutical Science and Technology 71(2): 136-46. doi:10.5731/pdajpst.2016.006734. ISSN 1079-7440. PMC 5510742. PMID 27974626. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5510742/. 

(44)^ Alterovitz, Gil; Dean, Dennis; Goble, Carole; Crusoe, Michael R.; Soiland-Reyes, Stian; Bell, Amanda; Hayes, Anais; Suresh, Anita et al. (2017-09-21) (). Enabling Precision Medicine via standard communication of HTS provenance, analysis, and results. doi:10.1101/191783. http://biorxiv.org/lookup/doi/10.1101/191783. 

(45)^ BioCompute Object (BCO) project is a collaborative and community-driven framework to standardize HTS computational data. 1. BCO Specification Document: user manual for understanding and creating B., biocompute-objects, (2017-09-03), https://github.com/biocompute-objects/HTS-CSRS 20171130 

(46)^ Barker, D; Ferrier, D.E.K.; Holland, P.W; Mitchell, J.B.O; Plaisier, H; Ritchie, M.G; Smart, S.D. (2013). 4273π : bioinformatics education on low cost ARM hardware. BMC Bioinformatics 14: 243. doi:10.1186/1471-2105-14-243. PMC 3751261. PMID 23937194. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3751261/. 

(47)^ Barker, D; Alderson, R.G; McDonagh, J.L; Plaisier, H; Comrie, M.M; Duncan, L; Muirhead, G.T.P; Sweeny, S.D. (2015). University-level practical activities in bioinformatics benefit voluntary groups of pupils in the last 2 years of school. International Journal of STEM Education 2(17). doi:10.1186/s40594-015-0030-z. 

(48)^ McDonagh, J.L; Barker, D; Alderson, R.G. (2016). Bringing computational science to the public. SpringerPlus 5(259): 259. doi:10.1186/s40064-016-1856-7. PMC 4775721. PMID 27006868. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4775721/. 

(49)^ Robson, J.F.; Barker, D (2015). Comparison of the protein-coding gene content of Chlamydia trachomatis and Protochlamydia amoebophila using a Raspberry Pi computer. BMC Research Notes 8(561): 561. doi:10.1186/s13104-015-1476-2. PMC 4604092. PMID 26462790. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4604092/. 

(50)^ Wregglesworth, K.M; Barker, D (2015). A comparison of the protein-coding genomes of two green sulphur bacteria, Chlorobium tepidum TLS and Pelodictyon phaeoclathratiforme BU-1. BMC Research Notes 8(565): 565. doi:10.1186/s13104-015-1535-8. PMC 4606965. PMID 26467441. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4606965/. 

関連項目

編集

外部リンク

編集

日本の関連学会

編集

外部リンク

編集