生物資訊學學習心得

學習培訓心得體會
關注：2.66W次

第一篇：生物資訊學

生物資訊學是上世紀90年代初人類基因組計劃(hgp)依賴，隨著基因組學、蛋白組學等新興學科的建立，逐漸發展起來的生物學、數學和計算機資訊科學的一門交叉應用學科。目前生物資訊學的研究領域主要包括基於生物序列資料的整理和註釋、生物資訊挖掘工具開發及利用這些工具揭示生物學基礎理論知識等領域。生物資訊學作為新型交叉應用學科，可以依託本校已有的電腦科學、資訊學、生物學和數學等學科優勢，充分展現投入少、見效快、起點高的特色，推動學校學科建設和本科教學水平。

本實驗指導書中的8個實驗均設計為綜合性開發實驗，面向生物資訊學院全體本科學生和研究生，以及全校對生物資訊學感興趣的其他專業學生開放。生物資訊學實驗室將提供系統的保障，包括採用mail服務器和linux帳號管理等進行實驗過程管理和支援。限選《生物資訊學及實驗》的生物技術專業本科生至少選擇其中5個實驗，並不少於8個學時，即為課程要求的0.5個學分。其他選修者按照課時和學校相關規定計算創新學分。實驗一熟悉生物資訊學網站及其資料的生物學意義

實驗目的：

培養學生利用網際網路資源獲取生物資訊學研究前沿和相關資料的能力，熟悉生物資訊學相關的一些重要國內外網站，及其核酸序列、蛋白質序列及代謝途徑等功能相關資料庫，學會下載生物相關的資訊資料，瞭解不同的資料檔案格式和其中重要的生物學意義。

實驗原理：

利用網際網路資源檢索相關的國內外生物資訊學相關網站，如：ncbi、sanger、tigr、kegg、swissport、ensemble、中科院北京基因組研究所、北大生物資訊

學中心等，下載其中相關的資料，如fasta、genbank格式的核算和蛋白質序列、pathway等資料，理解其重要的生物學意義。

實驗內容：

1. 瀏覽和搜尋至少10個國外和至少5個國內生物資訊學相關網站，並描

述網站特徵；

2. 下載各網站的代表性資料各10條（組）以上，並說明其生物學意義；

3. 討論各網站適合做何種生物資訊學研究的平臺，並設計一個研究設想。實驗報告：

1. 各網站網址及特徵描述；

2. 代表性資料的下載和生物學意義的描述；

3. 討論：這些生物資訊學相關網站的資訊資源，可以被那些生物資訊學

研究所利用。

參考書目：

《生物資訊學概論》羅靜初等譯，北京大學出版社， 2014；《生物資訊學手冊》郝柏林等著，上海科技出版社， 2014；

《生物資訊學實驗指導》胡鬆年等著，浙江大學出版社， 2014。實驗二利用blast進行序列比對

實驗目的：

瞭解blast及其子程式的原理和基本引數，熟練地應用網路平臺和linux計算平臺進行本地blast序列比對，熟悉blast結果的格式和內容並能描述其主要意義，同時比較網上平臺和本地平臺的優缺點。

實驗原理：

利用實驗一下載的核算和蛋白質序列，提交到ncbi或者其他擁有blast運算平臺的網頁上，觀察其基本引數設定庫檔案型別，並得到計算結果；同時在本地伺服器上學會用formatdb格式化庫檔案，並輸入blast命令進行計算，獲得結果檔案。

實驗內容：

1. 向網上blast伺服器提交序列，得到匹配結果；

2. 本地使用blast，格式化庫檔案，輸入命令列得到匹配結果；

3. 對結果檔案進行簡要描述，闡述生物學意義。

實驗報告：

1. 闡述blast原理和比對步驟；

2. 不同型別blast的結果及其說明；

3. 討論：不同平臺執行blast的需求比較。

參考書目：

《生物資訊學概論》羅靜初等譯，北京大學出版社， 2014；

《生物資訊學實驗指導》胡鬆年等著，浙江大學出版社， 2014；。

實驗三利用clustalx(w)進行

多序列聯配

實驗目的：

掌握用clustal x(w)工具及其基本引數，對具有一定同源性和相似性的核酸與蛋白質序列進行聯配和聚類分析，由此對這些物種的親緣關係進行判斷，並且對這些序列在分子進化過程中的保守性做出估計。

實驗原理：

首先對於輸入的每一條序列，兩兩之間進行聯配，總共進行n*（n-1）/2次聯配，這一步通過一種快速的近似演算法實現，其得分用來計算指導樹，系統樹圖能用於指導後面進行的多序列聯配的過程。系統樹圖是通過upgma方法計算的。在系統樹圖繪製完以後，輸入的所有序列按照得分高低被分成n-1個組，然後再對組與組之間進行聯配，這一步用myers和miller演算法實現。

實驗內容：

1. 明確軟體所支援的輸入檔案格式，蒐集整理出合適的資料；

2. 在windows環境執行clustal x，在linux環境執行clustal w；

3. 實驗結果及分析，用treev32或njplotwin95生成nj聚類圖。

實驗報告：

1. 整理好的符合clustal的序列資料；

2. 提交資料網頁記錄和各步驟記錄；

3. 提供聚類圖和多序列聯配圖，並說明意義。

參考書目：

《生物資訊學概論》羅靜初等譯，北京大學出版社， 2014；

《生物資訊學實驗指導》胡鬆年等著，浙江大學出版社， 2014。實驗四 ests分析

實驗目的：

熟悉使用一系列生物資訊學分析工具對測序得到ests序列資料進行聚類處理，由此對獲得表達基因的丰度等相關資訊，並且對這些表達基因進行功能的初步詮釋，為後續實驗通過設計race引物獲得全長基因，以及進一步的功能注

釋和代謝途徑分析做好準備。

實驗原理：

首先用crossmatch程式去除ests原始序列中的載體成分和引物成分，然後用phrap生成congtig和singlet，用blast程式進一步將有同源性的contig和singlet進行功能聚類，最後通過blast對聚類獲得的cluster進行功能註釋。在實驗過程中將用到一些本實驗室寫好的perl程式用於連線各資料庫和工具軟體。

實驗內容：

1. 執行codoncode aligner程式，並用它建立工程檔案，匯入例子檔案

夾裡面的資料；練習對序列的各種檢視方式。

2. 使用codoncode aligner程式裡的clip ends, trim vector, assemble

等功能，完成序列的剪下、去雜質、組裝工作。

實驗報告：

1. 實驗各步驟記錄和中間結果檔案；

2. 舉例簡要說明結果檔案中資料的生物學意義。

參考書目：

《生物資訊學概論》羅靜初等譯，北京大學出版社， 2014；

《基因表達序列標籤（est）資料分析手冊》胡鬆年等著，浙江大學出版社， 2014。

實驗五利用primer premier5.0設計

race引物

實驗目的：

熟悉pcr引物設計工具primer premier5.0的一些基本功能，能夠根據實驗需要選擇相應的引物設計方法設計pcr引物。

實驗原理：

pcr實驗是當代分子生物學的基本實驗之一，由於目標序列和實驗目的的不同，相應設計引物的要求也不一樣。本實驗延續ests分析結果，對於其中需要獲得全長的基因進行race引物的設計，及5’和3’race引物，配合接頭序列設計單向引物，並模擬練習通過連接獲得全長的基因cds序列。最後設計已知全長基因序列的pcr擴增引物。

實驗內容：

1. 從網站下載並安裝primer premier5.0；

2. 從 genbank 中任意獲取一個 dna 序列，設計出該序列的合適引物；實驗報告：

1. 實驗各步驟使用的資料、運算平臺、結果檔案記錄；

2. 比較不同引物設計平臺和不同pcr實驗的差別；

參考書目：

《生物資訊學概論》羅靜初等譯，北京大學出版社， 2014；《生物資訊學實驗指導》胡鬆年等著，浙江大學出版社， 2014; 。

實驗八 perl程式的安裝、編寫、除錯實驗目的：

培養學生能在windows和linux兩種平臺安裝perl直譯器、編寫perl程式以及debug和執行的能力，熟悉perl語言基本語法，學會熟練編寫和運用perl程式進行基礎生物資訊學研究。

實驗原理：

perl語言是一門通用的指令碼語言，具有強大的字串處理功能，是生物資訊學研究的強大幫手，學會了perl語言，就能方便地處理生物資訊學研究中遇到的各種字串文字，促進研究的快速進行。

實驗內容：

1. 下載perl程式在windows和linux下的安裝包並進行安裝；

2. 編寫簡單的perl程式，並學會debug；

3. 編寫具有簡單功能的鹼基處理perl程式。

實驗報告：

1. perl直譯器安裝方法；

2. perl直譯器debug方法；

3. 討論：perl語言在生物資訊學研究中所起到的積極作用。

參考書目：

《perl 程式設計24學時教程》（美）皮爾斯著王建華等譯，機械工業出版社， 2014；

《生物資訊學手冊》郝柏林等著，上海科技出版社， 2014；《生物資訊學實驗指導》胡鬆年等著，浙江大學出版社， 2014

第二篇：生物資訊學

生物資訊學（bioinformatics）是在生命科學的研究中，以計算機為工具對生物資訊進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一，同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學(genomics)和蛋白質組學(proteomics)兩方面，具體說就是從核酸和蛋白質序列出發，分析序列中表達的結構功能的生物資訊。

具體而言，生物資訊學作為一門新的學科領域，它是把基因組dna序列資訊分析作為源頭，在獲得蛋白質編碼區的資訊後進行蛋白質空間結構模擬和預測，然後依據特定蛋白質的功能進行必要的藥物設計。基因組資訊學,蛋白質空間結構模擬以及藥物設計構成了生物資訊學的3個重要組成部分。從生物資訊學研究的具體內容上看，生物資訊學應包括這3個主要部分：(1)新演算法和統計學方法研究；(2)各類資料的分析和解釋；(3)研製有效利用和管理資料新工具。

生物資訊學是一門利用計算機技術研究生物系統之規律的學科。目前的生物資訊學基本上只是分子生物學與資訊科技（尤其是因特網技術）的結合體。生物資訊學的研究材料和結果就是各種各樣的生物學資料，其研究工具是計算機，研究方法包括對生物學資料的搜尋（收集和篩選）、處理（編輯、整理、管理和顯示）及利用（計算、模擬）。1990年代以來，伴隨著各種基因組測序計劃的展開和分子結構測定技術的突破和internet的普及，數以百計的生物學資料庫如雨後春筍般迅速出現和成長。對生物資訊學工作者提出了嚴峻的挑戰：數以億計的acgt序列中包涵著什麼資訊？基因組中的這些資訊怎樣控制有機體的發育？基因組本身又是怎樣進化的？

生物資訊學的另一個挑戰是從蛋白質的氨基酸序列預測蛋白質結構。這個難題已困擾理論生物學家達半個多世紀，如今找到問題答案要求正變得日益迫切。諾貝爾獎獲得者w. gilbert在1991年曾經指出：“傳統生物學解決問題的方式是實驗的。現在，基於全部基因都將知曉，並以電子可操作的方式駐留在資料庫中，新的生物學研究模式的出發點應是理論的。一個科學家將從理論推測出發，然後再回到實驗中去，追蹤或驗證這些理論假設”。生物資訊學的主要研究方向：基因組學 - 蛋白質組學 - 系統生物學 - 比較基因組學，1989年在美國舉辦生物化學系統論與生物數學的計算機模型國際會議，生物資訊學發展到了計算生物學、計算系統生物學的時代。

姑且不去引用生物資訊學冗長的定義，以通俗的語言闡述其核心應用即是：隨著包括人類基因組計劃在內的生物基因組測序工程的里程碑式的進展，由此產生的包括生物體生老病死的生物資料以前所未有的速度遞增，目前已達到每14個月翻一番的速度。同時隨著網際網路的普及，數以百計的生物學資料庫如雨後春筍般迅速出現和成長。然而這些僅僅是原始生物資訊的獲取，是生物資訊學產業發展的初組階段，這一階段的生物資訊學企業大都以出售生物資料庫為生。以人類基因組測序而聞名的塞萊拉公司即是這一階段的成功代表。原始的生物資訊資源挖掘出來後，生命科學工作者面臨著嚴峻的挑戰：數以億計的acgt序列中包涵著什麼資訊？基因組中的這些資訊怎樣控制有機體的發育？基因組本身又是怎樣進化的？生物資訊學產業的高階階段體現於此，人類從此進入了以生物資訊學為中心的後基因組時代。結合生物資訊學的新藥創新工程即是這一階段的典型應用。

第三篇：生物資訊學

剛剛接觸生物資訊的時候，大家都比較迷茫，我覺得它是一個交叉學科，要想學好得有一定的毅力。我的導師要求我至少作到以下幾個方面：

1，數學基礎要好點。線代，高數，統計等。

2，計算機知識。windows ,linux, unix系統等，各種常用生物軟體的使用。可以自己找來一個個試。

3，matlab 裡面有的關於生物方面的工具包也很多的。

4，生物知識，不用說的。

其他：如果要深入的話，最好會程式設計。什麼java，perl，等。我是剛開始學。大家多指教。

導師推薦了好幾本書：

《生物資訊學概論》 "introduction to bioinformatics"(英) t k attwood , d j parry-smith 著羅靜初等譯北京大學出版社 2014年4月第一版本書從生物資訊學的研究物件、意義出發，介紹生物資訊學研究的基本方法和常用工具。主要介紹的是核酸和蛋白質序列的計算機分析方法，探討利用現有的計算機程式，從現有的資料庫中能夠獲取什麼、不能夠獲取什麼。全書共分十章：1.概論，2.資訊網路，3.蛋白質資訊資源，4.基因組資訊資源，5. dna序列分析，6.雙序列比對，7.多序列比對，8.二次資料庫搜尋，9.資料庫搜尋例項，10.序列分析軟體包。每章末尾均提供了進一步閱讀指南和有關的網址。這本書的一大特色在於豐富的例子和圖表，使讀者可以很直觀的瞭解和掌握書中的內容。此外，書的末尾還附有與生物資訊學相關的詞彙表。總的說來，這本書實用性強，可以作為高等院校生物資訊學教材，也可以作為生命科學和生物技術各領域分子生物學研究和開發工作者的生物資訊學參考書。

《生物資訊學手冊》郝柏林張淑譽編著上海科學技術出版社 2014年10月第一版一本手冊式的生物資訊學書籍。除了介紹了生物資訊學，還包括了計算機及計算機網路（這一部分提供了一些網址）和分子生物學的知識。更為重要的是，該書的主要部分?quot;生物資訊資料庫"和"服務、軟體和演算法"部分，提供了大量的網址。幾乎是每一個條目下面都有不少網址。這本書將網路上的生物資訊學資源進行了索引式的介紹，並作了必要的說明。書中列舉了近千條網址和引文，基本涵蓋了生物學研究的各個方面，堪稱生物資訊的汪洋大海中的導航圖。對生物資訊學的服務、軟體和演算法，本書也作了較全面的描述。本書可供廣大生命科學工作者以及由物理學、數學和計算機學轉入生命科學領域的研究教學人員參閱（上面可以查到很多網址）。

《生物資訊學》趙國屏等編著科學出版社 2014年4月第一版本書是"863"生物高科技叢書之一。它比較全面地介紹了生物資訊學的若干個主要分支，並特別介紹了與人類基因組研究

相關的生物資訊學的一些較新成果；著重介紹了資料庫和資料庫的查詢、序列的同源比較及其在生物進化研究中的應用；以生物晶片中的生物資訊學問題為例，介紹與基因表達相關的生物資訊學問題；還介紹了蛋白質結構研究中的生物資訊學問題，以及與分子設計和藥物設計相關的生物資訊學技術。本書可供生物資訊學專業和生命科學相關專業的本科生、研究生和教學科研人員閱讀學習，也可供相關專業的科技和應用機構的科研、管理和決策人員參考。注意，本書有很大篇幅是講基因晶片和蛋白質結構預測的。

《生物資訊學--基因和蛋白質分析的實用指南》 "bioinformatics--a

practical guide to the analysis of genes and proteins "andreas vanis cis ouellette 著李衍達孫之榮等譯清華大學出版社 2014年8月第一版這本書由前衛計算生物學家撰寫，貫穿了已有的工具和資料庫，包括應用軟體、因特網資源、向資料庫提交dna序列以及進行序列分析和利用核酸序列與蛋白質序列進行預測的的方法。以下是該書的目錄：1.因特網與生物學家，2. genebank序列資料庫，3.結構資料庫，4.應用gcg進行序列分析，5.生物資料庫的資訊檢索，6. ncbi資料模型，7.序列比對和資料庫搜尋，

8.多序列比對和實際應用，9.系統發育分析，10.利用核酸序列的預測方法，11.利用蛋白質序列的預測方法，12.鼠類和人類公用物理圖譜資料庫漫遊，13. acedb: 基因組資訊資料庫，14.提交dna序列資料庫。本書有很多實際的序列和序列分析的例子。這本書適合高等院校的師生和從事生物工程研究的科技工作者閱讀。

在第14章提及的通訊資源：網際網路和通訊地址；電話和傳真號碼

ddbj/embl和genbank的一般聯絡資訊以及提交dna序列到這些資料庫的入口。

ddbj（資訊生物學中心，nig）

地址：ddbj，1111 yata， mishima，shiznoka 411，japan

傳真：81-559-81-6849

e-mail

提交：

更新：

資訊：

網際網路

主頁：

webin：

genbank（國家生物技術資訊中心，nih）

地址：gen bank national center for biotechnology information, nationtional library of medicine, national institutes of health, building 38a, room 8n805, bethesda md 20144

電話：301-496-2475

傳真：301-480-9241

e-mail

提交：

est/gss/sts

更新：

資訊：

網際網路

主頁：

bankit:

在dna序列資料庫中使用的遺傳密碼：

ddbj/embl/genbank特徵表文檔可用www方式獲得或者從ebi或ncbi的ftp伺服器上得到postscript檔案。

embl和genbank資料庫的版本資訊

embl

genbank

sequin: dna序列資料庫的提交和更新工具

est, sts和gts主頁，獲取資訊和向這些特定genbank資料庫提交序列

est

sts

gss

htgs主頁：高吞吐量基因組序列資源，工具和資訊

第四篇：生物資訊學

淺談對生物資訊學的認識

摘要生物資訊學是採用計算機技術和資訊理論方法研究蛋白質及核酸序列等各種生物資訊的採集、儲存、傳遞、檢索、分析和解讀的科學, 是現代生命科學與資訊科學、電腦科學、數學、統計學、物理學和化學等學科相互滲透而形成的交叉學科。經過一學期的學習，我學到了很多很有用的知識，給我印象最深的有序列比對、蛋白質結構分析、核酸序列分析、資料庫及資料庫檢索等內容。關鍵字：生物資訊學認識基因組學資料庫

時光飛逝，一學期馬上就要結束了，本學期的專業選修課也即將結束。在上課之前，我一直認為生物資訊學就是在講關於人類及動物的基因，以及基因之間的差別。但是，剛上了幾節課，我就發現生物資訊學根本不是我想象的那麼簡單，就這樣我懷著對自己的懷疑和對這門課的好奇走進了這門課。

生物資訊學是一門新興的、正在迅速發展的交叉學科,

美國國家基因組研究中心認為, 生物資訊學是一個代表生物學、數學和計算機的綜合力量的新興學(bioinformatics is an emerging scientific discipline representing the combined power of biology,mathematics, and computers)。

現代生物資訊學是採用計算機技術和資訊理論方法研究蛋白質及核酸序列等各種生物資訊的採集、儲存、傳遞、檢索、分析和解讀的

科學, 是現代生命科學與資訊科學、電腦科學、數學、統計學、

物理學和化學等學科相互滲透而形成的交叉學科。

在這短短的一學期課中，在老師的帶領下，我們學到了很多關

於生物資訊學的知識，其中給我印象最深的有序列比對、蛋白質結

構分析、核酸序列分析、資料庫及資料庫檢索等內容。

比如，序列比對，它的基本問題是比較兩個或兩個以上符號序列

的相似性或不相似性。從生物學角度來看，它包含很多意義；如從

相互重疊的序列片段中重構dna的完整序列等。老師主要給我們介

紹了blast比對。

再如，對蛋白質的分析。比如我們實驗測定了一條蛋白質序列

或者從dna序列翻譯得來一條蛋白質序列，我們要藉助生物資訊學

方法來對它進行基本性質及結構分析。其中基本性質包括它的分子

量、氨基酸數目、排列順序、等電點分析等。結構分析包括跨膜螺

旋分析等。要運用的工具是protparam tool 和tmhmm。對於這兩

個工具我都進行了實際操作練習，我覺得這對我們以後的理論學習

和實驗分析都非常重要。現代生物資訊學的主要研究領域及其進展

1、基因組學和蛋白組學研究

基因組和蛋白組研究是生物資訊學的主要內容. 同樣, 生物資訊

學是基因組和蛋白組研究中必不可少的工具。

基因組學(genomics)和蛋白組學(proteomics)的實質就是分析和解讀核酸和蛋白質序列中所表達的結構與功能的生物資訊. 這方面的研究已成為生物資訊學的主要研究內容之一.

一種生物的全部遺傳構成被稱為該種生物的基因組. 有關基因組的研究稱為基因組學. 其中, 序列基因組學(sequence genomics)主要研究測序和核苷酸序列; 結構基因組學(structural genomics)著重於遺傳圖譜、物理圖譜和測序等方面的研究; 功能基因組學

(functional genomics)則研究以轉錄圖為基礎的基因組表達圖譜; 比較基因組學(comparative ge2nomics)的研究內容包括對不同進化階段基因組的比較和不同種群和群體基因組的比較。

蛋白組和蛋白組學的概念是隨基因組和基因組學的出現而出現的. 蛋白組(proteme)的概念是由於基因表達水平並不能代表細胞中活性蛋白質的數量, 基因組序列並不能描述活性蛋白質所必需的翻譯後修飾和反映蛋白質種類和含量的動態變化過程而提出的. 在一定條件下某一基因組蛋白質表達的數量型別稱為蛋白組, 代表這一有機體全部蛋白質組成及其作用方式. 有關蛋白組的研究稱為蛋白組學. 其中, 蛋白組的研究技術與方法、雙向凝膠電泳圖譜以及對不同條件下蛋白組變化的比較分析是蛋白組學的主要研究內容。生物資訊學在基因組和蛋白組研究中所起的作用主要有:（1)基因組資訊結構的計算分析. 即對基因組資料進行大規模平行計算並預測各種新基因和功能位點, 研究大量非編碼區序列的資訊結構和可能的生物學意義。(2)模式生物全基因組資訊結構的比較研究.即

對已完成全基因組測序的各種模式生物的基因組資訊結構進行比較分析, 包括同源序列的搜尋比較和指導基因克隆.(3)功能基因組的相關資訊分析, 包括對基因表達圖譜及其相關演算法和軟體的研究, 與功能基因組資訊相關的核酸、蛋白質的空間結構的預測模擬以及蛋白質的功能預測。

2、生物資訊資料庫

複雜的生物和生物界和日新月異的生命科學研究產出的大量的生物學資訊，對這些資訊的儲存、檢索、比較分析必須藉助於計算機資料庫技術, 包括各類生物學資訊資料庫的建立與維護、資料的新增與註釋、更新與查詢、資料庫資料的網路化等研究內容。現有的資料庫有：核酸序列資料庫（genbank、embl、ddbj）、基因組資料庫、基因圖譜資料庫、蛋白質序列資料庫（swtss-

prot、pir）和蛋白質結構資料庫（interpro）等。隨著生命科學的不斷髮展，資料庫種類不斷增加、結構日益複雜、使用也越來越方便。

生物資訊學作為一門新興學科已經成為生命科學研究中必不可少的研究手段本文對資料庫與資料庫搜尋序列比對蛋白質結構預測藥物設計基因晶片技術幾個方面做了介紹較為系統地闡述了生物資訊學在這些領域的應用當然它所涉及

的內容與方法遠遠不只上面提到的那些新基因和的發現與鑑定非編碼區資訊結構分析遺傳密碼的起源和生物進化完整基因組的比較

研究大規模基因功能表達譜的分析等都是生物資訊學研究的物件相信不久的將來生物資訊學會在生命

科學領域扮演越來越重要的角色。

參考文獻：

1、現代生物資訊學及其主要研究領域蕭浪濤(湖南農業大學理學院, 湖南長沙 410128)

2、生物資訊學技術進展郭志雲張懷渝樑龍軍事醫學科學院生物工程研究所,北京100071;四川農業大學生命科學及理學院,雅安 625014

3、利用生物資訊學技術研究蛋白功能的幾種方法王劍利楊章民綜述王一理審閱西安交通大學醫學院免疫病理學研究室(西安, 710061)

第五篇：生物資訊學(第二版)

《精要速覽系列-先鋒版生物資訊學（第二版）》

head，sh & an

科學出版社2014

a生物資訊學概述

相關學習網站

b資料採集

dna,rna和蛋白質測序

1．dna測序原理

dna中核苷酸的順序是通過鏈式終止測序【也稱為脫氧測序（dideoxy sequencing）或以發明人命名的sanger方法】來確定。

2．dna序列的型別

基因組dna，是直接從基因組中得到，包括自然狀態的基因

複製dna（copy dna, cdna），通過反轉錄ｍｒｎａ得到的

重組dna，包括載體序列如質粒，修飾過的病毒和在實驗室使用的其他遺傳元件等

3．基因組測序策略

散彈法測序（shotgun sequence）包括隨機dna片段的生成，通過大量片段測序來覆蓋整個基因組

克隆重疊群測序（clone contig）dna片段用推理的方法亞克隆，並且進行系統的測序直到整個序列完成

4．序列質量控制

通過在dna雙鏈上進行多次讀取完成高質量序列資料的測定

可使用如phred等程式對最初的跟蹤資料（trace data）進行鹼基識別和質量判斷。載體序列和重複的dna片段被遮蔽後，使用phred等程式將序列拼接成重疊群（contigs），剩下的不一致部分通過人工修飾解決

5．單遍測序

低質量的序列資料可以由單次讀段（read）產生（單遍測序，single-pass sequencing）。儘管不很準確，但單遍測序如ests和gsss，可以低廉的價格快速大量的產生

6．rna測序

因為有大量的小核苷酸（minor nucleotide）（化學改變的核苷）存在於轉移rna（trna）和核糖體rna（rrna）中，所以rna測序不能像dna測序那樣直接進行。需要用特殊的方法來識別被改變的核苷，包括生化實驗，核磁共振譜（nrm spectroscopy）和質譜（ms）技術

7．蛋白質測序

蛋白質序列可以通過dna序列推斷得到，而rna測序不能提供有關已改變殘基或其他型別的翻譯後蛋白質修飾（比如剪接或二硫鍵的形成）

大部分蛋白質測序是通過質譜（ms）技術進行的

基因和蛋白質表達資料

1．全域性表達分析

rna水平的分析中有效的方法是從rna群體或cdna文庫中，甚至從序列資料庫中進行序列取樣。一個簡單的方法是從cdna文庫中隨機挑選5000個克隆進行測序。含量很多的mrnas在取樣的序列中出現的頻率很高，而含量較少的mrna出現頻率則較低，通過這些資料的統計分析可以確定相對的表達水平。

一個更高階的技術是基因表達的連續分析（serial analysis of gene expreaaion, sage）該方法使每個cdna產生很短的序列標籤（通常8~15nt），並在測序前把數百個標籤連線成連環分子（concatemer）。這樣一個測序反應中可蒐集到幾百條ｍｒｎａ的豐富資訊。每個sage標籤可以特異性識別一個特定基因，通過對標籤計數，可以確定每個基因的相對錶達水平。

然而，大部分全域性rna表達資料還需從微陣列實驗所測的訊號強度中獲取。全域性蛋白質表達資料主要從雙向聚丙烯醯胺凝膠電泳（two-dimensional polyacrylamide gel electrophoresis, 2d-page）分離，產生點陣的唯一模式（每個點代表一個單獨的蛋白質）。在2d-page實驗中，蛋白質表達資料可以通過每個點的訊號強度得到，每個二維凝膠上的蛋白訊號必須通過質譜（ms）技術來單個註釋。

2．dna微陣列

一個微陣列有一系列的dna元件（特徵），以格子形式排列在載玻片等微型支撐物上，通過與複合rna探針雜交可同時使很多基因的表達水平視覺化。若使用兩個不同的熒光標籤的探針，可以在同樣的陣列上直接測定不同樣本的不同基因的表達。微陣列中主要用到的兩個技術：機械點樣dna微陣列（spotted dna microarray）和寡聚核酸基因晶片(oligonucleotide gene chip)（由美國affymetrix公司獨家制造），後者在製造晶片是通過固態化學合成把寡聚核苷酸印在晶片上。

3．雙向蛋白質凝膠

2d-pag技術的原理是蛋白質可基於兩個不同的特性來分離：等電點（isoelectric point）和分子質量（molecular mass）。該技術中，第一方向蛋白沿固相ph梯度(immobilizes ph gradient)等電聚焦(isoelectric focusing)分離；在垂直方向進行分子量的分離。在凝膠染色後，染色斑點（spot）的模式可作為樣品中蛋白質的可重複使用的指紋（fringerprint）。通過樣本間比較可以識別不同表達的蛋白質，或被藥物誘導的蛋白質等。離體的蛋白質斑點（excised spot）可以通過質譜技術鑑定。

蛋白質互作資料

1．蛋白質互作的重要性

蛋白質-蛋白質互作導致瞬時或穩定多亞基複合物（multi-subunit complexes）的形成。瞭解這些複合物對於註釋蛋白質功能是必需，也是解釋訊號級聯和調控網路等分子途徑的一個步驟。死效應反映了兩個突變的蛋白質

2．遺傳方法

抑制子突變體可以通過恢復被破壞的蛋白質互作來補償有害的原始突變體。而合成致死效應反映了兩個突變的蛋白質不能相互作用，顯性負突變（dominant negative mutation）顯示了一種起著多聚複合體作用的蛋白質。

3．親和性方法

可通過幾種利用蛋白質親和性（特異結合的傾向）分析的物理方法來為蛋白質之間的相互關係提供直接的證據，比如親和性管柱層析法，免疫共沉澱。由ciphergen公司使親和實驗格式更趨微型化，使得在蛋白質晶片的發展中達到頂峰。

4．分子和原子的方法

x射線晶體學和核磁共振譜有助於在原子水平識別蛋白質互作，其它的蛋白質互作分析的分子方法包括熒光共振能量傳遞（fret），表面基元共振譜（spr）和表面增強鐳射接吸附/離子化技術（seldl），其中的很多方法可通過質譜技術直接整合到蛋白質註釋中。

5．基於文庫的方法

基於文庫的蛋白質互作實驗有兩個主要優點：它是高度並行的實驗格式；候選互作蛋白質及其cdnas之間直接關聯。

影響最大的方法是酵母雙雜交系統（yeast two-hybrid system，y2h），在這個系統中蛋白質通過識別與之連線的一個功能轉錄因子進行互作。

c資料庫--內容，結構和註釋

已註釋的序列資料庫

1．初級序列資料庫

genbank（ncbi）、核酸序列資料庫（embl）和日本的dna資料庫（ddbj）

2．swiss-prot和trembl

swiss-prot收集了確認的蛋白質序列及與結構，功能和所屬蛋白質家族有關的註釋資訊。相關資料庫trembl翻譯了初級核酸資料庫中的編碼序列。

其他資料庫

1．omim

omim指人類孟德爾遺傳的聯機資料庫，用於研究人類遺傳學和人類分子生物學的強大資源。每個omim條目都有一個對特定基因或性狀的已知資訊的全文總結，並有指向初級序列資料庫和其它遺傳學資源的連結。

2．incyte和unigene

incyte是商業資料庫，它提供了基因序列和專家註釋的記錄，這是專門為藥物研究開發服務的資料庫。unigene是一種用來把genbank序列聚類並與est資料相關聯的實驗工具。

3．結構資料庫

蛋白質資料庫（pdb），核酸資料庫（ndb），大分子結構資料庫（msd）

e通過序列相似性標準搜尋序列資料庫

序列相似性搜尋

1．序列聯配

序列聯配是是相似度量化的第一步，用來區分偶然性的相似和真實的生物學關係。聯配結果以變化（突變）、插入或缺失（或空位indel）來顯示序列之間的差異，這些差異可以用進化術語來說明。

2．聯配演算法

動態規劃演算法可以計算兩條之間的最佳聯配，其中廣泛使用的演算法有smith-waterman演算法（區域性聯配）和needleman-wunsch演算法（全域性聯配）。

3．聯配分支和空位罰分

用簡單的聯配分值來測量相同匹配殘基的比例或數目。得從聯配分值中扣去空位罰分，以保證聯配演算法能得出有生物學意義的結果而沒有太多的空位。

資料庫搜尋：fasta和blast

1．統計分值

相似度記分的p值是指獲得至少與兩條無關序列間的偶然相似性一樣高的分值的概率。低p值表明重要的匹配，這些匹配可能會有真實生物學意義。相關的e值（期望值）是至少與所識別的相似性記同樣高分值的偶然事件的期望概率。兩序列見相似度的低p值對應於大資料庫搜尋的高e值。

2．敏感性和特異性

敏感性衡量資料庫中真實生物序列關係的比例，該關係表現為擊中項（有意義的相似序列）。特異性指的是對應於真實生物學關係的擊中項的比例。改變e和p的預設值會導致這些互補的優良度測量方法之間的平衡。

f多序列聯配：基因和蛋白質家族

多序列聯配和家族關係

1．多序列聯配

多序列聯配表明兩條或兩條以上序列之間的關係，可以解釋關於蛋白質結構和功能的許多線索。當所考察的序列不同時，保守的殘基往往是維持穩定結構或生物學功能的關鍵殘基。

2．漸進聯配

漸進聯配方法以兩序列聯配來初步評價序列是如何相關的，並在這個基礎上構建嚮導樹，然後使用嚮導樹逐步新增序列到聯配中，從最密切相關的序列開始到距離最遠的序列結束。

蛋白質家族和模式資料庫

1．蛋白質家族

把序列分配到蛋白質家族中是預測蛋白質功能是非常有價值的方法。多序列聯配資訊的表示方法有很多種，包括聯配本身、一致序列、保守殘基和殘基模式、序列輪廓以及其他的

序列家族的概率模型。這些根據不同的應用都有不同的用途，其中大多數已經被開發和儲存在資料庫中，裡面含有大量不同蛋白質家族的資訊，這樣的資料庫稱為二級資料庫。

2．一致序列

這些序列把多序列聯配的資訊壓縮至單條序列，主要的缺點是除了在特定位置最常見的殘基之外，它們不能表示任何概率資訊。一致序列的產生說明了任何蛋白家族的表示都是有偏向的，這主要是由於來源的序列集是有偏向的。

3．prosite

prosite資料庫包括與蛋白質家族成員、特定蛋白功能及翻譯後修飾有關的序列模式。 prosite模式與一致序列的不同在於，它們往往比序列全長要短得多，並且給出了一種描述多序列聯配中一套可接受的殘基組合的方法。prosite模式中已知的假陽性（或假陰性）都已經在資料庫中註明。prosite資料庫在某些條目含有序列輪廓，以嘗試描述比模式更長的序列片段（通常指整個結構域）。

4．prints和blocks

prints和blocks是密切相關的，它們分別通過來自一組蛋白或蛋白家族中最高度保守區域的多序列聯配無空位片段的形式來表示蛋白質家族。

蛋白質結構域家族

1．結構域家族

許多蛋白質是由模式結構的結構域組建的，因此蛋白質家族的研究其實是對蛋白質結構域家族的研究。

2．序列輪廓

序列輪廓（也成權重矩陣）是一種描繪蛋白質結構與家族相關序列的方法，其優點是描述了結構域序列的全長，包括觀察到每個氨基酸的可能性，以及序列每個位點插入和缺失的可能性。

3．隱馬爾科夫模型

隱馬爾科夫模型（hmms）是蛋白質結構域家族序列的一種嚴格的統計模型，包括序列的匹配、插入和缺失狀態，並根據每種狀態的概率分佈和狀態間的相互轉換來生成蛋白質序列。代表某蛋白結構域家族的模型從該家族中生成序列的概率較高，從其他家族中生成序列的概率較低。

j微陣列資料分析

微陣列資料：分析方法

1．微陣列原始資料

微陣列資料就是經過雜交的陣列的掃描影象，掃描影象顯示每一個點的雜交訊號強度。這些影象可通過單通道、雙通道熒游標記、同位素標記或比色標記等方法獲得，其記錄方式各不相同。

2．資料質量

準確記錄個點的訊號強度是微陣列資料分析的基本要求，dna陣列可包含數千個特徵點，因此資料的獲取和分析必須自動進行。陣列上必須包含對照點以衡量非特異雜交和不同

陣列上雜交的多變性。

3．基因表達矩陣

從微陣列實驗得到的原始資料首先要轉換成表，即基因表達矩陣。表中的各行代表基因，各列代表不同的實驗條件，表中的資料為訊號強度，代表各個基因的相對錶達水平。

4．表達資料分組

基因表達矩陣中的每一個基因都有其特定的表達模式，即一系列條件下基因表達情況的測量值。微陣列資料分析就是要將這些資料按表達模式的相似程度進行分類。

序列取樣和sage

1．序列取樣資料分析

差異基因表達的研究，可以通過從不同的cdna文庫中隨機挑取克隆來進行，也可以通過抽取est資料來進行。這種分析需要抽取成千上萬的序列以達到統計上的顯著性，即使對於中度冗餘度的mrna也要如此。

2．sage

sage是一種序列取樣技術，其原理是將非常短的序列標記（9~15鹼基）連續為長的串聯體。sage標記的長度是最適於高通量分析，但基因依然可以被明確的鑑定出來。

標籤：學習心得資訊學生物

文章版權屬於文章作者所有，轉載請註明 https://wenfanwang.com/zh-tw/xindetihui/xuexipeixun/mglqo.html

當前位置：文範網 >

心得體會 >學習培訓心得體會 >

生物資訊學學習心得

相關內容

熱門文章

猜你喜歡