NCBI批量下载基因序列
1、我们需要通过这一下三步到达页面,获取信息。在Gene数据库中搜索fabG,然后进入基因界面,再点击基因进入序列界面。这三部构成了方法的基础。



3、构造此方法用于获取基因的链接列表。从而可以进入基因的信息页面。import urllibimport urllib.requestfrom urllib.error import HTTPErrorfrom bs4 import BeautifulSoupimport reimport timefrom selenium import webdriverfile=open('C:\\Users\\jyjh\\Desktop\\fabG\\allfabG.txt','w')url='https://www.ncbi.nlm.nih.gov/gene/?term=fabG'geneurl='https://www.ncbi.nlm.nih.gov/'data=[]html=urllib.request.urlopen(url)bsObj=BeautifulSoup(html)geneurllist=[]for i in bsObj.find('tbody').findAll('tr'): geneurllist.append(geneurl+i.find('a')['href'])

5、for i in data: file.write(i+"\n") file.close()写入数据到txt 文档中。并保存关闭。

