【Python小试】计算目录下所有DNA序列的Kmer并过滤-eolink官网

【Python小试】计算目录下所有DNA序列的Kmer并过滤

背景

Kmer是基因组组装算法中经常接触到的概念，简单来说，Kmer就是长度为k的核苷酸序列。一般长短为m的reads可以分成m-k+1个Kmer。Kmer的长度和阈值直接影响到组装的效果。

Denovo组装流程：原始数据——数据过滤——纠错——kmer分析——denovo组装。

组装测序策略：根据基因组大小和具体情况选择个大概的k值，构建contig所需的数据量以及所需的构建的文库数量。对于植物基因组一般考虑的是大kmer（>31），动物一般在27左右，具体根据基因组情况调整。需要在短片段数据量达到20X左右的时候进行kmer分析。Kmer分析正常后，继续加测数据以达到最后期望的数据量。

编码

import osimport sys# convert command line arguments to variableskmer_size = int(sys.argv[1])count_cutoff = int(sys.argv[2])# define the function to split dnadef split_dna(dna, kmer_size): kmers = [] for start in range(0,len(dna)-(kmer_size-1),1): kmer = dna[start:start+kmer_size] kmers.append(kmer) return kmers# create an empty dictionary to hold the countskmer_counts = {}# process each file with the right namefor file_name in os.listdir("."): if file_name.endswith(".dna"): dna_file = open(file_name) # process each DNA sequence in a file for line in dna_file: dna = line.rstrip("\n") # increase the count for each k-mer that we find for kmer in split_dna(dna, kmer_size): current_count = kmer_counts.get(kmer, 0) new_count = current_count + 1 kmer_counts[kmer] = new_count# print k-mers whose counts are above the cutofffor kmer, count in kmer_counts.items(): if count > count_cutoff: print(kmer + " : " + str(count))

作者：Bioinfarmer

集成管理平台接口，助力企业数字化转型的关键

554 2022-08-31

【Python小试】计算目录下所有DNA序列的Kmer并过滤

管理平台接口文档，优化业务流程的灵魂之匙

java版微信和支付宝退款接口

集成管理平台接口，助力企业数字化转型的关键

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路

【Python小试】计算目录下所有DNA序列的Kmer并过滤

微信扫一扫：分享

推荐文章

最近发表

热评文章