自学CHIP-seq分析第三讲~公共测序数据下载

时间：2023-05-05 17:28:14 阅读：最新文章文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

自学CHIP-seq分析第三讲~公共测序数据下载

这一步跟自学其它高通量测序数据处理一样，就是仔细研读paper，在里面找到作者把原始测序数据放在了哪个公共数据库里面，一般是NCBI的GEO，SRA，本文也不例外，然后解析样本数，找到下载链接规律

## step1 : download raw data cd ~

mkdir CHIPseq_test && cd CHIPseq_test

mkdir rawData && cd rawData ## batch download the raw data by shell script :

for ((i=593;i<601;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492/SRR1042$i/SRR1042$i.sra;done

很容易就下载了8个测序文件，每个样本的数据大小，测序量如下

621M Jun 27 14:03 SRR1042593.sra (16.9M reads)

2.2G Jun 27 15:58 SRR1042594.sra (60.6M reads)

541M Jun 27 16:26 SRR1042595.sra (14.6M reads)

2.4G Jun 27 18:24 SRR1042596.sra (65.9M reads)

814M Jun 27 18:59 SRR1042597.sra (22.2M reads)

2.1G Jun 27 20:30 SRR1042598.sra (58.1M reads)

883M Jun 27 21:08 SRR1042599.sra (24.0M reads)

2.8G Jun 28 11:53 SRR1042600.sra (76.4M reads)

虽然下载的SRA格式数据也是一个很流行的标准，但它只是数据压缩的标准，几乎没有软件能直接跟SRA的格式的测序数据来进行分析，我们需要转成fastq格式，代码如下：

## step2 : change sra data to fastq files.

## cell line: MCF7 // Illumina HiSeq 2000 // 50bp // Single ends // phred+33

## ## ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492

ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump $id;done

rm *sra

解压的详情如下，可以看到SRA格式有6~9倍的压缩了，比zip格式压缩的2~3倍高多了

## 621M --> 3.9G ## 2.2G --> 14G ## 541M --> 3.3G ## 2.4G --> 15G

本文来源：https://www.wddqw.com/doc/73b90cf24328915f804d2b160b4e767f5acf80e5.html

相关文章：

正在阅读：

自学CHIP-seq分析第三讲~公共测序数据下载01-01

《乘法的初步认识》观课报告--实验小学吴红01-01

美丽的中国美丽的祖国手抄报小报黑板报word模板 (3)01-01

罕的拼音组词01-01

2021年五一国际劳动节放假 ___最新01-01

描写梅花精神的美丽段落_301-01

祖国建设新成就手抄报的内容01-01

新建民办应用型本科院校日语专业发展前景探析——以广州工商学院01-01

公务员在人力资源管理中的问题01-01

上一篇：空间分布律下一篇：脂肪相关1ncRNAs在动物当中的发展现状