当前位置: 首页 > news >正文

picard标记DI/DS标签

代码示例

java -jar /mnt/zmds01/Product/bioinfo/gitlab/biobase/bin/picard.jar MarkDuplicates \
I="input.sort.bam" \
O="out_marked_dup.bam" \
M="out_dup_mertrics.txt" \
AS=true \
MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000 \
TAGGING_POLICY=All \
CREATE_INDEX=true

代码详解

一、命令结构与核心功能

java -jar [Picard工具路径] MarkDuplicates \[输入参数] \[输出参数] \[可选配置参数]
核心功能:识别并标记高通量测序数据中因 PCR 扩增或测序仪重复读取产生的重复序列,为后续分析(如变异检测、定量分析)排除技术重复干扰。

二、参数详解

1. 基础调用部分

  • java -jar
     
    Picard 是 Java 编写的工具,需通过 Java 虚拟机运行,-jar指定执行的 jar 包文件。
  • /mnt/zmds01/Product/bioinfo/gitlab/biobase/bin/picard.jar
     
    Picard 工具的安装路径,包含所有功能模块(此处调用MarkDuplicates模块)。
  • MarkDuplicates
     
    要执行的具体功能模块,用于识别和标记重复序列。

2. 输入输出参数(必填)

  • I="/path/to/input.sort.bam"
    • IInput的缩写,指定输入的 BAM 文件路径。
    • 要求:输入文件必须是按坐标排序的比对文件(文件名中的.sort.bam表明已排序),这是工具准确判断重复序列的前提。
  • O="/path/to/output_marked_dup.bam"
    • OOutput的缩写,指定输出的 BAM 文件路径,包含标记重复后的结果。
    • 特点:输出文件中,重复序列会被添加0x400(十进制 1024)的标记(SAM 格式的第 2 字段),同时保留所有原始序列信息。
  • M="/path/to/dup_metrics.txt"
    • MMetrics的缩写,指定输出的重复率统计文件路径。
    • 内容:包含总 reads 数、重复 reads 数、重复率、文库复杂度等关键指标(示例如下):
      ## METRICS CLASS picard.sam.markduplicates.MarkDuplicatesMetrics
      LIBRARY    UNPAIRED_READS_EXAMINED    READ_PAIRS_EXAMINED    UNMAPPED_READS    ...    ESTIMATED_LIBRARY_SIZE
      None    12345    67890    123    ...    543210

3. 可选配置参数(功能优化)

  • AS=true
    • ASASSUME_SORTED的缩写,设置为true表示 “假设输入文件已按坐标排序”。
    • 作用:跳过工具内部的排序检查步骤,加快运行速度(若输入文件未正确排序,会导致结果错误,需确保sort.bam确实已排序)。
  • MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000
    • 限制工具运行时打开的文件句柄数量(Linux 系统对进程打开文件数有默认限制)。
    • 作用:避免处理大文件时因 “打开文件过多” 导致的报错,1000 是一个安全的高值设置。
  • TAGGING_POLICY=All
    • 控制重复序列标签(DIDS)的添加范围:
      • 默认值为DUPLEXSINGLE,仅对重复序列添加标签;
      • 设置为All时,所有序列(包括非重复的 “代表序列”)都会被添加标签:
        • DI(Duplicate Set Index):重复组唯一 ID(同一原始片段的扩增产物共享相同DI);
        • DS(Duplicate Set Size):该重复组包含的总序列数。
    • 重要性:您的分析脚本依赖DI标签进行重复组分组,此参数确保所有序列都能被正确分组。
  • CREATE_INDEX=true
    • 自动为输出的 BAM 文件生成索引(.bai文件)。
    • 作用:索引文件允许后续工具(如samtools、IGV 基因组浏览器)快速定位特定区域的序列,无需读取整个 BAM 文件,提升分析效率。

三、运行逻辑与输出结果

  1. 运行流程:
     
    ① 读取输入的排序 BAM 文件,解析每条序列的比对位置(染色体、起始坐标)和序列特征;
     
    ② 基于位置和序列一致性判断重复组(来自同一原始 DNA 片段的扩增产物);
     
    ③ 为每个重复组添加DI(组 ID)和DS(组大小)标签,并标记重复序列(0x400标志);
     
    ④ 输出标记后的 BAM 文件、索引文件和重复率统计文件。
  2. 关键输出文件:
    • out_marked_dup.bam:标记重复后的主文件,包含所有序列及DI/DS标签;
    • out_marked_dup.bai:BAM 索引文件(由CREATE_INDEX=true生成);
    • out_dup_mertrics.txt:重复率统计,用于评估数据质量(如重复率过高可能提示 PCR 扩增偏差)。

四、使用注意事项

  1. 输入文件必须按坐标排序(可通过samtools view -H input.bam | grep @HD查看SO:coordinate确认);
  2. TAGGING_POLICY=All是您后续分析(基于DI标签分组)的关键参数,不可省略;
  3. 若运行时报 “文件句柄不足” 错误,可增大MAX_FILE_HANDLES_FOR_READ_ENDS_MAP的值(如 2000);
  4. 结果可通过samtools view output.bam | head查看,重复序列的第 2 字段会包含10240x400的十进制),且所有序列都有DI:i:xxx标签。
http://www.gsyq.cn/news/20763.html

相关文章:

  • 2025 年南昌装修公司推荐南昌市宿然装饰工程有限公司,以专业与真诚雕琢理想空间南昌装修设计推荐指南!
  • 2025 年国内模切加工源头厂家最新推荐排行榜:聚焦 0.1mm 精度与高产能标杆,为下游企业精选优质合作商电子辅料/硅胶/薄膜/胶黏/绝缘模切加工厂家推荐
  • 直播协议详解 RTMP、HLS、HTTP-FLV、WebRTC、RTSP 的区别
  • 2025 年水下打捞公司服务推荐榜:水下打捞手机/水下打捞黄金/水下打捞戒指/水下打捞沉船/水下打捞转头,聚焦专业与高效,助力解决各类水下应急需求
  • 【光照】UnityURP渲染中的HDR
  • 在jupyter notebook中使用自己创建的conda虚拟环境的Python内核
  • Flutter顶部状态栏显示,安全区设置等,防止各种异性屏挡住应用操作栏
  • 实用指南:JavaWeb-Ajax、监听器、过滤器及对应案例和jstl补充
  • 从孔子到马斯克:理解原理与问对问题的智慧史
  • 2025 年电感源头厂家最新推荐排行榜:聚焦功率一体成型屏蔽共模等系列,助力企业精准选优质制造商屏蔽/共模/贴片共模/磁环/磁胶SWPA电感厂家推荐
  • 工业流体输送 “心” 选择!2025 螺杆泵、隔膜泵、磁力泵、自吸泵、计量泵五大靠谱厂家推荐 —— 从研发实力到售后保障的全方位筛选
  • 如何用有限元法,分析物体表面的张力?
  • 2025 年最新切割机厂家口碑推荐排行榜:全包围 / 半包围激光切割机及金属等离子切割机优选企业指南
  • 第1章:初识 Coze 优秀的平台
  • 2025 年国内变压器优质厂家最新推荐排行榜:聚焦低压/单相/三相/特种/定制/非标/配电/节能/光伏/隔离变压器设备,助力用户精准选靠谱品牌
  • 国产项目管理工具突围战:Gitee如何成为本土开发者的效率引擎
  • 基于Saleh模型的功率放大器参数辨识与曲线拟合
  • 【2025精选】如何选择跨网文件传输系统?5大核心指标要关注
  • 飞牛nas,小白,免费,远程方案,远程看电视,远程观影
  • 安卓Shell脚本
  • 基于多尺度谱峭度的有载分接开关振动信号处理
  • Gitee崛起:本土化战略如何重塑中国开发者生态?
  • Rancher 社区双周报| Longhorn v1.10.0 重磅发布,企业级存储性能全面升级
  • V-Ray 6.1 插件安装指南|Revit 2019-2024 图文教程
  • 2025 年国内球墨铸铁管厂家最新推荐排行榜:涵盖市政 / 给水 / 水利工程用管,助力采购高效选材
  • 2025 年光伏支架设备厂家推荐霸州市邦昊通达冷弯设备有限公司,廊坊 / 霸州 / 北方光伏支架设备 / 光伏支架冲孔机 / 光伏支架角钢成型机 / 光伏支架 C 型钢成型机公司推荐
  • C#使用AForge.NET和EMGU CV开源库实现摄像头视频流捕获与处理
  • Citrix XenApp and XenDesktop 7.15 LTSR - 应用程序和桌面虚拟化
  • 2025 年过滤机厂家最新推荐排行榜:聚焦技术创新与市场口碑,精选五家优质企业助力企业选购胶带式/盘式真空/带式/脱水/带式真空过滤机厂家推荐
  • 2025年中国GEO(AI搜索优化)源头厂家Top 10推荐排行:云视科技领跑行业革新