分析软件/函数提示词模板
规则:采用“角色定义+工具调用+格式约束”的ICIO框架,明确指定使用的软件包及函数名称,减少模型幻觉风险,输入/输出需匹配生信工具链标准格式(如FASTA、BED、TPM矩阵等)。
1. 软件调用指令类
● 提示词模板:针对[数据类型/分析目标],生成使用[软件名称]的最佳实践命令,要求:1.包含版本控制(如Docker镜像或Conda环境)2.关键参数优化建议 3.输出结果验证方法
● 案例:生成使用GATK4进行人类全外显子测序数据变异检测的命令,包含MarkDuplicates和HaplotypeCaller步骤,输出VCF验证方法。
● 输出:
流程优化与注意事项
1.井行化加速
使用-t参数指定线程数(如 bwa mem-t8)。
在集群环境中,可将流程拆分为多个作业(如比对、标记重复、变异检测)。
2.资源管理
MarkDuplicates 和 HaplotypeCaller 对内存需求较高,建议分配至少16GB内存。
3.参考文件准备
确保参考基因组(hg38.fa)和相关索引文件( hg38.fa.fa1)已正确下载并索引。
4.版本一致性
使用GATK4的最新版本(如4.4.0),并确保所有工具(如BWA、samtools)版本兼容
2. 函数代码生成类
● 提示词模板:用[语言/库]编写函数实现[功能描述],要求:1. 包含异常处理 2. 支持并行加速 3. 输出可视化诊断图
● 案例:用Python的Biopython库编写函数,用于批量提取GenBank文件中CDS区域并翻译为蛋白质,输出FASTA并统计翻译错误图形。
● 输出:
一、基于Biopython的CDS提取与翻译解决方案
(支持多文件批处理、翻译错误分类统计与可视化)
函数设计思路
1.多层级异常捕获:区分序列长度错误、非法字符、翻译终止等异常类型
2.元数据智能提取:优先使用 gene/protein_id,缺失时自动生成复合ID
3.翻译表动态选择:根据 trans1_table 特性字段自动适配遗传密码表
4.井行加速处理:采用多进程加速大规模文件解析
六、典型应用场景
1.宏基因组分析
处理环境样本的未培养微生物基因组
自动识别ORF并注释潜在功能蛋白
2.疫苗设计开发
提取病原体表面蛋白抗原结构域
统计移码突变频率评估毒力进化
3.合成生物学
批量验证人工合成基因组的可读性
检测设计序列中的意外终止密码子
验证数据:
测试数据集:NCBI Refseg 100个细菌基因组(平均处理时间:23秒/基因组)
错误检出率:98.7%(对比手动检查结果)FASTA格式符合率:100%(通过snapGene验证
该方案通过系统化的异常处理机制和多维度可视化,显著提升基因组注释流程的可靠性与分析效率,适用于从实验室规模到工业级应用的蛋白质编码序列挖掘需求。
3. 流程化分析类
● 提示词模板:设计从[原始数据]到[目标结果]的分析流程,包含:1. 工具顺序及数据格式转换 2. 计算资源预估(CPU/Memory/Time) 3. 关键检查点质量控制
● 案例:设计从RNA-seq原始fastq到差异表达基因的分析流程,包含质控、比对、定量和DEA步骤,预估服务器配置需求。
● 输出:
四、前沿技术整合
1.单细胞RNA-seq联合分析
使用Seurat V5整合bulk与SCRNA-seq数据
细胞类型特异性差异基因检测(DESeq2+MusiC)
2.深度学习辅助建模
基于Transformer的差异基因筛选(Geneformer预训练模型)
生成式AI设计验证实验(ChatGPT-LabBot接口)
3.实时动态分析
流式RNA-seq处理框架(Apache Flink+ Biospark)
动态差异表达追踪(sliding window DESeq2)
五、验证与交付标准
1.数据质量报告
FastQC摘要(含Per base sequence quality曲线)
RIN值分布(样本间差异<2.0)
2.分析可重复性证明
随机抽取10%样本重复实验,Pearsonr>0.99
第二方数据集交叉验证(GEO验证集)
3.交付成果清单
原始数据BAM文件(CRAM压缩格式)
标准化表达矩阵(TPM+rawcounts)
交互式HTML报告(含3DPCA可视化)
差异基因功能注程网络(Cytoscape .cys文件)
该方案通过精细化的资源分配和模块化流程设计,可在72小时内完成100个样本的全流程分析,相较传统流程效率提升5倍。结合硬件加速与算法优化使每样本成本降低至$42(私有集群模式),满足从研究机构到临床诊断中心的多样化需求。
4. 可视化指令生成类
● 提示词模板:使用[工具]创建[图表类型]展示[数据类型],要求:1. 配色符合出版标准(如Nature风格) 2. 包含交互式元素(可选) 3. 导出矢量图格式
● 案例:用R的ggplot2绘制TCGA乳腺癌样本的基因表达热图,包含TP53突变状态注释,采用Nature期刊配色方案。
● 输出:
五、生物学解读框架
1.核心观察指标
突变样本聚类特征:TP53突变型是否形成独立cluster
通路激活模式:
细胞周期相关基因(CDK1/4/6,CCNB1)表达水平
DNA修复通路(BRCA1/2.ATM)下调程度
治疗关联性:
PARP抑制剂敏感基因(如BRCA2)表达与突变状态相关性
免疫检查点基因(PD-L1,CTLA4)表达趋势
2.临床意义解读
预后相关性:比较突变型与野生型样本的生存曲线(KM-plot)治疗响应预测:
TP53突变型对蔥环类化疗的敏感性
联合免疫治疗的潜在获益人群筛选
3.方法学验证
技术重复一致性:随机抽取10%样本进行重复实验,计算ICC>0.95批次效应校正:使用ComBat算法消除测序批次影响
结果稳健性检验:
更换标准化方法(RSEM VS.VST)
不同聚类算法比较(Hierarchical vs.K-means)
该方案通过多层次注释系统与严格的可视化规范,不仅满足Nature期刊的出版要求,更深度揭示TP53突变在乳腺癌分子分型中的枢纽作用。整合临床特征与通路分析模块,为转化医学研究提供可直接用于论文发表的标准化分析框架。
5. 序列分析类
● 提示词模板:使用[软件/包名]的[函数名],对[输入文件]执行[任务],要求输出格式为[格式],并解释关键参数含义。
● 案例:
使用MATLAB生物信息工具箱的`seqmultiplealign`函数,对FASTA文件中的10条蛋白质序列进行多重比对,输出ClustalW格式结果。
需解释`'GapOpen'`和`'ExtendGap'`参数对结果的影响:cite[4]。
输入示例:
>Protein1\nMSTRSVSS...
● 输出:
6. 差异表达分析类
● 提示词模板:基于[工具包]的[函数名],对[表达矩阵文件]进行差异分析,筛选条件为[logFC>2且padj<0.05],输出包含基因名、logFC、p值的CSV文件。
● 案例:
调用R语言DESeq2包的`DESeqDataSetFromMatrix`和`results`函数,处理RNA-seq计数矩阵(列:样本,行:基因), 比较癌症组vs正常组,筛选|log2FC|>1且FDR<0.01的差异基因,输出CSV包含ENSEMBL ID、Symbol、基表达量:cite[5]:cite[7]。
● 输出示例:
7. 通路与网络分析类
● 提示词模板:利用[工具名]的[函数/模块],将[基因列表]映射到KEGG通路,生成交互式网络图(Cytoscape兼容格式),并标注度中心性前10的节点。
● 案例:
使用Python的`GSEApy`库执行KEGG富集分析,通过`enrichr`函数处理差异基因列表, 输出Enrichment Map的sif格式文件,并用`networkx`计算节点度中心性:cite[5]:cite[7]。
● 输出示例:
8. 结构生物学分析类
● 提示词模板:调用[软件]的[API/函数],对PDB ID[XXXX]的蛋白质结构进行[任务],输出[指标]并可视化结合位点(PyMOL脚本)。
● 案例:
使用Biopython的`PDB.PDBList`下载1A2K的晶体结构,通过`Bio.PDB.DSSP`计算二级结构占比, 生成PyMOL脚本展示α螺旋(红色)和β折叠(蓝色)区域:cite[4]:cite[7]。
● 输出:
9. 错误诊断与优化建议
● 场景:分析过程中的问题排查
● 提示词模板:诊断[软件/流程]在[错误描述]时的可能原因,提供:1. 日志关键字段解析 2. 参数调整建议 3. 替代工具推荐
● 案例:诊断Bowtie2比对率低于50%的可能原因,提供优化方案。
● 输出:
以上就是本次分享的全部内容啦!到这里,大模型在生信领域的应用就为大家分享完毕了。希望能为大家带来一点帮助哦!
【免责声明】发布内容来源于互联网、业内人士投稿以及微信公众号等公开资源,我们对文中观点持中立态度,文中观点不代表本平台的立场。所有文章仅供读者参考和交流使用。转载的文章版权归原作者所有,如有侵权行为,请及时与我们联系以便删除。