近日,我室园艺作物大数据与智能设计育种课题组焦文标教授在Genome Biology期刊上发表了题为“Haplotype-resolved and near telomere-to-telomere assembly of the autotetraploid potato genome”的研究论文。该研究开发了首个针对同源多倍体的完整单倍型组装方法,成功构建了同源四倍体马铃薯栽培种“华薯4号”的近完整单倍型基因组图谱。该项研究全面揭示了同源多倍体马铃薯基因组的复杂结构特征,也为马铃薯功能基因挖掘、基因组辅助育种等提供了研究基础。

马铃薯是我国和世界第四大粮食作物,在全球近140个国家广泛种植,年产量约3.6亿吨。作为重要的能量和营养来源,马铃薯在缓解区域性粮食短缺、对抗贫困以及保障粮食安全方面发挥着不可替代的作用。现有马铃薯栽培种主要为同源四倍体(2n=4x=48),具有一定的多倍体优势。然而,其基因组结构复杂,包括四套高度相似的单倍型序列;且栽培马铃薯以块茎无性繁殖为主,单倍型之间积累了大量的等位变异。高度复杂的遗传背景使马铃薯育种长期落后于其他主要粮食作物。重建四套完整的单倍型序列对理解马铃薯基因组结构、基因功能挖掘和基因组辅助育种等研究至关重要。
尽管测序技术不断进步,同源多倍体的高质量组装仍面临诸多难题:单倍型之间的组装坍缩、单倍型之间易发生错误拼接、复杂区域难以解析,抑或依赖花粉单细胞测序或者人工群体的测序数据,成本较高、适用性有限。针对这些问题,研究团队开发了一套适用于同源多倍体的完整单倍型序列组装方法PHap,仅需目标个体自身的常规基因组测序数据(PacBio HiFi、ONT ultra-long和Hi-C),即可实现分单倍型、(近)端粒到端粒级别的基因组组装(图1)。利用PHap流程,研究团队成功构建了马铃薯栽培种“华薯4号”的高质量单倍型基因组。该组装总长度为3.12 Gb,contig N50达32.68 Mb,近半数染色体的组装没有或少于3个缺口,单倍型准确率高达99.7%,在各项组装质量评估指标上均优于已发表的同源四倍体马铃薯基因组和主流多倍体组装软件的结果。

图 1 同源多倍体基因组完整单倍型组装流程PHap
基于该高质量基因组,研究人员从基因组、转录组和表观组等多个维度深入分析了单倍型之间的差异。结果发现,“华薯4号”基因组中约34.82%的区域在单倍型之间高度相似,反映了育种过程中反复使用优良亲本留下的遗传印记。虽然四套单倍型整体上保持较高共线性,但仍存在大量结构变异和染色体重排现象。进一步结合DNA甲基化数据,单倍型高度相似区域整体的甲基化水平更低,但也有部分高度相似(>98%)的等位区段中,存在显著的甲基化差异,提示表观遗传调控可能在多倍体基因组中具有重要作用。为进一步探究单倍型变异的生物学作用,研究团队进一步分析了块茎发育全过程中等位基因的表达模式(图2)。研究发现,42.6%的基因存在等位差异表达。其中,55%的四等位基因的四个等位拷贝在不同发育阶段呈现出不同的等位差异表达模式(例如,某个单倍型上的等位拷贝可能在块茎形成期高表达、块茎成熟期低表达;而另外单倍型的等位拷贝呈现相反的表达模式),包括StSP5G-A、StSP5G-B和StSP6A等多个与块茎发育相关的基因。因此,单倍型之间的等位差异是马铃薯块茎发育的转录调控的重要遗传基础。

图 2 马铃薯块茎发育过程中的等位基因差异表达
此外,完整单倍型组装有助于深入理解基因组“暗物质”区域着丝粒的结构特征。先前的研究表明马铃薯存在两种类型的着丝粒,即含有和不含有高度串联重复卫星序列的着丝粒,且栽培种单倍型之间着丝粒结构可能存在较大差异。然而,这些研究局限于细胞遗传学等手段或二倍体马铃薯基因组中。该研究首次对四倍体马铃薯着丝粒区域进行了单倍型序列水平上的高分辨率解析(图3)。研究发现不同单倍型在着丝粒大小与位置、卫星重复阵列类型、转座元件组成及甲基化水平等方面均存在显著差异,揭示了马铃薯复杂基因组区域在单倍型层面的高度可变性,为理解同源多倍体着丝粒区域的单倍型演化提供了重要见解。

图 3 马铃薯着丝粒的单倍型分化
综上,该研究开发了一套适用于同源多倍体基因组的完整单倍型组装方法,构建了首个同源四倍体栽培马铃薯的近完整单倍型基因组图谱,解析了马铃薯基因组四套单倍型序列在组成结构、转录表达与表观修饰等多个层次的差异,揭示了单倍型差异是块茎发育期间基因表达动态性的重要遗传基础,阐明了着丝粒等基因组暗物质区域单倍型水平的复杂特征。该项工作为理解同源多倍体基因组的单倍型结构和功能等提供了重要见解,并为多倍体马铃薯的功能基因挖掘、基因组辅助育种等提供了重要基础。
本研究由华中农业大学果蔬园艺作物种质创新与利用全国重点实验室、农业农村部马铃薯生物学与生物技术重点实验室牵头完成。华中农业大学信息学院已毕业博士研究生(现华中农业大学马铃薯团队博士后)肖培轩为文章第一作者,焦文标教授为通讯作者。华中农业大学博士后董建科、黄宇虹,研究生谭磊、黄晶和贺家宝也参与了该项研究工作;华中农业大学宋波涛教授和苏汉东教授在研究过程中给予了重要指导。该工作得到了国家自然科学基金和果蔬园艺作物种质创新与利用全国重点实验室自主培育重点项目的资助。
焦文标课题组研究方向为园艺作物大数据与智能设计育种,课题组先后在Nature Genetics、Nature Communications、Molecular Plant(2篇)、Genome Biology(3篇)、Genome Research等期刊发表SCI论文30余篇。课题组长期招聘博士后,热忱欢迎青年才俊加入我们的队伍。
通讯员:肖培轩
审核人:焦文标
论文链接:https://link.springer.com/article/10.1186/s13059-026-03980-9
英文摘要:
Background
Potato (Solanum tuberosum) breeding is severely hindered by its highly heterozygous autotetraploid genome, where complex allelic interactions impede precise trait selection. Reconstructing complete haplotype-resolved assemblies is crucial for genome-assisted breeding. However, current assembly methods for autopolyploids often generate fragmented sequences, haplotype-switch errors, and gaps in complex regions such as centromeres.
Results
To address these challenges, we develop PHap, a haplotype assembly pipeline tailored for autopolyploids, using only standard sequencing data, including long-reads and Hi-C. Applying PHap to the autotetraploid potato cultivar HuaShu4, we generate a haplotype-resolved, near telomere-to-telomere assembly of 3.12 Gb with an N50 of 32.7 Mb and 99.7% haplotype accuracy. Comparisons with alternative methods and existing assemblies highlight PHap’s advantages in assembly quality and cost-effectiveness. Integration of transcriptomic and epigenomic data demonstrates that the genomic and methylation divergence across haplotypes drives substantial allelic expression differentiation. Time-course RNA-seq further reveals, for the first time, that 55% of genes exhibit divergent allelic expression, with dynamic shifts in dominant or suppressed alleles during tuber development. Additionally, our assembly resolves high-resolution haplotype-specific structures in centromeres and subtelomeres, as well as haplotype divergence of structural rearrangements. It also shows neocentromere formation via the expansion of megabase-scale satellite arrays.
Conclusions
These findings provide insights into the architecture of autopolyploid genomes and establish a foundation for genomics-assisted breeding of polyploid potatoes.