Genome browsers是一个非常不错的工具,能可视化多种不同类型数据,但仅能用于观察特定的单一区域,且无法提取有意的统计信息。为解决这一问题,奥地利科学院分子生物技术研究所Daniel W. Gerlich教授团队开发了HiCognition。这是一种基于新基因组集合概念所开发的可视化和机器学习工具,它能检测三维基因组结构和一维基因组图谱间的关联模式。利用HiCognition作者揭示转录和cohesion如何影响染色质结构形成。HiCognition 包含灵活的可视化用户界面和多种机器学习工具能帮助科研工作人员理解基因组结构和功能间的关系。
基因组功能和调控作用依赖于复杂的DAN三维空间结构,DNA三维空间动态变化的原因一直是一个关键的科学问题,研究此问题有助于理解复杂的功能基因组。随着测序技术的发展和实验手段的进步,科研工作者开发了很多实验方法用于研究全基因组范围内的空间互作,此外还有部分科学家或者科研机构开展了各物种的ENCODE或4Dnucleome计划。这为科学家提供了多类表观数据和三维空间结构数据,同时也带了诸多挑战。比如如何从海量的数据中高效的提取有价值的信息。虽然Genome browsers 能够展示特定区间的多维数据,但其在处理大量基因组时其性能较差,且无法比较多个窗口。为提高科学家工作效率,挖掘有效信息,作者开发了HiCognition,一种交互式可视化工具,并且可用于分析三维基因组和表观组学数据。此外,HiCognition 结合了视觉探索界面,高性能数据处理,统计和机器学习等工具。HiCognition 为没有编程技能的科学家提供了能系统地探索多维基因组学规律的机会。
总而言之,HiCognition是一种可视化探索和机器学习工具,适用于检测3D染色体构象与一维基因组之间的模式和关联。可评估大量公共数据资源,并提供简化工作流程和可视化界面,帮助生物学家解决各种生物学问题。虽然HiCognition专注于易用性,但通过导出区域集坐标,可以与基于脚本的分析进行无缝集成以实现更高级功能。该工具在Python中实现了模块化设计和开源实现,为开发新的机器学习算法和可视化概念提供了可扩展的框架。HiCognition充当了生物学家和计算机科学家之间的桥梁,帮助他们了解染色质纤维的结构和组成对功能的贡献,尤其是在综合分析来自不同技术、实验条件和细胞状态的多个基因组数据集时表现出尤为明显的优势。
Figure 1. HiCognition原理和图形化的用户使用界面