基因组注释系统是MGAP的核心,整合了许多常用的基因识别和蛋白质功能预测软件,包括GeneMarks、IPRsearch、BLASTPGP和FASTA3等,以及多个数据库,如非冗余蛋白质序列数据库(Non redundant,NR)、已知三维空间结构的蛋白质序列数据库(PDBSeq)、国际蛋白质资源信息系统(InterPro)[6]和直系同源蛋白质家族数据库(Cluster of orthologousgroups,COG)等,编写了相应的模块进行自动操作,并把每一步注释结果导入数据库中。
IGR Gene Idices收录的基因数据不是简单的对GenBank的基因和EST数据按物种分类,而是从GenBank中提取不同物种的EST和注释的基因序列,通过聚类、拼接等分析过程(TIGR Assembler(Sutton et al.1995,Genome Science and Technology 1:9-19)),产生唯一的(unique)、高可信度的虚拟转录本或者是假设性一致序列(Tentative Consensus sequences),这种假设性一致序列便可用来提供假定基因数据,可以成为联系转录本与基因作图、基因组数据,联系直系同源和旁系同源基因的桥梁。