标签:法律法规
国家知识产权局局长令
第十五号
根据中国专利行业标准在制定中要为社会公众服务、为国家宏观决策服务、为行业管理部门管理服务的指导思想,依据专利法实施细则第18条第4款的规定,特制定《核苷酸和/或氨基酸序列表和序列表电子文件标准》,现予公布,自二○○一年十一月一日起施行。
局 长 王景川
二○○一年十一月一日
ZC
中华人民共和国知识产权行业标准
ZC 0003—2001
核苷酸和/或氨基酸序列表
和序列表电子文件标准
2001-11-01发布 2001-11-01实施
中华人民共和国国家知识产权局 发布
核苷酸和/或氨基酸序列表和序列表电子文件标准
1 总则
根据专利法实施细则第18条第4款的规定,包含一个或多个核苷酸或者氨基酸序列的发明专利申请,说明书中应当包括符合国家知识产权局专利局规定的序列表,并按照国家知识产权局专利局的规定提交含有该序列表的计算机可读形式的副本。
为了使提交的纸件形式的核苷酸和/或氨基酸序列表及计算机可读形式的含有该序列表的电子文件规范化,以利于申请人提交;也为了使序列表电子文件可以快捷地输入国家知识产权局专利局的计算机数据库,并与其它的序列检索数据库交换数据,以利于公众检索;同时也利于专利局审查员加快审查,更好地为申请人服务;特制定本标准。
2 适用范围
本标准适用于所有向国家知识产权局专利局提交的包含核苷酸和/或氨基酸序列的发明专利申请,具体地说,适用于该申请提交的纸件形式的核苷酸和/或氨基酸序列表,以及含有核苷酸和/或氨基酸序列表的计算机可读形式的序列表电子文件。
3 术语和定义
在本标准中,采用下面术语和定义:
(1)序列表:是指以纸件形式提交的专利申请说明书的一部分,它公开了核苷酸和/或氨基酸序列的详细内容和其它有用信息。序列表中的序列是不少于10个核苷酸的非支链核苷酸序列,或者是不少于4个氨基酸的非支链氨基酸序列。所述的序列不包括支链序列;不包括具有少于4个特别定义的核苷酸或氨基酸的序列;也不包括含有列于附录1之表1-4以外的核苷酸或氨基酸的序列。
(2)序列表电子文件:是指包含核苷酸和/或氨基酸序列表的计算机可读形式的纯文本文件。
(3)核苷酸:只包括附录1之表1中列出的符号所表示的核苷酸。附录1之表2中列出的符号用于表述核苷酸的修饰形式,例如甲基化碱基。对于核苷酸的修饰形式,不得在核苷酸序列中直接使用表2中的符号表示,其具体的表述方式见本标准4.4.7节(1)和4.4.5节的内容。
(4)氨基酸:只包括列于附录1之表3中的存在于天然蛋白质中的L-氨基酸,不包括D-氨基酸。附录1之表4中列出的符号用于表述氨基酸的修饰形式,例如羟基化或糖基化形式。对于氨基酸的修饰形式,不得在氨基酸序列中直接使用表4中的符号表示,其具体的表述方式见本标准4.4.7节(2)和4.4.5节的内容。
(5)序列标识符:对应于序列表中每个序列的序列标识号的唯一的正整数。
(6)数字标识符:由尖括号<>括起来的代表特定内容数据项的三位数字。
4 序列表和序列表电子文件中的数字标识符、内容及其格式:
在核苷酸和/或氨基酸序列表和序列表电子文件中,应当有本标准中指出的数字标识符,在数字标识符之后(即在其之右,必要时还包括在其下面的若干行)是相应的具体内容,它们应当符合本标准规定的格式。附录2给出了一个说明数字标识符、其后内容及格式的序列表样例。
序列表和序列表电子文件中包括的数字标识符及相应内容和格式具体如下:
4.1、序列表和序列表电子文件中的著录项目:
下面4.1.1-4.1.7节中的内容应当与专利申请请求书中的相应内容一致。
4.1.1、申请人的姓名或名称:其数字标识符为
在数字标识符
外国申请人还应当在中文译名之后注明英文姓名或名称,并将其用圆括号括起来。
4.1.2、发明名称:其数字标识符为
在数字标识符
4.1.3、案卷参考号:其数字标识符为
在数字标识符
4.1.4、专利申请号:其数字标识符为
对于首次提交的专利申请,无需包括此项内容;当补交或提交修改时,在数字标识符
4.1.5、专利申请日:其数字标识符为
对于首次提交的专利申请,无需包括此项内容;当补交或提交修改时,在数字标识符
4.1.6、优先权号:其数字标识符为
没有优先权的专利申请,无需包括此项内容;如果有优先权的话,那么在数字标识符
4.1.7、优先权日:其数字标识符为
没有优先权的专利申请,无需包括此项内容;如果有优先权的话,那么在数字标识符
4.2、序列表电子文件的软件版本信息:其数字标识符为
当使用国家知识产权局专利局或其它专利组织(例如欧洲专利局)提供的软件形成核苷酸和/或氨基酸序列表电子文件时,在数字标识符
4.3、序列表中序列的个数:其数字标识符为
在数字标识符
4.4、序列中的各项内容:
4.4.1、序列标识符:其数字标识符为
在序列表中,每个序列应当有独立的、唯一的序列标识符,它应当从1开始并逐一增加。序列标识符表示每个序列在序列表中的序号。
在数字标识符
在一个序列标识符之后到下一个序列标识符之前是该序列的各项具体内容,即下面4.4.2-4.4.7节的内容。
在序列表中有多个序列的情况下,应当按照序列标识符数值从小到大的次序逐一填写每个序列的各项内容。
4.4.2、序列的长度:其数字标识符为
在数字标识符
4.4.3、序列的类型:其数字标识符为
在数字标识符
4.4.4、生物体:其数字标识符为
在数字标识符
4.4.5、序列中特征部分的内容:数字标识符
本节涉及到序列中与特征相关的内容的表述。
在核苷酸序列(数字标识符< 400> )中含有“n”或修饰的碱基的情况下(参见本标准4.4.7节(1)的内容),或者在氨基酸序列(数字标识符< 400> )中含有“Xaa”或修饰的氨基酸或不常用的L-氨基酸的情况下(参见本标准4.4.7节(2)的内容),必须包括下面(1)-(4)项的内容。
在生物体(数字标识符< 213> )是“人工序列”或“未知”的情况下,必须包括下面(1)和(4)项的内容。
在一个序列中有多个特征的情况下,应当按照这些特征在序列中出现的先后次序逐一地表述每个特征。
序列中特征部分的具体内容和数字标识符如下:
(1)特征:其数字标识符为
在数字标识符
(2)名称/关键词:其数字标识符为
在数字标识符
(3)位置:其数字标识符为
在数字标识符
(4)其它信息:其数字标识符为
在数字标识符
4.4.6、出版公开信息:数字标识符
出版公开信息是非强制性的内容,在序列表和序列表电子文件中,可以包含也可以不包含这些内容。
(1)公开出版信息:其数字标识符为
在数字标识符
(2)作者:其数字标识符为
在数字标识符
(3)题目:其数字标识符为
在数字标识符
(4)杂志名称:其数字标识符为
在数字标识符
(5)公开出版物的卷号:其数字标识符为
在数字标识符
(6)公开出版物的出版号:其数字标识符为
在数字标识符
(7)页码:其数字标识符为
在数字标识符
(8)出版日期:其数字标识符为
在数字标识符
(9)公开出版物的数据库登记号:其数字标识符为
如果该文献被收入某个数据库的话,那么在数字标识符
(10)录入数据库的日期:其数字标识符为
如果该文献被收入某个数据库的话,那么在数字标识符
(11)专利公开号:其数字标识符为
如果该公开出版物是专利文献的话,那么在数字标识符
(12)专利申请日:其数字标识符为
如果该公开出版物是专利文献的话,那么在数字标识符
(13)专利公开日:其数字标识符为
如果该公开出版物是专利文献的话,那么在数字标识符
4.4.7、核苷酸序列和/或氨基酸序列:其数字标识符为
在数字标识符
该序列可以是纯核苷酸序列,或者是纯氨基酸序列,或者是核苷酸序列和与它对应的氨基酸序列。
(1)纯核苷酸序列:
核苷酸序列应当只用单链表示,从左到右是5’-末端至3’-末端的方向,序列中不应当出现术语5’和3’。
应当用单字母代码表示核苷酸序列的碱基来表述核苷酸序列的特征;只能使用与附录1之表1中给出的符号相一致的小写字母来表示。
在一个核苷酸序列中,如果经修饰的碱基是附录1之表2中列出的之一,那么在该序列本身中,应当用未修饰的碱基或“n”来表示该经修饰的碱基,符号“n”等同于唯一的一个未知的或经修饰的核苷酸;但在该序列的特征部分(数字标识符
核苷酸序列中碱基的编号开始于序列中的第1个碱基,并从5’到3’方向连续地计数。该计数方法也用于构型为环状的核苷酸序列,在这种情况下,申请人可任意指定序列的第一个核苷酸。
来自大序列的一个或更多非邻接区段或来自不同序列的区段组成的核苷酸序列,应当作为带有单独序列标识符的单独序列来计数。带有一个缺口或多个缺口的序列应当作为带有单独序列标识符的多个单独序列来计数,而单独序列的数目与序列数据的连续序列的数目相同。
核苷酸序列每行最多60个核苷酸碱基,每10个核苷酸碱基后空一格。该行的最后是该行最后一个碱基的编号。
(2)纯氨基酸序列:
对于氨基酸序列,蛋白质或肽序列中的氨基酸应当从左到右以氨基到羧基的方向列出;序列中不应当出现氨基或羧基基团。
氨基酸应当使用与附录1之表3中的符号相一致的、第一个字母大写的三字母符号表示。有空白或内部中止符号(例如“Ter”或“*”或“·”)的氨基酸序列不应当表示为单个氨基酸序列,而应当作为独立的氨基酸序列分别列出。
在一个氨基酸序列中,如果经修饰的氨基酸是附录1之表4中列出的氨基酸之一,那么在该序列本身中,应当用相应的未经修饰的氨基酸或“Xaa”来表示该经修饰的和不常用的氨基酸,符号“Xaa”等同于唯一的一个未知的或经修饰的氨基酸;但在该序列的特征部分(数字标识符
氨基酸的编号开始于序列中的第1个氨基酸,以数字1表示并标注在该氨基酸的下面;以后每隔5个氨基酸在其下面标注上该氨基酸的编号。当成熟蛋白质之前存在氨基酸时,例如对于前-序列,原-序列,前-原-序列和信号序列而言,可以任选地从与成熟蛋白第一个氨基酸相邻的氨基酸开始以负数往回编号。当氨基酸编号使用负数以区分成熟蛋白质时,不得使用数字0。上述氨基酸序列的计数方法也适用于环状构型的氨基酸序列,申请人可以任意指定第一个氨基酸。
来自大序列的一个或更多非邻接区段或不同序列的区段组成的氨基酸序列,应当作为具有单独序列标识符的单独序列来计数。具有一个缺口或多个缺口的序列应当作为具有单独序列标识符的多个单独序列来计数,单独序列的数目与序列数据的连续序列的数目相同。
氨基酸序列每行最多16个氨基酸,每个氨基酸之间空一格。
(3)核苷酸序列和与它对应的氨基酸序列:
对于核苷酸序列和与它对应的氨基酸序列,对应于其编码的氨基酸的核苷酸序列的碱基应当以“三联体”密码子列出,每个密码子之间应当空一格;对应于核苷酸序列的编码部分的氨基酸可以直接列于相应密码子的下方;对于该氨基酸序列,应当在第一个氨基酸的下面标注上编号1,然后每隔5个氨基酸在其下面标注上该氨基酸的编号。
对于这种核苷酸和其编码的氨基酸序列的混合形式,与核苷酸序列相对应的氨基酸序列还应当以纯氨基酸序列的形式另外给出。
4.5 数字标识符连同其后内容的排列格式
在本节中,“数字标识符及内容”指的是数字标识符连同其后的相应内容。
数字标识符及内容应当按照数字标识符的数值从小到大的次序排列在序列表中。
每个数字标识符及内容之间应当空一行,不过在前两位数字相同的数字标识符及内容之间,例如
对于序列表中有多个序列的情况,数字标识符及内容应当按照序列标识符的数值从小到大的次序排列。在每个序列中,应当按照数字标识符数值从小到大的次序列出仅仅与该序列有关的数字标识符及内容,即排列上从
对于一个序列中有多个特征的情况,应当按照这些特征在序列中出现的先后次序逐一排列从
5、序列表电子文件的格式
5.1、序列表电子文件是一个包含上述第4部分的数字标识符和内容,并符合上述第4部分格式要求的纯文本文件;该文件应当使用中华人民共和国颁布的信息交换用汉字编码字符集标准。
5.2、序列表电子文件应当记录在CD-ROM光盘或3.5英寸软盘上提交,或者按照国家知识产权局专利局规定的其它形式提交。当记录在CD-ROM光盘上时,该CD-ROM光盘应当采用ISO9660标准刻录;当记录在3.5英寸软盘上时,该软盘应当符合FAT 12格式。该光盘或软盘的目录结构如下:在根目录下,有且仅有一个后缀名为“.SEQ”的纯文本文件。
6 其它事项
6.1、申请人应当保证提交的计算机可读形式的序列表电子文件中的内容与纸件形式的序列表完全相同。
6.2、申请人在形成符合本标准的序列表电子文件时,可以使用国家知识产权局专利局提供的序列表编辑软件来形成;也可以使用其它专利组织提供的软件(例如欧洲专利局提供的Patentin)来形成;还可以使用任何纯文本文件编辑软件来形成。无论使用何种软件,所形成的电子文件都必须符合本标准的规定。
6.3、当申请人以光盘或软盘的形式提交序列表电子文件时,应当在提交的光盘或软盘上贴有永久性标记,注明申请人姓名或名称、发明名称、光盘或软盘中的文件名和提交日期;申请人委托了代理人的,也可以任选地标注上代理机构给该申请的案卷号。对于申请人补交或提交修改的情况,应当注明申请号并注明“补交”或“修改”。
注明申请人姓名或名称等项内容时,应当使用本标准中的数字标识符,即应当标注上数字标识符,并在其后注明具体内容,例如:
当序列表电子文件的字节数太大不能记录在一张软盘上时,应当将序列表电子文件记录在一张光盘上提交。
7 颁布和实施
本标准由中华人民共和国国家知识产权局颁布,自2001年11月1日起实施。
中华人民共和国国家知识产权局
二OO一年十一月一日
附:欧洲专利局的Patentin软件,点击下载(文件为zip压缩)
附录1核苷酸和氨基酸符号和特征关键词表
表1 核苷酸表
符号 | 含义 | 名称的来源 |
a | A | 腺嘌呤 |
g | G | 鸟嘌呤 |
c | C | 胞嘧啶 |
t | T | 胸腺嘧啶 |
r | g或a | 嘌呤 |
y | t/u或c | 嘧啶 |
m | a或c | 氨基 |
k | g或t/u | 酮基 |
s | g或c | 弱作用 3H键 |
w | a或t/u | 强作用 2H键 |
b | g或c或t/u | 非a |
d | a或g或t/u | 非c |
h | a或c或t/u | 非g |
v | a或g 或c | 非t,非u |
n | a或g或c或t/u,未知,或其它 | 任何 |
表2 经修饰的核苷酸表
符号 | 含义 |
ac4c | 4-乙酰胞苷 |
chm5u | 5-(羧羟甲基)尿苷 |
cm | 2'-O-甲基胞苷 |
cmnm5s2u | 5-羧甲基氨甲基-2-硫代尿苷 |
cmnm5u | 5-羧甲基氨甲基尿苷 |
d | 二氢尿苷 |
fm | 2'-O-甲基假尿苷 |
gal q | β,D-半乳糖Q核苷 |
gm | 2'-O-甲基鸟苷 |
i | 肌苷 |
i6a | N6-异戊烯基腺苷 |
mla | 1-甲基腺苷 |
mlf | 1-甲基假尿苷 |
mlg | 1-甲基腺苷 |
mli | 1-甲基肌苷 |
m22g | 2'2-二甲基腺苷 |
m2a | 2-甲基腺苷 |
m2g | 2-甲基鸟苷 |
m3c | 3-甲基胞苷 |
m5c | 5-甲基胞苷 |
m6a | N6-甲基腺苷 |
m7g | 7-甲基鸟苷 |
mam5u | 5-甲基氨基甲基尿苷 |
mam5s2u | 5-甲氧基氨基甲基-2-硫代尿苷 |
man q | β,D-甘露糖Q核苷 |
mcm5s2u | 5-甲氧基羰基甲基-2-硫代尿苷 |
mcm5u | 5-甲氧基羰基甲基尿苷 |
mo5u | 5-甲氧基尿苷 |
ms2i6a | 2-硫代甲基-N6-异戊烯基腺苷 |
ms2t6a | N-((9-β-D-呋喃核糖基-2-硫代甲基嘌呤-6-Yl)氨基甲酰)苏氨酸 |
mt6a | N-((9-β-D-呋喃核糖嘌呤-6-yl)N-甲基氨基甲酰)苏氨酸 |
mv | 尿苷-5-氧化乙酸-甲基酯 |
o5u | 尿苷-5-氧化乙酸 |
osyw | Wybutoxosine |
p | 假尿苷 |
q | Q核苷 |
s2c | 2-硫代胞苷 |
s2t | 5-甲基-2硫代尿苷 |
s2u | 2-硫代尿苷 |
s4u | 4-硫代尿苷 |
t | 5-甲基尿苷 |
t6a | N-((9-β-D-呋喃核糖嘌呤-6-基)-氨基甲酰)苏氨酸 |
tm | 2'-O-甲基-5-甲基尿苷 |
um | 2'-O-甲基尿苷 |
yw | Wybutosine |
x | 3-(3-氨基-3-羧基-丙其)尿苷,(acp3)u |
表3 三字母表示的氨基酸表
符号 | 含义 |
Ala | 丙氨酸 |
Cys | 半胱氨酸 |
Asp | 天冬氨酸 |
Glu | 谷氨酸 |
Phe | 苯丙氨酸 |
Gly | 甘氨酸 |
His | 组氨酸 |
Ile | 异亮氨酸 |
Lys | 赖氨酸 |
Leu | 亮氨酸 |
Met | 蛋氨酸 |
Asn | 天冬酰酸 |
Pro | 脯氨酸 |
Gln | 谷氨酰胺 |
Arg | 精氨酸 |
Ser | 丝氨酸 |
Thr | 苏氨酸 |
Val | 缬氨酸 |
Trp | 色氨酸 |
Tyr | 酪氨酸 |
Asx | 天冬氨酸或天冬酰胺 |
Glx | 谷氨酸或谷氨酰胺 |
Xaa | 未知或其它 |
表3 三字母表示的氨基酸表
符号 | 含义 |
Ala | 丙氨酸 |
Cys | 半胱氨酸 |
Asp | 天冬氨酸 |
Glu | 谷氨酸 |
Phe | 苯丙氨酸 |
Gly | 甘氨酸 |
His | 组氨酸 |
Ile | 异亮氨酸 |
Lys | 赖氨酸 |
Leu | 亮氨酸 |
Met | 蛋氨酸 |
Asn | 天冬酰酸 |
Pro | 脯氨酸 |
Gln | 谷氨酰胺 |
Arg | 精氨酸 |
Ser | 丝氨酸 |
Thr | 苏氨酸 |
Val | 缬氨酸 |
Trp | 色氨酸 |
Tyr | 酪氨酸 |
Asx | 天冬氨酸或天冬酰胺 |
Glx | 谷氨酸或谷氨酰胺 |
Xaa | 未知或其它 |
表4 经修饰的和不常用的氨基酸表
符号 | 含义 |
Aad | 2-氨基已二酸 |
bAad | 3-氨基已二酸 |
bAla | β一丙氨酸,β一氨基丙酸 |
Abu | 2-氨基丁酸 |
4Abu | 4-氨基丁酸,哌啶酸 |
Acp | 6-氨基已酸 |
Ahe | 2-氨基庚酸 |
Aib | 2-氨基异丁酸 |
bAib | 3-氨基异丁酸 |
Apm | 2-氨基庚二酸 |
Dbu | 2,4二氨基丁酸 |
Des | 赖氨素 |
Dpm | 2,2'-二氨基庚二酸 |
Dpr | 2,3-二氨基丙酸 |
EtGly | N-乙基甘氨酸 |
EtAsn | N-乙基天冬氨酸 |
Hyl | 羟基赖氨酸 |
aHyl | 别-羟基赖氨酸 |
3Hyp | 3-羟基脯氨酸 |
4Hyp | 4-羟基脯氨酸 |
Ide | 异赖氨素 |
aIle | 别-异亮氨酸 |
MeGly | N-甲基甘氨酸,肌氨酸 |
MeIle | N-甲基异亮氨酸 |
MeLys | 6-N-甲基赖氨酸 |
MeVal | N-甲基缬氨酸 |
Nva | 正缬氨酸 |
Nle | 正亮氨酸 |
Orn | 鸟氨酸 |
表5 与核苷酸序列相关的特征关键词表
关键词 | 说明 |
allele
| 相关的个体或菌株含有相同基因的稳定的其它形式,该形式区别 于这一位置的现有的序列(和或许其它序列) |
attenuator
|
(2)位于启动子和第一个结构基因之间,引起转录的部分终止的序列区段 |
C_region
| 免疫球蛋白轻和重链的恒定区,和T-细胞受体α,β,和γ链;根据特定的链可 |
CAAT_signal
| CAAT盒;位于可能参与RNA聚合酶结合的真核生物转录单位的起始点的75bp |
CDS
| 编码序列;对应于蛋白质中的氨基酸序列的核苷酸的序列(位置包括终止密码子) |
累计代理量
城市布局
团队实力
服务用户数