1.3 物联网与自动识别技术
物联网中非常重要的技术就是自动识别技术。自动识别技术融合了物理世界和信息世界,是物联网区别于其他网络(如电信网、互联网)最独特的部分。自动识别技术可以对每个物品进行标识和识别,并可以将数据实时更新,是构造全球物品信息实时共享的重要组成部分,是物联网的基石。通俗讲,自动识别技术就是能够让物品“开口说话”的一种技术。
自动识别技术是应用一定的识别装置,通过被识别物品和识别装置之间的接近活动,自动地获取被识别物品的相关信息,并提供给后台的计算机处理系统来完成相关后续处理的一种技术。
按照应用领域和具体特征的分类标准,自动识别技术可以分为以下7种:
(1)IC卡识别技术。
(2)条码识别技术。
(3)光学字符识别技术。
(4)生物特征识别技术。
(5)图像识别技术。
(6)磁卡识别技术。
(7)射频识别技术。
1.3.1 IC卡识别技术
卡类识别技术的产生和推广使用加快了人们日常生活信息化的速度。用于信息处理的卡片大致分为非半导体卡和半导体卡两大类。非半导体卡包括磁卡、PET卡、光卡、凸字卡等;半导体卡主要有IC卡等,如图1.7所示。
图1.7 卡类识别技术的分类图
磁卡和IC卡是应用非常广泛的两类卡。
1.3.1.1 IC卡技术基础
IC卡(Integrated Circuit Card,集成电路卡)是继磁卡之后出现的又一种新型信息工具。IC卡在有些国家和地区也称智能卡(Smart Card)、智慧卡(Intelligent Card)、微电路卡(Microcircuit Card)或微芯片卡等。它是将一个微电子芯片嵌入符合ISO 7816标准的卡基中,做成卡片形式,利用集成电路的可存储特性,保存、读取和修改芯片上的信息,已经广泛应用于包括金融、交通、社保等诸多领域。
IC卡的主要特性如下:
(1)存储容量大:其内部可含RAM、ROM、EPROM、EEPROM等存储器,存储容量从几字节到几兆字节。
(2)体积小,重量轻,抗干扰能力强,便于携带。
(3)安全性高:在无源情况下,数据也不会丢失,数据安全性和保密性都非常好。
(4)智能卡与计算机系统相结合,可以方便地满足对各种信息的采集、传送、加密和管理的需要。
IC卡按通信方式分为接触式IC卡、非接触式IC卡和双界面卡,如图1.8所示。
图1.8 IC卡
IC卡起源于20世纪60年代,国际标准化组织(ISO)与国际电工委员会的联合技术委员会为之制定了一系列的国际标准、规范,极大地推动了IC卡的研究和发展。20世纪50年代以来,IC卡已被广泛应用于金融、交通、通信、医疗、身份证明等众多领域。IC卡发展历程如表1.1所示。
表1.1 IC卡发展历程
虽然IC卡进入我国较晚,但在政府的支持下,发展迅速。1995年底,国家金卡办为统筹规划全国IC卡的应用,组织拟定了金卡工程非银行卡应用总体规划。为保证IC卡的健康发展,在国务院金卡办的领导下,原信息产业部、公安部、原卫生部、原国家工商行政管理局等部门纷纷制定了IC卡在本行业的发展规划。
随着我国信息化进程的深入,IC卡类产品在各行业的应用日益广泛,我国IC卡行业以及相关配套产业也步入了快速发展阶段。目前,国内IC卡企业逐渐掌握了相关核心技术,无论是芯片设计、制造和测试、模块封装、卡基生产、卡片印刷,还是芯片操作系统(Chip Operating System,COS)和应用软件开发,以及相关废料回收,技术水平和自主创新能力都大幅提升,基本能够满足市场的各类差异性需求,IC卡行业的整体竞争力不断提高。
1.3.1.2 接触式IC卡
接触式IC卡通过读写设备的触点与IC卡的触点接触后进行数据的读写。
国际标准ISO 7816对此类卡的机械、电气特性等进行了规定:具有标准形状的铜皮触点,通过和卡座的触点相连后实现外部设备的信息交换。按芯片的类型分类,接触式IC卡可以分为4类:存储卡、逻辑加密卡、CPU卡和超级智能卡。接触式IC卡的结构和功能如表1.2所示。
表1.2 接触式IC卡的结构和功能
1. 接触式IC卡的结构
IC卡读写器要能读写符合ISO 7816标准的IC卡。IC卡接口电路作为IC卡与设备接口IFD(Interface Device)内的CPU进行通信的唯一通道,为保证通信和数据交换的安全与可靠,其产生的电信号必须满足下面的特定要求。
(1)完成IC卡插入与退出的识别操作
IC卡接口电路对IC卡插入与退出的识别,即卡的激活和释放有很严格的时序要求。如果不能满足相应的要求,IC卡就不能进行正常操作,严重时将损坏IC卡或IC卡读写器。
(2)通过触点向卡提供稳定的电源
IC卡接口电路应能在下表规定的电压范围内,向IC卡提供稳定的电流。
(3)通过触点向卡提供稳定的时钟
IC卡接口电路向卡提供时钟信号。时钟信号的实际频率范围在复位应答期间应为:A类卡,1~5MHz;B类卡,1~4MHz。
接触式IC卡的实际构成为:半导体芯片、电极模片、塑料基片等,其外观及内部结构如图1.9所示。
图1.9 接触式IC卡的外观及内部结构
2. 接触式IC卡工作原理
接触式IC卡获取工作电压的方法:接触式IC卡通过其表面的金属电极触点将卡的集成电路与外部接口电路直接接触连接,由外部接口电路提供卡内集成电路工作的电源。
接触式IC卡与读写器交换数据的原理:接触式IC卡通过其表面的金属电极触点将卡的集成电路与外部接口电路直接接触连接,通过串行方式与读写器交换数据(通信)。其基本要求如下:
(1)完成IC卡插入与退出的识别操作。
(2)通过触点向IC卡提供稳定的电源。
(3)通过触点向IC卡提供稳定的时钟。
1.3.1.3 CPU卡
IC卡从接口方式上分为接触式IC卡、非接触式IC卡及复合卡;从器件技术上分为非加密存储卡、加密存储卡及CPU卡。非加密卡没有安全性,可以任意改写卡内的数据;加密存储卡是在普通存储卡的基础上增加了逻辑加密电路,成了加密存储卡(逻辑加密卡)。
加密存储卡由于采用密码控制逻辑来控制对EEPROM的访问和改写,在使用之前需要校验密码才可以进行写操作,所以对于芯片本身来说是安全的,但在应用上是不安全的。具体存在以下不安全性因素:
(1)密码在线路上是明文传输的,易被截取。
(2)对于系统商来说,密码及加密算法都是透明的。
(3)逻辑加密卡无法认证应用是否合法。
例如,假设有人伪造了ATM,你无法知道它的合法性,当插入信用卡,输入PIN的时候,信用卡的密码就被截获了。再如Internet网上购物,如果使用加密存储卡,则购物者同样无法确定网上商店的合法性。
正是由于加密存储卡使用上的不安全因素,促进了CPU卡的发展。
CPU卡又称智能卡,其卡内的集成电路中带有微处理器CPU、存储单元[包括随机存储器RAM、程序存储器ROM(Flash)、用户数据存储器EEPROM]以及COS。装有COS的CPU卡相当于一台微型计算机,不仅具有数据存储功能,同时还具有命令处理和数据安全保护等功能。
因此,CPU卡芯片通俗地讲就是指芯片内含有一个微处理器,它的功能相当于一台微型计算机。CPU卡内部结构如图1.10所示。
图1.10 CPU卡内部结构
CPU卡可适用于金融、保险、交警、政府行业等多个领域,具有用户空间大、读取速度快、支持一卡多用等特点。CPU卡从外形上来说和普通IC卡、射频卡并无差异,但是性能上有巨大提升,安全性比普通IC卡提高了很多,通常CPU卡内含有随机数发生器、硬件DES、3DES加密算法等,配合COS可以达到金融级别的安全等级。
COS一般是紧紧围绕着它所服务的智能卡的特点而开发的。由于不可避免地受到了智能卡内微处理器芯片的性能及内存容量的影响,因此COS在很大程度上不同于通常微机上的操作系统(如DOS、UNIX等)。
CPU卡可以做到对人、对卡、对系统的三方合法性认证。在认证过程中,密钥在线路上不以明文出现,每次的送出都是经过随机数加密的,而且因为有随机数的参加,所以确保了每次传输的内容不同,即使数据被截获了,也是没有任何意义的。
这不单是密码对密码的认证,也是方法对方法的认证。例如,早期在军队中使用的密码电报,发送方将报文按一定的方法加密成密文发送出去,接收方收到后又按一定的方法将密文解密。通过这种认证方式,线路上就没有了攻击点,同时卡也可以验证应用的合法性;但是因为系统方用于认证的密钥及加密算法在应用程序中,所以还是不能排除系统商的攻击性。因此,引入了SAM卡的概念。
1.3.1.4 SAM卡
SAM(Security Access Module)卡是一种具有特殊性能的CPU卡,用于存放密钥和加密算法,可完成交易中的相互认证、密码验证和加密、解密运算,一般用作身份标志。
由于SAM卡的出现,便有了一种更完整的系统解决方案。
在发卡时,将主密钥存入SAM卡后,由SAM卡中的主密钥对用户卡的特征字节(如应用序列号)加密生成子密钥,将子密钥注入用户卡中。由于应用序列号的唯一性,因此使每张用户卡内的子密钥都不同。密钥一旦注入卡中,则不会在卡外出现。在使用时,由SAM卡的主密钥生成子密钥存放在RAM区中,用于加密、解密数据。
认证过程:
(1)通过SAM卡系统,送随机数X,SAM卡生成子密钥对随机数加密。
(2)SAM卡解密Y,得结果Z。
(3)比较X、Z,如果相同,则表示系统是合法的。
这样,在应用程序中的密钥就转移到了SAM卡中,认证成为卡-卡之间的认证,系统商不再存在责任。卡与外界进行数据传输时,若以明文方式传输,则数据易被截获和分析。同时,也可以对传输的数据进行篡改,要解决这个问题,CPU卡提供了线路保护功能。
线路保护分为两种:
一是将传输的数据进行DES(Data Encryption Standard,数据加密标准)加密,以密文形式传输,防止截获分析。
二是对传输的数据附加MAC(Message Authentication Code,报文鉴别码),接收方收到后首先进行校验,校验正确后才予以接收,以保证数据的真实性与完整性。
1.3.1.5 双界面卡
双界面卡将接触式IC卡与非接触式IC卡组合到一张卡片中,操作独立,但可以公用一个CPU、操作系统和存储空间。卡片包括一个微处理器芯片和一个与微处理器相连的天线线圈,由读写器产生的电磁场提供能量,通过射频方式实现能量供应和数据传输,如图1.11所示。
图1.11 双界面卡
双界面卡是由PVC层和芯片线圈组成的,基于单芯片的、集接触式与非接触式接口为一体的智能卡。它有两个操作界面,对芯片的访问,既可以通过接触方式,也可以相隔一定距离,以射频方式访问芯片。
卡片上有一个芯片、两个接口,通过接触界面和非接触界面都可以执行相同的操作。两个界面分别遵循两个不同的标准:接触界面符合ISO/IEC 7816;非接触符合ISO/IEC 14443。
根据接触式智能卡系统与非接触式智能卡系统的关系,双界面IC卡可以分为如下三种类型:
(1)仅仅是物理地组合到一张卡片中,两个EEPROM,两套系统互相独立。
(2)彼此操作独立,但共享卡内部分存储空间。
(3)完全融合,接触式与非接触式运行状态相同,公用一个CPU管理。
三种双界面IC卡中,只有最后一种双界面IC卡才是真正意义上的非接触式双界面CPU卡。
1.3.2 条码识别技术
条码识别技术起源于20世纪40年代,是迄今为止最经济、最实用的一种自动识别技术,它通过条码符号保存相关数据并通过条码识读设备实现数据的自动采集。
条码又称条形码,是将宽度不等的多个黑条和空白,按照一定的编码规则排列,用以表达一组信息的图形标识符。常见的条码是由反射率相差很大的黑条(简称条)和白条(简称空)排成的平行线图案,如图1.12所示。
图1.12 书籍的条码
条码可以标出物品的生产国、制造厂家、商品名称、生产日期、图书分类号、邮件起止地点、类别、日期等许多信息,因而在商品流通、图书管理、邮政管理、银行系统等许多领域都得到了广泛的应用。
条码技术具有以下几个方面的优点:
(1)输入速度快:与键盘输入相比,条码输入的速度是键盘输入的5倍以上,并且能实现“即时数据输入”。
(2)可靠性高:键盘输入数据出错率为三百分之一,利用光学字符识别技术出错率为万分之一,而采用条码技术误码率低于百万分之一。
(3)采集信息量大:利用传统的一维条码一次可采集几十位字符的信息,二维条码更可以携带数千个字符的信息,并有一定的自动纠错能力。
(4)灵活实用:条码标识既可以作为一种识别手段单独使用,也可以与有关识别设备组成一个系统实现自动化识别,还可以与其他控制设备连接起来实现自动化管理。
另外,条码标签易于制作,对设备和材料没有特殊要求,识别设备操作容易,不需要特殊培训,且设备也相对便宜。
1.3.2.1 条码的符号与编码
条码是利用“条”和“空”构成二进制的“0”和“1”,并以它们的组合来表示某个数字或字符,反映某种信息的。不同码制的条码在编码方式上有所不同,一般有以下两种。
1. 宽度调节编码法
宽度调节编码法即条码符号中的条和空由宽、窄两种单元组成的条码编码方法,如图1.13所示,按照这种方式编码时:
(1)窄单元(条或空)表示逻辑值“0”。
(2)宽单元(条或空)表示逻辑值“1”。
图1.13 宽度调节编码法条码符号结构
宽单元通常是窄单元的2~3倍。
2. 模块组配编码法
模块组配编码法即条码符号的字符由规定的若干个模块组成的条码编码方法,如图1.14所示。
图1.14 模块组配编码法条码符号结构
按照这种方式编码,条与空是由模块组合而成的。
(1)一个模块宽度的条模块表示二进制的“1”。
(2)一个模块宽度的空模块表示二进制的“0”。
1.3.2.2 条码的符号结构
条码符号结构如图1.15。条码符号通常由如下部分构成:左右侧空白区、起始字符、数据字符、校验字符、终止字符,具体功能如表1.3所示。
图1.15 条码符号结构
表1.3 条码符号的功能
条码可分为一维条码和二维条码。
1.3.2.3 一维条码
一维条码就是通常所说的传统条码。一维条码按照应用可分为商品条码和物流条码。商品条码包括EAN码和UPC码,物流条码包括128码、ITF码、39码、库德巴(Codabar)码等。一维条码的码制及部分图例如表1.4所示。
表1.4 一维条码的码制及部分图例
1. 商品条码
商品标识代码(Identification Code for Commodity)是由国际物品编码协会(EAN)和美国统一代码委员会(UCC)规定的、用于标识商品的一组数字,包括EAN/UCC-13码、EAN/UCC-8码和UCC-12码。
(1)EAN/UCC-13码
EAN/UCC-13码标准码共13位数,由国家代码、厂商代码、商品代码及校验码组成。条码结构及说明如表1.5和表1.6所示。
表1.5 EAN/UCC-13码结构
表1.6 EAN/UCC-13码的结构说明
EAN/UCC-13码主要应用于超市和其他零售业,因此这种码是比较常见的,随便拿起身边的一个从超市买来的商品都可以从包装上看得到这种码。中国可用的国家代码有690~699,如图1.16所示。
图1.16 EAN//UCC-13码举例
(2)EAN/UCC-8码
EAN/UCC-8码用于标识小型商品,由8位数字组成,其结构如表1.7所示,其中X8X7X6为前缀码。计算校验码时只需在EAN/UCC-8码前添加5个“0”,然后按照EAN/UCC-13码中的校验码计算即可。EAN/UCC-8码用于商品编码的容量很有限,应慎用。
表1.7 EAN/UCC-8码的结构
(3)UCC-12码
UCC-12码可以用UPC-A商品条码和UPC-E商品条码的符号表示。
UCC-12码的结构如表1.8所示,具体含义如下:
厂商识别代码:由左起6~10位数字组成。X12为系统字符。
商品项目代码:由1~5位数字组成。
校验码:校验码为1位数字,计算方法同EAN/UCC-13代码。
表1.8 UCC-12码的结构
UPC-E商品条码所表示的UCC-12码由8位数字(X8~X1)组成,是将系统字符为“0”的UCC-12码进行消零压缩所得。其中,X7~X2为商品项目识别代码;X8为系统字符,取值为0;X1为校验码,校验码为消零压缩前UPC-A商品条码的校验码。
2. 物流条码
物流条码是供应链中用以标识物流领域中具体实物的一种特殊代码,是整个供应链过程,包括生产厂家、配销业、运输业、消费者等环节的共享数据。它贯穿整个贸易过程,并通过物流条码数据的采集、反馈,提高整个物流系统的经济效益。物流条码标识的内容主要有项目标识(货运包装箱代码SCC-14)、动态项目标识(系列货运包装箱代码SSCC-18)、日期、数量、参考项目(客户购货订单代码)、位置码、特殊应用(医疗保健业等)及内部使用,具体规定参见相关国家标准。
目前,现存的条码码制多种多样,但国际上通用的和公认的物流条码码制有三种:ITF-14条码、EAN/UCC-128条码及EAN/UCC-13条码。选用条码时,要根据货物和商品包装的不同,采用不同的条码码制:单个大件商品,如电视机、电冰箱、洗衣机等商品的包装箱往往采用EAN/UCC-13条码;储运包装箱常常采用ITF-14条码或EAN/UCC-128条码,包装箱内可以是单一商品,也可以是不同的商品或多件头商品小包装。
ITF-14条码的组成见GB/T 16830《储运单元条码》。EAN/UCC-128条码是一种连续型、非定长条码,能更多地标识贸易单元中需表示的信息,如产品批号、数量、规格、生产日期、有效期、交货地等,是使信息伴随货物流动的全面、系统、通用的重要商业手段。
1.3.2.4 二维条码
二维条码技术是在一维条码无法满足实际应用需求的前提下产生的。由于受信息容量的限制,一维条码通常是对商品的标识,而不是对商品的描述。
1. 定义
二维条码(2-Dimensional Bar Code)是用某种特定的几何图形按一定规律在平面(二维方向上)分布的黑白相间的图形记录数据符号信息的。
在代码编制上,二维条码利用构成计算机内部逻辑基础的“0”“1”比特流的概念,使用若干个与二进制相对应的几何形体来表示文字数值信息,通过图像输入设备或光电扫描设备自动识读以实现信息自动处理,因此能在很小的面积内表达大量的信息。
在二维条码设备开发研制、生产方面,美国、日本等国的设备制造商生产的识读设备、符号生成设备,已广泛应用于各类二维条码应用系统。
二维条码技术已在我国的汽车行业自动化生产线、医疗急救服务卡、涉外专利案件收费、火车票、珠宝玉石饰品管理及银行汇票上得到了应用。
我国香港特别行政区已将二维条码应用在特别行政区的护照上。
由于二维条码通过水平和垂直两个方向表示信息,因此可以承载大量数据。一维条码与二维条码的对比如图1.17所示。图1.18显示了一些典型的二维条码。
图1.17 一维条码与二维条码的对比
图1.18 典型的二维条码
国外对二维条码技术的研究始于20世纪80年代末。在二维条码符号表示技术研究方面,已研制出多种码制,常见的有PDF417、QR Code、Code 49、Code 16K、Code One等。这些二维条码的密度都比传统的一维条码有了较大的提高,如PDF417的信息密度是一维条码39码的20多倍。
二维条码除左右(条宽)的粗细及黑白线条有意义外,上下的条高也有意义。与一维条码相比,由于左右(条宽)、上下(条高)的线条皆有意义,故可存放的信息量就比较大。除此之外,二维条码还具有安全性高、读取率高、错误纠正能力强等特性。
对于行排式二维条码可用线扫描器多次扫描识读,而对于矩阵式二维条码仅能用图像扫描器识读。一维条码通常是对商品的标识,而二维条码是对商品的描述。
2. 二维条码的分类
根据构成原理、结构形状的差异,二维条码可分为两大类型:行排式二维条码(2D Stacked Bar Code);矩阵式二维条码(2D Matrix Bar Code)。
(1)行排式二维条码
行排式二维条码(又称堆积式二维条码或层排式二维条码),其编码原理是建立在一维条码基础之上的,按需要堆积成二行或多行。
它在编码设计、校验原理、识读方式等方面继承了一维条码的一些特点,识读设备与条码印刷与一维条码技术兼容。但由于行数的增加,需要对行进行判定,其译码算法与软件也不完全相同于一维条码。
有代表性的行排式二维条码有PDF 417、Code 49、Code 16K、RSS-14系列等,如图1.19所示。
图1.19 常见的行排式二维条码
另有限定式RSS和扩展式RSS系列,如图1.20所示。
图1.20 RSS系列条码
(2)矩阵式二维条码
矩阵式二维条码(又称棋盘式二维条码),它是在一个矩形空间通过黑、白像素在矩阵中的不同分布进行编码的。
在矩阵相应元素位置上,用点(方点、圆点或其他形状)的出现表示二进制“l”,点的不出现表示二进制的“0”,点的排列组合确定了矩阵式二维条码所代表的意义。
矩阵式二维条码是建立在计算机图像处理技术、组合编码原理等基础上的一种新型图形符号自动识读处理码制。具有代表性的矩阵式二维条码有QR Code、Data Matrix、Maxi Code、Code One、汉信码等,如图1.21所示。
图1.21 常见矩阵式二维条码
1)QR Code
QR Code二维条码由日本在1994年研制,具有如下特点:
① 超高速识读(是PDF417的10倍)。
② 全方位识读。
③ 字符覆盖面广,能够有效表示中国汉字和日本汉字(1817字符)、数字型字符(0~9)、字母数字型数据(数字0~9,大写字母A~Z)、9个其他字符(Space、$、%、*、+、-、.、/、:)。不同的版本,内容不同,支持的字符类别、数量也有差异。
④ 可扩展性强,可以有21×21模块~177×177模块,可用1~16个QR Code链接扩大信息表示规模。
⑤ 具有极强的纠错能力。
2)汉信码
汉信码是一种全新的二维矩阵条码,由中国物品编码中心牵头组织相关单位合作开发,完全具有自主知识产权,2007年成为国家标准,2011年上升为国际标准。和国际上其他二维条码相比,更适合汉字信息的表示,而且可以容纳更多的信息。图1.22为汉信码的样例及生成软件的主界面。
图1.22 汉信码样例及生成软件的主界面
汉信码的主要技术特点如表1.9所示。
表1.9 汉信码的主要技术特点
汉信码作为一种矩阵式二维条码,它具有汉字编码能力强、抗污损、抗畸变、信息容量大等特点,是一种十分适合在我国广泛应用的二维条码,具有广阔的市场前景。
① 政府及主管部门:政府办公、电子政务、国防军队、医疗卫生、公安出入境、公安消防、贵重物品防伪、海关管理、食品安全、产品追踪、金融保险、质检监察、交通运输、人口管理、出版发行、票证/卡等。
② 移动商务、互联网及相关行业:移动通信、票务业、广告业、互联网等。
③ 供应链管理:装备制造、物流业、零售业、流通业、物流供应链等。
④ 其他领域。
【知识链接1.1】 汉信码的研发始末
2005年12月26日,由2位院士(倪光南、何德全)担任组长的专家组对《二维条码新码制开发与关键技术标准研究》进行了鉴定,专家们一致认为:该课题攻克了二维条码码图设计、汉字编码方案、纠错编译码算法、符号识读与畸变矫正等关键技术,研制的汉信码具有抗畸变、抗污损能力强、信息容量高等特点,达到了国际先进水平。专家们建议相关部门尽快将该课题的研究成果产业化,并积极组织试点及推广,同时建议将汉信码国家标准申报成为国际标准。
中国物品编码中心在完成国家重大标准专项课题《二维条码新码制开发与关键技术标准研究》的基础上,于2006年向国家知识产权局申请了如下六项技术专利成果:
(1)《纠错编码方法》。
(2)《数据信息的编码方法》。
(3)《二维条码编码的汉字信息压缩方法》。
(4)《生成二维条码的方法》。
(5)《二维条码符号转换为编码信息的方法》。
(6)《二维条码图形畸变校正的方法》。
1.3.2.5 一维条码和二维条码的比较
一维条码和二维条码的比较如表1.10所示。
表1.10 一维条码和二维条码的比较
一维条码与二维条码应用处理:虽然一维条码和二维条码的原理都是用符号来携带资料,达成资料的自动辨识,但是从应用的观点来看,一维条码偏重于“标识”商品,而二维条码则偏重于“描述”商品。因此,相较于一维条码,二维条码(2D)不仅只保存关键值,并可将商品的基本资料编入二维条码中,达到资料库随着产品走的效果,进一步提供许多一维条码无法达成的应用。例如:一维条码必须搭配电脑资料库才能读取产品的详细资讯,若为新产品,则必须再重新登录,对产品特性为多样少量的行业构成应用上的困扰。
此外,一维条码稍有磨损即会影响条码阅读效果,故不太适用于工厂型行业。除了这些资料重复登录与条码磨损等问题,二维条码还可有效解决许多一维条码所面临的问题,让企业充分享受资料自动输入、无键输入的好处,为企业与整体产业带来相当的利益,也拓宽了条码的应用领域。
1.3.3 光学字符识别技术
光学字符识别(Optical Character Recognition,OCR)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。光学字符识别已有30多年历史,近几年又出现了图像字符识别(Image Character Recognition,ICR)和智能字符识别(Intelligent Character Recognition,ICR),实际上这三种自动识别技术的基本原理大致相同。
光学字符识别是图像识别技术的一种。它是针对印刷体字符,采用光学的方式将文档资料转换成为原始资料黑白点阵的图像文件,然后通过识别软件将图像中的文字转换成文本格式,以便文字处理软件进一步编辑加工的系统技术。其目的就是让计算机知道它到底看到了什么,尤其是文字资料。
1.3.3.1 OCR技术的发展历程
也许提到“OCR”,许多人会觉得非常陌生,其实OCR技术的应用无处不在,而OCR也在时刻改变着人们的生活。
1. OCR技术由来已久
1929年,德国科学家Tausheck首先提出了OCR的概念,并且申请了专利。几年后,美国科学家Handel也提出了利用该技术对文字进行识别的想法。但这种梦想直到计算机的诞生才变成了现实。OCR的意思就演变成为利用光学技术对文字和字符进行扫描识别,转化成计算机内码。
在60~70年代,世界各国相继开始了OCR的研究,而研究的初期,多以文字的识别方法为主,且识别的文字仅为0~9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,1965-1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局做区域分信的作业,因此至今邮政编码一直是各国所倡导的地址书写方式。
2. 汉字OCR技术发展迅速
对于汉字的识别最早可以追溯到20世纪60年代。OCR技术的发展进程如表1.11所示。
表1.11 OCR技术的发展进程
我国OCR技术自20世纪70年代才开始对数字、英文字母及符号的识别进行研究。同国外相比,我国的光学字符识别研究起步较晚。但由于我国政府对汉字自动识别输入的研究从80年代开始给予了充分的重视和支持,经过科研人员十多年的辛勤努力,汉字识别技术的发展和应用有了长足进步:
从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率可达98%以上。
1.3.3.2 OCR技术的应用
1. OCR的“三级跳”
任何一项技术要从实验室走向市场,都要实现技术、产品和应用的“三级跳”。对于OCR技术来说也是如此。如前所述,OCR在中国经历了几十年的发展,技术和产品已经非常成熟了,其识别率也已经达到相当高的水平,而在应用方面,却远远落后于欧美以及日本等国家和地区。因此,实现OCR从技术、产品顺利“跳入”应用领域就成了许多有识之士的奋斗目标。
从行业消费者的需求来看,电子政务、金融、保险、税务、工商等行业用户对信息识别的需求已越来越广泛,由此大力促进了识别技术的大规模应用。而个人消费者对资料电子化、手写识别技术等需求拓展了OCR技术在这一领域的应用之路。与此同时,网络时代的特征也在影响着OCR应用市场的前进步伐,政府、公司、家庭、个人均是网络时代的组成部分,个人资料电子化、商务办公自动化等需求的呼声越来越高涨,从这个角度来看,OCR应用市场的崛起颇有“时势造英雄”的意味。
在成熟的技术应用和市场的需求下,以成熟完备的技术积累为基础,信息识别领域的应用导向将OCR市场送上了更高的台阶。
2. 无处不在的OCR
当前,OCR已经逐步进入了人们日常学习、生活、工作等各个领域。通常情况下,银行的客户存单一般都需要进行图像存档,以前的存档方法是通过微拍的方式,非常耗时、耗力。现在通过OCR技术,用扫描仪对存单进行扫描,对存单的关键字段进行识别,然后进行索引、存盘,极大地方便了查找。
从上面应用中不难发现,只要涉及表格、文字方面的信息处理,OCR就能很好地发挥优势。因此,保险公司的保单、超市的进货单、增值税发票,甚至人大代表的选票,都可以用OCR进行识别,而且识别率相当高。
1.3.3.3 OCR系统的工作流程
一个OCR系统,从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别,最后经人工校正将认错的文字更正并将结果输出,详细的工作流程及描述如表1.12所示。
表1.12 OCR系统的工作流程及描述
1.3.4 生物特征识别技术
生物特征识别(Biometric Recognition或Biometric Authentication)技术是计算机科学中,利用生物特征对人进行识别并进行访问控制的学科。
生物特征识别技术主要是指通过人类生物特征进行身份认证的一种技术,这里的生物特征通常具有唯一的(与他人不同)、可以测量或可自动识别和验证、遗传性或终身不变等特点。所谓生物特征识别的核心在于如何获取这些生物特征,并将之转换为数字信息,存储于计算机中,利用可靠的匹配算法来完成验证与识别个人身份的过程。
生物特征包括身体特征和行为特征,身体特征包括指纹、静脉、掌形、视网膜、虹膜、人体气味、脸型、血管、DNA、骨骼等;行为特征则包括签名、语音、行走步态等。
生物特征识别系统则对生物特征进行取样,提取其唯一的特征转化成数字代码,并进一步将这些代码组成特征模板,当人们与识别系统交互进行身份认证时,识别系统通过获取其特征并与数据库中的特征模板进行比对,以确定二者是否匹配,从而决定接受或拒绝该人。
由于人体特征具有人体所固有的不可复制的唯一性,这一生物密钥无法复制、失窃或被遗忘,因此生物特征识别比传统的身份鉴定方法更具安全、保密和方便性。生物特征识别技术具有不易遗忘、防伪性能好、不易伪造或被盗、随身“携带”和随时随地可用等优点。
1.3.4.1 生物特征识别的起源及发展
生物特征识别的应用可以追溯到古埃及,当时人们根据生物特征识别技术,通过给人身体的某一个特定部位进行测量,并记录下数据,当要证明某个人的身份时,就和记录的数据进行比对。
在我国古代也用到了生物特征识别技术,秦汉时期,人们将写好的文书用黏土封口,然后再摁上自己的指纹作为凭证。
到了20世纪末期,近代的生物特征识别技术开始蓬勃发展,但是由于生物特征识别设备在当时是一个高成本产物,因而并没有得到普及,只在一些高度安保环境中才使用。随着计算机应用的发展,生物特征识别技术越来越成熟,生物特征识别产品成本也越来越低,生物特征识别技术已经在刑侦、政府、军队、电信、金融、商业等领域得到了广泛应用。
我国生物特征识别行业最早发展的是指纹识别技术,基本与国外同步,早在20世纪80年代初就开始了研究,并掌握了核心技术,产业发展相对比较成熟。而我国对于人脸识别、虹膜识别、掌形识别等生物认证技术研究的开展则在1996年之后。1996年,现任中国科学院副秘书长、模式识别国家重点实验室主任谭铁牛入选中科院的“百人计划”,辞去英国雷丁大学的终身教授职务回国,开辟了基于人类生物特征的身份鉴别等国际前沿领域新的学科研究方向,开始了我国对人脸、虹膜、掌纹等生物特征识别领域的研究。
1.3.4.2 生物特征识别的基本原理和特点
1. 生物特征识别的基本原理
生物特征识别原理如图1.23所示。
图1.23 生物特征识别原理
完成整个生物特征识别,首先要对生物特征进行取样,样品可以是指纹、面相、语音等;其次要经过生物特征提取,系统提取唯一的生物特征,并转化为特征代码,再将特征代码存入数据库,形成识别数据库;当人们通过生物特征识别系统进行身份认证的时候,识别系统将获取被认证人的特征,然后通过一种特征匹配算法将被认证人的特征与数据库中的特征代码进行比对,从而决定接受还是拒绝该人。
2. 生物特征识别的特点
生物特征识别技术的特点,决定了该技术作为个人身份鉴别的有效性,其特点如下:
(1)普遍性
生物特征识别所依赖的身体特征基本上是人类与生俱来的,因此不需要向有关部门申请或制作。
(2)唯一性和稳定性
经研究和经验表明,每个人的指纹、掌纹、面部、发音、虹膜、视网膜、骨架等都与别人不同,且终生不变。
(3)不可复制性
随着计算机技术的发展,复制钥匙、密码卡以及盗取密码、口令等都变得越发容易,然而要复制人类的活体指纹、掌纹、面部、虹膜等生物特征就困难得多。
综上所述,利用生物特征进行身份验证的方法,不依赖各种人造的和附加的物品来证明人的自身,而用来证明自身的恰恰是人的本身,所以它不会丢失、不会遗忘,很难伪造和假冒,是一种“只认人、不认物”,方便安全的保安手段。
1.3.4.3 生物特征识别的主要内容
1. 指纹识别
指纹在我国古代就被用来代替签字画押,证明身份。
指纹大致可分为弓、箕、斗三种基本类型,如图1.24所示,并且具有每个人不同、终身不变的特性。
图1.24 基本的纹形图案
指纹识别是目前最成熟、最方便,且可靠、无损伤和价格便宜的生物特征识别技术解决方案,已经在许多领域中得到了广泛的应用。
指纹识别具有如下优点:
(1)专一性强,复杂程度高。指纹是人体独一无二的特征,并且它们的复杂度足以提供用于鉴别的足够特征。
(2)可靠性高。想要增加可靠性,只需登记更多的指纹。
(3)速度快、使用方便。扫描指纹的速度很快,使用非常方便。
(4)设备小、价格低。指纹采集装置更加小型化,可以很容易地与其他设备相结合,并且随着电子传感芯片的快速发展,其价格也会更加低廉。
同时,指纹识别也具有如下缺点:
(1)某些人或某些群体的指纹因为指纹特征很少,故而很难成像。
(2)目前的指纹识别技术,在识别过程中只存储指纹特征数据而不存储指纹图像,因此指纹数据存储不全面。
(3)每一次使用指纹时都会在指纹采集装置上留下用户的指纹印痕,而这些指纹痕迹存在被用来复制指纹的可能性。
2. 掌纹识别
手掌几何学是基于这样一个事实:几乎每个人的手的形状都是不同的,而且这个手的形状在人达到一定年龄之后就不再发生显著变化。当用户把他的手放在手形读取器上时,一个手的三维图像就被捕捉下来,读取器对手指和指关节的形状和长度进行测量,从而得到掌纹的特征信息,如图1.25所示。
图1.25 掌纹的特征信息
根据被识别对象部位的不同,手形数据的读取可分为下列三种范畴:手掌的应用、手中血管的模式及手指的几何分析。
映射出手的不同特征是相当简单的,不会产生大量数据集。但是,即使有了相当数量的记录,手掌几何学也不一定能够将人区分开来,这是因为手的特征是很相似的。与其他生物特征识别方法相比,手掌几何学不能获得最高程度的准确度。当数据库持续增大时,就需要在数量上增加手掌的明显特征,以便用来清楚地将人与模板进行辨认和比较。
3. 与眼睛相关的识别技术
与眼睛相关的识别技术主要包括虹膜识别、视网膜识别和角膜识别,其中常用的是虹膜识别和视网膜识别。
(1)虹膜识别
虹膜是位于人眼表面黑色瞳孔和白色巩膜之间的圆环状区域,在红外光下呈现出丰富的纹理信息,如斑点、条纹、细丝、冠状、隐窝等细节特征。虹膜从婴儿胚胎期的第3个月起开始发育,到第8个月虹膜的主要纹理结构已经成形。
除非经历危及眼睛的外科手术,此后几乎终生不变,如图1.26所示。
图1.26 虹膜图像
虹膜识别通过对比虹膜图像特征之间的相似性来确定人们的身份,其核心是使用模式识别、图像处理等方法对人眼睛的虹膜特征进行描述和匹配,从而实现自动的个人身份认证。
英国国家物理实验室的测试结果表明:虹膜识别是各种生物特征识别方法中错误率最低的。从普通家庭门禁、单位考勤到银行保险柜、金融交易确认,应用后都可有效简化通行验证手续、确保安全。如果手机加载“虹膜识别”,那么即使手机丢失也不用担心信息泄露。机场通关安检中采用虹膜识别技术,将缩短通关时间,提高安全等级。
(2)视网膜识别
视网膜是眼睛底部的血液细胞层。视网膜扫描采用低密度的红外线去捕捉视网膜的独特特征,血液细胞的唯一模式就因此被捕捉下来。某些人认为视网膜是比虹膜更为唯一的生物特征。
视网膜识别的优点在于它是一种极其固定的生物特征,因为它是“隐藏”的,具有如下特点:
① 不可能受到磨损、老化等影响。
② 使用者无须与设备进行直接的接触。
③ 它是一个最难欺骗的系统,因为视网膜是不可见的,故而不会被伪造。
④ 视网膜识别也有一些不完善的地方,如视网膜技术可能会给使用者带来健康方面的损伤,这需要进一步的研究。
⑤ 设备投入较为昂贵,识别过程的要求也高。
因此,视网膜识别在普遍推广应用上具有一定的难度。
4. 人脸(面部)识别
面部识别系统是通过分析面部特征的唯一形状、模式和位置来辨识人,如图1.27所示。
图1.27 人脸识别的数据采集
面部识别采集处理的方法主要是标准视频和热成像技术。标准视频技术通过一个标准的摄像头摄取面部的图像或者一系列图像,在面部被捕捉之后,一些核心点被记录(如眼睛、鼻子和嘴的位置以及它们之间的相对位置)下来后形成模板;热成像技术通过分析由面部的毛细血管的血液产生的热线来产生面部图像,与视频摄像头不同,热成像技术并不需要在较好的光源条件下,因此即使在黑暗情况下也可以使用。
面部生物特征识别技术的吸引力在于它能够人机交互,用户不需要与设备直接接触。但相对指纹识别来说,早期的可靠性较差,主要原因在于:
使用者面部的位置与周围的光环境都可能影响系统的精确性,并且设备十分昂贵,只有比较高级的摄像头才可以高速有效地捕捉面部图像,设备的小型化也比较困难;此外,面部识别系统对于因人体面部(如头发、饰物、变老等)的变化需要通过人工智能来得到补偿。
但是,随着机器知识学习系统的不断完善及高速运算的IC的出现及算法的改进,早期制约人脸识别的因素逐渐被解决,目前此项技术基本成熟,正在逐步代替指纹识别。
5. 语音识别
语音识别主要包括两方面:语言和声音。声音识别是对基于生理学和行为特征的说话者嗓音和语言学模式的运用,它与语言识别不同之处在于不对说出的词语本身进行辨识,而是通过分析语音的唯一特性,如发音的频率,来识别出说话的人。
声音辨识技术使得人们可以通过说话的嗓音来控制能否出入限制性的区域。例如,通过电话拨入银行、数据库服务、购物或语音邮件,以及进入保密的装置。语言识别则要对说话的内容进行识别,主要可用于信息输入、数据库检索、远程控制等方面。现在身份识别方面更多的是采用声音识别。
声音识别也是一种非接触的识别技术,用户可以很自然地接受,使用方便。但由于非人性化的风险、远程控制和低准确度,它并不可靠;并且声音的变化范围大(如音量、速度和音质等),会直接影响采集与比对的精确度,一个患上感冒的人有可能被错误地拒认从而无法使用该声音识别系统。同时,随着数字化技术的发展,音频数字处理技术很可能欺骗声音识别系统,其安全性受到了挑战。
6. 签名识别
签名识别也被称为签名力学辨识,它是建立在签名时的力度上的。它分析的是笔的移动,例如加速度、压力、方向以及笔画的长度,而非签名的图像本身。签名识别和声音识别一样,是一种行为测定学。签名力学的关键在于区分出不同的签名部分,有些是习惯性的,而另一些在每次签名时都不同。
签名作为身份认证的手段已经有几百年了,应用范围从独立宣言到信用卡都可见到,是一种能很容易被大众接受而且是一种公认的较为成熟的身份识别技术。然而,签名辨识的问题仍然存在于获取辨识过程中使用的度量方式以及签名的重复性。签名系统已被控制在某种方式上去接受变量,如果不降低接受率,就无法持续地衡量签名的力度。
7. DNA识别
人体内的DNA在整个人类范围内具有唯一性(除双胞胎可能具有同样结构的DNA外)和永久性。因此,除对双胞胎个体的鉴别可能失去它应有的功能外,这种方法具有绝对的权威性和准确性。
DNA鉴别方法主要根据人体细胞中DNA分子的结构因人而异的特点进行身份鉴别。这种方法的准确性优于其他任何身份鉴别方法,同时有较好的防伪性。然而,DNA的获取和鉴别方法(DNA鉴别必须在一定的化学环境下进行)限制了DNA鉴别技术的实时性;另外,某些特殊疾病可能改变人体DNA的结构组成,系统无法正确地对这类人群进行鉴别。
8. 其他识别技术
除了以上介绍的几种生物特征识别技术,现在开发和研究中的还有通过静脉、耳朵形状、按键节奏、身体气味、行走步态等的识别技术。
五类主要的人体生物特征的自然属性如表1.13所示。
表1.13 五类主要的人体生物特征的自然属性
从上表列出的特性可以看出,某一应用领域可能特别需要某种生物特征,如刑侦应用与指纹识别、亲子鉴定与DNA等。与其他生物特征相比,虹膜组织更适合信息安全和通道控制领域。例如,虽然多种特征都具有因人而异的自然属性,但虹膜的重复率极低,远远低于其他特征。又如,痕迹可以给刑侦带来很大方便,但痕迹易被他人利用来造假,则不利于信息安全。另外,虹膜相对不易因伤受损,大大减少了因外伤而导致无法识别的可能性。而静脉识别更完美,精确度可以和虹膜识别媲美,无须接触,操作方便,适应人群广泛。
1.3.5 常见的自动识别技术比较
常用自动识别技术的比较如表1.14所示。
表1.14 常用自动识别技术的比较
由表可见,射频识别最突出的特点是可以非接触识读(识读距离从几厘米至几十米)、可识别高速运动物体、抗恶劣环境、保密性强、高准确性和安全性、识别唯一、无法伪造、可同时识别多个识别对象等。