一点科技网-全网最新科技资讯 > 互联网 >

重拳打击互联网违法不良图片 OCR技术智能“抗黑

2018-07-12 21:50

  原标题:重拳打击互联网违法不良图片 OCR技术智能“抗黑” 随着互联网行业的蓬勃发展,我国

  随着互联网行业的蓬勃发展,我国已成为全球第一大互联网市场。亿万用户享受着互联网带来的便捷服务的同时,也承担着被黑色产业链生产的黄赌毒、制假贩假和地下博彩信息带来的风险。近年来,因互联网违法不良信息诱发的犯罪,造成公民财产和精神损失的案件频发。其中,不良图片信息因其隐蔽性强、形式多样,危害性较之普通文本信息更大,而针对此类图片信息的监控更复杂,耗费人力物力成本也更高。

  日前,利用基于深度学习的OCR技术,在360图片搜索产品中进行落地应用。OCR技术能对互联网上各色泛滥的违法不良图片进行识别和监测,屏蔽和过滤掉违法不良信息,从源头上对互联网黑色产业发布的违法信息予以强有力的打击,用户在中搜索相关图片时,能免受违法不良图片信息的侵害。

  作为国内第二大搜索引擎,服务超过4亿用户,日均8亿搜索请求。图片搜索是产品矩阵中的重要一环,收录超过500亿高清美图,为亿万用户提供壁纸、素材、摄影等高品质搜图体验。360图片搜索在保障用户享用高品质图库的同时,发力安全端,有效隔绝违法不良图片广告和信息。目前,360图片搜索运用这一OCR技术日均过滤超过400万违规图片,对借助图片文本发布违法不良信息的黑色产业予以了最强有力的打击。

  与传统文本识别不同,图片识别的技术难度要更大,背后牵涉的技术细节更为复杂。OCR,全称Optical Character Recognition,即光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,用字符识别方法将形状翻译成计算机文字的过程,简而言之就是把图片上的文字识别出来。从技术原理即可看出,OCR并非一个技术新名词,熟练使用扫描仪进行文本处理的人都不会陌生。但在人工智能时代,OCR技术迎来新的革命性跨越,由传统的识别方式,向基于深度学习下的高准确率识别迈进。

  传统的OCR识别步骤较为复杂,需要对图片文本进行去噪预处理、图像二值化、版式分析、倾斜校正、字符分割、特征提取和字符识别等多重处理,任何步骤出错都会影响最终的识别性能,并且对于复杂背景下的文字,比如广告图片等,识别效果差强人意。

  此次实验室基于最新的机器学习算法,结合360图片搜索海量的图像数据,从文本的检测(Text Detection)到识别(Text Recognition),采用了国际流行的CNN+RNN结构模型和Attention机制等先进算法技术,针对图片的字识别率提高到90%以上,极大程度上提高了针对不良信息内容的处理效率,实现了对于海量图片信息的快速筛选和精准过滤。

  当前,人工智能应用于互联网安全领域已成大势所趋, OCR技术正在政企机构官网防数据泄露、网站违规内容监控等方面施展拳脚。除此之外,在自动驾驶自动识别道路标识、可穿戴设备中信息交互等领域,OCR技术亦大有可为。未来,将持续深耕人工智能技术创新,不断拓展图像和文本识别领域更多应用空间,为用户带来更多便捷体验和安全保障。