百度推出自然场景OCR

2013.11.17

图1:自然场景OCR应用场景(图片采自加拿大sign post forest公园)

随着图像数码设备的成熟和普及,人类已经在互联网上打造出了一个令人叹为观止的图像世界,生动地反映着现实世界在不同视角下的方方面面。在如此丰富的图像信息中,可视化文本,作为人类语言的主要表现形式之一,根植于我们日常工作和生活中的每个角落,具有特殊而不可替代的地位。自然场景OCR的目标就是在自然场景拍摄的图像中准确地检测并识别出其中的文字内容。它在信息搜索(Search),地理位置信息服务(LBS),文字翻译(Text Translation),盲人辅助阅读(Reading for Blind and Visually Impaired),图像标注(Image tagging),人机交互(Human Computer Interaction)等众多场景下有着益加广阔的应用前景。试想一下,当我们身处异国他乡,面对着陌生的外文路牌和餐馆菜单一筹莫展时,只需要通过手持或穿戴设备上搭载的自然场景OCR功能,就可以快速地识别出这些文字,并从云端获取与之相关联的各种信息,这将是一种多么美妙的体验!

百度深度学习研究院依托业界领先的机器学习和计算机视觉算法,不断致力于开发世界顶级的自然场景OCR技术,并通过优秀的人机交互手段,将其转化为准确、高效、易用的用户产品,使人们能够更方便的获取图像文字背后的丰富信息!目前,百度自然场景OCR系统的中、英文识别精度已经达到世界一流水平,并广泛应用于公司多条产品线,如:百度APP视觉搜索(APP下载地址:http://shouji.baidu.com/baidusearch/?p=iphone)、百度翻译APP(APP下载地址:http://writing.baidu.com/appdownload/download.html)和互联网广告图片反作弊等。不仅如此,我们还计划搭建统一的自然场景OCR平台化服务,以API接口和SDK工具包的形式对外部开发者开放OCR的众多基础功能,加速推动自然场景OCR技术在人们日常生活中的应用。

图2:百度翻译APP实例

上图采自一个真实的场景,一位辘辘饥肠的外国友人在上海一小吃摊前正苦于不认识中国汉字,踌躇不前。忽然灵机一动,掏出手机,打开百度翻译APP,拍照、翻译简单两步,美食的名称和价格就跃然屏上。这只是自然场景OCR技术应用的一个小缩影。未来,我们会推出更多智能产品帮助用户方便的获取图像文字信息和他们背后的故事!敬请期待...