文 | 張一弛
(資料圖片)
編輯 | 蘇建勛
2022年人工智能大會上,合合信息使用智能文字識別技術(shù)挑戰(zhàn)鐘鼎文識別。在沒有人工干預(yù)的狀態(tài)下,鐘鼎文從內(nèi)凹狀態(tài)被拉平,并被轉(zhuǎn)譯成簡體字,“克曰穆朕文且?guī)熑A父悤譲氒心寧靜于猷淑哲氒”等原本連在一起的復(fù)雜語句,也經(jīng)過“AI斷句”功能自動處理后被區(qū)分開來。
2010年合合信息正式上線掃描全能王,后者是最早將AI、OCR等技術(shù)綜合運用的APP之一。通過技術(shù)迭代,掃描全能王目前印刷體文檔字符平均識別率能達到99.77%,手寫體文檔字符平均識別率達到97.00%。
本次識別鐘鼎文,是合合信息繼去年在人工智能大會挑戰(zhàn)識別甲骨文后追求的新挑戰(zhàn)。合合信息掃描全能王事業(yè)部負責(zé)人曹超陽向36氪表示,古文的識別會涉及到OCR行業(yè)兩大典型難點——圖像優(yōu)化處理與文字準(zhǔn)確識別。
圖像優(yōu)化處理方面,古文字的載體與常規(guī)平面差異較大。甲骨文與鐘鼎文對應(yīng)的載體是龜殼和青銅器,表面存在不同程度彎曲、反光、凹凸不平的情況。進行文字識別前,首先需將拍攝到的圖片素材進行智能圖像處理,進行“拉平”等矯正工作,并排除掉陰影、噪點的干擾,達成增強圖像質(zhì)量的目的。
文字準(zhǔn)確識別方面,以《桃花源記》古籍識別為例,古書的紙張比常規(guī)印刷用紙更薄,會有“毛邊”、“透字”現(xiàn)象,對文字識別產(chǎn)生干擾,這時AI就需要去區(qū)分哪些是使用者需要的文字內(nèi)容,遇到個別顯示不清晰的文字,還要通過智能算法去理解判斷這個文字是什么。
來源:采訪供圖,掃描全能王識別《桃花源記》
曹超陽認為,解決古文識別中面對的挑戰(zhàn),實質(zhì)上是解決文檔圖像質(zhì)量退化(頁面不清晰)、文字檢測及版面分析困難、非限定條件文字識別率低、結(jié)構(gòu)化智能理解能力差等行業(yè)性難題,這些技術(shù)迭代帶來的服務(wù)體驗優(yōu)化將更廣泛地服務(wù)日常用戶。
對于用戶日常需求的挖掘,曹超陽表示公司十分重視用戶反饋以發(fā)現(xiàn)產(chǎn)品迭代點,主要從類似場景下的用戶規(guī)模以及需求底層邏輯兩個方面考量。2019年起開始,掃描全能王發(fā)布一系列核心功能,包括“老照片修復(fù)”,“書籍掃描”,“拍PPT”等,切中了學(xué)習(xí)、生活、工作場景中被忽視的隱形需求,為公司產(chǎn)品商業(yè)化做好鋪墊。
更多功能的迭代幫助掃描全能王在商業(yè)化道路上更進一步,掃描全能王在繼續(xù)免費為用戶提供內(nèi)容掃描、識別解決方案的同時,將比較深入、精細的功能作為付費功能提供給用戶。
近年來,因疫情影響,遠程辦公的需求量和需求種類迎來爆發(fā)式增長,文檔數(shù)字化重新成為各界關(guān)注的議題。大環(huán)境利好人工智能技術(shù)發(fā)展的同時,文字識別商業(yè)化需求激增。提前布局細分需求功能,成就了掃描全能王在智能識別領(lǐng)域的“搶灘登陸”。
掃描全能王的母公司合合信息布局“人工智能+大數(shù)據(jù)”兩大技術(shù)領(lǐng)域,在“B+C”端同時取得商業(yè)化落地成效。
C端方面,掃描全能王目前不僅發(fā)力于國內(nèi)市場,產(chǎn)品推出后免費版曾在120個國家App Store效率類榜單上排名第一;B端方面,通過迭代智能文字識別技術(shù),合合信息成功與世界 500 強公司中超過 80 家頭部企業(yè)達成合作,這些頭部公司為合合信息提供了重要的營收支持。
合合信息目前正在科創(chuàng)板擬上市階段,為進一步了解合合信息“AI+OCR”產(chǎn)品的特征,36氪對掃描全能王事業(yè)部負責(zé)人曹超陽進行專訪。以下為專訪對話內(nèi)容,經(jīng)編輯:
36氪:目前OCR市場增長較快,您覺得掃描全能王從布局開始到現(xiàn)在有哪些關(guān)鍵時間節(jié)點?分別是什么?
曹超陽:第一個重要節(jié)點是2010年前后,掃描全能王正式上線。掃描全能王母公司合合信息為產(chǎn)品提供了“智能文字識別”技術(shù)支持,使得掃描全能王成為最早將AI、OCR等技術(shù)綜合運用的APP之一。
第二個節(jié)點是海外業(yè)務(wù)的蓬勃發(fā)展,掃描全能王屢次在海外App Store效率類榜單上排名第一,讓歐美廠商也做起了“國產(chǎn)替代”。
第三個節(jié)點是2019年起開始,掃描全能王發(fā)布的一些核心功能,比如“老照片修復(fù)”,還有后來發(fā)布的“書籍掃描”,“拍PPT”等,都切中了學(xué)習(xí)、生活、工作場景中被忽視的隱形需求。
現(xiàn)階段也很關(guān)鍵,文檔數(shù)字化已經(jīng)迎來了的發(fā)展高峰期。19年底20年初的疫情催化和數(shù)字化轉(zhuǎn)型大潮,讓文檔數(shù)字化重新成為各界關(guān)注的議題。近五年來政策在人工智能領(lǐng)域的利好和文字識別商業(yè)化需求的激增,也是公司“搶灘”市場的可貴機會。 目前,C端APP的月活全球已經(jīng)過億,其中有疫情催化的原因,例如公司的技術(shù)為遠程辦公和生活場景中的各種識別、掃描提供了支持。究其根本,企業(yè)及政府的數(shù)字化轉(zhuǎn)型大潮已至,文檔的數(shù)字化對于業(yè)務(wù)沉淀、效率提升十分重要,智能文字識別技術(shù)正在不斷創(chuàng)造著市場的新增量。
36氪:使用場景方面,您發(fā)現(xiàn)OCR方面各個功能哪幾項是特別受歡迎的,一般是吻合了哪些痛點?
曹超陽:在掃描全能王產(chǎn)品迭代中,我們觀察到有如下功能點很受歡迎:
比如“拍PPT”功能。該功能用到了智能圖像處理模塊中的自動切邊技術(shù),使圖像更清晰。拍完后跟原始PPT保持一致的閱讀與體驗。主要是通過去除多余的背景和陰影干擾,為用戶提供更直觀的文檔閱讀體驗。“拍PPT”不僅能對拍攝到的PPT做圖像處理,讓其以完整的、被優(yōu)化過的圖像形式被保存,如果有文字識別需求,還能精準(zhǔn)地把PPT圖像里的內(nèi)容提取出來。
還有“書籍拍攝”功能。用到了智能圖像處理中的彎曲矯正和抗干擾技術(shù),可以把不平整的書頁拍成掃描儀掃出來一樣平整的頁面,把書上的手指、陰影去掉,盡可能還原平面閱讀體驗。
“手寫擦除”功能現(xiàn)在也很受關(guān)注,我們用“字跡擦除”技術(shù)幫助廣大家長、學(xué)術(shù)“解放雙手,在家庭作業(yè)等場景里很受歡迎。掃描全能王用神經(jīng)網(wǎng)絡(luò)技術(shù)將待處理圖像劃分為手寫“擦除區(qū)域”和印刷題干等“非擦除區(qū)域”,對噪點、陰影、背景雜亂等復(fù)雜場景進行處理,同時運用切邊矯正、圖像增強等濾鏡技術(shù),讓舊的卷子像剛發(fā)下來一樣,為用戶呈現(xiàn)清晰美觀試卷圖像。
36氪:商業(yè)化方向,掃描全能王20年開始盈利營收增長迅速,原因是什么?
曹超陽:通過產(chǎn)品的不斷打磨,在日常辦公、生活領(lǐng)域,掃描全能王為公眾提供“口袋里”的便利。比如從2019年開始推出拍攝證件照,只需在相對清晰干凈背景下拍攝人像,即可自動生成不同尺寸,適用于各類報名、簽證等場景的證件照,還能根據(jù)需求切換背景底色。除此之外,掃描全能王還上線了包括PDF加密、一鍵添加水印等功能,滿足了用戶在不同場景里的需求。這些都成為拉動營收增長的關(guān)鍵。
掃描全能王的母公司合合信息是行業(yè)中少見的在“人工智能+大數(shù)據(jù)”兩大技術(shù)同時布局,“B+C”兩大領(lǐng)域同時取得商業(yè)化落地成效的企業(yè)。所以,除了在C端場景的應(yīng)用,智能文字識別技術(shù)做得越來越好,為也企業(yè)客戶帶來更好的體驗感,已經(jīng)獲得了超過30個行業(yè)的客戶的認可;世界 500 強公司名單中有超過 80 家與合合信息達成合作,這些頭部客戶為公司提供了重要的營收支持。
36氪:掃描全能王梳理用戶場景的方法論有哪些?
曹超陽:從來源上,掃描全能王特別重視用戶反饋,會實時跟進分析,每周也會分門別類做匯總,幫助我們發(fā)現(xiàn)產(chǎn)品機會的迭代點。用戶的反饋實質(zhì)上是他們在使用過程中想到的,能對我們產(chǎn)品精進有幫助的點。我們會從這些點里去分析:有類似場景的用戶多不多?他究竟需要什么?以此去提煉用戶的痛點來迭代產(chǎn)品。
比如拍PPT這個功能,就來自于用戶反饋。之前課堂上授課多用黑板,現(xiàn)在會用電子屏、投影來展示PPT。拍PPT的人時候通常離顯示屏比較遠,而且照片拍出來會有水波樣的底紋,也就是常說的“摩爾紋”。我們就在嘗試:如何讓用戶拍攝時去掉底紋,以及在相對比較遠的距離上拍出比較好的效果。
接下來我們也將繼續(xù)為免費用戶提供高價值的功能,去解決他們在日常生活和工作中遇到的內(nèi)容掃描、識別問題;有些用戶的需求比較深入、也更精細,我們會作為付費功能來對待。比如用戶拍完之后要發(fā)給同事,掃描、發(fā)送本身是免費的。更進一步,發(fā)送時要對PDF加密,這個加密就是一個付費功能。
36氪:掃描全能王此前展示了很多利用AI將古文原文轉(zhuǎn)文字的案例,會涉及到識別率的問題,這當(dāng)中需要解決的難點有哪些?
曹超陽:智能文字識別技術(shù)主要包含了智能圖像處理、基于深度學(xué)習(xí)的復(fù)雜場景文字識別、自然語言處理三個核心技術(shù)層。就古文的識別而言,通常會涉及到行業(yè)存在兩大典型難點,一個是圖像的優(yōu)化處理,再者是古文字的識別,具體要解決的問題有下面幾種:
先說古文字多種多樣的載體帶來的識別挑戰(zhàn)。公司曾在世界人工智能大會上展示過對甲骨文、鐘鼎文的識別,無論是龜殼,還是青銅器,它們的表面都會不同程度地存在彎曲、反光、凹凸不平的情況。在進行文字識別之前,首先要將拍攝到的圖片素材在技術(shù)上進行“拉平”等矯正處理,并做好對于陰影、噪點的處理,這部分就是智能圖像處理,也就是增強圖像的“質(zhì)量”。
除了硬質(zhì)的表面外,紙質(zhì)載體的識別也存在難點。比如在大會展出的《桃花源記》古籍識別項目中,古書的紙張比常規(guī)印刷用紙更薄,而且會有“毛邊”、“透字”現(xiàn)象,都會對文字識別產(chǎn)生干擾,這時AI就需要去區(qū)分哪些是使用者需要的文字內(nèi)容,遇到個別顯示不清晰的文字,還要通過智能算法去“理解”去判斷這個文字是什么。
36氪:古文識別率的難點是日常使用場景的難點的升級版嗎?AI技術(shù)還可以怎樣賦能我們的生活生產(chǎn)?
曹超陽:古文的研究是掃描全能王用技術(shù)促進文化傳承和文物保護的社會責(zé)任體現(xiàn),也是產(chǎn)學(xué)研研究中的一個方向,古文識別中面對的樣本量小、非常規(guī)載體識別干擾因素多,是全行業(yè)面對的挑戰(zhàn)。
解決古文識別中面對的挑戰(zhàn),實質(zhì)上是解決文檔圖像質(zhì)量退化,比如頁面不清晰的情況,文字檢測及版面分析困難、非限定條件文字識別率低、結(jié)構(gòu)化智能理解能力差等全球性的難題。這些問題的解決將為更廣泛的受眾帶來服務(wù)體驗的優(yōu)化。
AI技術(shù)還幫助我們實現(xiàn)了多語言識別。實際上,針對古文的識別僅是智能文字識別應(yīng)用場景之一,掃描全能王還可識別中、英、俄等56種語言文字,被應(yīng)用于全球不同國家、不同行業(yè)的票據(jù)、證件、定制識別等多個場景。
通過挑戰(zhàn)并解決技術(shù)難點,我們在行業(yè)中也落地了很多創(chuàng)新功能,比如已經(jīng)在掃描全能王中上線的“去屏幕紋”、“老照片修復(fù)”,以及上述提到的“手寫擦除”功能,都是通過解決一個個“小眾”場景里的難題,最終服務(wù)于大眾;
還有一些功能已經(jīng)研發(fā)出來,進入許多大型企業(yè)的評估過程中了,比如“PS篡改檢測”,運用了一種直接針對圖像特征信息的篡改檢測方法,在行業(yè)中屬于創(chuàng)新應(yīng)用,可稱得上是“像素級”反詐工具。“PS篡改檢測”技術(shù)能對身份證、護照、駕駛證、港澳通行證等證照類別,以及增值稅發(fā)票、普通發(fā)票、小票、合同等多種文檔類別進行檢測,在金融等很多行業(yè)都有廣泛的需求。
36氪:掃描全能王的技術(shù)應(yīng)用與行業(yè)相比有什么突出的地方?
曹超陽:母公司合合信息對AI底層技術(shù)的重視為掃描全能王承載億級別用戶的高頻使用提供了支持。目前,經(jīng)權(quán)威機構(gòu)檢測,合合信息的印刷體文檔字符平均識別率為99.77%。在產(chǎn)品做小做輕的同時,公司技術(shù)的識別精度仍然穩(wěn)居第一梯隊。這些都是對底層AI技術(shù)重視帶來的。
目前我們產(chǎn)品在全球范圍內(nèi)被廣泛使用,支持超過五十多種語言的識別。同時我們特別貼近用戶的場景需求,比如我們推出的高級文件夾,教資文件夾、考研文件夾,可以幫助用戶在掃描之外,一鍵實現(xiàn)文檔收納。
36氪:用戶使用便捷性方面,掃描全能王是怎么去優(yōu)化使用體驗?
曹超陽:掃描全能王十分關(guān)注用戶痛點,并針對性地進行產(chǎn)品優(yōu)化。掃描全能王積累了龐大的用戶基數(shù),覆蓋各個職業(yè)和群體,幫助我們一起打磨產(chǎn)品,比如:
團隊非常重視用戶反饋,每一條用戶反饋都會由客服、技術(shù)人員、產(chǎn)品經(jīng)理等實時跟進和分析;在改善用戶體驗的同時,也會進一步發(fā)現(xiàn)產(chǎn)品的機會和迭代點。
我們還升級了千元機功能體驗,直面畫質(zhì)與像素的挑戰(zhàn)。有不少老人、學(xué)生群體在使用千元機,攝像頭、CPU和內(nèi)存等硬件條件比較差,因為CPU限制,這些相機拍攝出來的圖片質(zhì)量不夠清晰,處理速度也比一般手機慢很多。技術(shù)團隊為此特別成立了攻堅項目組,針對千元機用戶的使用問題進行了一系列優(yōu)化,保障不同設(shè)備條件的用戶在使用掃描全能王時都能得到流暢的體驗。從中也發(fā)現(xiàn)了很多迭代產(chǎn)品的機會。
關(guān)鍵詞: 識別古文字、修復(fù)老照片 AI讓OCR玩出新花樣 |36氪專