全球首個藏文搜索引擎“云藏”持續升級滿足多種需求

中國新聞網中國新聞網 社會 2020-09-16 11:48:12

中新網青海海南9月16日電(祁增蓓)“我們正處于云藏大數據語料庫的開發階段,主要有分詞語料庫和漢藏雙語平行語料庫的開發,目的是提高信息檢索系統的查全率和查重率,保證搜索結果的準確性。”15日,青海省海南州藏文信息技術研究中心自然語言處理研究所副所長航尖才讓告訴記者。

云藏大數據中心相關工作人員介紹,云藏搜索是一個集新聞、網頁、圖片、視頻、音樂、百科、文庫、知道等搜索于數據庫相結合的大型藏文綜合網絡平臺,是國內各大藏文網站的統一入口,以及互聯網藏文信息的主要來源和資源共享中心。

圖為“云藏”大數據中心工作人員正在編寫語料庫。馬銘言 攝

云藏搜索采用當下最主流的算法,研制藏文自動分詞與語言分析系統,建設大規模訓練語料庫,開發網頁采集、全文搜索、內容管理模塊、搜索網站前臺、網絡爬蟲等系統架構建設,完成了網頁搜索等多個應用系統的建設工作,全面實現了一個搜索引擎應具備的基本功能。

此外,云藏大數據中心聯合業內人士共同研究,成功研發了藏文自動分詞與語言智能分析系統,實現了藏文同義詞搜索、藏文拉丁轉寫搜索、藏文拼寫檢查系統、藏文語義檢索、藏文不同編碼自動轉換等功能,攻克了藏文智能信息處理的核心技術,并成功實現與搜索引擎系統的集成,使云藏搜索引擎有了本土化或藏語化的人工智能特點。

圖為“云藏”大數據中心工作人員講解“云藏”使用方法。祁增蓓 攝

“下一步,云藏大數據中心將搭建藏文互聯網輿情監控分析系統,開展藏文信息的匯集整理和分析,把握網上信息輿論動向,全面了解社情民意,能夠為有效解決藏文網絡輿情信息監測難、掌控難、研判難的瓶頸問題提供可靠的參數與依據。”航尖才讓說,他認為將來“區塊鏈”技術將來也會在其中發揮很大的作用。

據悉,云藏大數據中心已申請獲得《中國著名品牌》《網絡文化經營許可證》,以及《云藏百科》《云藏文庫》《云藏知道》《云藏視頻》等6項計算機軟件著作權,并向國家知識產權局申報了云藏搜索引擎系統、藏文詞性標注系統和藏文分詞系統三項發明專利且已通過初審,如今處于最終實質審查階段。(完)

【編輯:黃鈺涵】

版權聲明

本文僅代表作者觀點,不代表華奇網立場。
本文系作者授權華奇網發表,未經許可,不得轉載。

喜歡發布評論
留言與評論(共有 條評論)
   
驗證碼:
浙江6+120004 广东11选5任八遗漏 天天中彩票谁中了604万 旺彩双色球老版本下载 浙江11选五中奖规则 1万炒股一年最多挣多少药明康德 陕西十一选五数据统计 七乐彩玩法开奖结果 时时彩票app下载 股指期货配资网站 江西快三开奖图 齐鲁福利彩票 北京pk10定位胆技巧 查北京体彩11选5开奖号 湖北十一选五前三直遗漏 网上真钱打麻将官方 pk10赛车345678方案