婷丁香基地-日本私人网站在线观看-一本岛在线-色www精品视频在线观看|www.shzcyb.com

2023信創獨角獸企業100強
全世界各行各業聯合起來,internet一定要實現!

鄒存璐:數據科學助力企業服務創新

2017-06-16 eNet&Ciweek

 以下為鄒存璐先生的演講實錄:


首先非常榮幸有這么一個機會,能作為嘉賓,作為相應主題的一個分享,剛才也聽了一系列嘉賓做了相關的服務創新的主題分享,實際上從剛才聽到的一些內容來講,大家不約而同都選擇了一些圍繞大數據、數據驅動一些創新內容。今天,我這邊分享的內容也是跟數據相關的,就是叫數據科學助力企業服務創新。東軟大家可能都了解,是作為一個全國最大的IT解決方案的服務提供商,東軟面對的這些企業,或者面對的這些客戶來講,更多的是傳統的大型的企業。在這里面,對于這種傳統大型企業里面,它們在這一輪,尤其是互聯網+的新聞,這一輪的創新模式的創新,這種沖擊之下,它們在這里面面臨的一些需求,面對這些需求,就是東軟接下來要進行的一個應對解決的一系列的問題。

商業模式的創新,包括從傳統的解決方案,外包人力資源的方式,向IP資產這種產品方面的努力的一些突破。今天的主題,我這塊是來自于東軟先行產品事業部,主要是做大數據產品一系列的研發,這次的主題是分享一系列的圍繞這個傳統大型企業里面的數據科學、人工智能方面創新的歷程分享,在這里面,今天的歷程主要是三個方面。

第一個圍繞數字化創新的探索歷程,接下來兩個都是一系列創新實踐的一些案例,包括對這些案例的理解和梳理,包括從大數據的轉變到因果關系,從傳統互聯網產生結構化數據到半結構化數據應用的點。第一個面臨的文化就是企業級大數據的服務創新應該怎么做?幾位嘉賓都分享不同領域的看法,有新零售業的,有做企業協同的,包括研究院旅游方面的創新,大概在六年前加入東軟的,之前我在做讀博之間做生物數據的分析,加入到東軟之后,面臨第一個問題,當時大數據正在起步,谷歌剛剛發布一些新技術,一些大數據生態的系統。當時,我們面臨的第一個問題就是圍繞大數據這個領域,我們要做哪方面的創新,要解決哪些客戶方面的痛點和需求問題,畢竟大數據的概念是非常大的,當時我們來看的,包括整個大數據的生態系統,生態院里,解決Iaas基礎設施的,包括大數據基礎平臺的,有一些是做基礎服務的,做用戶畫像的標簽輸送,有一些還做圍繞數據分析挖掘一些內容。在這里面,尤其像東軟面臨的是傳統企業,面臨跟互聯網新企業相比,在這種業務的探索方面,相對來說,在某一些方面是落后一些的,我們在應對這種客戶的需求的時候,經常會問的第一個問題就是:“我這塊有相應的企業級的數據,你幫我看看這塊有什么需求,怎么做一些創新的工作。”

這種服務來說,跟傳統東軟面臨的客戶需是截然不同的,東軟很早之前做人力外包的商業模式,比如說像日本企業的服務外包,很有可能客戶提出的需求非常的細致,直接給開發人員,就可以直接進行編碼,這種模式在大數據模式下是行不通的,自己也沒有搞清楚應該做什么。更多的是我現在有數據,數據質量不高,有一些企業在數據積累的階段,并沒有做好很好數據治理工作,數據質量的保證等等一系列工作。在這里面,微少大數據在傳統企業的創新,首先要解決的就是針對傳統企業的現狀,我們如何來幫助進行一些相應的規劃。為了解決這個問題,我們也是做了一番大的思考,從兩個方面來看技術的方面,對于我們接下來要做企業創新也好,或者相應創新產品也好。

第一,從技術角度發展來看。當時在一年左右,大數據概念初現是谷歌發表的三篇論文,有存儲系統,包括一些技術報價,這套技術是奠定了大數據基礎計算的路程,推動大數據的商業化和價值化最典型的應用就是推薦系統的誕生,是亞馬遜系統應用這種協同過濾的算法在網站上,結合用戶一系列的行為數據,我們可以做一些個性化的推薦。這是第一次能把數據挖掘真正跟用戶緊密的結合起來,能夠顯著的提高相應的收益率。當時亞馬遜公布的收益率,通過智能推薦引擎,整個銷售額提高到20%以上,后來除了商品以外,一個電影公司,從商品到虛擬的電影商品上面的推薦,又進一步推進了數據分析挖掘的在商業企業應用的場景。另一方面,從數據發展的趨勢可以看到,整個的大數據的發展的熱潮,到互聯網化的趨勢來說,是一個必然的結果,看整個數據發展的歷程,最早的起源應該是來自于天文學,很早之前,人類第一次是從天文里面,通過望遠鏡觀測到行星運行的軌跡,做一些分析和預測,預測太陽、行星系的軌跡行為做一些天文方面的內容,通過這個方面的發展,整個數據分析挖掘,一片繁榮之后,接下來到了一個微觀的世界,由于很多基因數據不斷的發展,相應的DNA采樣的數據成本的降低,對DNA、蛋白質數據的產生,圍繞數據分析的技術開始向生物技術轉移,這個也是我在讀博期間做的內容,通過一些疾病因素的分析,包括大家現在一直在生物學里面做一些探究,一些疾病跟基因的表達,哪些基因表達會容易導致疾病,生物用藥的時候會影響相應的疾病的一些治療。另外,隨著這種生物技術,尤其是互聯網的發展,在互聯網上面產生了大量的行為的數據,產生了一系列的內容數據,包括互聯網相應技術的提升之后,采集到用戶在互聯網一系列的操作行為,這些有系列推動,圍繞互聯網方面的發展,說到個性化推薦,提供一系列個性化推薦服務。下一個階段就是圍繞這種物聯網信息的發展,最近工信部推薦NBLT相關技術的基礎建設,圍繞物的建設人工智能、大數據的發展會圍繞物聯網的趨勢上進軍。

從技術的角度來看,從大數據相應的技術里面,跟傳統的分析技術到底有什么區別,在互聯網這一輪大數據技術之前,有了一系列的BI商業智能的技術,從純技術上考慮,大數據能處理的數據量很大,能進行相應的框架的橫向拓展,比傳統BI的傳統量容納的數據量會更多一些。除了量以外,處理的緯度更多了,在互聯2.0技術采用以后,像微信、大眾點評、美團點評,有大量文本數據的產生,這些傳統BI商是不會做這種處理,更多是針對結構性的數據,針對這個能力來說,有一個相應技術的產生,推動這種文本數據挖掘一些潛在的價值,又增加了一個緯度,傳統企業里面,80%的數據都是文本數據,我們很多做的客服系統,做一些咨詢的時候,都是非技術化的數據,經過這種語音轉文本的技術處理,轉變成半結構化的文本數據,這里面蘊含了大量的價值,沒有被傳統的BI挖掘出來,這個大數據相關的技術給了一個新的活力。

第三個就是時效性的問題,大數據產生這種分布式的計算和分布式流的計算技術,有一個顯著的增高。下面也是總結,從業務的角度,傳統BI和高級分析的技術差異的區別是什么。傳統的BI的商業智能更多是圖形化的表達,描述你過去發生了什么,最終是一個輔助決策,最終還是要給人看,人根據這種相應的數據報告做最終的決策。新一輪就是第三階段到第四階段就是預測未來會發生什么,和決定未來要怎么做,這個內容是大數據梳理效能提升的一個典型的特點。

有一個典型的例子,在傳統里面,面對傳統金融銀行的企業,里面是他們在用商業智能是最早的一批用戶,他們是最早非常關注企業相應內部的數據的管理,尤其是傳統金融、銀行里面相應資金比較雄厚,早期里面對這個投入比較前傾一些,整個的處理流程是這樣,所有銀行的分行,會把數據用戶交易信息的相應數據的采集,總行做數據倉庫和BI系統的建設,分行把數據收集匯總到總行,總行做分析和預測,哪些用戶有這種流失的風險,經過這種分析之后,會形成這樣一個客戶流失的列表,這個列表會下發到支行里面,支行根據客戶列表客戶,都有相應的客戶經理,根據這種客戶名單進行一個比對,發現有潛在流失客戶的可能,做適當的關懷,我們了解這個周期下來大概是幾個星期,可以想象幾個星期的周期下來,這個客戶早就流失掉了。

還有一個場景就是互聯網實時競價的系統,包括DRP也是生態系統里的一環,根據互聯網采集的行為數據,包括剛才說的眾盟里面WIFI的探針,形成一些用戶畫像,在互聯網的網頁里面,都有一些廣告位置,這個是按照相應的價值來進行出售的,每一次用戶進來之后,會根據用戶的畫像的特征,向不同的廠商進行展示,會根據匹配度進行價格的信息比對,我就出1塊錢買這個廣告位,展現給客戶,覺得匹配度更低,我就出更低的價格,每一家廠商出價格之后,最后競價高者展現在客戶面前,在這個運行時間效率大概是在毫秒級。可以想象,星期到毫秒級的差異,典型的一個問題,如果達到了毫秒甚至秒級的時候,就不會有人的因素參與進來,有人的參與就不會達到即實的決策。這個傳統智能更多在第一第二階段,數據科學是高級分析,我們能做出相應的決策。

數據科學并不是一個全新的學科,或者理念。實際上他是一個復合型的學科,傳統里面,我們更多是偏一些技術的人員都知道,都偏向于計算機科學技術、數學統計信息更多,大數據相關的技術,在商業環境里面的應用,就是領域知識的結合,沒有這個知識的結合,很難把相應數據背后的價值進行挖掘出來,傳統里面,更多在技術里面強調技術牛人,現在更多強調的是技術商人的概念,怎么把技術跟現有的業務進行一個有機無縫的對接,體現商業價值。

實際上在這里面,我是2011年加入東軟,那時候大家都在做HDFS,解決一些大數據低廉、高效查處的功能,更多的是圍繞數據的挖掘,定的整體的發展路線還是圍繞數據里面的一些價值,也就是現在咱們說的人工智能,當時探索之路,由于東軟是解決方案的提供上,本身來說,之前沒有自身業務的運營,現在來說,東軟也是在做相應的轉型,有了一系列自己的產品,有了一些商業模式運營的內容,所以,當時來說,要解決分析應用的時候,更多的時候你的數據從哪里來,當時我們有很多的一些合作的客戶,讓他們這些有一些相應的數據,包括東軟內部有一些運維數據,還有企業協作的場景,基于這些場景,我們做了一系列的,像亞馬遜這種個性化推薦的內容,圍繞企業內部這種協同辦公的數據,發現企業內部的一種意見領袖,他們的影響力做了一些分析,通過這些應用場景的分析,我們進一步的抽象,形成一種新的工具平臺,機器學習的平臺,文本挖掘的平臺,又進行一些新應用的拓展,有向物聯網的拓展,還有預測性維護、異常檢測、效能優化的場景。

從探索來講,經過這么多年的實踐,總結下來,包括一些報告也提到,現有企業級大數據相關數據驅動的模式來說,核心的業務就是人、業務、物,很多智能場景都是這三者有機的合同和融合的應用。具體來看一下,在這里面,首先是人跟業務,非常典型的就是剛才提到的個性化的推薦,就是智能業務的產生分析人和業務系統之間交互的數據,提供個性化業務辦理流程優化,提高業務處理效率,就是個性化推薦,他們來做這個內容,在業務辦理過程當中,我怎么提高效率,尤其是這種海量的信息里面,我怎么加速用戶找到他感興趣的東西,需要的東西這都是人跟業務之間結合的場景。

另一個場景實際上就是物跟業務,這個是比較未來的場景,現在來說,尤其是現在的手機,移動設備的增加,這個場景離我們也不是太遙遠了,就是智能設備基于傳感器采集到環境信息,進行智能自主控制的決策,比如說設備智能自主效能的優化。甚至來說,剛才我們講到的,很多現在的業務怎么促進人在環節里面的體驗,那么,從未來的角度來說,很多的一些場景,這種決策購買的內容,很多是由物,智能設備來下達的,大家都開汽車,很多的汽車,到達一個里程數量的時候,進行一個傳感器監測的時候,可以看到保養的時間,汽車可以根據自身的狀態,向4S店自主發送相應的請求,請求一些相應保養的服務,這樣由物直接產生業務的場景會越來越多,這種業務的辦理跟人的業務辦理的時候有很大的不同,物自主消費的時候,更多是理性消費,會促進新一輪業務模式的改變。

另一個就是人跟物的,在座的都有穿戴設備的,包括心率、心跳,拓展人行為的特征的數據,從而提供一些智能信息推送的一些決策,可以根據心率、心跳、血壓提供一些健康的預警,提供一些急救自主的場景。人與人實際上就是現在看到這種社交化網絡的場景,基于人與人之間的網絡,進行一些機能的發現,跟協同也是其中的一個問題,大型企業有幾百人員工,新項目里面,找相應的技術專家,東軟里面有兩萬多人,高層和下面員工的時候,這個項目適合誰來做,誰做這個最合適,如何發現一些專家的技術的發現,通過社交的關系,來做相應技能的發展方式。

再未來一個就是物與物之間的協作,這個是一個新的理念,就是社交化物聯網的概念,未來來講,就是物與物之間的自主構建社交化的關系,并通過網絡推理發現進行協作完成業務目標。最終來說,實際上是三者的大融合,進行互相的協作的場景,這個有一個典型的場景例子是什么呢,就是剛才汽車的例子,人跟汽車還有一個智能的保險,或者理賠的業務,這三者之間可以協作產生新的模式,比如說未來的智能汽車,可以根據駕駛員的習慣、里程數進行一個智能的投保業務的辦理,現在這種保險大家都知道,就是固定的年限,按照去年的出險的次數進行定價,不管你車的里程數是什么樣的未來保險業務可能跟價值習慣,是一個駕駛的習慣這些信息,更多提供一個合理的報價,你是一個激烈的駕駛員,就要付出更多額外風險的報價,或者是成本吧。當事故發生以后,智能的汽車設備會采集到人的體能信息,可以向醫院發生一些求助的信息,同時可以根據碰撞的內容,向保險業務進行自動的索賠,這三者來說,可以進行一個大的融合,產生更多新的商業模式。

實際上從企業的整體圍繞數據分析和挖掘來看,各行各業都有,現在我們看到的實際上是一個碎片化,盡管我們看到很多的大型企業里面,都有這種數據分析的一些模型,但是即使是同一個行業里面,不同家的公司,業務里面的差異還是很大的,怎么去解決?很多像互聯網,尤其像互聯網創新公司,我做一點,把這一點做透了,就能保證企業的生存率,大企業很難做到這樣,互聯網那套的邏輯,之所以能成立,因為基數非常大,一個小的比例的用戶,由于你的基數比較大,服務的人群還是比較多,獲得的利益還是比較多一些,像傳統的大型企業來講,每一家客戶里面,個性化、定制化的需求很多,很難滿足共性的內容,還有一個大的基數。東軟應對的策略,就是利用一系列平臺的產品跟業務的應用相結合,實際上在平臺里面有一個高級分析的產品,就是知識服務平臺,做一種個性化的推薦,做經營者的營銷,做一些客戶的營銷。做一些故障的診斷、一些性能的診斷和優化。

圍繞一系列的產品里面,我們做了一系列的案例的實踐,從總結下來就是兩大方面。一個是從關聯關系到因果關系,另外一個就是從結構化數據到半結構化數據。關聯關系和因果關系就是啤酒跟尿布的故事,發現購買啤酒的商戶,很可能同時購買尿布的內容,在現實里面,我們常常很多的一個場景會混淆關聯關系和因果關系的差異,關聯關系是知道這兩個事件會共同發生,不知道這兩者之間誰影響誰,因果關系我們能發現誰是因誰是果,誰是影響另外一個因素的關系。如果你有了一個關聯關系的時候,實際上可以做到相應的預測,如果有因果關系,在預測的基礎上可以做到相應的控制,能影響干擾這個因,就可以作用到相應的果。從大數據的角度,從數據挖掘的角度是一個很難挖掘定位的地方,把因果關系弱化掉了,只關心關聯關系,我是關心預測,不是關心控制,因果關系是很難定義的,這里面經常舉一個例子,在古代的時候,很多的部落,都會迷信,迷信什么呢,比如說,崇拜一些動物,或者物體,比如說有一些部落崇拜雞,當一打鳴的時候,太陽會升起來,這就是關聯關系和因果關系混淆的一個場景。還有一種方法可以干預某一個事項的發生,干預這個事項發生之后,另一個因素會不會發生改變,我們把雞殺掉,太陽照常升起,就可以把這個因素去掉,所以很多的因果關系在現實里面很難挖掘,更多的是強調關聯關系的場景。

場景的應用是公安犯罪分析預警系統。在這里面有一個典型的關聯關系推的,哪些特征,哪些出行軌跡的行為特征,你更有可能是犯罪的同謀,或者犯罪行為。還有很多學術文章的發表,單單從人臉的微表情的特征,從證明照里面可以進行識別,那個學術文章達到98%左右,這個文章還是非常有爭議的論文,這個是典型的關聯關系,不是你有這個行為導致你犯罪,而是犯罪人群有這樣一些共同的特點和內容。

另一個,做風洞實驗的,我們軍工的客戶,飛行器和導演的客戶,會進行風洞的實驗進行試吹,來調一些造型和設備的制造優化的內容,在這里面就是一個典型,我們要追求的是因果關系,要找到哪些參數會影響相應的標準的指標,或者一些內容,在這里面的案例,發現一些預測優化,來幫助他們在導彈里面或者飛機制造里面做一些產品優化。

還有一個軌道交通的客流量的預測,要發現哪些因素會影響客流量的增長或者減少,這里面更多的是向一些地鐵的客戶,除了交通,起來很多政府機關對客流量也是非常關注的,我們接觸的公安的一家客戶,他們對客流量的預測感興趣,原因是什么呢?去年舉辦過馬拉松的重大活動,對客流量預測沒有把控好,導致很多選手跑到選手之后,大部分都是走回家的,這里面由于沒有做好相應預測的工作,沒有預測工作就沒有相應合理資源的安排,導致相應內容的影響。還有旅游景點,游客量暴增,會發生一些危險事件,像天氣的因素、事件的因素等等一系列的因素,會不會能夠影響相應客流量的增加或者減少,這個和政府等等一系列公共交通所關注因素非常的一個重要的點。

另一個是我們跟互聯網電影渠道的廠商做一些合作,這種廠商在新片上映的時候,都對電影內容做全國院線的布局,這個電影知道哪個電影、導演、信息,能不能知道在哪個地區,很多的電影在東北比較受歡迎,跑到南方就一片冷門,任何一個題材有一些地域性的特征,根據這些數據,我們能否預測出來不同院線的信息,通過票房信息的預測,可以進行合理票房、院線的布局排版,做一些相應營銷的活動。

另一個圍繞今天的會議,大連最大的一個會議中心,在這個會議中心來講,對耗電部分就是中央空調系統,能效比的優化是一個恒久話題,在一個非常復雜,中央空調系統COP從3.5優化到5.2,很多中央空調的設備、壓縮機等等這些設備,涉及到每一個冷卻塔要開多大功率、開多少個冷卻塔,每一套中央系統出廠之前會有一些邏輯進行相應的控制,不會根據當前這個設備安裝的位置,包括現在客流量的內容做一些調整,實際上可以根據一些動態的信息,來進行一個自主的運維,發現一個最優的參數,提升能效比的運轉。

最后一個就是從結構化數據到半結構化數據,主要是圍繞一系列文本數據價值的挖掘,最典型的是客戶的洞察服務,像電信行業,我們有很多的客服的系統,咱們在打服務電話的時候,都會有錄音的提醒,這些錄音的數據,經過語音轉文本的技術,轉化成文本,這些文本數據蘊含了非常大量的信息,對于一個商品評價的信息,對商品意見的傾向是好還是壞,對哪一部分最感興趣,都是產品優化和生產、設備生產里面重大的依據,通過一系列的熱點發現一些用戶的傾向。

還有一些電信行業,受互聯網沖擊最大就是傳統出版商,用戶拿到報紙之后,所有的信息都斷開了,不知道用戶讀者對你內容感興趣的內容程度是哪一點,對信息內容的意見是什么樣的,這里面的例子幫助他們做了一系列的在線的爬行技術,發現用戶一些的評論、匯總,發現讀者感興趣的點,提供給編輯來對未來出版物做一些相應的依據,這個實際上是新聞客戶端,也是咱們經常在用的,像新聞頭條,它里面做了大量個性化新聞的推送,這個是央視的新聞客戶端,更多的是做里面新聞的推送,里面涉及到一系列的產品,包括文本分析,還有用戶的興趣偏好,根據用戶的興趣跟文本內容的結合,來做相應個性化文章的推送,提高相應用戶的體驗,讓讀者更容易發現他們感興趣的文章內容。

最后,通過這一系列的內容,進行在線的智能問答,很多這種常見的問題,可能用自動化的方式來進行,京東里面都有這種服務的內容,可以進行提問,進行相應的智能的問題回答,這個客戶更多是用傳統的政府企業,像稅務方面的一個信息,可以做一些常規的稅務信息的問答和用戶回答。今天主要分享的就是這些內容,大家關心更多的內容和服務,可以觀眾我們東軟先行產品的官方公眾號謝謝大家!

相關頻道: eNews

您對本文或本站有任何意見,請在下方提交,謝謝!

投稿信箱:tougao@enet16.com