<menuitem id="bnags"></menuitem>

    <ins id="bnags"><video id="bnags"></video></ins><mark id="bnags"></mark>
  • <ins id="bnags"></ins>

      <tr id="bnags"><small id="bnags"></small></tr>

    1. 首頁 大數據百科正文

      文本分析以及文本挖掘相關概念介紹

        數據觀小編選取了文本分析的一些相關資料,整理成文,希望對大家有所幫助。

        文本分析是指對文本的表示及其特征項的選??;文本分析是文本挖掘、信息檢索的一個基本問題,它把從文本中抽取出的特征詞進行量化來表示文本信息。

        文本分析概念

        文本(text),與 訊息(message)的意義大致相同,指的是有一定的符號或符碼組成的信息結構體,這種結構體可采用不同的表現形態,如語言的、文字的、影像的等等。文本是由特定的人制作的,文本的語義不可避免地會反映人的特定立場、觀點、價值和利益。因此,由文本內容分析,可以推斷文本提供者的意圖和目的。

        將它們從一個無結構的原始文本轉化為結構化的計算機可以識別處理的信息,即對文本進行科學的抽象,建立它的數學模型,用以描述和代替文本。使計算機能夠通過對這種模型的計算和操作來實現對文本的識別。由于文本是非結構化的數據,要想從大量的文本中挖掘有用的信息就必須首先將文本轉化為可處理的結構化形式。目前人們通常采用向量空間模型來描述文本向量,但是如果直接用分詞算法和詞頻統計方法得到的特征項來表示文本向量中的各個維,那么這個向量的維度將是非常的大。這種未經處理的文本矢量不僅給后續工作帶來巨大的計算開銷,使整個處理過程的效率非常低下,而且會損害分類、聚類算法的精確性,從而使所得到的結果很難令人滿意。因此,必須對文本向量做進一步凈化處理,在保證原文含義的基礎上,找出對文本特征類別最具代表性的文本特征。為了解決這個問題,最有效的辦法就是通過特征選擇來降維。

      文本分析概念

        目前有關文本表示的研究主要集中于文本表示模型的選擇和特征詞選擇算法的選取上。用于表示文本的基本單位通常稱為文本的特征或特征項。特征項必須具備一定的特性:1)特征項要能夠確實標識文本內容;2)特征項具有將目標文本與其他文本相區分的能力;3)特征項的個數不能太多;4)特征項分離要比較容易實現。在中文文本中可以采用字、詞或短語作為表示文本的特征項。相比較而言,詞比字具有更強的表達能力,而詞和短語相比,詞的切分難度比短語的切分難度小得多。因此,目前大多數中文文本分類系統都采用詞作為特征項,稱作特征詞。這些特征詞作為文檔的中間表示形式,用來實現文檔與文檔、文檔與用戶目標之間的相似度計算 。如果把所有的詞都作為特征項,那么特征向量的維數將過于巨大,從而導致計算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。特征抽取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數,以此來降低向量空間維數,從而簡化計算,提高文本處理的速度和效率。文本特征選擇對文本內容的過濾和分類、聚類處理、自動摘要以及用戶興趣模式發現、知識發現等有關方面的研究都有非常重要的影響。通常根據某個特征評估函數計算各個特征的評分值,然后按評分值對這些特征進行排序,選取若干個評分值最高的作為特征詞,這就是特征抽取(Feature Selection)。

      ?

        特征選取的方式常見的有4種:

        (1)用映射或變換的方法把原始特征變換為較少的新特征。

        (2)從原始特征中挑選出一些最具代表性的特征。

        (3)根據專家的知識挑選最有影響的特征。

        (4)用數學的方法進行選取,找出最具分類信息的特征,這種方法是一種比較精確的方法,人為因素的干擾較少,尤其適合于文本自動分類挖掘系統的應用。

        隨著網絡知識組織、人工智能等學科的發展,文本特征提取將向著數字化、智能化、語義化的方向深入發展,在社會知識管理方面發揮更大的作用。

      ????

        上面是文本分析的內容,下面介紹文本分析法的資料。

        文本分析法

        從文本的表層深入到文本的深層,從而發現那些不能為普通閱讀所把握的深層意義。

        文本分析的方法

        “新批評”法

        “新批評”的方法很基礎,但也很實用,即從文本中“細讀”出那些語言的非日?;\用,如“反諷”、“張力”等?!凹氉x”現在已成為包括各種文本分析在內的一個基本功?!靶屡u”對詩與短篇小說等文本的分析,非常有用,但對于長篇小說就有些不知從何處下嘴了,只有結合敘述學的分析才容易提綱挈領。

        符號學分析法

        符號學其實是個相當寬泛的概念,我這里僅指最為經典也最常用的符號學分析方法,也就是格雷馬斯的方法,主要包括矩陣分析和施動者分析等。當然,羅蘭·巴特、托多羅夫等人還有其他的許多方法,但原理基本上都是一樣的。所謂“結構主義”的分析方法,基本上也就是這些方法。

        敘述學分析法

        主要是故事分析(包括故事序列分析,故事類型分析等等),與敘述視角分析(包括敘述者的人稱、位置、可信度;敘述者的聲音、敘述的速度等)。當然,敘述學也同樣關注人物的話語分析,看他說的話是直接引語還是間接引語,亦或是自由間接引語。因為敘述學、符號學等都是建立在語言學基礎上的,所以分析一篇小說就猶如分析一個句子,人物相當于主語,人物的行動相當于謂語,而人物的品質則相當于定語或狀語。

        解構主義法

        解構主義的方法,代表人物是法國人德里達和美國人德·曼。解構主義的一個基本原則就是從文本的邊緣進入,從而顛覆掉整個文本的通常意義。俗話說:千里之堤,潰于蟻穴,解構主義者就像那個顛覆了千里之堤的大螞蟻。

        互文、對話理論分析

        此方法起源于巴赫金,成熟于托多羅夫、克里斯特娃、熱奈特等。結構主義一直視文本為相對封閉的系統,從而忽視了現實和社會的因素,而傳統批評又只看到了社會忽略了文本,各有弊端?;ノ?、對話理論的出現則很好地解決了這一問題,因為文本與現實社會之間被視為是互為文本的,是對話關系的,于是社會的因素與文本的規則都被分析到了。

        文本社會學方法

        這是一種綜合性的分析方法,是將結構主義等形式主義的方法與社會學方法結合起來的產物,而且與西方馬克思主義也關系密切。

        文化研究

        文化研究,從傳統文學批評到現代文學批評,史稱“語言學轉向”,而文學批評向大眾文化批評的轉向,史稱“文化轉向”或“意識形態轉向”。文化研究是個非常復雜的話題,說來話長,不提也罷。只說兩點,首先文化研究將以往文學研究的研究對象和研究視野大大地拓展了,以前只研究所謂的經典文本,而文化研究則更針對當代消費社會的當下語境,將大眾文化(包括電視、廣告、娛樂等等)也納入了研究的范圍。其次就是特別注重意識形態分析,葛蘭西、阿爾圖塞等人的理論有著舉足輕重的位置。如果說文化研究還有什么特點的話,那就是“左”,基本上都是西方左派知識分子的人在搞,比如大師級的人物杰姆遜。

      三種“文本分析法”介紹

        三種“文本分析法”介紹

        “新批評”細讀法

        “新批評”得名于美國約·蘭塞姆所著論文集《新批評》(1941),是英美現代文學批評中最有影響的流派之一,它于二十世紀二十年代在英國發端,三十年代在美國形成,并于四五十年代在美國蔚成大勢。五十年代后期,新批評漸趨衰落,但新批評提倡和實踐的立足文本的語義分析仍不失為文學批評的基本方法之一,對當今的文學批評尤其是詩歌批評產生著深遠的影響。

        “新批評”細讀法不是一種自我感興趣的印象式批評,而是一種“細致的詮釋”,是對作品作詳盡分析和解釋的批評方式。在這種批評中,批評家似乎是在用放大鏡讀每一個字,捕捉著文學詞句中的言外之意、暗示和聯想等,其操作過程大致分為以下三個步驟:首先是了解詞義,然后是理解語境,再次是把握修辭特點。

        今天,中國學界仍有不少人把“細讀”批評理論看作是西方文學理論的獨創,并常常運用它來解讀各種文學文本。其實中國古代文學批評最早、最常見的話語分析方法—言、象、意的文本分析方法,才是最早的“細讀”批評理論。中西細讀批評的共通之處在于,都力求透過語言的外殼把握文本之一,如注重對語言的字、詞、句構成;聲音的節奏、格律;比喻、象征等修辭手法的細致分析?!把浴奔吹韧谖鞣健凹氉x”批評對文學文本的聲音層面、意義單元的分析;“象”即等同于西方“細讀”批評對文本的意象和隱喻;象征和象征系統的仔細閱讀和分析?!耙狻笔侵形鳌凹氉x”批評共同的追求,然而在對“意”的深切領會上,中國式的細讀批評主張凡是與文本有關的內容都納入到對“意”的探求之中,如通過對文體、作品風格、時事、地理、風俗等全方位,立體剖析以深究文本之意。如果從細讀的角度出發,中國式的細讀批評比英美細讀批評更為精致豐富,甚至超越了英美細讀批評,是細讀中的細讀。

        “敘述學”分析法

        敘述是人類社會性活動中的一個重要部分?!皵⑹鰧W”探討的是藝術性言語的敘述手段:一個故事如何通過敘述被組織起來,成為一個統一情節結構的?!皵⑹鰧W”理論的產生與俄國形式主義、索緒爾語言學、結構主義、解構主義等20世紀文學文化理論有著密切的關系。同時,它又是最具體實用的,在它的觀照下,我們自以為通曉明白的故事、情節、作者、讀者、視角、評論等都有了新的含義;一些習以為常的概念甚至受到了顛覆,一些新的概念迎面而來。這是一門并不十分深奧卻又相當有趣的學問;一套并不十分復雜卻又相當犀利的工具。它將為你提供一個新的批評視角;開辟一個新的研究天地。

        “敘述學”分析法,主要是故事分析(包括故事序列分析,故事類型分析等等),與敘述視角分析(包括敘述者的人稱、位置、可信度;敘述者的聲音、敘述的速度等)。具體說包含四個方面:

        其一、敘述-敘述學。浦安迪在《中國敘事學》說:“敘事就是作者通過講故事的方式把人生經驗的本質和意義傳示給他人?!蓖瑫r定義了什么是“敘事文”——“是一種能以較大的單元容量傳達時間流中人生經驗的文學體式或類型”。董小英在《敘述學》中描述:“敘述學就是研究如何使故事講的引人入勝,美妙動聽的?!薄皵⑹鰧W是通過敘述形式研究敘述方法的學問?!?/p>

        其二、敘述主體-語態。話語是誰說的,即“敘述主體是誰”在敘述效果和文本意義的表達中至關重要,此中包括“敘述角度”(敘述人、受敘人、人稱、視角、),“敘述態度”(敘述人聲音、敘述人干預、聚焦)。

        其三、敘述方式-語式。事件與話語的關系,即討論敘述是在怎樣的時間、空間中展開的。此中包括“敘述幅度”(時間幅度、空間幅度),“敘述頻率”(事件頻率、敘述頻率)。

        其四、敘述進程-結構。文章結構(敘述線索、情節安排、話語序列),文體結構(文體互滲)。

        分析敘述視角、敘述態度和敘述結構,可以幫助我們打開文學作品瑰麗詭異的內宇宙,了解文本的內部結構,使我們對文本本身產生興趣,而不是只關注文本所承載的社會歷史內容,使我們的閱讀教學回到文本本身,使語文閱讀教學更加完整。

      ?

        “符號學”分析法

        這里以《藥》和《祝?!窞槔?,對魯迅小說中的兩類敘事符號加以簡要的量化分析。

        1、色彩符號——《藥》與《祝?!分械闹黧w色彩及比重

        《藥》全文有28處寫到顏色,其中“紅色”6次、“白色”12次、“黑色”8次、“烏藍”1次、“碧綠”1次??梢?,其主要色彩是紅、白、黑。

        “紅、白、黑”三色具有非常豐富、深刻的內涵。三色并舉,其視覺效果意味深長。

        “黑色”在文章中每每以無可爭議的分量出現:天空是“秋天的后半夜”,街是“黑沉沉的”,二者組合成一個黑暗壓抑的立體空間。劊子手渾身黑色,烤熟的饅頭也是整個的黑色……從整體空間到具體物事,沉重而令人恐懼,暗示了當時社會環境的陰森恐怖和惡勢力的強橫暴虐。

        在文章中,紅色有士兵衣服“暗紅色的鑲邊”(這種紅色讓人感到壓抑);有“鮮紅的人血饅頭”(這種紅色給人觸目驚心的感覺);有墳頂上“紅白的小花”(這種紅色意味著希望之光雖然微弱,但畢竟有了一點兒希望)……“紅”的含義各不相同:表現出當時“社會”與“革命”包含太多復雜的內涵。

        至于“白色”,“灰白”的路,“慘白”的臉,焦皮饅頭里的一道“白”氣——它不作為“紅”的代表,也不是“黑”的盟友,象征社會上的中間勢力,帶著濃重的凄涼而迷茫的氣息。

        三色的綜合效應表明了當時的沉郁、復雜、洋溢著“惡氣”和“鬼氣”的社會環境。

        《祝?!分袑ι实拿枋龉布s22次,其中白色(含月白、灰白)9次、黑色(含灰黑、黑黃、青色)7次、黃色4次。主要色彩為白、黑、黃,另偶有藍色、紅色夾雜其中。

        與《藥》以“黑”為主要的色彩背景不同,《祝?!芬园咨珵槠渲魃{:統納一切的天空是“灰白色”的,天空下是團團飛舞的白色的雪花、屋宇上是雪白的瓦楞、屋檐下的人物是花白頭發、人物穿的是月白背心。比起《藥》黑色里的壓抑和殘酷來,《祝?!犯嗟氖巧鐣钪械奈蹪岷完幚?。在微觀的色彩設計上,《祝?!分械纳识酁橹虚g色:不僅白色多為月白和灰白,黑色中也多有灰色、黃色融入,蘊含濃郁的疑慮和迷茫氣息。黃色是《祝?!分谐霈F第三多的顏色,“黃色的燈火光”渲染了一個混濁的人間社會,黃色的臉頰勾勒了生活在苦難中的生命個體?!蹲8!分械募t色只有兩次,一是洗福禮時在水里泡得通紅的女人的胳膊,一是第一次出現在魯鎮的祥林嫂的臉頰,它們零星的、瞬間的、不成氣候的人間存在。小說以白、黑、黃構成完整的人間社會圖景,也十分明顯地表達了作者對這種社會的評價和撻伐。

      ????了解完文本分析的相關概念后,我們來看看2016年,文本分析、情感分析和社交分析的10大趨勢

        了解完文本分析的相關概念后,我們來看看2016年,文本分析、情感分析和社交分析的10大趨勢

        文本分析、情感分析和社交分析幫助你在一定規模上轉化成客戶、病人、公眾以及市場的“聲音”。這項技術目前大量地應用于一系列的工業產品中,從醫療健康到金融、媒體、甚至客戶市場。它們從線上、社交網絡、企業數據源中提取商業洞察力。

        它從文本中、音頻中、圖像中還有網絡連接中提取洞察力,它可真是個有用的東西!

        目前分析技術發展得還是相當不錯的,盡管在某些領域,例如數字分析和市場研究有些稍稍落后。但是甚至是在例如“客戶體驗、社群聆聽、用戶交互”方面,還是有很多發展空間。這個快速發展的市場空間無論對于新加入的玩家還是深耕已久的資深人士都意味著大量的機遇。

        隨著技術和應用不斷融合,與其獨立地檢驗每個分析領域,還不如好好地觀察整體的效果。忽視情感的社交分析是不完整的,并且為了從網絡上獲取社交情感數據并調查情感數據,我們真的需要文本分析技術。

        本文對即將到來的2016年,針對文本分析、情感分析和社交分析的發展趨勢進行一個前瞻性的觀察。

        一、多語言才是王道

        盡管單純英文的文本分析一直保持常態,但僅將一種語言做好,也比囊括很多種語言,卻哪種都做得潦草要強得多。機器學習和機器翻譯已經向著多語種文本分析邁進了一大步,使其成為一個全新的標準。但是如果你的確需要做多語種的開發嘗試,事先也要做一些調查:很多開發者在其核心語言上很強,但在別的語言上就很弱了。所以說選擇的時候還是小心一點。

        二、文本分析獲得認可

        文本分析能力對于客戶體驗、市場研究、客戶洞察、數字分析乃至媒體評測來說都是關鍵解決方案,各個文本分析服務提供商在分析能力的優勢上不斷競爭??偟内厔菔恰傲炕ㄐ浴?,文本分析被納入業務解決方案中是十分重要的事。

        三、機器學習、統計學和語言工程并存

        明天是屬于機器學習、遞歸神經網絡以及相似技術的,但是今天,長期建立的語言工程方法仍占上風。這里我指的是分類系統、分析器、詞法和句法網絡以及句法規則系統。目前我們處在一個“百花齊放、百家爭鳴”的時代,所以很多種方法都是可以并存的。舉例來說,甚至眾包數據處理的領軍企業:CrowdFlower都全面擁抱機器學習了,初創企業Idibon都把傳統和現代相結合作為一大賣點:“你可以組建自定義的分類系統,并使用機器學習、規則和你已有的字典/模式去調整它們?!?/p>

        四、圖像分析進入主流

        全球領先的圖像分析提供商已將圖像分析技術應用于社交媒體的品牌信號解讀中---不信你看看Pulsar和Crimson Hexagon---并且通過機器學習,圖像分析技術已成為IBM在2015年收購Alchemy API的一大賣點。的確,火熱的初創企業MetaMind在2015年從NLP領域轉型到圖像分析,緣于其意識到圖像分析背后的巨大機遇。

        五、語音分析取得突破,視頻分析隨之而來

        整個市場喜歡談論多渠道分析和用戶旅程,這涉及到多重觸點。并且社交網絡和網絡媒體中充斥著視頻,說出來的話,還有非文本形式的語言要素,包括語調、語速、音量和重復,都傳遞著含義,而這些含義都可以通過語音分析和語音轉文字來獲取。不僅僅是客服中心,2016年,所有的市場研究人員、出版人員、研究和洞察專業人士都在不斷尋找突破??梢云诖?,未來語音分析也將成為推動人機會話接口發展的重要力量。

        六、擴展式情感分析

        廣告人員早就認識到情感可以改變消費者的決定,但直到近日,廣泛地、系統地對于情感與決策的研究已經超越了我們的能力范圍。根據你的角度,進入情感分析,或者是情感分析的子類,或者是其姊妹類。帶著量化我們的情緒反應的目的,使用面部表情分析從圖像和視頻中(或從語音或文本中)提取我們的情感狀態。這方面的服務提供商有:視頻服務的Affectiva、Emotient和Realeyes,語音服務的Beyond Verbal以及文本服務的Kanjoya;相關的受眾包括廣告商、媒體、市場研究人員和代理商。

        七、ISO 網絡表情分析

        我們已經有了文本、圖像、語音、視頻等,那為什么我們還要用網絡表情呢?因為它們簡潔、易用、生動、有趣,它們補充并且對長格式的內容形成沖擊,這就是為什么互聯網俚語滅亡了。Facebook正在嘗試對網絡表情進行挖掘,更好的是,我們還看到了像Line stickers這樣的變種?,F在我們需要的就是網絡表情分析了。這個領域的技術正在通過像Emogi這樣的初創企業不斷興起。盡管大多數人也不過就是用計數和分類來獲取網絡表情語義,像Instagram工程師Thomas Dimson和斯洛文尼亞研究組織CLARIN.SI都是這么干的。但他們當中的一些公司,比如SwiftKey,還是值得關注的。

        八、網絡+內容的深度洞察

        這一點既是我對于2016年的趨勢預測,同時我在2015年對市場研究公司TNS的數據科學家Preriit Souda訪談時也提到過。Preriit指出:“網絡為會話賦予結構,內容挖掘為其賦予含義?!倍床炝υ醋杂趯τ谛畔⑴c連接的理解,也來自于連接是如何被激活的。因此為你的工具包加一個圖形數據庫和網絡可視化工具吧,這就是為什么Neo4j.js和Gephi這么成功的原因。建立一個類似于QlikView的數據分析平臺也是一個選擇,一個可以協同文本和數字分析的選擇,對于2016年來說這是一定要做的事。

        九、2016年,你會讀到(或與之交互)多得多的機器編寫的內容

        機器編寫內容的技術叫自然語言合成(Natural Language Generation,NLG),它提供根據算法從文本、數據、規則和內容中撰寫文章、信件、短信息、摘要和翻譯的能力。NLG就是為大容量、高重復量的內容而生的:金融、體育和天氣預報。相關的服務提供商有Arria、Narrative Science、Automated Insights、Data2Content和Yseop。你也可以看看你與你心愛的虛擬助手進行對話時的機器端:Siri、Google Now、Cortana或是Amazon Alexa,或是自動客服、其它程序化相應系統。后面的這些系統都歸類于自然語言交互(Natural Language Interaction,NLI);其中Artificial Solutions還是值得一看的。

        十、機器翻譯逐漸成熟

        長久以來,人們一直希望擁有一個“星際迷航”那樣的通用翻譯器,但自從1950年科學家稱機器翻譯可以在3~5年內實現,精準的、可信賴的機器翻譯就一直是個謎。(ACM Queue撰文《Natural Language Translation at the Intersection of AI and HCI》充分地討論了人機結合條件下機器翻譯的狀態)我不能說勝利就在眼前,但是多虧了大數據和機器學習,2016年(或2017年)對于大多數任務來說,主流語言的機器翻譯能做到足夠好。這就是勝利!

        總結

        如果你是一個文本分析、情感分析或是社交分析學家,解決方案提供商或是用戶,每一個趨勢都會影響到你,無論是直接地還是間接地。因為人類的數據現在已經被編織成為我們每天賴以生存的技術網。連接這張網的線就是更多的數據,更有效地使用,來創造改變生活的機器智能。????

      ????

        以上內容主要是關于文本分析,下面我們來研究下

        文本挖掘 什么是文本挖掘

        文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價值知識,并且利用這些知識更好地組織信息的過程。1998年底,國家重點研究發展規劃首批實施項目中明確指出,文本挖掘是“圖像、語言、自然語言理解與知識挖掘”中的重要內容。

        文本挖掘是信息挖掘的一個研究分支,用于基于文本信息的知識發現。文本挖掘利用智能算法,如神經網絡、基于案例的推理、可能性推理等,并結合文字處理技術,分析大量的非結構化文本源(如文檔、電子表格、客戶電子郵件、問題查詢、網頁等),抽取或標記關鍵字概念、文字間的關系,并按照內容對文檔進行分類,獲取有用的知識和信息。

        文本挖掘是一個多學科混雜的領域,涵蓋了多種技術,包括數據挖掘技術、信息抽取、信息檢索,機器學習、自然語言處理、計算語言學、統計數據分析、線性幾何、概率理論甚至還有圖論。

        文本挖掘技術的發展

        數據挖掘技術本身就是當前數據技術發展的新領域,文本挖掘則發展歷史更短。傳統的信息檢索技術對于海量數據的處理并不盡如人意,文本挖掘便日益重要起來,可見文本挖掘技術是從信息抽取以及相關技術領域中慢慢演化而成的。

      ????隨著網絡時代的到來,用戶可獲得的信息包含了從技術資料、商業信息到新聞報道、娛樂資訊等多種類別和形式的文檔,構成了一個異常龐大的具有異構性、開放性特點的分布式數據庫,而這個數據庫中存放的是非結構化的文本數據。結合人工智能研究領域中的自然語言理解和計算機語言學,從數據挖掘中派生了兩類新興的數據挖掘研究領域:網絡挖掘和文本挖掘。

        網絡挖掘側重于分析和挖掘網頁相關的數據,包括文本、鏈接結構和訪問統計(最終形成用戶網絡導航)。一個網頁中包含了多種不同的數據類型,因此網絡挖掘就包含了文本挖掘、數據庫中數據挖掘、圖像挖掘等。

        文本挖掘作為一個新的數據挖掘領域,其目的在于把文本信息轉化為人可利用的知識。

        文本挖掘預處理

        文本挖掘是從數據挖掘發展而來,但并不意味著簡單地將數據挖掘技術運用到大量文本的集合上就可以實現文本挖掘,還需要做很多準備工作。文本挖掘的準備工作由文本收集、文本分析和特征修剪三個步驟組成,見圖1。

        ◆ 文本收集

        需要挖掘的文本數據可能具有不同的類型,且分散在很多地方。需要尋找和檢索那些所有被認為可能與當前工作相關的文本。一般地,系統用戶都可以定義文本集,但是仍需要一個用來過濾相關文本的系統。

        ◆ 文本分析

        與數據庫中的結構化數據相比,文本具有有限的結構,或者根本就沒有結構;此外文檔的內容是人類所使用的自然語言,計算機很難處理其語義。文本數據源的這些特殊性使得現有的數據挖掘技術無法直接應用于其上,需要對文本進行分析,抽取代表其特征的元數據,這些特征可以用結構化的形式保存,作為文檔的中間表示形式。其目的在于從文本中掃描并抽取所需要的事實

        ◆ 特征修剪

        特征修剪包括橫向選擇和縱向投影兩種方式。橫向選擇是指剔除噪聲文檔以改進挖掘精度,或者在文檔數量過多時僅選取一部分樣本以提高挖掘效率??v向投影是指按照挖掘目標選取有用的特征,通過特征修剪,就可以得到代表文檔集合的有效的、精簡的特征子集,在此基礎上可以開展各種文檔挖掘工作。

        文本挖掘的關鍵技術

        經特征修剪之后,可以開展數據文本挖掘工作。文本挖掘工作流程見圖2所示。從目前文本挖掘技術的研究和應用狀況來看,從語義的角度來實現文本挖掘的還很少,目前研究和應用最多的幾種文本挖掘技術有:文檔聚類、文檔分類和摘要抽取。

        ◆ 文檔聚類

        首先,文檔聚類可以發現與某文檔相似的一批文檔,幫助知識工作者發現相關知識;其次,文檔聚類可以將一個文檔聚類成若干個類,提供一種組織文檔集合的方法;再次,文檔聚類還可以生成分類器以對文檔進行分類。

        文本挖掘中的聚類可用于:提供大規模文檔集內容的總括;識別隱藏的文檔間的相似度;減輕瀏覽相關、相似信息的過程。

        聚類方法通常有:層次聚類法、平面劃分法、簡單貝葉斯聚類法、K-最近鄰參照聚類法、分級聚類法、基于概念的文本聚類等。

        ◆ 文檔分類

        分類和聚類的區別在于:分類是基于已有的分類體系表的,而聚類則沒有分類表,只是基于文檔之間的相似度。

        由于分類體系表一般比較準確、科學地反映了某一個領域的劃分情況,所以在信息系統中使用分類的方法,能夠讓用戶手工遍歷一個等級分類體系來找到自己需要的信息,達到發現知識的目的,這對于用戶剛開始接觸一個領域想了解其中的情況,或者用戶不能夠準確地表達自己的信息需求時特別有用。傳統搜索引擎中目錄式搜索引擎屬于分類的范疇,但是許多目錄式搜索引擎都采用人工分類的方法,不僅工作量巨大,而且準確度不高,大大限制了起作用的發揮。

        另外,用戶在檢索時往往能得到成千上萬篇文檔,這讓他們在決定哪些是與自己需求相關時會遇到麻煩,如果系統能夠將檢索結果分門別類地呈現給用戶,則顯然會減少用戶分析檢索結果的工作量,這是自動分類的另一個重要應用。

        文檔自動分類一般采用統計方法或機器學習來實現。常用的方法有:簡單貝葉斯分類法,矩陣變換法、K-最近鄰參照分類算法以及支持向量機分類方法等。

        ◆ 自動文摘

        互聯網上的文本信息、機構內部的文檔及數據庫的內容都在成指數級的速度增長,用戶在檢索信息的時候,可以得到成千上萬篇的返回結果,其中許多是與其信息需求無關或關系不大的,如果要剔除這些文檔,則必須閱讀完全文,這要求用戶付出很多勞動,而且效果不好。

        自動文摘能夠生成簡短的關于文檔內容的指示性信息,將文檔的主要內容呈現給用戶,以決定是否要閱讀文檔的原文,這樣能夠節省大量的瀏覽時間。簡單地說自動文摘就是利用計算機自動地從原始文檔中提取全面準確地反映該文檔中心內容的簡單連貫的短文。

        自動文摘具有以下特點:(1)自動文摘應能將原文的主題思想或中心內容自動提取出來。(2)文摘應具有概況性、客觀性、可理解性和可讀性。(3)可適用于任意領域。

        按照生成文摘的句子來源,自動文摘方法可以分成兩類,一類是完全使用原文中的句子來生成文摘,另一類是可以自動生成句子來表達文檔的內容。后者的功能更強大,但在實現的時候,自動生成句子是一個比較復雜的問題,經常出現產生的新句子不能被理解的情況,因此目前大多用的是抽取生成法。

        文本挖掘應用前景

        利用文本挖掘技術處理大量的文本數據,無疑將給企業帶來巨大的商業價值。因此,目前對于文本挖掘的需求非常強烈,文本挖掘技術應用前景廣闊。

        知識鏈接

        文本挖掘系統的評估辦法

        評估文本挖掘系統是至關重要的,目前已有許多方法來衡量在這一領域的進展狀況,幾種比較公認的評估辦法和標準如下:

        ◆ 分類正確率:通過計算文本樣本與待分類文本的概率來得出分類正確率。

        ◆ 查準率:查準率是指正確分類的對象所占對象集的大小,

        ◆ 查全率:查全率是指集合中所含指定類別的對象數占實際目標類中對象數的比例。

        ◆ 支持度:支持度表示規則的頻度。

        ◆ 置信度:置信度表示規則的強度。

      ????

        下面的內容是網友的問答。

        什么是文本分析?和內容分析的區別

        話語分析 (discourse analysis) ? 由 Edwards and Potter (1992), Harre (1998) 和 Potter and Wetherell (1998) 所發展的話語心理學力圖揭示,在談話中,參與者的關于事件(記憶、描述、表達)的談話版本是如何被建構出來,以發揮交流互動的作用。雖然其出發點也是會話分析,它的分析重點是談話的內容、談話主題及其社會組織,而不是談話的語言學組織。該方法把心理現象(如:記憶、認知)當作社會和話語現象來分析。? 其分析的重點是分析在報告、媒體和話語體系中各種版本的事件的建構。特別是要分析人們如何利用“解釋庫”來進行這種建構。? 話語分析不僅被用來對日常會話進行分析,而且也用來分析其他類型的材料,如:訪談、媒體報告。

        文本分析

        分析電視劇情或者流行曲歌詞,研究這些媒體如何塑造角色、演員或歌手的形象,以及這些作品所隱藏的某些對人對事的看法報章的標題的用字、字體、大小、版面放置、占用的空間等分析廣告的用色、配樂、選角、橋段

        內容分析

        把雜志內的廣告分類,或數算一本雜志內有多少個纖體廣告分析某一電視劇中所特定一類人物,如大學生、律師、領綜援人士、有色人種的遭遇統計電影對某些關系的描述,如:老夫少妻、保險從業員與顧客

        以上就是本文關于文本分析的全部內容。小編推薦一篇相關文章

        程學旗蘭艷艷:網絡大數據的文本內容分析

      責任編輯:陳卓陽

      分享:
      延伸閱讀
        數博故事
        貴州

        貴州大數據產業政策

        貴州大數據產業動態

        貴州大數據企業

        更多
        大數據概念_大數據分析_大數據應用_大數據百科專題
        企業
        更多
        两个人的房间在线观看完整版