• <input id="60y2k"><small id="60y2k"></small></input><xmp id="60y2k"><blockquote id="60y2k"></blockquote>
    <div id="60y2k"><optgroup id="60y2k"></optgroup></div>
    <nav id="60y2k"></nav><tt id="60y2k"><input id="60y2k"></input></tt>
    <strong id="60y2k"></strong>
  • <table id="60y2k"><small id="60y2k"></small></table><label id="60y2k"><samp id="60y2k"></samp></label>
  • <sup id="60y2k"><nav id="60y2k"></nav></sup>
  • 0523-84858455
     
    網站布局之TF-IDF算法
    2019-01-09  瀏覽:56

    網站布局之TF-IDF算法,說白了在我理解來,這個算法就是通過一個的數學計算,來確定每個詞在文章中的權重,從而得到一篇文章的關于詞的帶權重的向量,知道了這個以后就好辦了,之后什么文章關鍵字提取、概述、不同的文章之前的相似性比較都引刃而解了。


    求一個詞的權重就用到TF-IDF算法,其實TF-IDF算法是分為TF(Term Frequency,縮寫為TF)與IDF(Inverse Document Frequency,縮寫為IDF)的計算。


    說起來也簡單,TF就是這個詞在文章中的詞頻,出現的次數比上文章的總次數或者出現次數最高的詞的個數。而IDF則是表示TF-IDF算法分母上加一是為了防止分母為零。


    這個數學的表達式也符合情理,如果關鍵字(除去“的”、“為了”之類的去除字)在越多的文檔中出現,它在本篇文章中的權重自然就低了,舉個簡單的例子:給你一個關鍵字計算機,你一點也不知道這貨表達的意思,因為(從這個算法角度講)它在太多的文章中出現,但是如果你的關鍵字為0day就不一樣了,包含它的文檔數遠遠小于包含關鍵字“計算機”的文檔數。由此,如果在同一篇文章里,如果“0day”與“計算機”的TF(詞頻)相同,IDF就可以保證“0day”的權重較高了。


    基本的算法就是這樣了,其實很簡單,但是這個算法是基于這樣一個前提,關鍵詞越重要,出現的頻率越高。同時忽略了詞出現位置的影響,所以這個算法存在漏洞。

     
    閱讀下一篇
    教大家網絡劫持的定義
     
     
    延伸閱讀
    網站排名不見上升是哪里出了問題嗎?
    企業網站SEO優化策略
    H、EM標簽 label屬性的用戶及百度轉碼問題
    看教程后不會做SEO排名的原因
    SEO問答:百度蜘蛛的抓取方式和異常原因
    講解SEO中的各類鏈接的概念
    為營銷型網站選擇適合的關鍵詞是一門學問
    普通網站改版營銷型網站后,原來的排名會下降嗎?
     
    準備開展業務?
    聯系專業的商務顧問,診查網站現狀及關鍵詞、分析競爭對手的流量、一對一咨詢、及其報價詳情
  • <input id="60y2k"><small id="60y2k"></small></input><xmp id="60y2k"><blockquote id="60y2k"></blockquote>
    <div id="60y2k"><optgroup id="60y2k"></optgroup></div>
    <nav id="60y2k"></nav><tt id="60y2k"><input id="60y2k"></input></tt>
    <strong id="60y2k"></strong>
  • <table id="60y2k"><small id="60y2k"></small></table><label id="60y2k"><samp id="60y2k"></samp></label>
  • <sup id="60y2k"><nav id="60y2k"></nav></sup>
  • 欧美福利电影a在线播放_chinese乱子伦xxxx国语对白_伸进内衣揉捏她的乳尖的视频_大陆农村丰满妇bbw