科技 新浪科技 機器學習告訴你,高被引論文的五大特徵

機器學習告訴你,高被引論文的五大特徵

  來源:Nature自然科研

   高被引和低被引論文的差異揭曉。

  如何提高論文的影響力是許多科研人員迫切想要掌握的秘籍。

  不久前,我從MDPI(多學科數字出版機構)上下載了涉及各個領域的202本開發獲取期刊上的200篇文章,其中一半的被引率很高,另一半的被引率較低。

  隨後,我在資料庫中運行了一種名為主成分分析的機器學習技術,看看是否能發現高被引文章的特點。

高被引論文中的常見詞。Mohamed Elgendik 高被引論文中的常見詞。 Mohamed Elgendik

  當然,相關性並不意味著因果性,這些論文的高引率並不是因為它們做到了以下幾點;而很有可能是因為文中所陳述的科學內容。

  話雖如此,我還是希望以下內容能幫到你。

   標題控制在7-13個字

  標題在傳達論文主旨方面具有至關重要的作用。此前有研究發現,標題長度確實能影響文章的被引量。

  除了上面提到的100篇高被引論文和100篇低被引論文之外,我還分析了2014年《自然》發表的引用量排名前100名的論文(數據來自谷歌學術)、2014年Web of Science索引前100篇論文,以及2018年Altmetric排名前100名的論文。

  以上分析揭示了這些文章的一個共性:引用率高的論文標題都不長。具體而言,影響力較高的論文標題一般為10個字(± 3個字)。

  以下為各個資料庫排名第一的高被引論文:

  • MDPI:「Liposomal Formulations in Clinical Use: An Updated Review」(8個字)

  • 谷歌學術(Google Scholar):「Cleavage of Structural Proteins During the Assembly of the Head of Bacteriophage T4」(13個字)

  • Web of Science:「Protein Measurement with the Folin Phenol Reagent」(7個字)

  • Altmetric:「Mortality in Puerto Rico after Hurricane Maria」(7個字)

   高被引論文的標題常用詞

  高被引論文中的常用詞有很多相似之處,反映出了論文的主題和重點。

  以下為每個資料庫排名前五的常見詞,從左至右依次遞減:

  • MDPI: Review, cancer, monitoring, recent, therapeutic。

  • Google Scholar: Method, theory, analysis, applications, learning。

  • Web of Science: Method, protein, DNA, multiple, new。

  • Altmetric: Association, analysis, cancer, health, study。

Mohamed Elgendik Mohamed Elgendik

   作者人數6人或以上

  我發現引用量和作者人數之間存在相關性。

  這可能是因為每位作者都會在論文中做出自己的貢獻,集中各自的圈子還能推升擁有相同研究興趣的讀者數量,反過來增加文章被引的可能性。

  或者,更重要的原因在於好的科學研究一般都需要跨學科;因此,影響力較大的研究結果也更有可能由多位作者合作而成。

   最少35000個字元(不含空格)

  高被引和低被引論文的字元數(不含空格)差異顯著。

  高被引論文的字元數超過33600(包括參考文獻),約5600字。

   最少6張圖、2張表

  從我的分析結果來看,高被引和低被引論文在使用圖和數據表方面也存在差異。結果顯示,高被引論文傾向於更多地使用圖和表。

   秘 籍在哪裡?

  總體來說,高被引論文最重要的三大特點是:閱讀量(越多越好)、字元數(越多越好)、7-13個字的標題長度。

  當然,做到以上幾點並不保證能增加文章的引用率。真正能提高文章被引率和整體影響力的關鍵因素包括:期刊聲譽、研究的原創性、選題的重要性、作者聲望、期刊的可獲得性(開放獲取vs非開放獲取),以及發表類型(論文、綜述、通訊)。

  如果先保證了以上幾點,那麼這些訣竅或能錦上添花,幫助進一步提高文章的閱讀量和引用率。

  上述文章中的五點訣竅只是作者統計分析的結果,論文的高影響力更多的跟論文中所陳述的科學內容有關,包括研究的新穎度和影響力、論點和論證、數據和圖表以及其他細節等。