3月5日,第十二屆全國人民代表大會(huì)第五次會(huì)議在北京人民大會(huì)堂開幕。國務(wù)院總理李克強(qiáng)作政府工作報(bào)告。澎湃新聞?wù)砹酥袊W(wǎng)上1978年至2017年共計(jì)40份《政府工作報(bào)告》中的常青詞匯。結(jié)果顯示,“發(fā)展”、“建設(shè)”、“經(jīng)濟(jì)”、“改革”等詞語在過去40年中一直高頻出現(xiàn)。
還有部分詞語愈發(fā)頻繁地出現(xiàn)在《政府工作報(bào)告》中?!皠?chuàng)新”,1997年后開始被頻頻提起,因其增長趨勢(shì),澎湃新聞將此類詞語稱為“喇叭形詞語”,類似的詞語還有“就業(yè)”、“創(chuàng)業(yè)”、“民生”等。
澎湃新聞還對(duì)比了部分關(guān)鍵詞在這40年間的趨勢(shì)變化,“農(nóng)業(yè)”與“工業(yè)”相比,在近四十年里被提及狀況相對(duì)穩(wěn)定,這與長期以來三農(nóng)問題備受重視的現(xiàn)象相關(guān)。2000年以來,“制造業(yè)”與“服務(wù)業(yè)”幾乎同時(shí)開始被提及,但是“服務(wù)業(yè)”的被提及率幾乎都高于“制造業(yè)”。
有些詞雖然在《政府工作報(bào)告》里出現(xiàn)得少,但是他們首次出現(xiàn)的時(shí)間點(diǎn)都反映了當(dāng)年中國人關(guān)注的熱點(diǎn)問題。
分析方法:
1. 本文所有原始文本材料來自中國政府網(wǎng)1978年至2017年政府工作報(bào)告。
2. 本文使用jieba分詞(https://github.com/fxsjy/jieba/),其自稱”做最好的 Python 中文分詞組件“。采用精確分詞模式,避免重復(fù)分詞和歧義。分詞結(jié)果均去掉數(shù)字、單字、標(biāo)點(diǎn)符號(hào)。
3. 為增加分詞正確率,在jieba分詞的基礎(chǔ)上加入自定義詞典,自定義詞典主要包含了往年人民網(wǎng)和新華網(wǎng)統(tǒng)計(jì)的兩會(huì)熱詞。
4. 在分詞基礎(chǔ)上,采用TF-IDF加權(quán)技術(shù)。詞語的重要性隨著它在文本中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。本文使用的語料庫即1978年至2017年政府工作報(bào)告文本。
5. 涉及合并的詞語:反腐包括了反腐倡廉、反腐敗、腐敗、反腐;城鎮(zhèn)包括了城市、城鎮(zhèn);霧霾包括了PM2.5、霧霾。
(來源:澎湃新聞)