SoLiXG:Word Frequencies for EU recovery and resilience plans

From titipi
Revision as of 23:13, 21 February 2023 by Angeliki (talk | contribs)
Jump to navigation Jump to search

Word-frequencies in National recovery and resilience plans (EUNextGen): Belgium, Netherlands, Greece and UK recovery plans: Build Back Better, Digital Strategy.

Word Frequencies for EU recovery and resilience plans
UK (BBB) UK (DS) Greece (transl) Netherlands (transltransl) Belgium (transl) Belgium (orig) Netherlands (orig) Greece (orig)

('in', 538)

('r', 494)

('t', 403)

('o', 386)

('b', 363)

('uk', 363)

('for', 334)

('■', 300)

('e', 296)

('will', 282)

('l', 265)

('our', 247)

('u', 244)

('we', 220)

('with', 177)

('on', 170)

('is', 167)

('n', 157)

('that', 153)

('i', 148)

('by', 145)

('0', 143)

('d', 140)

('new', 140)

('g', 139)

('h', 137)

('c', 134)

('as', 133)

('investment', 132)

('p', 131)

('w', 130)

('k', 129)

('are', 129)

('f', 127)

('2', 127)

('growth', 126)

('government', 126)

('this', 125)

('support', 116)

('1', 108)

('have', 102)

('skills', 97)

('up', 95)

('across', 94)

('from', 91)

('has', 91)

('infrastructure', 89)

('global', 84)

('be', 80)

('at', 79)

('economic', 79)

('businesses', 75)

('9', 72)

('an', 69)

('their', 67)

('through', 67)

('people', 66)

('net', 65)

('innovation', 65)

('billion', 64)

('can', 61)

('it', 61)

('jobs', 60)

('plan', 59)

('trade', 58)

('zero', 57)

('opportunities', 57)

('international', 54)

('local', 54)

('over', 53)

('digital', 551)

('for', 410)

('a', 403)

('uk', 389)

('we', 307)

('will', 288)

('gov', 234)

('are', 230)

('is', 218)

('with', 180)

('•', 180)

('that', 173)

('data', 166)

('skills', 151)

('(https://www', 150)

('on', 146)

('this', 144)

('as', 144)

('our', 138)

('by', 137)

('strategy', 135)

('tech', 115)

('uk,', 110)

('innovation', 101)

('be', 98)

('government', 97)

('support', 97)

('have', 92)

('new', 90)

('has', 89)

('from', 89)

('uk’s', 86)

('through', 86)

('global', 84)

('also', 84)

('technology', 79)

('which', 78)

('more', 77)

('investment', 75)

('an', 73)

('work', 73)

('businesses', 71)

('sector', 71)

('international', 71)

('across', 65)

('security', 63)

('national', 60)

('business', 58)

('ensure', 57)

('can', 55)

('their', 55)

('3', 54)

('at', 54)

('growth', 52)

('continue', 52)

('over', 52)

('economy', 51)

('million', 51)

('capital', 50)

('or', 50)

('up', 49)

('funding', 49)

('they', 47)

('research', 47)

('ai', 47)

('public', 46)

('cyber', 46)

('billion', 46)

('trade', 46)

('world', 44)

('in', 3834)

('at', 2660)

('before', 2611)

('is', 2139)

('to', 2091)

('e', 1777)

('with', 1607)

('to', 1499)

('n', 1378)

('to', 1358)

('measure', 1153)

('be', 1129)

('become', 1127)

('become', 1124)

('those', 1110)

('these', 966)

('by', 955)

('that', 940)

('i', 895)

('at', 869)

('or', 826)

('also', 789)

('this', 756)

('has', 747)

('if', 732)

('there', 713)

('1', 677)

('Dutch', 672)

('none', 634)

('up to', 599)

('measures', 572)

('2', 555)

('not', 541)

('netherlands', 526)

('r', 521)

('c', 488)

('g', 485)

('m', 470)

('a', 468)

('s', 459)

('have', 458)

('may', 446)

('to', 446)

('o', 438)

('4', 427)

('-', 411)

('digital', 397)

('will', 396)

('t', 392)

('v', 392)

('out', 383)

('may', 376)

('more', 370)

('3', 368)

('impact', 368)

('under', 365)

('which', 351)

('h', 344)

('recovery', 337)

('x', 327)

('resilience plan', 310)

('l', 298)

('investments', 295)

('about', 281)

('european', 277)

('other', 272)

('education', 265)

('necessary', 256)

('make', 245)

('ten', 241)

('in', 4926)

('for', 4387)

('to', 3582)

('at', 3343)

('with', 2481)

('become', 2353)

('those', 2155)

('to', 1941)

('-', 1811)

('is', 1750)

('shall', 1588)

('to', 1583)

('be', 1573)

('by', 1551)

('these', 1325)

('to', 1218)

('plan', 1207)

('that', 1130)

('project', 1059)

('this', 989)

('also', 958)

('will', 881)

('will', 855)

('-', 838)

('or', 831)

('recovery', 809)

('execution', 802)

('resilience', 787)

('at', 717)

('digital', 695)

('p', 689)

('as', 684)

('projects', 628)

('may', 588)

('there', 566)

('reforms', 528)

('more', 521)

('to', 519)

('2', 512)

('1', 510)

('out', 506)

('their', 487)

('not', 467)

('about', 454)

('make', 450)

('social', 443)

('all', 439)

('description', 426)

('has', 416)

('different', 400)

('development', 395)

('we', 394)

('new', 393)

('goals', 392)

('may', 379)

('ii', 379)

('3', 378)

('-', 376)

('investmentsnational', 375)

('possible', 373)

('european', 366)

('other', 364)

('framework', 363)

('investments', 362)

('via', 360)

('have', 351)

('government', 348)

('component', 344)

('then', 333)

('should', 331)

('in', 4926)('voor', 4387)

('te', 3582)

('op', 3343)

('met', 2481)

('worden', 2353)

('die', 2155)

('om', 1941)

('•', 1811)

('is', 1750)

('zal', 1588)

('aan', 1583)

('zijn', 1573)

('door', 1551)

('deze', 1325)

('tot', 1218)

('plan', 1207)

('dat', 1130)

('project', 1059)

('dit', 989)

('ook', 958)

('wordt', 881)

('zullen', 855)

('-', 838)

('of', 831)

('herstel', 809)

('uitvoering', 802)

('veerkracht', 787)

('bij', 717)

('digitale', 695)

('p', 689)

('als', 684)

('projecten', 628)

('kunnen', 588)

('er', 566)

('hervormingen', 528)

('meer', 521)

('naar', 519)

('2', 512)

('1', 510)

('uit', 506)

('hun', 487)

('niet', 467)

('over', 454)

('maken', 450)

('sociale', 443)

('alle', 439)

('beschrijving', 426)

('heeft', 416)

('verschillende', 400)

('ontwikkeling', 395)

('we', 394)

('nieuwe', 393)

('doelstellingen', 392)

('kan', 379)

('ii', 379)

('3', 378)

('–', 376)

('investeringennationaal', 375)

('mogelijk', 373)

('europese', 366)

('andere', 364)

('kader', 363)

('investeringen', 362)

('via', 360)

('hebben', 351)

('regering', 348)

('component', 344)

('dan', 333)

('moeten', 331)

('in', 3834)('op', 2660)

('voor', 2611)

('is', 2139)

('te', 2091)

('e', 1777)

('met', 1607)

('aan', 1499)

('n', 1378)

('om', 1358)

('maatregel', 1153)

('zijn', 1129)

('wordt', 1127)

('worden', 1124)

('die', 1110)

('deze', 966)

('door', 955)

('dat', 940)

('i', 895)

('bij', 869)

('of', 826)

('ook', 789)

('dit', 756)

('heeft', 747)

('als', 732)

('er', 713)

('1', 677)

('nederlandse', 672)

('geen', 634)

('tot', 599)

('maatregelen', 572)

('2', 555)

('niet', 541)

('nederland', 526)

('r', 521)

('c', 488)

('g', 485)

('m', 470)

('a', 468)

('s', 459)

('hebben', 458)

('kunnen', 446)

('naar', 446)

('o', 438)

('4', 427)

('•', 411)

('digitale', 397)

('zal', 396)

('t', 392)

('v', 392)

('uit', 383)

('kan', 376)

('meer', 370)

('3', 368)

('impact', 368)

('onder', 365)

('welke', 351)

('h', 344)

('herstel-', 337)

('x', 327)

('veerkrachtplan', 310)

('l', 298)

('investeringen', 295)

('over', 281)

('europese', 277)

('andere', 272)

('onderwijs', 265)

('nodig', 256)

('maken', 245)

('ten', 241)

Interventions on the lists

  • Translate with deepl translator when necessary to English (UK)
  • Delete the first 5 words
  • Keep 70 words

Python script

First run this in the terminal:

pdf2txt -o doc.txt doc.pdf
import re 
from wordfreq import word_frequency
#this is a script to find the most frequent words in a textfile 
lines = open('gr-policy.txt', 'r')
text=lines.read()
text_list=text.replace('\n', ' ').split(".") 
lines.close() 
sep_words=[]
new_list=[]
all_freq={} 
frequency={}
with open("output.txt", "a") as f:
   for l in text_list:
       for w in l.split():
           sep_words.append(w)
   for word in sep_words:
       freq = sep_words.count(word) 
       frequency={word:freq}
       all_freq.update(frequency)    
           # all_freq.append(frequency)
   new_list=sorted(all_freq.items(), key=lambda item: item[1], reverse=True )
   print(*new_list, sep = "\n", file=f)

Greek list translated with deepl.