SoLiXG:Word Frequencies for EU recovery and resilience plans

From titipi
Revision as of 19:33, 21 February 2023 by FS (talk | contribs)
Jump to navigation Jump to search

Top wordfrequencies in National from National recovery and resilience plans (EUNextGen): Belgium, Netherlands, Greece and UK recovery plans: Build Back Better, Digital Strategy.

Word Frequencies for EU recovery and resilience plans
Greece UK (BBB) Belgium Netherlands UK (DS)

('cost', 1504)
('investment', 1534)

('Plan', 1218)
('Part', 830)
('reforms', 722)
('Recovery', 673)
('(ID:', 638)
('Implementation', 615)
('Resilience', 556)
('development', 497)
('Axis', 484)
('Description', 476)
('reforms', 445)
('labour', 437)
('system', 416)
('sector', 409)
('improvement', 371)
('Axis', 355)
('Complementarity', 353)
('data', 334)
('reform', 329)
('Framework', 319)
('Increase', 313)
('services', 313)
('target', 310)
('Greece', 306)
('includes', 306)
('aid', 299)
('Reform', 295)
('upgrade', 285)
('Investment', 285)
('Purchase', 279)
('also', 277)
('total', 275)
('digital', 266)
('In addition,', 265)
('digital', 251)
('investment', 249)
('economy', 248)
('project', 246)
('evaluation', 240)
('projects', 239)
('EU', 237) ('EU', 237)
('objectives', 234)
('services', 232)
('system', 231)
('project', 230)
('creation', 230)
('projects', 229)
('analysis', 225)
('transformation', 224)
('systems', 224)
('Integration', 224)
('related', 222)
('assessment', 218)
('Milestone', 217)
('country', 216)
('reduction', 216)
('promotion', 214)
('target', 211)
('use', 208)
('energy', 208)
('quarter', 207)
('concerns', 205)
('basis', 203)
('development', 201)
('data', 200)
('new', 199)
('management', 198)
('Digital', 197)
('Approach', 197)
('Challenges', 196)
('must', 194)
('skills', 190)
('business', 189)
('tackling', 188)
('analysis', 188)
('related', 184)
('information', 180)
('training', 177)
('policies', 177)
('protection', 177)
('provision', 176)
('Objective', 174)
('transformation', 174)
('market', 173)
('included', 172)
('2020', 170)
('control', 170)
('GDP', 167)
('authorities', 165)
('health', 164)
('expected', 163)
('targets', 161)
('according to', 161)
('Fund', 160)
('education', 160)
('implementation', 160)

('growth', 113)
('We', 113)
('investment', 109)
('we', 107)
('support', 107)
('across', 94)
('Government', 74)
('businesses', 73)
('skills', 73)
('economic', 70)
('billion', 64)
('can', 61)
('people', 60)
('infrastructure', 57)
('jobs', 55)
('opportunities', 55)
('government', 52)
('international', 52)
('productivity', 48)
('trade', 47)
('UK’s', 47)
('local', 47)
('economy', 46)
('including', 46)
('over', 46)
('net', 46)
('sector', 45)
('also', 45)
('global', 44)
('which', 44)
('zero', 42)
('system', 42)
('innovation', 41)
('business', 41)
('Global', 40)
('worden', 2353)
('project', 1049)
('wordt', 879)
('zullen', 855)
('Plan', 780)
('Herstel', 716)
('Veerkracht', 688)
('uitvoering', 657)
('digitale', 619)
('projecten', 614)
('kunnen', 588)
('hervormingen', 490)
('maken', 450)
('niet', 448)
('Deze', 430)
('plan', 426)
('Dit', 412)
('Beschrijving', 411)
('sociale', 399)
('verschillende', 390)
('nieuwe', 381)
('investeringenNationaal', 375)
('alle', 374)
('mogelijk', 373)
('Europese', 366)
('ontwikkeling', 364)
('kader', 363)
('hebben', 351)
('andere', 343)
('er', 342)
('dan', 333)
('moeten', 331)
('4', 327)
('investeringen', 324)
('via', 324)
('gebruik', 319)
('2021', 318)
('Een', 310)
('Vlaamse', 295)
('Voor', 292)
('Nationaal', 287)
('onder', 286)
('component', 282)
('tussen', 280)
('we', 279)
('5', 278)
('moet', 276)
('binnen', 267)
('(%)', 266)
('I', 262)
('ten', 261)
('doelstellingen', 260)
('maar', 260)
('zich', 260)
('basis', 258)
('tegen', 253)
('Coëfficiënt', 248)
('deel', 239)
('uitgevoerd', 239)
('bestaande', 237)
('Complementariteit', 235)
('III', 235)
('digitaal', 233)
('maatregelen', 232)
('eerste', 232)
('België', 224)
('Er', 224)
('gericht', 223)
('miljoen', 219)
('economische', 215)
('zoals', 212)
('arbeidsmarkt', 205)
('geen', 205)
('0%', 201)
('Belgische', 199)
('jaar', 197)
('openbare', 197)
('name', 195)
('nog', 193)
('wat', 193)
('steun', 192)
('ter', 192)
('Gewest', 192)
('niveau', 190)
('bedrijven', 189)
('regering', 186)
('opleiding', 186)
('doel', 186)
('enz', 183)
('toegang', 181)
('Waalse', 181)
('economie', 180)
('werken', 180)
('Op', 179)
('gebouwen', 178)
('specifieke', 176)
('gegevens', 175)
('aantal', 174)
('federale', 172)
('per', 171)
('onderwijs', 170)
('2020', 168)
('Brussels', 167)
('ze', 167)
('zowel', 166)
('dus', 166)
('inzake', 162)
('Regering', 162)
('Vlaanderen', 161)
('twee', 160)
('impact', 158)
('stellen', 158)
('ondernemingen', 158)
(')', 157)
('diensten', 157)
('financiering', 156)
('betrekking', 156)
('elke', 155)
('staat', 155)
('infrastructuur', 152)
('werknemers', 152)
('wordt', 1125)
('worden', 1123)
('maatregel', 887)
('Nederlandse', 672)
('maatregelen', 549)
('Nederland', 526)
('hebben', 458)
('kunnen', 446)
('impact', 358)
('welke', 348)
('digitale', 347)
('Europese', 277)
('over', 274)
('andere', 268)
('Maatregel', 266)
('nodig', 255)
('Herstel-', 253)
('investeringen', 253)
('Veerkrachtplan', 246)
('maken', 245)
('dan', 236)
('zich', 233)
('gebruik', 233)
('economie', 229)
('onderwijs', 226)
('zoals', 222)
('Ook', 215)
('nieuwe', 212)
('mogelijk', 209)
('alle', 207)
('–', 206)
('sociale', 204)
('via', 203)
('Een', 202)
('economische', 199)
('tussen', 196)
('effect', 194)
('sprake', 194)
('ten', 193)
('insignificante', 190)
('Er', 189)
('per', 185)
('X', 185)
('hun', 183)
('gericht', 177)
('extra', 174)
('binnen', 173)
('maar', 172)
('d', 171)
('2022', 171)
('zes', 167)
('2020', 166)
('5', 166)
('Met', 166)
('HVP', 164)
('Door', 163)
('substantiële', 162)
('mensen', 161)
('Voor', 157)
('moeten', 156)
('6', 155)
('effecten', 154)
('onderstaande', 154)
('zullen', 153)
('basis', 152)
('DNSH-milieudoelstelling', 152)
('bedrijven', 150)
('arbeidsmarkt', 149)
('2021', 148)
('middelen', 147)
('duurzame', 144)
('gaat', 144)
('DNSH-doelstellingen', 144)
('jaar', 143)
('UK', 386)

('digital', 328)

('Digital', 222)

('gov', 147)

('data', 126)

('Strategy', 120)

('skills', 106)

('support', 96)

('Gov', 87)

('UK’s', 86)

('uk,', 86)

('Government', 83)

('new', 81)

('tech', 77)

('more', 75)

('businesses', 69)

('work', 69)

('sector', 68)

('technology', 66)

('across', 62)

('investment', 61)

('innovation', 61)

('ensure', 57)

('global', 55)

('continue', 52)

('million', 51)

('international', 51)

('growth', 48)

('security', 48)

('AI', 47)

('billion', 46)

('funding', 46)

('economy', 45)

('they', 45)

('Skills', 45)

('public', 44)

('(2021),', 44)

('including', 44)

('Innovation', 40)

('Department', 40)

('Data', 40)

('(DCMS)', 40)

('technologies', 38)

('Tech', 37)


Python script

First run this in the terminal:

pdf2txt -o doc.txt doc.pdf
import re 
from wordfreq import word_frequency
#this is a script to find the most frequent words in a textfile 
lines = open('gr-policy.txt', 'r')
text=lines.read()
text_list=text.replace('\n', ' ').split(".") 
lines.close() 
sep_words=[]
new_list=[]
all_freq={} 
frequency={}
with open("output.txt", "a") as f:
   for l in text_list:
       for w in l.split():
           sep_words.append(w)
   for word in sep_words:
       freq = sep_words.count(word) 
       frequency={word:freq}
       all_freq.update(frequency)    
           # all_freq.append(frequency)
   new_list=sorted(all_freq.items(), key=lambda item: item[1], reverse=True )
   print(*new_list, sep = "\n", file=f)

Dutch, Greek and Flemish lists translated with deepl.