SoLiXG:Word Frequencies for EU recovery and resilience plans

From titipi
Revision as of 22:35, 21 February 2023 by Angeliki (talk | contribs)
Jump to navigation Jump to search

Word-frequencies in National recovery and resilience plans (EUNextGen): Belgium, Netherlands, Greece and UK recovery plans: Build Back Better, Digital Strategy.

Word Frequencies for EU recovery and resilience plans
Greece UK (BBB) Belgium Netherlands UK (DS)
original translation original translation original translation

('cost', 1504)
('investment', 1534)
('Plan', 1218)
('Part', 830)
('reforms', 722)
('Recovery', 673)
('(ID:', 638)
('Implementation', 615)
('Resilience', 556)
('development', 497)
('Axis', 484)
('Description', 476)
('reforms', 445)
('labour', 437)
('system', 416)
('sector', 409)
('improvement', 371)
('Axis', 355)
('Complementarity', 353)
('data', 334)
('reform', 329)
('Framework', 319)
('Increase', 313)
('services', 313)
('target', 310)
('Greece', 306)
('includes', 306)
('aid', 299)
('Reform', 295)
('upgrade', 285)
('Investment', 285)
('Purchase', 279)
('also', 277)
('total', 275)
('digital', 266)
('In addition,', 265)
('digital', 251)
('investment', 249)
('economy', 248)
('project', 246)
('evaluation', 240)
('projects', 239)
('EU', 237) ('EU', 237)
('objectives', 234)
('services', 232)
('system', 231)
('project', 230)
('creation', 230)
('projects', 229)
('analysis', 225)
('transformation', 224)
('systems', 224)
('Integration', 224)
('related', 222)
('assessment', 218)
('Milestone', 217)
('country', 216)
('reduction', 216)
('promotion', 214)
('target', 211)
('use', 208)
('energy', 208)
('quarter', 207)
('concerns', 205)
('basis', 203)
('development', 201)
('data', 200)
('new', 199)
('management', 198)
('Digital', 197)
('Approach', 197)
('Challenges', 196)
('must', 194)
('skills', 190)
('business', 189)
('tackling', 188)
('analysis', 188)
('related', 184)
('information', 180)
('training', 177)
('policies', 177)
('protection', 177)
('provision', 176)
('Objective', 174)
('transformation', 174)
('market', 173)
('included', 172)
('2020', 170)
('control', 170)
('GDP', 167)
('authorities', 165)
('health', 164)
('expected', 163)
('targets', 161)
('according to', 161)
('Fund', 160)
('education', 160)
('implementation', 160)

('growth', 113)
('We', 113)
('investment', 109)
('we', 107)
('support', 107)
('across', 94)
('Government', 74)
('businesses', 73)
('skills', 73)
('economic', 70)
('billion', 64)
('can', 61)
('people', 60)
('infrastructure', 57)
('jobs', 55)
('opportunities', 55)
('government', 52)
('international', 52)
('productivity', 48)
('trade', 47)
('UK’s', 47)
('local', 47)
('economy', 46)
('including', 46)
('over', 46)
('net', 46)
('sector', 45)
('also', 45)
('global', 44)
('which', 44)
('zero', 42)
('system', 42)
('innovation', 41)
('business', 41)
('Global', 40)

('in', 3834)

('op', 2660)

('voor', 2611)

('is', 2139)

('te', 2091)

('e', 1777)

('met', 1607)

('aan', 1499)

('n', 1378)

('om', 1358)

('maatregel', 1153)

('zijn', 1129)

('wordt', 1127)

('worden', 1124)

('die', 1110)

('deze', 966)

('door', 955)

('dat', 940)

('i', 895)

('bij', 869)

('of', 826)

('ook', 789)

('dit', 756)

('heeft', 747)

('als', 732)

('er', 713)

('1', 677)

('nederlandse', 672)

('geen', 634)

('tot', 599)

('maatregelen', 572)

('2', 555)

('niet', 541)

('nederland', 526)

('r', 521)

('c', 488)

('g', 485)

('m', 470)

('a', 468)

('s', 459)

('hebben', 458)

('kunnen', 446)

('naar', 446)

('o', 438)

('4', 427)

('•', 411)

('digitale', 397)

('zal', 396)

('t', 392)

('v', 392)

('uit', 383)

('kan', 376)

('meer', 370)

('3', 368)

('impact', 368)

('onder', 365)

('welke', 351)

('h', 344)

('herstel-', 337)

('x', 327)

('veerkrachtplan', 310)

('l', 298)

('investeringen', 295)

('over', 281)

('europese', 277)

('andere', 272)

('onderwijs', 265)

('nodig', 256)

('maken', 245)

('ten', 241)

('in', 3834)

('at', 2660)

('before', 2611)

('is', 2139)

('to', 2091)

('e', 1777)

('with', 1607)

('to', 1499)

('n', 1378)

('to', 1358)

('measure', 1153)

('be', 1129)

('become', 1127)

('become', 1124)

('those', 1110)

('these', 966)

('by', 955)

('that', 940)

('i', 895)

('at', 869)

('or', 826)

('also', 789)

('this', 756)

('has', 747)

('if', 732)

('there', 713)

('1', 677)

('Dutch', 672)

('none', 634)

('up to', 599)

('measures', 572)

('2', 555)

('not', 541)

('netherlands', 526)

('r', 521)

('c', 488)

('g', 485)

('m', 470)

('a', 468)

('s', 459)

('have', 458)

('may', 446)

('to', 446)

('o', 438)

('4', 427)

('-', 411)

('digital', 397)

('will', 396)

('t', 392)

('v', 392)

('out', 383)

('may', 376)

('more', 370)

('3', 368)

('impact', 368)

('under', 365)

('which', 351)

('h', 344)

('recovery', 337)

('x', 327)

('resilience plan', 310)

('l', 298)

('investments', 295)

('about', 281)

('european', 277)

('other', 272)

('education', 265)

('necessary', 256)

('make', 245)

('ten', 241)

('digital', 551)

('for', 410)

('a', 403)

('uk', 389)

('we', 307)

('will', 288)

('gov', 234)

('are', 230)

('is', 218)

('with', 180)

('•', 180)

('that', 173)

('data', 166)

('skills', 151)

('(https://www', 150)

('on', 146)

('this', 144)

('as', 144)

('our', 138)

('by', 137)

('strategy', 135)

('tech', 115)

('uk,', 110)

('innovation', 101)

('be', 98)

('government', 97)

('support', 97)

('have', 92)

('new', 90)

('has', 89)

('from', 89)

('uk’s', 86)

('through', 86)

('global', 84)

('also', 84)

('technology', 79)

('which', 78)

('more', 77)

('investment', 75)

('an', 73)

('work', 73)

('businesses', 71)

('sector', 71)

('international', 71)

('across', 65)

('security', 63)

('national', 60)

('business', 58)

('ensure', 57)

('can', 55)

('their', 55)

('3', 54)

('at', 54)

('growth', 52)

('continue', 52)

('over', 52)

('economy', 51)

('million', 51)

('capital', 50)

('or', 50)

('up', 49)

('funding', 49)

('they', 47)

('research', 47)

('ai', 47)

('public', 46)

('cyber', 46)

('billion', 46)

('trade', 46)

('world', 44)

Interventions on the lists

  • Translate with deepl translator when necessary to English (UK)
  • Delete the first 5 words
  • Keep 70 words

Python script

First run this in the terminal:

pdf2txt -o doc.txt doc.pdf
import re 
from wordfreq import word_frequency
#this is a script to find the most frequent words in a textfile 
lines = open('gr-policy.txt', 'r')
text=lines.read()
text_list=text.replace('\n', ' ').split(".") 
lines.close() 
sep_words=[]
new_list=[]
all_freq={} 
frequency={}
with open("output.txt", "a") as f:
   for l in text_list:
       for w in l.split():
           sep_words.append(w)
   for word in sep_words:
       freq = sep_words.count(word) 
       frequency={word:freq}
       all_freq.update(frequency)    
           # all_freq.append(frequency)
   new_list=sorted(all_freq.items(), key=lambda item: item[1], reverse=True )
   print(*new_list, sep = "\n", file=f)

Greek list translated with deepl.