SoLiXG:Word Frequencies for EU recovery and resilience plans

From titipi
Revision as of 23:19, 21 February 2023 by Angeliki (talk | contribs)
Jump to navigation Jump to search

Word-frequencies in National recovery and resilience plans (EUNextGen): Belgium, Netherlands, Greece and UK recovery plans: Build Back Better, Digital Strategy.

Word Frequencies for EU recovery and resilience plans
UK (BBB) UK (DS) Greece (transl) Netherlands (transltransl) Belgium (transl) Belgium (orig) Netherlands (orig) Greece (orig)

('in', 538)

('r', 494)

('t', 403)

('o', 386)

('b', 363)

('uk', 363)

('for', 334)

('■', 300)

('e', 296)

('will', 282)

('l', 265)

('our', 247)

('u', 244)

('we', 220)

('with', 177)

('on', 170)

('is', 167)

('n', 157)

('that', 153)

('i', 148)

('by', 145)

('0', 143)

('d', 140)

('new', 140)

('g', 139)

('h', 137)

('c', 134)

('as', 133)

('investment', 132)

('p', 131)

('w', 130)

('k', 129)

('are', 129)

('f', 127)

('2', 127)

('growth', 126)

('government', 126)

('this', 125)

('support', 116)

('1', 108)

('have', 102)

('skills', 97)

('up', 95)

('across', 94)

('from', 91)

('has', 91)

('infrastructure', 89)

('global', 84)

('be', 80)

('at', 79)

('economic', 79)

('businesses', 75)

('9', 72)

('an', 69)

('their', 67)

('through', 67)

('people', 66)

('net', 65)

('innovation', 65)

('billion', 64)

('can', 61)

('it', 61)

('jobs', 60)

('plan', 59)

('trade', 58)

('zero', 57)

('opportunities', 57)

('international', 54)

('local', 54)

('over', 53)

('digital', 551)

('for', 410)

('a', 403)

('uk', 389)

('we', 307)

('will', 288)

('gov', 234)

('are', 230)

('is', 218)

('with', 180)

('•', 180)

('that', 173)

('data', 166)

('skills', 151)

('(https://www', 150)

('on', 146)

('this', 144)

('as', 144)

('our', 138)

('by', 137)

('strategy', 135)

('tech', 115)

('uk,', 110)

('innovation', 101)

('be', 98)

('government', 97)

('support', 97)

('have', 92)

('new', 90)

('has', 89)

('from', 89)

('uk’s', 86)

('through', 86)

('global', 84)

('also', 84)

('technology', 79)

('which', 78)

('more', 77)

('investment', 75)

('an', 73)

('work', 73)

('businesses', 71)

('sector', 71)

('international', 71)

('across', 65)

('security', 63)

('national', 60)

('business', 58)

('ensure', 57)

('can', 55)

('their', 55)

('3', 54)

('at', 54)

('growth', 52)

('continue', 52)

('over', 52)

('economy', 51)

('million', 51)

('capital', 50)

('or', 50)

('up', 49)

('funding', 49)

('they', 47)

('research', 47)

('ai', 47)

('public', 46)

('cyber', 46)

('billion', 46)

('trade', 46)

('world', 44)

('for', 4208)

('the', 3337)

('with', 3224)

('where', 3123)

('η', 2905)

('in', 2351)

('the', 2002)

('from', 1926)

('the', 1910)

('in', 1869)

('to', 1869)

('●', 1588)

('the', 1533)

('the', 1383)

('-', 1381)

('will', 1359)

('in', 1082)

('ο', 1074)

('their', 1060)

('costs', 1013)

('him', 962)

('investments', 935)

('plan', 905)

('part', 882)

('is', 825)

('reforms', 727)

('recovery', 723)

('through', 719)

('investment', 712)

('resilience', 709)

('4', 675)

('2', 661)

('development', 640)

('(id:', 638)

('implementation', 635)

('reform', 624)

('1', 620)

('as', 616)

('in', 599)

('reforms', 567)

('3', 551)

('each', 550)

('investment', 534)

('that', 534)

('in', 521)

('description', 520)

('cost', 491)

('axis', 491)

('ή', 471)

('/', 469)

('a', 467)

('2:', 460)

('per', 458)

('system', 448)

('sector', 447)

('work', 445)

('improvement', 442)

('enhancement', 441)

('3:', 416)

('project', 414)

('on', 410)

('against', 409)

('increase', 385)

('on', 385)

('upgrade', 381)

('as', 373)

('complementarity', 372)

('integration', 366)

('axis', 360)

('data', 347)

('in', 3834)

('at', 2660)

('before', 2611)

('is', 2139)

('to', 2091)

('e', 1777)

('with', 1607)

('to', 1499)

('n', 1378)

('to', 1358)

('measure', 1153)

('be', 1129)

('become', 1127)

('become', 1124)

('those', 1110)

('these', 966)

('by', 955)

('that', 940)

('i', 895)

('at', 869)

('or', 826)

('also', 789)

('this', 756)

('has', 747)

('if', 732)

('there', 713)

('1', 677)

('Dutch', 672)

('none', 634)

('up to', 599)

('measures', 572)

('2', 555)

('not', 541)

('netherlands', 526)

('r', 521)

('c', 488)

('g', 485)

('m', 470)

('a', 468)

('s', 459)

('have', 458)

('may', 446)

('to', 446)

('o', 438)

('4', 427)

('-', 411)

('digital', 397)

('will', 396)

('t', 392)

('v', 392)

('out', 383)

('may', 376)

('more', 370)

('3', 368)

('impact', 368)

('under', 365)

('which', 351)

('h', 344)

('recovery', 337)

('x', 327)

('resilience plan', 310)

('l', 298)

('investments', 295)

('about', 281)

('european', 277)

('other', 272)

('education', 265)

('necessary', 256)

('make', 245)

('ten', 241)

('in', 4926)

('for', 4387)

('to', 3582)

('at', 3343)

('with', 2481)

('become', 2353)

('those', 2155)

('to', 1941)

('-', 1811)

('is', 1750)

('shall', 1588)

('to', 1583)

('be', 1573)

('by', 1551)

('these', 1325)

('to', 1218)

('plan', 1207)

('that', 1130)

('project', 1059)

('this', 989)

('also', 958)

('will', 881)

('will', 855)

('-', 838)

('or', 831)

('recovery', 809)

('execution', 802)

('resilience', 787)

('at', 717)

('digital', 695)

('p', 689)

('as', 684)

('projects', 628)

('may', 588)

('there', 566)

('reforms', 528)

('more', 521)

('to', 519)

('2', 512)

('1', 510)

('out', 506)

('their', 487)

('not', 467)

('about', 454)

('make', 450)

('social', 443)

('all', 439)

('description', 426)

('has', 416)

('different', 400)

('development', 395)

('we', 394)

('new', 393)

('goals', 392)

('may', 379)

('ii', 379)

('3', 378)

('-', 376)

('investmentsnational', 375)

('possible', 373)

('european', 366)

('other', 364)

('framework', 363)

('investments', 362)

('via', 360)

('have', 351)

('government', 348)

('component', 344)

('then', 333)

('should', 331)

('in', 4926)('voor', 4387)

('te', 3582)

('op', 3343)

('met', 2481)

('worden', 2353)

('die', 2155)

('om', 1941)

('•', 1811)

('is', 1750)

('zal', 1588)

('aan', 1583)

('zijn', 1573)

('door', 1551)

('deze', 1325)

('tot', 1218)

('plan', 1207)

('dat', 1130)

('project', 1059)

('dit', 989)

('ook', 958)

('wordt', 881)

('zullen', 855)

('-', 838)

('of', 831)

('herstel', 809)

('uitvoering', 802)

('veerkracht', 787)

('bij', 717)

('digitale', 695)

('p', 689)

('als', 684)

('projecten', 628)

('kunnen', 588)

('er', 566)

('hervormingen', 528)

('meer', 521)

('naar', 519)

('2', 512)

('1', 510)

('uit', 506)

('hun', 487)

('niet', 467)

('over', 454)

('maken', 450)

('sociale', 443)

('alle', 439)

('beschrijving', 426)

('heeft', 416)

('verschillende', 400)

('ontwikkeling', 395)

('we', 394)

('nieuwe', 393)

('doelstellingen', 392)

('kan', 379)

('ii', 379)

('3', 378)

('–', 376)

('investeringennationaal', 375)

('mogelijk', 373)

('europese', 366)

('andere', 364)

('kader', 363)

('investeringen', 362)

('via', 360)

('hebben', 351)

('regering', 348)

('component', 344)

('dan', 333)

('moeten', 331)

('in', 3834)('op', 2660)

('voor', 2611)

('is', 2139)

('te', 2091)

('e', 1777)

('met', 1607)

('aan', 1499)

('n', 1378)

('om', 1358)

('maatregel', 1153)

('zijn', 1129)

('wordt', 1127)

('worden', 1124)

('die', 1110)

('deze', 966)

('door', 955)

('dat', 940)

('i', 895)

('bij', 869)

('of', 826)

('ook', 789)

('dit', 756)

('heeft', 747)

('als', 732)

('er', 713)

('1', 677)

('nederlandse', 672)

('geen', 634)

('tot', 599)

('maatregelen', 572)

('2', 555)

('niet', 541)

('nederland', 526)

('r', 521)

('c', 488)

('g', 485)

('m', 470)

('a', 468)

('s', 459)

('hebben', 458)

('kunnen', 446)

('naar', 446)

('o', 438)

('4', 427)

('•', 411)

('digitale', 397)

('zal', 396)

('t', 392)

('v', 392)

('uit', 383)

('kan', 376)

('meer', 370)

('3', 368)

('impact', 368)

('onder', 365)

('welke', 351)

('h', 344)

('herstel-', 337)

('x', 327)

('veerkrachtplan', 310)

('l', 298)

('investeringen', 295)

('over', 281)

('europese', 277)

('andere', 272)

('onderwijs', 265)

('nodig', 256)

('maken', 245)

('ten', 241)

('για', 4208)

('το', 3337)

('με', 3224)

('που', 3123)

('η', 2905)

('σε', 2351)

('τη', 2002)

('από', 1926)

('τις', 1910)

('στην', 1869)

('να', 1869)

('●', 1588)

('τα', 1533)

('οι', 1383)

('-', 1381)

('θα', 1359)

('στο', 1082)

('ο', 1074)

('τους', 1060)

('κόστους', 1013)

('τον', 962)

('επενδύσεων', 935)

('σχεδίου', 905)

('μέρος', 882)

('είναι', 825)

('μεταρρυθμίσεων', 727)

('ανάκαμψης', 723)

('μέσω', 719)

('επενδύσεις', 712)

('ανθεκτικότητας', 709)

('4', 675)

('2', 661)

('ανάπτυξη', 640)

('(id:', 638)

('εφαρμογή', 635)

('μεταρρύθμιση', 624)

('1', 620)

('καθώς', 616)

('στον', 599)

('μεταρρυθμίσεις', 567)

('3', 551)

('κάθε', 550)

('επένδυση', 534)

('ότι', 534)

('στη', 521)

('περιγραφή', 520)

('κόστος', 491)

('άξονα', 491)

('ή', 471)

('/', 469)

('μια', 467)

('2:', 460)

('ανά', 458)

('συστήματος', 448)

('τομέα', 447)

('εργασίας', 445)

('βελτίωση', 442)

('ενίσχυση', 441)

('3:', 416)

('σχέδιο', 414)

('στις', 410)

('κατά', 409)

('αύξηση', 385)

('σχετικά', 385)

('αναβάθμιση', 381)

('ως', 373)

('συμπληρωματικότητα', 372)

('ολοκλήρωση', 366)

('άξονας', 360)

('δεδομένων', 347)

Interventions on the lists

  • Translate with deepl translator when necessary to English (UK)
  • Delete the first 5 words
  • Keep 70 words

Python script

First run this in the terminal:

pdf2txt -o doc.txt doc.pdf
import re 
from wordfreq import word_frequency
#this is a script to find the most frequent words in a textfile 
lines = open('gr-policy.txt', 'r')
text=lines.read()
text_list=text.replace('\n', ' ').split(".") 
lines.close() 
sep_words=[]
new_list=[]
all_freq={} 
frequency={}
with open("output.txt", "a") as f:
   for l in text_list:
       for w in l.split():
           sep_words.append(w)
   for word in sep_words:
       freq = sep_words.count(word) 
       frequency={word:freq}
       all_freq.update(frequency)    
           # all_freq.append(frequency)
   new_list=sorted(all_freq.items(), key=lambda item: item[1], reverse=True )
   print(*new_list, sep = "\n", file=f)

Greek list translated with deepl.