SoLiXG:Word Frequencies for EU recovery and resilience plans

From titipi
Revision as of 10:03, 10 May 2023 by FS (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

Word-frequencies in recovery and resilience plans

Word-frequencies in national recovery and resilience plans (EUNextGen): Belgium, Netherlands, Greece and UK recovery plans: Build Back Better, Digital Strategy.

Word Frequencies for EU recovery and resilience plans
UK (BBB) UK (DS) Greece (transl) Netherlands (transl) Belgium (transl)

('in', 538)

('r', 494)

('t', 403)

('o', 386)

('b', 363)

('uk', 363)

('for', 334)

('e', 296)

('will', 282)

('l', 265)

('our', 247)

('u', 244)

('we', 220)

('with', 177)

('on', 170)

('is', 167)

('n', 157)

('that', 153)

('i', 148)

('by', 145)

('0', 143)

('d', 140)

('new', 140)

('g', 139)

('h', 137)

('c', 134)

('as', 133)

('investment', 132)

('p', 131)

('w', 130)

('k', 129)

('are', 129)

('f', 127)

('2', 127)

('growth', 126)

('government', 126)

('this', 125)

('support', 116)

('1', 108)

('have', 102)

('skills', 97)

('up', 95)

('across', 94)

('from', 91)

('has', 91)

('infrastructure', 89)

('global', 84)

('be', 80)

('at', 79)

('economic', 79)

('businesses', 75)

('9', 72)

('an', 69)

('their', 67)

('through', 67)

('people', 66)

('net', 65)

('innovation', 65)

('billion', 64)

('can', 61)

('it', 61)

('jobs', 60)

('plan', 59)

('trade', 58)

('zero', 57)

('opportunities', 57)

('international', 54)

('local', 54)

('over', 53)

('digital', 551)

('for', 410)

('a', 403)

('uk', 389)

('we', 307)

('will', 288)

('gov', 234)

('are', 230)

('is', 218)

('with', 180)

('•', 180)

('that', 173)

('data', 166)

('skills', 151)

('(https://www', 150)

('on', 146)

('this', 144)

('as', 144)

('our', 138)

('by', 137)

('strategy', 135)

('tech', 115)

('uk,', 110)

('innovation', 101)

('be', 98)

('government', 97)

('support', 97)

('have', 92)

('new', 90)

('has', 89)

('from', 89)

('uk’s', 86)

('through', 86)

('global', 84)

('also', 84)

('technology', 79)

('which', 78)

('more', 77)

('investment', 75)

('an', 73)

('work', 73)

('businesses', 71)

('sector', 71)

('international', 71)

('across', 65)

('security', 63)

('national', 60)

('business', 58)

('ensure', 57)

('can', 55)

('their', 55)

('3', 54)

('at', 54)

('growth', 52)

('continue', 52)

('over', 52)

('economy', 51)

('million', 51)

('capital', 50)

('or', 50)

('up', 49)

('funding', 49)

('they', 47)

('research', 47)

('ai', 47)

('public', 46)

('cyber', 46)

('billion', 46)

('trade', 46)

('world', 44)

('for', 4208)

('the', 3337)

('with', 3224)

('where', 3123)

('η', 2905)

('in', 2351)

('the', 2002)

('from', 1926)

('the', 1910)

('in', 1869)

('to', 1869)

('the', 1533)

('the', 1383)

('-', 1381)

('will', 1359)

('in', 1082)

('ο', 1074)

('their', 1060)

('costs', 1013)

('him', 962)

('investments', 935)

('plan', 905)

('part', 882)

('is', 825)

('reforms', 727)

('recovery', 723)

('through', 719)

('investment', 712)

('resilience', 709)

('4', 675)

('2', 661)

('development', 640)

('(id:', 638)

('implementation', 635)

('reform', 624)

('1', 620)

('as', 616)

('in', 599)

('reforms', 567)

('3', 551)

('each', 550)

('investment', 534)

('that', 534)

('in', 521)

('description', 520)

('cost', 491)

('axis', 491)

('ή', 471)

('/', 469)

('a', 467)

('2:', 460)

('per', 458)

('system', 448)

('sector', 447)

('work', 445)

('improvement', 442)

('enhancement', 441)

('3:', 416)

('project', 414)

('on', 410)

('against', 409)

('increase', 385)

('on', 385)

('upgrade', 381)

('as', 373)

('complementarity', 372)

('integration', 366)

('axis', 360)

('data', 347)

('in', 3834)

('at', 2660)

('before', 2611)

('is', 2139)

('to', 2091)

('e', 1777)

('with', 1607)

('to', 1499)

('n', 1378)

('to', 1358)

('measure', 1153)

('be', 1129)

('become', 1127)

('become', 1124)

('those', 1110)

('these', 966)

('by', 955)

('that', 940)

('i', 895)

('at', 869)

('or', 826)

('also', 789)

('this', 756)

('has', 747)

('if', 732)

('there', 713)

('1', 677)

('Dutch', 672)

('none', 634)

('up to', 599)

('measures', 572)

('2', 555)

('not', 541)

('netherlands', 526)

('r', 521)

('c', 488)

('g', 485)

('m', 470)

('a', 468)

('s', 459)

('have', 458)

('may', 446)

('to', 446)

('o', 438)

('4', 427)

('-', 411)

('digital', 397)

('will', 396)

('t', 392)

('v', 392)

('out', 383)

('may', 376)

('more', 370)

('3', 368)

('impact', 368)

('under', 365)

('which', 351)

('h', 344)

('recovery', 337)

('x', 327)

('resilience plan', 310)

('l', 298)

('investments', 295)

('about', 281)

('european', 277)

('other', 272)

('education', 265)

('necessary', 256)

('make', 245)

('ten', 241)

('in', 4926)

('for', 4387)

('to', 3582)

('at', 3343)

('with', 2481)

('become', 2353)

('those', 2155)

('to', 1941)

('-', 1811)

('is', 1750)

('shall', 1588)

('to', 1583)

('be', 1573)

('by', 1551)

('these', 1325)

('to', 1218)

('plan', 1207)

('that', 1130)

('project', 1059)

('this', 989)

('also', 958)

('will', 881)

('will', 855)

('-', 838)

('or', 831)

('recovery', 809)

('execution', 802)

('resilience', 787)

('at', 717)

('digital', 695)

('p', 689)

('as', 684)

('projects', 628)

('may', 588)

('there', 566)

('reforms', 528)

('more', 521)

('to', 519)

('2', 512)

('1', 510)

('out', 506)

('their', 487)

('not', 467)

('about', 454)

('make', 450)

('social', 443)

('all', 439)

('description', 426)

('has', 416)

('different', 400)

('development', 395)

('we', 394)

('new', 393)

('goals', 392)

('may', 379)

('ii', 379)

('3', 378)

('-', 376)

('investmentsnational', 375)

('possible', 373)

('european', 366)

('other', 364)

('framework', 363)

('investments', 362)

('via', 360)

('have', 351)

('government', 348)

('component', 344)

('then', 333)

('should', 331)

Lists in original languages
Belgium (orig) Netherlands (orig) Greece (orig)
('in', 4926)('voor', 4387)

('te', 3582)

('op', 3343)

('met', 2481)

('worden', 2353)

('die', 2155)

('om', 1941)

('is', 1750)

('zal', 1588)

('aan', 1583)

('zijn', 1573)

('door', 1551)

('deze', 1325)

('tot', 1218)

('plan', 1207)

('dat', 1130)

('project', 1059)

('dit', 989)

('ook', 958)

('wordt', 881)

('zullen', 855)

('-', 838)

('of', 831)

('herstel', 809)

('uitvoering', 802)

('veerkracht', 787)

('bij', 717)

('digitale', 695)

('p', 689)

('als', 684)

('projecten', 628)

('kunnen', 588)

('er', 566)

('hervormingen', 528)

('meer', 521)

('naar', 519)

('2', 512)

('1', 510)

('uit', 506)

('hun', 487)

('niet', 467)

('over', 454)

('maken', 450)

('sociale', 443)

('alle', 439)

('beschrijving', 426)

('heeft', 416)

('verschillende', 400)

('ontwikkeling', 395)

('we', 394)

('nieuwe', 393)

('doelstellingen', 392)

('kan', 379)

('ii', 379)

('3', 378)

('–', 376)

('investeringennationaal', 375)

('mogelijk', 373)

('europese', 366)

('andere', 364)

('kader', 363)

('investeringen', 362)

('via', 360)

('hebben', 351)

('regering', 348)

('component', 344)

('dan', 333)

('moeten', 331)

('in', 3834)('op', 2660)

('voor', 2611)

('is', 2139)

('te', 2091)

('e', 1777)

('met', 1607)

('aan', 1499)

('n', 1378)

('om', 1358)

('maatregel', 1153)

('zijn', 1129)

('wordt', 1127)

('worden', 1124)

('die', 1110)

('deze', 966)

('door', 955)

('dat', 940)

('i', 895)

('bij', 869)

('of', 826)

('ook', 789)

('dit', 756)

('heeft', 747)

('als', 732)

('er', 713)

('1', 677)

('nederlandse', 672)

('geen', 634)

('tot', 599)

('maatregelen', 572)

('2', 555)

('niet', 541)

('nederland', 526)

('r', 521)

('c', 488)

('g', 485)

('m', 470)

('a', 468)

('s', 459)

('hebben', 458)

('kunnen', 446)

('naar', 446)

('o', 438)

('4', 427)

('•', 411)

('digitale', 397)

('zal', 396)

('t', 392)

('v', 392)

('uit', 383)

('kan', 376)

('meer', 370)

('3', 368)

('impact', 368)

('onder', 365)

('welke', 351)

('h', 344)

('herstel-', 337)

('x', 327)

('veerkrachtplan', 310)

('l', 298)

('investeringen', 295)

('over', 281)

('europese', 277)

('andere', 272)

('onderwijs', 265)

('nodig', 256)

('maken', 245)

('ten', 241)

('για', 4208)

('το', 3337)

('με', 3224)

('που', 3123)

('η', 2905)

('σε', 2351)

('τη', 2002)

('από', 1926)

('τις', 1910)

('στην', 1869)

('να', 1869)

('τα', 1533)

('οι', 1383)

('-', 1381)

('θα', 1359)

('στο', 1082)

('ο', 1074)

('τους', 1060)

('κόστους', 1013)

('τον', 962)

('επενδύσεων', 935)

('σχεδίου', 905)

('μέρος', 882)

('είναι', 825)

('μεταρρυθμίσεων', 727)

('ανάκαμψης', 723)

('μέσω', 719)

('επενδύσεις', 712)

('ανθεκτικότητας', 709)

('4', 675)

('2', 661)

('ανάπτυξη', 640)

('(id:', 638)

('εφαρμογή', 635)

('μεταρρύθμιση', 624)

('1', 620)

('καθώς', 616)

('στον', 599)

('μεταρρυθμίσεις', 567)

('3', 551)

('κάθε', 550)

('επένδυση', 534)

('ότι', 534)

('στη', 521)

('περιγραφή', 520)

('κόστος', 491)

('άξονα', 491)

('ή', 471)

('/', 469)

('μια', 467)

('2:', 460)

('ανά', 458)

('συστήματος', 448)

('τομέα', 447)

('εργασίας', 445)

('βελτίωση', 442)

('ενίσχυση', 441)

('3:', 416)

('σχέδιο', 414)

('στις', 410)

('κατά', 409)

('αύξηση', 385)

('σχετικά', 385)

('αναβάθμιση', 381)

('ως', 373)

('συμπληρωματικότητα', 372)

('ολοκλήρωση', 366)

('άξονας', 360)

('δεδομένων', 347)

Interventions on the lists

  • Greek, Dutch and Belgian lists translated with deepl.
  • Delete first 5 terms
  • Keep 70 terms

Python script

First run this in the terminal:

pdf2txt -o doc.txt doc.pdf
import re 
from wordfreq import word_frequency
#this is a script to find the most frequent words in a textfile 
lines = open('gr-policy.txt', 'r')
text=lines.read()
text_list=text.replace('\n', ' ').split(".") 
lines.close() 
sep_words=[]
new_list=[]
all_freq={} 
frequency={}
with open("output.txt", "a") as f:
   for l in text_list:
       for w in l.split():
           sep_words.append(w)
   for word in sep_words:
       freq = sep_words.count(word) 
       frequency={word:freq}
       all_freq.update(frequency)    
           # all_freq.append(frequency)
   new_list=sorted(all_freq.items(), key=lambda item: item[1], reverse=True )
   print(*new_list, sep = "\n", file=f)