SoLiXG:Word Frequencies for EU recovery and resilience plans
Word-frequencies in National recovery and resilience plans (EUNextGen): Belgium, Netherlands, Greece and UK recovery plans: Build Back Better, Digital Strategy.
Greece | UK (BBB) | Belgium | Netherlands | UK (DS) | |||
---|---|---|---|---|---|---|---|
original | translation | original | translation | original | translation | ||
('in', 538) ('r', 494) ('t', 403) ('o', 386) ('b', 363) ('uk', 363) ('for', 334) ('■', 300) ('e', 296) ('will', 282) ('l', 265) ('our', 247) ('u', 244) ('we', 220) ('with', 177) ('on', 170) ('is', 167) ('n', 157) ('that', 153) ('i', 148) ('by', 145) ('0', 143) ('d', 140) ('new', 140) ('g', 139) ('h', 137) ('c', 134) ('as', 133) ('investment', 132) ('p', 131) ('w', 130) ('k', 129) ('are', 129) ('f', 127) ('2', 127) ('growth', 126) ('government', 126) ('this', 125) ('support', 116) ('1', 108) ('have', 102) ('skills', 97) ('up', 95) ('across', 94) ('from', 91) ('has', 91) ('infrastructure', 89) ('global', 84) ('be', 80) ('at', 79) ('economic', 79) ('businesses', 75) ('9', 72) ('an', 69) ('their', 67) ('through', 67) ('people', 66) ('net', 65) ('innovation', 65) ('billion', 64) ('can', 61) ('it', 61) ('jobs', 60) ('plan', 59) ('trade', 58) ('zero', 57) ('opportunities', 57) ('international', 54) ('local', 54) ('over', 53) |
('in', 4926)
('voor', 4387) ('te', 3582) ('op', 3343) ('met', 2481) ('worden', 2353) ('die', 2155) ('om', 1941) ('•', 1811) ('is', 1750) ('zal', 1588) ('aan', 1583) ('zijn', 1573) ('door', 1551) ('deze', 1325) ('tot', 1218) ('plan', 1207) ('dat', 1130) ('project', 1059) ('dit', 989) ('ook', 958) ('wordt', 881) ('zullen', 855) ('-', 838) ('of', 831) ('herstel', 809) ('uitvoering', 802) ('veerkracht', 787) ('bij', 717) ('digitale', 695) ('p', 689) ('als', 684) ('projecten', 628) ('kunnen', 588) ('er', 566) ('hervormingen', 528) ('meer', 521) ('naar', 519) ('2', 512) ('1', 510) ('uit', 506) ('hun', 487) ('niet', 467) ('over', 454) ('maken', 450) ('sociale', 443) ('alle', 439) ('beschrijving', 426) ('heeft', 416) ('verschillende', 400) ('ontwikkeling', 395) ('we', 394) ('nieuwe', 393) ('doelstellingen', 392) ('kan', 379) ('ii', 379) ('3', 378) ('–', 376) ('investeringennationaal', 375) ('mogelijk', 373) ('europese', 366) ('andere', 364) ('kader', 363) ('investeringen', 362) ('via', 360) ('hebben', 351) ('regering', 348) ('component', 344) ('dan', 333) ('moeten', 331) |
('in', 4926)
('for', 4387) ('to', 3582) ('at', 3343) ('with', 2481) ('become', 2353) ('those', 2155) ('to', 1941) ('-', 1811) ('is', 1750) ('shall', 1588) ('to', 1583) ('be', 1573) ('by', 1551) ('these', 1325) ('to', 1218) ('plan', 1207) ('that', 1130) ('project', 1059) ('this', 989) ('also', 958) ('will', 881) ('will', 855) ('-', 838) ('or', 831) ('recovery', 809) ('execution', 802) ('resilience', 787) ('at', 717) ('digital', 695) ('p', 689) ('as', 684) ('projects', 628) ('may', 588) ('there', 566) ('reforms', 528) ('more', 521) ('to', 519) ('2', 512) ('1', 510) ('out', 506) ('their', 487) ('not', 467) ('about', 454) ('make', 450) ('social', 443) ('all', 439) ('description', 426) ('has', 416) ('different', 400) ('development', 395) ('we', 394) ('new', 393) ('goals', 392) ('may', 379) ('ii', 379) ('3', 378) ('-', 376) ('investmentsnational', 375) ('possible', 373) ('european', 366) ('other', 364) ('framework', 363) ('investments', 362) ('via', 360) ('have', 351) ('government', 348) ('component', 344) ('then', 333) ('should', 331) |
('in', 3834) ('op', 2660) ('voor', 2611) ('is', 2139) ('te', 2091) ('e', 1777) ('met', 1607) ('aan', 1499) ('n', 1378) ('om', 1358) ('maatregel', 1153) ('zijn', 1129) ('wordt', 1127) ('worden', 1124) ('die', 1110) ('deze', 966) ('door', 955) ('dat', 940) ('i', 895) ('bij', 869) ('of', 826) ('ook', 789) ('dit', 756) ('heeft', 747) ('als', 732) ('er', 713) ('1', 677) ('nederlandse', 672) ('geen', 634) ('tot', 599) ('maatregelen', 572) ('2', 555) ('niet', 541) ('nederland', 526) ('r', 521) ('c', 488) ('g', 485) ('m', 470) ('a', 468) ('s', 459) ('hebben', 458) ('kunnen', 446) ('naar', 446) ('o', 438) ('4', 427) ('•', 411) ('digitale', 397) ('zal', 396) ('t', 392) ('v', 392) ('uit', 383) ('kan', 376) ('meer', 370) ('3', 368) ('impact', 368) ('onder', 365) ('welke', 351) ('h', 344) ('herstel-', 337) ('x', 327) ('veerkrachtplan', 310) ('l', 298) ('investeringen', 295) ('over', 281) ('europese', 277) ('andere', 272) ('onderwijs', 265) ('nodig', 256) ('maken', 245) ('ten', 241) |
('in', 3834)
('at', 2660) ('before', 2611) ('is', 2139) ('to', 2091) ('e', 1777) ('with', 1607) ('to', 1499) ('n', 1378) ('to', 1358) ('measure', 1153) ('be', 1129) ('become', 1127) ('become', 1124) ('those', 1110) ('these', 966) ('by', 955) ('that', 940) ('i', 895) ('at', 869) ('or', 826) ('also', 789) ('this', 756) ('has', 747) ('if', 732) ('there', 713) ('1', 677) ('Dutch', 672) ('none', 634) ('up to', 599) ('measures', 572) ('2', 555) ('not', 541) ('netherlands', 526) ('r', 521) ('c', 488) ('g', 485) ('m', 470) ('a', 468) ('s', 459) ('have', 458) ('may', 446) ('to', 446) ('o', 438) ('4', 427) ('-', 411) ('digital', 397) ('will', 396) ('t', 392) ('v', 392) ('out', 383) ('may', 376) ('more', 370) ('3', 368) ('impact', 368) ('under', 365) ('which', 351) ('h', 344) ('recovery', 337) ('x', 327) ('resilience plan', 310) ('l', 298) ('investments', 295) ('about', 281) ('european', 277) ('other', 272) ('education', 265) ('necessary', 256) ('make', 245) ('ten', 241) |
('digital', 551) ('for', 410) ('a', 403) ('uk', 389) ('we', 307) ('will', 288) ('gov', 234) ('are', 230) ('is', 218) ('with', 180) ('•', 180) ('that', 173) ('data', 166) ('skills', 151) ('(https://www', 150) ('on', 146) ('this', 144) ('as', 144) ('our', 138) ('by', 137) ('strategy', 135) ('tech', 115) ('uk,', 110) ('innovation', 101) ('be', 98) ('government', 97) ('support', 97) ('have', 92) ('new', 90) ('has', 89) ('from', 89) ('uk’s', 86) ('through', 86) ('global', 84) ('also', 84) ('technology', 79) ('which', 78) ('more', 77) ('investment', 75) ('an', 73) ('work', 73) ('businesses', 71) ('sector', 71) ('international', 71) ('across', 65) ('security', 63) ('national', 60) ('business', 58) ('ensure', 57) ('can', 55) ('their', 55) ('3', 54) ('at', 54) ('growth', 52) ('continue', 52) ('over', 52) ('economy', 51) ('million', 51) ('capital', 50) ('or', 50) ('up', 49) ('funding', 49) ('they', 47) ('research', 47) ('ai', 47) ('public', 46) ('cyber', 46) ('billion', 46) ('trade', 46) ('world', 44) |
Interventions on the lists
- Translate with deepl translator when necessary to English (UK)
- Delete the first 5 words
- Keep 70 words
Python script
First run this in the terminal:
pdf2txt -o doc.txt doc.pdf
import re from wordfreq import word_frequency #this is a script to find the most frequent words in a textfile lines = open('gr-policy.txt', 'r') text=lines.read() text_list=text.replace('\n', ' ').split(".") lines.close() sep_words=[] new_list=[] all_freq={} frequency={} with open("output.txt", "a") as f: for l in text_list: for w in l.split(): sep_words.append(w) for word in sep_words: freq = sep_words.count(word) frequency={word:freq} all_freq.update(frequency) # all_freq.append(frequency) new_list=sorted(all_freq.items(), key=lambda item: item[1], reverse=True ) print(*new_list, sep = "\n", file=f)
Greek list translated with deepl.