SoLiXG:Word Frequencies for EU recovery and resilience plans
Word-frequencies in National recovery and resilience plans (EUNextGen): Belgium, Netherlands, Greece and UK recovery plans: Build Back Better, Digital Strategy.
Greece | UK (BBB) | Belgium | Netherlands | UK (DS) | |||
---|---|---|---|---|---|---|---|
original | translation | original | translation | original | translation | ||
('cost', 1504) |
('growth', 113) |
('in', 3834) ('op', 2660) ('voor', 2611) ('is', 2139) ('te', 2091) ('e', 1777) ('met', 1607) ('aan', 1499) ('n', 1378) ('om', 1358) ('maatregel', 1153) ('zijn', 1129) ('wordt', 1127) ('worden', 1124) ('die', 1110) ('deze', 966) ('door', 955) ('dat', 940) ('i', 895) ('bij', 869) ('of', 826) ('ook', 789) ('dit', 756) ('heeft', 747) ('als', 732) ('er', 713) ('1', 677) ('nederlandse', 672) ('geen', 634) ('tot', 599) ('maatregelen', 572) ('2', 555) ('niet', 541) ('nederland', 526) ('r', 521) ('c', 488) ('g', 485) ('m', 470) ('a', 468) ('s', 459) ('hebben', 458) ('kunnen', 446) ('naar', 446) ('o', 438) ('4', 427) ('•', 411) ('digitale', 397) ('zal', 396) ('t', 392) ('v', 392) ('uit', 383) ('kan', 376) ('meer', 370) ('3', 368) ('impact', 368) ('onder', 365) ('welke', 351) ('h', 344) ('herstel-', 337) ('x', 327) ('veerkrachtplan', 310) ('l', 298) ('investeringen', 295) ('over', 281) ('europese', 277) ('andere', 272) ('onderwijs', 265) ('nodig', 256) ('maken', 245) ('ten', 241) |
('in', 3834)
('at', 2660) ('before', 2611) ('is', 2139) ('to', 2091) ('e', 1777) ('with', 1607) ('to', 1499) ('n', 1378) ('to', 1358) ('measure', 1153) ('be', 1129) ('become', 1127) ('become', 1124) ('those', 1110) ('these', 966) ('by', 955) ('that', 940) ('i', 895) ('at', 869) ('or', 826) ('also', 789) ('this', 756) ('has', 747) ('if', 732) ('there', 713) ('1', 677) ('Dutch', 672) ('none', 634) ('up to', 599) ('measures', 572) ('2', 555) ('not', 541) ('netherlands', 526) ('r', 521) ('c', 488) ('g', 485) ('m', 470) ('a', 468) ('s', 459) ('have', 458) ('may', 446) ('to', 446) ('o', 438) ('4', 427) ('-', 411) ('digital', 397) ('will', 396) ('t', 392) ('v', 392) ('out', 383) ('may', 376) ('more', 370) ('3', 368) ('impact', 368) ('under', 365) ('which', 351) ('h', 344) ('recovery', 337) ('x', 327) ('resilience plan', 310) ('l', 298) ('investments', 295) ('about', 281) ('european', 277) ('other', 272) ('education', 265) ('necessary', 256) ('make', 245) ('ten', 241) |
('digital', 551) ('for', 410) ('a', 403) ('uk', 389) ('we', 307) ('will', 288) ('gov', 234) ('are', 230) ('is', 218) ('with', 180) ('•', 180) ('that', 173) ('data', 166) ('skills', 151) ('(https://www', 150) ('on', 146) ('this', 144) ('as', 144) ('our', 138) ('by', 137) ('strategy', 135) ('tech', 115) ('uk,', 110) ('innovation', 101) ('be', 98) ('government', 97) ('support', 97) ('have', 92) ('new', 90) ('has', 89) ('from', 89) ('uk’s', 86) ('through', 86) ('global', 84) ('also', 84) ('technology', 79) ('which', 78) ('more', 77) ('investment', 75) ('an', 73) ('work', 73) ('businesses', 71) ('sector', 71) ('international', 71) ('across', 65) ('security', 63) ('national', 60) ('business', 58) ('ensure', 57) ('can', 55) ('their', 55) ('3', 54) ('at', 54) ('growth', 52) ('continue', 52) ('over', 52) ('economy', 51) ('million', 51) ('capital', 50) ('or', 50) ('up', 49) ('funding', 49) ('they', 47) ('research', 47) ('ai', 47) ('public', 46) ('cyber', 46) ('billion', 46) ('trade', 46) ('world', 44) |
Interventions on the lists
- Translate with deepl translator when necessary to English (UK)
- Delete the first 5 words
- Keep 70 words
Python script
First run this in the terminal:
pdf2txt -o doc.txt doc.pdf
import re from wordfreq import word_frequency #this is a script to find the most frequent words in a textfile lines = open('gr-policy.txt', 'r') text=lines.read() text_list=text.replace('\n', ' ').split(".") lines.close() sep_words=[] new_list=[] all_freq={} frequency={} with open("output.txt", "a") as f: for l in text_list: for w in l.split(): sep_words.append(w) for word in sep_words: freq = sep_words.count(word) frequency={word:freq} all_freq.update(frequency) # all_freq.append(frequency) new_list=sorted(all_freq.items(), key=lambda item: item[1], reverse=True ) print(*new_list, sep = "\n", file=f)
Greek list translated with deepl.