SoLiXG:Word Frequencies for EU recovery and resilience plans
Words are taken from these documents from here: UK (BBB) , Belgium, Netherlands, Greece, UK
Greece | UK (BBB) | Belgium | Netherlands | UK (DS) |
---|---|---|---|---|
('cost', 1504) ('Plan', 1218) |
('growth', 113) ('We', 113) ('investment', 109) ('we', 107) ('support', 107) ('across', 94) ('Government', 74) ('businesses', 73) ('skills', 73) ('economic', 70) ('billion', 64) ('can', 61) ('people', 60) ('infrastructure', 57) ('jobs', 55) ('opportunities', 55) ('government', 52) ('international', 52) ('productivity', 48) ('trade', 47) ('UK’s', 47) ('local', 47) ('economy', 46) ('including', 46) ('over', 46) ('net', 46) ('sector', 45) ('also', 45) ('global', 44) ('which', 44) ('zero', 42) ('system', 42) ('innovation', 41) ('business', 41) ('Global', 40) |
('worden', 2353) ('project', 1049) ('wordt', 879) ('zullen', 855) ('Plan', 780) ('Herstel', 716) ('Veerkracht', 688) ('uitvoering', 657) ('digitale', 619) ('projecten', 614) ('kunnen', 588) ('hervormingen', 490) ('maken', 450) ('niet', 448) ('Deze', 430) ('plan', 426) ('Dit', 412) ('Beschrijving', 411) ('sociale', 399) ('verschillende', 390) ('nieuwe', 381) ('investeringenNationaal', 375) ('alle', 374) ('mogelijk', 373) ('Europese', 366) ('ontwikkeling', 364) ('kader', 363) ('hebben', 351) ('andere', 343) ('er', 342) ('dan', 333) ('moeten', 331) ('4', 327) ('investeringen', 324) ('via', 324) ('gebruik', 319) ('2021', 318) ('Een', 310) ('Vlaamse', 295) ('Voor', 292) ('Nationaal', 287) ('onder', 286) ('component', 282) ('tussen', 280) ('we', 279) ('5', 278) ('moet', 276) ('binnen', 267) ('(%)', 266) ('I', 262) ('ten', 261) ('doelstellingen', 260) ('maar', 260) ('zich', 260) ('basis', 258) ('tegen', 253) ('Coëfficiënt', 248) ('deel', 239) ('uitgevoerd', 239) ('bestaande', 237) ('Complementariteit', 235) ('III', 235) ('digitaal', 233) ('maatregelen', 232) ('eerste', 232) ('België', 224) ('Er', 224) ('gericht', 223) ('miljoen', 219) ('economische', 215) ('zoals', 212) ('arbeidsmarkt', 205) ('geen', 205) ('0%', 201) ('Belgische', 199) ('jaar', 197) ('openbare', 197) ('name', 195) ('nog', 193) ('wat', 193) ('steun', 192) ('ter', 192) ('Gewest', 192) ('niveau', 190) ('bedrijven', 189) ('regering', 186) ('opleiding', 186) ('doel', 186) ('enz', 183) ('toegang', 181) ('Waalse', 181) ('economie', 180) ('werken', 180) ('Op', 179) ('gebouwen', 178) ('specifieke', 176) ('gegevens', 175) ('aantal', 174) ('federale', 172) ('per', 171) ('onderwijs', 170) ('2020', 168) ('Brussels', 167) ('ze', 167) ('zowel', 166) ('dus', 166) ('inzake', 162) ('Regering', 162) ('Vlaanderen', 161) ('twee', 160) ('impact', 158) ('stellen', 158) ('ondernemingen', 158) (')', 157) ('diensten', 157) ('financiering', 156) ('betrekking', 156) ('elke', 155) ('staat', 155) ('infrastructuur', 152) ('werknemers', 152) |
('wordt', 1125) ('worden', 1123) ('maatregel', 887) ('Nederlandse', 672) ('maatregelen', 549) ('Nederland', 526) ('hebben', 458) ('kunnen', 446) ('impact', 358) ('welke', 348) ('digitale', 347) ('Europese', 277) ('over', 274) ('andere', 268) ('Maatregel', 266) ('nodig', 255) ('Herstel-', 253) ('investeringen', 253) ('Veerkrachtplan', 246) ('maken', 245) ('dan', 236) ('zich', 233) ('gebruik', 233) ('economie', 229) ('onderwijs', 226) ('zoals', 222) ('Ook', 215) ('nieuwe', 212) ('mogelijk', 209) ('alle', 207) ('–', 206) ('sociale', 204) ('via', 203) ('Een', 202) ('economische', 199) ('tussen', 196) ('effect', 194) ('sprake', 194) ('ten', 193) ('insignificante', 190) ('Er', 189) ('per', 185) ('X', 185) ('hun', 183) ('gericht', 177) ('extra', 174) ('binnen', 173) ('maar', 172) ('d', 171) ('2022', 171) ('zes', 167) ('2020', 166) ('5', 166) ('Met', 166) ('HVP', 164) ('Door', 163) ('substantiële', 162) ('mensen', 161) ('Voor', 157) ('moeten', 156) ('6', 155) ('effecten', 154) ('onderstaande', 154) ('zullen', 153) ('basis', 152) ('DNSH-milieudoelstelling', 152) ('bedrijven', 150) ('arbeidsmarkt', 149) ('2021', 148) ('middelen', 147) ('duurzame', 144) ('gaat', 144) ('DNSH-doelstellingen', 144) ('jaar', 143) |
('UK', 386)
('digital', 328) ('Digital', 222) ('gov', 147) ('data', 126) ('Strategy', 120) ('skills', 106) ('support', 96) ('Gov', 87) ('UK’s', 86) ('uk,', 86) ('Government', 83) ('new', 81) ('tech', 77) ('more', 75) ('businesses', 69) ('work', 69) ('sector', 68) ('technology', 66) ('across', 62) ('investment', 61) ('innovation', 61) ('ensure', 57) ('global', 55) ('continue', 52) ('million', 51) ('international', 51) ('growth', 48) ('security', 48) ('AI', 47) ('billion', 46) ('funding', 46) ('economy', 45) ('they', 45) ('Skills', 45) ('public', 44) ('(2021),', 44) ('including', 44) ('Innovation', 40) ('Department', 40) ('Data', 40) ('(DCMS)', 40) ('technologies', 38) ('Tech', 37) |
Python script
First run this in the terminal:
pdf2txt -o doc.txt doc.pdf
import re from wordfreq import word_frequency #this is a script to find the most frequent words in a textfile lines = open('gr-policy.txt', 'r') text=lines.read() text_list=text.replace('\n', ' ').split(".") lines.close() sep_words=[] new_list=[] all_freq={} frequency={} with open("output.txt", "a") as f: for l in text_list: for w in l.split(): sep_words.append(w) for word in sep_words: freq = sep_words.count(word) frequency={word:freq} all_freq.update(frequency) # all_freq.append(frequency) new_list=sorted(all_freq.items(), key=lambda item: item[1], reverse=True ) print(*new_list, sep = "\n", file=f)