feat: add italian entity patterns

This commit is contained in:
Martin Masevski
2026-04-15 19:18:23 +02:00
parent 2e998db0b9
commit 69453b2180
2 changed files with 142 additions and 1 deletions
+142
View File
@@ -40,5 +40,147 @@
"stop_words": "il lo la i gli le un uno una di del della dello dei degli delle al allo alla ai agli alle in con su per tra fra da dal dalla dallo dai dagli dalle e o ma che chi cui come dove quando perché mentre anche ancora già molto poco solo sempre mai essere avere sono sei siamo siete era erano stato stata questo questa questi queste quello quella quelli quelle mio mia miei mie tuo tua tuoi tue suo sua suoi sue nostro nostra nostri nostre vostro vostra vostri vostre loro",
"quote_pattern": "«\\s*([^»]{10,200})\\s*»|\"([^\"]{10,200})\"",
"action_pattern": "(?:costruito|corretto|scritto|aggiunto|inviato|misurato|testato|revisionato|creato|eliminato|aggiornato|configurato|distribuito|migrato)\\s+[\\wÀ-ÿ\\s]{3,30}"
},
"entity": {
"candidate_pattern": "[A-ZÀ-Ú][a-zà-ÿ]{1,19}",
"multi_word_pattern": "[A-ZÀ-Ú][a-zà-ÿ]+(?:\\s+[A-ZÀ-Ú][a-zà-ÿ]+)+",
"person_verb_patterns": [
"\\b{name}\\s+ha\\s+detto\\b",
"\\b{name}\\s+ha\\s+chiesto\\b",
"\\b{name}\\s+ha\\s+risposto\\b",
"\\b{name}\\s+ha\\s+riferito\\b",
"\\b{name}\\s+ha\\s+riso\\b",
"\\b{name}\\s+ha\\s+sorriso\\b",
"\\b{name}\\s+ha\\s+pianto\\b",
"\\b{name}\\s+ha\\s+sentito\\b",
"\\b{name}\\s+pensa\\b",
"\\b{name}\\s+vuole\\b",
"\\b{name}\\s+ama\\b",
"\\b{name}\\s+odia\\b",
"\\b{name}\\s+sa\\b",
"\\b{name}\\s+ha\\s+deciso\\b",
"\\b{name}\\s+ha\\s+scritto\\b"
],
"pronoun_patterns": [
"\\blei\\b",
"\\blui\\b",
"\\bloro\\b",
"\\bgli\\b",
"\\ble\\b"
],
"dialogue_patterns": [
"^>\\s*{name}[:\\s]",
"^{name}:\\s",
"^\\[{name}\\]",
"\"{name}\\s+ha\\s+detto"
],
"direct_address_pattern": "\\bciao\\s+{name}\\b|\\bgrazie\\s+{name}\\b|\\bsalve\\s+{name}\\b|\\bcaro\\s+{name}\\b|\\bcara\\s+{name}\\b",
"project_verb_patterns": [
"\\bstiamo\\s+costruendo\\s+{name}\\b",
"\\babbiamo\\s+costruito\\s+{name}\\b",
"\\bstiamo\\s+lanciando\\s+{name}\\b",
"\\babbiamo\\s+lanciato\\s+{name}\\b",
"\\babbiamo\\s+distribuito\\s+{name}\\b",
"\\babbiamo\\s+installato\\s+{name}\\b",
"\\bil\\s+progetto\\s+{name}\\b",
"\\bil\\s+sistema\\s+{name}\\b",
"\\bimport\\s+{name}\\b",
"\\bpip\\s+install\\s+{name}\\b"
],
"stopwords": [
"ciao",
"salve",
"grazie",
"prego",
"sì",
"si",
"no",
"forse",
"qui",
"qua",
"lì",
"oggi",
"ieri",
"domani",
"sempre",
"mai",
"ancora",
"anche",
"molto",
"poco",
"bene",
"male",
"così",
"poi",
"prima",
"dopo",
"tra",
"fra",
"con",
"senza",
"per",
"verso",
"contro",
"durante",
"mentre",
"sopra",
"sotto",
"oltre",
"oppure",
"ma",
"però",
"tuttavia",
"anche",
"se",
"quando",
"finché",
"perché",
"quindi",
"dunque",
"allora",
"forse",
"magari",
"abbiamo",
"stiamo",
"essere",
"avere",
"sono",
"sei",
"siamo",
"siete",
"era",
"erano",
"stato",
"stata",
"questo",
"questa",
"questi",
"queste",
"quello",
"quella",
"quelli",
"quelle",
"mio",
"mia",
"miei",
"mie",
"tuo",
"tua",
"tuoi",
"tue",
"suo",
"sua",
"suoi",
"sue",
"nostro",
"nostra",
"nostri",
"nostre",
"vostro",
"vostra",
"vostri",
"vostre",
"loro"
]
}
}