Parę słów o takiej regule która wykrywa przypadkowy ciag znaków w adresie (np w loginie). jak to robi? Dośc prosto. Szuka ciągu kolejnych społgłosek. W „przyrodzie” nie występują takie słowa dość często. Pięc kolejnych spółgłosek cięzko to wymówić (no chyba, że jesteś Serbem:)))
Mogą się pojawić false positive ponieważ czesto w powiadomieniach w loginie sa przypadkowe ciągi liten aby pole From bylo unikalne (np facebook tak ma). Jak tego uzywac? Juz jest reguła HK_RANDOM_ENVFROM. Szuka ona ciągów społgłosek lub samogłosek. Wg mnie ma za niską punktację.
score HK_RANDOM_ENVFROM 2.638 0.626 1.798 0.001
Przypominając taki zapis oznacza, że
- 2.638 punktu jeśli Bayes i sieciowe testy wyłączone
- 0.626 punktu jeśli Bayes wyłączony a sieciowe włączone
- 1.798 punktu jeśli Bayes włączony a sieciowe testy wyłączone
- 0.001 punktu jeśli oba włączone
naprawde ten test działa pomaga wychwytywac spam. Dobrym pomyslem jest podnieśc punktację aby ostatnia nie byla tak niska czyli
score HK_RANDOM_ENVFROM 2.638 0.626 1.798 1
A gdyby ktoś chciał sam komibować i cos stworzyć to tu coś na dobry początek.Oczywiście możemy stworzyć wlasną regułe bo przeciez po to jest ta strona:)
header __ZABOJCASPAMU_RANDOM_STRING_1 From:addr =~ /[bcdfghjklmnprstwqz]{6}/ header __ZABOJCASPAMU_RANDOM_STRING_2 From:addr =~ /[aeyioou]{6}/ meta ZABOJCASPAMU_RANDOM_STRING __ZABOJCASPAMU_RANDOM_STRING_1 || __ZABOJCASPAMU_RANDOM_STRING_2 describe ZABOJCASPAMU_RANDOM_STRING Random string in address score ZABOJCASPAMU_RANDOM_STRING 0.1
Reguła wychwytuje nieraz to co HK_RANDOM_ENVFROM nie wychwyci. Dobry punkt wyjścia przed zaczęciem dalszych testów. Szukać mozna ciągów społgłosek samogłosek przed znakiem @ itd
Dobry pomysł.