Sprache eingehender Mails erkennen?

Postfix, QMail, Sendmail, Dovecot, Cyrus, Courier, Anti-Spam
monotek
Posts: 64
Joined: 2003-08-26 23:23
Location: Dresden

Sprache eingehender Mails erkennen?

Post by monotek » 2005-09-20 18:56

Für ein Ticket System möchte ich bei eingehenden Mails gern die Sprache erkennen, um eine der Sprache entsprechende Autoantwort verschicken zu können.

Leider hab ich im Netz nicht viel über NLP (Natural Language
Processing) gefunden. Vielleicht hat das ja schon mal jemand
realisiert? Meine erste Idee war Spamassassin / Procmail dafür zu nutzen.
Spamassissin hat ja die Erkennung der Sprache imho schon implementiert.

Wenn jemand dazu ein paar Tipps bzw. Lösungsansätze geben kann, würde
mir das schon sehr helfen. Ansonsten muss ich mich halt komplett
allein drauf stürzen, was dann aber sicherlich wieder ne menge Zeit
verschlingen würde, die ich natürlich nicht habe *g*

dodolin
RSAC
Posts: 4009
Joined: 2003-01-21 01:59
Location: Sinsheim/Karlsruhe

Re: Sprache eingehender Mails erkennen?

Post by dodolin » 2005-09-20 21:41

Als einfache Loesung des Problems wuerde ich an deiner Stelle einfach den Autoresponder mit einem kurzen Text in jeder Sprache versehen. Schon so gesehen in vielen Anwendungen.

monotek
Posts: 64
Joined: 2003-08-26 23:23
Location: Dresden

Re: Sprache eingehender Mails erkennen?

Post by monotek » 2005-09-21 10:56

Eben das möchte ich gern vermeiden, da der erklärende Text, warum die Ticket ID nicht verändert werden darf, leider eindeutig genug für den Kunden sein muss. Außerdem handelt es sich um 6 Sprachen und es könnten in der Zukunft noch mehr werden, was den Umfang so einer Mail noch zusätzlich vergrößert. Leider mussten wir auch die Erfahrung machen, dass die Kunden es in vielen Fällen nicht akzeptieren, Mails mit mehrsprachigem Inhalt zu bekommen.

monotek
Posts: 64
Joined: 2003-08-26 23:23
Location: Dresden

Re: Sprache eingehender Mails erkennen?

Post by monotek » 2005-10-04 14:17

Falls es noch jemanden interessiert...

"mguesser" kann sowas. Allerdings sollten die Texte ne gewisse Länge haben, damit es zuverlässig funktioniert...

dodolin
RSAC
Posts: 4009
Joined: 2003-01-21 01:59
Location: Sinsheim/Karlsruhe

Re: Sprache eingehender Mails erkennen?

Post by dodolin » 2005-10-05 00:59

Was mir gerade noch dazu einfaellt: Man koennte einen bayesischen Filter benutzen, der mehrere Kategorien als nur "Spam" und "Nicht Spam" kennt, wie z.B. CRM114.

monotek
Posts: 64
Joined: 2003-08-26 23:23
Location: Dresden

Re: Sprache eingehender Mails erkennen?

Post by monotek » 2005-10-06 22:25

Danke. Wurde mir an anderer Stelle auch schon empfohlen.
Werd ich aber erst angehn können, wenn ich mal Zeit habe mich da durchzukämpfen...

Falls noch jemand was kennt, dass out of the box funktioniert --> melden bitte!

Ich werd derweil mal sehn ob man mit text_cat was anfangen kann...

http://odur.let.rug.nl/~vannoord/TextCat/