Beiträge von Volker22

    Also der Levenshtein-Algorithmus funktioniert mit Teststrings wunderbar und liefert ein gutes Ergebnis.
    Ich versuche nun die Werte einer Spalte abzugleichen, das sieht momentan so aus:


    Bekomme beim Ausführen die Fehlermeldung "Division by zero", was ich mir nicht so recht erklären kann.


    Ziel ist eigentlich nur noch Wert 1 aus Spalte 5 mit Wert 2 aus Spalte 5 / Wert 2 mit Wert 3 usw. zu vergleichen.


    Dann kann ich mir alle Dokumente über einem gewissen Schwellwert ausgeben lassen und das Problem wäre erledigt.
    (zumindest mein Anteil des Problems :) )

    b) alle Docs angepackt werden, was zum Einen die Docs selbst verändert (ist mglw. nicht gewünscht) und zum Anderen einen großen Replizieraufwand nach sich zieht. Das selbe hinterher, wenn du nach der Bereinigung die Flags wieder rausnimmst.

    durch das Flag setzen werden die Docs doch nicht wirklich verändert oder? Teilweise hängen da wichtige "Aktivitäten" drann, die nicht verloren gehen sollen. Aber wie du schon sagst müssen die Einträge ja eh von den Verursachern manuell überprüft werden, solange da also nichts verloren geht wäre das also kein Problem. Ich teste das auch vorerst an einer Kopie der Datenbank.


    Noch eine dumme Frage: Kann ich die @Befehle auch einfach in einer neuen View verwenden oder müssen die in einen Agenten?
    In einer View würde ja eh nichts passieren können eigentlich...

    Hast du dir mal die @Like- und @Matches- Operatoren angeschaut? Die können in gewissen Grenzen Regexp ... zwar nicht ganz so, wie man es von den meisten Tools auf unixoiden Systemen gewohnt ist, aber für den geschilderten Einsatzbereich sollte das (vorerst) ausreichen.

    @like habe ich mir schon angeschaut, @matches kannte ich tatsächlich noch nicht, das klingt allerdings ziemlich interessant.
    Wobei ich nicht wirklich wüsste wie die Logik hinter @matches für mein Problem aussehen sollte..

    Diese Funktion gibt es nicht. Das musst Du Dir selbst schreiben, oder auf fertige Lösungen zurückgreifen.


    Um konkreter zu werden (habe mal kurz aus Interesse gegoogelt) suchst Du nach einer VB- Implementierung des Levenstein- Distanz- Algorithmus
    Also z.B. diese:

    Vielen Dank, glaube das hilft mir schon weiter !




    Woher soll der Code wissen, dass "Volker22" und "Volker21" entweder zwei verschiedene Personen sind oder die selbe mit Typo? Woher soll der Code wissen, ob (hier bei uns) die "Dudweiler Straße" und die "Dudweiler Landstraße" wirklich an zwei Ecken der Stadt liegen, oder ob eins davon eine Falscheingabe war?


    Der Code soll es nicht "wissen" und eigenständig Dokumente löschen sondern Einträge die sehr ähnlich sind einfach nur ausgeben damit diese manuell im Quellsystem bereinigt werden können. In der DB sind mehr als 10.000 Einträge deswegen ist im Prinzip eine automatisierte Eingrenzung nötig. An den Einträgen hängen auch wichtige Dokumente, d.h. es müsste sowieso händisch überprüft werden. Das durchscrollen bei 10.000 Einträgen dauert nur einfach doch etwas zu lange, deswegen will ich eine Vorauswahl durch den Agenten. :) Sorry wenn ich das nicht detailliert genug beschrieben habe.

    Ja, der Ähnlichkeits- Algorithmus ist mein Ziel. Würde das ungern mit Formelsprache lösen.
    Die Frage ist eigentlich mit welchen Funktionen ich auf eine bestimmte Anzahl unterschiedlicher/zusätzlicher Zeichen prüfen kann.

    Hallo Leute,


    Ich bin neu hier und grüße euch erst mal ganz herzlich. Bin Student und beschäftige mich erst seit kurzem mit Notes, komme eher aus dem Java Umfeld.


    Ich schreibe zur Zeit einen Agenten, der sich Dubletten vornimmt. Ich bin soweit, dass er in einer Spalte nach gleichen Einträgen sucht. Nun möchte ich einen Abgleich hinzufügen: der Agent soll mir sozusagen Einträge ausspucken bei denen sich nur 1-4 Zeichen in der Adresse unterscheiden.


    Hintergrund sind doppelte Einträge, die entstanden sind weil im Quellsystem beispielsweise ein Buchstabe falsch geschrieben wurde.


    Bin über jede Hilfe sehr dankbar. :]