Beiträge von Volker22

Volker22 · 25. Oktober 2017

Also der Levenshtein-Algorithmus funktioniert mit Teststrings wunderbar und liefert ein gutes Ergebnis.
Ich versuche nun die Werte einer Spalte abzugleichen, das sieht momentan so aus:

Code

Sub Initialize
	Dim s As New NotesSession
	Dim db As NotesDatabase
	Dim view As NotesView
	Dim doc As NotesDocument
	Dim doc_temp As NotesDocument
	Dim counter As Long
	Dim result As long
	Dim string1 As String
	Dim string2 As String
	'string1 = "Testabcdef"
	'string2 = "Testacdef"


	Set db = s.CurrentDatabase
	Set view = db.getview("Adressen")
	Set doc = view.GetFirstDocument
	While Not (doc Is Nothing)
		Set doc_temp = view.GetNextDocument(doc)
		result = Levenshtein3(doc.Columnvalues(4), doc_temp.ColumnValues(4))
		Print "Die Übereinstimmung beträgt"result"%"
		counter = counter+1
		If (counter < 20) Then
			Exit Sub
		End If


	Wend	
End Sub

Alles anzeigen

Bekomme beim Ausführen die Fehlermeldung "Division by zero", was ich mir nicht so recht erklären kann.

Ziel ist eigentlich nur noch Wert 1 aus Spalte 5 mit Wert 2 aus Spalte 5 / Wert 2 mit Wert 3 usw. zu vergleichen.

Dann kann ich mir alle Dokumente über einem gewissen Schwellwert ausgeben lassen und das Problem wäre erledigt.
(zumindest mein Anteil des Problems )

Volker22 · 24. Oktober 2017

Zitat von RockWilder

b) alle Docs angepackt werden, was zum Einen die Docs selbst verändert (ist mglw. nicht gewünscht) und zum Anderen einen großen Replizieraufwand nach sich zieht. Das selbe hinterher, wenn du nach der Bereinigung die Flags wieder rausnimmst.

durch das Flag setzen werden die Docs doch nicht wirklich verändert oder? Teilweise hängen da wichtige "Aktivitäten" drann, die nicht verloren gehen sollen. Aber wie du schon sagst müssen die Einträge ja eh von den Verursachern manuell überprüft werden, solange da also nichts verloren geht wäre das also kein Problem. Ich teste das auch vorerst an einer Kopie der Datenbank.

Noch eine dumme Frage: Kann ich die @Befehle auch einfach in einer neuen View verwenden oder müssen die in einen Agenten?
In einer View würde ja eh nichts passieren können eigentlich...

Volker22 · 23. Oktober 2017

Zitat von RockWilder

Hast du dir mal die @Like- und @Matches- Operatoren angeschaut? Die können in gewissen Grenzen Regexp ... zwar nicht ganz so, wie man es von den meisten Tools auf unixoiden Systemen gewohnt ist, aber für den geschilderten Einsatzbereich sollte das (vorerst) ausreichen.

@like habe ich mir schon angeschaut, @matches kannte ich tatsächlich noch nicht, das klingt allerdings ziemlich interessant.
Wobei ich nicht wirklich wüsste wie die Logik hinter @matches für mein Problem aussehen sollte..

Volker22 · 23. Oktober 2017

Zitat von Tode

Diese Funktion gibt es nicht. Das musst Du Dir selbst schreiben, oder auf fertige Lösungen zurückgreifen.

Um konkreter zu werden (habe mal kurz aus Interesse gegoogelt) suchst Du nach einer VB- Implementierung des Levenstein- Distanz- Algorithmus
Also z.B. diese:

Vielen Dank, glaube das hilft mir schon weiter !

Zitat von RockWilder

Woher soll der Code wissen, dass "Volker22" und "Volker21" entweder zwei verschiedene Personen sind oder die selbe mit Typo? Woher soll der Code wissen, ob (hier bei uns) die "Dudweiler Straße" und die "Dudweiler Landstraße" wirklich an zwei Ecken der Stadt liegen, oder ob eins davon eine Falscheingabe war?

Der Code soll es nicht "wissen" und eigenständig Dokumente löschen sondern Einträge die sehr ähnlich sind einfach nur ausgeben damit diese manuell im Quellsystem bereinigt werden können. In der DB sind mehr als 10.000 Einträge deswegen ist im Prinzip eine automatisierte Eingrenzung nötig. An den Einträgen hängen auch wichtige Dokumente, d.h. es müsste sowieso händisch überprüft werden. Das durchscrollen bei 10.000 Einträgen dauert nur einfach doch etwas zu lange, deswegen will ich eine Vorauswahl durch den Agenten. Sorry wenn ich das nicht detailliert genug beschrieben habe.

Volker22 · 23. Oktober 2017

Ja, der Ähnlichkeits- Algorithmus ist mein Ziel. Würde das ungern mit Formelsprache lösen.
Die Frage ist eigentlich mit welchen Funktionen ich auf eine bestimmte Anzahl unterschiedlicher/zusätzlicher Zeichen prüfen kann.

Volker22 · 23. Oktober 2017

Hallo Leute,

Ich bin neu hier und grüße euch erst mal ganz herzlich. Bin Student und beschäftige mich erst seit kurzem mit Notes, komme eher aus dem Java Umfeld.

Ich schreibe zur Zeit einen Agenten, der sich Dubletten vornimmt. Ich bin soweit, dass er in einer Spalte nach gleichen Einträgen sucht. Nun möchte ich einen Abgleich hinzufügen: der Agent soll mir sozusagen Einträge ausspucken bei denen sich nur 1-4 Zeichen in der Adresse unterscheiden.

Hintergrund sind doppelte Einträge, die entstanden sind weil im Quellsystem beispielsweise ein Buchstabe falsch geschrieben wurde.

Bin über jede Hilfe sehr dankbar. :]

Beiträge von Volker22

Dubletten Agent

Dubletten Agent

Dubletten Agent

Dubletten Agent

Dubletten Agent

Dubletten Agent