|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nachrichtenartikel zu Kryptowährungen
Identifizieren des mit einem Rechtsdokument verbundenen Kunden
Nov 19, 2024 at 05:02 am
Das Hauptziel bestand darin, den/die mit jedem Dokument verbundenen Kunden anhand einer der folgenden Kennungen zu identifizieren:
The goal was to extract client names from legal documents using Named Entity Recognition (NER). Here's how I approached the task:
Ziel war es, mithilfe der Named Entity Recognition (NER) Mandantennamen aus juristischen Dokumenten zu extrahieren. So bin ich an die Aufgabe herangegangen:
Data: I had a collection of legal documents in PDF format. The task was to identify the clients mentioned in each document using one of the following identifiers:
Daten: Ich hatte eine Sammlung juristischer Dokumente im PDF-Format. Die Aufgabe bestand darin, die in jedem Dokument genannten Kunden anhand einer der folgenden Kennungen zu identifizieren:
Approximate client name (e.g., "John Doe")
Ungefährer Name des Kunden (z. B. „John Doe“)
Precise client name (e.e., "Doe, John A.")
Präziser Kundenname (ee, „Doe, John A.“)
Approximate firm name (e.g., "Doe Law Firm")
Ungefährer Firmenname (z. B. „Doe Law Firm“)
Precise firm name (e.g., "Doe, John A. Law Firm")
Präziser Firmenname (z. B. „Doe, John A. Law Firm“)
About 5% of the documents didn't include any identifying entities.
Etwa 5 % der Dokumente enthielten keine identifizierenden Personen.
Dataset: For developing the model, I used 710 "true" PDF documents, which were split into three sets: 600 for training, 55 for validation, and 55 for testing.
Datensatz: Für die Entwicklung des Modells habe ich 710 „echte“ PDF-Dokumente verwendet, die in drei Sätze aufgeteilt wurden: 600 für das Training, 55 für die Validierung und 55 für Tests.
Labels: I was given an Excel file with entities extracted as plain text, which needed to be manually labeled in the document text. Using the BIO tagging format, I performed the following steps:
Beschriftungen: Ich erhielt eine Excel-Datei mit als Klartext extrahierten Entitäten, die manuell im Dokumenttext beschriftet werden mussten. Unter Verwendung des BIO-Tagging-Formats habe ich die folgenden Schritte ausgeführt:
Mark the beginning of an entity with "B-
Markieren Sie den Anfang einer Entität mit „B-“.
Continue marking subsequent tokens within the same entity with "I-
Markieren Sie nachfolgende Token innerhalb derselben Entität weiterhin mit „I-“.
If a token doesn't belong to any entity, mark it as "O".
Wenn ein Token zu keiner Entität gehört, markieren Sie es als „O“.
Alternative Approach: Models like LayoutLM, which also consider bounding boxes for input tokens, could potentially enhance the performance of the NER task. However, I opted not to use this approach because, as is often the case, I had already spent the majority of the project time on preparing the data (e.g., reformatting Excel files, correcting data errors, labeling). To integrate bounding box-based models, I would have needed to allocate even more time.
Alternativer Ansatz: Modelle wie LayoutLM, die auch Begrenzungsrahmen für Eingabetokens berücksichtigen, könnten möglicherweise die Leistung der NER-Aufgabe verbessern. Ich habe mich jedoch gegen diesen Ansatz entschieden, da ich, wie so oft, bereits den Großteil der Projektzeit mit der Aufbereitung der Daten verbracht hatte (z. B. Excel-Dateien neu formatieren, Datenfehler korrigieren, Beschriftung). Um Bounding-Box-basierte Modelle zu integrieren, hätte ich noch mehr Zeit einplanen müssen.
While regex and heuristics could theoretically be applied to identify these simple entities, I anticipated that this approach would be impractical, as it would necessitate overly complex rules to precisely identify the correct entities among other potential candidates (e.g., lawyer name, case number, other participants in the proceedings). In contrast, the model is capable of learning to distinguish the relevant entities, rendering the use of heuristics superfluous.
Während Regex und Heuristik theoretisch zur Identifizierung dieser einfachen Entitäten eingesetzt werden könnten, ging ich davon aus, dass dieser Ansatz unpraktisch wäre, da übermäßig komplexe Regeln erforderlich wären, um die richtigen Entitäten unter anderen potenziellen Kandidaten (z. B. Name des Anwalts, Fallnummer usw.) genau zu identifizieren Teilnehmer des Verfahrens). Im Gegensatz dazu kann das Modell lernen, die relevanten Entitäten zu unterscheiden, wodurch der Einsatz von Heuristiken überflüssig wird.
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
- Rexas Finance (RXS) – Ein auf Ethereum basierendes DeFi-Projekt mit potenzieller Rendite von 18.777 %, das Cardano (ADA) in den Schatten stellen könnte
- Nov 19, 2024 at 09:15 am
- Mit einer starken Aufwärtstendenz in den letzten Monaten erfreut sich Cardano (ADA) auf dem Kryptomarkt zunehmender Beliebtheit. Angetrieben durch eine Mischung aus grundlegender Entwicklung und neuem Investoreninteresse deuten diese herausragenden Steigerungen darauf hin, dass Cardano sich einem parabolischen Anstieg nähert. Aber auch Cardano bereitet sich auf einen großen Lauf vor, ein auf Ethereum basierendes DeFi-Projekt namens Rexas Finance (RXS) könnte in den nächsten Wochen mit einer prognostizierten Rendite von 18.777 % auf den Markt kommen.
-
- MicroStrategy beschafft 1,75 Milliarden US-Dollar aus zinslosen Senior Convertible Notes, um mehr Bitcoin zu kaufen
- Nov 19, 2024 at 09:11 am
- MicroStrategy, der größte Unternehmensinhaber von Bitcoin, wird 1,75 Milliarden US-Dollar aufbringen, um mehr Bitcoin aus vorrangigen Wandelanleihen zu einem Zinssatz von 0 % zu kaufen.
-
- Wall-Street-Giganten wie Vanguard und Morgan Stanley kaufen Aktien von MicroStrategy (MSTR) ein, während Bitcoin (BTC) in die Höhe schnellt
- Nov 19, 2024 at 09:11 am
- Das Business-Intelligence-Unternehmen MicroStrategy galt als eine Art Bitcoin-Proxy, seit es im August 2020 zum führenden Unternehmensinhaber von Bitcoin wurde.
-
- Bitcoin-Miner und Langzeitbesitzer bereiten sich auf eine Marktkorrektur vor, da Bitcoin in die Zone der „extremen Gier“ eintritt
- Nov 19, 2024 at 09:11 am
- Bitcoin ist kürzlich in die Zone der „extremen Gier“ eingetreten, die viele als „extreme Gier“ bezeichnen, wie im Fear and Greed Index zu sehen ist.
-
- SUI-Token hat die 4-Dollar-Marke im Visier, während Cardano-Gründer Charles Hoskinson Netzwerkinnovationen lobt
- Nov 19, 2024 at 08:40 am
- Der native Token der Layer-1-Blockchain, Sui, erlebte im Laufe des Monats einen parabolischen Anstieg und gab seine monatelange Underperformance auf, um neue Gewinne zu erzielen.
-
- Paul Tudor Jones erweitert seine Bitcoin-Wette und macht sie zur drittgrößten Nicht-Options-Position in seinem Portfolio
- Nov 19, 2024 at 08:40 am
- Der milliardenschwere Hedgefonds-Manager Paul Tudor Jones hat seinen Anteil an Bitcoin-BTC/USD-gebundenen Finanzinstrumenten deutlich ausgeweitet und damit sein anhaltendes Vertrauen in das Potenzial der Kryptowährung unterstrichen.
-
- Lunex Network (LNEX) – Die erste Wahl für DeFi-Investitionen
- Nov 19, 2024 at 08:40 am
- Während die Investitionen in DeFi-Kryptowährungen zunehmen, ziehen Projekte wie Polygon Labs, Lunex Network und Solana mit bedeutenden Entwicklungen und wachsendem Benutzerengagement die Aufmerksamkeit der Anleger auf sich. Mit neuen Funktionen, strategischen Partnerschaften und vielversprechenden Vorverkaufs-Token-Angeboten stellt jede Plattform ihre einzigartigen Stärken in der sich entwickelnden DeFi-Landschaft unter Beweis. Hier werden wir die neuesten Updates von Lunex Network, Polygon Labs und Solana aufschlüsseln und verraten, warum Lunex Network heute die beste DeFi-Investitionsmöglichkeit sein könnte.