|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
主な目的は、次のいずれかの識別子を使用して、各ドキュメントに関連付けられたクライアントを識別することでした。
The goal was to extract client names from legal documents using Named Entity Recognition (NER). Here's how I approached the task:
目標は、Named Entity Recognition (NER) を使用して法的文書からクライアント名を抽出することでした。私がこのタスクにどのように取り組んだかは次のとおりです。
Data: I had a collection of legal documents in PDF format. The task was to identify the clients mentioned in each document using one of the following identifiers:
データ: PDF 形式の法的文書のコレクションがありました。このタスクは、次のいずれかの識別子を使用して、各文書で言及されているクライアントを識別することでした。
Approximate client name (e.g., "John Doe")
おおよそのクライアント名 (例: "John Doe")
Precise client name (e.e., "Doe, John A.")
正確なクライアント名 (つまり、「Doe, John A.」)
Approximate firm name (e.g., "Doe Law Firm")
おおよその事務所名 (例: 「Doe Law Firm」)
Precise firm name (e.g., "Doe, John A. Law Firm")
正確な事務所名 (例: 「Doe, John A. Law Firm」)
About 5% of the documents didn't include any identifying entities.
文書の約 5% には、特定の実体が含まれていませんでした。
Dataset: For developing the model, I used 710 "true" PDF documents, which were split into three sets: 600 for training, 55 for validation, and 55 for testing.
データセット: モデルの開発には、710 個の「本物の」PDF ドキュメントを使用しました。これらは 3 つのセットに分割されました。トレーニング用に 600 個、検証用に 55 個、テスト用に 55 個です。
Labels: I was given an Excel file with entities extracted as plain text, which needed to be manually labeled in the document text. Using the BIO tagging format, I performed the following steps:
ラベル: プレーン テキストとして抽出されたエンティティを含む Excel ファイルが渡されたため、文書テキスト内で手動でラベルを付ける必要がありました。 BIO タグ付け形式を使用して、次の手順を実行しました。
Mark the beginning of an entity with "B-
エンティティの先頭には「B-」を付けます。
Continue marking subsequent tokens within the same entity with "I-
同じエンティティ内の後続のトークンに「I-」のマークを付け続けます。
If a token doesn't belong to any entity, mark it as "O".
トークンがどのエンティティにも属さない場合は、「O」とマークします。
Alternative Approach: Models like LayoutLM, which also consider bounding boxes for input tokens, could potentially enhance the performance of the NER task. However, I opted not to use this approach because, as is often the case, I had already spent the majority of the project time on preparing the data (e.g., reformatting Excel files, correcting data errors, labeling). To integrate bounding box-based models, I would have needed to allocate even more time.
代替アプローチ: 入力トークンの境界ボックスも考慮する LayoutLM のようなモデルは、NER タスクのパフォーマンスを向上させる可能性があります。ただし、よくあることですが、すでにプロジェクト時間の大部分をデータの準備 (Excel ファイルの再フォーマット、データ エラーの修正、ラベル付けなど) に費やしていたので、私はこのアプローチを使用しないことにしました。バウンディング ボックス ベースのモデルを統合するには、さらに多くの時間を割り当てる必要がありました。
While regex and heuristics could theoretically be applied to identify these simple entities, I anticipated that this approach would be impractical, as it would necessitate overly complex rules to precisely identify the correct entities among other potential candidates (e.g., lawyer name, case number, other participants in the proceedings). In contrast, the model is capable of learning to distinguish the relevant entities, rendering the use of heuristics superfluous.
正規表現とヒューリスティックを理論的にはこれらの単純なエンティティを識別するために適用できますが、他の潜在的な候補の中から正しいエンティティ (弁護士名、事件番号、その他のエンティティなど) を正確に識別するには過度に複雑なルールが必要になるため、このアプローチは実用的ではないと予想していました。議事の参加者)。対照的に、モデルは関連するエンティティを区別することを学習できるため、ヒューリスティックの使用が不要になります。
免責事項:info@kdj.com
提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。
このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。
-
- Rexas Finance (RXS) – Cardano (ADA) を上回る可能性のある 18,777% の収益が期待できるイーサリアムベースの DeFi プロジェクト
- 2024-11-19 09:15:14
- 過去数か月にわたる強い増加傾向により、カルダノ (ADA) は暗号通貨市場でかなり人気が高まっています。基本的な開発と新たな投資家の関心の組み合わせによって推進され、これらの傑出した上昇は、カルダノが放物線状の急上昇に近づいていることを示しています。しかし、カルダノでさえ素晴らしい業績に向けて準備を進めており、レクサス・ファイナンス(RXS)と呼ばれるイーサリアムベースのDeFiプロジェクトが、今後数週間のうちに18,777%の収益が見込まれるステージに上がる可能性がある。