|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
주요 목표는 다음 식별자 중 하나를 통해 각 문서와 연관된 클라이언트를 식별하는 것이었습니다.
The goal was to extract client names from legal documents using Named Entity Recognition (NER). Here's how I approached the task:
목표는 NER(Named Entity Recognition)를 사용하여 법적 문서에서 고객 이름을 추출하는 것이었습니다. 제가 이 작업에 접근한 방법은 다음과 같습니다.
Data: I had a collection of legal documents in PDF format. The task was to identify the clients mentioned in each document using one of the following identifiers:
데이터: PDF 형식의 법률 문서 모음이 있었습니다. 임무는 다음 식별자 중 하나를 사용하여 각 문서에 언급된 고객을 식별하는 것이었습니다.
Approximate client name (e.g., "John Doe")
대략적인 고객 이름(예: "John Doe")
Precise client name (e.e., "Doe, John A.")
정확한 고객 이름(예: "Doe, John A.")
Approximate firm name (e.g., "Doe Law Firm")
대략적인 회사 이름(예: "Doe Law Firm")
Precise firm name (e.g., "Doe, John A. Law Firm")
정확한 회사 이름(예: "Doe, John A. Law Firm")
About 5% of the documents didn't include any identifying entities.
문서의 약 5%에는 식별 가능한 개체가 포함되어 있지 않았습니다.
Dataset: For developing the model, I used 710 "true" PDF documents, which were split into three sets: 600 for training, 55 for validation, and 55 for testing.
데이터 세트: 모델 개발을 위해 710개의 "진짜" PDF 문서를 사용했는데, 이 문서는 훈련용 600개, 검증용 55개, 테스트용 55개의 세 세트로 나뉩니다.
Labels: I was given an Excel file with entities extracted as plain text, which needed to be manually labeled in the document text. Using the BIO tagging format, I performed the following steps:
라벨: 문서 텍스트에서 수동으로 라벨을 지정해야 하는 일반 텍스트로 추출된 엔터티가 포함된 Excel 파일을 받았습니다. BIO 태깅 형식을 사용하여 다음 단계를 수행했습니다.
Mark the beginning of an entity with "B-
엔터티의 시작을 "B-"로 표시합니다.
Continue marking subsequent tokens within the same entity with "I-
동일한 엔터티 내의 후속 토큰을 "I-"로 계속 표시합니다.
If a token doesn't belong to any entity, mark it as "O".
토큰이 어떤 엔터티에도 속하지 않으면 "O"로 표시하세요.
Alternative Approach: Models like LayoutLM, which also consider bounding boxes for input tokens, could potentially enhance the performance of the NER task. However, I opted not to use this approach because, as is often the case, I had already spent the majority of the project time on preparing the data (e.g., reformatting Excel files, correcting data errors, labeling). To integrate bounding box-based models, I would have needed to allocate even more time.
대체 접근 방식: 입력 토큰에 대한 경계 상자도 고려하는 LayoutLM과 같은 모델은 잠재적으로 NER 작업의 성능을 향상시킬 수 있습니다. 그러나 나는 종종 그렇듯이 프로젝트 시간의 대부분을 데이터 준비(예: Excel 파일 형식 재지정, 데이터 오류 수정, 레이블 지정)에 이미 소비했기 때문에 이 접근 방식을 사용하지 않기로 결정했습니다. 경계 상자 기반 모델을 통합하려면 더 많은 시간을 할당해야 했습니다.
While regex and heuristics could theoretically be applied to identify these simple entities, I anticipated that this approach would be impractical, as it would necessitate overly complex rules to precisely identify the correct entities among other potential candidates (e.g., lawyer name, case number, other participants in the proceedings). In contrast, the model is capable of learning to distinguish the relevant entities, rendering the use of heuristics superfluous.
이론적으로 정규 표현식과 휴리스틱을 적용하여 이러한 간단한 엔터티를 식별할 수 있지만 다른 잠재적 후보자(예: 변호사 이름, 사건 번호, 기타) 중에서 올바른 엔터티를 정확하게 식별하려면 지나치게 복잡한 규칙이 필요하기 때문에 이 접근 방식은 비실용적일 것이라고 예상했습니다. 절차 참가자). 대조적으로, 모델은 관련 엔터티를 구별하는 방법을 학습할 수 있으므로 휴리스틱 사용이 불필요해집니다.
부인 성명:info@kdj.com
제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!
본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.
-
- Rexas Finance(RXS) – Cardano(ADA)를 능가할 수 있는 잠재적인 18,777% 수익의 이더리움 기반 DeFi 프로젝트
- 2024-11-19 09:15:14
- 지난 몇 달 동안 강력한 증가 추세를 보이면서 Cardano(ADA)는 암호화폐 시장에서 인기를 얻고 있습니다. 기본 개발과 새로운 투자자 관심이 혼합되어 이러한 눈에 띄는 증가는 Cardano가 포물선 급등에 접근하고 있음을 나타냅니다. 그러나 Cardano가 큰 성과를 거둘 준비를 하고 있다고 해도 RXS(Rexas Finance)라는 Ethereum 기반 DeFi 프로젝트가 다음 주에 18,777%의 수익을 올릴 것으로 예상됩니다.
-
- Lunex Network (LNEX) - DeFi 투자를 위한 최고의 선택
- 2024-11-19 08:40:15
- DeFi 암호화폐 투자가 급증함에 따라 Polygon Labs, Lunex Network 및 Solana와 같은 프로젝트는 중요한 개발과 사용자 참여 증가로 투자자의 관심을 끌고 있습니다. 새로운 기능, 전략적 파트너십 및 유망한 사전 판매 토큰 제공을 통해 각 플랫폼은 진화하는 DeFi 환경에서 고유한 강점을 보여줍니다. 여기에서는 Lunex Network, Polygon Labs 및 Solana의 최신 업데이트를 분석하여 Lunex Network가 오늘날 최고의 DeFi 투자 기회가 될 수 있는 이유를 밝힐 것입니다.