정규 표현식(RegEx)은 문자열 검색 알고리즘이 문자열 "찾기" 또는 "찾기 및 바꾸기" 작업을 위해 사용하는 검색 패턴을 정의할 수 있는 특수 텍스트 문자열입니다. 정규 표현식의 몇 가지 기본 사항은 여기서 확인할 수 있습니다.
Octoparse에서는 RegEx를 사용하여 필드 값의 문자를 찾거나 바꾸어 추출된 데이터를 직접 정리할 수 있습니다.
Octoparse RegEx 도구는 다양한 기준을 설정하여 정규식을 자동으로 생성하는 편리한 내장 도구입니다. 정규 표현식을 만드는 전문 방법에 대해 모르는 경우 RegEx 도구가 특히 유용하게 쓰일 것입니다.
RegEx 도구는 어디서 찾을 수 있습니까?
Octoparse에서는 두 가지 방법으로 RegEx 도구에 액세스할 수 있습니다.
1. 데이터 정제 옵션에서
커스텀할 데이터 필드 선택
"..."을 클릭하고 "데이터 정제하기" 선택
"보조 추가하기" 누름
"정규표현식으로 대체하기"/"정규표현식으로 매치하기" 선택
2. 사이드바 내비게이션 하단에서
사이드바 내비게이션 하단에서 "도구" 아이콘 선택
"RegEx Tool" 클릭
RegEx 도구의 인터페이스 이해하기
8.8.0 버전 이후
1. 자주 쓰는 정규식
자주 쓰는 정규식에서 사용자분이 자주 사용하는 정규 표현식들이 미리 모아놓고 바로 사용할 수 있도록 준비해 드렸습니다. 이메일, 전화번호, URL, 특정한 날짜 형식 등 필요한 패턴을 찾아보거나 검색하여 활용할 수 있습니다. 별도로 정규식을 작성할 필요 없이, 가장 신속하게 정규식을 적용할 수 있는 방법입니다.
2. AI 생성
복잡한 정규표현식을 작성하는 데 많이 지치셨나요? 추출하고자 하는 데이터를 도구에 보여주기만 해도 AI 정규식 생성기는 즉시 정규식을 만들어 드릴 수 있습니다.
사용 방법은 다음과 같습니다:
정제하려는 데이터 필드를 찾은 뒤, 해당 필드에서 “더 보기” >> “데이더 정제하기” 클릭
“보조 추가하기”에서 “정규표현식 매치하기” 클릭
“정규식이 어려우신가요? 도구 및 AI지원 기능을 사용해 보세요.”클릭 후 AI생성 선택
원본 텍스트에서 매칭하고자 하는 텍스트만 수동으로 하이라이트함(예: Suffolk County, NY에서 NY)
AI생성을 클릭하면 AI가 예시를 분석하여 정규식 패턴 제안
테스트를 클릭해 제안된 패턴이 모든 샘플에서 올바르게 작동하는지 확인
적용 및 저정을 클릭해 패턴명을 설정한 후 정규표현식 적용 완료 확인
예시:
입력: Suffolk County, NY
선택(하이라이트): NY
결과: NY, NC 등 데이터를 매칭하는 정규식 생성
3. 규칙 생성
규칙 생성은 기존의 "생성" 탭이 발전해 온 것입니다. 옵션을 선택하고 파라미터(예: “시작 내용”, “종료 내용”, “하나 포함”)를 입력하는 방식으로 누구나 손쉽게 자신만의 정규식을 만들 수 있는 폼 기반의 인터페이스를 제공합니다.
선택한 내용은 자동으로 올바른 정규표현식으로 변환되므로, 정규표현식을 학습 중이거나 시각적인 접근 방식을 선호하는 분들에게 특히 유용합니다.
Octoparse 규칙 생성의 활용 방법
스텝 1: 옵션을 선택하고(1) 필요한 파라미터를 입력한(2) 다음 정규식 생성(3)
"시작/종료": 시작 또는 끝으로 시작하는 내용을 선택하지만 입력한 텍스트는 제외됩니다.
"시작/종료 내용 포함": 이 옵션은 "시작/종료"를 선택한 상태에서만 사용할 수 있습니다." 시작/종료 포함"을 선택하면 입력한 텍스트가 일치 결과에 포함됩니다.
"하나 포함": 입력한 문자/문자가 들어 있는 내용을 선택합니다.
스텝 2: 매칭 클릭(4) - 필요에 따라 멀티라인 매칭을 선택할 수도 있습니다.
스텝 3: 정규식을 적용(5)하여 결과를 얻습니다.
8.8.0 버전 이전
RegEx 도구의 주요 인터페이스는 다음과 같이 4가지 부분으로 구성됩니다.
1. 원본 텍스트
데이터 정제하기 옵션에서 RegEx 도구를 열면 추출된 텍스트 문자열이 여기에 표시됩니다.
사이드바 내비게이션에서 열 경우 원본 텍스트에 문자열을 직접 입력하거나 붙여넣기를 통해 직접 입력해야 합니다.
2. 생성/참조/샘플
이 부분에 탭이 3개 있습니다.
"생성"탭에는 다양한 옵션에 대한 확인란이 있습니다. 옵션을 선택하고 Octoparse의 일부 파라미터를 입력하여 필요한 정규식을 자동으로 생성할 수 있습니다.
이 섹션에서는 정렬할 데이터 부분에 대한 필터를 설정할 수 있습니다.
자세한 내용은 아래 섹션(Octoparse 정규 표현식 도구 사용법?)에서 확인하실 수 있습니다.
레퍼런스 튜토리얼이 준비되지 않아 현재 레퍼런스와 샘플은 잠시 비어있습니다.
3. 정규식
정규식은 옵션을 선택한 후 "생성" 탭에서 파라미터를 입력하면 "정규식" 부분에 자동으로 생성됩니다.
모든 일치한 항목을 확인하려면 "모두 일치"를 선택합니다. 그런 다음 "일치" 버튼을 클릭하여 이 정규식으로 원하는 것을 찾을 수 있는지 확인합니다.
4. 일치한 부분
정규식을 생성하면 첫 번째 일치한 문자열이 [일치한 부분] 에 표시됩니다.
"모두 일치"를 선택한 경우, 모든 일치한 항목이 순서대로 표시됩니다.