Training data set for PAL filter
2022-2024 | 2025
Dinkel, Thaya Mirinda | Rostock, Leon
英语. Training dataset or a binary classification model designed to distinguish real harbour porpoise echolocation narrow-band high-frequency (NBHF) signals from synthetic NBHF signals emitted by the PAL (Porpoise ALert, pinger alternative) in passive acoustic monitoring data collected using F-PODs (Chelonia Ltd., UK) within the PAL-CE project (thuenen.de/pal-ce, 2021-2025, BfN FKZ 3521820700). The training data set consists of the click train details table (.xlsx) that can be exported from the FPOD app (F-POD software v1.06) using the automated KERNO-F algorithm classifying for NBHF signals and retaining only high and moderate click train categories. Two experienced trainers manually separated click trains corresponding to real harbour porpoises and those belonging to the artificial PAL sounds based on visual information of the signals. A combined .xlsx file was created retaining only click trains were both annotators agreed resulting in a consensus-based training dataset comprising 154,772 click trains (912 real porpoise clicks and 153,860 PAL signals). This dataset was used to train an eXtreme Gradient Boosting (XGBoost) classifier (xgboost v1.7.8.1, R), enabling efficient and automated filtering of PAL signals from the broader dataset.
显示更多 [+] 显示较少 [-]德语. Trainingsdatensatz für ein binäres Klassifikationsmodell zur Unterscheidung zwischen echten Echoortungssignalen von Schweinswalen im schmalbandig-hochfrequenten (NBHF) Bereich und synthetischen NBHF-Signalen, die vom PAL (Porpoise Alert, Alternative zum Pinger) ausgesendet werden, in passiv-akustischen Monitoringdaten, die mit F-PODs (Chelonia Ltd., UK) im Rahmen des PAL-CE-Projekts (thuenen.de/pal-ce, 2021-2025, BfN FKZ 3521820700) erhoben wurden. Der Trainingsdatensatz besteht aus der Tabelle der Klicksequenz-Details (.xlsx), die aus der FPOD-App (F-POD Software v1.06) unter Verwendung des automatisierten Analysealgorithmus KERNO-F exportiert wurde. Die Klassifikation erfolgte auf Basis von NBHF-Signalen, wobei nur die Kategorien „hoch“ und „moderat“ bei den Klicksequenzen berücksichtigt wurden. Zwei erfahrene Annotator:innen trennten manuell Klicksequenzen realer Schweinswale von jenen der künstlichen PAL-Signale, basierend auf der visuellen Darstellung der Signale. Es wurde eine kombinierte xlsx-Datei erstellt, in der nur solche Klicksequenzen enthalten sind, bei denen beide Annotator:innen dieselbe Klassifikation vornahmen. Daraus resultierte ein konsensbasierter Trainingsdatensatz bestehend aus 154.772 Klicksequenzen (912 echte Schweinswal-Klicks und 153.860 PAL-Signale). Dieser Datensatz wurde verwendet, um ein binäres Klassifikationsmodell mit eXtreme Gradient Boosting (XGBoost, xgboost v1.7.8.1, R) zu trainieren, um eine effiziente und automatisierte Filterung von PAL-Signalen aus dem Gesamtdatensatz zu ermöglichen.
显示更多 [+] 显示较少 [-]