Optimization and Parallelization of Foodborne Disease Outbreak Analyses
2014
Freitag, Markus
Немецкий. Lebensmittelerkrankungen sind seit jeher ein ständiger Begleiter der Geschichte der Menschheit. Todesfälle und steigende Kosten für das Gesundheitssystem sind nur zwei Beispiele für die weitreichenden Folgen, die lebensmittelbedingte Krankheitsausbrüche für Gesellschaft und Wirtschaft verursachen. Verschiedenste Bemühungen und Initiativen auf nationaler und internationaler Ebene versuchen die Ursachen und Auswirkungen aktiv zu bekämpfen. Nichtsdestotrotz steigt die Zahl der Pathogene, ihrer Resistenzen und der daraus resultierenden Krankheiten stetig. Dadurch entstehen neue Herausforderungen für Lebensmittelrisikoanalysen und die Risikobewertung. Aktuelle Verfahren zur Lebensmittelkrisenbewältigung basieren meist auf händischen Befragungen von infizierten Personen und setzen nur geringfügig auf die Möglichkeiten der modernen Informationstechnologie. Dabei können neue Technologien Erkenntnisse in kürzerer Zeit liefern und helfen, aktuelle Herausforderungen einfacher zu bewältigen. In dieser Arbeit stellen wir das Verfahren des Minimum Confidence Level zur Ausbruchsanalyse von Lebensmittelkrisen vor. Dieses Verfahren ermöglicht es Risikobewertern, unter Angabe eines gewünschten Sicherheitswertes eine Anzahl an höchstwahrscheinlich ursächlichen Produkten aus gegebenen Handelsdaten zu ermitteln. Um dies zu realisieren, evaluiert unser Verfahren virtuell generierte Ausbruchsszenarien für jedes Produkt und ermittelt mittels eines Likelihood-basierten Algorithmus’, wie wahrscheinlich dieses Produkt im jeweiligen Szenario verantwortlich für den Ausbruch ist. Dadurch kann eine Aussage über die Zuverlässigkeit einer Analyse im Verhältnis zu den Eigenschaften des gegebenen Datensatzes gemacht werden. Das Verfahren erlaubt es reale Probleme und Umstände von Daten bei Ausbruchsanalysen zu berücksichtigen. Hierzu gehört z.B. die Ähnlichkeit der Verteilung unterschiedlicher Produkte, die eine genaue Bestimmung eines ursächlichen Produktes stark erschweren kann. Um eine schnelle Durchführung notwendiger Berechnungen unseres vorgestellten Verfahrens zu ermöglichen, stellen wir außerdem eine Lösung für eine parallelisierte Implementierung unter Nutzung des Stratosphere-Frameworks vor. Weiterhin erarbeiten wir einen integrierten Workflow zur Anwendung des Verfahrens mit der KNIME-Plattform. Wir evaluieren das Minimum Confidence Level unter dem Gesichtspunkt verschiedener Einflussfaktoren im Bezug auf die verfügbaren Daten. Zu diesen Faktoren zählen u.a. der Einfluss unvollständiger Daten. Die Evaluierung zeigt, dass die Qualität der Ergebnisse zum größten Teil von der Anzahl der Produkte und der verfügbaren Granularität ihrer Verteilung in den Daten abhängt. Wir bestimmen zudem wichtige Parameter für unser Verfahren, wie z.B. die optimale Anzahl an generierten Ausbruchsszenarien. Außerdem überprüfen wir die Performance und Skalierbarkeit unserer parallelisierten Implementierung sowie die benötigte Rechenzeit in Abhängigkeit verschiedener Charakteristiken der Daten. Die Implementierung zeigt eine lineare Skalierbarkeit im Verhältnis zur Anzahl der genutzten Maschinen.
Показать больше [+] Меньше [-]Английский. Foodborne diseases have a history as long as mankind itself. A disease outbreak has enormous consequences for both society and economy, such as high rates of death and increased costs to the healthcare system. Efforts on national and international level counteract disease outbreaks with varying success. However, the number of pathogens, their resistances, and caused diseases has risen consequently within the last decades resulting in new challenges for risk assessment of foodborne diseases. Current assessment methods rely mostly on manual surveys and do not make use of all the benefits of modern information technology to support the investigations. Hence, new approaches need to be developed that make use of computer-based solutions to deliver insights rapidly while also considering current challenges. In this thesis, we introduce the Minimum Confidence Level, a new method for outbreak analyses of foodborne diseases. This method allows risk assessors to determine a set of possibly causative food products with a certain confidence. For this purpose, virtual outbreak scenarios are generated and evaluated based on available sales data. The method uses a likelihood-based approach to identify outbreak sources and evaluates the resulting probability for each food product in relation to the information provided by the given dataset. The computed confidence allows considering real-world challenges during outbreak analyses, such as correlated product distributions in the available data and data incompleteness. To address the arising computational costs and to enable a rapid execution of the method, we also introduce a parallelized implementation developed with the Stratosphere framework. Furthermore, we present an integrated workflow for the application and the implementation of the method using the KNIME platform. We evaluate the Minimum Confidence Level with respect to various influence factors, such as data incompleteness. The evaluation shows that the quality of the results mostly depends on the number of products and the spatial granularity of the data. Additionally, we determine essential parameters for our method such as the optimal number of generated outbreak scenarios. Moreover, we evaluate the performance of our implementation in a scalable environment as well as the influence of certain characteristics of the data on the execution time. The implementation scales almost linearly in relation to the number of nodes utilized in the evaluation environment.
Показать больше [+] Меньше [-]Ключевые слова АГРОВОК
Библиографическая информация
Эту запись предоставил German Federal Institute for Risk Assessment