ALIs

kommt noch

Achtung: Die Navigationslinks auf dieser Seite funktionieren nicht, weil das nicht der Rahmen ist, der zu diesem Skript gehört. Wenn das Skript ordnungsgemäß dort installiert ist, wo es später laufen soll, funktionieren auch die Links in der dortigen Umgebung.

LINUX Cluster Project

Siedlungswasserwirtschaft - Bioinformatik


Institution

  • Name: Lehrstuhl für Siedlungswasserwirtschaft
  • Address: Am Coulombwall 3, 85748 Garching
  • Project Proposal Date: 2019-11-04 08:43:31

Abstract:

Bei dem Projekt geht es um Datenprozessierung von großen Datensätzen (20-400 GB) aus Hochdurchsatzsequenzierern (in der Regel textbasierte Rohdaten die DNA Sequenzen enthalten). In der Regel werden diese über Pakete für R/R Studio oder python prozessiert. Oft allerdings werden auch kleine UNIX basierte Programme modular (z.b. über snakemake) eingesetzt um die Daten zu prozessieren. Dabei müssen diese Daten zunächst gefiltert werden, überlappt werden, die Fehler müssen korrigiert werden oder über Entropiefilterung entfernt werden. Diese Schritte müssen oft angepasst werden and die enstprechenden Daten und Datenqualität. Dann erfolgt die Analyse über automatische Annotierung (manchmal über ein Trainingsmodel per neuronalen Netzwerk), oder gegen große Referenzdatenbanken, wie z.b. NCBI. Netzwerkberechnungen (In der Regel über Korrelation oder Kovarianz) und machine learning (für Modellberechnungen) werden dann am Ende noch interessant für die finalen Statistiken.