proxmox

MY NEW GIRLFRIEND …

MEINE NEUE FREUNDIN …

#GIRLFRIEND

“Raspberry Pi Cloud”

🚩 Current Easter offers: #ollama #gpu #llm IT services (coaching, training, consulting, setup) ██ MINI PCs for Proxmox / pfSense / OPNsense / Server ██ Price/performance winner: Performance killer:…

source

 

To see the full content, share this page by clicking one of the buttons below

Related Articles

21 Comments

  1. Probiers mal mit anders herum statz nur so kurz wie möglich zu schreiben. Rum kann die ki wenn es aleune steht als frei sortieren werten. Und alphabetisch ist einfach das einfachste das es gibt. Bei anders herum sollte die ki in derlage sein das rückwärts zu werten und dann auch zu machen. Der teufel steckt im deteil. Nicht in der kurzform. Weil wir mit denken macht das die ki nicht. Ohne ehrfarung nimmt das auch jeder wörtlich.

  2. Wie hast Du die Kühlung der GPU geplant? Soweit ich das verstehe ich die GraKa zwar passiv gekühlt, braucht aber wie in Server gewöhnlich einen entsprechenden aktiven Luftstrom.

  3. @RaspberryPiCloud: Zum Speicherplatz-Problem:
    Rein bildlich gesprochen, kann man auch die Anzahl der enthaltenen "hard facts" im Modell auf die Anzahl der Gewichte mappen.
    Ich finde, die Metapher einer "Datenbank" + "Datenverabreitungsroutinen" => "Anzahl der Gewichte" (z.B. 7b, 13b, 70b) recht eingänglich.
    Ein Modell kann nur dann effizient angewendet werden, wenn alle (relevanten) Gewichte im VRAM der Grafikkarte liegen. Das ist leider bei den größeren Modellen (bei dir z.B. das Llama 13b) nicht mehr der Fall. Deshalb greift es dann in deinem Test (10:30) auf den normalen RAM und Prozessor zurück.

  4. Hallo,
    Sehr interessantes Projekt. Gibt es die Möglichkeit zb meine Bücher einzuscannen u dann die Texte in die KI einzupflegen,so dass ich ihr Fragen stellen kann u sie mir aus dem Wissen der Bücher heraus antwortet?

    Vielen lieben Dank
    /Nick

  5. Muss das model denn trainiert werden? Schau dir mal rag an. Ich habe anhand eines videos hier bei yt mit flowise, ollama und em leo mistral ein flow generiert, wo ich eine url angegeben habe. Die wurde gescraped, in eine vectorDB geladen und dann konnte ich das model zum inhalt befragen. Man kann natürlich auch text direkt rein laden.

  6. Ich kann dir empfehlen, mal das em leo mistral von huggingface zu testen. Das ist das beste deutsch finetuned Model, welches ich bisher gefunden habe. Falls du Unterstützung beim einbinden in ollama benötigst, gib mir bescheid. Sonst, der Hinweis: gguf Datei von hf laden. Modelfile erstellen. Leo ist im vicuna Format. Also hier etwas am modelfile orientieren. Sonst funktioniert es nicht richtig.

  7. Open WebUI arbeitet wahrscheinlich auf der CPU, weil der Container nicht mit dem Kernel direkt sprechen kann. Starte das Ding als privileged Container mit host Network, dann sieht das Ergebnis sehr wahrscheinlich so aus wie in der CLI.

  8. Die Frage ist jetzt nur welches Model willst du verwenden von den allen die es gibt um dieses zu traineren und zu füttern mit IPV64? Bzw hast du dich schon entschieden für ein Model welches du verwenden möchtest für IPv64?

  9. Das 13b Model passt nicht vollständig in den "kleinen" VRAM der Tesla-GPU und muss zum Teil auch in den normalen RAM geladen werden.
    Dies führt dazu, dass auch die CPU mitackern muss.

    In der Beschreibung des llama2 (Q4) Models auf ollama steht:

    7b models generally require at least 8GB of RAM
    13b models generally require at least 16GB of RAM
    70b models generally require at least 64GB of RAM

  10. Interessant aber bereits beim ausbinden der PCIe aus dem OS (Proxmox) bin ich leider nicht mehr mitgekommen. Bin noch auf Lernstufe 2 (Tutorial Niveau) aber danke für die ausblicke wofür es sich zum lernen lohnt.

Leave a Reply