Testy sztucznej inteligencji – czy AI jest już gotowe zastąpić specjalistów IT?

21 kwietnia, 2026

Minął ponad rok od ostatnich realizowanych przez nas testów sztucznej inteligencji. Stwierdziliśmy wtedy, że jakość generowanych odpowiedzi utrzymuje raczej niewielki poziom i absolutnie nie można było założyć, że AI może w pełni przejąć obowiązki, z którymi na co dzień mają do czynienia eksperci techniczni w dziedzinie IT. Jednak ostatni czas przynosi coraz więcej obaw o przyszłość zatrudnienia w branży informatycznej. Firmy szukają oszczędności poprzez redukcję etatów, a niektóre stanowiska są już zastępowane przez modele językowe. Na ten moment nie można realnie ocenić, jaki wpływ będą mieć obecne procesy. Faktem jednak jest, że rynek pracy w ostatnim okresie zdecydowanie został urealniony i znalezienie zatrudnienie w tej branży – cieszącej się jeszcze kilka lat temu niemal pożądaniem absolwentów szkół technicznych czy studiów – nie jest już tak łatwe. Jeśli już dochodzi do etapu rozmowy kwalifikacyjnej, to firmy zmuszone są korzystać z różnych „zabezpieczeń”, bo kandydaci zaczęli stosować wsparcie w postaci AI, co pozwala na udzielenie kompleksowych odpowiedzi na pytania technicznie. Dopiero okres po zatrudnieniu pozwala na rzetelną analizę zdolności takiej osoby, przez co firmy tracą kolejne zasoby, przede wszystkim czas.

Pojawiły się kolejne narzędzia powiązane z AI. Nie ma możliwości, aby przedstawić wszystkie z nich z powodu dynamicznie rosnącej ilości podobnych rozwiązań. Niedawno opisywaliśmy OpenClaw, który może stanowić realną pomoc w typowych zadaniach technicznych – aczkolwiek niewłaściwa konfiguracja tego narzędzia może doprowadzić do powstania „luki” w bezpieczeństwie naszego środowiska. Natomiast jest to już poziom, w którym sztuczna inteligencja integruje się z systemem użytkownika i może automatycznie wykonywać różne akcje.

Niektóre systemy wspierane sztuczną inteligencją są już tak zaawansowane i wręcz niebezpieczne, że ryzykowne jest, aby każdy (nawet za opłatą) posiadał do nich dostęp. Kilka dni temu dowiedzieliśmy się o projekcie Glasswing (Anthropic), gdzie model Mythos skutecznie znajduje podatności w różnym oprogramowaniu, w tym takie istniejące kilkanaście lat. Z powodu rzeczywistej możliwości wykorzystania tych „zdolności” w wątpliwych celach, z modelu mogą korzystać wyłącznie największe korporacje informatyczne.

Wrażenie, że rozwój sztucznej inteligencji postępuje coraz szybciej, jest dość oczywiste. Pytanie jednak, czy faktycznie modele prezentują już poziom, przy którym mogą stać się realną alternatywą dla zatrudnienia pracownika. W ubiegłym roku ta perspektywa wydawała się co najmniej mało prawdopodobna – miejmy nadzieję, że realizacja testu najbardziej znanych modeli językowych pozwoli na lepsze zrozumienie obecnych możliwości sztucznej inteligencji.

Metodologia testu

Test będzie miał podobny przebieg do tego znanego z ostatniej edycji. Kolejny raz przygotowaliśmy trzy pytania z trzech kategorii: bezpieczeństwo IT, administracja IT i DevOps. Pierwsze pytanie z każdej kategorii pozostało z ubiegłego roku – będzie to prosty punkt odniesienia do analizy stopnia, w jakim nastąpiła poprawa (albo pogorzenie) w jakości generowanych odpowiedzi.

Wprowadzamy też ranking w formie tier list po każdym pytaniu, kategorii jak i na koniec testu. Oprócz zwiększenia rzetelności, ma to też wymiar ściśle wizualny, co jest koniecznością przy tak dużej liczbie danych. To kilka poziomów (od S do F), gdzie na szczycie umieszcza się elementy (w naszym przypadku modele AI) „najlepsze” pod danym względem (tutaj wyłącznie ocena jakości odpowiedzi), a poniżej elementy, które przedstawiają coraz gorsze poziomy.

W tym roku przetestujemy aż 10 chatbotów. Interesuje nas wymiar praktyczny, dlatego zdecydowaliśmy się na testy wyłącznie tych modeli, które są dostępne z poziomu przeglądarki internetowej – nie każdemu zależy na kompleksowej automatyzacji, jaką oferuje model zainstalowany lokalnie. Nie wspominając również o wymaganiach sprzętowych.

W przypadku każdego modelu stosujemy ustawienia domyślne – stan bezpośrednio po założeniu konta. Wykorzystujemy także plany bezpłatne.

Przy dziesięciu modelach i trzech kategoriach z trzema pytaniami otrzymujemy 90 odpowiedzi. Z powodów czytelności tekstu, jak również aspektów UX (szczególnie na urządzeniach mobilnych), nie możemy kopiować pełnych odpowiedzi każdego modelu. Zamiast tego – o ile jest to możliwe – podajemy adres URL do danej odpowiedzi wraz z krótkim podsumowaniem.

Testowane chatboty AI

Listę chatbotów użytych w naszym teście i podstawowe informacje o nich prezentuje poniższa tabela.

 

ChatbotDostawcaPaństwoModel bazowyAdres URL
ChatGPTOpenAIUSAGPThttps://chatgpt.com/
GeminiGoogleUSAGeminihttps://gemini.google.com/app
ClaudeAnthropicUSAClaude Sonnethttps://claude.ai/new
CopilotMicrosoftUSAGPThttps://copilot.microsoft.com/
PerplexityPerplexity AIUSASonarhttps://www.perplexity.ai/
GrokxAIUSAGrokhttps://grok.com/
https://x.com/i/grok
Meta AIMetaUSALlamahttps://www.meta.ai/
DeepSeekDeepSeekChinyDeepSeekhttps://chat.deepseek.com/
MistralMistralFrancjaMistralhttps://chat.mistral.ai/chat
QwenAlibaba CloudChinyQwenhttps://qwen.ai/home

Dominacja jednego państwa na rynku sztucznej inteligencji jest wyraźna. Test powinien odpowiedzieć na pytanie, czy przewaga jest widoczna także w jakości działania danego modelu. Oprócz tego warto zauważyć, że niemal wszyscy dostawcy rozwijają swoje własne modele bazowe. Wyjątkiem pozostaje Copilot, który oparty został na modelu GPT zapożyczonym z ChatGPT.

Kategoria: Bezpieczeństwo IT

Pytanie 1
Poprzez zewnętrzną usługę hostingu udostępniłem aplikację internetową przeznaczoną dla pracowników naszej firmy. Aplikacja wymaga oczywiście zalogowania, a aktualnie założone jest wyłącznie konto serwisowe z uprawnieniami administratora aplikacji. Chciałbym, aby pracownicy logowali się z użyciem poświadczeń Active Directory, czyli tak, jak obecnie logują się na firmowych urządzeniach. Z wiadomych powodów nie możemy wystawić usługi LDAP na zewnątrz, a hosting odmówił zestawienia połączenia VPN do naszej sieci. Posiadamy jednak możliwość wystawienia innej usługi, która pozwoli na logowanie kontami Active Directory. Czy możesz podać przykład takiego rozwiązania? Pracownicy niekoniecznie będą korzystać z tej aplikacji, znajdując się w firmie. Dodatkowo chciałbym uniknąć kosztów, więc zależy mi na bezpłatnych narzędziach (nie dotyczy to ewentualnych licencji na systemy operacyjne). Preferuję rozwiązania self-hosted, które nie są zależne od żadnych zewnętrznych usług. Większe doświadczenie mam też z rozwiązaniami Microsoft.
Chatbot Podsumowanie odpowiedzi Odpowiedź
ChatGPT Bardzo dobra i przede wszystkim konkretna odpowiedź. Nie opisywał szczegółów konfiguracji, podał również odpowiednie alternatywy dla AD FS. W stosunku do ubiegłego roku jest zauważalna istotna poprawa. link
Gemini Nie można mieć istotnych uwag co do samej odpowiedzi – przekazał istotne informacje, bez próby „wymuszonego” wypisywania mniej znaczących szczegółów. Nie widać jednak różnicy w porównaniu z odpowiedzią z 2025 roku. link
Claude Absolutnie wzorcowa odpowiedź –Podobnie jak w poprzednim teście. link
Copilot Widoczna poprawa (bo wspomniał o AD FS), a dodatkowo przedstawił logicznie wady i zalety innych rozwiązał, które zaproponował. link
Perplexity W tym przypadku nastąpił największy progres w jakości odpowiedzi. Opis jest szczegółowy, ale też nie przesadnie – to realnie może ułatwić decyzję o wdrożeniu. link
Grok Również widoczna poprawa. Opis skupił się jednak wyłącznie na AD FS, a jednak inne modele podały alternatywy – pomimo tego, że użytkownik wspomniał o środowisku Windows. link
Meta AI Prosty język i bardzo dobra odpowiedź. Docenienia wymaga też podana rekomendacja i przykłady bibliotek do integracji z takim logowaniem. link
DeepSeek Bardzo długa odpowiedź, bo nastąpiła próba przedstawienia opisu konfiguracji usługi AD FS – nie takie było założenie prompta. Z drugiej strony interesujące jest zwracania się do użytkownika przy użyciu form grzecznościowych. link
Mistral Duże rozczarowanie, bo wygenerowana odpowiedź w żadnym stopniu nie spełnia kryteriów zawartych w promptcie od użytkownika. link
Qwen Sam opis konfiguracji został bardzo skrócony, natomiast odpowiedź w pełni wyczerpuje oczekiwania użytkownika wynikające z danego prompta. link
S
Claude
A
Meta AI
B
ChatGPT, Perplexity
C
Gemini, Copilot, Qwen
D
Grok
E
DeepSeek
F
Mistral

Poziom S: kompletne, precyzyjne, bez błędów.
Poziom A: bardzo dobre, niewielkie braki bez wpływu na całość.
Poziom B: poprawne, ale z wyraźnymi brakami w istotnych elementach.
Poziom C: powierzchowne, pomijają kluczowe kwestie.
Poziom D: słabe, zawierają błędy lub nietrafne wnioski.
Poziom E: bardzo słabe, liczne błędy i istotne braki.
Poziom F: błędne lub bezużyteczne, brak zrozumienia tematu.

Audyt bezpieczeństwa wykrył dostępny z zewnątrz port SSH. Nie mam możliwości zablokowania tej usługi czy ograniczenia do konkretnych adresów IP. Jakie zabezpieczenia po stronie samej usługi SSH wdrożyć w tej sytuacji?

Chatbot Podsumowanie odpowiedzi Odpowiedź
ChatGPT Poprawne i właściwe rekomendacje. link
Gemini Porady są poprane, ale zapomniał o podstawowej kwestii, jaką jest zablokowanie zdalnego logowania użytkownika root. link
Claude Ponowne dobra odpowiedź. link
Copilot To nie są błędne zalecenia, ale w porównaniu do innych odpowiedzi mimo wszystko brakuje kilku ważnych sposobów hardeningu SSH. link
Perplexity Bardzo dobre wskazówki. link
Grok W tym pytaniu była to zdecydowanie najlepsza odpowiedź. Koncentracja na samej usłudze SSH, bez proponowania dodatkowych rozwiązań. link
Meta AI Odpowiednie zalecenia z właściwym poziomem szczegółowości. link
DeepSeek Rekomendacje zbliżone do innych odpowiedzi, ale widoczny błąd „parsowania” odpowiedzi ([email protected]). link
Mistral Brak błędów w odpowiedzi, ale brakuje innych kluczowych sugestii hardeningu. link
Qwen Bardzo konkretne zalecenia i ciekawe rekomendacje. link
S
Grok
A
Claude, Meta AI, Qwen
B
ChatGPT, Perplexity
C
Gemini
D
DeepSeek
E
Copilot
F
Mistral

Poziom S: kompletne, precyzyjne, bez błędów.
Poziom A: bardzo dobre, niewielkie braki bez wpływu na całość.
Poziom B: poprawne, ale z wyraźnymi brakami w istotnych elementach.
Poziom C: powierzchowne, pomijają kluczowe kwestie.
Poziom D: słabe, zawierają błędy lub nietrafne wnioski.
Poziom E: bardzo słabe, liczne błędy i istotne braki.
Poziom F: błędne lub bezużyteczne, brak zrozumienia tematu.

Programiści potrzebują dostępu do logów aplikacji, które zapisywane są na serwerze produkcyjnym. Ze względów bezpieczeństwa nie możemy zapewnić im dostępu poprzez SSH. W jaki sposób bezpiecznie udostępnić im logi? Obecnie za każdym razem proszą nas o manualne sprawdzenie, czy nie pojawiły się błędy – chcielibyśmy zakończyć stosowanie tej praktyki, bo dla obu stron jest problematyczna.

Chatbot Podsumowanie odpowiedzi Odpowiedź
ChatGPT Istotne porady i brak ograniczenia wyłącznie do samego problemu – model wyciągnął wniosek, że w tym scenariuszu nie tylko dostęp do logów wymaga poprawy. link
Gemini Zawarte wszystkie potrzebne informacje – przedstawienia i porównanie trzech możliwych opcji. link
Claude Nie są to błędne podejścia, aczkolwiek prompt zakładał raczej bezpieczne metody udostępniania – z pięciu punktów tylko dwa to spełniają. link
Copilot Podobnie jak Claude, ale w tym przypadku tylko jedno podejście można uznać za bezpieczne. link
Perplexity Dokładnie tego oczekiwał użytkownik, ale brakuje „obudowania” odpowiedzi innymi możliwościami. link
Grok Konkretna odpowiedź i całkowicie wyczerpuje temat. link
Meta AI Na tle innych odpowiedzi ta wyróżnia się nieco innym podejściem. Brakuje większego nacisku na Elastic Stack. link
DeepSeek Niemal doskonała analiza tematu. link
Mistral Pierwsze zaproponowane rozwiązanie jest poprawne, ale pozostałe wymagają poświęcenia zbyt dużej ilości czasu w stosunku do ich praktycznego zastosowania. link
Qwen Oprócz poprawnej odpowiedzi uzyskaliśmy również ogólne kroki wdrożenia. link
S
DeepSeek
A
Perplexity
B
ChatGPT, Grok, Qwen
C
Gemini
D
Claude, Meta AI
E
Copilot
F
Mistral

Poziom S: kompletne, precyzyjne, bez błędów.
Poziom A: bardzo dobre, niewielkie braki bez wpływu na całość.
Poziom B: poprawne, ale z wyraźnymi brakami w istotnych elementach.
Poziom C: powierzchowne, pomijają kluczowe kwestie.
Poziom D: słabe, zawierają błędy lub nietrafne wnioski.
Poziom E: bardzo słabe, liczne błędy i istotne braki.
Poziom F: błędne lub bezużyteczne, brak zrozumienia tematu.

Kategoria: Administracja IT

Pytanie 1

Z użyciem serwera NGINX skonfigurowałem reverse proxy dla usługi działającej na adresie 127.0.0.1:8080 (kontener Docker z aplikacją). Dzięki temu lokalny serwis jest dostępny z zewnątrz pod domeną app.avlab.pl. Inny administrator skonfigurował zasób SFTP dla klienta kierujący na katalog /home/www/NAZWA_KLIENTA/media. Przesłane pliki powinny być dostępne (wylistowane) pod adresem https://app.avlab.pl/media, ale zamiast tego widoczna jest strona logowania aplikacji lub następuje przekierowanie do strony https://app.avlab.pl/user. Programista nie chciałby dodawać obsługi listowania jako funkcjonalności. Jak rozwiązać ten problem?

Chatbot Podsumowanie odpowiedzi Odpowiedź
ChatGPT Wzorcowe rozwiązanie i widoczny postęp w stosunku do ubiegłego roku. link
Gemini Dokładne rozwiązanie problemu z prompta, chociaż raz bez dużej różnicy względem ostatniego testu. link
Claude Konkretna odpowiedź, która unika zbędnych informacji. Minimalna poprawa. link
Copilot Doskonale opisane rozwiązanie. Najbardziej widoczny postęp, bo konfiguracja z ubiegłego roku była całkowicie niepoprawna. link
Perplexity Sensownie opisane (chociaż widać pewne „przekombinowanie”) i zdecydowany postęp. link
Grok Teoretycznie poprawne, ale proponuje zbędne operacje. Raczej brak jakiejkolwiek poprawy. link
Meta AI Wymienione ustawienia zadziałają, ale ponownie widać niepotrzebny stopień skomplikowania. link
DeepSeek Poprawnie, wciąż jednak ta odpowiedź mogła zostać zredukowana. link
Mistral Nie próbował zbyt szczegółowej konfiguracji i całkiem dobrze się udało. link
Qwen Jedna z najtrafniejszych odpowiedzi. link
S
Copilot
A
ChatGPT
B
Qwen
C
Perplexity, DeepSeek, Mistral
D
Gemini, Claude
E
Meta AI
F
Grok

Poziom S: kompletne, precyzyjne, bez błędów.
Poziom A: bardzo dobre, niewielkie braki bez wpływu na całość.
Poziom B: poprawne, ale z wyraźnymi brakami w istotnych elementach.
Poziom C: powierzchowne, pomijają kluczowe kwestie.
Poziom D: słabe, zawierają błędy lub nietrafne wnioski.
Poziom E: bardzo słabe, liczne błędy i istotne braki.
Poziom F: błędne lub bezużyteczne, brak zrozumienia tematu.

Mamy działającą instancję MySQL z bazą danych o sporym rozmiarze. Chcemy zastosować klaster, ale przy możliwie najmniejszym nakładzie pracy i czasie niedostępności bazy. Proszę o polecenie rozwiązania, które umożliwi tę operację.

Chatbot Podsumowanie odpowiedzi Odpowiedź
ChatGPT Pierwsze zaproponowane rozwiązanie jest idealne do tego zastosowania, ale wdrożenie kolejnych wymaga przestoju w działaniu środowiska. link
Gemini Ciekawe podejście z zastosowaniem osobnego klastra i „dobiegnięciem” danych – chociaż nie takie było założenie, to pomysł wymaga docenienia. link
Claude Jeżeli uważa, że konfiguracja InnoDB Cluster jest bardziej złożona, to nie można uznać tej odpowiedzi za udaną. link
Copilot Poprawnie, chociaż niepotrzebnie zaczął opisywać wymagane zmiany w konfiguracji, bo nie wszystkie są wymagane do dodania przez rozpoczęciem pracy. link
Perplexity Nie wspomniał o podstawowym rozwiązaniu tej sytuacji, a zaproponowane opcje znacznie zwiększają czas przestoju. link
Grok Bardzo dobre podejście do rozwiązania problemu. link
Meta AI Poprawne rozumowanie i brak próby skierowania uwagi użytkownika na mniej właściwe rozwiązania – jednak przy ich krótkiej charakterystyce. link
DeepSeek Całkowite pominięcie użycia InnoDB Cluster w tym wypadku powoduje drastyczny spadek oceny odpowiedzi. link
Mistral Dobra odpowiedź, niestety zaproponowane kroki „przygotowawcze” nie są wymagane. link
Qwen Nie jest to wyjątkowo przemyślana odpowiedź – zaczyna od opisu replikacji, a w podsumowaniu zaznacza, że jednak dla tego scenariusza inne rozwiązanie będzie „lepsze”. link
S
Grok
A
Meta AI
B
Gemini, Copilot, Mistral
C
ChatGPT
D
Claude
E
Qwen
F
Perplexity, DeepSeek

Poziom S: kompletne, precyzyjne, bez błędów.
Poziom A: bardzo dobre, niewielkie braki bez wpływu na całość.
Poziom B: poprawne, ale z wyraźnymi brakami w istotnych elementach.
Poziom C: powierzchowne, pomijają kluczowe kwestie.
Poziom D: słabe, zawierają błędy lub nietrafne wnioski.
Poziom E: bardzo słabe, liczne błędy i istotne braki.
Poziom F: błędne lub bezużyteczne, brak zrozumienia tematu.

Dodałem poniższą konfigurację logrotate:

/var/log/apache2/*.log {
    rotate 14
    daily
    compress
    delaycompress
}

Dlaczego nowe pliki logów są puste? Apache działa.

Chatbot Podsumowanie odpowiedzi Odpowiedź
ChatGPT Trywialne pytanie i jednoznaczna odpowiedź. link
Gemini Również poprawnie, aczkolwiek reload usługi jest stosowany częściej niż użycie apachectl graceful. link
Claude Niepotrzebnie rozbudował konfigurację. link
Copilot Rozbudował konfigurację i zastosował apachectl – nie jest to wymagane. link
Perplexity Jakość podobna do odpowiedzi dwóch poprzednich chatbotów, ale pojawiła wzmianka o copytruncate. link
Grok Nie jest to idealny przykład, natomiast bardzo dobrze wyjaśnił znaczenie poszczególnych opcji. link
Meta AI Zdecydowanie jedna z wiodących odpowiedzi. link
DeepSeek Użycie USR1 wyróżnia tę odpowiedź, a sama konfiguracja logrotate jest poprawna i świetnie wyjaśniona. link
Mistral Nie próbował skomplikować konfiguracji, a dodatkowo przedstawił nawet sensowne kroki weryfikacji potencjalnych problemów. link
Qwen Konkretna, krótka odpowiedź i dobre wyjaśnienie sugerowanych opcji. link
S
ChatGPT
A
Gemini, Meta AI, DeepSeek
B
Grok, Qwen
C
Mistral
D
Perplexity
E
Claude
F
Copilot

Poziom S: kompletne, precyzyjne, bez błędów.
Poziom A: bardzo dobre, niewielkie braki bez wpływu na całość.
Poziom B: poprawne, ale z wyraźnymi brakami w istotnych elementach.
Poziom C: powierzchowne, pomijają kluczowe kwestie.
Poziom D: słabe, zawierają błędy lub nietrafne wnioski.
Poziom E: bardzo słabe, liczne błędy i istotne braki.
Poziom F: błędne lub bezużyteczne, brak zrozumienia tematu.

Kategoria: DevOps

Pytanie 1

Korzystam z GitLab CI/CD do wdrożenia aplikacji ASP.NET w systemie Windows Server 2022. Pipeline’y wykonują się prawidłowo, tzn. aplikacja buduje się na runner’ach (obraz mcr.microsoft.com/dotnet/sdk:8.0), a archiwum zawierające folder wynikowy jest z użyciem mechanizmu artefaktów pobierane na serwer aplikacji i wypakowywane do folderu C:\inetpub\wwwroot\aplikacja\X, gdzie X to wartość zmiennej CI_JOB_ID. Niestety po każdym wdrożeniu muszę ręcznie zmienić physical path w IIS Manager i zrestartować stronę, aby zmiany były widoczne. Czy nie można tego zautomatyzować, ale bez użycia PowerShell?

Chatbot Podsumowanie odpowiedzi Odpowiedź
ChatGPT Poprawne podejście, a co więcej pojawiły się możliwe „optymalizacje” tego procesu. Widoczna poprawa. link
Gemini W ubiegłym roku nie udało się uzyskać sensownej odpowiedzi. Teraz jest znacznie lepiej. link
Claude Nastąpiła pewna poprawa, bo obecnie „skupił się” na celu opisanym w promptcie. Odpowiedź właściwa i tak też było ostatnio. link
Copilot Wciąż udziela błędnej odpowiedzi. W promptcie zawarto informację, że to aplikacja ASP.NET. Wdrożenie nowej wersj wymaga przeładowania „site” w IIS. link
Perplexity Również dobra odpowiedź, natomiast ChatGPT polecił bardziej optymalne alternatywy. Pewne pogorszenie jakości w stosunku do poprzedniego testu. link
Grok Najlepsza ze wszystkich odpowiedzi i zauważalna znaczna poprawa. link
Meta AI Podejście z symlinkami jest warte wspomnienia, ale i tak wymaga restartu. link
DeepSeek Rzeczowo opisane i tego właśnie oczekiwał użytkownik. link
Mistral W miarę poprawnie, ale użycie serwera OpenSSH w systemie Windows nie jest codziennością. link
Qwen Wspomina, że bez użycia PowerShell, ale jednak w .gitlab-ci.yml stosuje składnię z PS. Przynajmniej uwzględnia potrzebę restartu. link
S
Grok
A
ChatGPT, DeepSeek
B
Claude
C
Gemini, Perplexity
D
Mistral, Qwen
E
Meta AI
F
Copilot

Poziom S: kompletne, precyzyjne, bez błędów.
Poziom A: bardzo dobre, niewielkie braki bez wpływu na całość.
Poziom B: poprawne, ale z wyraźnymi brakami w istotnych elementach.
Poziom C: powierzchowne, pomijają kluczowe kwestie.
Poziom D: słabe, zawierają błędy lub nietrafne wnioski.
Poziom E: bardzo słabe, liczne błędy i istotne braki.
Poziom F: błędne lub bezużyteczne, brak zrozumienia tematu.

Potrzebuję uruchomić oba kontenery z aplikacją na porcie 80. docker-compose.yml wygląda tak:

services:
  www_app1:
    image: app1
    container_name: www_app1
    restart: unless-stopped
    ports:
      - 80:80
    networks:
      - www
    volumes:
      - ./storage:/var/www/app/storage
  www_app2:
    image: app2
    container_name: www_app2
    restart: unless-stopped
    ports:
      - 80:80
    networks:
      - www
    volumes:
      - ./storage:/var/www/app/storage
networks:
  www:
    external: true

Nie mogę zastosować żadnego reverse proxy, a poza tym konieczny jest dostęp poprzez adres IP zamiast domen. Jakie rozwiązanie sugerujesz?

Chatbot Podsumowanie odpowiedzi Odpowiedź
ChatGPT Właściwe rozumowanie, natomiast te adresy IP należałoby jednak przypisać na stałe do interfejsu – przy tej konfiguracji restart serwera spowoduje niemożność uruchomienia kontenerów. link
Gemini Podobnie jak ChatGPT i również zapomina o przypisaniu adresów na stałe. link
Claude Tutaj przynajmniej pojawiła informacja o netplan. Poza tym bardzo dobra odpowiedź. link
Copilot Z jakiegoś powodu zaczął od najmniej oczywistego rozwiązania. link
Perplexity W tym przypadku wspomniał wyłącznie o macavlan i zupełnie pominął dodanie kolejnego adresu IP do interfejsu hosta. link
Grok Co prawda od razu zaproponował różne porty, ale już w drugiej opcji podał poprawne rozwiązania i to z prostą instrukcją dodania stałego adresu IP. link
Meta AI Nie jest to najlepsza odpowiedź, ale dość konkretna i dobrze wyjaśnia możliwości w tej sytuacji. link
DeepSeek Niezbyt zrozumiała i bezsensowna trzecia opcja. Odpowiedzi innych chatbotów znacznie lepsze. link
Mistral Konkretna odpowiedź i w pełnym stopniu spełnia oczekiwania użytkownika – chociaż stwierdzenie o publicznych adresach IP nie jest poprawne. Poza tym nie przedstawił alternatyw. link
Qwen W porównaniu do innych jest to kiepska odpowiedź. Jednak zabawne jest stwierdzenie „lekki router”. link
S
Grok
A
Claude
B
ChatGPT, Gemini, Meta AI
C
Copilot
D
Perplexity
E
Mistral, Qwen
F
DeepSeek

Poziom S: kompletne, precyzyjne, bez błędów.
Poziom A: bardzo dobre, niewielkie braki bez wpływu na całość.
Poziom B: poprawne, ale z wyraźnymi brakami w istotnych elementach.
Poziom C: powierzchowne, pomijają kluczowe kwestie.
Poziom D: słabe, zawierają błędy lub nietrafne wnioski.
Poziom E: bardzo słabe, liczne błędy i istotne braki.
Poziom F: błędne lub bezużyteczne, brak zrozumienia tematu.

Przygotuj job GitLab CI/CD, który do zewnętrznej instancji GitLab (https://gitlab.avlab.pl) będzie wysyłał zmiany dodane do naszego repozytorium.

Chatbot Podsumowanie odpowiedzi Odpowiedź
ChatGPT Wyjaśnienia są poprawne, ale sam job jest daleki od stanu idealnego. link
Gemini Koncepcja prawidłowa, ale sam job mógłby być napisany znacznie lepiej. link
Claude Zbyt duży poziom skomplikowania, a wcale nie lepszy od konkurencyjnych modeli. link
Copilot Wykorzystanie SSH akurat w tej sytuacji nie jest najlepszym rozwiązaniem – nie wspomniał zresztą o alternatywnej metodzie. link
Perplexity Podobnie jak Copilot, a dodatkowo jeszcze bardziej rozbudował job. link
Grok Nie jest to oczekiwane rozwiązania, chociaż przynajmniej wymienił alternatywę w postaci funkcjonalności wbudowanej w GitLab. link
Meta AI Podobnie jak inne chatboty, ale popełnił też błąd, bo mirroring repositories nie jest dostępne wyłącznie w planie Premium. link
DeepSeek Pomimo kilku „błędów” (niepotrzebna instalacja openssh-client) jest to najlepsza możliwa odpowiedź. link
Mistral Wykorzystał obraz alpine/git, a i tak próbuje doinstalować pakiet git. Poza tym używa SSH, a istnieje lepsze rozwiązaniem z użyciem access token. link
Qwen Rozwiązania analogiczne do innych modeli, ale trzeba docenić, że użył wbudowanych zmiennych (nazwa użytkownika i jego adres e-mail). link
S
DeepSeek
A
ChatGPT
B
Qwen
C
Gemini
D
Claude, Grok
E
Copilot
F
Perplexity, Meta AI, Mistral

Poziom S: kompletne, precyzyjne, bez błędów.
Poziom A: bardzo dobre, niewielkie braki bez wpływu na całość.
Poziom B: poprawne, ale z wyraźnymi brakami w istotnych elementach.
Poziom C: powierzchowne, pomijają kluczowe kwestie.
Poziom D: słabe, zawierają błędy lub nietrafne wnioski.
Poziom E: bardzo słabe, liczne błędy i istotne braki.
Poziom F: błędne lub bezużyteczne, brak zrozumienia tematu.

Podsumowanie

Sztuczna inteligencja od listopada 2022 roku, gdy zaprezentowany został ChatGPT, nie traci na popularności. Efekt jest wręcz odwrotny, co chyba nie wymaga szerokiego uzasadnienia – modele AI otaczają nas zewsząd i stały się już codziennością. Różne produkty, takie jak smartfony czy różne platformy cyfrowe, zaczynają reklamować się jako te posiadające AI i pewnie niektórych skłania to do ich zakupu.

Korzystanie z chatbotów czy bardziej wyrafinowanych form typu OpenClaw jest obecnie standardem w wielu branżach. My skupiliśmy się na zastosowaniach technicznych w kilku kluczowych obszarach, jakimi są bezpieczeństwo IT, administracja IT oraz DevOps – tutaj też możemy ocenić trafność odpowiedzi udzielanych przez modele. Nie jest to obiektywna opinia, bo w przypadku podobnych testów nie istnieje pewna skala oceny. Natomiast pod uwagę braliśmy wyłącznie jakość odpowiedzi, więc przeprowadzony test uznajemy za miarodajny.

Jednak nie można jednoznacznie stwierdzić, że konkretny model jest „najlepszy”. Widać znaczące różnice w poziomach odpowiedzi w każdym pytaniu. Świadczy to o tym, że dobrą praktyką pozostaje weryfikacja odpowiedzi. Oprócz odpytania kilku modeli, warto korzystać z „historycznych” sposobów zdobywania wiedzy i rozwiązywania problemów. Zatracenie tej umiejętności raczej nie przyniesie dobrych skutków. Z drugiej strony całkowicie negatywne podejście do tematu AI również nie jest zalecane, bo modele językowe nie znikną z naszej rzeczywistości. Jak zawsze istotne jest znalezienie słynnego „złotego środka”.

Podsumowując wszystkie wyniki, możemy przedstawić poniższy ranking chatbotów w 2026 roku:

S
Grok
A
Meta, Qwen
B
ChatGPT
C
Gemini
D
Claude, Perplexity, DeepSeek
E
Copilot
F
Mistral

Poziom S: kompletne, precyzyjne, bez błędów.
Poziom A: bardzo dobre, niewielkie braki bez wpływu na całość.
Poziom B: poprawne, ale z wyraźnymi brakami w istotnych elementach.
Poziom C: powierzchowne, pomijają kluczowe kwestie.
Poziom D: słabe, zawierają błędy lub nietrafne wnioski.
Poziom E: bardzo słabe, liczne błędy i istotne braki.
Poziom F: błędne lub bezużyteczne, brak zrozumienia tematu.

Czy ten artykuł był pomocny?

Oceniono: 0 razy

Picture of Michał Giza

Michał Giza

Administrator systemów Linux i Windows Server. Konfiguruje serwery WWW, bazy danych i inne usługi sieciowe. Wykonuje i automatyzuje wdrożenia aplikacji internetowych.
Picture of Michał Giza

Michał Giza

Administrator systemów Linux i Windows Server. Konfiguruje serwery WWW, bazy danych i inne usługi sieciowe. Wykonuje i automatyzuje wdrożenia aplikacji internetowych.

PODZIEL SIĘ:

guest
0 komentarzy
najstarszy
najnowszy oceniany
Inline Feedbacks
View all comments

[ninja_tables id=”27481″]